JP2008511058A

JP2008511058A - コンピュータシステムを用いるデータ品質および／または部分異数染色体の決定

Info

Publication number: JP2008511058A
Application number: JP2007528056A
Authority: JP
Inventors: パイパー，ジエイムズ・リチヤード; プール，イアン
Original assignee: アボツト・モレキユラー・インコーポレイテツド
Priority date: 2004-08-18
Filing date: 2005-08-18
Publication date: 2008-04-10
Also published as: EP1789786A4; EP1789786A2; WO2006023769A3; WO2006023769A2; CA2577741A1; US20060057618A1

Abstract

観察データの意味のあるグループ分けおよび／またはアッセイの全体的品質尺度の決定のための統計的方法などの、生体入手源からのサンプルに関する決定を行うための方法および／またはシステム。

Description

関連出願の相互参照
本願は、２００４年８月１８日出願で、参照によって本明細書に組み込まれる暫定特許出願６０／６０３２１８号からの優先権を主張するものである。

本願は、２００１年１０月１２日出願の非暫定の６０／３７８７６０号である２００２年１０月１１日出願の米国特許出願第１０２６９７２３号に関するものであり、それらのいずれも参照によって本明細書に組み込まれる。

２００３年１月１４日出願の米国特許出願第１０／３４２８０４号および２００２年１月１５日出願のそれの相当する暫定特許出願６０／３４９３１８号は、あらゆる点に関して参照によって本明細書に組み込まれる。

著作権情報
３７Ｃ．Ｆ．Ｒ．１．７１（ｅ）に従い、本願人らは、本開示の一部がソースコードリスト、スクリーン・ショット、ユーザー・インターフェースもしくは使用説明書またはいずれかの管轄区域で著作権保護が有効であるか有効となり得る本提出物の他の側面など（それらに限定されるものではない）の主張される著作権保護を受け、それに関係する材料を含むことに言及するものである。特許商標局の特許ファイルもしくは記録にあることから、前記特許文書または特許開示の何者かによるファクシミリ複製に対して、著作権所有者は異議を持たない。他の全ての権利は保持されており、他の全ての複製、配布、その内容に基づいた派生著作物の作製、公開陳列、ならびに出願もしくはそれのいずれかの部分の公開での実施は、該当する著作権法によって禁止される。

本発明は、生物学的アッセイおよびデータ解析の分野に関する。より具体的には、本発明は、代表的には生物入手源からのアッセイに関するある種の測定を行う上でのコンピュータその他の論理プロセッサによって実行もしくは支援される方法に関するものである。別の実施形態において本発明には、スクリーニングおよび／または各種疾患または状態に関する診断試験を行うためのシステム、方法またはキットが関与する。

正常なヒト細胞は、２２の常染色体対（多くの場合、番号１〜２２を用いて示される）および二つの性染色体（２３および２４として示される場合がある）に４６の染色体を有する。通常、正常細胞はあらゆる染色体（性染色体以外）の２つのコピーを有している。その結果、正常細胞は、やはり性染色体上にある遺伝子を除く、全ての遺伝子の２つのコピーをも有している。

ダウン症候群などの先天的状態および癌などの後天的な遺伝病においては、あらゆる染色体の２つのコピーおよび各遺伝子の２つのコピーというこの正常なパターンが乱れている場合が多い。全染色体数が変化している可能性があり、特には癌細胞は、全ての染色体または染色体腕の獲得または喪失のパターンを示し得る（細胞中の染色体のコピー数は、それの「倍数性」とも称される。）。他の場合、染色体再配置によって、１以上の染色体の一部が２つのコピーより多くまたは少なく存在する可能性がある。この部分は、１以上の遺伝子の全体または部分に相当し得るものである。

従って、遺伝子異常は多くの場合、コピー数の増減に関して報告されており、その場合に状況が異なると、コピー数は染色体、遺伝子またはより一般的には連続したＤＮＡ配列を指すものとなり得る。コピー数における変化は、コピー数不均衡と称される場合もある。

遺伝子は、メッセンジャーＲＮＡおよびそれから遺伝子によってコードされるタンパク質の産生を指す遺伝子発現を介して細胞の生物学に影響する。遺伝子コピー数は、細胞が作られる時に確立される細胞の静的特性であり、遺伝子発現は、細胞のゲノムならびに温度および治療薬などの外部環境の影響の両方によって影響され得る細胞の動的特性である。

一般的に、各種パターンのコピー数不均衡が、ある種の先天性異常またはある種の癌の特徴であり、不均衡パターンを決定することで、診断、予後および／または治療の方法を知ることができる。従って、非常に多くの場合で、細胞および／または組織および／またはそれらから誘導される物におけるコピー数不均衡を測定および／または確認および／または推定することが望ましい。染色体不均衡は、定量ＰＣＲ、イン・サイツ蛍光測定および特定の遺伝子配列数をカウントもしくは推算することを試みる他の技術等の各種技術を用いて測定される。しかしながら、多くの状況において、遺伝子不均衡を検出および／または測定する改善された方法の必要性が高まっている。

本願とともに提出された文書を含む、本提出におけるあらゆる箇所での著作、刊行物、販売または活動についての議論は、そのような著作物が先行技術を構成することを本発明者らが認めたものと解釈すべきではない。本明細書における活動、著作または刊行物についての言及は、そのような活動、著作または刊行物が特定の管轄区域において公知であったことを認めるものではない。

参考文献
A. D. Carothers, A likelihood-based approach to the estimation of relative DNA copy number by comparative genomic hybridization, Biometrics 53, 848-856, 1997；
J. Clark et al, Genome-wide screening for complete genetic loss in prostate cancer by comparative hybridization onto cDNA microarrays, Oncogene 22, 1247-1252, 2003；
J. Fridlyand et al, Statistical issues in the analysis of the array CGH data, Proc. Computational Systems Bioinformatics CSB ′03, 2003. J. Fridlyand et al, Hidden Markov models approach to the analysis of array CGH data. J. Multivariate Analysis 90, 132-153, 2004；
I. Miller and M. Miller, John E. Freund′s Mathematical Statistics 6^th edition. Prentice Hall, 1999. J. Piper et al, An objective method for detecting copy-number change in CGH microarray experiments, Proc. 3^rd Euroconference on Quantitative Molecular Cytogenetics, Rosenon；
Stockholm, Sweden, 4-6 July 2002, pp.109-114, 2002；
J.R. Pollack et al, Genome-wide analysis of DNA copy-number changes using cDNA microarrays. Nature Genet. 23, 41-46, 1999。

本発明には、代表的には生体試料に関係する、最も代表的には何らかの種類の論理実行システムまたはモジュールで実行される、データ解析に有用な技術、方法および／またはシステムが関係する。本発明の各種態様を、マイクロアレイ診断システムなどの生物学的な検出もしくは診断システムに基づいて多くの解析を行うソフトウェアに組み込むことができる。一部が独立に新規な態様を有する多くの具体的な診断アッセイおよびそれの詳細について下記で説明するが、本発明の解析方法は、データ集合を解析して、関連する分類および／またはデータ品質を確認しなければならない各種の診断状況および／または予測状況に利用される。

具体的な実施形態において、本発明は、細胞材料または核酸などの生体由来材料を含むサンプルのアッセイまたは分析を行うことが望まれる研究的および／または臨床的利用に関するものである。具体的な実施形態による本発明はさらに、アッセイ反応の画像、例えば生物学的検出用の各種アレイチップ１個の画像または撮像に好適な各種細胞もしくは組織標本の画像を解析することでサンプルアッセイを解析することが望まれる利用に関するものである。そのような状況では、取り込まれた画像データは、アッセイ反応の観察可能データのデジタル表現を提供する。この画像は、当業界では明らかなように、情報処理システム内で取り込みおよび解析される２次元画像であることができる。本発明の実施形態によれば、画像は、情報処理システムによってデジタル的に取り込まれるか、ないしはそのシステムに伝送される。

具体的な実施形態は、マイクロアレイでの、具体的な例では比較ゲノムハイブリダイゼーション（ＣＧＨ）マイクロアレイでの自動部分異数染色体検出（ＳＡ）（これは、一部の初期の研究および先行出願において部分異数染色体検出と称される。）および関連するデータ集合の解析を可能とする技術、方法および／またはシステムに関するものである。

他の具体的な実施形態は、ゲノムマイクロアレイ画像に関連するものなどのデータ集合の品質の自動および客観的測定を可能とする技術、方法および／またはシステムに関するものである。品質は、本明細書に記載の本発明の具体的な実施形態に従って定義される。ある種の実施形態では本発明には、データ品質または誤差率をサンプルの検出可能な特徴に相関させることによる未知サンプルの誤差率の予測を行う方法および／またはシステムが関与する。特定の実施形態において、自動部分異数染色体検出および／または客観的データ品質測定を用いて、各種疾患その他の状態の診断を実行または支援することができる。

本発明は、取り込み画像データを解析してデータ品質を推定することができるコンピュータシステムおよび／またはプログラムとして具体化することもでき、このシステムは、サンプルデータを取り込みおよび／または作製および／または表示するための他の構成要素と統合しても良い。

本発明の各種実施形態は、ジャバ、Ｃ＋＋、コボル、Ｃ、パスカル、フォートラン、ＰＬ１、ＬＩＳＰ、アセンブリーなどの好適なプログラミング言語ならびにＨＴＭＬ、ＸＭＬ、ｄＨＴＭＬ、ＳＱＬ、ＴＩＦＦ、ＪＰＥＧ、タブ区切りテキスト、バイナリーなどのいずれか好適なデータもしくはフォーマット規格を用いて汎用もしくは専用情報取り扱いシステム上で実行可能な診断解析用の方法および／またはシステムを提供する。明瞭を期すため、実際の実行の全ての特徴を本明細書に記載しているとは限らない。そのような実際の実行の開発（ソフトウェア開発プロジェクトでの場合のような）では、多くの実行固有の決定を行って、実行ごとに変動するシステム関連および／または事業関連の制約の順守のような開発者の具体的な目標および下位目標を達成するようにしなければならないことは明らかであろう。さらに明らかな点として、そのような開発努力は、複雑かつ時間を要するものであるが、本開示の恩恵を受ける当業者にはソフトウェア工学の日常的な取り組みであると考えられる。

本発明ならびに各種の具体的な態様および実施形態については、下記の図面および詳細な説明を参照することで理解が深まるであろう。明瞭を期すため、この議論では、具体的な例に関して装置、方法および概念についての言及を行う。しかしながら、本発明およびそれの態様は、各種の装置およびシステムに用途を有し得るものである。

さらに、本明細書に記載されている論理システムおよび方法が、モジュール方式で各種の異なる構成要素および各種機能を含み得ることは、当業界では公知である。本発明の異なる実施形態は、要素および機能の異なる混合体を含み得るものであり、各種要素の部分として各種機能を分類する場合がある。明瞭を期すため、本発明は、多くの異なる革新的構成要素ならびに革新的構成要素および公知の構成要素の革新的な組み合わせを含むシステムで説明される。本明細書中の例示的な実施形態で挙げられた革新的構成要素の全てを含む組み合わせに、本発明が限定されるものと推定すべきではない。

本明細書で使用される場合、「本発明」という用語は、本発明の１以上の具体的な実施形態を示すものと理解すべきである。当業者にとっては、本明細書中の記載内容から、本発明による多くの変形形態が明らかになろう。

本特許または特許出願ファイルは、カラーで作られた少なくとも１個の図面を含む。カラー図面を有する本特許または特許出願公開のコピーは、請求および必要な料金に支払いがあれば、当局によって提供される。

部分異数染色体検出
本発明の方法は、当業界においてある程度熟知されている診断アッセイの文脈で最も容易に理解できる。特定のマイクロアレイシステムの本発明の具体例の使用は本発明を限定するものと解釈すべきではなく、本発明は同様のデータ収集および解析の状況に用途を有するものである。遺伝子、染色体もしくはＤＮＡセグメント不均衡を検出する上でのある公知の技術では、例えば分析対象となる全ゲノムＤＮＡの試験サンプルを一つのフルオロフォア（例：Ｃｙ３）で標識し、異なるフルオロフォア（例：Ｃｙ５）＋過剰の例えば未標識競合ＤＮＡ（例：ＣｏｎｔｌＤＮＡ）で標識したＤＮＡの同様の量の基準サンプルとともにマイクロアレイにハイブリダイズすることで、反復配列ＤＮＡからのハイブリダイゼーションシグナルを抑制する。

代表的には、系統的に配置された標的配列ＤＮＡ領域またはスポットを用いてマイクロアレイを作る。ある代表的なシステムでは、マイクロアレイの各スポットは既知のＤＮＡ配列の多くのコピーを含み、それは標的または標的クローンと称される場合がある。多くのシステムで、各標的配列は、マイクロアレイ上の３つの複製スポットによって表される。一つの既知のヒト全ゲノムマイクロアレイは、３３３個の標的ＤＮＡ配列それぞれの多くのクローンを含む３つの複製スポットを含む。代表的には、各標的ＤＮＡ配列は、単一の染色体からＤＮＡ配列の特定の部分を含む。

従って、そのようなマイクロアレイを用いる代表的な検出手順では、マイクロアレイ標的スポットを試験サンプル、基準サンプルおよび他の試薬でハイブリダイズし、標的スポット領域でＣｙ３およびＣｙ５蛍光を示す画像を取り込む。この種のアッセイでは、取り込み画像は、アッセイからの観察可能なデータを表す。例示のシステムでは、取り込み画像を代表的には、バックグラウンド蛍光などのアーチファクトについて補正し、スポットをセグメント化および確認し、試験サンプル蛍光強度／基準サンプル蛍光強度の比（例：Ｃｙ３／Ｃｙ５）を、各スポットで測定する。そのようなシステムの例については、上記の参照および組み込まれた特許出願に記載されている。比率の正規化後、蛍光比は、試験サンプルと基準サンプルでコピー数が同じである相当する（また遺伝的に相補的な）ＤＮＡ配列を有するＤＮＡ配列を有する標的スポットでは約１．０と予想されるが、相当する試験ＤＮＡ配列コピー数が不均衡であるスポットの場合は１．０とは異なると予想される。試験サンプルでのコピー数の増幅または獲得によって比が大きくなるが、試験サンプルでのコピー数の喪失によって比は低くなる。この議論において、比という用語は、正規化された比を指す。

複製について平均を取った特定標的配列についての比が１．０から有意に異なっているか否かを確認するのに、各種統計的方法が提案または使用されている。そのようなものの一つが、上記で言及の共同譲渡された特許出願（米国特許出願Ａ／Ｎ１０２６９７２３、パイパー（Piper）、１０／１１／０２出願）に記載されている「ｐ値」法である。その方法は、一部の具体的な実施形態において、（１）一つの標的についての複製の平均比からの有意差レベルおよびｐ値；（２）標的の複製スポット比間の分散；および（３）ＤＮＡコピー数を有すると仮定されるか知られているか予想される同じマイクロアレイ上の他の標的の比の分散（そのような標的は、「モード」標的と称することもできる。）という３つの値を計算する。そのｐ値法およびいくつかの他の統計的方法は通常、各標的ＤＮＡ配列を分離して調べるものである。

部分異数染色体（ＳＡ）検出の例
第１の態様において本発明には、１以上の標的ＤＮＡ配列からの標的スポットからのマイクロアレイデータを用いてゲノムの不均衡領域を検出するシステムおよび／または方法が関与する。特に、先天性異常に関連するものなどの生来の遺伝子不均衡の場合、しかし多くの癌サンプルの場合も、ＤＮＡ配列コピー数不均衡がゲノム配列の隣接する領域に影響することは一般的であり、例えばダウン症候群での全染色体２１の獲得、または微小欠失症候群でのＤＮＡの数メガ塩基対の欠失がある。本発明は、具体的な実施形態において、１以上の標的での不均衡の同時発生を用いて、不均衡検出の検出および特異性を高める。

特定の実施形態では、本発明は、観察される比を最も良く説明する期待比のモデルを繰り返し測定することで、観察されたスポット比の集合を解析する。期待比は、至適な感受性を有し、シグナルの減弱がない完全にノイズのないシステムでの試験サンプルでの所定のコピー数および基準サンプルでの別の所定のコピー数から表手的について観察されると考えられる比率である。基準ＤＮＡのコピー数は既知であることから、試験ＤＮＡの未知のコピー数を、期待比から求めることができる。本発明の具体的な実施形態によるモデルは、全てが同じ期待比を有する同一染色体上の標的配列の順次の集合に標的配列を分類する。この場合、これらの順次集合は、セグメントと称される。ベースモデルは、全ての標的比が比の値１．０を有するものである（モード標的とも称される）。

本発明の具体的な実施形態に従ってモデルを構築する際には、各反復がそれ以前のモデルに１以上の標的配列の非モードセグメントを加える。選択される非モード（または陽性）セグメントは、尤度の統計的概念に基づいた至適化を用いて、新たなモデルをデータに最も適合させるものである。新たなモデルは、対数尤度における利得が統計的に有意である場合およびその場合のみに許容される。モデルに対する有意差のない変化のみが可能である場合、それは完全であると見なされる。

本発明の具体的な実施形態によるモデル構築は、図１Ａ〜Ｅの試験によって視覚的に示すことができ、概念的に理解することができる。そのプロセスは説明するのが簡単であるが、バリデーション済みで再現可能な診断の場合のように、この方法の一部の応用においては、データ解析実施の数学的に決定論的および厳密な方法を有することが望ましく、本発明の具体的な実施形態によるそれの例について下記で詳細に説明する。

図示した配列では、各連続モデルは、それ以前のモデルより有意に良好な観察データに適合する。この例では、第６番目の反復での対数尤度における利得が、統計解析の分野で熟知されているχ^２検定によってｐ＞０．０２を有していたことから、有意差がないと判断された。これによって、より良好に適合するモデルの探求は終了することになった。

本発明の具体的な実施形態による部分異数染色体検出は、陽性の標的（すなわち、相当する試験サンプル配列がＤＮＡ喪失または獲得を有する標的）が長さ２標的配列以上のセグメントにあり、単離陽性標的の検出において少なくとも同等の性能を有する場合、他の方法より優れた性能を有する。

方法例
具体的な実施形態によれば本発明は、全染色体が関与するか染色体の一部が関与するかを問わず、試験サンプルコピー数変化が通常は、複数の順次標的スポットで比を変化させるということを利用するものである。この議論に関して、試験サンプルにおいて全てが同じコピー数変化を示すＤＮＡ標的の連続集合を、セグメント変化または短縮してセグメントと称する。

セグメント解析の方法は、ＣＧＨ解析へのｃＤＮＡクローン発現マイクロアレイの適用の文脈で検討されてきた。小配列長さのｃＤＮＡ標的クローンでは、全ゲノムＤＮＡでプロービングした場合に非常にノイズの大きい比データとなり、個々の標的の性能はそれに応じて悪くなる。例えば、ポラック（Pollack）ら（１９９９）は、「移動平均ウィンドウ」を用いて順次ｃＤＮＡ標的クローンの集合の単一コピー変化を感度９８％および特異性９８％で検出することについて報告しているが、検出されたセグメントに有意差の尺度を適用していない。クラーク（Clark）ら（２００３）は、全ての標的クローン比データの配列に対してＬＯＷＥＳＳ曲線適合を用いて、比が変化した可能なセグメントを検出し、次にマン・ホイットニーのU検定を用いて候補セグメントについての有意性レベルを提供することを提案している。ＣＧＨ解析に特異的に製造されたＢＡＣ／ＰＡＣクローンマイクロアレイへのセグメント技術の一つの応用が、フリドルヤンド（Fridlyand）ら（２００３、２００４）によって報告されており、彼らは隠れマルコフモデル（ＨＭＭ）を癌細胞系のアレイＣＧＨ解析からの標的比の配列に適合させている。

クラーク（Clark）ら（２００３）が議論しているように、セグメント同定には２つの構成要素がある。最初に、１以上の候補セグメントを提案しなければならない。本発明の一部の実施形態では、全ての可能なセグメントを提案する全数検索を用いる。これは、陽性セグメントがその候補発生法によって見落とされる可能性があるという問題を上手く回避するものであり、本発明はその後の計算を非常に効率良くする方法を用いることができる。第２に、各候補セグメントの値または有意性の判定基準を用いて、良好なセグメントを選択し、良好性の低いセグメントを除外することで、ランダムノイズの効果から真のコピー数変化を区別する。

本発明の態様は、プロファイル点の一連の隣接セグメントとしてＣＧＨ染色体比プロファイルのモデルを反復的に構築するための最大尤度の枠組みを提案したカロザース（Carothers）（１９９７）によって報告された中期細胞ＣＧＨ解析法を参照することで、本発明の態様についての理解をさらに深めることができる。カロザースのモデルでは、あるセグメントのあらゆる点が同じ試験および基準コピー数を有していた。モデル構築は、染色体プロファイル上の隣接する点間の「クロストーク」と一致するよう制約されており、生じる尤度上昇が適切な統計的検定に従って有意であった場合にのみ、モデルをより複雑にすることが可能となるという節減の原理を用いていた。

本発明の具体的な実施形態は、尤度の枠組み、反復法、節減原理、制約および試験コピー数および基準コピー数から誘導される基礎「期待比」に関するモデルの特異性のうちの１以上を利用する。クロストークは通常、マイクロアレイ上には存在せず、解法における制約としてのそれの役割は、（ｉ）非モード期待比を有するセグメントが同一染色体上の順次のゲノム順に並んだ標的クローンを有するという主張、（ｉｉ）期待比の許容される値に対する理論に基づいた制約によって代わられている。

最大化される尤度関数の一つの具体例について、以下において理解することができる。（１）マイクロアレイ上のゲノム順の標的集合にｉ（ｉ＝１・・・ｋ）のインデックスを付け、一つの標的内の複製スポットをｒ（ｒ＝１・・・ｎ_ｉ）とインデックス付けする。代表的には、全てのｉについてｎ_ｉ＝３であり、代表的にはｉは特定のマイクロアレイ上の提供または解析される標的数に応じて３３３または２８７などの値を取る。標的ｉに属するスポットｒについての観察比データをｙ_ｒｉと称し、それは基礎値（標的Ｙ_ｉについての複製全体で一定）＋誤差項ｅ_ｉｒを有することでｙ_ｒｉ＝Ｙ_ｉ＋ｅ_ｉｒとなっており、標的ｉの複製スポット全体での観察平均比をｙ_ｉと称し、マイクロアレイ上の標的集合についての観察比の集合をｙと称する（若干異なる理論的発達があっただけで対数比を用いることが可能となったが、実際に調べる状況下では、対数比の公式化は、比自体を用いた場合ほど良好に機能しなかった。）。

本発明の具体的な実施形態によるモデルは、各標的座での試験コピー数および基準コピー数についての基礎となる仮説を代表するｅ_ｉと称される「期待比」の集合である。マイクロアレイ上の標的の完全集合についての期待比の集合をｃと称する。

最大尤度によって最も良好に適合するモデルを選択するため、本発明は、ｃ：Ｌ（ｃ）＝ｌｏｇ（ｐ（ｙ｜ｃ））とした場合にｙの対数尤度を最大とする。

標的比が互いに統計的に独立であると仮定する。具体的には、ｐ（ｙ_ｉ｜ｃ）＝ｐ（ｙ_ｉ｜ｃ_ｉ）およびｐ（ｙ_ｉ｜ｃ_ｉ）＝ｐ（ｙ_ｉ／ｃ_ｉ，ｙ_ｊ）、ｉ≠ｊである。これによって、Ｌ（ｃ）＝ｌｏｇ（ｐ（ｙ｜ｃ））＝Σ_ｉｐ（ｙ_ｉ｜ｃ_ｉ）と書くことができ、全ての標的ｉにわたっての合計を行うことができる。正規分布を仮定すると、Ｌ（ｃ）は、式：Ｌ（ｃ）＝α−Σ_ｉ（ｙ_ｉ−ｃ_ｉ）^２／２ν_ｉ［式中、αは定数であり、ν_ｉはｙｉの分散である。］から計算することができる。

分散ν_ｉは、ｕ_ｉ＋ｗ［式中、ｕ_ｉ＝標的内分散／ｎ_ｉ（代表的には３）であり、ｗは「標的ノイズ」（正常なコピー数の試験および基準ＤＮＡを全ての標的座でハイブリダイズした場合の標的平均比の標的集合間の分散）である。］としてモデル化することができる。セグメント移行が比較的希であると仮定すると、ｗは、下記のようにして、集合の全てのｕ_ｉおよび隣接標的差の分布の分散（ｙ_ｉ−ｙ_ｉ−１）から近似的に推算することができる。所定のｉに関して、ｖａｒ（ｙ_ｉ−ｙ_ｉ−１）＝ｖａｒ（ｙ_ｉ）＋ｖａｒ（ｙ_ｉ−１）＝ν_ｉ＋ν_ｉ−１［式中、ｖａｒ（・・）は、ランダム変数の分散である。］である。これは公知の定理である。ν_ｉおよびν_ｉ−１は互いに同じでなくても良いが、標的集合全体（例：ゲノム全体）にわたる平均値を考慮すると、Ｅ（ｖａｒ（ｙ_ｉ−ｙ_ｉ−１））＝２Ｅ（ν_ｉ）［式中、Ｅ（・・）は、ｉによってインデックス付けされた集合にわたるランダム変数の期待値である。］である。ν_ｉをｕ_ｉ＋ｗに代え［留意すべき点として、ｗは、標的依存の変数ではなく染色体（またはチップ）の定数であることからＥ（ｗ）＝ｗである。］、並べ替えることで、ｗ＝０．５Ｅ（ｖａｒ（ｙ_ｉ−ｙ_ｉ−１））−Ｅ（ｕ_ｉ）となる。

Ｅ（ｖａｒ（ｙ_ｉ−ｙ_ｉ−１））もＥ（ｕ_ｉ）もいずれも、データから推算することができる。Ｅ（ｖａｒ（ｙ_ｉ−ｙ_ｉ−１））は、全ての隣接標的比差（ｙ_ｉ−ｙ_ｉ−１）の集合の分散［ｖａｒ｛（ｙ_ｉ−ｙ_ｉ−１）｝と称される］によって近似される。ｖａｒ｛（ｙ_ｉ−ｙ_ｉ−１）｝を推算する場合、部分比変化における差を除外し、それは当然のことながら最初は未知である。これは、具体的な実施形態においては、第１および第３四分位値±３×四分位範囲から確立された閾値に基づいて外れ値差を除外することで達成される。同様に、平均標的内分散Ｅ（ｕ_ｉ）を計算する場合、外れ値分散を棄却する。

ここで、実行される診断解析に適した制約下に、ｃの可能な値（期待標的比）の集合全体について、尤度Ｌ（ｃ）を最大とする。

本発明の好ましい実施形態で用いられるモデルは、平滑性条件を持たないが（標的は統計的に独立であり、標的配列数に対してプロットした場合の実際の標的比データは常に「ギザギザ」しているように見える。）、制約が全くないと、至適解が期待比値が単純に観察値に等しいというものになる可能性がある（例：ｃ＝ｙ）。

一つの例示的実施形態においては、特定のＣＧＨマイクロアレイ診断用途に適した２つの制約を用いる。最初に、全ての期待比ｃ_ｉが１．０でなければならないか、または試験および基準ＤＮＡがあらゆる場所でコピー数１、２または３を有するモデルに適合する量だけ１．０から逸脱するものでなければならない（この制約は先天性不均衡の場合には特に適しているが、癌、レトロウィルス感染その他の状態によるものなどの他の細胞不均衡の検出には他のコピー数の方が適切な場合がある。）。

留意すべき点として、Ｙ染色体標的は、これら標的とＸ染色体および／または常染色体配列との間の相同度が高いために、女性サンプルではコピー数ゼロを有するものとして処理されない。その代わり、Ｙは女性サンプルにおいてコピー数０．５を有するものと仮定され、女性試験サンプル−男性基準サンプルで理論期待比が０．５となり、男性試験サンプル−女性基準サンプルで２．０となり、性別を合わせた試験および基準サンプルハイブリダイゼーションでは１．０となる。このＹの処理は単純化であるが、標的間でＹとＸの以外の相同性を無視していることから、それは実際にはかなり良好に機能することが認められている。

その方法の具体的な実施形態では、これらの制約はＣ_ｉ＝１＋ｓ（Ｒ_ｉ−１）［式中、Ｒ_ｉ＝ｔ_ｉ／ｒ_ｉである。］が｛０．５，１．０，１．５，２．０｝のいずれかであり、ｓが最終的にデータから推算されることになるチップの定数であるということを要求することで適用される。この議論におけるｓ値は、期待比値と比較した測定非モード比の減弱を表すものと理解することができる。異なる期待比がある単一の実験について期待比に対して測定比をプロットすることで、勾配を有する直線となる以前の研究と若干の類似性があるために、この値は「勾配」と称される場合がある。第２の制約として、原則的に０＜ｓ＜１としながら、自明な解を排除するために、０．２５＜ｓ＜１．０となるようにｓを制限する。

さらに別の具体的な実施形態では、標的の順序通りの配列での期待比に制約された変化を仮定することで検索を進める。各反復において、下記の４つの自由パラメータによって定義される空間にわたって検索することで、尤度Ｌ（ｃ）を最大とするいずれか単一の非モードセグメント（または既存の非モードセグメントの内部、例えば染色体Ｘ内にある新たなモード−比セグメント）を加える。

１．Ｌ_ｂ［最初に変化した標的のインデックス］。

２．Ｌ_ｅ［最後に変化した標的のインデックス］。検索は、単一染色体内に含まれるセグメントに限定される。

３．ｑ［勾配＝１と仮定した場合の変化した標的の期待「比偏差」（すなわち１．０からの偏差）］。具体的な実施形態では、ｑは（ｔ／ｒ−１）として表される４つの異なる許容値の集合から導き出される（上記参照）。留意すべき点として、ｃ＝１＋ｓｑである。

４．ｓ［このチップについての勾配の現在最も良い推算］。

現在のモデルと以前のモデルの間の対数尤度における差は、２を掛けると、モデルに加えられた追加パラメータ数に等しい自由度でχ^２分布する（Miller and Miller, 1999, p.404）。従って、モデル構築の各反復は、自由度４でのχ^２分布で現在のモデルと以前のモデルとの間の対数尤度差を２回比較することで評価される。対数尤度の利得が選択された有意差閾値についての臨界値以下になる場合、検索は終了する。すなわち、形式的有意差検定を用いることで、モデルの過適合を回避する。

別の具体的な実施形態では、留意すべき点として、一つの染色体ごとに至適化を行うことが可能であるが、勾配ｓおよび標的比分散ｗはチップ全体の成分をも有する。従って、具体的な実施形態では、セグメントが個々の染色体の末端を超えて広がらないようにしながら、チップ上の全標的集合全体にわたって同時に検索することが適切である。最終結果は、チップ全体についてのコピー数変化の記述である。

検索空間は、比較的良好に決まっている。Ｌ_ｂおよびＬ_ｅは、同一染色体上になければならない。このことは、一つの例のチップにおける可能なセグメントエンドポイント対の数を、２０００個のレベルに限定するものである。ｑが取り得る可能な値は４つのみである。上記のように、ｓは０．２５＜ｓ＜１．０の範囲になるように制約されている。ｓを例えば０．０１ずつ増加させながら至適なｓについての総当たり検索を行うのは、あまり労力を要するものではないと考えられ、具体的な実施形態において用いることができる。しかしながら、好ましい方法においては、Ｌ（ｃ）＝ａ−Σ_ｉ（ｙ_ｉ−ｃ_ｉ）^２／ν_ｉを下記のようにｓの関数として表すことができることも留意すべき点である。

Ｌ（ｃ）＝ａ−Σ_ｉ（ｙ_ｉ−ｃ_ｉ）^２／ν_ｉ
＝ａ−Σ_ｉ（ｙ_ｉ ^２−２ｙ_ｉｃ_ｉ＋ｃ_ｉ ^２）／ν_ｉ
＝ａ−Σ_ｉ（ｙ_ｉ ^２−２ｙ_ｉ（１＋ｓｑ_ｉ）＋（１＋ｓｑ_ｉ）^２）／ν_ｉ（式１）
検索におけるある特定の点でのｑ、Ｌ_ｂおよびＬ_ｅの特定の値を考慮すると、それらの点でＬ（ｃ）を最大とするｓの値は、上記の最終表現を微分し、導関数がゼロである所を見つけることで見出すことができる。

ｄＬ（ｃ）／ｄｓ＝−Σ_ｉ（−２ｙ_ｉｑ_ｉ＋２ｑ_ｉ＋２ｓｑ_ｉ ^２）／ν_ｉ［この式は、
ｓ＝Σ_ｉｑ_ｉ（ｙ_ｉ−１）／ν_ｉ）／（Σ_ｉｑ_ｉ ^２／ν_ｉ）である場合にゼロである。］（式２）
ｓの至適値が許容される範囲０．２５＜ｓ＜１．０外にある場合、トリプル｛ｑ、Ｌ_ｂ、Ｌ_ｅ｝が、さらなる考慮から除外される。

さらに別の具体的な実施形態では、式１が、その後の反復におけるＬ（ｃ）の効率的な計算の基礎も提供する。検索のいずれかの点で、現在の仮想の次のセグメント変化が単一染色体に限定されることから、他の各染色体が寄与するＬ（ｃ）の値は、Ｌ_ｊ（ｃ_ｊ）＝Ａ_ｊ＋Ｂ_ｊｓ＋Ｃ_ｊｓ^２［式中、ｊはその染色体をインデックス付けするものであり；ｃ_ｊは染色体ｊに属するｃの下位集合であり；Ａ_ｊ、Ｂ_ｊおよびＣ_ｊは定数である。］の形のものである。下記の和は、染色体ｊに属する全ての標的ｉに当てはまる（記号的には、ｉ∈ｊである。）。

Ａ_ｊ＝Σ_ｉ∈ｊ（ｙ_ｉ−１）^２／ν_ｉ
Ｂ_ｊ＝−２Σ_ｉ∈ｊｑ_ｉ（ｙ_ｉ−１）／ν_ｉ
Ｃ_ｊ＝Σ_ｉ∈ｊｑ_ｉ ^２／ν_ｉ。

項Ａ_ｊは、解析を通じていずれの場合も一定である。染色体ｋにおける新たなセグメントについて検索を行う間、本発明は項Σ_ｊ≠ｋＢ_ｊおよびΣ_ｊ≠ｋＣ_ｊを予め計算することができ、それは残りの２３染色体のＬ（ｃ）およびそれのｓに関する導関数に対する寄与を直接提供するものである。これらの至適化によって、ＳＡ方法全体が実際に利用可能となり、例えば６６７ＭＨｚパワーＰＣＧ４で完了するまで計算するのに１または２秒を要するのみとなる。

上記の方法に対する代替法として、前述のようにアルゴリズムの各反復で勾配値を再計算する代わりに、部分異数染色体検出アルゴリズムを下記のように実行することができる。

１．非モードである最も高い尤度を有するセグメントを見出し、そのセグメントにおける標的の観察比の平均を計算する。尤度利得がカイ二乗検定によって有意である全てのセグメントが見出されるまで、このプロセスを反復する。

２．平均観察セグメント比の集合の期待比の集合に対する最良適合を見出す。この段階は、勾配パラメータについての値を推算するものである。その適合化は、可能性のあるｓ値に限定されるものでなければならない。

３．同じ期待比を有する隣接セグメントをまとめる。期待比１．０を割り当てた第１段階で検出されたセグメントは、そのサンプルがゲノムクローンの混合群（「モザイク」サンプル）を含むことを示す場合がある。従ってそれらは希釈されるべきではなく、ユーザーに対して異常なものとして提供されるべきである。

実験結果
一連の実験的検討において、それぞれ３つの複製スポットを有する２８７個の標的または３３３個の標的を含むマイクロアレイを用いる実験から、５１５個のマイクロアレイ画像を収集した。これらのサンプルで用いた試験ＤＮＡはほとんどが既知の全染色体獲得または既知の微小欠失を有する各種細胞系からのものであり、少量のサンプルで正常な試験ＤＮＡを用いた。一貫して（すなわち、ランダムではない）、そして一般的に擬陽性または擬陰性検出事象の原因となることが以前に確認されている８個の標的クローンを、２８７個の標的を含むマイクロアレイを用いる全てのサンプルの解析から除外した。３３３個の標的を有するマイクロアレイを用いたサンプルでは、全ての標的クローンを解析に含めた。

標的ごとに標的についての擬陰性率（ＦＮＲ）および擬陽性率（ＦＰＲ）に関して性能を評価した。ＦＮＲ＝ＦＮ／ＧＴＰ、すなわちグランドトルース陽性標的数で擬陰性標的数を割ったものである。欠けている標的は、分子と分母の両方から除外した。同様に、ＦＰＲ＝ＦＰ／ＧＴＮ。ここでは、結果はほとんどの場合、解析感度（１−ＦＮＲ）および解析特異性（１−ＦＰＲ）によって報告される。

受信者動作特性（ＲＯＣ；すなわち、感度−特異性）データを得るため、広範囲のχ^２確率閾値で解析を繰り返した。

利用可能なデータ集合はほとんど、微小欠失、微小重複その他の小さい不均衡の例が比較的少ないトリソミー細胞系によるハイブリダイゼーションからなるものであったことから、標的平均比データを４つの異なる方法で解析して、小セグメントおよび単離標的コピー数の変化によって生じると考えられる問題のシミュレーションを行った。

ある解析では、記載のＳＡ法を、最初のゲノム順で標的クローンデータ集合に適用した。これは下記において、「標準ＳＡ」と称する。２８７個の標的を有する全てのマイクロアレイにおいて、染色体Ｙは長さ２のセグメントの１例を与え、かなりの数のサンプルで、染色体２２のディジョージ症候群欠失領域が長さ３のセグメントの１例であった。他の全ての非モードセグメントは７以上の長さを有していた。

第２の解析では、標的クローンの順序を変えるか、「シャッフル」することで、長い非モードセグメントにおけるクローンのうちの少なくとも一部を１、２、３または４個の隣接クローンのセグメントに分離するための並べ替えを行った。その順序変更は半ランダムとしたことから、各サンプルについて異なる並べ替えを用いた。ＸおよびＹ染色体はシャッフルしないままとした。次に、記載のＳＡ法を、シャッフルした順序で標的クローンデータ集合に適用した。セグメントはいずれの長さでも可能としながら性染色体標的を標準的な方法で解析することで、勾配計算は「良好なスタートを切る」ことができた。これは下記において、「シャッフルＳＡ」と称される。

第３の解析において、このシミュレーション実験のみのための一時的尺度として、ＳＡアルゴリズムをさらに制限して、常染色体上の唯一の可能な候補セグメントが単一の標的クローンからなるようにした。そうして、全ての常染色体標的が単離標的のみとして検出可能となった。このシミュレーションによって、非常に大きい単離標的集合が得られ、それは、実データがこれに関して提供されるべき場合に予想されるものよりかなり大きいものであった。これは「単離標的ＳＡ」と称される。

比較のため、最初のｐ値法（ＰＶ；詳細な説明については、Piper, 2002参照）も適用し、ＦＮカウンティングを常染色体グランドトルース陽性標的のみに限定することで、直接比較を上記の単離標的方法で行うことができた。

各場合において、ＦＰＲは全標的（すなわち、性染色体を含む）に基づいたものとした。標準ＳＡは単離標的ＳＡより多くのＦＰを発生させることから、単離標的ＳＡについてのＦＰＲは標準ＳＡによって発生させた。

性能に対するセグメント長さの影響についての理解をさらに深めるため、検出される標的クローン数とセグメントの真の長さの二次元ヒストグラムを、「シャッフルＳＡ」解析から抽出した。χ^２確率閾値の単一の好適な値を用いた。

上記の制約部分異数染色体（ＳＡ）法は、「勾配」法と称される。より単純な代替法があり、それを我々は「基本」法と称する。基本法では、観察比データの可能なセグメントをモデリングするのに選択される比は、そのセグメント中の全ての標的全体での平均観察比である。すなわち、このモデルには、「許容期待比」および「勾配」のいずれの概念もない。予備実験で、ランダムに全て「同じ方向に進む」小さい非モード比を有するごくわずかな標的を含む擬陽性セグメントの高い尤度を示していることから、単一の特別制限が必要であること、すなわち、セグメントのモデル比が＜０．８５または＞１．１５でなければならないことがわかった。

結果および考察
図２は、他の方法と比較して本発明の具体的な実施形態による方法を用いて不均衡検出の感度と特異性を比較するグラフの例である。図２は、全標的についての標準ＳＡおよびシャッフルＳＡ、ならびに常染色体標的のみについての単離標的ＳＡおよびＰＶという４つの方法からの感度と特異性（ＲＯＣとも称する）曲線を比較する図である。これらの結果は、ＳＡの方がＰＶより良好な成績を与えることを明瞭に示している。コピー数変化に長さ２以上の標的クローンのセグメントが関与している場合には、その改善が劇的である。しかしながら、その改善はＳＡが人為的に長さ１標的クローンのセグメントに限定される場合もかなり大きい。

表１には、３個のマイクロアレイ当たり約１個の擬陽性を与えるようにχ^２閾値を選択した場合、標的順序「シャッフル」後にＳＡによって解析されたデータに存在する非モードセグメントのカウントの２次元ヒストグラムを示してある。そのヒストグラムには、垂直方向にセグメントの真の長さによって、そして水平方向で実際に検出されたセグメントからの標的クローンの数によってインデックスを付けてある。結果から、セグメント検出性能が３以上の標的クローンを有するセグメントにおいて優れているがわかる。

図４は、データの１１０チップ小集合について測定された「勾配」法および「基本」法による単離標的ＳＡに関するＲＯＣ曲線を示す図である。「勾配」ＳＡ法は、単離標的クローンの検出において「基本」法より優れている。これは、主として下記の理由によるものと考えられている。検出されるためには、セグメントの対数比に勾配を掛けたものが、最も小さい許容されるモデル対数比の少なくとも５０％でなければならない。すなわち、その方法は、単離クローンに最小比条件を課すものである。最小比は、勾配によって決まるものであることから、各サンプルに特異的である。このためそれは、「基本」法によって用いられる全体比閾値より効率的に擬陽性を排除するものである。しかしながら、「基本」法は、いくつかの利点を有する。最も顕著には、それは、勾配モデルよりかなり良好にモザイクコピー数変化を検出すると考えられる。
出生前および出生後遺伝子試験への応用例
別の実施形態では、本発明を臨床および／または研究の場面でアレイ比較ゲノムハイブリダイゼーション（ａＣＧＨ）とともに用いて、コピー数における部分および全染色体変化を検出することができる。特定の具体的な例では、ゲノ・センサー（Geno Sensor；商標名）読み取り装置と組み合わせてテカン（Tecan）ＨＳ４８００ハイブリダイゼーションステーションを用いる。一つの実施形態例では、三連でスポットされた３３３個のクローンを含むアレイ上でハイブリダイゼーションを行う。好ましいアレイでは、対象となる既知の微小欠失／微小重複に関連する全てのテロメアおよび領域が、アレイ上の２以上の近接した標的配列によって表され、正常末梢血試料（ＰＢＳ）に対してＰＣＲまたはＦＩＳＨなどの解析によって標的特異性を測定することで多形標的を回避する。

本発明の具体的な実施形態によれば、ユーザーソフトウェアパッケージ（例：ゲノ・センサーソフトウェア）が本明細書で前述の部分異数染色体（ＳＡ）の統計的解析方法を用いることで、感度および特異性が向上する。別の実施形態では、下記に示すような全体的品質のハイブリダイゼーション指標を用いることもできる。

実験的試験では、この新たなアレイおよびアッセイ様式によって、アッセイ性能を向上させながら、先天性遺伝子不均衡を検出する結果を得るのに要する時間が大幅に短縮される（例：出生前、出生後および着床前）。例えば、あるアッセイで純粋なＤＮＡで開始する結果を得るのに要する時間が、９６時間から３６時間に短縮され、しかも変動係数および再現性は向上している。さらなる至適化によって、応答時間がさらに短縮されるものと予想される。

従って、具体的な実施形態では、本発明による診断システムおよび／または方法を、精神遅滞／発育遅延、身体的先天性欠損症および異常形態的特徴などの発達障害の一般的な原因となっている染色体不均衡を検出する上で至適化することができる。現在、染色体異数性の出生後診断においては中期核型解析が標準であるが、微小欠失症候群および微小重複症候群の検出には超顕微鏡的ゲノム領域をターゲティングするプローブを用いる蛍光イン・サイツハイブリダイゼーション（ＦＩＳＨ）が標準である。具体的な実施形態での本発明には、比較ゲノムハイブリダイゼーション（ＣＧＨ）の使用による一つのアッセイでの染色体異数性ならびに微小欠失症候群および微小重複症候群の診断が関与する。具体的な実施形態では、本発明による検出システムまたは方法を、これらＤＮＡ配列不均衡の出生前、出生後または胚着床前診断に至適化することができる。従って、具体的な実施形態において本発明は、各標的クローンが十分に特性決定され、特異的染色体領域にマッピングされる（アレイ−ＣＨＧ）ａＣＧＨ、（固体支持体に結合した染色体クローンへのＣＧＨ技術の適用）を用いる。本発明の具体的な実施形態によるａＣＧＨ解析によって、不均衡なゲノム異常の非常に感度の高い検出が可能であり、単一アッセイで全染色体異数性、微小欠失、微小重複および不均衡なテロメア周辺（ｓｕｂＴｅｌ）再配列の診断的検出を提供することができる。

本発明のＳＡ法を用いて、相互ハイブリダイゼーションを必要としない非常に再現性の高い自動ＣＧＨアッセイ様式を可能とすることができ、新鮮および固定の両方の末梢血（ＰＢ）または細胞系試料からコピー数異常（ＣＮＡ）が高い信頼性で検出される。

自動プラットフォーム
好ましい実施形態では、本発明の解析方法を、ハイブリダイゼーションおよび洗浄を自動化し、画像取り込みおよびデータ解析を自動化し、アッセイの品質を評価し、定性的結果（取得、喪失、変化なし）を報告するＣＧＨプラットフォームに組み込むことができる。ａ）改良されたマイクロアレイ標識／ハイブリダイゼーションキット、ｂ）スライドグラス上の内容を拡大したマイクロアレイ、ｃ）専用ハイブリダイゼーションプロトコールを行うテカンＨＳ４８００ハイブリダイゼーションステーションおよびｄ）本明細書に記載の方法を含むソフトウェアアルゴリズムを有するゲノ・センサースライドグラス読み取り装置という変更を用いて、現在のシステムのいくつかの例を本発明に従って実行できるようにすることが可能である。

ａＣＧＨアレイおよび標的配列（クローン）選択
本発明の方法を用いて対象の特異的アッセイを行うよう開発されたａＣＧＨアレイは、３３３個のゲノム標的ＤＮＡ配列（またはクローン）からなる。クローン選択を行うため、対象の領域を、刊行物、共同研究者および国内の遺伝学会議によって確認した。全染色体または染色体セグメントの獲得／喪失を検出する際の信頼性を高めるために、染色体腕当たり最低３個のクローンを選択した（染色体当たり６個）。そのアレイは、既知の微小欠失／微小重複領域に８２個のテロメア周辺クローンおよび２９個のクローンを含む。各テロメアは、末端動原体型染色体ｐ腕以外は２個のクローンによって表される。各微小欠失／微小重複領域は、２〜５個のクローンによってカバーされる。各クローンが何であるかは、クローン特異的プライマーを用いるＰＣＲアッセイによって確認し、各クローンの特異性および細胞遺伝学的位置はＦＩＳＨによって検証した。

ａＣＧＨアッセイの１例においては、試験および正常基準ＤＮＡサンプルをシアニン３−ｄＣＴＰおよびシアニン５−ｄＣＴＰ（Perkin Elmer）でランダムプライム標識する。さらに精製した後、試験プローブおよび基準プローブをａＣＧＨハイブリダイゼーション緩衝液中で合わせ、テカンＨＳ４８００ハイブリダイゼーションステーション上の３３３−クローンアレイに２４時間ハイブリダイズし、次にアレイの自動洗浄および走査を行う。

画像およびデータ解析ソフトウェア
システムの１例において、スライドグラス読み取り用に改造された読み取り装置を用いてアレイ画像を取り込む。読み取り装置に関連するソフトウェアが画像取得、解析およびデータ報告を制御する。そのソフトウェアは、ＤＡＰＩシグナルに基づいてスポットを確認し、緑および赤画像平面から平均強度を測定し、バックグラウンドを引き、緑／赤シグナルの比を求め、サンプルＤＮＡのモードＤＮＡコピー数を最も代表する比率を計算する。各標的に関して、モードＤＮＡコピー数に対する正規化された比率を計算し、個々の変化の有意差を報告する。図３は、例えば各種蛍光標識を有するスライドグラスを読み取るよう設計または改造された読み取り装置でアレイ画像として取り込まれた観察データの１例を示す図である。

上記の部分異数染色体解析を用いることで、非常に感度の良い部分ＣＮＡの検出が可能となる。さらにそのソフトウェアは、下記に記載のアッセイ全体および画像品質の量的評点などの予測的品質管理の特徴（品質尺度）を含むことができ、スポットセグメント化の完全性およびスポット識別の信頼性の尺度ならびに画像焦点などの内容も含むことができる。

従って、前記の新たなデータ解析および品質除外アルゴリズムによって、ａ）品質尺度パラメータについての実験的に選択されたカットオフに基づく低品質データの除外、およびｂ）ゲノムコピー数における変化を「真正」とカウントする確率の適切なレベルの選択が可能となる。

品質の客観的評価
別の具体的な実施形態によれば、本発明には、ゲノムマイクロアレイ解析品質の客観的定義、「品質尺度」の具体的定義、ならびに測定可能な「品質特徴」から品質尺度を自動的に推算する方法の全般的枠組みを提供する１以上の方法および／またはシステムが関与する。具体的な実施形態において、標的配列の真のコピー数がわかっているチップ画像例（例：既知サンプル）によって推算のパラメータをトレーニングすることができる。

コピー数変化を検出する上での部分異数染色体（ＳＡ）法の文脈でのこのアプローチの実施可能性を示す結果が、下記で提供される。本発明には、イン・ビトロ診断（ＩＶＤ）マイクロアレイ解析ソフトウェアなどの各種用途がある。

緒言
マイクロアレイ実験がゲノムコピー数変化を正確に検出する能力は、少なくとも２つの要素に関係している。最初に、コピー数変化があるハイブリダイズ標識について測定される比は、通常またはモードコピー数を有するハイブリダイズ標識の比と十分に異なるものでなければならない。第２に、測定された比の値における不規則変動が、十分に低いものでなければならない。別の表現を行うと、陰性事象に固有のノイズから陽性事象を識別する上で十分なシグナルがなければならない。シグナルの各種尺度がが可能であり、例えば陽性対照標的クローンについての比の変化、または上記で説明した部分異数染色体手順によって戻るような観察／期待比に関係する勾配の値などがある。ノイズの各種測定も当業界では公知であり、例えば陰性対照標的クローンについての比変化の標準偏差、標的の複製スポット間の変動係数、スポット内の個々の画素値の試験および基準強度の相関、または平均シグナル／平均バックグラウンドの比がある。マイクロアレイの熟練したユーザーは、特別な形態でこれらの尺度を利用して、マイクロアレイ実験の品質を等級分けする場合がある。

カーターらの報告（N.P. Carter, H. Fiegler, and J. Piper (2002) ″Comparative Analysis of Comparative Genomic Hybridization Microarray Technologies: Report of a Workshop Sponsored by the Wellcome Trust″, Cytometry 49:43-48）において、比ノイズの複合尺度によって観察／期待比の勾配を割ることで、対照実験（陽性および／または陰性ハイブリダイズ標的が知られている）の品質を測定可能であることを提案している。これは、シグナルおよびノイズの個々の尺度を単一でより強力な品質尺度に組み合わせたものであるが、画像からのそのような測定値を用いて、未知サンプルに応用されるマイクロアレイ解析の品質を推算する方法については説明していなかった。

本発明の具体的な実施形態は、下記の利点の１以上を提供するものである。第１に、コピー数変化に関して陽性または陰性であるが、それの状況は事前には知られていないハイブリダイズ標的の検出において誤差を経験する尤度を直接予測する客観的尺度によって、品質結果の臨時の表現を置き換えるという点；ならびに第２に、品質の他の側面の測定値とともに、上記のようなシグナルおよびノイズの測定値を至適に組み込むことで、単一の客観的尺度を形成するという点である。

品質の定義
品質定義には、当業界で熟知された少なくとも２つの代替アプローチがある。

第１のものは、一人以上の専門家に、彼らが各特定のマイクロアレイ画像をどのように判断するかを尋ねるというものである。例えば観察者にとってチップ画像がどのように見えるか、そして例えば露出時間、シグナル／バックグラウンド比などの解析ソフトウェアによって提供される値に基づいた答えとなり得ることが予想できる。十分な例および十分な専門的知識があれば、一部の以前の研究で示されていると考えられるように、このアプローチを発展させて、形式的かつ半定量的システムとすることができる。

しかしながら、具体的な実施形態において本発明は、品質測定の基礎にある目的をより詳細に目を向けるものである。具体的な実施形態によれば、本発明は、品質測定システムはマイクロアレイ実験の起こり得る欠陥率を予測できるものでなければならないという考え方を採用するものである。すなわち、アレイシステムの新たなサンプルへの実際の適用においては、通常は未知である基礎となるゲノムグランドトルースがある。さらに、通常は既知である解析結果もある。相当する「真正の」擬陽性（ＦＰ）および擬陰性（ＦＮ）率で、ゲノムグランドトルースと比較した解析結果に誤差があり得るが、解析の結果から、これらのいずれも「知る」ことはできない。

本発明の具体的な実施形態によれば、品質測定方法および／またはシステムを用いて、真のＦＰおよびＦＮ率（または何らかの関連する値）を予測する。理想的には、その推算値は、知ることができない真のＦＰおよびＦＮ値に近いものとなる。要するに、本発明の具体的な実施形態による品質尺度は、誤差関数を予測するものである。十分な経験および専門知識があれば、以前の半定量的アプローチでこれを行うことも可能かも知れないが、それらは常に、ある程度主観的であると考えられる。従って本発明は、より十分に客観的な尺度を提案するものである。

品質結果：ＦＮＲ、ＦＰＲおよびＮＩＲ
ＤＮＡコピー数変化を探すＣＧＨマイクロアレイ実験の場合、擬陰性標的、擬陽性標的および無情報標的（例：許容される複製スポットが少なすぎるもの）という概して３種類の欠陥がある。管理された実験では、各標的についてのグランドトルースを知ることができることから、これらの実験では、擬陰性率（ＦＮＲ）、擬陽性率（ＦＰＲ）、ならびに無情報標的（ＮＩＲ）の割合もしくは率を測定することができる。

本発明の各種具体的な実施形態によれば、これら３つの測定のいずれか好適な組み合わせによって、チップ品質の十分に客観的な定義が提供できるものと考えられる。しかしながら留意すべき点として、ＦＰＲおよびＦＮＲは概して新規実験においては未知であることから、他のデータから予測しなければならないが、ＮＩＲは既存のソフトウェア解析の結果から直接利用可能である。従って、具体的な実施形態において本発明は、完全に別個の品質尺度としてＮＩＲを保持することができる。このため、具体的な適用において本発明は、ＦＮＲおよびＦＰＲまたはそれらの類似物の加重和によって、下記のようにチップ品質を定義する。

品質特徴
マイクロアレイ画像の解析中、マイクロアレイの品質に関係する多くの特徴が利用できるようになる。例として、（１）標的比の分散、（２）いずれも上記の部分異数染色体アルゴリズムによって発生される観察／期待比の勾配または減弱がある。実際には、最初のものはマイクロアレイノイズの尺度であり、第２のものは比シグナルの尺度である。当然のことながら、対照実験で測定される誤差率は、これらの特徴とかなりの相関を示す。図５Ａ〜Ｂは、（Ａ）勾配および（Ｂ）モード標的比の標準偏差（「モードＳＤ」）という特徴のα＝０．０１（青）での擬陽性率（ＦＰＲ）およびα＝０．０００１（ピンク）でのＦＮＲとの相関を示す散布図の例である。

ＦＮＲと勾配の間には明瞭な関係があり、勾配が上昇すると、ＦＮＲが低下する。これは、勾配が大きくなるに連れて、検出される陽性シグナルが高くなるか、予想陽性シグナルに近くなるという点で理解可能であることから、陽性シグナルを正確に検出することがより容易になることで、ＦＮは低下する。同様に、ＦＮＲとモードＳＤの間には明瞭な関係があり：モードＳＤが増加するに連れて、ＦＮＲが増加する。これもやはり、全てが正常な比率（例：１）を有するべきであるシグナルの偏差における増加が、全体のノイズおよび／または変動における増加を示しているという点で理解可能であることから、陽性の結果はノイズに隠れる傾向があり、擬陰性検出が増加する。

ＦＰＲといずれかの特徴の間の関係はより小さいものであり、勾配の場合には、ＦＮＲとの関係と反対方向であるように見える。例えば上記で示したようなＦＮＲおよびＦＰＲの各種挙動は最初は予想外であったが、本発明によるさらなる解析で、例示の読み取り装置ソフトウェアにおけるｐ値およびＳＡアルゴリズムの性質により、ＦＰＲは原則的に品質から独立であり、選択されたα値によって決定されるべきであることが明らかになっている。しかしながら実際には、ＦＰＲの変動は小さく、通常ではＦＰＲは、ＦＮＲとやや逆相関であるように見える。これは、選択されたαレベルに対するｐ値の較正をサンプル間でわずかに変動させ得る、使用される検出方法のアーチファクトであると考えられている。ＦＮＲ上昇を生じさせる傾向のあるそのような変動は同時に、ＦＰＲ低下を生じる傾向があり、その逆も言える。しかしながら、ＦＮＲおよびＦＰＲが概念的に互いに逆ではないことを思い出すことが、本発明の一部の態様を理解する上で役立つ。シグナル強度が何らかの理由で弱いか、バックグラウンドノイズその他の変化が大きいために、ＦＮＲは、真のシグナルがどのように「隠されている」かの尺度である。ＦＰＲは、実際には陽性シグナルによって生じないシグナルその他の変動においてスパイクによって生じ得る陽性シグナルを除外する上で検出がどの程度良好であるかの尺度である。

ＣＧＨマイクロアレイ解析用のゲノ・センサー読み取り装置ソフトウェアは、下記表に記載のようないくつかの他の品質関連の特徴値を測定するものである。

連続誤差関数
ＦＮＲおよびＦＰＲの初期検討を、勾配およびモードＳＤ品質特徴との相関を示す上記の散布図で用いたものなどの特異的（および異なる）αレベルで定義した。しかしながら、それぞれが限られた数の有意差値の閾値に基づいていることから、ＦＮＲもＦＰＲもいずれもαレベルの連続関数ではない。本発明の具体的な実施形態によれば、代替の定式化によってこの問題は回避される。

・Ｅ_ｐｏｓは、グランドトルース陽性クローンのｐ値の対数の平均である（すなわち、Ｅ_ｐｏｓ＝平均（ｌｏｇ（ｐ）｜標的グランドトルース＋ｖｅ））。Ｅ_ｐｏｓは、常に負の値を取り、Ｅｐｏｓの負の値が大きいほど、品質が良好であることを示唆し、陽性標的の検出がより容易であることから、擬陰性が少なくなることを示唆している。従って、Ｅ_ｐｏｓは、連続値のＦＮＲ類似値である。

・同様に、Ｅ_ｎｅｇは、グランドトルース陰性クローンのｐ値の対数の平均である（すなわち、Ｅ_ｎｅｇ＝平均（ｌｏｇ（ｐ）｜標的グランドトルース−ｖｅ））。Ｅ_ｎｅｇは常に負の値を取り、Ｅ_ｎｅｇの負の値が大きいほど、品質が良好であることを示唆しており、負の標的の検出が容易であることから、擬陽性が少なくなることを示唆している。従ってＥ_ｎｅｇは、連続値のＦＰＲ類似値である。

真の陽性クローンに関して、ｐ＜０．０００１はｐ＜０．００１より１０倍「良好」であると見なすことができず、確かにｐ＜０．００００１は１００倍良好であると見なすべきではないことから、その対数は本発明の具体的な実施形態に従って用いる。対数を用いることで、ｐ＜０．０００１はｐ＜０．００１より「やや良好」と見なすことができ、ｐ＜０．００００１はかなり良好であるが、極めて良好というわけではない。

個々の標的についてのｐ値は、ｐ値解析法から直接に得ることができる。上記で記載の部分異数染色体（ＳＡ）法は、同じコピー数不均衡を共有する標的クローンの全セグメントのｐ値を計算する。ＳＡを用いた場合のＥ_ｐｏｓおよびＥ_ｎｅｇの計算に関しては、ＳＡ尤度関数および単離標的のみを含む想定セグメントについての相当するｐ値を考慮することによって、各標的について好適なｐ値を構築することができる。これは本明細書において、「単離標的ｐ値」と称される。

図６は、ＦＮＲおよびＦＰＲに関して上記図５に示した同じモードＳＤ品質特徴に対してプロットしたＥ_ｐｏｓ（ピンク）およびＥ_ｎｅｇ（青）を示す散布図の例である。かなり詰まった散乱から、連続誤差測定使用の効果が明瞭にわかる（これらおよびその後の散布図は、ＦＮＲ、ＦＰＲ、Ｅ_ｐｏｓもしくはＥ_ｎｅｇと特定の品質特徴との間の相関を示すものではない。ＦＮＲ、ＦＰＲ、Ｅ_ｐｏｓおよびＥ_ｎｅｇの値を任意にスケール返納して、０〜１０の範囲を占有するようにした。）。

このアプローチの重要な利点は、それがαレベルの正確な推定または推算に依存しているという点である。Ｅ_ｐｏｓおよびＥ_ｎｅｇ＞において「魔法数」はない。αレベルの任意選択への依存は除外されている。一部の先行技術の方法では、ＦＰＲおよびＦＮＲは、通常は特別の方法を用いて選択した具体的なαレベルで求めていた。

品質特徴と品質尺度Ｅ _ｐｏｓ、Ｅ _ｎｅｇとの間の相関
何らかの実験的開発に関するデータを、グランドトルース（または対照データ）が入手可能な数百の取り込みマイクロアレイチップ画像から抽出した。その集合は、各種トリソミー細胞系−性不一致正常ハイブリダイゼーションのサンプル；性不一致正常−正常ハイブリダイゼーションのサンプル；微小欠失細胞系−性不一致正常ハイブリダイゼーションのサンプル；ならびにトリソミー細胞系−性不一致微小欠失細胞系のサンプルを含んでいた。これらのマイクロアレイは、非常に多様なバッチ由来のものであり、多くの「欠陥」を含んでいたことから、収集サンプルは、非常に良好から非常に低いにわたる品質範囲を網羅していた。

図７Ａ〜Ｂは、強度上昇の結果であると考えられる（Ａ）幾何平均強度の増加および（Ｂ）幾何平均シグナル／バックグラウンド比（ｓｉｇ：ＢＧ）の増加の両方に伴ってＥｐｏｓが低下することを示す散布図の例である。これらの特徴は、強度（カウント／秒）およびシグナル／バックグラウンド比の場合に、試験値および基準値の平均（幾何平均）を取る場合を除き、本明細書の別の箇所で説明されるソフトウェアにおける品質尺度の注釈枠からほとんど理解されている。Ｅ_ｐｏｓおよびＥ_ｎｅｇと勾配モードＳＤとの関係については、上記ですでに図示および説明を行った。

図８は、メジアン隣接クローン比差がモード分布ＳＤと非常に類似した挙動を行うことを示す散布図の例である。この特徴が有望なモード標的の確認に依存してないことから、これは良好な結果である。従ってそれは、癌チップの解析にも用いることができる。

予想される通り、喪失スポットまたは除外スポットの数は、Ｅ_ｐｏｓにはほとんど影響しないが、当然のことながらそれは独立の品質尺度ＮＩＲに関係していることが認められた。

「基準強度のＣＶ」は、チップ上の標的クローン間の強度変動性を測定する新規な品質特徴である。図９は、標的クローン強度（ＣＶ）の変動性が高くなるにつれてＥ_ｐｏｓが低下することを示す散布図の例である。

図１０に示したように、飽和＋外れ値画素の割合もＥ_ｐｏｓと相関している。この相関はかなり弱いように見えるが、「悪い」画素の割合の増加がＥ_ｐｏｓの低下に関連している点を除いて、それは予想されるものとは反対方向のものである。

客観的品質尺度の定義
Ｅ_ｎｅｇといずれの特徴との間にも非常に小さい関係しかないことがわかる。これは次のように説明することができる。上記で説明したように、勾配品質特徴の値の低下が擬陰性数増加の原因となる可能性があるが、勾配の値は、擬陽性発生と関連がないと予想される。モードＳＤまたはメジアン隣接クローン比差などのノイズ品質特徴の場合、比ノイズの全体レベルが比較的高いために観察比が１．０に対してかなり異なる標的は擬陽性として検出されることから、ノイズが多いサンプルでは擬陽性の数が増加するようになると予想される。ノイズレベル上昇によって生じる比変化の尤度値における低下がほぼ完全に、比変化における上昇を補償することから、これは実際には起こらない。従って、ノイズ特徴の値上昇は、擬陰性増加を生じるが、擬陽性数には影響しないはずである。

しかしながら、Ｅ_ｎｅｇが一貫してＥ_ｐｏｓと小さい逆相関を示すことが、上記のパネルの一部でわかる。この原因は、部分異数染色体アルゴリズムの内部パラメータの推算における小さい誤差であると考えられている。特に、分散ｖ_ｉの推算における地位差誤差は驚くべきことではないと考えられる。それらの効果は、尤度および有意差値の両方に一貫した偏りを加えるものと考えられ、そしてそれらの値は、ｐ値閾値（またはα）における小さい変化と等価であると考えられる。一組のサンプル全体で、ｐ値閾値の実効値におけるそのようなランダムな小変化によって、観察される相関が説明されるものと考えられる。

Ｅ_ｎｅｇとＥ_ｐｏｓのこの小さい逆相関は、品質の最終定義におけるバランスの取れたＥ_ｎｅｇおよびＥ_ｐｏｓの組み合わせを含める理由を提供するものである。これらのデータおよび検討事項により、マイクロアレイ解析の品質の尺度全体が、「総合的品質等級」またはＯＱＲとして知られる誤差関数Ｅ_ｎｅｇ−Ｅ_ｐｏｓによって良好に表されるという提案に至る。Ｅ_ｎｅｇ−Ｅ_ｐｏｓは、全体的な品質に応じて正の値または負の値のいずれかを取り得るものであり、ＯＱＲの正の値が大きいほど、高い品質のマイクロアレイであることを示唆している。

重回帰による客観的「総合的品質等級」（ＱＯＲ）の予測
総合的品質等級ＯＱＲのグランドトルース値とともに得られる一連のチップ画像からの品質特徴データを、未知グランドトルースを有する新規サンプルの場合のＯＱＲの値を予測するためのアルゴリズムを開発する上でのトレーニング集合として用いることができる。理想的には、そのアルゴリズムは、サンプルを単に「良」および「低」の２つのカテゴリーに分けるべきではなく、ＯＱＲの連続値を推算すべきである。２分類解が必要である場合、ＯＱＲの推算値に閾値を適用することで、それを得ることができる。

Ｅ_ｐｏｓおよびＥ_ｎｅｇが多くの品質特徴と多様な程度に相関を示すことから、重回帰を用いて、未知サンプルにおけるＯＱＲ値を予測する「モデル」を開発した。従来の重回帰は、独立変数（品質特徴値）の一次関数としての独立変数（ＯＱＲ）をモデリングするものである。品質特徴データへの適切な変換を応用することで、任意重回帰関数（例：多項、対数）を構築することができ、これらの選択肢の一部について検討した。

ここで提供される結果は、４パラメータ多重線形回帰モデルに基づいたものである。この例で選択したパラメータは、：（１）ｓｑｒｔ（勾配）、（２）ｌｏｇ（メジアン隣接クローン比差）、（３）ｌｏｇ（基準強度ＣＶ）、（４）平方（幾何平均シグナル／バックグラウンド）である。

結果は、データ集合を作るのに用いたＤＮＡにおける既知のコピー数変化に基づいたＯＱＲのグランドトルース値（Ｙ軸）と選択された特徴の一次結合として計算されるＯＱＲの予測値（Ｘ軸）との間の散布図として示している（留意すべき点として、定義のＯＱＲは負の値を取る場合がある。図１１における散布図は実際に用いた値ＯＱＲ′＝ＯＱＲ＋ｋ［式中、ｋはＯＱＲ′が常に正となるように選択される。］を示すものであり、非常に悪いサンプルはゼロに近い値を取る。）。青色のスポットは、重回帰モデルをトレーニングするのに用いた３００個の品質混在サンプルからのものであり、黄色スポットは、モデルトレーニングには用いなかった３１５個の品質混在サンプルの独立の試験集合からのものである。

トレーニングデータのグランドトルースＯＱＲ′値のそれぞれメジアンおよび２０パーセンタイルでの水平方向のピンク色線および赤色線がトレーニングデータを３つの集合に分けており、それらはグランドトルース「良好」、「曖昧」および「低」品質と考えることができる。垂直のピンク色線および赤色線は同じＯＱＲ′値を有しており、これらの線を用いて、ＯＱＲ′の予測値に基づいて未知サンプルを「良好」、「曖昧」または「低」に分類することができる。対角線に沿って３つの正方形領域外にあるサンプルは誤分類されている。グランドトルース「良好」サンプルで「低」と分類されているものは１個のみであるが、「低」サンプルで「良好」と分類されているものはないことがわかる。多くのサンプルがあまり誤分類されておらず（例えば「良好」サンプルを「曖昧」に分類するように）、大多数が正しいＯＱＲ′クラスを与えられている。

ＳＡ性能に対する品質クラスの影響は、図１２ＡおよびＢに図示した受信者動作特性（ＲＯＣ）曲線によって示され、それらの図中においてデータ集合は、ＯＱＲの予測値によって３つの品質クラスにトリアージされている。最も低い性能を有することになるサンプルを確認する上でＯＱＲが非常に有効であることがわかる。図１２Ｂには、１２９個の正常供血者血液試料および３８６個の細胞系サンプルを含む５１５個の性別不一致ハイブリダイゼーション［２８７個のクローンを有する発達アレイ］についての解析感度および特異性（ＲＯＣ曲線）を示してある。サンプル品質が異なるとＲＯＣが大きく異なることになって、相対的に品質の高いサンプルでは感度および特異性が顕著に向上することが明らかである。有意差レベルはＲＯＣ曲線から選択することができる。この例では、それはＳＡアルゴリズムの場合はＰ＜０．０００１として選択し、以前の非モードＰ値法計算アルゴリズム（不図示）の場合はＰ＜０．００１として選択した。

考察
提供データは、予想通り、ＦＮＲがチップ間でほぼゼロからほぼ１００％まで大きく変動することを示している。ＦＰＲは予想通り、αレベルによってかなり決定される。従って、チップ製造物品質における差の最も明らかな客観的結果は、ＦＮＲまたはそれの連続類縁値Ｅ_ｐｏｓにおける差である。しかしながら、ＦＰＲは、わずかにＦＮＲとの逆相関を示している（およびＥ_ｐｏｓとＥ_ｎｅｇ）。これは、ＲＯＣ曲線に沿った動作基点の移動の効果を有するＳＡアルゴリズムの内部パラメータ推算における小さい誤差の結果として説明することができる。この小さい相関は、全体的チップ解析品質評点ＯＱＲの客観的定義にＥ_ｎｅｇも含める理由を提供する。

本発明の具体的な実施形態に従って実際に使用される客観的品質尺度は、擬陰性率および擬陽性率またはそれらの連続類縁値であるＥ_ｐｏｓおよびＥ_ｎｅｇの好適な組み合わせを用いる。グランドトルースが未知である解析に関してそのような品質尺度を推算する場合、それは解析における標的誤差の相対頻度を予測するものである。すなわち、そのような尺度（本明細書で定義のもの）の値が高いサンプルほど、ＦＮおよび／またはＦＰが大きく成る可能性が高い。従って、そのような尺度を用いて、ユーザーに対して、結果にどれだけの信頼性を置き得るかを助言することができるか、またはそれを用いて、サンプルを完全に除外することができる。それを用いて、結果を、（ｉ）それ以上の確認梨に結果を受け入れる；（ｉｉ）別の試験で全ての陽性結果を確認する；または（ｉｉｉ）サンプルを除外するという３つの分類に順位づけすることもできる。

ここで提供されたデータは、特定のαレベルで測定されるか陽性標的クローンのｐ値の平均対数であるＥ_ｐｏｓによって測定されるかとは無関係に、グランドトルースの事前の知識なく、チップ画像から測定可能な多くの品質特徴と、ＦＮＲが非常に強く相関していることを示している。ＦＰＲおよびＥ_ｎｅｇも、特徴の一部とある程度相関を示しているが、程度は相対的に小さい。

それらの結果は、ＦＮＲおよびＦＰＲまたはそれらの類縁値の加重和と定義される総合的品質等級を品質特徴値から推算可能であることも示している。閾値または複数の閾値に対する推算ＯＱＲの比較を用いて、品質を根拠としてマイクロアレイ解析を選択するか除外するかを決定することができる。すなわち品質管理を提供する。

実際の使用において適切な閾値または複数の閾値をどのように設定するかは、異なる実施形態で変わるものであり、特定のシステムの形式的要件によって決まり得るものである。この場合、２つの閾値を用い、品質範囲を「良好」、「曖昧」および「低」という分類に分けることが提案されている。「良好」品質分類と「低」品質分類間では、誤分類されたサンプルはほとんどなかった。

一部の状況において、アッセイの進歩によって特徴値の分布および／または特徴値と性能の間の相関が変化するに連れて、至適回帰パラメータを変える必要が生じる可能性がある。継続的に品質尺度トレーニングのための追加データ収集を続けることが賢明であると考えられる。

特徴またはｌｏｇ（．）およびｅｘｐ（．）などの特徴の変換形態の他の可能な組み合わせを調べることで、回帰解析自体をさらに至適化することができる。

ＳＡまたはｐ値法のいずれかでの使用における客観的品質尺度（誤差関数）は、ＯＱＲ＝Ｅ_ｎｅｇ−Ｅ_ｐｏｓと定義することができる。陽性および陰性標的は未知であることから、上記で定義の本発明の実施形態によるそれの値を、品質特徴値の一次関数によって推算する（その場合、各種実施形態において、これらの品質特徴値は、平方、ｅｘｐまたはｌｏｇなどの関数によって変換することが可能である。）。その一次関数パラメータは、良好チップおよび不良チップの両方を組み込むことが知られている好適なトレーニングデータの重回帰解析によってトレーニングすることができるが、「良好」分類および「不良」分類に個々のチップを主観的に分類する必要がない。

第２の品質尺度は、無情報標的クローン（ＮＩＲ）の割合である。これは解析ソフトウェアによって直接測定可能であることから、それを別個に用いることができる。これら尺度のそれぞれを閾値と組み合わせて用いて、分析を「選択」または「除外」の２つの分類に分けることができる。そのような閾値を考慮すると、所定の群における除外チップの割合は、群全体でのアッセイ品質によってかなり決まる。あるいは、より詳細な分類を、例えば「選択」、「検証後に選択」、「除外」という３種類の分類に適用することができる。または単純に、品質尺度値を、それの可能な結果についての助言とともにユーザーに提供することが可能であると考えられる。

従って具体的な実施形態では、上記にように、本発明をゲノ・センサー読み取り装置ソフトウェアなどのイン・ビトロ診断システム用の１以上の論理モジュールまたは成分に組み込むことができる。各種実施形態において、診断システムは下記の１以上についての論理命令および／またはモジュールを含むことができる。

・チップについて総合的品質等級（ＯＱＲ）値を計算する。品質特徴を用いるべき規格、それらの予備変換および一次関数パラメータ全てを、パラメータファイルにコードすることができる。

・ＯＱＲおよび無情報率の両方をユーザーに顕著に提供する。

・パラメータファイルで指定された閾値を適用してサンプルを「選択」または「除外」に分類し、解析ソフトウェアによって印字される最終報告にそのような結果が存在するよう要求する。

別の実施形態では、トレーニングおよび品質尺度推算の検証のためにチップ画像データの収集を続けて、アッセイにおけるわずかな長期変化を追跡しなければならない。アッセイにおいて階段状変化がある場合は必ず、品質トレーニングセットの完全な切り換えを考慮すべきである。

別の実施形態では、特徴選択、特徴変換および一次関数を、ＳＡ法用に調整および至適化することができる。

他の診断用途
上記のように、上記のような観察可能なデータ集合を生じさせ、統計解析パラメータをトレーニングし、品質特徴を選択する特定のアッセイの確認およびバリデーション後、本発明の具体的な実施形態によるアッセイ解析方法を、臨床または研究の状況下で用いて、被験者を疾患関連の分類に予報的に分類したり、発達調節不全に関して被験者をモニタリングする等を行うことができる。本発明のシステムおよび／または方法を、研究者、医師、医療従事者、病院、臨床検査室、患者、会社および他の機関によって各種目的に利用することができる。例えば、本発明は、疾患を診断し；疾患の重度を評価し；疾患の将来的な発生を予測し；疾患の将来的な合併症を予測し；疾患の予後を確認し；患者のリスクを評価し；現在の薬物療法に対する応答を評価し；現在の非薬物療法に対する応答を評価し；患者に最も適した医薬または処理を確認し；他の臨床的および疫学的に関連する利用分野の中で患者にとって最も適切な別の診断試験を確認するのに用いることができる。統計的に解析可能なデータを生じるアッセイが存在するか、開発可能な実質的にあらゆる疾患、状態または状況を、本発明の診断方法を用いてより高信頼性で検出することができる（例えば表２参照）。

個々のレベルでの健康状態の評価に加えて、本発明の方法および診断センサーは、「群レベル」での被験者の評価、例えば状態もしくは疾患についての疫学的研究や群スクリーニングなどに好適である。

ウェブサイト実施形態
本発明の方法は、局在または分布データ環境で実行可能である。例えば局在計算環境を特徴とする１実施形態では、本発明の具体的な実施形態によるアッセイ読み取り装置を所望の診断領域の近位で構成し、その領域はユーザー入力および出力機能を搭載した計算装置に連結されている。分布環境では、その方法は、単一コンピュータ、複数のプロセッサを有するコンピュータ、あるいは複数コンピュータで実行することができる。

キット
本発明の具体的な実施形態による診断アッセイは、キットとしてユーザーに提供しても良い。代表的には、本発明のキットは、本明細書に記載の方法に従って構築された１以上の遺伝子標的を含む。非常に多くの場合、そのキットは、好適な容器に包装または添付された１以上のＤＮＡ標的を含む。そのキットはさらに、対象アッセイを行うためのキット構成要素の好ましい使用方法について詳細に説明する説明セットまたは使用説明書を含むものであっても良い。

その説明書に従って使用する場合、そのキットによってユーザーは、細胞間質液、全血、羊水、上清など（これらに限定されるものではない）の患者組織を用いて疾患または状態を確認することができる。そのキットによってユーザーは、情報を受信し、ユーザーに情報を提供し、データ解析またはアッセイ品質解析を実行することができる中央データベースサーバーにアクセスすることもできる。さらにまたはあるいは、そのキットによって、ユーザー、例えば医療関係者、臨床検査室または研究者は、個人が臨床的に関連する被験者分類（診断その他）に属する確率を求めることができる。

プログラム情報装置での実施形態
図１３は、本発明の各種態様を具体化することができる代表的な論理デバイスおよび／または診断システムの例を示すブロック図である。本明細書の内容から明らかなように、本発明はハードウェアおよび／またはソフトウェアで実行することができる。一部の実施形態では、本発明の各種態様を、クライアト側論理またはサーバー側論理で実行することができる。さらに、本発明またはそれの構成要素は、適切に構成された計算デバイスに搭載された場合に、そのデバイスを本発明に従って動作させる論理命令および／またはデータを含む固定媒体プログラムコンポーネントで具体化することができる。論理命令を含む固定媒体を、ビューアーのコンピュータへの物理的搭載のための固定媒体上でビューアーに送ることができるか、または論理命令を含む固定媒体が、プログラムコンポーネントをダウンロードするための通信メディアを解してビューアーがアクセスするリモートサーバー上にあっても良い。

図１３には、本明細書に記載の画像の表示および／または解析に関する論理演算を行うことができる論理装置として理解できる情報器具またはデジタル装置７００を示してある。そのような装置は、論理命令を行って本発明の具体的な実施形態に従って動作する汎用コンピュータシステムまたはワークステーションとして具体化することができる。そのような装置は、論理処理を１台の機械に統合して、各種サンプル取り扱い操作を行う特注および／または専門の研究もしくは科学ハードウェアであることもできる。概して、本発明の具体的な実施形態による装置の論理処理コンポーネントは、媒体７１７および／または固定媒体７２２を有するサーバー７２０に接続されていても良いネットワークポート７１９から命令を読み取ることができる。その後装置７００は、当業界で明らかであって、本明細書に記載のように、動作を指示し、解析を実行する命令を用いることができる。本発明を具体化することができるある種の論理装置は、７００で図示したコンピュータシステムであり、それはＣＰＵ７０７、オプションの入力デバイス７０９および７１１、記憶媒体（ディスクドライブなど）７１５およびオプションのモニター７０５を有する。固定媒体７１７、またはポート７１９上の固定媒体７２２を用いて、そのようなシステムをプログラムすることができ、ディスク型の光学媒体もしくは磁気媒体、磁気テープ、固体動的もしくは静的メモリーなどを代表することができる。本発明はまた、全体的または部分的に、この固定媒体上に記録されたソフトウェアとして具体化することもできる。通信ポート７１９を用いて、そのようなシステムをプログラムするのに用いられる命令を最初に受信することもでき、そのポートはあらゆる種類の通信接続を代表することができる。

図１３には、一部の実施形態における診断システムの一部であることができる別の構成要素を示してある。これらの構成要素には、ビューアー７５０、自動スライドグラスもしくはマイクロアレイステージ７５５、光源（ＵＶ、白色光その他）７６０およびオプションのフィルター７６５、ならびに本明細書に記載の解析のためのデジタル画像を取り込むためのＣＣＤカメラもしくは取り込み装置７８０などがある。これらの追加の構成要素が、論理解析および／または制御などの単一システムの構成要素であることができることは、当業者には明らかであろう。これらの装置は、当業界では明らかなように、ネットワーク、バス、無線通信などを介して７００などの情報器具とデジタル通信する本質的にスタンドアロンの装置であることもできる。そのようなシステムの構成要素は、いずれか簡便な物理的構成および／または見かけを有することができ、全てを組み合わせて単一の統合システムとすることが可能であることは明らかであろう。従って、図１３に示した個々の構成要素は、システムの単なる一例を代表するものである。

本発明は、全体的または部分的に、特定用途向け集積回路（ＡＳＩＣ）またはプログラム可能論理回路（ＰＬＤ）の回路機構内で具体化することもできる。そのような場合、本発明は、本明細書に記載のように動作するＡＳＩＣまたはＰＬＤを作るのに用いることができるコンピュータが理解可能な言語で具体化することができる。

他の実施形態
以上、具体的な実施形態を参照しながら本発明について説明した。当業者には、他の実施形態が明らかであろう。特に、ビューアーデジタル情報器具は、パーソナルコンピュータとして示してきた。しかしながら、デジタル計算装置は、本発明の論理方法を実行する上で好適なあらゆる情報器具を意味するものであり、デジタル使用可能な究室システムもしくは装置、デジタル使用可能テレビ、携帯電話、携帯情報端末などの機器を含むことができるものと考えられる。本発明の精神の範囲内での改変は、当業者には明らかであろう。さらに、各種の異なる作用を用いて、本発明の具体的な実施形態に従ってシステムとの層と作用を実行することができる。例えば、音声コマンドをオペレータが話すことができ、キーをオペレータが押すことができ、クライアント側科学機器上のボタンをオペレータが押すことができ、あるいは何らかのポインティング・デバイスを用いる選択をユーザーが行うことができる。

本明細書に記載の実施例および実施形態が例示を目的としたものであること、ならびに当業者には、それを考慮した上での各種改変または変更が本明細書の記載によって提示されるものであり、それら変更は本願の精神および範囲そして特許請求の範囲の範囲内に包含されるものであることは明らかである。

情報開示陳述書の一部として提出された参考文献などの、本明細書で引用もしくは本願とともに提出された全ての刊行物、特許および特許出願は、参照によってそれらの全内容が本明細書に組み込まれる。

本発明の１実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。本発明の１実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。本発明の１実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。本発明の１実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。本発明の１実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。他の方法と比較した本発明の具体的な実施形態による方法を用いての不均衡検出の感度と特異性を比較するグラフの例である。例えば各種蛍光標識を有するスライドグラスを読み取るように設計または変更された読み取り装置でアレイ画像として取り込まれた観察データの１例である。本発明の具体的な実施形態による「勾配」法および「基本」法によって単離された標的部分異数染色体（ＳＡ）についての感度と特異性を比較するグラフの１例である。（Ａ）勾配および（Ｂ）モード標的比の標準偏差（「モードＳＤ」）という特徴のα＝０．０１での擬陽性率（ＦＰＲ）（青色）およびα＝０．０００１でのＦＮＲ（ピンク）との相関を示す散布図の例である。（Ａ）勾配および（Ｂ）モード標的比の標準偏差（「モードＳＤ」）という特徴のα＝０．０１での擬陽性率（ＦＰＲ）（青色）およびα＝０．０００１でのＦＮＲ（ピンク）との相関を示す散布図の例である。ＦＮＲおよびＦＦＰＲについて上記の図５に示した同じモードＳＤ品質の特徴に対してプロットしたＥ_ｐｏｓ（ピンク）およびE_ｎｅｇ（青色）を示す散布図の例である。強度上昇の結果であると考えられる（Ａ）幾何平均強度の上昇および（Ｂ）幾何平均シグナル／バックグラウンド比（ｓｉｇ：ＢＧ）の上昇の両方を伴ってＥ_ｐｏｓが低下することを示す散布図の例である。強度上昇の結果であると考えられる（Ａ）幾何平均強度の上昇および（Ｂ）幾何平均シグナル／バックグラウンド比（ｓｉｇ：ＢＧ）の上昇の両方を伴ってＥ_ｐｏｓが低下することを示す散布図の例である。メジアン隣接クローン比差がモード分布ＳＤに非常に類似した挙動を行うことを示す散布図の例である。標的クローン強度（ＣＶ）のばらつきが高くなるにつれてＥ_ｐｏｓが低下することを示す散布図の例である。Ｅ_ｐｏｓが飽和＋外れ値画素の割合とやや相関していることを示す散布図の例である。本発明の具体的実施形態に従った重回帰による客観的総合的品質等級（ＯＱＲ）の予測の結果を示すプロットの例である。本発明の具体的な実施形態に従ったＯＱＲの期待値によって３つの品質分類に分けられているＳＡ性能に対する品質分類の影響を示すプロットの２つの例である。本発明の具体的な実施形態に従ったＯＱＲの期待値によって３つの品質分類に分けられているＳＡ性能に対する品質分類の影響を示すプロットの２つの例である。本発明の各種態様を具体化することができる論理および／または診断システムの代表例を示すブロック図である。（表２）本発明の対象物質を本発明の具体的な実施形態に従って評価し得る疾患、状態または状況の例を示す図である。

Claims

コンピュータシステムにおける診断アッセイの１以上の観察可能標的から取り込まれた観察データを受け取る段階；
前記観察データの一部を用いて、１以上のアッセイ結果を決定する段階；
前記観察データから、前記診断アッセイの２以上の品質特徴を決定する段階；
前記２以上の品質特徴を用いて、誤差関数を予測する段階；
前記誤差関数を用いて、前記診断アッセイに関する品質尺度を決定および報告する段階；
前記アッセイ結果の最終報告の作成に前記品質尺度を用いる段階
を含む、コンピュータシステムを用いて診断アッセイ結果を決定および報告する方法。
前記誤差関数が統計モデルを用いて予測され、前記統計モデルは１以上のトレーニングアッセイ由来の１以上のパラメータを有する請求項１に記載の方法。
前記誤差関数が統計モデルを用いて予測され、前記統計モデルが既知グランドトルースサンプルおよびそれらの相当する診断アッセイ結果を用いてトレーニングした１以上のパラメータを有する請求項１に記載の方法。
前記診断アッセイ結果が癌細胞または前癌細胞を示す１以上のＤＮＡ配列コピー数変化の有無を示す請求項１に記載の方法。
前記診断アッセイ結果が１以上の先天性異常を示す１以上のＤＮＡ配列コピー数変化の有無を示す請求項１に記載の方法。
前記２以上の品質特徴の決定が、２以上の前記標的群の観察データを用いるものであり；前記誤差関数が前記群の複数標的に関して予測される請求項１に記載の方法。
前記群が、ゲノム解析チップ上の複数の標的を含み；前記誤差関数が、前記チップ上の全てまたはほぼ全ての標的について予測される請求項６に記載の方法。
前記チップが、約５０を超える分離可能標的を有し；前記各分離可能標的がアッセイであり；前記各アッセイが、変化したＤＮＡコピー数に関して陽性または陰性である請求項７に記載の方法。
前記観察データが、
組織生検の一部；
離解させた細胞から得られた細胞単層；
流体もしくはゲルでの細胞懸濁液；
塗沫標本；または
細胞由来材料
のうちの１以上を含む試験サンプル標本についての前記アッセイ実施から取り込まれる請求項１に記載の方法。
利用可能な品質特徴から、何らかの形で誤差関数と関連しているものを選択する段階をさらに有する請求項１に記載の方法。
利用可能な品質特徴から、誤差関数に関連する特徴を選択する段階をさらに有し；前記特徴が、
メジアン隣接−標的シグナル比差；
測定／期待シグナルの減弱；
シグナル／バックグラウンド比；
平均標的シグナル強度；
喪失／除外標的；
外れ値／飽和標的シグナル検出；
平均標的間変動係数；
平均標的内試験および基準シグナル相関；
モード分布標準偏差
からなる群から選択される２以上である請求項１に記載の方法。
比ノイズの推算を品質特徴として用いて誤差関数を予測する段階をさらに有する請求項１に記載の方法。
メジアン隣接−標的比差を用いて誤差関数を予測する段階をさらに有する請求項１２に記載の方法。
陽性標的のシグナルレベルの推算を品質特徴として用いて誤差関数を予測する段階をさらに有する請求項１に記載の方法。
陽性対照標的からの平均減弱をシグナルレベル品質特徴として用いて誤差関数を予測する段階をさらに有する請求項１４に記載の方法。
部分異数染色体アルゴリズムによって推算される平均減弱をシグナルレベル品質特徴として用いて誤差関数を予測する段階をさらに有する請求項１４に記載の方法。
前記観察データがアッセイ標的のマイクロアレイの取り込み画像を含む請求項１に記載の方法。
前記擬陽性率および擬陰性率の真の値がアッセイにおいて未知である場合に、アッセイサンプルについての前記擬陽性率および擬陰性率の関数の推算値として前記誤差関数を表す段階をさらに有する請求項１に記載の方法。
既知対照サンプルデータからの測定可能な特徴を用いて前記誤差関数をトレーニングする段階をさらに有する請求項１に記載の方法。
重回帰モデルを構築することで既知対照サンプルデータからの測定可能特徴からの前記誤差関数をトレーニングする段階をさらに有する請求項１９に記載の方法。
前記測定可能な特徴に対して非線形変換を適用することで既知対照サンプルデータからの重非線形回帰モデルを構築することによって、前記誤差関数をトレーニングする段階をさらに有する請求項１９に記載の方法。
差関数Ｅ_ｎｅｇ−Ｅ_ｐｏｓを前記誤差関数として用いる段階をさらに有し；Ｅ_ｐｏｓはグランドトルース陽性クローンについてのｐ値の対数の平均であり、Ｅ_ｎｅｇはグランドトルース陰性クローンについてのｐ値の対数の平均である請求項１に記載の方法。
隣接標的のセグメントに広がる比変化をモデル化する段階；および
前記モデル化において最大尤度解析を用いる段階
を有する、ＤＮＡマイクロアレイおよびコンピュータシステムを用いてコピー数変化を検出する方法。
χ二乗に基づく形式的有意差基準に従って変化を選択または除外する段階をさらに有する請求項２３に記載の方法。
前記最大尤度モデル化が、適切な比のみのモデル化に制約される請求項２３に記載の方法。
コピー数１もしくは２および標的ＤＮＡコピー数０、１、２、３もしくは４を有する基準ＤＮＡを用いて適切な比を求める請求項２５に記載の方法。
前記画像が二次元画像である請求項２５に記載の方法。
デジタルデータを扱う情報プロセッサ；
取り込み画像データなどのデジタルデータを記憶するためのデータ記憶装置；
前記取り込み画像データを解析して前記データの観察可能な特徴を推算することができ、選択された観察可能な特徴を用いて誤差率を予測することができる論理モジュール
を有する、生体サンプルを解析するシステム。
前記情報プロセッサに操作可能に接続された画像取り込みカメラ；
光源；
ビューアー；
アレイ取り扱いユニット
をさらに有する請求項２８に記載のシステム。
前記データ記憶装置に記憶された誤差関数を予測するための１以上のルールセットをさらに有する請求項２８に記載のシステム。
前記データ記憶装置に記憶された１以上の解析論理ルーチンをさらに有する請求項２８に記載のシステム。
１以上の生体サンプルからデジタル画像データを取り込む手段；
デジタル画像データを記憶する手段；
ユーザーと相互作用して、ユーザーの指示およびユーザーの画像データ閲覧を受ける手段；
前記取り込みデジタル画像データを論理的に解析して、検出可能な特徴から１以上の誤差関数を予測する手段；ならびに
ユーザーに予測された誤差関数を出力する手段
を有する、生体サンプルを解析するシステム。
一組の分離可能な標的から取り込まれたデータを受け取る段階［各標的は、特定の染色体位置での遺伝子配列コピー数を示す観察可能なデータを提供する。］；
標的を隣接する染色体領域を示すセグメントに群分けする部分異数染色体統計解析方法を用いて前記取り込みデータを解析する段階［各セグメントは、同じコピー数不均衡を有する領域を代表する。］；
それによって、一つのアッセイから、コピー数における部分的および全体の両方の染色体変化を検出する段階
を有する、コンピュータシステムを用いて被験者における先天性遺伝子異常のスクリーニングを行う方法。
隣接標的のセグメントにわたっての比変化をモデル化する段階；および
前記モデル化に最大尤度解析を用いる段階
をさらに有する請求項３３に記載の方法。
χ二乗に基づく形式的有意差基準に従って変化を選択または除外とする段階をさらに有する請求項３４に記載の方法。
前記最大尤度モデル化が、適切な比のみをモデル化するものに制約される請求項３４に記載の方法。
コピー数１もしくは２および標的ＤＮＡコピー数０、１、２、３もしくは４を有する基準ＤＮＡを用いて適切な比を求める請求項３６に記載の方法。
ゲノムに関して複数標的の比較ゲノムハイブリダイゼーションアレイを提供する段階［対象の既知微小欠失／微小重複に関連するテロメアおよび染色体領域は、前記アレイ上で近接する２以上の標的配列によって代表される。］；
被験者からの試験サンプルを前記アレイにハイブリダイズする段階；および
前記アレイの画像を取り込む段階
をさらに有する請求項３３に記載の方法。
精神遅滞／発育遅延、身体的出生異常および形成異常の特徴などの発達障害の共通の原因である染色体不均衡を検出するよう、前記アレイおよび前記統計方法を至適化する請求項３８に記載の方法。
一つのアッセイから、全染色体異数性、微小欠失、微小重複および不均衡テロメア周辺（ｓｕｂＴｅｌ）再配列を検出する段階をさらに有する請求項３３に記載の方法。
前記被験者が、
出生前哺乳動物胎児；
着床前哺乳動物胚；および
出生後哺乳動物
を含む群から選択される請求項３３に記載の方法。
前記被験者に害を及ぼすことなく、全染色体サンプルを抽出する請求項４１に記載の方法。
前記被験者がヒトである請求項４１に記載の方法。
前記アッセイが相互ハイブリダイゼーションを必要とせず；
前記アッセイが、新鮮および固定の両方の末梢血もしくは細胞系検体からコピー数異常（ＣＮＡ）を高信頼性で検出する請求項３３に記載の方法。
前記方法が、
ハイブリダイゼーションおよび洗浄を自動化し；
画像取り込みおよびデータ解析を自動化し；
アッセイ品質を評価し；
定性的結果（獲得、喪失、無変化）を報告するシステムに組み込まれており；
前記システムに関連するソフトウェアが画像獲得、解析およびデータ報告を制御する請求項３３に記載の方法。
前記ソフトウェアが、前記ＤＡＰＩシグナルに基づいてスポットを識別し、前記緑色および赤色画像面から平均強度を測定し、バックグラウンドを引き、緑／赤シグナルの比を求め、前記サンプルＤＮＡの前記モードＤＮＡコピー数を最も代表する比率を計算する請求項４５に記載の方法。
標的クローンのアレイを提供する段階をさらに有し；クローンを識別し、さらに染色体腕当たり最低３個のクローンを選択し、既知の微小欠失／微小重複領域に少なくとも８２個のテロメア周辺クローンおよび２９個のクローンがあり；
末端動原体型染色体ｐ腕以外の各テロメアが２個のクローンによって代表され；
各微小欠失／微小重複領域が２〜５個のクローンによって代表される請求項３３に記載の方法。
適切に構成された情報処理装置に搭載した場合に、該装置を請求項１に記載の方法に従って動作させる、コンピュータが解釈可能な命令を含むコンピュータ読み取り可能媒体。
適切に構成された情報処理装置に搭載した場合に、該装置を請求項２３に記載の方法に従って動作させる、コンピュータが解釈可能な命令を含むコンピュータ読み取り可能媒体。