JP2008511058A - コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定 - Google Patents

コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定 Download PDF

Info

Publication number
JP2008511058A
JP2008511058A JP2007528056A JP2007528056A JP2008511058A JP 2008511058 A JP2008511058 A JP 2008511058A JP 2007528056 A JP2007528056 A JP 2007528056A JP 2007528056 A JP2007528056 A JP 2007528056A JP 2008511058 A JP2008511058 A JP 2008511058A
Authority
JP
Japan
Prior art keywords
target
data
quality
assay
error function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007528056A
Other languages
English (en)
Inventor
パイパー,ジエイムズ・リチヤード
プール,イアン
Original Assignee
アボツト・モレキユラー・インコーポレイテツド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アボツト・モレキユラー・インコーポレイテツド filed Critical アボツト・モレキユラー・インコーポレイテツド
Publication of JP2008511058A publication Critical patent/JP2008511058A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Software Systems (AREA)
  • Zoology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Wood Science & Technology (AREA)
  • Signal Processing (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

観察データの意味のあるグループ分けおよび/またはアッセイの全体的品質尺度の決定のための統計的方法などの、生体入手源からのサンプルに関する決定を行うための方法および/またはシステム。

Description

関連出願の相互参照
本願は、2004年8月18日出願で、参照によって本明細書に組み込まれる暫定特許出願60/603218号からの優先権を主張するものである。
本願は、2001年10月12日出願の非暫定の60/378760号である2002年10月11日出願の米国特許出願第10269723号に関するものであり、それらのいずれも参照によって本明細書に組み込まれる。
2003年1月14日出願の米国特許出願第10/342804号および2002年1月15日出願のそれの相当する暫定特許出願60/349318号は、あらゆる点に関して参照によって本明細書に組み込まれる。
著作権情報
37C.F.R.1.71(e)に従い、本願人らは、本開示の一部がソースコードリスト、スクリーン・ショット、ユーザー・インターフェースもしくは使用説明書またはいずれかの管轄区域で著作権保護が有効であるか有効となり得る本提出物の他の側面など(それらに限定されるものではない)の主張される著作権保護を受け、それに関係する材料を含むことに言及するものである。特許商標局の特許ファイルもしくは記録にあることから、前記特許文書または特許開示の何者かによるファクシミリ複製に対して、著作権所有者は異議を持たない。他の全ての権利は保持されており、他の全ての複製、配布、その内容に基づいた派生著作物の作製、公開陳列、ならびに出願もしくはそれのいずれかの部分の公開での実施は、該当する著作権法によって禁止される。
本発明は、生物学的アッセイおよびデータ解析の分野に関する。より具体的には、本発明は、代表的には生物入手源からのアッセイに関するある種の測定を行う上でのコンピュータその他の論理プロセッサによって実行もしくは支援される方法に関するものである。別の実施形態において本発明には、スクリーニングおよび/または各種疾患または状態に関する診断試験を行うためのシステム、方法またはキットが関与する。
正常なヒト細胞は、22の常染色体対(多くの場合、番号1〜22を用いて示される)および二つの性染色体(23および24として示される場合がある)に46の染色体を有する。通常、正常細胞はあらゆる染色体(性染色体以外)の2つのコピーを有している。その結果、正常細胞は、やはり性染色体上にある遺伝子を除く、全ての遺伝子の2つのコピーをも有している。
ダウン症候群などの先天的状態および癌などの後天的な遺伝病においては、あらゆる染色体の2つのコピーおよび各遺伝子の2つのコピーというこの正常なパターンが乱れている場合が多い。全染色体数が変化している可能性があり、特には癌細胞は、全ての染色体または染色体腕の獲得または喪失のパターンを示し得る(細胞中の染色体のコピー数は、それの「倍数性」とも称される。)。他の場合、染色体再配置によって、1以上の染色体の一部が2つのコピーより多くまたは少なく存在する可能性がある。この部分は、1以上の遺伝子の全体または部分に相当し得るものである。
従って、遺伝子異常は多くの場合、コピー数の増減に関して報告されており、その場合に状況が異なると、コピー数は染色体、遺伝子またはより一般的には連続したDNA配列を指すものとなり得る。コピー数における変化は、コピー数不均衡と称される場合もある。
遺伝子は、メッセンジャーRNAおよびそれから遺伝子によってコードされるタンパク質の産生を指す遺伝子発現を介して細胞の生物学に影響する。遺伝子コピー数は、細胞が作られる時に確立される細胞の静的特性であり、遺伝子発現は、細胞のゲノムならびに温度および治療薬などの外部環境の影響の両方によって影響され得る細胞の動的特性である。
一般的に、各種パターンのコピー数不均衡が、ある種の先天性異常またはある種の癌の特徴であり、不均衡パターンを決定することで、診断、予後および/または治療の方法を知ることができる。従って、非常に多くの場合で、細胞および/または組織および/またはそれらから誘導される物におけるコピー数不均衡を測定および/または確認および/または推定することが望ましい。染色体不均衡は、定量PCR、イン・サイツ蛍光測定および特定の遺伝子配列数をカウントもしくは推算することを試みる他の技術等の各種技術を用いて測定される。しかしながら、多くの状況において、遺伝子不均衡を検出および/または測定する改善された方法の必要性が高まっている。
本願とともに提出された文書を含む、本提出におけるあらゆる箇所での著作、刊行物、販売または活動についての議論は、そのような著作物が先行技術を構成することを本発明者らが認めたものと解釈すべきではない。本明細書における活動、著作または刊行物についての言及は、そのような活動、著作または刊行物が特定の管轄区域において公知であったことを認めるものではない。
参考文献
A. D. Carothers, A likelihood-based approach to the estimation of relative DNA copy number by comparative genomic hybridization, Biometrics 53, 848-856, 1997;
J. Clark et al, Genome-wide screening for complete genetic loss in prostate cancer by comparative hybridization onto cDNA microarrays, Oncogene 22, 1247-1252, 2003;
J. Fridlyand et al, Statistical issues in the analysis of the array CGH data, Proc. Computational Systems Bioinformatics CSB ′03, 2003. J. Fridlyand et al, Hidden Markov models approach to the analysis of array CGH data. J. Multivariate Analysis 90, 132-153, 2004;
I. Miller and M. Miller, John E. Freund′s Mathematical Statistics 6th edition. Prentice Hall, 1999. J. Piper et al, An objective method for detecting copy-number change in CGH microarray experiments, Proc. 3rd Euroconference on Quantitative Molecular Cytogenetics, Rosenon;
Stockholm, Sweden, 4-6 July 2002, pp.109-114, 2002;
J.R. Pollack et al, Genome-wide analysis of DNA copy-number changes using cDNA microarrays. Nature Genet. 23, 41-46, 1999。
本発明には、代表的には生体試料に関係する、最も代表的には何らかの種類の論理実行システムまたはモジュールで実行される、データ解析に有用な技術、方法および/またはシステムが関係する。本発明の各種態様を、マイクロアレイ診断システムなどの生物学的な検出もしくは診断システムに基づいて多くの解析を行うソフトウェアに組み込むことができる。一部が独立に新規な態様を有する多くの具体的な診断アッセイおよびそれの詳細について下記で説明するが、本発明の解析方法は、データ集合を解析して、関連する分類および/またはデータ品質を確認しなければならない各種の診断状況および/または予測状況に利用される。
具体的な実施形態において、本発明は、細胞材料または核酸などの生体由来材料を含むサンプルのアッセイまたは分析を行うことが望まれる研究的および/または臨床的利用に関するものである。具体的な実施形態による本発明はさらに、アッセイ反応の画像、例えば生物学的検出用の各種アレイチップ1個の画像または撮像に好適な各種細胞もしくは組織標本の画像を解析することでサンプルアッセイを解析することが望まれる利用に関するものである。そのような状況では、取り込まれた画像データは、アッセイ反応の観察可能データのデジタル表現を提供する。この画像は、当業界では明らかなように、情報処理システム内で取り込みおよび解析される2次元画像であることができる。本発明の実施形態によれば、画像は、情報処理システムによってデジタル的に取り込まれるか、ないしはそのシステムに伝送される。
具体的な実施形態は、マイクロアレイでの、具体的な例では比較ゲノムハイブリダイゼーション(CGH)マイクロアレイでの自動部分異数染色体検出(SA)(これは、一部の初期の研究および先行出願において部分異数染色体検出と称される。)および関連するデータ集合の解析を可能とする技術、方法および/またはシステムに関するものである。
他の具体的な実施形態は、ゲノムマイクロアレイ画像に関連するものなどのデータ集合の品質の自動および客観的測定を可能とする技術、方法および/またはシステムに関するものである。品質は、本明細書に記載の本発明の具体的な実施形態に従って定義される。ある種の実施形態では本発明には、データ品質または誤差率をサンプルの検出可能な特徴に相関させることによる未知サンプルの誤差率の予測を行う方法および/またはシステムが関与する。特定の実施形態において、自動部分異数染色体検出および/または客観的データ品質測定を用いて、各種疾患その他の状態の診断を実行または支援することができる。
本発明は、取り込み画像データを解析してデータ品質を推定することができるコンピュータシステムおよび/またはプログラムとして具体化することもでき、このシステムは、サンプルデータを取り込みおよび/または作製および/または表示するための他の構成要素と統合しても良い。
本発明の各種実施形態は、ジャバ、C++、コボル、C、パスカル、フォートラン、PL1、LISP、アセンブリーなどの好適なプログラミング言語ならびにHTML、XML、dHTML、SQL、TIFF、JPEG、タブ区切りテキスト、バイナリーなどのいずれか好適なデータもしくはフォーマット規格を用いて汎用もしくは専用情報取り扱いシステム上で実行可能な診断解析用の方法および/またはシステムを提供する。明瞭を期すため、実際の実行の全ての特徴を本明細書に記載しているとは限らない。そのような実際の実行の開発(ソフトウェア開発プロジェクトでの場合のような)では、多くの実行固有の決定を行って、実行ごとに変動するシステム関連および/または事業関連の制約の順守のような開発者の具体的な目標および下位目標を達成するようにしなければならないことは明らかであろう。さらに明らかな点として、そのような開発努力は、複雑かつ時間を要するものであるが、本開示の恩恵を受ける当業者にはソフトウェア工学の日常的な取り組みであると考えられる。
本発明ならびに各種の具体的な態様および実施形態については、下記の図面および詳細な説明を参照することで理解が深まるであろう。明瞭を期すため、この議論では、具体的な例に関して装置、方法および概念についての言及を行う。しかしながら、本発明およびそれの態様は、各種の装置およびシステムに用途を有し得るものである。
さらに、本明細書に記載されている論理システムおよび方法が、モジュール方式で各種の異なる構成要素および各種機能を含み得ることは、当業界では公知である。本発明の異なる実施形態は、要素および機能の異なる混合体を含み得るものであり、各種要素の部分として各種機能を分類する場合がある。明瞭を期すため、本発明は、多くの異なる革新的構成要素ならびに革新的構成要素および公知の構成要素の革新的な組み合わせを含むシステムで説明される。本明細書中の例示的な実施形態で挙げられた革新的構成要素の全てを含む組み合わせに、本発明が限定されるものと推定すべきではない。
本明細書で使用される場合、「本発明」という用語は、本発明の1以上の具体的な実施形態を示すものと理解すべきである。当業者にとっては、本明細書中の記載内容から、本発明による多くの変形形態が明らかになろう。
本特許または特許出願ファイルは、カラーで作られた少なくとも1個の図面を含む。カラー図面を有する本特許または特許出願公開のコピーは、請求および必要な料金に支払いがあれば、当局によって提供される。
部分異数染色体検出
本発明の方法は、当業界においてある程度熟知されている診断アッセイの文脈で最も容易に理解できる。特定のマイクロアレイシステムの本発明の具体例の使用は本発明を限定するものと解釈すべきではなく、本発明は同様のデータ収集および解析の状況に用途を有するものである。遺伝子、染色体もしくはDNAセグメント不均衡を検出する上でのある公知の技術では、例えば分析対象となる全ゲノムDNAの試験サンプルを一つのフルオロフォア(例:Cy3)で標識し、異なるフルオロフォア(例:Cy5)+過剰の例えば未標識競合DNA(例:ContlDNA)で標識したDNAの同様の量の基準サンプルとともにマイクロアレイにハイブリダイズすることで、反復配列DNAからのハイブリダイゼーションシグナルを抑制する。
代表的には、系統的に配置された標的配列DNA領域またはスポットを用いてマイクロアレイを作る。ある代表的なシステムでは、マイクロアレイの各スポットは既知のDNA配列の多くのコピーを含み、それは標的または標的クローンと称される場合がある。多くのシステムで、各標的配列は、マイクロアレイ上の3つの複製スポットによって表される。一つの既知のヒト全ゲノムマイクロアレイは、333個の標的DNA配列それぞれの多くのクローンを含む3つの複製スポットを含む。代表的には、各標的DNA配列は、単一の染色体からDNA配列の特定の部分を含む。
従って、そのようなマイクロアレイを用いる代表的な検出手順では、マイクロアレイ標的スポットを試験サンプル、基準サンプルおよび他の試薬でハイブリダイズし、標的スポット領域でCy3およびCy5蛍光を示す画像を取り込む。この種のアッセイでは、取り込み画像は、アッセイからの観察可能なデータを表す。例示のシステムでは、取り込み画像を代表的には、バックグラウンド蛍光などのアーチファクトについて補正し、スポットをセグメント化および確認し、試験サンプル蛍光強度/基準サンプル蛍光強度の比(例:Cy3/Cy5)を、各スポットで測定する。そのようなシステムの例については、上記の参照および組み込まれた特許出願に記載されている。比率の正規化後、蛍光比は、試験サンプルと基準サンプルでコピー数が同じである相当する(また遺伝的に相補的な)DNA配列を有するDNA配列を有する標的スポットでは約1.0と予想されるが、相当する試験DNA配列コピー数が不均衡であるスポットの場合は1.0とは異なると予想される。試験サンプルでのコピー数の増幅または獲得によって比が大きくなるが、試験サンプルでのコピー数の喪失によって比は低くなる。この議論において、比という用語は、正規化された比を指す。
複製について平均を取った特定標的配列についての比が1.0から有意に異なっているか否かを確認するのに、各種統計的方法が提案または使用されている。そのようなものの一つが、上記で言及の共同譲渡された特許出願(米国特許出願A/N10269723、パイパー(Piper)、10/11/02出願)に記載されている「p値」法である。その方法は、一部の具体的な実施形態において、(1)一つの標的についての複製の平均比からの有意差レベルおよびp値;(2)標的の複製スポット比間の分散;および(3)DNAコピー数を有すると仮定されるか知られているか予想される同じマイクロアレイ上の他の標的の比の分散(そのような標的は、「モード」標的と称することもできる。)という3つの値を計算する。そのp値法およびいくつかの他の統計的方法は通常、各標的DNA配列を分離して調べるものである。
部分異数染色体(SA)検出の例
第1の態様において本発明には、1以上の標的DNA配列からの標的スポットからのマイクロアレイデータを用いてゲノムの不均衡領域を検出するシステムおよび/または方法が関与する。特に、先天性異常に関連するものなどの生来の遺伝子不均衡の場合、しかし多くの癌サンプルの場合も、DNA配列コピー数不均衡がゲノム配列の隣接する領域に影響することは一般的であり、例えばダウン症候群での全染色体21の獲得、または微小欠失症候群でのDNAの数メガ塩基対の欠失がある。本発明は、具体的な実施形態において、1以上の標的での不均衡の同時発生を用いて、不均衡検出の検出および特異性を高める。
特定の実施形態では、本発明は、観察される比を最も良く説明する期待比のモデルを繰り返し測定することで、観察されたスポット比の集合を解析する。期待比は、至適な感受性を有し、シグナルの減弱がない完全にノイズのないシステムでの試験サンプルでの所定のコピー数および基準サンプルでの別の所定のコピー数から表手的について観察されると考えられる比率である。基準DNAのコピー数は既知であることから、試験DNAの未知のコピー数を、期待比から求めることができる。本発明の具体的な実施形態によるモデルは、全てが同じ期待比を有する同一染色体上の標的配列の順次の集合に標的配列を分類する。この場合、これらの順次集合は、セグメントと称される。ベースモデルは、全ての標的比が比の値1.0を有するものである(モード標的とも称される)。
本発明の具体的な実施形態に従ってモデルを構築する際には、各反復がそれ以前のモデルに1以上の標的配列の非モードセグメントを加える。選択される非モード(または陽性)セグメントは、尤度の統計的概念に基づいた至適化を用いて、新たなモデルをデータに最も適合させるものである。新たなモデルは、対数尤度における利得が統計的に有意である場合およびその場合のみに許容される。モデルに対する有意差のない変化のみが可能である場合、それは完全であると見なされる。
本発明の具体的な実施形態によるモデル構築は、図1A〜Eの試験によって視覚的に示すことができ、概念的に理解することができる。そのプロセスは説明するのが簡単であるが、バリデーション済みで再現可能な診断の場合のように、この方法の一部の応用においては、データ解析実施の数学的に決定論的および厳密な方法を有することが望ましく、本発明の具体的な実施形態によるそれの例について下記で詳細に説明する。
図示した配列では、各連続モデルは、それ以前のモデルより有意に良好な観察データに適合する。この例では、第6番目の反復での対数尤度における利得が、統計解析の分野で熟知されているχ検定によってp>0.02を有していたことから、有意差がないと判断された。これによって、より良好に適合するモデルの探求は終了することになった。
本発明の具体的な実施形態による部分異数染色体検出は、陽性の標的(すなわち、相当する試験サンプル配列がDNA喪失または獲得を有する標的)が長さ2標的配列以上のセグメントにあり、単離陽性標的の検出において少なくとも同等の性能を有する場合、他の方法より優れた性能を有する。
方法例
具体的な実施形態によれば本発明は、全染色体が関与するか染色体の一部が関与するかを問わず、試験サンプルコピー数変化が通常は、複数の順次標的スポットで比を変化させるということを利用するものである。この議論に関して、試験サンプルにおいて全てが同じコピー数変化を示すDNA標的の連続集合を、セグメント変化または短縮してセグメントと称する。
セグメント解析の方法は、CGH解析へのcDNAクローン発現マイクロアレイの適用の文脈で検討されてきた。小配列長さのcDNA標的クローンでは、全ゲノムDNAでプロービングした場合に非常にノイズの大きい比データとなり、個々の標的の性能はそれに応じて悪くなる。例えば、ポラック(Pollack)ら(1999)は、「移動平均ウィンドウ」を用いて順次cDNA標的クローンの集合の単一コピー変化を感度98%および特異性98%で検出することについて報告しているが、検出されたセグメントに有意差の尺度を適用していない。クラーク(Clark)ら(2003)は、全ての標的クローン比データの配列に対してLOWESS曲線適合を用いて、比が変化した可能なセグメントを検出し、次にマン・ホイットニーのU検定を用いて候補セグメントについての有意性レベルを提供することを提案している。CGH解析に特異的に製造されたBAC/PACクローンマイクロアレイへのセグメント技術の一つの応用が、フリドルヤンド(Fridlyand)ら(2003、2004)によって報告されており、彼らは隠れマルコフモデル(HMM)を癌細胞系のアレイCGH解析からの標的比の配列に適合させている。
クラーク(Clark)ら(2003)が議論しているように、セグメント同定には2つの構成要素がある。最初に、1以上の候補セグメントを提案しなければならない。本発明の一部の実施形態では、全ての可能なセグメントを提案する全数検索を用いる。これは、陽性セグメントがその候補発生法によって見落とされる可能性があるという問題を上手く回避するものであり、本発明はその後の計算を非常に効率良くする方法を用いることができる。第2に、各候補セグメントの値または有意性の判定基準を用いて、良好なセグメントを選択し、良好性の低いセグメントを除外することで、ランダムノイズの効果から真のコピー数変化を区別する。
本発明の態様は、プロファイル点の一連の隣接セグメントとしてCGH染色体比プロファイルのモデルを反復的に構築するための最大尤度の枠組みを提案したカロザース(Carothers)(1997)によって報告された中期細胞CGH解析法を参照することで、本発明の態様についての理解をさらに深めることができる。カロザースのモデルでは、あるセグメントのあらゆる点が同じ試験および基準コピー数を有していた。モデル構築は、染色体プロファイル上の隣接する点間の「クロストーク」と一致するよう制約されており、生じる尤度上昇が適切な統計的検定に従って有意であった場合にのみ、モデルをより複雑にすることが可能となるという節減の原理を用いていた。
本発明の具体的な実施形態は、尤度の枠組み、反復法、節減原理、制約および試験コピー数および基準コピー数から誘導される基礎「期待比」に関するモデルの特異性のうちの1以上を利用する。クロストークは通常、マイクロアレイ上には存在せず、解法における制約としてのそれの役割は、(i)非モード期待比を有するセグメントが同一染色体上の順次のゲノム順に並んだ標的クローンを有するという主張、(ii)期待比の許容される値に対する理論に基づいた制約によって代わられている。
最大化される尤度関数の一つの具体例について、以下において理解することができる。(1)マイクロアレイ上のゲノム順の標的集合にi(i=1・・・k)のインデックスを付け、一つの標的内の複製スポットをr(r=1・・・n)とインデックス付けする。代表的には、全てのiについてn=3であり、代表的にはiは特定のマイクロアレイ上の提供または解析される標的数に応じて333または287などの値を取る。標的iに属するスポットrについての観察比データをyriと称し、それは基礎値(標的Yについての複製全体で一定)+誤差項eirを有することでyri=Y+eirとなっており、標的iの複製スポット全体での観察平均比をyと称し、マイクロアレイ上の標的集合についての観察比の集合をyと称する(若干異なる理論的発達があっただけで対数比を用いることが可能となったが、実際に調べる状況下では、対数比の公式化は、比自体を用いた場合ほど良好に機能しなかった。)。
本発明の具体的な実施形態によるモデルは、各標的座での試験コピー数および基準コピー数についての基礎となる仮説を代表するeと称される「期待比」の集合である。マイクロアレイ上の標的の完全集合についての期待比の集合をcと称する。
最大尤度によって最も良好に適合するモデルを選択するため、本発明は、c:L(c)=log(p(y|c))とした場合にyの対数尤度を最大とする。
標的比が互いに統計的に独立であると仮定する。具体的には、p(y|c)=p(y|c)およびp(y|c)=p(y/c,y)、i≠jである。これによって、L(c)=log(p(y|c))=Σp(y|c)と書くことができ、全ての標的iにわたっての合計を行うことができる。正規分布を仮定すると、L(c)は、式:L(c)=α−Σ(y−c/2ν[式中、αは定数であり、νはyiの分散である。]から計算することができる。
分散νは、u+w[式中、u=標的内分散/n(代表的には3)であり、wは「標的ノイズ」(正常なコピー数の試験および基準DNAを全ての標的座でハイブリダイズした場合の標的平均比の標的集合間の分散)である。]としてモデル化することができる。セグメント移行が比較的希であると仮定すると、wは、下記のようにして、集合の全てのuおよび隣接標的差の分布の分散(y−yi−1)から近似的に推算することができる。所定のiに関して、var(y−yi−1)=var(y)+var(yi−1)=ν+νi−1[式中、var(・・)は、ランダム変数の分散である。]である。これは公知の定理である。νおよびνi−1は互いに同じでなくても良いが、標的集合全体(例:ゲノム全体)にわたる平均値を考慮すると、E(var(y−yi−1))=2E(ν)[式中、E(・・)は、iによってインデックス付けされた集合にわたるランダム変数の期待値である。]である。νをu+wに代え[留意すべき点として、wは、標的依存の変数ではなく染色体(またはチップ)の定数であることからE(w)=wである。]、並べ替えることで、w=0.5E(var(y−yi−1))−E(u)となる。
E(var(y−yi−1))もE(u)もいずれも、データから推算することができる。E(var(y−yi−1))は、全ての隣接標的比差(y−yi−1)の集合の分散[var{(y−yi−1)}と称される]によって近似される。var{(y−yi−1)}を推算する場合、部分比変化における差を除外し、それは当然のことながら最初は未知である。これは、具体的な実施形態においては、第1および第3四分位値±3×四分位範囲から確立された閾値に基づいて外れ値差を除外することで達成される。同様に、平均標的内分散E(u)を計算する場合、外れ値分散を棄却する。
ここで、実行される診断解析に適した制約下に、cの可能な値(期待標的比)の集合全体について、尤度L(c)を最大とする。
本発明の好ましい実施形態で用いられるモデルは、平滑性条件を持たないが(標的は統計的に独立であり、標的配列数に対してプロットした場合の実際の標的比データは常に「ギザギザ」しているように見える。)、制約が全くないと、至適解が期待比値が単純に観察値に等しいというものになる可能性がある(例:c=y)。
一つの例示的実施形態においては、特定のCGHマイクロアレイ診断用途に適した2つの制約を用いる。最初に、全ての期待比cが1.0でなければならないか、または試験および基準DNAがあらゆる場所でコピー数1、2または3を有するモデルに適合する量だけ1.0から逸脱するものでなければならない(この制約は先天性不均衡の場合には特に適しているが、癌、レトロウィルス感染その他の状態によるものなどの他の細胞不均衡の検出には他のコピー数の方が適切な場合がある。)。
留意すべき点として、Y染色体標的は、これら標的とX染色体および/または常染色体配列との間の相同度が高いために、女性サンプルではコピー数ゼロを有するものとして処理されない。その代わり、Yは女性サンプルにおいてコピー数0.5を有するものと仮定され、女性試験サンプル−男性基準サンプルで理論期待比が0.5となり、男性試験サンプル−女性基準サンプルで2.0となり、性別を合わせた試験および基準サンプルハイブリダイゼーションでは1.0となる。このYの処理は単純化であるが、標的間でYとXの以外の相同性を無視していることから、それは実際にはかなり良好に機能することが認められている。
その方法の具体的な実施形態では、これらの制約はC=1+s(R−1)[式中、R=t/rである。]が{0.5,1.0,1.5,2.0}のいずれかであり、sが最終的にデータから推算されることになるチップの定数であるということを要求することで適用される。この議論におけるs値は、期待比値と比較した測定非モード比の減弱を表すものと理解することができる。異なる期待比がある単一の実験について期待比に対して測定比をプロットすることで、勾配を有する直線となる以前の研究と若干の類似性があるために、この値は「勾配」と称される場合がある。第2の制約として、原則的に0<s<1としながら、自明な解を排除するために、0.25<s<1.0となるようにsを制限する。
さらに別の具体的な実施形態では、標的の順序通りの配列での期待比に制約された変化を仮定することで検索を進める。各反復において、下記の4つの自由パラメータによって定義される空間にわたって検索することで、尤度L(c)を最大とするいずれか単一の非モードセグメント(または既存の非モードセグメントの内部、例えば染色体X内にある新たなモード−比セグメント)を加える。
1.L[最初に変化した標的のインデックス]。
2.L[最後に変化した標的のインデックス]。検索は、単一染色体内に含まれるセグメントに限定される。
3.q[勾配=1と仮定した場合の変化した標的の期待「比偏差」(すなわち1.0からの偏差)]。具体的な実施形態では、qは(t/r−1)として表される4つの異なる許容値の集合から導き出される(上記参照)。留意すべき点として、c=1+sqである。
4.s[このチップについての勾配の現在最も良い推算]。
現在のモデルと以前のモデルの間の対数尤度における差は、2を掛けると、モデルに加えられた追加パラメータ数に等しい自由度でχ分布する(Miller and Miller, 1999, p.404)。従って、モデル構築の各反復は、自由度4でのχ分布で現在のモデルと以前のモデルとの間の対数尤度差を2回比較することで評価される。対数尤度の利得が選択された有意差閾値についての臨界値以下になる場合、検索は終了する。すなわち、形式的有意差検定を用いることで、モデルの過適合を回避する。
別の具体的な実施形態では、留意すべき点として、一つの染色体ごとに至適化を行うことが可能であるが、勾配sおよび標的比分散wはチップ全体の成分をも有する。従って、具体的な実施形態では、セグメントが個々の染色体の末端を超えて広がらないようにしながら、チップ上の全標的集合全体にわたって同時に検索することが適切である。最終結果は、チップ全体についてのコピー数変化の記述である。
検索空間は、比較的良好に決まっている。LおよびLは、同一染色体上になければならない。このことは、一つの例のチップにおける可能なセグメントエンドポイント対の数を、2000個のレベルに限定するものである。qが取り得る可能な値は4つのみである。上記のように、sは0.25<s<1.0の範囲になるように制約されている。sを例えば0.01ずつ増加させながら至適なsについての総当たり検索を行うのは、あまり労力を要するものではないと考えられ、具体的な実施形態において用いることができる。しかしながら、好ましい方法においては、L(c)=a−Σ(y−c/νを下記のようにsの関数として表すことができることも留意すべき点である。
L(c)=a−Σ(y−c/ν
=a−Σ(y −2y+c )/ν
=a−Σ(y −2y(1+sq)+(1+sq)/ν (式1)
検索におけるある特定の点でのq、LおよびLの特定の値を考慮すると、それらの点でL(c)を最大とするsの値は、上記の最終表現を微分し、導関数がゼロである所を見つけることで見出すことができる。
dL(c)/ds=−Σ(−2y+2q+2sq )/ν[この式は、
s=Σ(y−1)/ν)/(Σ /ν)である場合にゼロである。] (式2)
sの至適値が許容される範囲0.25<s<1.0外にある場合、トリプル{q、L、L}が、さらなる考慮から除外される。
さらに別の具体的な実施形態では、式1が、その後の反復におけるL(c)の効率的な計算の基礎も提供する。検索のいずれかの点で、現在の仮想の次のセグメント変化が単一染色体に限定されることから、他の各染色体が寄与するL(c)の値は、L(c)=A+Bs+C[式中、jはその染色体をインデックス付けするものであり;cは染色体jに属するcの下位集合であり;A、BおよびCは定数である。]の形のものである。下記の和は、染色体jに属する全ての標的iに当てはまる(記号的には、i∈jである。)。
=Σi∈j(y−1)/ν
=−2Σi∈j(y−1)/ν
=Σi∈j /ν
項Aは、解析を通じていずれの場合も一定である。染色体kにおける新たなセグメントについて検索を行う間、本発明は項Σj≠kおよびΣj≠kを予め計算することができ、それは残りの23染色体のL(c)およびそれのsに関する導関数に対する寄与を直接提供するものである。これらの至適化によって、SA方法全体が実際に利用可能となり、例えば667MHzパワーPCG4で完了するまで計算するのに1または2秒を要するのみとなる。
上記の方法に対する代替法として、前述のようにアルゴリズムの各反復で勾配値を再計算する代わりに、部分異数染色体検出アルゴリズムを下記のように実行することができる。
1.非モードである最も高い尤度を有するセグメントを見出し、そのセグメントにおける標的の観察比の平均を計算する。尤度利得がカイ二乗検定によって有意である全てのセグメントが見出されるまで、このプロセスを反復する。
2.平均観察セグメント比の集合の期待比の集合に対する最良適合を見出す。この段階は、勾配パラメータについての値を推算するものである。その適合化は、可能性のあるs値に限定されるものでなければならない。
3.同じ期待比を有する隣接セグメントをまとめる。期待比1.0を割り当てた第1段階で検出されたセグメントは、そのサンプルがゲノムクローンの混合群(「モザイク」サンプル)を含むことを示す場合がある。従ってそれらは希釈されるべきではなく、ユーザーに対して異常なものとして提供されるべきである。
実験結果
一連の実験的検討において、それぞれ3つの複製スポットを有する287個の標的または333個の標的を含むマイクロアレイを用いる実験から、515個のマイクロアレイ画像を収集した。これらのサンプルで用いた試験DNAはほとんどが既知の全染色体獲得または既知の微小欠失を有する各種細胞系からのものであり、少量のサンプルで正常な試験DNAを用いた。一貫して(すなわち、ランダムではない)、そして一般的に擬陽性または擬陰性検出事象の原因となることが以前に確認されている8個の標的クローンを、287個の標的を含むマイクロアレイを用いる全てのサンプルの解析から除外した。333個の標的を有するマイクロアレイを用いたサンプルでは、全ての標的クローンを解析に含めた。
標的ごとに標的についての擬陰性率(FNR)および擬陽性率(FPR)に関して性能を評価した。FNR=FN/GTP、すなわちグランドトルース陽性標的数で擬陰性標的数を割ったものである。欠けている標的は、分子と分母の両方から除外した。同様に、FPR=FP/GTN。ここでは、結果はほとんどの場合、解析感度(1−FNR)および解析特異性(1−FPR)によって報告される。
受信者動作特性(ROC;すなわち、感度−特異性)データを得るため、広範囲のχ確率閾値で解析を繰り返した。
利用可能なデータ集合はほとんど、微小欠失、微小重複その他の小さい不均衡の例が比較的少ないトリソミー細胞系によるハイブリダイゼーションからなるものであったことから、標的平均比データを4つの異なる方法で解析して、小セグメントおよび単離標的コピー数の変化によって生じると考えられる問題のシミュレーションを行った。
ある解析では、記載のSA法を、最初のゲノム順で標的クローンデータ集合に適用した。これは下記において、「標準SA」と称する。287個の標的を有する全てのマイクロアレイにおいて、染色体Yは長さ2のセグメントの1例を与え、かなりの数のサンプルで、染色体22のディジョージ症候群欠失領域が長さ3のセグメントの1例であった。他の全ての非モードセグメントは7以上の長さを有していた。
第2の解析では、標的クローンの順序を変えるか、「シャッフル」することで、長い非モードセグメントにおけるクローンのうちの少なくとも一部を1、2、3または4個の隣接クローンのセグメントに分離するための並べ替えを行った。その順序変更は半ランダムとしたことから、各サンプルについて異なる並べ替えを用いた。XおよびY染色体はシャッフルしないままとした。次に、記載のSA法を、シャッフルした順序で標的クローンデータ集合に適用した。セグメントはいずれの長さでも可能としながら性染色体標的を標準的な方法で解析することで、勾配計算は「良好なスタートを切る」ことができた。これは下記において、「シャッフルSA」と称される。
第3の解析において、このシミュレーション実験のみのための一時的尺度として、SAアルゴリズムをさらに制限して、常染色体上の唯一の可能な候補セグメントが単一の標的クローンからなるようにした。そうして、全ての常染色体標的が単離標的のみとして検出可能となった。このシミュレーションによって、非常に大きい単離標的集合が得られ、それは、実データがこれに関して提供されるべき場合に予想されるものよりかなり大きいものであった。これは「単離標的SA」と称される。
比較のため、最初のp値法(PV;詳細な説明については、Piper, 2002参照)も適用し、FNカウンティングを常染色体グランドトルース陽性標的のみに限定することで、直接比較を上記の単離標的方法で行うことができた。
各場合において、FPRは全標的(すなわち、性染色体を含む)に基づいたものとした。標準SAは単離標的SAより多くのFPを発生させることから、単離標的SAについてのFPRは標準SAによって発生させた。
性能に対するセグメント長さの影響についての理解をさらに深めるため、検出される標的クローン数とセグメントの真の長さの二次元ヒストグラムを、「シャッフルSA」解析から抽出した。χ確率閾値の単一の好適な値を用いた。
上記の制約部分異数染色体(SA)法は、「勾配」法と称される。より単純な代替法があり、それを我々は「基本」法と称する。基本法では、観察比データの可能なセグメントをモデリングするのに選択される比は、そのセグメント中の全ての標的全体での平均観察比である。すなわち、このモデルには、「許容期待比」および「勾配」のいずれの概念もない。予備実験で、ランダムに全て「同じ方向に進む」小さい非モード比を有するごくわずかな標的を含む擬陽性セグメントの高い尤度を示していることから、単一の特別制限が必要であること、すなわち、セグメントのモデル比が<0.85または>1.15でなければならないことがわかった。
結果および考察
図2は、他の方法と比較して本発明の具体的な実施形態による方法を用いて不均衡検出の感度と特異性を比較するグラフの例である。図2は、全標的についての標準SAおよびシャッフルSA、ならびに常染色体標的のみについての単離標的SAおよびPVという4つの方法からの感度と特異性(ROCとも称する)曲線を比較する図である。これらの結果は、SAの方がPVより良好な成績を与えることを明瞭に示している。コピー数変化に長さ2以上の標的クローンのセグメントが関与している場合には、その改善が劇的である。しかしながら、その改善はSAが人為的に長さ1標的クローンのセグメントに限定される場合もかなり大きい。
表1には、3個のマイクロアレイ当たり約1個の擬陽性を与えるようにχ閾値を選択した場合、標的順序「シャッフル」後にSAによって解析されたデータに存在する非モードセグメントのカウントの2次元ヒストグラムを示してある。そのヒストグラムには、垂直方向にセグメントの真の長さによって、そして水平方向で実際に検出されたセグメントからの標的クローンの数によってインデックスを付けてある。結果から、セグメント検出性能が3以上の標的クローンを有するセグメントにおいて優れているがわかる。
Figure 2008511058
図4は、データの110チップ小集合について測定された「勾配」法および「基本」法による単離標的SAに関するROC曲線を示す図である。「勾配」SA法は、単離標的クローンの検出において「基本」法より優れている。これは、主として下記の理由によるものと考えられている。検出されるためには、セグメントの対数比に勾配を掛けたものが、最も小さい許容されるモデル対数比の少なくとも50%でなければならない。すなわち、その方法は、単離クローンに最小比条件を課すものである。最小比は、勾配によって決まるものであることから、各サンプルに特異的である。このためそれは、「基本」法によって用いられる全体比閾値より効率的に擬陽性を排除するものである。しかしながら、「基本」法は、いくつかの利点を有する。最も顕著には、それは、勾配モデルよりかなり良好にモザイクコピー数変化を検出すると考えられる。
出生前および出生後遺伝子試験への応用例
別の実施形態では、本発明を臨床および/または研究の場面でアレイ比較ゲノムハイブリダイゼーション(aCGH)とともに用いて、コピー数における部分および全染色体変化を検出することができる。特定の具体的な例では、ゲノ・センサー(Geno Sensor;商標名)読み取り装置と組み合わせてテカン(Tecan)HS4800ハイブリダイゼーションステーションを用いる。一つの実施形態例では、三連でスポットされた333個のクローンを含むアレイ上でハイブリダイゼーションを行う。好ましいアレイでは、対象となる既知の微小欠失/微小重複に関連する全てのテロメアおよび領域が、アレイ上の2以上の近接した標的配列によって表され、正常末梢血試料(PBS)に対してPCRまたはFISHなどの解析によって標的特異性を測定することで多形標的を回避する。
本発明の具体的な実施形態によれば、ユーザーソフトウェアパッケージ(例:ゲノ・センサーソフトウェア)が本明細書で前述の部分異数染色体(SA)の統計的解析方法を用いることで、感度および特異性が向上する。別の実施形態では、下記に示すような全体的品質のハイブリダイゼーション指標を用いることもできる。
実験的試験では、この新たなアレイおよびアッセイ様式によって、アッセイ性能を向上させながら、先天性遺伝子不均衡を検出する結果を得るのに要する時間が大幅に短縮される(例:出生前、出生後および着床前)。例えば、あるアッセイで純粋なDNAで開始する結果を得るのに要する時間が、96時間から36時間に短縮され、しかも変動係数および再現性は向上している。さらなる至適化によって、応答時間がさらに短縮されるものと予想される。
従って、具体的な実施形態では、本発明による診断システムおよび/または方法を、精神遅滞/発育遅延、身体的先天性欠損症および異常形態的特徴などの発達障害の一般的な原因となっている染色体不均衡を検出する上で至適化することができる。現在、染色体異数性の出生後診断においては中期核型解析が標準であるが、微小欠失症候群および微小重複症候群の検出には超顕微鏡的ゲノム領域をターゲティングするプローブを用いる蛍光イン・サイツハイブリダイゼーション(FISH)が標準である。具体的な実施形態での本発明には、比較ゲノムハイブリダイゼーション(CGH)の使用による一つのアッセイでの染色体異数性ならびに微小欠失症候群および微小重複症候群の診断が関与する。具体的な実施形態では、本発明による検出システムまたは方法を、これらDNA配列不均衡の出生前、出生後または胚着床前診断に至適化することができる。従って、具体的な実施形態において本発明は、各標的クローンが十分に特性決定され、特異的染色体領域にマッピングされる(アレイ−CHG)aCGH、(固体支持体に結合した染色体クローンへのCGH技術の適用)を用いる。本発明の具体的な実施形態によるaCGH解析によって、不均衡なゲノム異常の非常に感度の高い検出が可能であり、単一アッセイで全染色体異数性、微小欠失、微小重複および不均衡なテロメア周辺(subTel)再配列の診断的検出を提供することができる。
本発明のSA法を用いて、相互ハイブリダイゼーションを必要としない非常に再現性の高い自動CGHアッセイ様式を可能とすることができ、新鮮および固定の両方の末梢血(PB)または細胞系試料からコピー数異常(CNA)が高い信頼性で検出される。
自動プラットフォーム
好ましい実施形態では、本発明の解析方法を、ハイブリダイゼーションおよび洗浄を自動化し、画像取り込みおよびデータ解析を自動化し、アッセイの品質を評価し、定性的結果(取得、喪失、変化なし)を報告するCGHプラットフォームに組み込むことができる。a)改良されたマイクロアレイ標識/ハイブリダイゼーションキット、b)スライドグラス上の内容を拡大したマイクロアレイ、c)専用ハイブリダイゼーションプロトコールを行うテカンHS4800ハイブリダイゼーションステーションおよびd)本明細書に記載の方法を含むソフトウェアアルゴリズムを有するゲノ・センサースライドグラス読み取り装置という変更を用いて、現在のシステムのいくつかの例を本発明に従って実行できるようにすることが可能である。
aCGHアレイおよび標的配列(クローン)選択
本発明の方法を用いて対象の特異的アッセイを行うよう開発されたaCGHアレイは、333個のゲノム標的DNA配列(またはクローン)からなる。クローン選択を行うため、対象の領域を、刊行物、共同研究者および国内の遺伝学会議によって確認した。全染色体または染色体セグメントの獲得/喪失を検出する際の信頼性を高めるために、染色体腕当たり最低3個のクローンを選択した(染色体当たり6個)。そのアレイは、既知の微小欠失/微小重複領域に82個のテロメア周辺クローンおよび29個のクローンを含む。各テロメアは、末端動原体型染色体p腕以外は2個のクローンによって表される。各微小欠失/微小重複領域は、2〜5個のクローンによってカバーされる。各クローンが何であるかは、クローン特異的プライマーを用いるPCRアッセイによって確認し、各クローンの特異性および細胞遺伝学的位置はFISHによって検証した。
aCGHアッセイの1例においては、試験および正常基準DNAサンプルをシアニン3−dCTPおよびシアニン5−dCTP(Perkin Elmer)でランダムプライム標識する。さらに精製した後、試験プローブおよび基準プローブをaCGHハイブリダイゼーション緩衝液中で合わせ、テカンHS4800ハイブリダイゼーションステーション上の333−クローンアレイに24時間ハイブリダイズし、次にアレイの自動洗浄および走査を行う。
画像およびデータ解析ソフトウェア
システムの1例において、スライドグラス読み取り用に改造された読み取り装置を用いてアレイ画像を取り込む。読み取り装置に関連するソフトウェアが画像取得、解析およびデータ報告を制御する。そのソフトウェアは、DAPIシグナルに基づいてスポットを確認し、緑および赤画像平面から平均強度を測定し、バックグラウンドを引き、緑/赤シグナルの比を求め、サンプルDNAのモードDNAコピー数を最も代表する比率を計算する。各標的に関して、モードDNAコピー数に対する正規化された比率を計算し、個々の変化の有意差を報告する。図3は、例えば各種蛍光標識を有するスライドグラスを読み取るよう設計または改造された読み取り装置でアレイ画像として取り込まれた観察データの1例を示す図である。
上記の部分異数染色体解析を用いることで、非常に感度の良い部分CNAの検出が可能となる。さらにそのソフトウェアは、下記に記載のアッセイ全体および画像品質の量的評点などの予測的品質管理の特徴(品質尺度)を含むことができ、スポットセグメント化の完全性およびスポット識別の信頼性の尺度ならびに画像焦点などの内容も含むことができる。
従って、前記の新たなデータ解析および品質除外アルゴリズムによって、a)品質尺度パラメータについての実験的に選択されたカットオフに基づく低品質データの除外、およびb)ゲノムコピー数における変化を「真正」とカウントする確率の適切なレベルの選択が可能となる。
品質の客観的評価
別の具体的な実施形態によれば、本発明には、ゲノムマイクロアレイ解析品質の客観的定義、「品質尺度」の具体的定義、ならびに測定可能な「品質特徴」から品質尺度を自動的に推算する方法の全般的枠組みを提供する1以上の方法および/またはシステムが関与する。具体的な実施形態において、標的配列の真のコピー数がわかっているチップ画像例(例:既知サンプル)によって推算のパラメータをトレーニングすることができる。
コピー数変化を検出する上での部分異数染色体(SA)法の文脈でのこのアプローチの実施可能性を示す結果が、下記で提供される。本発明には、イン・ビトロ診断(IVD)マイクロアレイ解析ソフトウェアなどの各種用途がある。
緒言
マイクロアレイ実験がゲノムコピー数変化を正確に検出する能力は、少なくとも2つの要素に関係している。最初に、コピー数変化があるハイブリダイズ標識について測定される比は、通常またはモードコピー数を有するハイブリダイズ標識の比と十分に異なるものでなければならない。第2に、測定された比の値における不規則変動が、十分に低いものでなければならない。別の表現を行うと、陰性事象に固有のノイズから陽性事象を識別する上で十分なシグナルがなければならない。シグナルの各種尺度がが可能であり、例えば陽性対照標的クローンについての比の変化、または上記で説明した部分異数染色体手順によって戻るような観察/期待比に関係する勾配の値などがある。ノイズの各種測定も当業界では公知であり、例えば陰性対照標的クローンについての比変化の標準偏差、標的の複製スポット間の変動係数、スポット内の個々の画素値の試験および基準強度の相関、または平均シグナル/平均バックグラウンドの比がある。マイクロアレイの熟練したユーザーは、特別な形態でこれらの尺度を利用して、マイクロアレイ実験の品質を等級分けする場合がある。
カーターらの報告(N.P. Carter, H. Fiegler, and J. Piper (2002) ″Comparative Analysis of Comparative Genomic Hybridization Microarray Technologies: Report of a Workshop Sponsored by the Wellcome Trust″, Cytometry 49:43-48)において、比ノイズの複合尺度によって観察/期待比の勾配を割ることで、対照実験(陽性および/または陰性ハイブリダイズ標的が知られている)の品質を測定可能であることを提案している。これは、シグナルおよびノイズの個々の尺度を単一でより強力な品質尺度に組み合わせたものであるが、画像からのそのような測定値を用いて、未知サンプルに応用されるマイクロアレイ解析の品質を推算する方法については説明していなかった。
本発明の具体的な実施形態は、下記の利点の1以上を提供するものである。第1に、コピー数変化に関して陽性または陰性であるが、それの状況は事前には知られていないハイブリダイズ標的の検出において誤差を経験する尤度を直接予測する客観的尺度によって、品質結果の臨時の表現を置き換えるという点;ならびに第2に、品質の他の側面の測定値とともに、上記のようなシグナルおよびノイズの測定値を至適に組み込むことで、単一の客観的尺度を形成するという点である。
品質の定義
品質定義には、当業界で熟知された少なくとも2つの代替アプローチがある。
第1のものは、一人以上の専門家に、彼らが各特定のマイクロアレイ画像をどのように判断するかを尋ねるというものである。例えば観察者にとってチップ画像がどのように見えるか、そして例えば露出時間、シグナル/バックグラウンド比などの解析ソフトウェアによって提供される値に基づいた答えとなり得ることが予想できる。十分な例および十分な専門的知識があれば、一部の以前の研究で示されていると考えられるように、このアプローチを発展させて、形式的かつ半定量的システムとすることができる。
しかしながら、具体的な実施形態において本発明は、品質測定の基礎にある目的をより詳細に目を向けるものである。具体的な実施形態によれば、本発明は、品質測定システムはマイクロアレイ実験の起こり得る欠陥率を予測できるものでなければならないという考え方を採用するものである。すなわち、アレイシステムの新たなサンプルへの実際の適用においては、通常は未知である基礎となるゲノムグランドトルースがある。さらに、通常は既知である解析結果もある。相当する「真正の」擬陽性(FP)および擬陰性(FN)率で、ゲノムグランドトルースと比較した解析結果に誤差があり得るが、解析の結果から、これらのいずれも「知る」ことはできない。
本発明の具体的な実施形態によれば、品質測定方法および/またはシステムを用いて、真のFPおよびFN率(または何らかの関連する値)を予測する。理想的には、その推算値は、知ることができない真のFPおよびFN値に近いものとなる。要するに、本発明の具体的な実施形態による品質尺度は、誤差関数を予測するものである。十分な経験および専門知識があれば、以前の半定量的アプローチでこれを行うことも可能かも知れないが、それらは常に、ある程度主観的であると考えられる。従って本発明は、より十分に客観的な尺度を提案するものである。
品質結果:FNR、FPRおよびNIR
DNAコピー数変化を探すCGHマイクロアレイ実験の場合、擬陰性標的、擬陽性標的および無情報標的(例:許容される複製スポットが少なすぎるもの)という概して3種類の欠陥がある。管理された実験では、各標的についてのグランドトルースを知ることができることから、これらの実験では、擬陰性率(FNR)、擬陽性率(FPR)、ならびに無情報標的(NIR)の割合もしくは率を測定することができる。
本発明の各種具体的な実施形態によれば、これら3つの測定のいずれか好適な組み合わせによって、チップ品質の十分に客観的な定義が提供できるものと考えられる。しかしながら留意すべき点として、FPRおよびFNRは概して新規実験においては未知であることから、他のデータから予測しなければならないが、NIRは既存のソフトウェア解析の結果から直接利用可能である。従って、具体的な実施形態において本発明は、完全に別個の品質尺度としてNIRを保持することができる。このため、具体的な適用において本発明は、FNRおよびFPRまたはそれらの類似物の加重和によって、下記のようにチップ品質を定義する。
品質特徴
マイクロアレイ画像の解析中、マイクロアレイの品質に関係する多くの特徴が利用できるようになる。例として、(1)標的比の分散、(2)いずれも上記の部分異数染色体アルゴリズムによって発生される観察/期待比の勾配または減弱がある。実際には、最初のものはマイクロアレイノイズの尺度であり、第2のものは比シグナルの尺度である。当然のことながら、対照実験で測定される誤差率は、これらの特徴とかなりの相関を示す。図5A〜Bは、(A)勾配および(B)モード標的比の標準偏差(「モードSD」)という特徴のα=0.01(青)での擬陽性率(FPR)およびα=0.0001(ピンク)でのFNRとの相関を示す散布図の例である。
FNRと勾配の間には明瞭な関係があり、勾配が上昇すると、FNRが低下する。これは、勾配が大きくなるに連れて、検出される陽性シグナルが高くなるか、予想陽性シグナルに近くなるという点で理解可能であることから、陽性シグナルを正確に検出することがより容易になることで、FNは低下する。同様に、FNRとモードSDの間には明瞭な関係があり:モードSDが増加するに連れて、FNRが増加する。これもやはり、全てが正常な比率(例:1)を有するべきであるシグナルの偏差における増加が、全体のノイズおよび/または変動における増加を示しているという点で理解可能であることから、陽性の結果はノイズに隠れる傾向があり、擬陰性検出が増加する。
FPRといずれかの特徴の間の関係はより小さいものであり、勾配の場合には、FNRとの関係と反対方向であるように見える。例えば上記で示したようなFNRおよびFPRの各種挙動は最初は予想外であったが、本発明によるさらなる解析で、例示の読み取り装置ソフトウェアにおけるp値およびSAアルゴリズムの性質により、FPRは原則的に品質から独立であり、選択されたα値によって決定されるべきであることが明らかになっている。しかしながら実際には、FPRの変動は小さく、通常ではFPRは、FNRとやや逆相関であるように見える。これは、選択されたαレベルに対するp値の較正をサンプル間でわずかに変動させ得る、使用される検出方法のアーチファクトであると考えられている。FNR上昇を生じさせる傾向のあるそのような変動は同時に、FPR低下を生じる傾向があり、その逆も言える。しかしながら、FNRおよびFPRが概念的に互いに逆ではないことを思い出すことが、本発明の一部の態様を理解する上で役立つ。シグナル強度が何らかの理由で弱いか、バックグラウンドノイズその他の変化が大きいために、FNRは、真のシグナルがどのように「隠されている」かの尺度である。FPRは、実際には陽性シグナルによって生じないシグナルその他の変動においてスパイクによって生じ得る陽性シグナルを除外する上で検出がどの程度良好であるかの尺度である。
CGHマイクロアレイ解析用のゲノ・センサー読み取り装置ソフトウェアは、下記表に記載のようないくつかの他の品質関連の特徴値を測定するものである。
Figure 2008511058
連続誤差関数
FNRおよびFPRの初期検討を、勾配およびモードSD品質特徴との相関を示す上記の散布図で用いたものなどの特異的(および異なる)αレベルで定義した。しかしながら、それぞれが限られた数の有意差値の閾値に基づいていることから、FNRもFPRもいずれもαレベルの連続関数ではない。本発明の具体的な実施形態によれば、代替の定式化によってこの問題は回避される。
・Eposは、グランドトルース陽性クローンのp値の対数の平均である(すなわち、Epos=平均(log(p)|標的グランドトルース+ve))。Eposは、常に負の値を取り、Eposの負の値が大きいほど、品質が良好であることを示唆し、陽性標的の検出がより容易であることから、擬陰性が少なくなることを示唆している。従って、Eposは、連続値のFNR類似値である。
・同様に、Enegは、グランドトルース陰性クローンのp値の対数の平均である(すなわち、Eneg=平均(log(p)|標的グランドトルース−ve))。Enegは常に負の値を取り、Enegの負の値が大きいほど、品質が良好であることを示唆しており、負の標的の検出が容易であることから、擬陽性が少なくなることを示唆している。従ってEnegは、連続値のFPR類似値である。
真の陽性クローンに関して、p<0.0001はp<0.001より10倍「良好」であると見なすことができず、確かにp<0.00001は100倍良好であると見なすべきではないことから、その対数は本発明の具体的な実施形態に従って用いる。対数を用いることで、p<0.0001はp<0.001より「やや良好」と見なすことができ、p<0.00001はかなり良好であるが、極めて良好というわけではない。
個々の標的についてのp値は、p値解析法から直接に得ることができる。上記で記載の部分異数染色体(SA)法は、同じコピー数不均衡を共有する標的クローンの全セグメントのp値を計算する。SAを用いた場合のEposおよびEnegの計算に関しては、SA尤度関数および単離標的のみを含む想定セグメントについての相当するp値を考慮することによって、各標的について好適なp値を構築することができる。これは本明細書において、「単離標的p値」と称される。
図6は、FNRおよびFPRに関して上記図5に示した同じモードSD品質特徴に対してプロットしたEpos(ピンク)およびEneg(青)を示す散布図の例である。かなり詰まった散乱から、連続誤差測定使用の効果が明瞭にわかる(これらおよびその後の散布図は、FNR、FPR、EposもしくはEnegと特定の品質特徴との間の相関を示すものではない。FNR、FPR、EposおよびEnegの値を任意にスケール返納して、0〜10の範囲を占有するようにした。)。
このアプローチの重要な利点は、それがαレベルの正確な推定または推算に依存しているという点である。EposおよびEneg>において「魔法数」はない。αレベルの任意選択への依存は除外されている。一部の先行技術の方法では、FPRおよびFNRは、通常は特別の方法を用いて選択した具体的なαレベルで求めていた。
品質特徴と品質尺度E pos 、E neg との間の相関
何らかの実験的開発に関するデータを、グランドトルース(または対照データ)が入手可能な数百の取り込みマイクロアレイチップ画像から抽出した。その集合は、各種トリソミー細胞系−性不一致正常ハイブリダイゼーションのサンプル;性不一致正常−正常ハイブリダイゼーションのサンプル;微小欠失細胞系−性不一致正常ハイブリダイゼーションのサンプル;ならびにトリソミー細胞系−性不一致微小欠失細胞系のサンプルを含んでいた。これらのマイクロアレイは、非常に多様なバッチ由来のものであり、多くの「欠陥」を含んでいたことから、収集サンプルは、非常に良好から非常に低いにわたる品質範囲を網羅していた。
図7A〜Bは、強度上昇の結果であると考えられる(A)幾何平均強度の増加および(B)幾何平均シグナル/バックグラウンド比(sig:BG)の増加の両方に伴ってEposが低下することを示す散布図の例である。これらの特徴は、強度(カウント/秒)およびシグナル/バックグラウンド比の場合に、試験値および基準値の平均(幾何平均)を取る場合を除き、本明細書の別の箇所で説明されるソフトウェアにおける品質尺度の注釈枠からほとんど理解されている。EposおよびEnegと勾配モードSDとの関係については、上記ですでに図示および説明を行った。
図8は、メジアン隣接クローン比差がモード分布SDと非常に類似した挙動を行うことを示す散布図の例である。この特徴が有望なモード標的の確認に依存してないことから、これは良好な結果である。従ってそれは、癌チップの解析にも用いることができる。
予想される通り、喪失スポットまたは除外スポットの数は、Eposにはほとんど影響しないが、当然のことながらそれは独立の品質尺度NIRに関係していることが認められた。
「基準強度のCV」は、チップ上の標的クローン間の強度変動性を測定する新規な品質特徴である。図9は、標的クローン強度(CV)の変動性が高くなるにつれてEposが低下することを示す散布図の例である。
図10に示したように、飽和+外れ値画素の割合もEposと相関している。この相関はかなり弱いように見えるが、「悪い」画素の割合の増加がEposの低下に関連している点を除いて、それは予想されるものとは反対方向のものである。
客観的品質尺度の定義
negといずれの特徴との間にも非常に小さい関係しかないことがわかる。これは次のように説明することができる。上記で説明したように、勾配品質特徴の値の低下が擬陰性数増加の原因となる可能性があるが、勾配の値は、擬陽性発生と関連がないと予想される。モードSDまたはメジアン隣接クローン比差などのノイズ品質特徴の場合、比ノイズの全体レベルが比較的高いために観察比が1.0に対してかなり異なる標的は擬陽性として検出されることから、ノイズが多いサンプルでは擬陽性の数が増加するようになると予想される。ノイズレベル上昇によって生じる比変化の尤度値における低下がほぼ完全に、比変化における上昇を補償することから、これは実際には起こらない。従って、ノイズ特徴の値上昇は、擬陰性増加を生じるが、擬陽性数には影響しないはずである。
しかしながら、Enegが一貫してEposと小さい逆相関を示すことが、上記のパネルの一部でわかる。この原因は、部分異数染色体アルゴリズムの内部パラメータの推算における小さい誤差であると考えられている。特に、分散vの推算における地位差誤差は驚くべきことではないと考えられる。それらの効果は、尤度および有意差値の両方に一貫した偏りを加えるものと考えられ、そしてそれらの値は、p値閾値(またはα)における小さい変化と等価であると考えられる。一組のサンプル全体で、p値閾値の実効値におけるそのようなランダムな小変化によって、観察される相関が説明されるものと考えられる。
negとEposのこの小さい逆相関は、品質の最終定義におけるバランスの取れたEnegおよびEposの組み合わせを含める理由を提供するものである。これらのデータおよび検討事項により、マイクロアレイ解析の品質の尺度全体が、「総合的品質等級」またはOQRとして知られる誤差関数Eneg−Eposによって良好に表されるという提案に至る。Eneg−Eposは、全体的な品質に応じて正の値または負の値のいずれかを取り得るものであり、OQRの正の値が大きいほど、高い品質のマイクロアレイであることを示唆している。
重回帰による客観的「総合的品質等級」(QOR)の予測
総合的品質等級OQRのグランドトルース値とともに得られる一連のチップ画像からの品質特徴データを、未知グランドトルースを有する新規サンプルの場合のOQRの値を予測するためのアルゴリズムを開発する上でのトレーニング集合として用いることができる。理想的には、そのアルゴリズムは、サンプルを単に「良」および「低」の2つのカテゴリーに分けるべきではなく、OQRの連続値を推算すべきである。2分類解が必要である場合、OQRの推算値に閾値を適用することで、それを得ることができる。
posおよびEnegが多くの品質特徴と多様な程度に相関を示すことから、重回帰を用いて、未知サンプルにおけるOQR値を予測する「モデル」を開発した。従来の重回帰は、独立変数(品質特徴値)の一次関数としての独立変数(OQR)をモデリングするものである。品質特徴データへの適切な変換を応用することで、任意重回帰関数(例:多項、対数)を構築することができ、これらの選択肢の一部について検討した。
ここで提供される結果は、4パラメータ多重線形回帰モデルに基づいたものである。この例で選択したパラメータは、:(1)sqrt(勾配)、(2)log(メジアン隣接クローン比差)、(3)log(基準強度CV)、(4)平方(幾何平均シグナル/バックグラウンド)である。
結果は、データ集合を作るのに用いたDNAにおける既知のコピー数変化に基づいたOQRのグランドトルース値(Y軸)と選択された特徴の一次結合として計算されるOQRの予測値(X軸)との間の散布図として示している(留意すべき点として、定義のOQRは負の値を取る場合がある。図11における散布図は実際に用いた値OQR′=OQR+k[式中、kはOQR′が常に正となるように選択される。]を示すものであり、非常に悪いサンプルはゼロに近い値を取る。)。青色のスポットは、重回帰モデルをトレーニングするのに用いた300個の品質混在サンプルからのものであり、黄色スポットは、モデルトレーニングには用いなかった315個の品質混在サンプルの独立の試験集合からのものである。
トレーニングデータのグランドトルースOQR′値のそれぞれメジアンおよび20パーセンタイルでの水平方向のピンク色線および赤色線がトレーニングデータを3つの集合に分けており、それらはグランドトルース「良好」、「曖昧」および「低」品質と考えることができる。垂直のピンク色線および赤色線は同じOQR′値を有しており、これらの線を用いて、OQR′の予測値に基づいて未知サンプルを「良好」、「曖昧」または「低」に分類することができる。対角線に沿って3つの正方形領域外にあるサンプルは誤分類されている。グランドトルース「良好」サンプルで「低」と分類されているものは1個のみであるが、「低」サンプルで「良好」と分類されているものはないことがわかる。多くのサンプルがあまり誤分類されておらず(例えば「良好」サンプルを「曖昧」に分類するように)、大多数が正しいOQR′クラスを与えられている。
SA性能に対する品質クラスの影響は、図12AおよびBに図示した受信者動作特性(ROC)曲線によって示され、それらの図中においてデータ集合は、OQRの予測値によって3つの品質クラスにトリアージされている。最も低い性能を有することになるサンプルを確認する上でOQRが非常に有効であることがわかる。図12Bには、129個の正常供血者血液試料および386個の細胞系サンプルを含む515個の性別不一致ハイブリダイゼーション[287個のクローンを有する発達アレイ]についての解析感度および特異性(ROC曲線)を示してある。サンプル品質が異なるとROCが大きく異なることになって、相対的に品質の高いサンプルでは感度および特異性が顕著に向上することが明らかである。有意差レベルはROC曲線から選択することができる。この例では、それはSAアルゴリズムの場合はP<0.0001として選択し、以前の非モードP値法計算アルゴリズム(不図示)の場合はP<0.001として選択した。
考察
提供データは、予想通り、FNRがチップ間でほぼゼロからほぼ100%まで大きく変動することを示している。FPRは予想通り、αレベルによってかなり決定される。従って、チップ製造物品質における差の最も明らかな客観的結果は、FNRまたはそれの連続類縁値Eposにおける差である。しかしながら、FPRは、わずかにFNRとの逆相関を示している(およびEposとEneg)。これは、ROC曲線に沿った動作基点の移動の効果を有するSAアルゴリズムの内部パラメータ推算における小さい誤差の結果として説明することができる。この小さい相関は、全体的チップ解析品質評点OQRの客観的定義にEnegも含める理由を提供する。
本発明の具体的な実施形態に従って実際に使用される客観的品質尺度は、擬陰性率および擬陽性率またはそれらの連続類縁値であるEposおよびEnegの好適な組み合わせを用いる。グランドトルースが未知である解析に関してそのような品質尺度を推算する場合、それは解析における標的誤差の相対頻度を予測するものである。すなわち、そのような尺度(本明細書で定義のもの)の値が高いサンプルほど、FNおよび/またはFPが大きく成る可能性が高い。従って、そのような尺度を用いて、ユーザーに対して、結果にどれだけの信頼性を置き得るかを助言することができるか、またはそれを用いて、サンプルを完全に除外することができる。それを用いて、結果を、(i)それ以上の確認梨に結果を受け入れる;(ii)別の試験で全ての陽性結果を確認する;または(iii)サンプルを除外するという3つの分類に順位づけすることもできる。
ここで提供されたデータは、特定のαレベルで測定されるか陽性標的クローンのp値の平均対数であるEposによって測定されるかとは無関係に、グランドトルースの事前の知識なく、チップ画像から測定可能な多くの品質特徴と、FNRが非常に強く相関していることを示している。FPRおよびEnegも、特徴の一部とある程度相関を示しているが、程度は相対的に小さい。
それらの結果は、FNRおよびFPRまたはそれらの類縁値の加重和と定義される総合的品質等級を品質特徴値から推算可能であることも示している。閾値または複数の閾値に対する推算OQRの比較を用いて、品質を根拠としてマイクロアレイ解析を選択するか除外するかを決定することができる。すなわち品質管理を提供する。
実際の使用において適切な閾値または複数の閾値をどのように設定するかは、異なる実施形態で変わるものであり、特定のシステムの形式的要件によって決まり得るものである。この場合、2つの閾値を用い、品質範囲を「良好」、「曖昧」および「低」という分類に分けることが提案されている。「良好」品質分類と「低」品質分類間では、誤分類されたサンプルはほとんどなかった。
一部の状況において、アッセイの進歩によって特徴値の分布および/または特徴値と性能の間の相関が変化するに連れて、至適回帰パラメータを変える必要が生じる可能性がある。継続的に品質尺度トレーニングのための追加データ収集を続けることが賢明であると考えられる。
特徴またはlog(.)およびexp(.)などの特徴の変換形態の他の可能な組み合わせを調べることで、回帰解析自体をさらに至適化することができる。
SAまたはp値法のいずれかでの使用における客観的品質尺度(誤差関数)は、OQR=Eneg−Eposと定義することができる。陽性および陰性標的は未知であることから、上記で定義の本発明の実施形態によるそれの値を、品質特徴値の一次関数によって推算する(その場合、各種実施形態において、これらの品質特徴値は、平方、expまたはlogなどの関数によって変換することが可能である。)。その一次関数パラメータは、良好チップおよび不良チップの両方を組み込むことが知られている好適なトレーニングデータの重回帰解析によってトレーニングすることができるが、「良好」分類および「不良」分類に個々のチップを主観的に分類する必要がない。
第2の品質尺度は、無情報標的クローン(NIR)の割合である。これは解析ソフトウェアによって直接測定可能であることから、それを別個に用いることができる。これら尺度のそれぞれを閾値と組み合わせて用いて、分析を「選択」または「除外」の2つの分類に分けることができる。そのような閾値を考慮すると、所定の群における除外チップの割合は、群全体でのアッセイ品質によってかなり決まる。あるいは、より詳細な分類を、例えば「選択」、「検証後に選択」、「除外」という3種類の分類に適用することができる。または単純に、品質尺度値を、それの可能な結果についての助言とともにユーザーに提供することが可能であると考えられる。
従って具体的な実施形態では、上記にように、本発明をゲノ・センサー読み取り装置ソフトウェアなどのイン・ビトロ診断システム用の1以上の論理モジュールまたは成分に組み込むことができる。各種実施形態において、診断システムは下記の1以上についての論理命令および/またはモジュールを含むことができる。
・チップについて総合的品質等級(OQR)値を計算する。品質特徴を用いるべき規格、それらの予備変換および一次関数パラメータ全てを、パラメータファイルにコードすることができる。
・OQRおよび無情報率の両方をユーザーに顕著に提供する。
・パラメータファイルで指定された閾値を適用してサンプルを「選択」または「除外」に分類し、解析ソフトウェアによって印字される最終報告にそのような結果が存在するよう要求する。
別の実施形態では、トレーニングおよび品質尺度推算の検証のためにチップ画像データの収集を続けて、アッセイにおけるわずかな長期変化を追跡しなければならない。アッセイにおいて階段状変化がある場合は必ず、品質トレーニングセットの完全な切り換えを考慮すべきである。
別の実施形態では、特徴選択、特徴変換および一次関数を、SA法用に調整および至適化することができる。
他の診断用途
上記のように、上記のような観察可能なデータ集合を生じさせ、統計解析パラメータをトレーニングし、品質特徴を選択する特定のアッセイの確認およびバリデーション後、本発明の具体的な実施形態によるアッセイ解析方法を、臨床または研究の状況下で用いて、被験者を疾患関連の分類に予報的に分類したり、発達調節不全に関して被験者をモニタリングする等を行うことができる。本発明のシステムおよび/または方法を、研究者、医師、医療従事者、病院、臨床検査室、患者、会社および他の機関によって各種目的に利用することができる。例えば、本発明は、疾患を診断し;疾患の重度を評価し;疾患の将来的な発生を予測し;疾患の将来的な合併症を予測し;疾患の予後を確認し;患者のリスクを評価し;現在の薬物療法に対する応答を評価し;現在の非薬物療法に対する応答を評価し;患者に最も適した医薬または処理を確認し;他の臨床的および疫学的に関連する利用分野の中で患者にとって最も適切な別の診断試験を確認するのに用いることができる。統計的に解析可能なデータを生じるアッセイが存在するか、開発可能な実質的にあらゆる疾患、状態または状況を、本発明の診断方法を用いてより高信頼性で検出することができる(例えば表2参照)。
個々のレベルでの健康状態の評価に加えて、本発明の方法および診断センサーは、「群レベル」での被験者の評価、例えば状態もしくは疾患についての疫学的研究や群スクリーニングなどに好適である。
ウェブサイト実施形態
本発明の方法は、局在または分布データ環境で実行可能である。例えば局在計算環境を特徴とする1実施形態では、本発明の具体的な実施形態によるアッセイ読み取り装置を所望の診断領域の近位で構成し、その領域はユーザー入力および出力機能を搭載した計算装置に連結されている。分布環境では、その方法は、単一コンピュータ、複数のプロセッサを有するコンピュータ、あるいは複数コンピュータで実行することができる。
キット
本発明の具体的な実施形態による診断アッセイは、キットとしてユーザーに提供しても良い。代表的には、本発明のキットは、本明細書に記載の方法に従って構築された1以上の遺伝子標的を含む。非常に多くの場合、そのキットは、好適な容器に包装または添付された1以上のDNA標的を含む。そのキットはさらに、対象アッセイを行うためのキット構成要素の好ましい使用方法について詳細に説明する説明セットまたは使用説明書を含むものであっても良い。
その説明書に従って使用する場合、そのキットによってユーザーは、細胞間質液、全血、羊水、上清など(これらに限定されるものではない)の患者組織を用いて疾患または状態を確認することができる。そのキットによってユーザーは、情報を受信し、ユーザーに情報を提供し、データ解析またはアッセイ品質解析を実行することができる中央データベースサーバーにアクセスすることもできる。さらにまたはあるいは、そのキットによって、ユーザー、例えば医療関係者、臨床検査室または研究者は、個人が臨床的に関連する被験者分類(診断その他)に属する確率を求めることができる。
プログラム情報装置での実施形態
図13は、本発明の各種態様を具体化することができる代表的な論理デバイスおよび/または診断システムの例を示すブロック図である。本明細書の内容から明らかなように、本発明はハードウェアおよび/またはソフトウェアで実行することができる。一部の実施形態では、本発明の各種態様を、クライアト側論理またはサーバー側論理で実行することができる。さらに、本発明またはそれの構成要素は、適切に構成された計算デバイスに搭載された場合に、そのデバイスを本発明に従って動作させる論理命令および/またはデータを含む固定媒体プログラムコンポーネントで具体化することができる。論理命令を含む固定媒体を、ビューアーのコンピュータへの物理的搭載のための固定媒体上でビューアーに送ることができるか、または論理命令を含む固定媒体が、プログラムコンポーネントをダウンロードするための通信メディアを解してビューアーがアクセスするリモートサーバー上にあっても良い。
図13には、本明細書に記載の画像の表示および/または解析に関する論理演算を行うことができる論理装置として理解できる情報器具またはデジタル装置700を示してある。そのような装置は、論理命令を行って本発明の具体的な実施形態に従って動作する汎用コンピュータシステムまたはワークステーションとして具体化することができる。そのような装置は、論理処理を1台の機械に統合して、各種サンプル取り扱い操作を行う特注および/または専門の研究もしくは科学ハードウェアであることもできる。概して、本発明の具体的な実施形態による装置の論理処理コンポーネントは、媒体717および/または固定媒体722を有するサーバー720に接続されていても良いネットワークポート719から命令を読み取ることができる。その後装置700は、当業界で明らかであって、本明細書に記載のように、動作を指示し、解析を実行する命令を用いることができる。本発明を具体化することができるある種の論理装置は、700で図示したコンピュータシステムであり、それはCPU707、オプションの入力デバイス709および711、記憶媒体(ディスクドライブなど)715およびオプションのモニター705を有する。固定媒体717、またはポート719上の固定媒体722を用いて、そのようなシステムをプログラムすることができ、ディスク型の光学媒体もしくは磁気媒体、磁気テープ、固体動的もしくは静的メモリーなどを代表することができる。本発明はまた、全体的または部分的に、この固定媒体上に記録されたソフトウェアとして具体化することもできる。通信ポート719を用いて、そのようなシステムをプログラムするのに用いられる命令を最初に受信することもでき、そのポートはあらゆる種類の通信接続を代表することができる。
図13には、一部の実施形態における診断システムの一部であることができる別の構成要素を示してある。これらの構成要素には、ビューアー750、自動スライドグラスもしくはマイクロアレイステージ755、光源(UV、白色光その他)760およびオプションのフィルター765、ならびに本明細書に記載の解析のためのデジタル画像を取り込むためのCCDカメラもしくは取り込み装置780などがある。これらの追加の構成要素が、論理解析および/または制御などの単一システムの構成要素であることができることは、当業者には明らかであろう。これらの装置は、当業界では明らかなように、ネットワーク、バス、無線通信などを介して700などの情報器具とデジタル通信する本質的にスタンドアロンの装置であることもできる。そのようなシステムの構成要素は、いずれか簡便な物理的構成および/または見かけを有することができ、全てを組み合わせて単一の統合システムとすることが可能であることは明らかであろう。従って、図13に示した個々の構成要素は、システムの単なる一例を代表するものである。
本発明は、全体的または部分的に、特定用途向け集積回路(ASIC)またはプログラム可能論理回路(PLD)の回路機構内で具体化することもできる。そのような場合、本発明は、本明細書に記載のように動作するASICまたはPLDを作るのに用いることができるコンピュータが理解可能な言語で具体化することができる。
他の実施形態
以上、具体的な実施形態を参照しながら本発明について説明した。当業者には、他の実施形態が明らかであろう。特に、ビューアーデジタル情報器具は、パーソナルコンピュータとして示してきた。しかしながら、デジタル計算装置は、本発明の論理方法を実行する上で好適なあらゆる情報器具を意味するものであり、デジタル使用可能な究室システムもしくは装置、デジタル使用可能テレビ、携帯電話、携帯情報端末などの機器を含むことができるものと考えられる。本発明の精神の範囲内での改変は、当業者には明らかであろう。さらに、各種の異なる作用を用いて、本発明の具体的な実施形態に従ってシステムとの層と作用を実行することができる。例えば、音声コマンドをオペレータが話すことができ、キーをオペレータが押すことができ、クライアント側科学機器上のボタンをオペレータが押すことができ、あるいは何らかのポインティング・デバイスを用いる選択をユーザーが行うことができる。
本明細書に記載の実施例および実施形態が例示を目的としたものであること、ならびに当業者には、それを考慮した上での各種改変または変更が本明細書の記載によって提示されるものであり、それら変更は本願の精神および範囲そして特許請求の範囲の範囲内に包含されるものであることは明らかである。
情報開示陳述書の一部として提出された参考文献などの、本明細書で引用もしくは本願とともに提出された全ての刊行物、特許および特許出願は、参照によってそれらの全内容が本明細書に組み込まれる。
本発明の1実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。 本発明の1実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。 本発明の1実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。 本発明の1実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。 本発明の1実施形態に従って、複数染色体ハイブリダイゼーションデータから反復モデルを構築して、検出された遺伝子不均衡の配列のセグメントを確認する例を示す図である。 他の方法と比較した本発明の具体的な実施形態による方法を用いての不均衡検出の感度と特異性を比較するグラフの例である。 例えば各種蛍光標識を有するスライドグラスを読み取るように設計または変更された読み取り装置でアレイ画像として取り込まれた観察データの1例である。 本発明の具体的な実施形態による「勾配」法および「基本」法によって単離された標的部分異数染色体(SA)についての感度と特異性を比較するグラフの1例である。 (A)勾配および(B)モード標的比の標準偏差(「モードSD」)という特徴のα=0.01での擬陽性率(FPR)(青色)およびα=0.0001でのFNR(ピンク)との相関を示す散布図の例である。 (A)勾配および(B)モード標的比の標準偏差(「モードSD」)という特徴のα=0.01での擬陽性率(FPR)(青色)およびα=0.0001でのFNR(ピンク)との相関を示す散布図の例である。 FNRおよびFFPRについて上記の図5に示した同じモードSD品質の特徴に対してプロットしたEpos(ピンク)およびEneg(青色)を示す散布図の例である。 強度上昇の結果であると考えられる(A)幾何平均強度の上昇および(B)幾何平均シグナル/バックグラウンド比(sig:BG)の上昇の両方を伴ってEposが低下することを示す散布図の例である。 強度上昇の結果であると考えられる(A)幾何平均強度の上昇および(B)幾何平均シグナル/バックグラウンド比(sig:BG)の上昇の両方を伴ってEposが低下することを示す散布図の例である。 メジアン隣接クローン比差がモード分布SDに非常に類似した挙動を行うことを示す散布図の例である。 標的クローン強度(CV)のばらつきが高くなるにつれてEposが低下することを示す散布図の例である。 posが飽和+外れ値画素の割合とやや相関していることを示す散布図の例である。 本発明の具体的実施形態に従った重回帰による客観的総合的品質等級(OQR)の予測の結果を示すプロットの例である。 本発明の具体的な実施形態に従ったOQRの期待値によって3つの品質分類に分けられているSA性能に対する品質分類の影響を示すプロットの2つの例である。 本発明の具体的な実施形態に従ったOQRの期待値によって3つの品質分類に分けられているSA性能に対する品質分類の影響を示すプロットの2つの例である。 本発明の各種態様を具体化することができる論理および/または診断システムの代表例を示すブロック図である。 (表2)本発明の対象物質を本発明の具体的な実施形態に従って評価し得る疾患、状態または状況の例を示す図である。

Claims (49)

  1. コンピュータシステムにおける診断アッセイの1以上の観察可能標的から取り込まれた観察データを受け取る段階;
    前記観察データの一部を用いて、1以上のアッセイ結果を決定する段階;
    前記観察データから、前記診断アッセイの2以上の品質特徴を決定する段階;
    前記2以上の品質特徴を用いて、誤差関数を予測する段階;
    前記誤差関数を用いて、前記診断アッセイに関する品質尺度を決定および報告する段階;
    前記アッセイ結果の最終報告の作成に前記品質尺度を用いる段階
    を含む、コンピュータシステムを用いて診断アッセイ結果を決定および報告する方法。
  2. 前記誤差関数が統計モデルを用いて予測され、前記統計モデルは1以上のトレーニングアッセイ由来の1以上のパラメータを有する請求項1に記載の方法。
  3. 前記誤差関数が統計モデルを用いて予測され、前記統計モデルが既知グランドトルースサンプルおよびそれらの相当する診断アッセイ結果を用いてトレーニングした1以上のパラメータを有する請求項1に記載の方法。
  4. 前記診断アッセイ結果が癌細胞または前癌細胞を示す1以上のDNA配列コピー数変化の有無を示す請求項1に記載の方法。
  5. 前記診断アッセイ結果が1以上の先天性異常を示す1以上のDNA配列コピー数変化の有無を示す請求項1に記載の方法。
  6. 前記2以上の品質特徴の決定が、2以上の前記標的群の観察データを用いるものであり;前記誤差関数が前記群の複数標的に関して予測される請求項1に記載の方法。
  7. 前記群が、ゲノム解析チップ上の複数の標的を含み;前記誤差関数が、前記チップ上の全てまたはほぼ全ての標的について予測される請求項6に記載の方法。
  8. 前記チップが、約50を超える分離可能標的を有し;前記各分離可能標的がアッセイであり;前記各アッセイが、変化したDNAコピー数に関して陽性または陰性である請求項7に記載の方法。
  9. 前記観察データが、
    組織生検の一部;
    離解させた細胞から得られた細胞単層;
    流体もしくはゲルでの細胞懸濁液;
    塗沫標本;または
    細胞由来材料
    のうちの1以上を含む試験サンプル標本についての前記アッセイ実施から取り込まれる請求項1に記載の方法。
  10. 利用可能な品質特徴から、何らかの形で誤差関数と関連しているものを選択する段階をさらに有する請求項1に記載の方法。
  11. 利用可能な品質特徴から、誤差関数に関連する特徴を選択する段階をさらに有し;前記特徴が、
    メジアン隣接−標的シグナル比差;
    測定/期待シグナルの減弱;
    シグナル/バックグラウンド比;
    平均標的シグナル強度;
    喪失/除外標的;
    外れ値/飽和標的シグナル検出;
    平均標的間変動係数;
    平均標的内試験および基準シグナル相関;
    モード分布標準偏差
    からなる群から選択される2以上である請求項1に記載の方法。
  12. 比ノイズの推算を品質特徴として用いて誤差関数を予測する段階をさらに有する請求項1に記載の方法。
  13. メジアン隣接−標的比差を用いて誤差関数を予測する段階をさらに有する請求項12に記載の方法。
  14. 陽性標的のシグナルレベルの推算を品質特徴として用いて誤差関数を予測する段階をさらに有する請求項1に記載の方法。
  15. 陽性対照標的からの平均減弱をシグナルレベル品質特徴として用いて誤差関数を予測する段階をさらに有する請求項14に記載の方法。
  16. 部分異数染色体アルゴリズムによって推算される平均減弱をシグナルレベル品質特徴として用いて誤差関数を予測する段階をさらに有する請求項14に記載の方法。
  17. 前記観察データがアッセイ標的のマイクロアレイの取り込み画像を含む請求項1に記載の方法。
  18. 前記擬陽性率および擬陰性率の真の値がアッセイにおいて未知である場合に、アッセイサンプルについての前記擬陽性率および擬陰性率の関数の推算値として前記誤差関数を表す段階をさらに有する請求項1に記載の方法。
  19. 既知対照サンプルデータからの測定可能な特徴を用いて前記誤差関数をトレーニングする段階をさらに有する請求項1に記載の方法。
  20. 重回帰モデルを構築することで既知対照サンプルデータからの測定可能特徴からの前記誤差関数をトレーニングする段階をさらに有する請求項19に記載の方法。
  21. 前記測定可能な特徴に対して非線形変換を適用することで既知対照サンプルデータからの重非線形回帰モデルを構築することによって、前記誤差関数をトレーニングする段階をさらに有する請求項19に記載の方法。
  22. 差関数Eneg−Eposを前記誤差関数として用いる段階をさらに有し;Eposはグランドトルース陽性クローンについてのp値の対数の平均であり、Enegはグランドトルース陰性クローンについてのp値の対数の平均である請求項1に記載の方法。
  23. 隣接標的のセグメントに広がる比変化をモデル化する段階;および
    前記モデル化において最大尤度解析を用いる段階
    を有する、DNAマイクロアレイおよびコンピュータシステムを用いてコピー数変化を検出する方法。
  24. χ二乗に基づく形式的有意差基準に従って変化を選択または除外する段階をさらに有する請求項23に記載の方法。
  25. 前記最大尤度モデル化が、適切な比のみのモデル化に制約される請求項23に記載の方法。
  26. コピー数1もしくは2および標的DNAコピー数0、1、2、3もしくは4を有する基準DNAを用いて適切な比を求める請求項25に記載の方法。
  27. 前記画像が二次元画像である請求項25に記載の方法。
  28. デジタルデータを扱う情報プロセッサ;
    取り込み画像データなどのデジタルデータを記憶するためのデータ記憶装置;
    前記取り込み画像データを解析して前記データの観察可能な特徴を推算することができ、選択された観察可能な特徴を用いて誤差率を予測することができる論理モジュール
    を有する、生体サンプルを解析するシステム。
  29. 前記情報プロセッサに操作可能に接続された画像取り込みカメラ;
    光源;
    ビューアー;
    アレイ取り扱いユニット
    をさらに有する請求項28に記載のシステム。
  30. 前記データ記憶装置に記憶された誤差関数を予測するための1以上のルールセットをさらに有する請求項28に記載のシステム。
  31. 前記データ記憶装置に記憶された1以上の解析論理ルーチンをさらに有する請求項28に記載のシステム。
  32. 1以上の生体サンプルからデジタル画像データを取り込む手段;
    デジタル画像データを記憶する手段;
    ユーザーと相互作用して、ユーザーの指示およびユーザーの画像データ閲覧を受ける手段;
    前記取り込みデジタル画像データを論理的に解析して、検出可能な特徴から1以上の誤差関数を予測する手段;ならびに
    ユーザーに予測された誤差関数を出力する手段
    を有する、生体サンプルを解析するシステム。
  33. 一組の分離可能な標的から取り込まれたデータを受け取る段階[各標的は、特定の染色体位置での遺伝子配列コピー数を示す観察可能なデータを提供する。];
    標的を隣接する染色体領域を示すセグメントに群分けする部分異数染色体統計解析方法を用いて前記取り込みデータを解析する段階[各セグメントは、同じコピー数不均衡を有する領域を代表する。];
    それによって、一つのアッセイから、コピー数における部分的および全体の両方の染色体変化を検出する段階
    を有する、コンピュータシステムを用いて被験者における先天性遺伝子異常のスクリーニングを行う方法。
  34. 隣接標的のセグメントにわたっての比変化をモデル化する段階;および
    前記モデル化に最大尤度解析を用いる段階
    をさらに有する請求項33に記載の方法。
  35. χ二乗に基づく形式的有意差基準に従って変化を選択または除外とする段階をさらに有する請求項34に記載の方法。
  36. 前記最大尤度モデル化が、適切な比のみをモデル化するものに制約される請求項34に記載の方法。
  37. コピー数1もしくは2および標的DNAコピー数0、1、2、3もしくは4を有する基準DNAを用いて適切な比を求める請求項36に記載の方法。
  38. ゲノムに関して複数標的の比較ゲノムハイブリダイゼーションアレイを提供する段階[対象の既知微小欠失/微小重複に関連するテロメアおよび染色体領域は、前記アレイ上で近接する2以上の標的配列によって代表される。];
    被験者からの試験サンプルを前記アレイにハイブリダイズする段階;および
    前記アレイの画像を取り込む段階
    をさらに有する請求項33に記載の方法。
  39. 精神遅滞/発育遅延、身体的出生異常および形成異常の特徴などの発達障害の共通の原因である染色体不均衡を検出するよう、前記アレイおよび前記統計方法を至適化する請求項38に記載の方法。
  40. 一つのアッセイから、全染色体異数性、微小欠失、微小重複および不均衡テロメア周辺(subTel)再配列を検出する段階をさらに有する請求項33に記載の方法。
  41. 前記被験者が、
    出生前哺乳動物胎児;
    着床前哺乳動物胚;および
    出生後哺乳動物
    を含む群から選択される請求項33に記載の方法。
  42. 前記被験者に害を及ぼすことなく、全染色体サンプルを抽出する請求項41に記載の方法。
  43. 前記被験者がヒトである請求項41に記載の方法。
  44. 前記アッセイが相互ハイブリダイゼーションを必要とせず;
    前記アッセイが、新鮮および固定の両方の末梢血もしくは細胞系検体からコピー数異常(CNA)を高信頼性で検出する請求項33に記載の方法。
  45. 前記方法が、
    ハイブリダイゼーションおよび洗浄を自動化し;
    画像取り込みおよびデータ解析を自動化し;
    アッセイ品質を評価し;
    定性的結果(獲得、喪失、無変化)を報告するシステムに組み込まれており;
    前記システムに関連するソフトウェアが画像獲得、解析およびデータ報告を制御する請求項33に記載の方法。
  46. 前記ソフトウェアが、前記DAPIシグナルに基づいてスポットを識別し、前記緑色および赤色画像面から平均強度を測定し、バックグラウンドを引き、緑/赤シグナルの比を求め、前記サンプルDNAの前記モードDNAコピー数を最も代表する比率を計算する請求項45に記載の方法。
  47. 標的クローンのアレイを提供する段階をさらに有し;クローンを識別し、さらに染色体腕当たり最低3個のクローンを選択し、既知の微小欠失/微小重複領域に少なくとも82個のテロメア周辺クローンおよび29個のクローンがあり;
    末端動原体型染色体p腕以外の各テロメアが2個のクローンによって代表され;
    各微小欠失/微小重複領域が2〜5個のクローンによって代表される請求項33に記載の方法。
  48. 適切に構成された情報処理装置に搭載した場合に、該装置を請求項1に記載の方法に従って動作させる、コンピュータが解釈可能な命令を含むコンピュータ読み取り可能媒体。
  49. 適切に構成された情報処理装置に搭載した場合に、該装置を請求項23に記載の方法に従って動作させる、コンピュータが解釈可能な命令を含むコンピュータ読み取り可能媒体。
JP2007528056A 2004-08-18 2005-08-18 コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定 Withdrawn JP2008511058A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US60321804P 2004-08-18 2004-08-18
PCT/US2005/029622 WO2006023769A2 (en) 2004-08-18 2005-08-18 Determining data quality and/or segmental aneusomy using a computer system

Publications (1)

Publication Number Publication Date
JP2008511058A true JP2008511058A (ja) 2008-04-10

Family

ID=35968227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007528056A Withdrawn JP2008511058A (ja) 2004-08-18 2005-08-18 コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定

Country Status (5)

Country Link
US (1) US20060057618A1 (ja)
EP (1) EP1789786A4 (ja)
JP (1) JP2008511058A (ja)
CA (1) CA2577741A1 (ja)
WO (1) WO2006023769A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019523940A (ja) * 2016-06-10 2019-08-29 ツイスト バイオサイエンス コーポレーション 生物学的配列の自動アノテーションとスクリーニングのためのシステムおよび方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070031883A1 (en) * 2004-03-04 2007-02-08 Kincaid Robert H Analyzing CGH data to identify aberrations
US8024128B2 (en) * 2004-09-07 2011-09-20 Gene Security Network, Inc. System and method for improving clinical decisions by aggregating, validating and analysing genetic and phenotypic data
US20070027636A1 (en) * 2005-07-29 2007-02-01 Matthew Rabinowitz System and method for using genetic, phentoypic and clinical data to make predictions for clinical or lifestyle decisions
US20070178501A1 (en) * 2005-12-06 2007-08-02 Matthew Rabinowitz System and method for integrating and validating genotypic, phenotypic and medical information into a database according to a standardized ontology
US8532930B2 (en) 2005-11-26 2013-09-10 Natera, Inc. Method for determining the number of copies of a chromosome in the genome of a target individual using genetic data from genetically related individuals
US8515679B2 (en) 2005-12-06 2013-08-20 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US20110033862A1 (en) * 2008-02-19 2011-02-10 Gene Security Network, Inc. Methods for cell genotyping
US20090228873A1 (en) * 2008-03-04 2009-09-10 Drukman Maxwell O Display breakpointing based on user interface events
US20110092763A1 (en) * 2008-05-27 2011-04-21 Gene Security Network, Inc. Methods for Embryo Characterization and Comparison
CA2731991C (en) * 2008-08-04 2021-06-08 Gene Security Network, Inc. Methods for allele calling and ploidy calling
US8825412B2 (en) 2010-05-18 2014-09-02 Natera, Inc. Methods for non-invasive prenatal ploidy calling
WO2011041485A1 (en) * 2009-09-30 2011-04-07 Gene Security Network, Inc. Methods for non-invasive prenatal ploidy calling
US9652585B2 (en) 2010-03-16 2017-05-16 Bluegnome Limited Comparative genomic hybridization array method for preimplantation genetic screening
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
ES2770342T3 (es) 2010-12-22 2020-07-01 Natera Inc Procedimientos para pruebas prenatales no invasivas de paternidad
WO2012108920A1 (en) 2011-02-09 2012-08-16 Natera, Inc Methods for non-invasive prenatal ploidy calling
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
WO2015048535A1 (en) 2013-09-27 2015-04-02 Natera, Inc. Prenatal diagnostic resting standards
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10964302B2 (en) 2014-01-14 2021-03-30 Raytheon Technologies Corporation Vibration damping material for high temperature use
EP3957749A1 (en) 2014-04-21 2022-02-23 Natera, Inc. Detecting tumour specific mutations in biopsies with whole exome sequencing and in cell-free samples
CN107111692B (zh) 2014-10-10 2021-10-29 生命科技股份有限公司 用于计算经校正扩增子覆盖度的方法、系统及计算机可读媒体
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
DK3304093T3 (da) * 2015-05-28 2024-02-12 Immunexpress Pty Ltd Validering af biomarkørmåling
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
EP3585889A1 (en) 2017-02-21 2020-01-01 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
EP3746225A1 (en) * 2018-01-29 2020-12-09 Gen-Probe Incorporated Analytical systems and methods
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07505053A (ja) * 1992-03-04 1995-06-08 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 比較ゲノムハイブリダイゼーション(cgh)
US6136541A (en) * 1999-02-22 2000-10-24 Vialogy Corporation Method and apparatus for analyzing hybridized biochip patterns using resonance interactions employing quantum expressor functions
WO2003091845A2 (en) * 2002-04-23 2003-11-06 Agilent Technologies, Inc. Microarray performance management system
WO2004044225A2 (en) * 2002-11-11 2004-05-27 Affymetrix, Inc. Methods for identifying dna copy number changes

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4665440A (en) * 1985-09-17 1987-05-12 Honeywell, Inc. Parallel processing of the output from monolithic sensor arrays
US5700637A (en) * 1988-05-03 1997-12-23 Isis Innovation Limited Apparatus and method for analyzing polynucleotide sequences and method of generating oligonucleotide arrays
SE8804074D0 (sv) * 1988-11-10 1988-11-10 Pharmacia Ab Sensorenhet och dess anvaendning i biosensorsystem
JP2627337B2 (ja) * 1989-04-19 1997-07-02 三洋電機株式会社 デジタル信号の再生回路
US5143854A (en) * 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
DE3924454A1 (de) * 1989-07-24 1991-02-07 Cornelis P Prof Dr Hollenberg Die anwendung von dna und dna-technologie fuer die konstruktion von netzwerken zur verwendung in der chip-konstruktion und chip-produktion (dna chips)
US5168499A (en) * 1990-05-02 1992-12-01 California Institute Of Technology Fault detection and bypass in a sequence information signal processor
RU1794088C (ru) * 1991-03-18 1993-02-07 Институт Молекулярной Биологии Ан@ Ссср Способ определени нуклеотидной последовательности ДНК и устройство дл его осуществлени
US5605662A (en) * 1993-11-01 1997-02-25 Nanogen, Inc. Active programmable electronic devices for molecular biological analysis and diagnostics
JPH0622798A (ja) * 1992-07-07 1994-02-01 Hitachi Ltd 塩基配列決定法
US5503980A (en) * 1992-11-06 1996-04-02 Trustees Of Boston University Positional sequencing by hybridization
US5442593A (en) * 1993-04-16 1995-08-15 The Charles Stark Draper Laboratory, Inc. Apparatus and method of nulling discrete frequency noise signals
US5462879A (en) * 1993-10-14 1995-10-31 Minnesota Mining And Manufacturing Company Method of sensing with emission quenching sensors
US5654419A (en) * 1994-02-01 1997-08-05 The Regents Of The University Of California Fluorescent labels and their use in separations
US5825936A (en) * 1994-09-22 1998-10-20 University Of South Florida Image analyzing device using adaptive criteria
US5690894A (en) * 1995-05-23 1997-11-25 The Regents Of The University Of California High density array fabrication and readout method for a fiber optic biosensor
US5683881A (en) * 1995-10-20 1997-11-04 Biota Corp. Method of identifying sequence in a nucleic acid target using interactive sequencing by hybridization
US5763175A (en) * 1995-11-17 1998-06-09 Lynx Therapeutics, Inc. Simultaneous sequencing of tagged polynucleotides
US6132969A (en) * 1998-06-19 2000-10-17 Rosetta Inpharmatics, Inc. Methods for testing biological network models
US20030099973A1 (en) * 2001-07-18 2003-05-29 University Of Louisville Research Foundation, Inc. E-GeneChip online web service for data mining bioinformatics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07505053A (ja) * 1992-03-04 1995-06-08 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 比較ゲノムハイブリダイゼーション(cgh)
US6136541A (en) * 1999-02-22 2000-10-24 Vialogy Corporation Method and apparatus for analyzing hybridized biochip patterns using resonance interactions employing quantum expressor functions
WO2003091845A2 (en) * 2002-04-23 2003-11-06 Agilent Technologies, Inc. Microarray performance management system
WO2004044225A2 (en) * 2002-11-11 2004-05-27 Affymetrix, Inc. Methods for identifying dna copy number changes

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
JPN6011023404; X.Wang et al.: 'Quantitative quality control in microarray experiments and the application in data filtering, normal' Bioinformatics Vol.19,No.11, 2003, pages.1341-1347 *
JPN6011023405; Lucito et al.: 'Detecting gene copy number fluctuations in tumor cells by microarray analysis of genomic representat' Genome Research Vol.10,No.11, 2000, pages.1726-1736 *
JPN6011023407; Khan et al.: 'Classification and diagnostic prediction of cancers using gene expression profiling and artificial n' Nature Medicine Vol.7,No.6, 2001, pages.673-679 *
JPN6012024297; N.P. Carter et al.: 'Comparative Analysis of Comparative Genomic Hybridization Microarray Technologies: Report of a Works' Cytometry Vol.49 No.2, 2002, pp.43-48 *
JPN6012024299; Junbai Wang et al.: 'M-CGH: Analysing microarray-based CGH experiments' BMC Bioinformatics Vol.5 No.74, 200406, pp.1-4 *
JPN6012068589; Jeremy Clark et al: 'Genome-wide screening for complete genetic loss in prostate cancer by comparative hybridization onto' Oncogene Vol.22, 2003, pp.1247-1252 *
JPN7012001771; Stan Pounds,Stephan W. Morris: 'Estimating the occurrence of false positives and false negatives in microarray studies by approximat' Bioinformatics Vol.19 No.10, 2003, pp.1236-1242 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019523940A (ja) * 2016-06-10 2019-08-29 ツイスト バイオサイエンス コーポレーション 生物学的配列の自動アノテーションとスクリーニングのためのシステムおよび方法

Also Published As

Publication number Publication date
EP1789786A4 (en) 2008-02-13
EP1789786A2 (en) 2007-05-30
WO2006023769A3 (en) 2007-04-12
WO2006023769A2 (en) 2006-03-02
CA2577741A1 (en) 2006-03-02
US20060057618A1 (en) 2006-03-16

Similar Documents

Publication Publication Date Title
JP2008511058A (ja) コンピュータシステムを用いるデータ品質および/または部分異数染色体の決定
Uffelmann et al. Genome-wide association studies
US20190316209A1 (en) Multi-Assay Prediction Model for Cancer Detection
US11164655B2 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
CA3129831A1 (en) An integrated machine-learning framework to estimate homologous recombination deficiency
JP5171254B2 (ja) 多重プローブターゲット相互作用パターンの自動分析:パターンマッチング及び対立遺伝子同定
US20050159896A1 (en) Apparatus and method for analyzing data
JP2021503922A (ja) ターゲットシーケンシングのためのモデル
KR20020075265A (ko) 임상 진단 서비스를 제공하는 방법
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Morris et al. Statistical contributions to bioinformatics: Design, modelling, structure learning and integration
CN113196404A (zh) 利用无细胞dna样本中的小变异的多层分析的癌症组织来源预测
Ariad et al. Haplotype-aware inference of human chromosome abnormalities
KR20140090296A (ko) 유전 정보를 분석하는 방법 및 장치
US20030023385A1 (en) Statistical analysis method for classifying objects
WO2023196928A2 (en) True variant identification via multianalyte and multisample correlation
US20090087848A1 (en) Determining segmental aneusomy in large target arrays using a computer system
CN116469552A (zh) 一种用于乳腺癌多基因遗传风险评估的方法和系统
US20200105374A1 (en) Mixture model for targeted sequencing
Weeraratna et al. Microarray data analysis: an overview of design, methodology, and analysis
KR20210120782A (ko) 피검 대상 맞춤형 변이체 기반 레퍼런스 데이터 세트의 구축 방법
US6816790B2 (en) Method and apparatus for determining gene expression levels
Sykulski et al. Multiple samples aCGH analysis for rare CNVs detection
Shahzad et al. Challenges and solutions in the development of genomic biomarker panels: a systematic phased approach
JP2004187562A (ja) Dnaマイクロアレイデータ解析方法、dnaマイクロアレイデータ解析装置、プログラム、および、記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110811

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120813

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121114

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130108

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130509

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20130704