JP6680680B2 - 染色体変化の非侵襲性評価のための方法およびプロセス - Google Patents

染色体変化の非侵襲性評価のための方法およびプロセス Download PDF

Info

Publication number
JP6680680B2
JP6680680B2 JP2016546892A JP2016546892A JP6680680B2 JP 6680680 B2 JP6680680 B2 JP 6680680B2 JP 2016546892 A JP2016546892 A JP 2016546892A JP 2016546892 A JP2016546892 A JP 2016546892A JP 6680680 B2 JP6680680 B2 JP 6680680B2
Authority
JP
Japan
Prior art keywords
sequence
reads
nucleic acid
read
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016546892A
Other languages
English (en)
Other versions
JP2016540520A (ja
JP2016540520A5 (ja
Inventor
サン キム,
サン キム,
テイラー ジェイコブ ジェンセン,
テイラー ジェイコブ ジェンセン,
マティアス エーリッヒ,
マティアス エーリッヒ,
Original Assignee
セクエノム, インコーポレイテッド
セクエノム, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セクエノム, インコーポレイテッド, セクエノム, インコーポレイテッド filed Critical セクエノム, インコーポレイテッド
Publication of JP2016540520A publication Critical patent/JP2016540520A/ja
Publication of JP2016540520A5 publication Critical patent/JP2016540520A5/ja
Application granted granted Critical
Publication of JP6680680B2 publication Critical patent/JP6680680B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

関連出願
本特許出願は、発明者がSung Kim、Taylor Jacob JensenおよびMathias Ehrichであって、代理人文書番号SEQ-6074-PVが割り当てられた「METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF CHROMOSOME ALTERATIONS」との表題の2013年10月7日に出願された米国仮特許出願第61/887,801号の利益を主張する。前述の出願の内容は全て、そのすべてのテキスト、表および図面を含め、本明細書中に参考として援用される。
分野
本明細書で提供される技術は、部分的に、染色体変化の非侵襲的評価のための方法、プロセス、マシン、および装置に関する。
背景
生物(例えば、動物、植物、および微生物)の遺伝情報、および遺伝情報を複製する他の形態(例えば、ウイルス)は、デオキシリボ核酸(DNA)内またはリボ核酸(RNA)内にコードされる。遺伝情報とは、化学的または仮説的核酸の一次構造を表すヌクレオチドまたは修飾ヌクレオチドの連なりである。ヒトでは、完全ゲノムは、24の染色体上に配置された、約30,000の遺伝子を含有する(「The Human Genome」、T. Strachan、BIOS Scientific Publishers、1992年を参照されたい)。各遺伝子は、転写および翻訳を介する発現の後で、生細胞内で特異的な生化学的機能を果たす、特異的なタンパク質をコードする。
1種またはそれより多くの種の染色体変化を同定することにより、特定の医学的状態についての診断、またはこれに対する素因の決定を下すことができる。染色体変化を同定することにより、医学的確定の容易化および/または有用な医療手順の援用を結果としてもたらすことができる。ある特定の実施形態では、1種またはそれより多くの種の染色体変化の同定は、無細胞DNAの分析を伴う。無細胞DNA(CF−DNA)は、細胞死に由来し、末梢血中を循環するDNA断片からなる。高濃度のCF−DNAは、がん、外傷、火傷、心筋梗塞、脳卒中、敗血症、感染、および他の疾病など、ある特定の臨床状態を示しうる。加えて、無細胞胎児DNA(CFF−DNA)は、母体血流中でも検出することができ、多様な非侵襲的出産前診断法に使用することができる。
母体の血漿中の胎児核酸の存在は、母体の血液試料の分析を介する、非侵襲的な出産前診断を可能とする。例えば、母体の血漿中の胎児DNAの定量的異常は、胎児の染色体変化と関連する、多数の妊娠関連障害および遺伝子疾患と関連しうる。よって、母体血漿中の胎児核酸の分析は、胎児−母体の福利をモニタリングするのに有用な機構でありうる。
「The Human Genome」、T. Strachan、BIOS Scientific Publishers、1992年
概要
本明細書のある特定の態様では、メモリおよび1つまたはそれより多くのマイクロプロセッサーを含むシステムであって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、(a)複数の配列リード部分配列のマッピング可能性(mappability)を、配列リードについて特徴付けるステップであって、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであるステップと、(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成するステップと、(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含むシステムが提供される。
本明細書のある特定の態様ではまた、メモリおよび1つまたはそれより多くのマイクロプロセッサーを含む方法であって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付けるステップであって、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであるステップと、(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成するステップと、(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含む方法も提供される。
本明細書のある特定の態様ではまた、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアであって、プログラムが、マイクロプロセッサーに、(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付け、この場合、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであり、(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成し、(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定することを命令するように構成された記憶メディアも提供される。
本明細書のある特定の態様では、例えば以下の項目が提供される:
(項目1)
試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するための方法であって、
(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付けるステップであって、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての該配列リード部分配列は、長さが異なり、
該配列リードが、該試料核酸の配列リードである
ステップと、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、
(c)(i)(b)で該試料から同定された該サブセット内の該配列リードの各々の数を、(ii)(b)で基準から同定された該サブセット内の該配列リードの各々の数と比較し、これにより、比較を生成するステップと、
(d)(c)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含む方法。
(項目2)
メモリおよび1つまたはそれより多くのマイクロプロセッサーを含む方法であって、該メモリが、命令を含み、該1つまたはそれより多くのマイクロプロセッサーが、該命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、該プロセスが、
(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付けるステップであって、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての該配列リード部分配列は、長さが異なり、
該配列リードが、該試料核酸の配列リードである
ステップと、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、
(c)(i)(b)で該試料から同定された該サブセット内の該配列リードの各々の数を、(ii)(b)で基準から同定された該サブセット内の該配列リードの各々の数と比較し、これにより、比較を生成するステップと、
(d)(c)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含む方法。
(項目3)
試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、または該シーケンシング装置に、該核酸の改変変異体をロードするステップであって、該シーケンシング装置により、該核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
任意選択で、該シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、該核酸の該シグナルから、配列リードを生成するステップであって、該システム内の該1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
該試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、該システムにより決定するステップであって、該システム内の1つの演算装置または演算装置の組合せが、該配列リードを基準ゲノムに対してアラインさせ、
(a)複数の配列リード部分配列のマッピング可能性を、該配列リードについて特徴付け、この場合、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての該配列リード部分配列は、長さが異なり、
該配列リードが、該試料核酸の配列リードであり、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、
(c)(i)(b)で該試料から同定された該サブセット内の該配列リードの各々の数を、(ii)(b)で基準から同定された該サブセット内の該配列リードの各々の数と比較し、これにより、比較を生成し、
(d)(c)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されるステップと
を含む方法。
(項目4)
前記配列リードが、循環無細胞核酸の配列リードである、項目1、2、または3に記載の方法。
(項目5)
前記試料核酸中のポリヌクレオチドの平均長が、約300塩基対未満である、項目1から4のいずれか一項に記載の方法。
(項目6)
前記循環無細胞核酸が、血清または血漿に由来する、項目4または5に記載の方法。
(項目7)
前記配列リードが、基準ゲノムまたはその部分に対してマッピングされている、項目1から6のいずれか一項に記載の方法。
(項目8)
(a)の前に、前記基準ゲノムまたはその部分とアラインしない全ての塩基について、配列リードのサブセットを同定するステップと、前記サブセットについて、(a)、(b)、(c)、および(d)を実施するステップとを含む、項目7に記載の方法。
(項目9)
前記配列リードが、シングルエンドの配列リードである、項目1から8のいずれか一項に記載の方法。
(項目10)
前記配列リードが、不一致リードである、項目1から9のいずれか一項に記載の方法。
(項目11)
マッピング可能性の変化を、前記不一致リードについて決定する、項目10に記載の方法。
(項目12)
前記配列リードが、ペアドエンドの配列リードである、項目1から8のいずれか一項に記載の方法。
(項目13)
前記配列リードが、不一致リード対である、項目12に記載の方法。
(項目14)
不一致リード対を同定し、これにより、不一致リードメイトを提供するステップを含む、項目1から13のいずれか一項に記載の方法。
(項目15)
マッピング可能性の変化を、前記不一致リードメイトについて決定する、項目14に記載のシステム。
(項目16)
キメラリード対を、(a)の前に同定しない、項目1から15のいずれか一項に記載の方法。
(項目17)
(c)における前記比較するステップの前に、前記サブセット内の各配列リードについて、候補切断点を同定するステップを含む、項目1から16のいずれか一項に記載の方法。
(項目18)
各配列リードについての前記候補切断点を、前記マッピング可能性の変化に従い同定する、項目17に記載の方法。
(項目19)
(c)における前記比較するステップが、(i)(b)で前記候補切断点と関連する前記試料から同定された前記サブセット内の前記配列リードの各々の数を、(ii)(b)で該候補切断点と関連する基準から同定された前記サブセット内の前記配列リードの各々の数と比較することを含む、項目17または18に記載の方法。
(項目20)
(b)で同定される前記サブセット内の前記配列リードが、約32連続塩基の最小の長さを有する、項目1から19のいずれか一項に記載の方法。
(項目21)
(b)で同定される前記サブセット内の前記配列リードの各々の中の前記候補切断点の各々の側に、少なくとも約15連続塩基〜約20連続塩基が存在する、項目17から20のいずれか一項に記載の方法。
(項目22)
前記配列リードが、約20塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、項目1から21のいずれか一項に記載の方法。
(項目23)
前記配列リードが、約40塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、項目22に記載の方法。
(項目24)
前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、項目1から23のいずれか一項に記載の方法。
(項目25)
前記1種またはそれより多くの種の染色体変化が、平衡染色体転座を含む、項目1から24のいずれか一項に記載の方法。
(項目26)
前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、項目1から23のいずれか一項に記載の方法。
(項目27)
前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、項目1から23のいずれか一項に記載の方法。
(項目28)
前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、項目1から23のいずれか一項に記載の方法。
(項目29)
(d)で前記1種またはそれより多くの種の染色体変化の存在を決定する場合に、1または複数の切断点の位置を提供するステップを含む、項目1から28のいずれか一項に記載の方法。
(項目30)
前記1または複数の切断点の各々の位置を、1塩基対の分解能で提供する、項目29に記載の方法。
(項目31)
(b)における前記同定するステップが、前記リードの各々の前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、項目1から30のいずれか一項に記載の方法。
(項目32)
マッピング可能性の変化を、前記関係の傾きから決定する、項目31に記載の方法。
(項目33)
長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがあり、次いでその後該第1の染色体に対するアラインメントがある配列リードを、(b)で同定される前記サブセット内に含めない、項目1から32のいずれか一項に記載の方法。
(項目34)
長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがある配列リードを、(b)で同定される前記サブセット内に含める、項目1から33のいずれか一項に記載の方法。
(項目35)
(c)における前記比較を、(c)(i)における配列リードの数と、(c)(ii)における配列リードの数との間のzスコアに従い決定する、項目1から34のいずれか一項に記載の方法。
(項目36)
(b)で同定される前記サブセット内の前記配列リードの各々が、実質的に類似する候補切断点を含む、項目17から35のいずれか一項に記載の方法。
(項目37)
各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより約5塩基またはこれ未満だけ短い、項目1から36のいずれか一項に記載の方法。
(項目38)
各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより1塩基または2塩基だけ短い、項目37に記載の方法。
(項目39)
各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより漸次的に短い、項目38に記載の方法。
(項目40)
各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより約1塩基ずつ漸次的に短い、項目39に記載の方法。
(項目41)
複数の配列リード部分配列の前記マッピング可能性を前記特徴付けるステップが、前記当てはめ関係の傾きを決定することを含む、項目31から40のいずれか一項に記載の方法。
(項目42)
(b)における前記同定するステップが、マッピング可能性の閾値に従う、項目1から41のいずれか一項に記載の方法。
(項目43)
リードをフィルタリングするステップを含む、項目1から42のいずれか一項に記載の方法。
(項目44)
前記フィルタリングするステップが、前記不一致リードメイトの一方または両方を除外することを含む、項目43に記載の方法。
(項目45)
前記フィルタリングするステップが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、項目43または44に記載の方法。
(項目46)
前記フィルタリングするステップが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、項目43から45のいずれか一項に記載の方法。
(項目47)
前記フィルタリングするステップが、前記試料に由来する前記サブセット内の前記配列リードの各々の数が、前記基準に由来する前記サブセット内の前記配列リードの各々の数と実質的に類似する場合に、(b)で同定されるリードの前記サブセットを除外することを含む、項目43から46のいずれか一項に記載の方法。
(項目48)
前記候補切断点の場所を、単一塩基の分解能で同定する、項目36から47のいずれか一項に記載の方法。
(項目49)
(d)で、平衡転座の存在を決定する、項目1から48のいずれか一項に記載の方法。
(項目50)
(d)で、非平衡転座の存在を決定する、項目1から49のいずれか一項に記載の方法。
(項目51)
(d)で前記染色体変化の存在を決定するステップが、(c)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、項目1から50のいずれか一項に記載の方法。
(項目52)
切断点を、(c)における前記比較に従い同定する、項目1から51のいずれか一項に記載の方法。
(項目53)
第1の切断点および第2の切断点を、(c)における前記比較に従い同定する、項目1から52のいずれか一項に記載の方法。
(項目54)
(d)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、項目53に記載の方法。
(項目55)
(c)における前記比較が、信頼水準を決定することを含む、項目1から54のいずれか一項に記載の方法。
(項目56)
前記信頼水準を決定することが、p値を決定することを含む、項目55に記載の方法。
(項目57)
前記信頼水準を決定することが、Zスコアを決定することを含む、項目55に記載の方法。
(項目58)
前記メモリが、前記配列リード、前記複数の配列リード部分配列、前記不一致リード対、リードの前記サブセット、前記候補切断点、またはこれらの組合せのうちの1種またはそれより多くの種を含む、項目2から57のいずれか一項に記載の方法。
(項目59)
(a)の前に、前記配列リードを、前記循環無細胞核酸をシーケンシングすることにより決定するステップを含む、項目4から58のいずれか一項に記載の方法。
(項目60)
試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
(a)不一致リード対をペアドエンドの配列リードから同定するステップであって、該ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、該配列リード部分配列の各々の長さが異なるステップと、
(c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択するステップであって、該サブセットが、候補切断点を含むリードを含むステップと、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成するステップと、
(e)(d)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含む方法。
(項目61)
試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、または該シーケンシング装置に、該核酸の改変変異体をロードするステップであって、該シーケンシング装置により、該核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
任意選択で、該シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、該核酸の該シグナルから、ペアドエンドの配列リードを生成するステップであって、該システム内の該1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
該試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、該システムにより決定するステップであって、該システム内の1つの演算装置または演算装置の組合せが、該配列リードを基準ゲノムに対してアラインさせ、
(a)不一致リード対を、該ペアドエンドの配列リードから同定し、これにより、不一致リードメイトを同定し、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトの該配列リード部分配列の各々の長さが異なり、
(c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択し、この場合、該サブセットが、候補切断点を含むリードを含み、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成し、
(e)(d)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されるステップと
を含む方法。
(項目62)
前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、項目60または61に記載の方法。
(項目63)
前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、項目60または61に記載の方法。
(項目64)
前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、項目60または61に記載の方法。
(項目65)
前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、項目60または61に記載の方法。
(項目66)
1つまたはそれより多くの候補切断点の位置を決定するステップを含む、項目60から65のいずれか一項に記載の方法。
(項目67)
(b)における前記特徴付けるステップが、各不一致リードメイトの、前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、項目60から66のいずれか一項に記載の方法。
(項目68)
各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約5塩基またはこれ未満だけ短い、項目60から67のいずれか一項に記載の方法。
(項目69)
各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより1塩基または2塩基だけ短い、項目68に記載の方法。
(項目70)
各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより漸次的に短い、項目68に記載の方法。
(項目71)
各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約1塩基ずつ漸次的に短い、項目70に記載の方法。
(項目72)
マッピング可能性の変化を、前記当てはめ関係の傾きから決定する、項目67から71のいずれか一項に記載の方法。
(項目73)
(c)における前記選択するステップが、マッピング可能性の閾値に従う、項目60から72のいずれか一項に記載の方法。
(項目74)
前記不一致リードメイトをフィルタリングするステップを含む、項目60から73のいずれか一項に記載の方法。
(項目75)
前記フィルタリングするステップが、前記不一致リードメイトの一方または両方を除外することを含む、項目74に記載の方法。
(項目76)
前記フィルタリングするステップが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vii)段階的な多重アラインメントを含むリードを除外すること、および(viii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、項目74または75に記載の方法。
(項目77)
前記フィルタリングするステップが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、項目74から76のいずれか一項に記載の方法。
(項目78)
前記フィルタリングするステップが、前記実質的に類似する切断点が、前記基準内に存在する場合に、不一致リードメイトを除外することを含む、項目74から76のいずれか一項に記載の方法。
(項目79)
前記切断点の場所を、単一塩基の分解能で同定する、項目60から78のいずれか一項に記載の方法。
(項目80)
(e)で、平衡転座の存在を決定する、項目60から79のいずれか一項に記載の方法。
(項目81)
(e)で、非平衡転座の存在を決定する、項目60から80のいずれか一項に記載の方法。
(項目82)
(e)で前記染色体変化の存在を決定するステップが、(d)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、項目60から81のいずれか一項に記載の方法。
(項目83)
第1の切断点および第2の切断点を、(d)における前記比較に従い同定する、項目60から82のいずれか一項に記載の方法。
(項目84)
(e)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、項目83に記載の方法。
(項目85)
(c)における前記選択するステップもしくは(d)における前記比較するステップ、または(c)における前記選択するステップおよび(d)における前記比較するステップが、クラスタリング分析を実施することを含まない、項目60から84のいずれか一項に記載の方法。
(項目86)
(d)における前記比較が、信頼水準を決定することを含む、項目60から85のいずれか一項に記載の方法。
(項目87)
前記信頼水準を決定することが、p値を決定することを含む、項目86に記載の方法。
(項目88)
前記信頼水準を決定することが、Zスコアを決定することを含む、項目86に記載の方法。
(項目89)
1つまたはそれより多くのマシンの使用を含む、項目60から88のいずれか一項に記載の方法。
(項目90)
前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、項目89に記載の方法。
(項目91)
1つのマシンに具体化される、項目89または90に記載の方法。
(項目92)
前記配列リードを得るステップ、前記不一致リード対を得るステップ、不一致リードメイトの前記サブセットを得るステップ、マッピング可能性の変化を得るステップ、前記切断点を得るステップ、またはこれらの組合せを含む、項目60から91のいずれか一項に記載の方法。
(項目93)
前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、項目1から92のいずれか一項に記載の方法。
(項目94)
前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、項目1から92のいずれか一項に記載の方法。
(項目95)
前記細胞増殖性障害が、がんである、項目94に記載の方法。
(項目96)
1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、項目1から95のいずれか一項に記載の方法。
(項目97)
前記少数核酸種が、胎児核酸を含む、項目96に記載の方法。
(項目98)
前記少数核酸種が、がん細胞に由来する核酸を含む、項目96に記載の方法。
技術のある特定の態様および実施形態について、以下の記載、実施例、特許請求の範囲、および図面でさらに記載する。
図面は、技術の実施形態を例示するものであり、限定的なものではない。例示の明確さおよび容易さのために、図面は、実寸で作成されるものではなく、場合によって、特定の実施形態の理解を容易とするように、多様な態様を、誇張または拡大して示す可能性がある。
図1A〜Cは、母体血漿中の胎児平衡転座の同定を示す図である。図1Aは、第8染色体と第11染色体との間で同定された胎児平衡転座について詳述するCircosプロット(Krzywinski M.ら(2009年)、Genome Res、19巻:1639〜45頁)を示す図である。対角線は、シーケンシングされた断片の始点および終点を表す。染色体には、バンドパターンおよびセントロメアを際立たせるように、強調を施す。図1Bは、罹患染色体の各々について、同定された転座のエリアに焦点を当てるCircosプロットを示す図である。これらの領域の各々の中の反復領域は、黒色で強調する。各直線は、シーケンシングされた断片の始点位置および終点位置を表す。図1Cは、相互転座イベントの各々について、転座切断点にわたる個々のシーケンシングリードについての塩基レベルの記載を示す図である。第8染色体に由来する配列を、「CHR8」で指し示し、指示子の右側に配置する。第11染色体に由来する配列を、「CHR11」で指し示し、指示子の右側に配置する。垂直方向の破線は、染色体切断点の位置を指し示す。「CHR8/CHR11」という指示子は、第8染色体の配列を、切断点位置の左側に示し、第11染色体配列を、切断点位置の右側に示す。「CHR11/CHR8」という指示子は、第11染色体の配列を、切断点位置の左側に示し、第8染色体配列を、切断点位置の右側に示す。水平方向の破線は、ヌクレオチドの欠失を指し示した。 図1A〜Cは、母体血漿中の胎児平衡転座の同定を示す図である。図1Aは、第8染色体と第11染色体との間で同定された胎児平衡転座について詳述するCircosプロット(Krzywinski M.ら(2009年)、Genome Res、19巻:1639〜45頁)を示す図である。対角線は、シーケンシングされた断片の始点および終点を表す。染色体には、バンドパターンおよびセントロメアを際立たせるように、強調を施す。図1Bは、罹患染色体の各々について、同定された転座のエリアに焦点を当てるCircosプロットを示す図である。これらの領域の各々の中の反復領域は、黒色で強調する。各直線は、シーケンシングされた断片の始点位置および終点位置を表す。図1Cは、相互転座イベントの各々について、転座切断点にわたる個々のシーケンシングリードについての塩基レベルの記載を示す図である。第8染色体に由来する配列を、「CHR8」で指し示し、指示子の右側に配置する。第11染色体に由来する配列を、「CHR11」で指し示し、指示子の右側に配置する。垂直方向の破線は、染色体切断点の位置を指し示す。「CHR8/CHR11」という指示子は、第8染色体の配列を、切断点位置の左側に示し、第11染色体配列を、切断点位置の右側に示す。「CHR11/CHR8」という指示子は、第11染色体の配列を、切断点位置の左側に示し、第8染色体配列を、切断点位置の右側に示す。水平方向の破線は、ヌクレオチドの欠失を指し示した。 図1A〜Cは、母体血漿中の胎児平衡転座の同定を示す図である。図1Aは、第8染色体と第11染色体との間で同定された胎児平衡転座について詳述するCircosプロット(Krzywinski M.ら(2009年)、Genome Res、19巻:1639〜45頁)を示す図である。対角線は、シーケンシングされた断片の始点および終点を表す。染色体には、バンドパターンおよびセントロメアを際立たせるように、強調を施す。図1Bは、罹患染色体の各々について、同定された転座のエリアに焦点を当てるCircosプロットを示す図である。これらの領域の各々の中の反復領域は、黒色で強調する。各直線は、シーケンシングされた断片の始点位置および終点位置を表す。図1Cは、相互転座イベントの各々について、転座切断点にわたる個々のシーケンシングリードについての塩基レベルの記載を示す図である。第8染色体に由来する配列を、「CHR8」で指し示し、指示子の右側に配置する。第11染色体に由来する配列を、「CHR11」で指し示し、指示子の右側に配置する。垂直方向の破線は、染色体切断点の位置を指し示す。「CHR8/CHR11」という指示子は、第8染色体の配列を、切断点位置の左側に示し、第11染色体配列を、切断点位置の右側に示す。「CHR11/CHR8」という指示子は、第11染色体の配列を、切断点位置の左側に示し、第8染色体配列を、切断点位置の右側に示す。水平方向の破線は、ヌクレオチドの欠失を指し示した。 図2A〜Dは、シミュレートされるリードの配列リード部分配列であって、構造的な再配列切断点(垂直方向の黒色の直線)を様々な位置に含有する、配列リード部分配列についての平均MAPQスコアを示す図である。配列リード部分配列は、増分を単一塩基として生成した。図2A〜2Dは、メイト対1(R1)およびメイト対2(R2)についての、各配列リード部分配列(シュードリード)の、全体的なマッピング信頼性を示す図であり、この場合、切断点は、所与の標的断片長を約140bpとするときの、10位(図2A)、40位(図2B)、70位(図2C)、または120位(図2D)に施す。R1については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、グレー四角として、断片の最も左側の始点位置から、プロットする。R2については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、黒色四角として、断片の最も右側の位置から、逆の順序でプロットする。図2Cは、マッピング可能性の高いシュードリードが、異なるゲノム領域に由来する配列の増大に起因して、マッピング不可能となるときの平均MAPQの変化を裏付ける図である。 図2A〜Dは、シミュレートされるリードの配列リード部分配列であって、構造的な再配列切断点(垂直方向の黒色の直線)を様々な位置に含有する、配列リード部分配列についての平均MAPQスコアを示す図である。配列リード部分配列は、増分を単一塩基として生成した。図2A〜2Dは、メイト対1(R1)およびメイト対2(R2)についての、各配列リード部分配列(シュードリード)の、全体的なマッピング信頼性を示す図であり、この場合、切断点は、所与の標的断片長を約140bpとするときの、10位(図2A)、40位(図2B)、70位(図2C)、または120位(図2D)に施す。R1については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、グレー四角として、断片の最も左側の始点位置から、プロットする。R2については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、黒色四角として、断片の最も右側の位置から、逆の順序でプロットする。図2Cは、マッピング可能性の高いシュードリードが、異なるゲノム領域に由来する配列の増大に起因して、マッピング不可能となるときの平均MAPQの変化を裏付ける図である。 図2A〜Dは、シミュレートされるリードの配列リード部分配列であって、構造的な再配列切断点(垂直方向の黒色の直線)を様々な位置に含有する、配列リード部分配列についての平均MAPQスコアを示す図である。配列リード部分配列は、増分を単一塩基として生成した。図2A〜2Dは、メイト対1(R1)およびメイト対2(R2)についての、各配列リード部分配列(シュードリード)の、全体的なマッピング信頼性を示す図であり、この場合、切断点は、所与の標的断片長を約140bpとするときの、10位(図2A)、40位(図2B)、70位(図2C)、または120位(図2D)に施す。R1については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、グレー四角として、断片の最も左側の始点位置から、プロットする。R2については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、黒色四角として、断片の最も右側の位置から、逆の順序でプロットする。図2Cは、マッピング可能性の高いシュードリードが、異なるゲノム領域に由来する配列の増大に起因して、マッピング不可能となるときの平均MAPQの変化を裏付ける図である。 図2A〜Dは、シミュレートされるリードの配列リード部分配列であって、構造的な再配列切断点(垂直方向の黒色の直線)を様々な位置に含有する、配列リード部分配列についての平均MAPQスコアを示す図である。配列リード部分配列は、増分を単一塩基として生成した。図2A〜2Dは、メイト対1(R1)およびメイト対2(R2)についての、各配列リード部分配列(シュードリード)の、全体的なマッピング信頼性を示す図であり、この場合、切断点は、所与の標的断片長を約140bpとするときの、10位(図2A)、40位(図2B)、70位(図2C)、または120位(図2D)に施す。R1については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、グレー四角として、断片の最も左側の始点位置から、プロットする。R2については、32〜100bpのシュードリード長に対する平均値MAPQスコアを、黒色四角として、断片の最も右側の位置から、逆の順序でプロットする。図2Cは、マッピング可能性の高いシュードリードが、異なるゲノム領域に由来する配列の増大に起因して、マッピング不可能となるときの平均MAPQの変化を裏付ける図である。 図3は、両方の領域が、高度なユニーク配列を含む、転座のシミュレートを示す図である。シミュレートされる各転座イベントについて、マッピング品質スコアの平均値傾き(y軸)を、全てのシミュレートされる切断点位置(x軸)においてプロットする。 図4は、左側の領域が、高度なユニーク配列を含み、右側の領域が、反復エレメントを含む、転座のシミュレートを示す図である。シミュレートされる各転座イベントについて、マッピング品質スコアの平均値傾き(y軸)を、全てのシミュレートされる切断点位置(x軸)においてプロットする。 図5A〜Bは、第2染色体と第5染色体との間で観察された、偽陽性の可能性が高い転座を、混合物B(図5A)および「プールされた」対照セット(図5B)について示す図である。グレーバーは、反復エレメントの領域を指し示す。左座標および右座標は、それぞれ、第2染色体および第5染色体(hg19)に対応する。 図6は、技術のある特定の実施形態を実装しうるシステムの例示的な実施形態を示す図である。 図7は、フィルターの例示的な実施形態を示す図である。 図8は、技術のある特定の実施形態を実装しうるシステムの例示的な実施形態を示す図である。
詳細な説明
本明細書では、核酸混合物中のポリヌクレオチドを分析するためのシステムおよび方法であって、例えば、染色体変化(例えば、転座、欠失、逆位、挿入)の存在または非存在を決定するための方法を含む、システムおよび方法が提供される。染色体変化は、集団内で広範にわたり、集団内の表現型の変異に寄与する。ある特定の染色体変化は、多様な疾患(例えば、がん)、障害(例えば、構造的奇形、受胎障害)、および機能障害(例えば、精神機能障害)の発症および進行において役割を果たす可能性がある。本明細書では、染色体変化を位置特定および/または同定するのに有用であり、ある特定の染色体変化と関連する、疾患、障害、および機能障害を診断および処置するのに有用な、システム、方法、および製品が提供される。
次世代シーケンシングは、従来のシーケンシング法より迅速で廉価な方法により、核酸を、ゲノムワイドスケールでシーケンシングすることを可能とする。本明細書で提供される方法、システム、および製品では、先進的なシーケンシング技術を活用して、染色体変化ならびに/または関連する疾患および障害を位置特定および同定することができる。本明細書で提供される方法、システム、および製品では、血液試料またはその一部を使用して、被験体ゲノム(例えば、胎児ゲノム)についての非侵襲的評価を下しうることが多く、侵襲的な技法(例えば、羊水穿刺、生検)より安全、迅速であり、かつ/または廉価であることが多い。本明細書の一部の実施形態では、試料中に存在する配列リード(本明細書ではまた、「シーケンシングリード」とも言及される)核酸であって、基準配列に対してマッピングされることが多い配列リード核酸を得るステップと、配列リードの選択されたサブセットのある特定のマッピング特徴を同定するステップと、染色体変化の存在または非存在を決定するステップとを部分的に含む方法が提供される。本明細書の一部の実施形態ではまた、本明細書で記載される方法を実行する、システム、マシン、装置、製品、およびモジュールも提供される。
染色体変化
本明細書では、1種またはそれより多くの種の染色体変化の存在または非存在を同定するための方法およびシステムが提供される。本明細書で使用される「染色体変化」とは、1種またはそれより多くの種のヒト染色体内の遺伝物質の、任意の挿入、欠失(例えば、喪失)、転座、逆位、および/または融合を指す。本明細書で使用される「遺伝物質」という用語は、1種またはそれより多くの種のポリヌクレオチドを指す。染色体変化は、それらの非限定的な例が、少なくとも10bp、少なくとも20bp、少なくとも50bp、少なくとも100bp、少なくとも500bp、少なくとも1000bp、少なくとも2500bp、少なくとも5000bp、少なくとも10,000bp、少なくとも50,000bp、少なくとも100,000bp、少なくとも500,000bp、少なくとも1メガ塩基対(Mbp)、少なくとも5Mbp、少なくとも10Mbp、少なくとも20Mbp、少なくとも50Mbp、少なくとも100Mbp、および少なくとも150Mbpのポリヌクレオチドを含む、任意の長さのポリヌクレオチドの挿入、欠失、および/もしくは転座を含むことが可能であるか、またはポリヌクレオチドの挿入、欠失、および/もしくは転座である。一部の実施形態では、染色体変化は、約10bp〜約200Mbp、約20bp〜約200Mbp、約50bp〜約200Mbp、約100bp〜約200Mbp、約500bp〜約200Mbp、約1000bp〜約200Mbp、約2500bp〜約200Mbp、約5000bp〜約200Mbp、約10,000bp〜約200Mbp、約50,000bp〜約200Mbp、約100,000bp〜約200Mbp、約500,000bp〜約200Mbp、約1Mbp〜約200Mbp、約5Mbp〜約200Mbp、約10Mbp〜約200Mbp、約20Mbp〜約200Mbp、約50Mbp〜約200Mbp、約100Mbp〜約200Mbp、または約150Mbp〜約200Mbpのポリヌクレオチドの挿入、欠失、または転座を含む。一部の実施形態では、染色体変化は、染色体のうちの約1%もしくはこれ超、染色体のうちの約2%もしくはこれ超、染色体のうちの約3%もしくはこれ超、染色体のうちの約4%もしくはこれ超、染色体のうちの約5%もしくはこれ超、染色体のうちの約10%もしくはこれ超、染色体のうちの約15%もしくはこれ超、染色体のうちの約20%もしくはこれ超、染色体のうちの約25%もしくはこれ超、または染色体のうちの約30%もしくはこれ超の挿入、欠失、および/または転座を含む。本明細書で記載される方法および/またはシステムにより検出しうる染色体変化の非限定的な例については、本明細書でより詳細に記載され、表1(後出で提供される)に提示される。
染色体変化は、場合によって、同種の遺伝物質の挿入、欠失、および/もしくは転座を含むか、または同種の遺伝物質の挿入、欠失、および/もしくは転座である。同種の遺伝物質は、ヒト基準ゲノムまたはその部分と同種の、任意の適切なポリヌクレオチドを含むことが多い。一部の実施形態では、染色体変化は、異種の遺伝物質の挿入、欠失、および/または転座を含む。本明細書で使用される「異種の遺伝物質」とは、任意の非ヒト種に由来する遺伝物質を指す。異種の遺伝物質は、場合によって、任意の非ヒト種のゲノムまたはその部分と高度に同種のポリヌクレオチドを含む。異種の遺伝物質の例は、ウイルスゲノムまたはその部分を含む。異種の遺伝物質に寄与しうるウイルスの属、科、群、および種の非限定的な例は、ヘルペスウイルス科、アデノウイルス科、パポバウイルス科、アネロウイルス科、シルコウイルス科、パルボウイルス科、レオウイルス科、アルファレトロウイルス、ベータレトロウイルス、ガンマレトロウイルス、デルタレトロウイルス、イプシロンレトロウイルス、レンチウイルス、プーマウイルス、パルボウイルス、ボルナウイルス、シルコウイルス、およびポリオーマウイルスを含む。
一部の実施形態では、遺伝子変化は、転座を含むか、または転座である。本明細書で使用される「転座」という用語は、染色体の突然変異であって、染色体のセグメントが、位置を変化させる突然変異を指す。転座は、非相互転座の場合もあり、相互転座の場合もある。非相互転座は、ゲノムの1つのセグメントであって、遺伝物質が欠失するかまたはコピーされるセグメントから、ゲノムの別のセグメントであって、遺伝物質が挿入されるセグメントへの遺伝物質の移動を含む。相互転座は、ゲノムの1つのセグメントに由来する遺伝物質の、ゲノムの別のセグメントとの交換を含む。転座は、染色体内で生じる(例えば、染色体内転座)場合もあり、染色体間で生じる(例えば、染色体間転座)場合もある。遺伝物質の交換が、遺伝物質の喪失または獲得を伴わない場合、転座は、平衡転座でありうる。例えば、平衡転座は、セグメントxとセグメントyとの交換であって、交換において、セグメントxおよびyの長さおよび完全性(例えば、配列)が保持され、遺伝物質が、セグメントxおよび/またはyに加えて付加または除去されない交換であることが多い。ある特定の実施形態では、平衡転座とは、ゲノムのセグメントは挿入されるが、インサート以外のさらなる遺伝物質は挿入部位に付加または除去されない非相互転座である。一部の実施形態では、平衡転座において交換されるポリヌクレオチドの一方または両方は、基準ゲノムとの比較において決定される、1種またはそれより多くの種の遺伝子変異(例えば、SNP、マイクロ挿入、マイクロ欠失)を含む。このような遺伝子変異は、転座したポリヌクレオチドに対して内部に位置特定される(例えば、切断点またはその近傍には位置特定されない)ことが多く、このような遺伝子変異は、転座イベントの結果でないことが多い。一部の実施形態では、転座とは、セグメントxとセグメントyとの交換が、遺伝物質の、xおよび/またはyからの喪失を含む、非平衡転座である。一部の実施形態では、非平衡転座は、セグメントxとセグメントyとの交換であって、遺伝物質が、xおよび/またはyへと付加される交換(例えば、複製、挿入)を含む。非平衡転座は、転座したポリヌクレオチドの末端における(例えば、いずれかのセグメントの切断点またはその近傍における)、遺伝物質の獲得または喪失を含むことが多い。転座の存在または非存在、および転座切断点の位置は、本明細書で記載される方法またはシステムにより決定することができる。転座の存在または非存在を決定することは、挿入され、欠失し、かつ/または交換された遺伝物質(例えば、ポリヌクレオチド)の存在または非存在を決定することを含むことが多い。一部の実施形態では、転座の存在または非存在を、本明細書で記載される方法および/またはシステムにより決定する。
ある特定の実施形態では、転座は、逆位を含むか、または逆位である。本明細書では、場合によって、逆位を、「染色体逆位」と称する。ある特定の実施形態では、逆位とは、染色体のセグメントが、除去され、同じ染色体と逆の配向性で(例えば、5’→3’DNA鎖に照らして)再接合される場合である。逆位の一部の実施形態では、セグメントは、それが除去された部位とほぼ同じ部位において、染色体に再接合される。逆位のある特定の実施形態では、セグメントは、それが除去された部位と異なる部位において、染色体に再接合される。ある特定の実施形態では、逆位が生じる場合、遺伝物質は、喪失もせず、付加もされないが、場合によって、逆位の切断点が遺伝子内または遺伝子の発現を制御する領域内で生じる場合は、表現型上の帰結が認められうる。逆位の一部の実施形態では、遺伝物質は、喪失するかまたは付加され、本明細書で記載される方法により検出することができる。
一部の実施形態では、染色体変化は、挿入を含むか、または挿入である。本明細書では、場合によって、挿入を、「染色体の挿入」と称する。挿入とは、場合によって、1種またはそれより多くのヌクレオチド塩基対またはポリヌクレオチドの、ゲノムまたはそのセグメント(例えば、染色体)への付加である。一部の実施形態では、挿入とは、大きな配列の、染色体への挿入であって、減数分裂時の不等交差に起因して生じることが多い挿入を指す。挿入とは、場合によって、転座またはその一部を指す。例えば、非相互転座では、ポリヌクレオチドは、1つの部位では欠失し(欠失)、別の部位では挿入される(例えば、挿入)。一部の実施形態では、挿入は、転座から独立している(例えば、ウイルスDNAの挿入を含む挿入)。一部の実施形態では、挿入は、転座ではない。挿入は、転座を随伴することが多い。例えば、場合によって、挿入は、非平衡転座時に付加される、さらなる遺伝物質を含む。非平衡転座を随伴する挿入は、染色体切断点と、転座したポリヌクレオチドの一方または両方の端部との間に付加されることが多い。本明細書では、非平衡転座を随伴する挿入を、「マイクロインサート」と称する。マイクロインサートまたはその部分は、同種の遺伝物質および/または異種の遺伝物質を含みうる。一部の実施形態では、マイクロインサートまたはその部分は、由来および/または相同性が未知の核酸またはポリヌクレオチドを含む。挿入の存在または非存在を決定することは、マイクロインサートおよび/または転座(例えば、転座したポリヌクレオチドの存在)の存在または非存在を決定することを含むことが多い。
一部の実施形態では、マイクロインサートは、約1bp〜約10,000bp、約1bp〜約5000bp、約1bp〜約1000bp、約1bp〜約500bp、約1bp〜約250bp、約1bp〜約100bp、約1bp〜約50bp、または約1bp〜約30bpである。一部の実施形態では、ポリヌクレオチドインサートは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30bpの長さである。
一部の実施形態では、染色体変化は、欠失を含むか、または欠失である。本明細書では、場合によって、欠失を、染色体欠失と称する。本明細書で使用される欠失とは、基準ゲノムによれば、ゲノムの特定の場所(例えば、部位)において、またはゲノムの特定の配列について予測される遺伝物質(例えば、1または複数のヌクレオチド配列、ポリヌクレオチド配列)の非存在および/または喪失を指す。一部の実施形態では、欠失とは、連続的な核酸(例えば、ポリヌクレオチド)鎖の喪失を指す。一部の実施形態では、欠失により、ゲノムからの遺伝物質の喪失がもたらされる。欠失とは、場合によって、非相互転座またはその一部を指す。例えば、非相互転座では、ポリヌクレオチドは、1つの部位では欠失し(欠失)、別の部位では挿入される。一部の実施形態では、欠失は、転座ではない。場合によって、欠失は、転座から独立している。欠失は、転座を随伴することが多い。例えば、場合によって、欠失は、非平衡転座時に喪失した遺伝物質を含む。本明細書では、非平衡転座を随伴する欠失に起因して、非存在であり、かつ/または喪失していると決定される遺伝物質を、マイクロ欠失と称する。非平衡転座を随伴するマイクロ欠失は、転座したポリヌクレオチドの一方または両方の端部から喪失しうる。一部の実施形態では、非平衡転座を随伴するマイクロ欠失は、挿入部位の一方または両方の端部から喪失する。マイクロ欠失は、切断点の一方または両方の端部における遺伝物質の喪失を含みうる。一部の実施形態では、マイクロ欠失の存在を決定することは、遺伝物質の非存在および/または転座の存在(例えば、転座したポリヌクレオチドの存在)を決定することを含むことが多い。
一部の実施形態では、マイクロ欠失の長さは、約1bp〜約10,000bp、約1bp〜約5000bp、約1bp〜約1000bp、約1bp〜約500bp、約1bp〜約250bp、約1bp〜約100bp、約1bp〜約50bp、または約1bp〜約30bpである。一部の実施形態では、マイクロ欠失は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17,18、19、20、21、22、23、24、25、26、27、28、29、または30bpの喪失を含む。
試料
本明細書では、核酸を分析するためのシステム、方法、および製品が提供される。一部の実施形態では、核酸断片の混合物中の核酸断片について分析する。核酸の混合物は、2つまたはこれを超える核酸断片種であって、ヌクレオチド配列が異なるか、断片長が異なるか、由来(例えば、ゲノムの由来、母体由来と対比した胎児由来、細胞由来または組織由来、非がん由来と対比したがん由来、非腫瘍由来と対比した腫瘍由来、試料由来、被験体由来など)が異なるか、またはこれらの組合せである核酸断片種を含みうる。
本明細書で記載されるシステム、方法、および製品において活用される核酸または核酸混合物は、被験体から得られる試料から単離されることが多い。被験体は、ヒト、非ヒト動物、植物、細菌、真菌、または原生生物を含むがこれらに限定されない、任意の生物または非生物でありうる。哺乳動物、爬虫類、鳥類、両生動物、魚類、有蹄動物、反芻動物、ウシ科動物(例えば、ウシ)、ウマ科動物(例えば、ウマ)、ヤギ科動物およびヒツジ科動物(例えば、ヒツジ、ヤギ)、ブタ科動物(例えば、ブタ)、ラクダ科動物(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科動物(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚類、イルカ、クジラ、およびサメを含むがこれらに限定されない、任意のヒトまたは非ヒト動物を選択することができる。被験体は、男性の場合もあり、女性(例えば、婦人、妊婦)の場合もある。被験体は、任意の年齢(例えば、胚、胎児、幼児、小児、成人)でありうる。
核酸は、任意の種類の適切な生物学的検体または生物学的試料(例えば、被験試料)から単離することができる。試料または被験試料は、被験体(例えば、ヒト被験体、妊婦、胎児)またはその一部から単離されるか、または得られる、任意の検体でありうる。検体の非限定的な例は、被験体に由来する体液または組織であって、限定せずに述べると、血液または血液生成物(例えば、血清、血漿など)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄液(例えば、気管支肺胞洗浄液、胃洗浄液、腹膜洗浄液、乳管洗浄液、耳洗浄液、関節鏡洗浄液)、生検試料(例えば、着床前胚に由来する生検;がん生検)、腹腔穿刺試料、細胞(血液細胞、胎盤細胞、胚細胞または胎児細胞、胎児有核細胞または胎児細胞の残存物)またはこれらの一部(例えば、ミトコンドリア、核、抽出物など)、女性生殖管の洗浄物、尿、糞便、痰、唾液、鼻腔内粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙液、汗、母乳、乳腺液など、またはこれらの組合せを含む、体液または組織を含む。一部の実施形態では、生物学的試料は、被験体に由来する子宮頚部のスワブである。一部の実施形態では、生物学的試料は、血液であることが可能であり、場合によって、血漿または血清でありうる。本明細書で使用される「血液」という用語は、妊娠の可能性について検査される妊婦または婦人に由来する血液試料または調製物を指す。用語は、全血液、血液生成物、または、従来規定される通り、血清、血漿、軟膜など、任意の血液画分を包含する。血液またはその画分は、ヌクレオソーム(例えば、母体ヌクレオソームおよび/または胎児ヌクレオソーム)を含むことが多い。ヌクレオソームは、核酸を含み、場合によって、無細胞核酸または細胞内核酸である。血液はまた、軟膜も含む。軟膜は、場合によって、ficoll勾配を活用することにより単離する。軟膜は、白血球(white blood cell)(例えば、白血球(leukocyte)、T細胞、B細胞、血小板など)を含みうる。ある特定の実施形態では、軟膜は、母体核酸および/または胎児核酸を含む。血漿とは、抗凝固剤で処理された血液の遠心分離から生じる全血液の画分を指す。血清とは、血液試料を凝固させた後で残存する流体の水様部分を指す。体液試料または組織試料は、病院または診療所が一般に従う標準的なプロトコールに従い回収することが多い。血液では、適量の末梢血(例えば、3〜40ミリリットルの間)は、調製の前に、または調製の後で、標準的な手順に従い回収し、保存しうることが多い。核酸が抽出される体液試料または組織試料は、無細胞(acellular)(例えば、無細胞(cell−free))試料でありうる。一部の実施形態では、体液試料または組織試料は、細胞成分または細胞の残存物を含有しうる。一部の実施形態では、胎児細胞またはがん細胞は、試料中に含まれうる。
試料は、液体試料でありうる。液体試料は、細胞外核酸(例えば、循環無細胞DNA)を含みうる。液体試料の非限定的な例は、血液または血液生成物(例えば、血清、血漿など)、臍帯血、羊水、脳脊髄液、脊髄液、洗浄液(例えば、気管支肺胞、胃、腹膜、乳管、耳、関節鏡)、生検試料(例えば、がんを検出するための液体生検)、腹腔穿刺試料、女性生殖管の洗浄物、尿、痰、唾液、鼻腔内粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙液、汗、母乳、乳腺液など、またはこれらの組合せを含む。ある特定の実施形態では、試料は、被験体に由来する液体試料の、疾患(例えば、がん)の存在、非存在、進行、または寛解についての評価を一般に指す、液体生検である。液体生検は、固体生検(例えば、腫瘍生検)と共に、またはこれに対する代替法として使用することができる。ある特定の場合には、細胞外核酸は、液体生検中で分析される。
試料は、異種であることが多いが、これは、1つを超える種類の核酸種が、試料中に存在することを意味する。例えば、異種核酸は、(i)がん核酸および非がん核酸、(ii)病原体核酸および宿主核酸、(iii)胎児由来核酸および母体由来核酸、ならびに/または、より一般に、(iv)突然変異核酸および野生型核酸を含みうるがこれらに限定されない。試料は、胎児細胞および母体細胞、がん細胞および非がん細胞、または病原性細胞および宿主細胞など、1つを超える細胞型が存在するために、異種でありうる。一部の実施形態では、少数核酸種および多数核酸種が存在する。
本明細書で記載される技術の出産前適用では、体液試料または組織試料は、検査に適する妊娠期間の女性から回収することもでき、妊娠の可能性について検査される女性から回収することもできる。適切な妊娠期間は、実施される出産前検査に応じて変化しうる。ある特定の実施形態では、妊婦被験体は、場合によって、妊娠初期(first trimester of pregnancy)にあるか、時に、妊娠中期(second trimester of pregnancy)にあるか、または、場合によって、妊娠後期(third trimester of pregnancy)にある。ある特定の実施形態では、体液または組織は、妊婦から、妊娠約1〜約45週の間(例えば、妊娠1〜4、4〜8、8〜12、12〜16、16〜20、20〜24、24〜28、28〜32、32〜36、36〜40、または40〜44週)であり、場合によって、妊娠約5〜約28週の間に(例えば、妊娠6、7、8、9,10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、または27週に)回収する。ある特定の実施形態では、体液試料または組織試料は、妊婦から、出産(例えば、経腟出産または非経腟出産(例えば、手術分娩))時に、またはこの直後に(例えば、出産の0〜72時間後に)回収する。
血液試料の収集およびDNAの抽出
一部の実施形態では、本明細書の方法は、被験体の血液中に見出されるDNAを分離するステップ、濃縮するステップ、シーケンシングするステップ、および/または分析するステップを、被験体のゲノム内の染色体変化の存在または非存在を検出し、かつ/または被験体の健康をモニタリングする非侵襲的手段として含む。
血液試料の収集
血液試料は、任意の年齢の被験体(例えば、男性被験体または女性被験体)から、本技術の方法を使用して得ることができる。血液試料は、妊婦から、本技術の方法を使用する検査に適する妊娠期間において得ることができる。適切な妊娠期間は、下記で論じられる通り、検査される障害に応じて変化しうる。被験体(例えば、妊婦)からの血液の回収は、病院または診療所が一般に従う標準的なプロトコールに従い実施することが多い。例えば、典型的に、5〜50mlの間である、適量の末梢血は、さらなる調製の前に、標準的な手順に従い回収し、保存しうることが多い。血液試料は、試料中に存在する核酸の分解またはその品質を最小化するように、回収、保存、または輸送することができる。
血液試料の調製
被験体血液中で見出されるDNAについての分析は、例えば、全血液、血清、または血漿を使用して実施することができる。母体血液中で見出される胎児DNAについての分析は、例えば、全血液、血清、または血漿を使用して実施することができる。血清または血漿を、被験体(例えば、母体被験体)から得られた血液から調製するための方法は、公知である。例えば、被験体の血液(例えば、妊婦の血液)は、EDTAを含有する試験管内、またはVacutainer SST(Becton Dickinson、Franklin Lakes、N.J.)など、専用の市販品内に入れて、血液の凝固を防止し、次いで、血漿を、遠心分離により、全血液から得ることができる。血清は、遠心分離を伴って得ることもでき、遠心分離を伴わずに得ることもできる(血液を凝固させた後で)。遠心分離を使用する場合、必ずではないが、適切な速度、例えば、1,500〜3,000×gで実行することが典型的である。血漿または血清は、DNAを抽出するために、未使用の試験管へと移す前に、さらなる遠心分離ステップにかけることができる。
全血液のうちの無細胞部分に加えて、DNAはまた、婦人に由来する全血液試料を遠心分離し、血漿を除去した後で得ることができる、軟膜部分に富む細胞画分からも回収することができる。
DNAの抽出
血液を含む生物学的試料から、DNAを抽出するための多数の方法が公知である。DNAを調製する一般的な方法(例えば、SambrookおよびRussell、「Molecular Cloning: A Laboratory Manual」、3版、2001年により記載されている)に従うことができ;Qiagen製のQIAamp Circulating Nucleic Acid Kit、QiaAamp DNA Mini KitまたはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、Germany)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)など、多様な市販の試薬またはキットもまた、被験体に由来する血液試料からDNAを得るのに使用することができる。また、これらの方法のうちの1つを超える組合せも使用することができる。
一部の実施形態では、妊婦被験体から得られた試料はまず、1種またはそれより多くの種の方法により、胎児核酸について、濃縮するか、またはある程度濃縮することができる。例えば、胎児DNAと母体DNAとの弁別は、本技術の組成物およびプロセスを、単独で使用して実施することもでき、他の弁別因子と組み合わせて実施することもできる。これらの因子の例は、X染色体とY染色体との単一ヌクレオチドの差異、Y染色体特異的配列、ゲノム内の他の場所に位置特定される多型、胎児DNAと母体DNAとのサイズの差異、および母体組織と胎児組織とのメチル化パターンの差異を含むがこれらに限定されない。
試料を、特定の核酸種について濃縮するための他の方法は、それらの全てが、参照により本明細書に組み込まれる、2007年5月30日に出願された、PCT特許出願第PCT/US07/69991号、2007年6月15日に出願された、PCT特許出願第PCT/US2007/071232号、米国仮出願第60/968,876号、および同第60/968,878号(本出願者へと譲渡されている)(2005年11月28日に出願された、PCT特許出願第PCT/EP05/012707号)において記載されている。ある特定の実施形態では、母体核酸を、試料から選択的に(部分的に、実質的に、ほぼ完全に、または完全に)除去する。
「核酸」および「核酸分子」という用語は、本開示を通して互換的に使用されうる。用語は、それらの全てが、一本鎖形態の場合もあり、二本鎖形態の場合もあり、それ以外の点で限定されない限りにおいて、天然ヌクレオチドの公知の類似体であって、自然発生のヌクレオチドと同様の形で機能しうる類似体を包含しうる、DNA(例えば、相補性DNA(cDNA)、ゲノムDNA(gDNA)など)、RNA(例えば、メッセンジャーRNA(mRNA)、短鎖阻害性RNA(siRNA)、リボソームRNA(rRNA)、tRNA、マイクロRNA、胎児または胎盤が高度に発現させるRNAなど)、および/またはDNA類似体もしくはRNA類似体(例えば、塩基類似体、糖類似体、および/または非天然骨格などを含有する)、RNA/DNAハイブリッド、ならびにペプチド核酸(PNA)などに由来する、任意の組成の核酸を指す。核酸は、ある特定の実施形態では、in vitroで複製するか、または宿主細胞内、細胞内、細胞核内、もしくは細胞のサイトプラズム内で複製させることが可能な、プラスミド、ファージ、ウイルス、自律複製配列(ARS)、セントロメア、人工染色体、染色体、または他の核酸の場合もあり、これらに由来する場合もある。一部の実施形態では、鋳型核酸は、単一の染色体に由来しうる(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体に由来しうる)。具体的に限定されない限りにおいて、用語は、天然ヌクレオチドの公知の類似体であって、基準核酸と同様の結合特性を有し、自然発生のヌクレオチドと同様の形で代謝される類似体を含有する核酸を包含する。そうでないことが指し示されない限りにおいて、特定の核酸配列はまた暗黙に、保存的に改変されたその変異体(例えば、縮重コドン置換)、対立遺伝子、オルソログ、一塩基多型(SNP)、および相補性配列のほか、明示的に指し示される配列も包含する。具体的に、縮重コドン置換は、1種またはそれより多くの種の選択された(または全ての)コドンの第3の位置を、混合塩基および/またはデオキシイノシン残基で置換した配列を作り出すことにより、達成することができる。核酸という用語は、遺伝子によりコードされる、遺伝子座、遺伝子、cDNA、およびmRNAと互換的に使用される。用語はまた、同等物として、ヌクレオチド類似体、一本鎖(「センス」または「アンチセンス」、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)ポリヌクレオチド、および二本鎖ポリヌクレオチドから合成される、RNAまたはDNAの誘導体、変異体、および類似体も含みうる。「遺伝子」という用語は、ポリペプチド鎖の産生に関与するDNAのセグメントを意味し、コード領域に前置される領域およびコード領域に後続する領域(リーダーおよびトレーラー)であって、遺伝子産物の転写/翻訳、および転写/翻訳の調節に関与する領域、ならびに個々のコードセグメント(エクソン)の間の介在配列(イントロン)を含む。
デオキシリボヌクレオチドは、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、およびデオキシチミジンを含む。RNAでは、シトシン塩基を、ウラシルで置き換える。鋳型核酸は、被験体から鋳型として得られた核酸を使用して調製することができる。
核酸の単離および処理
核酸は、当技術分野で公知の方法により、1種またはそれより多くの種の供給源(例えば、細胞、血清、血漿、軟膜、リンパ液、皮膚、土壌など)から導出することができる。それらの非限定的な例が、DNA調製法(例えば、SambrookおよびRussell、「Molecular Cloning: A Laboratory Manual」、3版、2001年により記載されている)、多様な市販の試薬またはキットであって、Qiagen製のQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini KitまたはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、Germany)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)など、またはこれらの組合せなどの試薬またはキットを含む、任意の適切な方法を、生物学的試料から(例えば、血液または血液生成物から)DNAを単離、抽出、および/または精製するために使用することができる。
細胞溶解手順および細胞溶解試薬は、当技術分野で公知であり、一般に、化学的(例えば、洗浄剤、低張性溶液、酵素的手順など、またはこれらの組合せ)溶解法により実施することもでき、物理的(例えば、フレンチプレス、超音波処理など)溶解法により実施することもでき、電解による溶解法により実施することもできる。任意の適切な溶解手順を活用することができる。例えば、化学的方法では一般に、溶解剤を援用して、細胞を破壊し、核酸を細胞から抽出するのに続き、カオトロピック塩で処理する。また、凍結/融解に続く破砕、細胞プレスの使用などの物理的方法も有用である。また、高濃度の塩による溶解手順も一般に使用される。例えば、アルカリによる溶解手順を活用することができる。後者の手順では従来、フェノール−クロロホルム溶液の使用を組み込むが、3つの溶液を伴う、代替的なフェノール−クロロホルム非含有手順も活用することができる。後者の手順では、1つの溶液は、15mMのトリス、pH8.0を含有することが可能であり、10mMのEDTAおよび100μg/mlのRnaseA;第2の溶液は、0.2NのNaOH、および1%のSDSを含有することが可能であり、第3の溶液は、3MのKOAc、pH5.5を含有しうる。これらの手順は、その全体において本明細書に組み込まれる、「Current Protocols in Molecular Biology」、John Wiley & Sons、N.Y、6.3.1〜6.3.6節(1989年)において見出すことができる。
核酸は、別の核酸と比較して、異なる時点において単離することができ、この場合、試料の各々は、同じ供給源または異なる供給源に由来する。核酸は、例えば、cDNAライブラリーまたはRNAライブラリーなど、核酸ライブラリーに由来しうる。核酸は、試料からの核酸の精製もしくは単離および/または核酸分子の増幅の結果でありうる。本明細書で記載されるプロセスのために準備される核酸は、1つの試料または2つもしくはこれを超える試料に由来する(例えば、1つもしくはこれを超えるか、2つもしくはこれを超えるか、3つもしくはこれを超えるか、4つもしくはこれを超えるか、5つもしくはこれを超えるか、6つもしくはこれを超えるか、7つもしくはこれを超えるか、8つもしくはこれを超えるか、9つもしくはこれを超えるか、10もしくはこれを超えるか、11もしくはこれを超えるか、12もしくはこれを超えるか、13もしくはこれを超えるか、14もしくはこれを超えるか、15もしくはこれを超えるか、16もしくはこれを超えるか、17もしくはこれを超えるか、18もしくはこれを超えるか、19もしくはこれを超えるか、または20もしくはこれを超える試料に由来する)核酸を含有しうる。
ある特定の実施形態では、核酸は、細胞外核酸を含みうる。本明細書で使用される「細胞外核酸」という用語は、細胞を実質的に有さない供給源から単離された核酸を指す場合があり、また、「無細胞」核酸、「循環無細胞核酸」(例えば、CCF断片、ccf DNA)、および/または「無細胞循環核酸」とも称する。細胞外核酸は、血液中に存在することが可能であり、血液から(例えば、ヒトの血液から、例えば、妊婦の血液から)得ることができる。細胞外核酸は、検出可能な細胞を含まないことが多く、細胞成分または細胞の残存物を含有しうる。細胞外核酸のための無細胞供給源の非限定的な例は、血液、血漿、血清、および尿である。本明細書で使用される「無細胞循環試料核酸を得る」という用語は、試料を直接得ること(例えば、試料、例えば、被験試料を回収すること)、または試料を回収した別の者から試料を得ることを含む。理論に限定されることなく述べると、細胞外核酸は、細胞のアポトーシスおよび細胞の破壊の産物であって、あるスペクトルにわたる一連の長さ(例えば、「ラダー」)を有することが多い細胞外核酸のための基盤をもたらす産物でありうる。
細胞外核酸は、異なる核酸種を含むことが可能であり、このため、本明細書のある特定の実施形態では、「異種」と称する。例えば、がんを有する患者に由来する血清または血漿は、がん細胞に由来する核酸および非がん細胞に由来する核酸を含みうる。別の例では、妊婦に由来する血清または血漿は、母体核酸および胎児核酸を含みうる。一部の場合、胎児核酸は、場合によって、全核酸のうちの約5%〜約50%である(例えば、全核酸のうちの約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、または49%は、胎児核酸である)。一部の実施形態では、核酸中の胎児核酸の大半は、約500塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約500塩基対またはこれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸の大半は、約250塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約250塩基対またはこれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸の大半は、約200塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約200塩基対またはこれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸の大半は、約150塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約150塩基対またはこれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸の大半は、約100塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約100塩基対またはこれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸の大半は、約50塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約50塩基対またはこれ未満の長さである)。一部の実施形態では、核酸中の胎児核酸の大半は、約25塩基対またはこれ未満の長さである(例えば、胎児核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約25塩基対またはこれ未満の長さである)。
ある特定の実施形態では、核酸は、核酸を含有する試料の処理を伴わずに、本明細書で記載される方法を実行して準備することができる。一部の実施形態では、核酸は、核酸を含有する試料の処理の後で、本明細書で記載される方法を実行して準備される。例えば、核酸は、試料から、抽出、単離、精製、部分的に精製、または増幅することができる。本明細書で使用される「単離」という用語は、その元の環境から(例えば、自然発生の場合は、天然環境から、または、外因的に発現させる場合は、宿主細胞から)取り出された核酸を指し、したがって、ヒトの介入(例えば、「人為」)により、その元の環境から変化している。本明細書で使用される「単離核酸」という用語は、被験体(例えば、ヒト被験体)から取り出された核酸を指す場合がある。単離核酸は、供給源試料中に存在する成分の量より少ない非核酸成分(例えば、タンパク質、脂質)を伴って準備することができる。単離核酸を含む組成物は、約50%〜99%を超えて、非核酸成分非含有でありうる。単離核酸を含む組成物は、約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%を超えて、非核酸成分非含有でありうる。本明細書で使用される「精製」という用語は、核酸を精製手順にかける前に存在する非核酸成分の量より少ない非核酸成分(例えば、タンパク質、脂質、炭水化物)を含有するように準備される核酸を指す場合がある。精製核酸を含む組成物は、約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%を超えて、他の非核酸成分が非含有でありうる。本明細書で使用される「精製」という用語は、核酸が由来する試料供給源中より少ない核酸種を含有するように準備される核酸を指す場合がある。精製核酸を含む組成物は、約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%を超えて、他の核酸種が非含有でありうる。例えば、胎児核酸は、母体核酸と胎児核酸とを含む混合物から精製することができる。ある特定の例では、胎児核酸の小型断片(例えば、30〜500bpの断片)は、胎児核酸断片および母体核酸断片の両方を含む混合物から精製または部分精製することができる。ある特定の例では、胎児核酸の小型断片を含むヌクレオソームは、母体核酸の大型断片を含む大きなヌクレオソーム複合体の混合物から精製することができる。ある特定の例では、がん細胞核酸は、がん細胞核酸と非がん細胞核酸とを含む混合物から精製することができる。ある特定の例では、がん細胞核酸の小型断片を含むヌクレオソームは、非がん核酸の大型断片を含む大きなヌクレオソーム複合体の混合物から精製することができる。
一部の実施形態では、核酸を、本明細書で記載される方法の前に、本明細書で記載される方法において、またはこの後でせん断または切断する。せん断または切断された核酸の名目長、平均長、または平均値長は、約5〜約10,000塩基対、約100〜約1,000塩基対、約100〜約500塩基対または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、または9000塩基対でありうる。せん断または切断された核酸は、当技術分野で公知の適切な方法により作り出すことができ、結果として得られる核酸断片の平均長、平均値長、または名目長は、適切な断片作製法を選択することにより制御することができる。
一部の実施形態では、核酸を、それらの非限定的な例が、物理的方法(例えば、せん断法、例えば、超音波処理、フレンチプレス、加熱、UV照射など)、酵素的プロセス(例えば、酵素切断剤(例えば、適切なヌクレアーゼ、適切な制限酵素、適切なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸による加水分解、塩基による加水分解、加熱など、またはこれらの組合せ)、米国特許出願公開第20050112590号において記載されているプロセスなど、またはこれらの組合せを含む適切な方法により、せん断または切断する。
本明細書で使用される「せん断」または「切断(cleavage)」とは、核酸鋳型遺伝子分子またはその増幅産物などの核酸分子を、2つまたはこれを超える小さな核酸分子へと切断(severed)しうる手順または条件を指す。このようなせん断または切断は、配列特異的な場合もあり、塩基特異的な場合もあり、非特異的なな場合もあり、例えば、化学的せん断、酵素的せん断、物理的せん断(例えば、物理的断片化)を含む、様々な方法、試薬、または条件のうちのいずれかにより達成することができる。本明細書で使用される「切断産物」、「切断された産物」、またはこれらの文法的変化形は、核酸またはその増幅産物のせん断または切断から生じる核酸分子を指す。
本明細書で使用される「増幅」という用語は、試料中の標的核酸を、標的核酸またはそのセグメントと同じであるかまたは実質的に同じヌクレオチド配列を有する単位複製配列核酸を直線的または指数関数的に作り出すプロセスにかけることを指す。ある特定の実施形態では、「増幅」という用語は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。例えば、増幅産物は、核酸鋳型配列の、増幅されるヌクレオチド領域を超える、1または複数のヌクレオチドを含有しうる(例えば、プライマーは、核酸鋳型遺伝子分子と相補的なヌクレオチドに加えて、転写開始配列など、「さらなる」ヌクレオチドを含有することが可能であり、「さらなる」ヌクレオチド、または核酸鋳型遺伝子分子の、増幅されるヌクレオチド領域に対応しないヌクレオチドを含有する増幅産物を結果としてもたらしうる)。
本明細書で使用される「相補的切断反応」という用語は、同じ標的核酸もしくは基準核酸または標的タンパク質もしくは基準タンパク質の交互の切断パターンを生成するように、異なる切断試薬を使用して、または同じ切断試薬の切断特異性を変化させることにより、同じ核酸上で実行される切断反応を指す。ある特定の実施形態では、核酸は、1つまたはそれより多くの反応容器内で、1種またはそれより多くの種の特異的切断剤(例えば、1種、2種、3種、4種、5種、6種、7種、8種、9種、10種もしくはこれを超える特異的切断剤)により処理することができる(例えば、核酸は、個別の容器内で、各特異的切断剤により処理する)。本明細書で使用される「特異的切断剤」という用語は、薬剤、場合によって、1つまたはそれより多くの特異的部位で核酸を切断しうる化学物質または酵素を指す。
核酸はまた、本明細書で記載される方法のための核酸を準備する前に、核酸内のある特定のヌクレオチドを修飾するプロセスへと曝露することもできる。例えば、その中のヌクレオチドのメチル化状態に基づき、核酸を選択的に修飾するプロセスを、核酸へと適用することができる。加えて、高温、紫外線、x線などの条件により、核酸分子の配列の変化を誘導することもできる。核酸は、適切な配列分析を実行するのに有用な、任意の適切な形態で準備することができる。
核酸は、一本鎖の場合もあり、二本鎖の場合もある。例えば、一本鎖DNAは、例えば、加熱またはアルカリによる処置を介して、二本鎖DNAを変性させることにより作り出すことができる。ある特定の実施形態では、核酸は、二重鎖DNA分子に対する、オリゴヌクレオチドまたはペプチド核酸(PNA)などのDNA様分子による鎖侵入を介して形成されるDループ構造である。Dループの形成は、E.ColiのRecAタンパク質を添加することにより容易とすることもでき、かつ/または例えば、当技術分野で公知の方法を使用して、塩濃度を変化させることにより容易とすることもできる。
少数種と多数種との対比
細胞外(例えば、循環無細胞)核酸内には、少なくとも2つの異なる核酸種が、異なる量で存在することが可能であり、場合によって、少数種および多数種と称する。ある特定の場合には、少数核酸種は、罹患細胞型(例えば、がん細胞、消耗性細胞、免疫系により攻撃される細胞)に由来する。ある特定の実施形態では、染色体変化を、少数核酸種について決定する。ある特定の実施形態では、染色体変化を、多数核酸種について決定する。本明細書で使用される通り、「少数」または「多数」という用語は、いかなる点においてであれ、厳密に規定ことを意図するものではない。一態様では、「少数」と考えられる核酸の存在度は、例えば、試料中の全核酸のうちの少なくとも約0.1%〜試料中の全核酸のうちの50%未満でありうる。一部の実施形態では、少数核酸の存在度は、試料中の全核酸のうちの少なくとも約1%〜試料中の全核酸のうちの約40%でありうる。一部の実施形態では、少数核酸の存在度は、試料中の全核酸のうちの少なくとも約2%〜試料中の全核酸のうちの約30%でありうる。一部の実施形態では、少数核酸の存在度は、試料中の全核酸のうちの少なくとも約3%〜試料中の全核酸のうちの約25%でありうる。例えば、少数核酸の存在度は、試料中の全核酸のうちの約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、または30%でありうる。一部の場合、細胞外核酸のうちの少数種は、場合によって、全核酸のうちの約1%〜約40%である(例えば、核酸のうちの約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、または40%は、少数種の核酸である)。一部の実施形態では、少数核酸は、細胞外DNAである。一部の実施形態では、少数核酸は、アポトーシス組織に由来する細胞外DNAである。一部の実施形態では、少数核酸は、細胞増殖性障害に罹患した組織に由来する細胞外DNAである。一部の実施形態では、少数核酸は、腫瘍細胞に由来する細胞外DNAである。一部の実施形態では、少数核酸は、細胞外胎児DNAである。
別の態様では、「多数」と考えられる核酸の存在度は、例えば、試料中の全核酸のうちの50%超〜試料中の全核酸のうちの約99.9%でありうる。一部の実施形態では、多数核酸の存在度は、試料中の全核酸のうちの少なくとも約60%〜試料中の全核酸のうちの約99%でありうる。一部の実施形態では、多数核酸の存在度は、試料中の全核酸のうちの少なくとも約70%〜試料中の全核酸のうちの約98%でありうる。一部の実施形態では、多数核酸の存在度は、試料中の全核酸のうちの少なくとも約75%〜試料中の全核酸のうちの約97%でありうる。例えば、多数核酸の存在度は、試料中の全核酸のうちの少なくとも約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%でありうる。一部の実施形態では、多数核酸は、細胞外DNAである。一部の実施形態では、多数核酸は、細胞外母体DNAである。一部の実施形態では、多数核酸は、健常組織に由来するDNAである。一部の実施形態では、多数核酸は、非腫瘍細胞に由来するDNAである。
一部の実施形態では、細胞外核酸のうちの少数種は、約500塩基対またはこれ未満の長さである(例えば、少数種の核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約500塩基対またはこれ未満の長さである)。一部の実施形態では、細胞外核酸のうちの少数種は、約300塩基対またはこれ未満の長さである(例えば、少数種の核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約300塩基対またはこれ未満の長さである)。一部の実施形態では、細胞外核酸のうちの少数種は、約200塩基対またはこれ未満の長さである(例えば、少数種の核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約200塩基対またはこれ未満の長さである)。一部の実施形態では、細胞外核酸のうちの少数種は、約150塩基対またはこれ未満の長さである(例えば、少数種の核酸のうちの約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約150塩基対またはこれ未満の長さである)。
細胞型
本明細書で使用される「細胞型」とは、別の細胞の種類と識別されうる細胞の種類を指す。細胞外核酸は、複数の異なる細胞型に由来する核酸を含みうる。循環無細胞核酸に核酸を寄与しうる細胞型の非限定的な例は、肝臓細胞(例えば、肝細胞)、肺細胞、脾臓細胞、膵細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部細胞、頸部細胞、卵巣細胞、精巣細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓/腎細胞、心細胞、筋細胞、血液細胞(例えば、白血球)、中枢神経系(CNS)細胞など、および前出の組合せを含む。一部の実施形態では、分析される循環無細胞核酸に核酸を寄与する細胞型は、白血球、内皮細胞、および肝細胞、肝臓細胞を含む。異なる細胞型は、本明細書でさらに詳細に記載される通り、それについてのマーカー状態が、医学的状態を有する被験体における細胞型と、医学的状態を有さない被験体における細胞型とで、同じであるか、または実質的に同じである核酸遺伝子座を同定および選択することの一部としてスクリーニングすることができる。
特定の細胞型は、場合によって、医学的状態を有する被験体における細胞型と、医学的状態を有さない被験体における細胞型とで、同じであるか、または実質的に同じままである。非限定的な例では、特定の細胞型の生存または生細胞の数は、細胞変性状態において低減される場合もあるが、生存している生細胞は、医学的状態を有する被験体においても、改変されないか、または著明には改変されない。
特定の細胞型は、場合によって、医学的状態の一部として改変され、その元の状態とは異なる、1種またはそれより多くの種の特性を有する。非限定的な例では、特定の細胞型は、正常な速度より大きな速度で増殖する可能性があり、異なる形状を有する細胞へとを変換する可能性があり、1種またはそれより多くの種の異なる細胞表面マーカーを発現させる細胞へとを変換する可能性があり、かつ/またはがん状態の一部としての腫瘍の一部となりうる。特定の細胞型(すなわち、前駆細胞)が、医学的状態の一部として改変される実施形態では、マーカー状態は、アッセイされる1種またはそれより多くの種のマーカーの各々について、医学的状態を有する被験体における特定の細胞型と、医学的状態を有さない被験体における特定の細胞型とで、同じであるか、または実質的に同じであることが多い。したがって、「細胞型」という用語は、場合によって、医学的状態を有さない被験体における細胞の種類と、医学的状態を有する被験体における細胞の改変バージョンとに関する。一部の実施形態では、「細胞型」とは、前駆細胞だけであり、前駆細胞から生じる改変バージョンではない。「細胞型」は、場合によって、前駆細胞と、前駆細胞から生じる改変細胞とに関する。このような実施形態では、分析されるマーカーについてのマーカー状態は、医学的状態を有する被験体における細胞型と、医学的状態を有さない被験体における細胞型とで、同じであるか、または実質的に同じであることが多い。
ある特定の実施形態では、細胞型は、がん細胞である。ある特定のがん細胞型は、例えば、白血病細胞(例えば、急性骨髄性白血病、急性リンパ芽球性白血病、慢性骨髄性白血病、慢性リンパ芽球性白血病);がん性腎臓/腎細胞(例えば、腎細胞がん(明細胞型腎細胞がん、乳頭1型腎細胞がん、乳頭2型腎細胞がん、嫌色素型腎細胞がん、オンコサイトーマ、集合管がん)、腎腺がん、副腎腫、ウィルムス腫瘍、移行上皮癌);脳腫瘍細胞(例えば、聴神経腫瘍、星状細胞腫(悪性度I:毛様細胞性星状細胞腫、悪性度II:低悪性度星状細胞腫、悪性度III:退形成性星状細胞腫、悪性度IV:神経膠芽腫(GBM))、脊索種、cnsリンパ腫、頭蓋咽頭腫、神経膠腫(脳幹神経膠腫、上衣腫、混合型神経膠腫、視神経膠腫、上衣下腫)、髄芽腫、髄膜腫、転移性脳腫瘍、希突起神経膠腫、下垂体腫瘍、未分化神経外胚葉性腫瘍(PNET)、シュワン細胞腫、若年性毛様細胞性星状細胞腫(JPA)、松果体腫瘍、ラブドイド腫瘍)を含む。
異なる細胞型は、限定せずに述べると、1種またはそれより多くの種の異なる細胞表面マーカー、1種またはそれより多くの種の異なる形状特徴、1種またはそれより多くの種の異なる機能、1種またはそれより多くの種のタンパク質(例えば、ヒストン)修飾、および1種またはそれより多くの種の異なる核酸マーカーを含む、任意の適切な特徴により識別することができる。核酸マーカーの非限定的な例は、一塩基多型(SNP)、核酸遺伝子座のメチル化状態、短いタンデムリピート、挿入(例えば、マイクロインサート)、欠失(マイクロ欠失)など、およびこれらの組合せを含む。タンパク質(例えば、ヒストン)修飾の非限定的な例は、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化(sumoylation)など、およびこれらの組合せを含む。
本明細書で使用される「類縁の細胞型」という用語は、複数の特徴を別の細胞型と共有する細胞型を指す。類縁の細胞型では、場合によって、75%、またはこれを超える細胞表面マーカーが、細胞型同士で共通する(例えば、細胞表面マーカーのうちの約80%、85%、90%、または95%またはこれ超が、類縁の細胞型と共通する)。
核酸の亜集団の濃縮および分離
一部の実施形態では、核酸(例えば、細胞外核酸)を、亜集団または核酸種について、濃縮するか、またはある程度濃縮する。核酸の亜集団は、例えば、胎児核酸、母体核酸、特定の長さもしくは長さの範囲の断片を含む核酸、または特定のゲノム領域(例えば、単一の染色体、染色体のセット、および/またはある特定の染色体領域)に由来する核酸を含みうる。このような濃縮試料は、本明細書で提供される方法と共に使用することができる。本明細書の方法は、場合によって、母体血液中で見出される胎児DNAを分離するステップと、これを濃縮するステップと、これを分析するステップとを、母体および/または胎児における染色体変化の存在または非存在を検出する非侵襲的手段として含む。したがって、ある特定の実施形態では、本技術の方法は、例えば、胎児核酸など、試料中の核酸亜集団について、さらに濃縮するステップを含む。ある特定の実施形態では、本明細書で記載される、胎児画分を決定するための方法はまた、胎児核酸について濃縮するのにも使用することができる。ある特定の実施形態では、母体核酸を、試料から選択的に(部分的に、実質的に、ほぼ完全に、または完全に)除去する。ある特定の実施形態では、特定の低コピー数種の核酸(例えば、胎児核酸)について濃縮することにより、定量感度を改善することができる。試料を、特定の核酸種について濃縮するための方法については、例えば、それらの全てが参照により本明細書に組み込まれる、米国特許第6,927,028号、国際特許出願公開第WO2007/140417号、国際特許出願公開第WO2007/147063号、国際特許出願公開第WO2009/032779号、国際特許出願公開第WO2009/032781号、国際特許出願公開第WO2010/033639号、国際特許出願公開第WO2011/034631号、国際特許出願公開第WO2006/056480号、および国際特許出願公開第WO2011/143659号において記載されている。
ある特定の実施形態では、核酸断片のサブセットは、シーケンシングの前に選択する。ある特定の実施形態では、ハイブリダイゼーションベースの技法(例えば、オリゴヌクレオチドアレイを使用する)を使用して、ある特定の染色体(例えば、性染色体および/または染色体変化を含むことが疑われる染色体)に由来する核酸配列についてまず選択することができる。一部の実施形態では、核酸は、サイズにより(例えば、ゲル電気泳動、サイズ除外クロマトグラフィー、またはマイクロ流体ベースの手法により)分画することができ、ある特定の場合、胎児核酸は、低分子量(例えば、300塩基対未満、200塩基対未満、150塩基対未満、100塩基対未満)の核酸について選択することにより濃縮することができる。一部の実施形態では、胎児核酸は、ホルムアルデヒドの添加などを介して、母体バックグラウンド核酸を抑制することにより濃縮することができる。一部の実施形態では、あらかじめ選択された核酸断片のセットの部分またはサブセットを、ランダムにシーケンシングする。一部の実施形態では、核酸は、シーケンシングの前に増幅する。一部の実施形態では、核酸の部分またはサブセットは、シーケンシングの前に増幅する。
核酸ライブラリー
一部の実施形態では、核酸ライブラリーは、それらの非限定的な例が、固相(例えば、固体支持体、例えば、フローセル、ビーズ)上の固定化、濃縮、増幅、クローニング、検出、かつ/または核酸シーケンシングを含む、特異的なプロセスのために、調製され、アセンブルされ、かつ/または改変された複数のポリヌクレオチド分子(例えば、核酸の試料)である。ある特定の実施形態では、核酸ライブラリーを、シーケンシングプロセスの前に、またはシーケンシングプロセスにおいて調製する。核酸ライブラリー(例えば、シーケンシングライブラリー)は、当技術分野で公知の適切な方法により調製することができる。核酸ライブラリーは、ターゲティング調製プロセスにより調製することもでき、非ターゲティング調製プロセスにより調製することもできる。
一部の実施形態では、核酸ライブラリーを、核酸を固体支持体へと固定化するために構成された化学的部分(例えば、官能基)を含むように修飾する。一部の実施形態では、核酸ライブラリーを、ライブラリーを固体支持体へと固定化するために構成された生体分子(例えば、官能基)および/または結合対のメンバーであって、それらの非限定的な例が、サイロキシン(thyroxin)結合性グロブリン、ステロイド結合性タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、抑制因子、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合性タンパク質、受容体、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補性核酸配列など、およびこれらの組合せを含む、生体分子および/または結合対のメンバーを含むように修飾する。特異的結合対の一部の例は、限定せずに述べると、アビジン部分およびビオチン部分;抗原性エピトープおよび抗体またはその免疫反応性断片;抗体およびハプテン;ジゴキシゲニン部分および抗ジゴキシゲニン抗体;フルオレセイン部分および抗フルオレセイン抗体;作動因子および抑制因子;ヌクレアーゼおよびヌクレオチド;レクチンおよび多糖;ステロイドおよびステロイド結合性タンパク質;活性化合物および活性化合物受容体;ホルモンおよびホルモン受容体;酵素および基質;免疫グロブリンおよびプロテインA;オリゴヌクレオチドまたはポリヌクレオチドおよびその対応する相補体など、またはこれらの組合せを含む。
一部の実施形態では、核酸ライブラリーは、それらの非限定的な例が、識別子(例えば、タグ、指示タグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製起点、ステムループ、相補配列(例えば、プライマー結合性部位、アニール部位)、適切な組込み部位(例えば、トランスポゾン、ウイルス性組込み部位)、修飾ヌクレオチドなど、またはこれらの組合せを含む、組成が公知の1種またはそれより多くの種のポリヌクレオチドを含むように修飾する。配列が公知のポリヌクレオチドは、適切な位置に、例えば、5’末端上、3’末端上、または核酸配列内に付加することができる。配列が公知のポリヌクレオチドは、同じ配列の場合もあり、異なる配列の場合もある。一部の実施形態では、配列が公知のポリヌクレオチドは、表面(例えば、フローセル内の表面)上に固定化された1種またはそれより多くの種のオリゴヌクレオチドとハイブリダイズするように構成する。例えば、公知の5’配列を含む核酸分子を、第1の複数のオリゴヌクレオチドとハイブリダイズさせうるのに対し、公知の3’配列は、第2の複数のオリゴヌクレオチドとハイブリダイズさせることができる。一部の実施形態では、核酸ライブラリーは、染色体特異的タグ、捕捉配列、標識、および/またはアダプターを含みうる。一部の実施形態では、核酸ライブラリーは、1種またはそれより多くの種の検出用標識を含む。一部の実施形態では、1種またはそれより多くの種の検出用標識は、核酸ライブラリーへと、5’末端において、3’末端において、かつ/またはライブラリー内の核酸内の任意のヌクレオチド位置において組み込むことができる。一部の実施形態では、核酸ライブラリーは、ハイブリダイズさせたオリゴヌクレオチドを含む。ある特定の実施形態では、ハイブリダイズさせたオリゴヌクレオチドは、標識されたプローブである。一部の実施形態では、核酸ライブラリーは、固相上の固定化の前にハイブリダイズさせたオリゴヌクレオチドプローブを含む。
一部の実施形態では、配列が公知のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列とは、2つもしくはこれを超える核酸分子、または核酸分子の2つもしくはこれを超えるサブセットへと組み込まれた特異的な核酸配列であり、この場合、ユニバーサル配列は、それが組み込まれる全ての分子または分子のサブセットについて同じである。ユニバーサル配列は、ユニバーサル配列と相補的な単一のユニバーサルプライマーを使用して、複数の異なる配列とハイブリダイズし、かつ/またはこれらを増幅するようにデザインされることが多い。一部の実施形態では、2つ(例えば、対)またはこれを超えるユニバーサル配列および/またはユニバーサルプライマーを使用する。ユニバーサルプライマーは、ユニバーサル配列を含むことが多い。一部の実施形態では、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。一部の実施形態では、1種またはそれより多くの種のユニバーサル配列を使用して、核酸の複数の種またはサブセットを捕捉、同定、および/または検出する。
核酸ライブラリーを調製する(例えば、合成手順を介するある特定のシーケンシングにおいて)、ある特定の実施形態では、核酸は、数百塩基対またはこれ未満の長さへと選択および/または断片化されたサイズ(例えば、ライブラリーを作り出すための調製において)である。一部の実施形態では、ライブラリーの調製は、断片化を伴わずに(例えば、ccfDNAを使用する場合)実施する。
ある特定の実施形態では、ライゲーションベースのライブラリー調製法を使用する。ライゲーションベースのライブラリー調製法およびキットの非限定的な例は、TRUSEQまたはScriptMiner、Illumina、San Diego CA;KAPAライブラリー調製キット、KAPA Biosystems,Inc.、Woburn、MA;NEBNext、New England Biolabs、Ipswich、MA;MuSeek、Thermo Fisher Scientific、Waltham、MA;NxSeq(登録商標)DNA Sample Prep Kits、Lucigen Corp.、Middleton、WI;PureGenome、EMD Millipore、Billerica、MAなど)を含む。ライゲーションベースのライブラリー調製法では、初期のライゲーションステップにおいてインデックス配列を組み込むことが可能であり、シングルリードシーケンシング、ペアドエンドシーケンシング、およびマルチプレックス化シーケンシングのための試料を調製するのにしばしば使用しうる、アダプターデザインを使用することが多い。例えば、場合によって、核酸(例えば、断片化核酸またはccfDNA)は、充填反応、エクソヌクレアーゼ反応、またはこれらの組合せにより末端修復する。一部の実施形態では、結果として得られる、平滑末端修復核酸を、次いで、アダプター/プライマーの3’末端上の単一ヌクレオチド突出と相補的な単一ヌクレオチドにより伸長させる。任意のヌクレオチドを、伸長/突出ヌクレオチドに使用することができる。一部の実施形態では、核酸ライブラリーの調製は、アダプターオリゴヌクレオチドをライゲーションすることを含む。アダプターオリゴヌクレオチドは、フローセルアンカーと相補的であることが多く、場合によって、核酸ライブラリーを、例えば、フローセルの内部表面などの固体支持体へと固定化するのに活用される。一部の実施形態では、アダプターオリゴヌクレオチドは、識別子、1つまたはそれより多くのシーケンシングプライマーのハイブリダイゼーション部位(例えば、ユニバーサルシーケンシングプライマー、シングルエンドシーケンシングプライマー、ペアドエンドシーケンシングプライマー、マルチプレックス化シーケンシングプライマーなどと相補的な配列)、またはこれらの組合せ(例えば、アダプター/シーケンシング、アダプター/識別子、アダプター/識別子/シーケンシング)を含む。
識別子は、識別子を含む核酸の検出および/または同定を可能とする核酸(例えば、ポリヌクレオチド)へと組み込まれるか、または接合させた、適切な検出用標識でありうる。一部の実施形態では、識別子は、シーケンシング法(例えば、ポリメラーゼを介する)において、核酸へと組み込むか、または接合させる。識別子の非限定的な例は、核酸タグ、核酸インデックス、またはバーコード、放射性標識(例えば、同位元素)、金属標識、蛍光標識、化学発光標識、リン光標識、フルオロフォア消光剤、色素、タンパク質(例えば、酵素、抗体またはその一部、リンカー、結合対のメンバー)など、またはこれらの組合せを含む。一部の実施形態では、識別子(例えば、核酸インデックスまたはバーコード)は、ヌクレオチドまたはヌクレオチド類似体のユニーク配列、公知の配列、および/または識別可能な配列である。一部の実施形態では、識別子は、6つまたはこれを超える連続ヌクレオチドである。多数のフルオロフォアが、様々な異なる励起スペクトルおよび発光スペクトルで利用可能である。任意の適切な種類および/または数のフルオロフォアを、識別子として使用することができる。一部の実施形態では、1つもしくはこれを超えるか、2つもしくはこれを超えるか、3つもしくはこれを超えるか、4つもしくはこれを超えるか、5つもしくはこれを超えるか、6つもしくはこれを超えるか、7つもしくはこれを超えるか、8つもしくはこれを超えるか、9つもしくはこれを超えるか、10もしくはこれを超えるか、20もしくはこれを超えるか、30もしくはこれを超えるか、または50もしくはこれを超える異なる識別子を、本明細書で記載される方法(例えば、核酸検出法および/または核酸シーケンシング法)において活用する。一部の実施形態では、1種類または2種類の識別子(例えば、蛍光標識)を、ライブラリー内の各核酸へと連結する。識別子の検出および/または定量化は、それらの非限定的な例が、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、照度計、蛍光光度計、分光光度計、適切な遺伝子チップ分析またはマイクロアレイ分析、ウェスタンブロット、質量分析、クロマトグラフィー、細胞蛍光分析、蛍光顕微鏡法、適切な蛍光イメージング法またはディジタルイメージング法、共焦点レーザー走査顕微鏡法、レーザー走査サイトメトリー、アフィニティークロマトグラフィー、手動一括方式の分離、電界懸濁法、適切な核酸シーケンシング法および/または核酸シーケンシング装置(例えば、シーケンシングマシン、例えば、シークエンサー)など、およびこれらの組合せを含む、適切な方法、装置、またはマシンにより実施することができる。
一部の実施形態では、トランスポゾンベースのライブラリー調製法(例えば、EPICENTRE NEXTERA、Epicentre、Madison WI)を使用する。トランスポゾンベースの方法では、単一試験管反応(プラットフォーム特異的タグおよび任意選択のバーコードの組込みを可能とすることが多い)における、断片DNAおよびタグDNAへの、in vitroにおける同時の転位を使用し、シークエンサー用のライブラリーを調製することが典型的である。
一部の実施形態では、核酸ライブラリーまたはその一部を増幅する(例えば、PCRベースの方法により増幅する)。一部の実施形態では、シーケンシング法は、核酸ライブラリーの増幅を含む。核酸ライブラリーは、固体支持体(例えば、フローセル内の固体支持体)上の固定化の前に、またはこの後で増幅することができる。核酸の増幅は、鋳型および/またはその相補体の1つまたはそれより多くのコピーをもたらすことにより、存在する核酸鋳型および/またはその相補体(例えば、核酸ライブラリー内に)の数を増幅するかまたは増大させるプロセスを含む。増幅は、適切な方法により実行することができる。核酸ライブラリーは、サーモサイクリング法により増幅することもでき、等温増幅法により増幅することもできる。一部の実施形態では、ローリングサークル増幅法を使用する。一部の実施形態では、増幅は、核酸ライブラリーまたはその部分を固定化した固体支持体上で(例えば、フローセル内で)行う。ある特定のシーケンシング法では、核酸ライブラリーを、フローセルへと添加し、適切な条件下で、ハイブリダイゼーションにより、アンカーへと固定化する。この種類の核酸の増幅は、固相増幅と称することが多い。固相増幅の一部の実施形態では、増幅産物の全部または一部を、固定化されたプライマーから始まる伸長により合成する。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)のうちの少なくとも1つを固体支持体上に固定化することを除き、標準的な液相増幅と類似する。
一部の実施形態では、固相増幅は、表面へと固定化されたただ1つのオリゴヌクレオチドプライマーの種を含む核酸増幅反応を含む。ある特定の実施形態では、固相増幅は、複数の異なる、固定化されたオリゴヌクレオチドプライマー種を含む。一部の実施形態では、固相増幅は、固体表面上に固定化された1つのオリゴヌクレオチドプライマー種と、溶液中の第2の異なるオリゴヌクレオチドプライマー種とを含む核酸増幅反応を含みうる。複数の異なる種の固定化されたプライマーまたは溶液ベースのプライマーを使用することができる。固相核酸増幅反応の非限定的な例は、界面増幅、架橋増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許公開第US20130012399号)など、またはこれらの組合せを含む。
シーケンシング
一部の実施形態では、核酸(例えば、核酸断片、試料核酸、無細胞核酸)をシーケンシングすることができる。一部の実施形態では、全長配列または実質的な全長配列を得、場合によっては、部分配列を得る。シーケンシング、マッピング、および類縁の分析法については、本明細書で記載され、当技術分野でも公知である(例えば、参照により組み込まれる、米国特許出願公開第US2009/0029377号)。このようなプロセスのある特定の態様については、本明細書の下記で記載される。
核酸をシーケンシングする任意の適切な方法であって、それらの非限定的な例が、マキシム−ギルバート法、鎖終結法、合成によるシーケンシング、ライゲーションによるシーケンシング、質量分析によるシーケンシング、顕微鏡法ベースの技法など、またはこれらの組合せを含む方法を使用することができる。一部の実施形態では、例えば、マイクロ流体サンガーシーケンシングを含む、自動式サンガーシーケンシング法を含む、サンガーシーケンシング法など、第1世代の技術を、本明細書で提供される方法において使用することができる。一部の実施形態では、核酸イメージング技術(例えば、透過電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含む、シーケンシング技術を使用することができる。一部の実施形態では、ハイスループットシーケンシング法を使用する。ハイスループットシーケンシング法は一般に、クローン増幅されたDNA鋳型または単一のDNA分子を伴い、これらを、場合によって、フローセル内で、超並列式でシーケンシングする。本明細書で記載される方法では、DNAを超並列式でシーケンシングすることが可能な、次世代(例えば、第2世代および第3世代)シーケンシング法を使用することができ、本明細書ではまとめて、「超並列シーケンシング」(MPS)と称する。一部の実施形態では、MPSシーケンシング法で、配列リードを、目的の、特異的な染色体、遺伝子、または領域から作り出すターゲティング法を活用する。本明細書では、場合によって、目的の、特異的な染色体、遺伝子、または領域を、ターゲティングされるゲノム領域と称する。ある特定の実施形態では、試料中の大半の核酸断片または全ての核酸断片(例えば、ccf断片、ccf DNA、ポリヌクレオチド)を、ランダムにシーケンシング、増幅、および/または捕捉する、非ターゲティング法を使用する。
MPSシーケンシングでは、場合によって、合成によるシーケンシングおよびある特定のイメージングプロセスを使用する。本明細書で記載される方法で使用しうる核酸シーケンシング技術は、合成によるシーケンシングおよび可逆的ターミネーターベースのシーケンシング(例えば、Illumina製のGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ 2500(Illumina、San Diego CA))である。この技術では、数百万の核酸(例えば、DNA)断片を、並列的にシーケンシングすることができる。この種類のシーケンシング技術の1つの例では、その表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)を結合させた、8つの個別のレーンを伴う光学的に透明なスライドを含有するフローセルを使用する。
一部の実施形態では、合成によるシーケンシングは、ヌクレオチドを、プライマーまたは既存の核酸鎖へと、鋳型指向的に反復的に付加すること(例えば、共有結合的付加により)を含む。ヌクレオチドの各反復的付加を検出し、プロセスを、核酸鎖の配列を得るまで、複数回にわたり繰り返す。得られる配列の長さは部分的に、実施される付加ステップおよび検出ステップの回数に依存する。合成によるシーケンシングについての一部の実施形態では、1つ、2つ、3つ、またはこれを超えるか、同じ種類のヌクレオチド(例えば、A、G、C、またはT)を、1ラウンドのヌクレオチド付加で、付加および検出する。ヌクレオチドは、任意の適切な方法により(例えば、酵素的に、または化学的に)付加することができる。例えば、一部の実施形態では、ポリメラーゼまたはリガーゼにより、ヌクレオチドを、プライマーまたは既存の核酸鎖へと、鋳型指向的に付加する。合成によるシーケンシングについての一部の実施形態では、異なる種類のヌクレオチド、ヌクレオチド類似体、および/または識別子を使用する。一部の実施形態では、可逆的ターミネーターおよび/または除去可能な(例えば、切断型)識別子を使用する。一部の実施形態では、蛍光標識されたヌクレオチドおよび/またはヌクレオチド類似体を使用する。ある特定の実施形態では、合成によるシーケンシングは、切断(例えば、識別子の切断および除去)ステップおよび/または洗浄ステップを含む。一部の実施形態では、1または複数のヌクレオチドの付加を、本明細書で記載されるか、または当技術分野で公知の適切な方法であって、それらの非限定的な例が、任意の適切なイメージング装置、またはイメージングマシン、適切なカメラ、ディジタルカメラ、CCD(電荷結合素子)ベースのイメージング装置(例えば、CCDカメラ)、CMOS(相補型金属酸化物シリコン)ベースのイメージング装置(例えば、CMOSカメラ)、光ダイオード(例えば、光電子倍増管)、電子顕微鏡法、電界効果トランジスター(例えば、DNA電界効果トランジスター)、ISFETイオンセンサー(例えば、CHEMFETセンサー)など、またはこれらの組合せを含む方法により検出する。本明細書の方法を実行するのに使用しうる、他のシーケンシング法は、ディジタルPCRおよびハイブリダイゼーションによるシーケンシングを含む。
本明細書で記載される方法を実行するのに適するMPS法、MPSシステム、またはMPS技術プラットフォームを使用して、核酸シーケンシングリードを得ることができる。MPSプラットフォームの非限定的な例は、Illumina/Solex/HiSeq(例えば、Illumina製のGenome Analyzer;Genome Analyzer II;HISEQ 2000;HISEQ)、SOLiD、Roche/454、PACBIO、および/またはSMRT、Helicos True Single Molecule Sequencing、Ion TorrentおよびIon semiconductorベースのシーケンシング(例えば、Life Technologiesにより開発されている)、WildFire、5500、5500xl W、および/または5500xl W Genetic Analyzerベースの技術(例えば、Life Technologiesにより開発および販売されている;米国特許公開第US20130012399号);ポロニーシーケンシング、ピロシーケンシング、超並列シグネチャーシーケンシング(MPSS)、RNAポリメラーゼ(RNAP)シーケンシング、LaserGenシステムおよびLaserGen法、ナノポアベースのプラットフォーム、化学物質感受性電界効果トランジスター(CHEMFET)アレイ、電子顕微鏡法ベースのシーケンシング(例えば、ZS Genetics、Halcyon Molecularにより開発された)、ナノボールシーケンシングなどを含む。
本明細書の方法を実行するのに使用しうる、他のシーケンシング法は、ディジタルPCRおよびハイブリダイゼーションによるシーケンシングを含む。ディジタルポリメラーゼ連鎖反応(ディジタルPCRまたはdPCR)を使用して、試料中の核酸を直接同定および定量化することができる。一部の実施形態では、ディジタルPCRは、エマルジョン中で実施することができる。例えば、個々の核酸を、例えば、マイクロ流体チャンバーデバイス内で分離し、各核酸を、PCRにより個別に増幅する。核酸は、ウェル1つ当たり1つを超える核酸が存在しないように分離することができる。一部の実施形態では、異なるプローブを使用して、多様な対立遺伝子(例えば、胎児対立遺伝子および母体対立遺伝子)を識別することができる。対立遺伝子を数え上げて、コピー数を決定することができる。
ある特定の実施形態では、ハイブリダイゼーションによるシーケンシングを使用することができる。方法は、複数のポリヌクレオチド配列を、複数のポリヌクレオチドプローブと接触させるステップを伴い、この場合、複数のポリヌクレオチドプローブの各々を、任意選択で、基質へとテザリングすることができる。一部の実施形態では、基質は、公知のヌクレオチド配列のアレイを伴う平面でありうる。アレイへのハイブリダイゼーションのパターンを使用して、試料中に存在するポリヌクレオチド配列を決定することができる。一部の実施形態では、各プローブを、ビーズ、例えば、磁気ビーズなどへとテザリングする。ビーズへのハイブリダイゼーションは、同定することができ、試料中の複数のポリヌクレオチド配列を同定するのに使用することができる。
一部の実施形態では、ナノポアシーケンシングを、本明細書で記載される方法において使用することができる。ナノポアシーケンシングとは、単一の核酸分子(例えば、DNA)を、ナノポアを通過するときに直接シーケンシングする、一分子シーケンシング技術である。
一部の実施形態では、染色体特異的シーケンシングを実施する。一部の実施形態では、染色体特異的シーケンシングは、DANSR(選択領域のディジタル分析)を活用して実施する。選択された領域についてのディジタル分析は、2つの遺伝子座特異的オリゴヌクレオチドの、介在する「架橋」オリゴヌクレオチドを介する、cfDNA依存性鎖状連結であって、PCR鋳型を形成する鎖状連結により、数百の遺伝子座の同時的な定量化を可能とする。一部の実施形態では、染色体特異的シーケンシングは、染色体特異的配列に富むライブラリーを作り出すことにより実施する。一部の実施形態では、配列リードを、選択された染色体のセットだけについて得る。一部の実施形態では、配列リードを、第21染色体、第18染色体、および第13染色体だけについて得る。
一部の実施形態では、配列モジュールにより、配列リードを得、生成し、集め、アセンブルし、操作し、変換し、処理し、変換し、かつ/または移す。配列モジュールにより、当技術分野で公知のシーケンシング技術を活用して、核酸の配列を決定することができる。一部の実施形態では、配列モジュールにより、配列リードをアラインさせ、アセンブルし、断片化し、相補体を作製し、逆相補体を作製し、エラーを点検し、エラーを補正することもできる。一部の実施形態では、配列モジュールにより、配列リードを、マッピングモジュールまたは他の任意の適切なモジュールへと提供する。
シーケンシングリード
本明細書で使用される「リード」(すなわち、「リード」、「配列リード」)は、本明細書で記載されるか、または当技術分野で公知の、任意のシーケンシングプロセスにより生成される短いヌクレオチド配列である。リードは、ポリヌクレオチド断片の一方の末端から生成することができ(「シングルエンドリード」)、場合によって、ポリヌクレオチド断片の両方の末端から生成することもできる(例えば、ペアドエンドリード、ダブルエンドリード)。
配列リードの長さは、特定のシーケンシング技術と関連することが多い。ハイスループット法は、例えば、サイズが数十〜数百塩基対(bp)で変化しうる配列リードをもたらす。ナノポアシーケンシングは、例えば、サイズが数十〜数百〜数千塩基対で変化しうる配列リードをもたらしうる。一部の実施形態では、配列リードの平均値長、中央値長、平均長、または絶対長は、約15bp〜約900bpの長さである。ある特定の実施形態では、配列リードの平均値長、中央値長、平均長、または絶対長は、約1000bpまたはこれを超える。
シングルエンドリードは、任意の適切な長さでありうる。一部の実施形態では、シングルエンドリードの名目長、平均長、平均値長、または絶対長は、場合によって、約10ヌクレオチド〜約1000連続ヌクレオチド、約10ヌクレオチド〜約500連続ヌクレオチド、約10ヌクレオチド〜約250連続ヌクレオチド、約10ヌクレオチド〜約200連続ヌクレオチド、約10ヌクレオチド〜約150連続ヌクレオチド、約15連続ヌクレオチド〜約100連続ヌクレオチド、約20連続ヌクレオチド〜約75連続ヌクレオチド、または約30連続ヌクレオチドまたは約50連続ヌクレオチドである。ある特定の実施形態では、シングルエンドリードの名目長、平均長、平均値長、または絶対長は、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチドであるか、またはこれを超える長さである。
ペアドエンドリードは、任意の適切な長さでありうる。ある特定の実施形態では、両方の末端を、各リード(例えば、断片鋳型の両方の末端のリード)を、基準ゲノムに対してマッピングするのに十分な、適切なリード長でシーケンシングする。ある特定の実施形態では、ペアドエンドリードの名目長、平均長、平均値長、または絶対長は、約10連続ヌクレオチド〜約100連続ヌクレオチド、約10連続ヌクレオチド〜約75連続ヌクレオチド、約10連続ヌクレオチド〜約50連続ヌクレオチド、約15連続ヌクレオチド〜約50連続ヌクレオチド、約15連続ヌクレオチド〜約40連続ヌクレオチド、約15連続ヌクレオチド〜約30連続ヌクレオチド、または約15連続ヌクレオチド〜約20連続ヌクレオチドである。ある特定の実施形態では、ペアドエンドリードの名目長、平均長、平均値長、または絶対長は、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80ヌクレオチドであるか、またはこれを超える。
リードは一般に、物理的核酸内のヌクレオチド配列についての表示である。例えば、配列についてATGCの記号表示を含有するリード内で、「A」は、物理的核酸内のアデニンヌクレオチドを表示し、「T」は、チミンヌクレオチドを表示し、「G」は、グアニンヌクレオチドを表示し、「C」は、シトシンヌクレオチドを表示する。配列リードは、胎児を宿す妊婦に由来する核酸試料から得ることが多い。胎児を宿す妊婦に由来する核酸試料から得られる配列リードは、胎児および/または胎児の母体(例えば、妊婦被験体)を表示する配列リードであることが多い。
妊婦の血液から得られる配列リードは、胎児核酸と母体核酸との混合物に由来するリードでありうる。比較的短いリードの混合物は、本明細書で記載されるプロセスにより、妊婦および/または胎児において存在するゲノム核酸についての表示へと変換することができる。比較的短いリードの混合物は、例えば、染色体変化についての表示へと変換することができる。母体核酸および胎児核酸の混合物のリードは、母体染色体および胎児染色体のうちの一方または両方の特徴を含む、複合染色体またはそのセグメントについての表示へと変換することができる。ある特定の実施形態では、被験体に由来する試料についての核酸配列リード「を得ること」、および/または1もしくは複数の基準患者に由来する生物学的検体についての核酸配列リード「を得ること」は、核酸を直接シーケンシングして、配列情報を得ることを伴いうる。一部の実施形態では、「〜を得ること」は、別の分析者により核酸から直接得られた配列情報を受信することを伴いうる。
妊婦から得られる循環無細胞核酸断片(CCF断片)は一般に、胎児細胞に由来する核酸断片(すなわち、胎児断片)と、母体細胞に由来する核酸断片(すなわち、母体断片)とを含むことが観察されている。本明細書では、胎児に由来する、CCF断片に由来する配列リードを、「胎児リード」と称する。本明細書では、胎児を宿す妊婦(例えば、母体)のゲノムに由来する、CCF断片に由来する配列リードを、「母体リード」と称する。本明細書では、胎児リードがそこから得られるCCF断片を、胎児鋳型と称し、母体リードがそこから得られるCCF断片を、母体鋳型と称する。
一部の実施形態では、ポリヌクレオチド断片(例えば、ポリヌクレオチド鋳型)の長さを決定する。試料中のポリヌクレオチド断片の長さ、またはポリヌクレオチド断片の平均長もしくは平均値長は、適切な方法により推定および/または決定することができる。一部の実施形態では、試料中のポリヌクレオチド断片の長さ、またはポリヌクレオチド断片の平均長もしくは平均値長は、シーケンシング法を使用して決定する。一部の実施形態では、断片長は、ペアドエンドシーケンシングプラットフォームを使用して決定する。場合によって、断片鋳型の長さは、ペアドエンドリードの、マッピングされた各リードへと割り当てられたゲノム座標の間の差異を計算することにより決定する。一部の実施形態では、断片長は、完全なヌクレオチド配列または実質的に完全なヌクレオチド配列を断片について得るシーケンシングプロセスを使用して決定することができる。このようなシーケンシングプロセスは、比較的長いリード長を生成するプラットフォーム(例えば、Roche 454、Ion Torrent技術、一分子(Pacific Biosciences)技術、リアルタイムSMRT技術など)を含む。
一部の実施形態では、リードのサブセットを、分析のために選択し、場合によって、リードのある特定の部分を、分析から除外する。ある特定の場合には、リードのサブセットの選択により、核酸種(例えば、胎児核酸)について濃縮することができる。胎児核酸に由来するリードの濃縮により、例えば、本明細書で記載される方法(例えば、染色体変化の検出)の精度が増大することが多い。しかし、リードの選択および分析からの除外により、本明細書で記載される方法の精度が低下することも多い(例えば、変動の増大に起因して)。したがって、理論に限定されずに述べると、一般に、胎児リードの濃縮と関連する精度の増大と、方法におけるリード量の低減であって、リードの選択および/または除外(例えば、特定のサイズ範囲内の断片に由来する)を含む低減と関連する精度の低下との間には、トレードオフが見られる。一部の実施形態では、方法は、方法の精度を著明に低下させずに、胎児核酸に由来するリードについて濃縮されたリードのサブセットを選択するステップを含む。この見かけのトレードオフにも拘らず、本明細書で記載される通り、ヌクレオチド配列リード(例えば、比較的短い断片に由来するリード)のサブセットを活用することにより、胎児遺伝子分析の精度を改善または維持しうることが決定されている。例えば、ある特定の実施形態では、このようなヌクレオチド配列リードを棄却しない、同等の方法についての値と同様の感度値および特異度値を維持しながら、ヌクレオチド配列リードのうちの約80%またはこれ超を棄却することができる。
一部の実施形態では、試料中の一部または全部の核酸を、シーケンシングの前に、またはシーケンシング時に濃縮および/または増幅する(例えば、非特異的に、例えば、PCRベースの方法により)。ある特定の実施形態では、試料中の特異的な核酸部分または核酸サブセットを、シーケンシングの前に、またはシーケンシング時に濃縮および/または増幅する。一部の実施形態では、あらかじめ選択された核酸のプールの部分またはサブセットを、ランダムにシーケンシングする。一部の実施形態では、試料中の核酸を、シーケンシングの前に、またはシーケンシング時に濃縮および/または増幅しない。
一部の実施形態では、ターゲティング濃縮法、ターゲティング増幅法、および/またはターゲティングシーケンシング法を使用する。ターゲティング法では、配列特異的オリゴヌクレオチドの使用によるさらなる処理のために、試料中の核酸のサブセット(例えば、ターゲティングされるゲノム領域)を単離、選択、および/または濃縮することが多い。一部の実施形態では、ターゲティングされるゲノム領域は、転座、挿入、付加、欠失、および/または逆位を含むがこれらに限定されない染色体変化と関連する。一部の実施形態では、複数のターゲティングされるゲノム領域に由来する核酸断片を、シーケンシングおよび/またはアッセイする。任意の適切な染色体、その一部、または染色体の組合せに由来するポリヌクレオチド(例えば、ccf DNA)は、本明細書で記載される方法またはシステムを使用して、ターゲティング法によりシーケンシングおよび/または分析することもでき、または非ターゲティング法によりシーケンシングおよび/または分析することもできる。本明細書で記載される方法またはシステムにより分析されうる染色体の非限定的な例は、第1染色体、第2染色体、第3染色体、第4染色体、第5染色体、第6染色体、第7染色体、第8染色体、第9染色体、第10染色体、第11染色体、第12染色体、第13染色体、第14染色体、第15染色体、第16染色体、第17染色体、第18染色体、第19染色体、第20染色体、第21染色体、第22染色体、X染色体、およびY染色体を含む。一部の実施形態では、試料中の核酸の1種またはそれより多くの種のセットをターゲティングする(例えば、これらとハイブリダイズする)ように、配列特異的オリゴヌクレオチドのライブラリーを活用する。配列特異的オリゴヌクレオチドおよび/またはプライマーは、目的の、1つまたはそれより多くの染色体内、遺伝子内、エクソン内、イントロン内、および/または調節領域内に存在する特定の配列(例えば、ユニーク核酸配列)について選択的であることが多い。任意の適切な方法または方法の組合せを、ターゲティングされる核酸の1種またはそれより多くの種のサブセットを濃縮、増幅、および/またはシーケンシングするために使用することができる。一部の実施形態では、1種またはそれより多くの種の配列特異的アンカーを使用して、ターゲティングされる配列を、固相(例えば、フローセル、ビーズ)へと捕捉することにより、単離および/または濃縮する。一部の実施形態では、配列特異的プライマーおよび/または配列特異的プライマーセットを使用して、ターゲティングされる配列を、ポリメラーゼベースの方法(例えば、任意の適切なポリメラーゼベースの伸長を介する、PCRベースの方法)により、濃縮および/または増幅する。配列特異的アンカーは、配列特異的プライマーとして使用しうることが多い。
一部の実施形態では、ゲノムの画分であって、場合によって、決定されるヌクレオチド配列によりカバーされるゲノムの量(例えば、1未満のカバレッジ「倍数」)で表される画分をシーケンシングする。ゲノムを、約1倍のカバレッジでシーケンシングする場合、ゲノムのヌクレオチド配列のうちのほぼ100%が、リードにより表示される。ゲノムはまた、冗長性を伴ってシーケンシングすることもでき、この場合、ゲノムの所与の領域は、2つまたはこれを超えるリードまたは重複リード(例えば、1を超えるカバレッジ「倍数」)でカバーすることができる。一部の実施形態では、ゲノムを、約0.01倍〜約100倍のカバレッジ、約0.2倍〜20倍のカバレッジ、または約0.2倍〜約1倍のカバレッジ(例えば、約0.02倍、0.03倍、0.04倍、0.05倍、0.06倍、0.07倍、0.08、0.09倍、0.1倍、0.2倍、0.3倍、0.4倍、0.5倍、0.6倍、0.7倍、0.8倍、0.9倍、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、15倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍のカバレッジ)でシーケンシングする。
一部の実施形態では、配列カバレッジを、本明細書で記載される方法の精度(例えば、感度および/または特異度)の低下をそれほど結果としてもたらさずに低減する。精度の著明な低下は、配列リードカウントの低減を使用しない方法と比較して、約1%〜約20%の精度の低下でありうる。例えば、精度の著明な低下は、約2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、またはこれを超える低下でありうる。一部の実施形態では、配列カバレッジおよび/または配列リードカウントを、約50%またはこれを超えて低減する。例えば、配列カバレッジおよび/または配列リードカウントは、約55%、60%、65%、70%、75%、80%、85%、90%、95%、またはこれを超えて低減することができる。一部の実施形態では、配列カバレッジおよび/または配列リードカウントを、約60%〜約85%低減する。例えば、配列カバレッジおよび/または配列リードカウントは、約61%、62%、63%、64%、65%、66%、67%、68%、69%、70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、または84%低減することができる。一部の実施形態では、配列カバレッジおよび/または配列リードカウントは、ある特定の配列リードを除外することにより低減することができる。一部の場合、特定の長さより長い断片(例えば、約160塩基より長い断片)に由来する配列リードを除外する。
一部の実施形態では、1つまたはそれより多くの試料を、1つのシーケンシングランでシーケンシングする。異なる試料に由来する核酸は、1種またはそれより多くの種のユニークな識別子または同定タグにより同定することが多い。シーケンシング法では、シーケンシングプロセス内のシーケンシング反応のマルチプレックス化を可能とする識別子を活用することが多い。シーケンシングプロセスは、任意の適切な数の試料および/またはユニークな識別子(例えば、4、8、12、24、48、96、またはこれを超える)を使用して実施することができる。
シーケンシングプロセスでは、場合によって、固相を使用し、場合によって、固相は、その上にライブラリーに由来する核酸を接合させうるフローセルを含み、試薬を流動させ、接合させた核酸と接触させることができる。フローセルは、場合によって、フローセルレーンを含み、識別子の使用により、各レーン内の、多数の試料の分析を容易とすることができる。フローセルは、試薬溶液の、結合させた分析物上の、順序に従う通過を保持し、かつ/または可能とするように構成しうる固体支持体であることが多い。フローセルは、平面形であり、光学的に透明であることがしばしばであり、一般に、ミリメートルまたはミリメートル未満のスケールであり、分析物/試薬間の相互作用が生じるチャネルまたはレーンを有することが多い。一部の実施形態では、所与のフローセルレーン内で分析される試料の数は、ライブラリーの調製時および/またはプローブのデザイン時に活用されるユニークな識別子の数に依存する。例えば、12の識別子を使用するマルチプレックス化は、8レーンのフローセル内の96例の試料(例えば、96ウェルのマイクロウェルプレート内のウェルの数と等しい)の同時的な分析を可能とする。同様に、例えば、48の識別子を使用するマルチプレックス化は、8レーンのフローセル内の384例の試料(例えば、384ウェルのマイクロウェルプレート内のウェルの数と等しい)の同時的な分析を可能とする。市販のマルチプレックスシーケンシングキットの非限定的な例は、Illumina製のマルチプレックス化試料調製オリゴヌクレオチドキットおよびマルチプレックス化シーケンシングプライマー、ならびにPhiXコントロールキット(例えば、Illumina製の型番:それぞれ、PE−400−1001およびPE−400−1002)を含む。
リードのマッピング
配列リードまたはこれらの一部(例えば、配列リード部分配列)は、適切な方法により、基準配列(例えば、基準ゲノム)に対してマッピングし、かつ/またはこれに対してアラインさせることができる。本明細書では、1または複数のリードを、基準ゲノムに対してアラインさせるプロセスを、「マッピング」と称する。場合によって、指定された核酸領域(例えば、染色体、その部分、またはそのセグメント)に対してマッピングされる配列リードの数は、定量化することができる。任意の適切なマッピング法(例えば、プロセス、アルゴリズム、プログラム、ソフトウェア、モジュールなど、またはこれらの組合せ)を使用することができる。マッピングプロセスのある特定の態様については、本明細書の下記で記載される。
ヌクレオチド配列リード(すなわち、そのゲノム上の物理的な位置が未知である断片に由来する配列情報)のマッピングは、多数の様式で実施することができ、得られた配列リードの、基準ゲノム内のマッチ配列とのアラインメントを含むことが多い。このようなアラインメントでは、配列リードは一般に、基準配列に対してアラインされ、アラインされるリードを、「マッピングされる」、「マッピングされる配列リード」、または「マッピングされるリード」と称する。
本明細書で使用される「アラインされた」、「アラインメント」、または「アラインさせること」という用語は、2つまたはこれを超える核酸配列であって、マッチ(例えば、100%の同一性)または部分的マッチとして同定しうる核酸配列を指す。アラインメントは、手作業で(例えば、目視により)行うこともでき、それらの非限定的な例が、Illumina Genomics Analysisパイプラインの一部として販売されている、Efficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムを含む、コンピュータ(例えば、ソフトウェア、プログラム、モジュール、またはアルゴリズム)により行うこともできる。配列リードのアラインメントは、100%の配列マッチでありうる。場合によって、アラインメントは、100%未満の配列マッチ(すなわち、完全でないマッチ、部分的マッチ、部分的アラインメント)である。一部の実施形態では、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%、または75%のマッチである。一部の実施形態では、アラインメントは、ミスマッチを含む。一部の実施形態では、アラインメントは、1、2、3、4、または5カ所のミスマッチを含む。2つまたはこれを超える配列は、いずれかの鎖を使用してアラインさせることができる。ある特定の実施形態では、核酸配列は、別の核酸配列の逆相補体とアラインさせる。
多様なコンピュータ法を使用して、各配列リードを、部分に対してマッピングすることができる。配列をアラインさせるのに使用しうるコンピュータアルゴリズムの非限定的な例は、限定なしに述べると、BLAST、BLITZ、FASTA、BOWTIE 1、BOWTIE 2、ELAND、MAQ、PROBEMATCH、SOAP、もしくはSEQMAP、またはこれらの変化形、あるいはこれらの組合せを含む。一部の実施形態では、配列リードまたはこれらの一部は、基準ゲノム内の配列とアラインさせることができる。一部の実施形態では、配列リードは、当技術分野で公知の核酸データベースであって、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)、およびDDBJ(DNA Databank of Japan)を含む核酸データベース内の配列により見出し、かつ/またはそれとアラインさせることができる。BLASTまたは類似のツールを使用して、配列データベースに照らして、同定される配列を検索することができる。
一部の実施形態では、リードは、基準ゲノムへと、ユニークにマッピングされる場合もあり、非ユニークにマッピングされる場合もある。リードは、単一の基準ゲノム内の配列とアラインする場合、「ユニークにマッピングされる」と考えられる。リードは、2つまたはこれを超える基準ゲノム内の配列とアラインする場合、「非ユニークにマッピングされる」と考えられる。一部の実施形態では、非ユニークにマッピングされたリードは、さらなる分析から排除する(例えば、フィルター法により除外する)。ある特定の実施形態では、ある特定の、低度のミスマッチ(0〜1カ所)は、基準ゲノムとマッピングされる個々の試料に由来するリードとの間に存在しうる一塩基多型を構成することを許容されうる。一部の実施形態では、基準配列に対してマッピングされるリードについては、いかなるミスマッチも許容されない。
本明細書で使用される「基準ゲノム」という用語は、任意の特定の公知の、部分的にであれ、完全にであれ、シーケンシングされるか、または特徴付けられた、任意の生物またはウイルスのゲノムまたはその部分であって、被験体に由来する、同定される配列の基準とするのに使用しうるゲノムまたはその部分を指す場合がある。例えば、ヒト被験体、細菌、寄生虫、ウイルス、および他の多くの生物の基準ゲノムは、ワールドワイドウェブのURL:ncbi.nlm.nih.govの、National Center for Biotechnology Informationにおいて見出すことができる。一部の実施形態では、基準ゲノムは、基準試料または基準試料のセットから得る。「ゲノム」とは、核酸配列内で発現する、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用される「基準配列」とは、基準ゲノムまたはその部分(例えば、染色体、遺伝子、保存的領域、マッピング可能性の高い領域)を指す場合がある。基準配列は、場合によって、基準ゲノムまたはその部分である。本明細書で使用される基準ゲノムとは、1個またはそれより多くの個体からアセンブルされたゲノム配列または部分的にアセンブルされたゲノム配列であることが多い。一部の実施形態では、基準ゲノムとは、1人またはそれより多くのヒト個体からアセンブルされたゲノム配列または部分的にアセンブルされたゲノム配列である。一部の実施形態では、基準ゲノムは、染色体へと割り当てられた配列を含む。一部の実施形態では、基準ゲノムとは、ウイルスゲノムまたはその部分である。一部の実施形態では、1種またはそれより多くの種のウイルスの基準ゲノムを使用して、ヒト被験体(例えば、ヒト試料)から得られた核酸(例えば、配列リード)をアラインおよび/またはマッピングする。
ある特定の実施形態では、試料核酸が妊婦に由来する場合、基準配列は、場合によって、胎児、胎児の母体、または胎児の父体に由来せず、本明細書では、「外部基準」と称する。一部の実施形態では、母体基準を、調製および使用することができる。妊婦に由来する基準(「母体基準配列」)を、外部基準に基づいて調製する場合、胎児DNAを実質的に含有しない妊婦のDNAに由来するリードは、外部基準配列に対してマッピングされ、アセンブルされることが多い。ある特定の実施形態では、外部基準は、人種が妊婦と実質的に同じ個体のDNAに由来する。母体基準配列は、母体ゲノムDNAを完全にはカバーしない場合があり(例えば、母体ゲノムDNAのうちの約50%、60%、70%、80%、90%、またはこれ超をカバーすることが可能であり)、母体基準は、母体ゲノムDNA配列に完全にはマッチしない場合がある(例えば、母体基準配列は、複数のミスマッチを含みうる)。
配列リードは、マッピングモジュールまたはマッピングモジュールを含むマシンによりマッピングすることができ、一般に、このマッピングモジュールにより、リードは、基準ゲノムまたはそのセグメントに対してマッピングされる。マッピングモジュールにより、当技術分野で公知であるか、または本明細書で記載される適切な方法を介して、シーケンシングリードをマッピングすることができる。一部の実施形態では、マッピングモジュールまたはマッピングモジュールを含むマシンは、マッピングされた配列リードを提供するのに要求される。マッピングモジュールは、適切なマッピングプログラムもしくはマッピングアルゴリズムおよび/またはアラインメントプログラムもしくはアラインメントアルゴリズムを含むことが多い。
不一致リード
本明細書では、染色体変化の存在または非存在を決定する方法が提示され、一部の実施形態では、染色体変化と関連する切断点を同定する方法が提示される。ある特定の実施形態では、切断点および/または染色体変化を同定する方法は、不一致である配列リードを同定するステップを含む。一部の実施形態では、方法は、配列、シーケンシングリード、および/またはシーケンシングリード対(例えば、リードメイト対)について、不一致状態を同定するステップを含む。本明細書で使用される「不一致」という用語は、(i)第1のリードまたはその部分が、基準ゲノムの第1の場所に対してマッピングされ、(ii)第2のリード、その部分、または第1のリードの第2の部分が、マッピング不可能であり、低度のマッピング可能性スコアを含み、かつ/または基準ゲノムの第2の場所に対してマッピングされる状態であって、基準ゲノムの第1の場所および第2の場所が、非連続であり、かつ/または配列リードのうちの1種またはそれより多くの種のが得られた鋳型ポリヌクレオチド断片のサイズより長い距離で隔てられている状態を指す。一部の実施形態では、不一致とは、シーケンシングリード対(例えば、リードメイト対)のうちの両方のリードが、マッピング不可能である状態を指す。不一致配列リードおよび/または不一致配列リード対は、不一致を含むことが多い。不一致は、ポリヌクレオチド配列、配列リード、シングルエンドリード、およびダブルエンドリード(例えば、ペアドエンドリード)について決定することができる。一部の実施形態では、方法は、不一致リードおよび/または不一致リード対を同定するステップを含む。不一致リードおよび/または不一致リード対は、任意の適切なシーケンシング法を使用して同定することができる。一部の実施形態では、不一致リード対を、ペアドエンドシーケンシングリードから同定する。本明細書では、「ペアドエンドシーケンシングリード」および「ペアドエンドリード」という用語は、同義に使用され、対の各メンバーが、ポリヌクレオチド断片の相補鎖をシーケンシングすることから導出される、シーケンシングリード対を指す。本明細書では、ペアドエンドリードの各リードを、「リードメイト」と称する。
配列リードおよび/またはペアドエンドリードは、それらの非限定的な例が、BWA(Li H.およびDurbin R.(2009年)、Bioinformatics、25巻、1754〜60頁)、Novoalign[Novocraft(2010年)]、Bowtie(Langmead Bら(2009年)、Genome Biol、10巻:R25頁)、SOAP2(Li Rら(2009年)、Bioinformatics、25巻、1966〜67頁)、BFAST(Homer Nら(2009年)、PLoS ONE、4巻、e7767頁)、GASSST(Rizk, G.およびLavenier, D.(2010年)、Bioinformatics、26巻、2534〜2540頁)、およびMPscan(Rivals E.ら(2009年)、Lecture Notes in Computer Science、5724巻、246〜260頁)などを含む、適切なマッピングプログラムおよび/またはアラインメントプログラムを使用することにより、基準ゲノムに対してマッピングされることが多い。配列リードおよび/またはペアドエンドリードは、適切な短いリードアラインメントプログラムを使用して、マッピングおよび/またはアラインすることができる。短いリードアラインメントプログラムの非限定的な例は、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、BWA、CASHX、CUDA−EC、CUSHAW、CUSHAW2、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOMなど、またはこれらの組合せである。ペアドエンドリードは、基準ゲノムに照らして同じポリヌクレオチド断片の反対側の末端に対してマッピングされることが多い。一部の実施形態では、配列リードは、独立にマッピングされる。一部の実施形態では、リードメイトは、独立にマッピングされる。一部の実施形態では、両方の配列リードに由来する(すなわち、各末端に由来する)情報は、マッピングプロセスにおいて織り込まれる。基準ゲノムは、ペアドエンドリードメイトの間に位置特定された核酸の配列を決定および/または推定するのに使用されることが多い。本明細書で使用される「不一致リード対」という用語は、リードメイト対を含むペアドエンドリードであって、一方または両方のリードメイトが、連続ヌクレオチドのセグメントにより部分的に規定される基準ゲノムの同じ領域へと一義的にマッピングされないペアドエンドリードを指す。一部の実施形態では、不一致リード対は、基準ゲノムの予測外の場所に対してマッピングされる、ペアドエンドリードメイトである。基準ゲノムの予測外の場所の非限定的な例は、(i)2つの異なる染色体、(ii)所定の断片サイズを超えて(例えば、300bpを超えるか、500bpを超えるか、1000bpを超えるか、5000bpを超えるか、または10,000bpを超えて)隔てられた場所、(iii)基準配列と合致しない配向性(例えば、逆の配向性)など、またはこれらの組合せを含む。一部の実施形態では、2つの異なる染色体に対してマッピングされ、かつ/またはこれらに対してアラインされるリードメイトを、不一致リードメイトとして同定する。本明細書では、2つの異なる染色体に対してマッピングされ、かつ/またはこれらに対してアラインされるリードメイトを、「キメラリード対」と称する。一部の実施形態では、不一致リード対は、第1のリードメイトが、第1の染色体に対してマッピングされ、第2のリードメイトが、第2の染色体に対してマッピングされ、第1の染色体が、第2の染色体と異なる染色体であるリードメイト対を含まない。一部の実施形態では、不一致リード対は、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1のリードメイトと、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対して部分的にマッピングされる第2のリードメイトとを含む。本明細書で使用される「部分的にマッピングされる」という用語において使用される「部分的に」という用語は、リードのヌクレオチドのうちの、90%もしくはこれ未満、80%もしくはこれ未満、60%もしくはこれ未満、50%もしくはこれ未満、40%もしくはこれ未満、30%もしくはこれ未満、25%もしくはこれ未満、20%もしくはこれ未満、15%もしくはこれ未満、10%もしくはこれ未満、または5%もしくはこれ未満を指す。一部の実施形態では、不一致リード対は、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1のリードメイトと、マッピング不可能である第2のリードメイトとを含み、かつ/または低度のマッピング可能性(例えば、低度のマッピング可能性スコア)を含む。一部の実施形態では、不一致リード対は、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1のリードメイトと、第2のリードメイトとを含み、この場合、第2のリードメイトまたはその部分のマッピング可能性は、決定されない。一部の実施形態では、不一致リード対は、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1のリードメイトと、基準ゲノムの第2のセグメント(例えば、第2の染色体)に対して部分的にマッピングされる第2のリードメイトとを含み、この場合、第1のセグメントと第2のセグメントとは、異なるセグメント(例えば、異なる染色体)である。一部の実施形態では、不一致リード対のサブセット(例えば、コレクション)は、異なる染色体に対してマッピングされる、第1のリードメイトおよび第2のリードメイト、ならびに一方または両方のリードメイトが、マッピング不可能であり、かつ/または同じ染色体もしくは異なる染色体に対して部分的にマッピングされる、第1のリードメイトおよび第2のリードメイトを含む。一部の実施形態では、不一致リードメイトを、試料中の鋳型ポリヌクレオチド断片の長さ(例えば、平均長、所定の断片サイズ)または予測長に従い同定する。例えば、試料中のポリヌクレオチド断片の平均長または予測長を超えて隔てられた場所に対してマッピングされるリードメイトは、場合によって、不一致リード対として同定する。逆の配向性でマッピングされるリード対は、場合によって、リードのうちの一方の逆相補体を取り、基準配列の同じ鎖を使用して、両方のリードのアラインメントを比較することにより決定する。不一致リード対は、当技術分野で公知であるか、または本明細書で記載される、任意の適切な方法および/またはアルゴリズムにより同定することができる。不一致リード対は、不一致リード同定モジュールまたは不一致リード同定モジュールを含むマシンにより同定することができ、不一致リード同定モジュールとは一般に、不一致リード対を同定するモジュールである。不一致リード同定モジュールの非限定的な例は、SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLYなど、またはこれらの組合せを含む。一部の実施形態では、不一致リード対を、異なる染色体に対してマッピングされるか、またはこれに対してアラインされるリードメイトだけを同定するアルゴリズムによっては同定しない。ある特定の実施形態では、不一致リード対を、異なる染色体に対してマッピングされるか、またはこれに対してアラインされるペアドエンドリードメイトと、一方または両方のリードメイトが、マッピング不可能であり、かつ/または同じ染色体もしくは異なる染色体に対して部分的にマッピングされるペアドエンドリードメイトとを含むコレクションを同定するアルゴリズムにより同定する。一部の実施形態では、不一致リード同定モジュールまたは不一致リード同定モジュールを含むマシンは、不一致リード対を提供するのに要求される。
一部の実施形態では、不一致リード対を、クラスタリングしたり、クラスタリング分析にかけたりしない。本明細書で言及されるクラスタリング分析とは、ペアドエンドリードを、ゲノム内の、一方または両方のリードメイトがマッピングされる場所に従い群分けするプロセスを意味する。一部の実施形態では、クラスタリング分析は、ペアドリードのサブセットであって、各リード対の一方のリードメイトが、第1の染色体に対してマッピングされ、各リード対の他方のリードメイトが、第2の染色体に対してマッピングされ、第1の染色体が、第2の染色体と異なる染色体であるサブセットを生成することを含む。
本明細書で使用される「不一致リード」という用語は、リードの第1の部分が、基準ゲノムの、リードの第2の部分と同じ領域へと一義的にマッピングされない配列リードを指し、この場合、基準ゲノムの同じ領域とは、部分的に、連続ヌクレオチドのセグメントと規定される。一部の実施形態では、不一致リードは、基準ゲノムの予測外の場所に対してマッピングされる、第1の部分および第2の部分を含む。一部の実施形態では、不一致リードは、第1の染色体に対してマッピングされる第1の部分と、第2の染色体に対してマッピングされる第2の部分とを含み、この場合、第1の染色体が、第2の染色体と異なる染色体である。一部の実施形態では、不一致リードは、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対して部分的にマッピングされる部分を含む。一部の実施形態では、不一致リードは、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1の部分と、マッピング不可能である第2の部分とを含み、かつ/または低度のマッピング可能性(例えば、低度のマッピング可能性スコア)を含む。一部の実施形態では、不一致リードは、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1の部分と、第2の部分またはその一部のマッピング可能性が決定されない第2の部分とを含む。一部の実施形態では、不一致リードは、基準ゲノムの第1のセグメント(例えば、第1の染色体)に対してマッピングされる第1の部分と、基準ゲノムの第2のセグメント(例えば、第2の染色体)に対して部分的にマッピングされる第2の部分とを含み、この場合、第1のセグメントと第2のセグメントとは、異なるセグメント(例えば、異なる染色体)である。不一致リードは、当技術分野で公知であるか、または本明細書で記載される適切な方法および/またはアルゴリズムにより同定することができる。不一致リードは、場合によって、リードを特徴付けるプロセスにより同定する。不一致リードは、不一致リード同定モジュールまたは不一致リード同定モジュールを含むマシンにより同定することができ、不一致リード同定モジュールとは一般に、不一致リードを同定するモジュールである。ある特定の実施形態では、不一致リードを、不一致リードのサブセットまたはコレクションを同定するアルゴリズムにより同定する。一部の実施形態では、不一致リード同定モジュールまたは不一致リード同定モジュールを含むマシンは、不一致リードを提供するのに要求される。
マッピング可能性の変化
一部の実施形態では、1または複数のリードのマッピング可能性を特徴付ける。一部の実施形態では、リードのマッピング可能性を特徴付けることは、複数の配列リード部分配列のマッピング可能性を特徴付けることを含む。本明細書の「複数の配列リード部分配列のリードのマッピング可能性を特徴付けること」という用語は、場合によって、「リードを特徴付けること」を指す。リードを特徴付けることは、場合によって、リードの複数の配列リード部分配列を生成することと、配列リード部分配列の各々を、基準ゲノムに対してマッピングすることとを含む。一部の実施形態では、配列リード部分配列を、不一致リード対の両方のリードメイトについて生成する。本明細書では、場合によって、配列リード部分配列を、シュードリードと称する。配列リード部分配列は、任意の適切な方法により生成することができる。配列リード部分配列は、in silicoのプロセスを介して生成されることが多い。一部の実施形態では、配列リード部分配列を、以下の方法:(i)リードをマッピングし、(ii)in silicoのプロセスを介して、マッピングされたリードの末端から、1つまたはそれより多くの塩基を除外し、(iii)結果として得られる、短縮されたリード(すなわち、配列リード部分配列)をマッピングし、(v)(ii)および(iii)を繰り返す方法により、生成およびマッピングする。一部の実施形態では、ステップ(ii)および(iii)は、リードの末端に到達するまで繰り返す。ある特定の実施形態では、ステップ(ii)および(iii)は、結果として得られる、短縮されたリードが、もはやマッピング可能でなくなるまで繰り返す。配列リード部分配列は、1つまたはそれより多くの塩基を、3’リードの末端または5’リードの末端から、累進的および/または漸次的に除外することにより生成することができる。配列リード部分配列は、塩基をリードの末端から、一度に1つ、一度に2つ、一度に3つ、一度に4つ、一度に5つ除外する(例えば、ステップ(ii)において)ことにより、またはこれらの組合せにより生成することができる。一部の実施形態では、リードについて生成される各配列リード部分配列は、異なる長さである。一部の実施形態では、リードについての各配列リード部分配列は、リードに由来する連続ヌクレオチドの部分配列である。一部の実施形態では、リードの配列リード部分配列の各々は、全長リードより短く、場合によって、最も長い配列リード部分配列は、リードより約1塩基、約2塩基もしくはこれ未満、約3塩基もしくはこれ未満、約4塩基もしくはこれ未満、約5塩基もしくはこれ未満、約6塩基もしくはこれ未満、約7塩基もしくはこれ未満、約8塩基もしくはこれ未満、約9塩基もしくはこれ未満、または約10塩基もしくはこれ未満だけ短い。一部の実施形態では、リードの配列リード部分配列の各々は、2番目に大きな配列リード部分配列またはリードより約1塩基、約2塩基もしくはこれ未満、約3塩基もしくはこれ未満、約4塩基もしくはこれ未満、約5塩基もしくはこれ未満、約6塩基もしくはこれ未満、約7塩基もしくはこれ未満、約8塩基もしくはこれ未満、約9塩基もしくはこれ未満、または約10塩基もしくはこれ未満だけ短い。一部の実施形態では、各不一致リードメイトの配列リード部分配列は、2番目に大きな部分配列またはリードメイトより約1塩基、約2塩基もしくはこれ未満、約3塩基もしくはこれ未満、約4塩基もしくはこれ未満、約5塩基もしくはこれ未満、約6塩基もしくはこれ未満、約7塩基もしくはこれ未満、約8塩基もしくはこれ未満、約9塩基もしくはこれ未満、約10塩基もしくはこれ未満、またはこれらの組合せだけ漸次的に短い。本明細書で使用される「配列リード部分配列」という用語は、本明細書で記載される方法により、リードについてin silicoで生成されたポリヌクレオチド断片のセットを指す。本明細書で使用される「配列リード部分配列」という用語はまた、1または複数のリードについてin silicoで生成されたポリヌクレオチド断片の1または複数のセットも指す場合がある。本明細書で使用される「配列リード部分配列」という用語はまた、そこから配列リード部分配列のセットが生成される全長リードも指し、かつ/またはこれも含む。本明細書では、場合によって、配列リード部分配列を、「部分配列」と称する。本明細書において、単数形で使用される「配列リード部分配列」および/または「部分配列」という用語は、リードについてin silicoで生成されたポリヌクレオチド断片のセットのメンバーを指す。
配列リード部分配列は、適切なモジュール、プログラム、または方法により生成することができる。ある特定の実施形態では、配列リード部分配列を、断片化モジュールにより生成する。配列リード部分配列は、それらの非限定的な例が、BWA(Li H.およびDurbin R.(2009年)、Bioinformatics、25巻、1754〜60頁)、Novoalign[Novocraft(2010年)]、Bowtie(Langmead Bら(2009年)、Genome Biol、10巻:R25頁)、SOAP2(Li Rら(2009年)、Bioinformatics、25巻、1966〜67頁)、BFAST(Homer Nら(2009年)、PLoS ONE、4巻、e7767頁)、GASSST(Rizk, G.およびLavenier, D.(2010年)、Bioinformatics、26巻、2534〜2540頁)、およびMPscan(Rivals E.ら(2009年)、Lecture Notes in Computer Science、5724巻、246〜260頁)などを含む、適切なマッピングモジュール、マッピングプログラム、またはマッピング法によりマッピングすることができる。
一部の実施形態では、試料について生成された、一部または全部の配列リード部分配列を、基準ゲノムに対してマッピングする。一部の実施形態では、リードの配列リード部分配列を、1または複数の基準ゲノムの組合せに対してマッピングする。1または複数のリードの部分配列は、ヒト基準ゲノムに対してマッピングされることが多い。一部の実施形態では、部分配列を、ヒトゲノムおよび/またはウイルスゲノムに対してマッピングする。一部の実施形態では、一部または全部のリードの配列リード部分配列のマッピング可能性を決定する。「マッピング可能性」という用語は、ポリヌクレオチド断片が、基準ゲノムへと、どのくらい良好にマッピングされるかについての尺度を指す。場合によって、マッピング可能性は、マッピング可能性スコアまたはマッピング可能性値を含む。場合によって、マッピング可能性スコアまたはマッピング可能性値を、リードの各配列リード部分配列(例えば、リードメイト)について決定する。任意の適切なマッピング可能性スコアまたはマッピング可能性値は、配列リード部分配列について決定することができる。マッピング可能性スコアは、公知であるかまたは本明細書で記載される、マッピングモジュール、マッピングプログラム、またはマッピング法など、またはこれらの組合せにより生成される、任意の適切なスコアでありうる。例えば、一部の実施形態では、マッピング可能性スコアは、MAPQスコアでありうる。一部の実施形態では、マッピング可能性スコアは、アラインメントスコアを含む。例えば、アラインメントスコアは、適切なローカルアラインメントアルゴリズム(例えば、スミス−ウォーターマンアルゴリズムなど、)により生成することもでき、アラインメントスコアは、2つの配列間のユークリッド距離であって、基準ゲノム内の発生数により重み付けされた距離に従い生成することができる。アラインメントスコアは、ポリヌクレオチド配列のユニークネスを定性化または定量化する、任意の適切な計量により生成することができる。高度の、良好な、許容可能な、低度の、許容不可能な、および/または不良なマッピング可能性スコアを決定するための標準は、当技術分野で公知であり、使用されるマッピングプログラムまたはアラインメントプログラムに特異的であることが多い。
一部の実施形態では、染色体変化の存在または非存在を決定することは、リードの配列リード部分配列のマッピング可能性の変化を決定および/または同定すること(例えば、不一致リード、不一致リード対のリードメイト)を含む。一部の実施形態では、リードを特徴付けることは、リードの配列リード部分配列のマッピング可能性の変化を決定および/または同定することを含む。マッピング可能性の変化は、場合によって、1または複数の配列リード部分配列の間で決定する。例えば、場合によって、マッピング可能性の変化は、リードの第1の側に位置する1または複数のヌクレオチドを含む、1つまたはそれより多くの部分配列は、マッピング可能性スコアが、実質的に同じであるか、または類似である第1のサブセットを含み、リードの第2の側のヌクレオチドを含む、1つまたはそれより多くの部分配列は、マッピング可能性スコアが、第1のサブセットと実質的に異なる第2のサブセットを含む場合に指し示される。本明細書では、場合によって、リードの配列リード部分配列内で同定されるマッピング可能性の変化を、リードのマッピング可能性の変化と称する。例えば、リードは、リードの配列リード部分配列が、マッピング可能性の変化を含む、マッピング可能性の変化を含みうる。ある特定の実施形態では、不一致は、マッピング可能性の変化が、リードについて決定されるリード内で同定することができる。ある特定の実施形態では、不一致リードは、マッピング可能性の変化を含む。一部の実施形態では、マッピング可能性の変化は、不一致が同定されるリードについて決定することができる。一部の実施形態では、マッピング可能性の変化を、リードについて同定および/または決定せず、リードは不一致を含まない。場合によって、不一致リード対の一方または両方のリードメイトは、マッピング可能性の変化を含む。ある特定の実施形態では、ペアドエンドリード対の一方または両方のリードメイトが、マッピング可能性の変化を含む、不一致リード対を同定する。一部の実施形態では、マッピング可能性の変化は、不一致リード対の一方または両方のリードメイトについて決定することができる。一部の実施形態では、キメラリード対の一方または両方のリードメイトは、マッピング可能性の変化を含まない。
場合によって、リードの配列リード部分配列のマッピング可能性の変化を決定および/または同定することは、リードの各配列リード部分配列のマッピング可能性と、リードの各配列リード部分配列の適切な特徴との関係(例えば、不一致リード、不一致リード対、不一致リード対のリードメイト)を決定することを含む。関係は、1または複数のリードについて決定することができる。例えば、一部の実施形態では、関係を、不一致リード対の両方のリードメイトについて決定する。
本明細書で使用される「関係」という用語は、2つまたはこれを超える変数または値の間の数学的関係および/またはグラフ的関係を指す。関係の非限定的な例は、関数、相関、分布、線形方程式もしくは非線形方程式、直線、回帰、当てはめ回帰など、またはこれらの組合せについての数学的表示またはグラフ的表示を含む。一部の実施形態では、関係を決定することは、線形関係、非線形関係、または当てはめ関係(fitted relationship)を生成することを含む。一部の実施形態では、関係を、プロットまたはグラフ表示する。
関係を決定するために使用されうる、配列リード部分配列の適切な特徴の非限定的な例は、断片長、その相対的順序、分子量、GC含量を指し示す各断片の識別子など、またはこれらの組合せを含む。ある特定の実施形態では、リードの配列リード部分配列のマッピング可能性の変化を決定および/または同定することは、リードの各配列リード部分配列(例えば、一方または両方のリードメイト)のマッピング可能性と長さとの関係を決定することを含む。
一部の実施形態では、マッピング可能性の変化を決定および/または同定することは、関係について記載し、かつ/またはこれを定量化する、1または複数の係数、変数、値、定数など、またはこれらの組合せの変化の存在または非存在を決定することを含む。本明細書で使用される「変化」とは、場合によって、「差異」を指す。マッピング可能性の変化を決定するのに使用しうる、係数、定数、値、および変数の非限定的な例は、傾き(例えば、線形関係、非線形関係、または当てはめ関係の傾き)、座標(例えば、x座標値またはy座標値)の総和、平均、中央値、もしくは平均値、切片(例えば、y切片)、最大値(例えば、最大ピーク高)、最小値(例えば、最も小さな値)、曲線の積分(例えば、曲線下面積)など、またはこれらの組合せを含む。一部の実施形態では、マッピング可能性の変化を、数学的に決定する。変化は、有意性(例えば、有意差)についての適切な統計学的検定であって、それらの非限定的な例が、ウィルコクソン検定(例えば、ウィルコクソン符号順位検定)、t検定、カイ二乗などを含む統計学的検定により決定することができる。一部の実施形態では、マッピング可能性の変化を、視覚的に(例えば、プロットまたはグラフから)同定および/または決定する。一部の実施形態では、マッピング可能性の変化は、1または複数のリードについて決定される、マッピング可能性の変化の平均値、中央値、または平均を含む。例えば、場合によって、マッピング可能性の変化は、不一致リード対の両方のリードメイトについて決定される、マッピング可能性の変化の平均値、中央値、または平均を含む。一部の実施形態では、マッピング可能性の変化は、第1のリードの部分配列について生成される第1の関係と第2のリードの部分配列について生成される第2の関係と(例えば、第1および第2の不一致リード対のリードメイトについての)の傾きの平均値、中央値、または平均を含む。マッピング可能性の変化は、任意の適切なモジュール、システム、またはソフトウェアにより、生成、決定、および/または同定することができる。マッピング可能性の変化は、マッピング特徴付けモジュールにより、同定および/または決定することが多い。マッピング特徴付けモジュールにより、部分配列を生成することもでき、関係を生成することもでき、部分配列のマッピング可能性を特徴付けることもでき、マッピング可能性の変化を決定することもでき、マッピング可能性の閾値を受け取るかもしくは生成することもでき、かつ/またはマッピング可能性の変化を、マッピング可能性の閾値と比較することもできる。
一部の実施形態では、マッピング特徴付けモジュールは、マイクロプロセッサーのための命令(例えば、アルゴリズム)を、マッピング特徴付けモジュールの関数を実行する、コードおよび/もしくはソースコード(例えば、標準スクリプトまたはカスタムスクリプトのコレクション)ならびに/または1または複数のソフトウェアパッケージ(例えば、統計学ソフトウェアパッケージ)の形態で含む。一部の実施形態では、マッピング特徴付けモジュールは、SまたはRで書かれたコード(例えば、スクリプト)であって、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するコードを含む。例えば、マッピング特徴付けの変化の傾きは、Rで計算することができ、以下のスクリプト:
lm(y〜x)[[「係数」]][2]
[式中、yは、各段階的アラインメントについてのMAPQスコアであり、xは、段階的アラインメントの長さである]を含みうる。一部の実施形態では、マッピング特徴付けモジュールは、適切な統計学ソフトウェアパッケージを含み、かつ/または使用する。統計学ソフトウェアパッケージの非限定的な例は、S−plus、stata、SAS、MATLAB、Rによる統計学的パッケージなど、またはこれらの組合せを含む。
一部の実施形態では、マッピング可能性の変化は、リードおよび/またはリードのサブセットについて決定することができる。一部の実施形態では、マッピング可能性の変化は、不一致が同定される、リードおよび/またはリードのサブセットについて決定することができる。一部の実施形態では、1または複数のリード(例えば、リードのサブセット、不一致リード対のサブセット)を、配列リード部分配列のマッピング可能性の変化に従い、選択および/または同定する。一部の実施形態では、マッピング可能性の変化を同定および/または決定することは、リードの2つまたはこれを超える部分配列または部分配列のサブセットの間のマッピング可能性の実質的な差異(例えば、統計学的差異)を同定および/または決定することを含む。一部の実施形態では、1または複数のリード(例えば、リードのサブセット)を、マッピング可能性の変化および/またはマッピング可能性の閾値に従い同定および/または選択する。一部の実施形態では、不一致リード対は、一方もしくは両方のリードのマッピング可能性の変化および/またはマッピング可能性の閾値に従い選択する。一部の実施形態では、リードを選択することは、マッピング可能性の変化を、マッピング可能性の閾値と比較することを含む。一部の実施形態では、選択されたリードであって、マッピング可能性の閾値を上回るか、下回るか、この範囲内であるか、範囲外であるか、これと著明に異なるか、または実質的に同じである、マッピング可能性の変化を含むリードを選択する。1または複数のリードについてのマッピング可能性の変化が、所定のマッピング可能性の閾値と著明に異なるか、またはマッピング可能性の閾値により規定される値についての所定の範囲から外れる数値(例えば、定量的値)を含む、1または複数のリードを選択することが多い。リード(例えば、リードのサブセット)は、リード選択モジュール(例えば、120)に従い同定および/または選択することができる。一部の実施形態では、リード選択モジュールは、マイクロプロセッサーのための命令(例えば、アルゴリズム)を、マッピング特徴付けモジュールの関数を実行する、コードおよび/もしくはソースコード(例えば、標準スクリプトまたはカスタムスクリプトのコレクション)ならびに/または1または複数のソフトウェアパッケージ(例えば、統計学ソフトウェアパッケージ)の形態で含む。一部の実施形態では、リード選択モジュールは、SまたはRで書かれたコード(例えば、スクリプト)であって、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するコードを含む。例えば、メイト1とメイト2との平均の傾きが0の閾値未満であるリードを選択することは、Rで、
データ[データ<0]
[式中、データは、メイト1とメイト2との平均値の傾きを含有する]と書くことができる。一部の実施形態では、リード選択モジュールは、適切な統計学ソフトウェアパッケージを含み、かつ/または使用する。統計学ソフトウェアパッケージの非限定的な例は、S−plus、stata、SAS、MATLAB、Rによる統計学的パッケージ、Prism(GraphPad Software,Inc.、La Jolla、CA)、SigmaPlot(Systat Software,Inc.、San Jose、CA)、Microsoft Excel(Redmond、WA、USA)など、またはこれらの組合せを含む。
マッピング可能性の閾値は、1または複数の所定の値、値の限界、および/または値の範囲を含むことが多い。本明細書における「閾値(threshold)」および「閾値(threshold value)」という用語は、定性化データセットを使用して計算され、選択の限界として用いられる任意の数を指す。マッピング可能性の閾値は、マッピング可能性の変化を数学的および/または統計学的に操作することにより計算されることが多い。
一部の実施形態では、サブセット内のリードが、各サブセット内のリードの複数の部分配列について、マッピング可能性と断片長との間で決定される関係についての傾きの変化を含む、リードのサブセットを、同定および/または選択する。一部の実施形態では、傾きの変化は、候補切断点の存在を指し示す。一部の実施形態では、1を実質的に超えるかまたは実質的に1未満の(例えば、マッピング可能性の閾値を1とする)関係の傾き(例えば、リードの複数の部分配列についての、マッピング可能性と断片長との間の)により、候補切断点を含むリードが指し示され、かつ/またはマッピング可能性の変化が存在するリードのサブセットが同定されることが多い。一部の実施形態では、約0、約0.1、約0.2、約0.3、約0.4、約0.5、約0.6、約0.7、約0.8、約0.9であるか、または約1.0を超えるマッピング可能性の閾値を超えるマッピング可能性の変化(例えば、傾き)を含むリード(例えば、リードのサブセット)を、同定および/または選択する。一部の実施形態では、約−0.1〜約0.1、約−0.2〜約0.2、約−0.3〜約0.3、約−0.4〜約0.4、約−0.5〜約0.5、約−0.6〜約0.6、約−0.7〜約0.7、約−0.8〜約0.8、約−0.9〜約0.9、または約−1.0〜約1.0のマッピング可能性の閾値範囲外のマッピング可能性の変化(例えば、傾き)を含むリードを、同定および/または選択する。一部の実施形態では、マッピング可能性の変化(例えば、平均の傾き、平均値の傾き、または中央値の傾き)および/またはマッピング可能性の閾値を、絶対値として表す。閾値は、マッピング可能性の変化を指し示す任意の適切なパラメータ(例えば、1または複数のマッピング可能性スコアの分散、標準偏差、またはMAD)でありうる。
リードを特徴付けることおよび/またはリード(例えば、リードの部分配列)のマッピング可能性の変化を評価することにより、1または複数の切断点および/または候補切断点を提供することができる。本明細書で使用される「切断点」という用語は、リードメイトの2つの隣接する塩基判定の間の位置であって、切断点の第1の側にある塩基が、第1の染色体領域に対してマッピングされ、切断点の第2の側にある塩基が、第2の染色体領域に対してマッピングされ、第1の染色体領域と第2の染色体領域とが、基準ゲノムに照らして隣接しない位置を指す。一部の実施形態では、第1の染色体領域と第2の染色体領域とは、異なる染色体上にある。一部の実施形態では、第1の染色体領域と第2の染色体領域とは、同じ染色体上にあり、この場合、第1の染色体領域と第2の染色体領域とは、基準ゲノムに照らして隣接しない。一部の実施形態では、本明細書で使用される「切断点」という用語は、リードメイトの2つの隣接する塩基判定の間の位置であって、位置の第1の側にある塩基が、基準ゲノムに対してマッピングされ、位置の第2の側にある塩基が、マッピング不可能である(例えば、あるレベルの確実性でマッピングすることができない)位置を指す。一部の実施形態では、本明細書で使用される「切断点」という用語は、リードメイトの2つの隣接する塩基判定の間の位置であって、位置の第1の側にある塩基が、ヒトゲノムに対してマッピングされ、位置の第2の側にある塩基が、異種の遺伝物質(例えば、ウイルスゲノム)に対してマッピングされる位置を指す。一部の実施形態では、切断点は、染色体変化またはその一部の場所および/または位置を指し示す。一部の実施形態では、切断点により、基準ゲノムに照らした核酸の位置であって、遺伝物質が挿入され、欠失し、かつ/または交換される位置が同定される。一部の実施形態では、染色体変化が、挿入または転座を含む場合、切断点は、挿入または転座の一方の側の位置および/または場所を指し示しうる。一部の実施形態では、挿入または転座の第1の切断点を、第1のリード内または第1のリードのサブセット内で同定し、挿入または転座の第2の切断点を、第2のリード内または第2のリードのサブセット内で同定する。本明細書で使用される「候補切断点」という用語は、切断点を含む可能性が高いリードおよび/またはリード内の位置を指す。一部の実施形態では、候補切断点は、切断点を含む。ある特定の実施形態では、候補切断点は、切断点を含まない。マッピング可能性の変化に従い、かつ/またはマッピング可能性の閾値に従い同定および/または選択されるリードおよび/またはリードのサブセットは、候補切断点を含むことが多い。
ある特定の実施形態では、リードから生成された複数の配列リード部分配列のマッピング可能性を特徴付けることは、候補切断点の場所および/または位置を同定および/または決定することを含む。一部の実施形態では、リードは、ゲノム(例えば、母体ゲノム、胎児ゲノム、またはこれらの部分)の表示である。ある特定の実施形態では、候補切断点を含む、マッピングされたリードは、ゲノム(例えば、母体ゲノム、胎児ゲノム、またはこれらの部分)内に位置特定された候補切断点の表示である。一部の実施形態では、リード内の候補切断点の場所および/または位置を、関係(例えば、配列リード部分配列のマッピング可能性と長さとの関係)に従い決定する。一部の実施形態では、リード内の候補切断点の場所および/または位置を、マッピング可能性の変化に従い決定する。一部の実施形態では、リード内の候補切断点の場所および/または位置を同定および/または決定することは、2つまたはこれを超えるリードの配列リード部分配列の間のマッピング可能性の実質的な差異(例えば、統計学的差異)を同定することを含む。一部の実施形態では、候補切断点の位置を、位置xにおいて決定し、この場合、位置xの第1の側にある配列リード部分配列が、位置xの第2の側に位置特定された配列リード部分配列についてのマッピング可能性値と実質的に異なるマッピング可能性値を含み、これにより、位置xにおける候補切断点が指し示される。一部の実施形態では、候補切断点の位置を、傾きの分析に従い決定する。例えば、関係は、複数の部分配列について、マッピング可能性と断片長との間で決定されることが多く、関係は部分的に、直線により規定され、直線またはその部分は部分的に、傾きにより規定される。前出の例では、傾きの実質的な変化により、候補切断点の位置(例えば、位置xであり、この場合、位置xの第1の側にある部分配列が、位置xの第2の側に位置特定された部分配列についての傾きと実質的に異なる傾きを含む)が指し示されることが多い。一部の実施形態では、推定切断点(例えば、マッピング可能性の変化および/または閾値に従い決定される)を含む全てのリードを、de novoアセンブルし、切断点を決定する。場合によって、切断点は、マッピング可能性の変化を含むリードを、基準ゲノムに対してアラインさせることにより決定する。一部の実施形態では、候補切断点および/または切断点の場所を、リード長の分解能で同定する。例えば、マッピングされたリードは、リードがマッピングされる基準ゲノム内の位置に位置特定された候補切断点を指し示す、マッピング可能性の変化を含みうる。一部の実施形態では、候補切断点および/または切断点の場所を、150塩基もしくはこれ未満、100塩基もしくはこれ未満、75塩基もしくはこれ未満、50塩基もしくはこれ未満、10塩基もしくはこれ未満、9塩基もしくはこれ未満、8塩基もしくはこれ未満、7塩基もしくはこれ未満、6塩基もしくはこれ未満、5塩基もしくはこれ未満、4塩基もしくはこれ未満、3塩基もしくはこれ未満、2塩基もしくはこれ未満の分解能で、または単一塩基の分解能で同定する。
一部の実施形態では、候補切断点を、切断点モジュールにより同定する。切断点モジュールは、本明細書で記載される方法により、切断点を同定するように構成されることが多い。一部の実施形態では、切断点モジュールは、SまたはRで書かれたコード(例えば、スクリプト)であって、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するコードを含む。一部の実施形態では、切断点モジュールは、適切な統計学ソフトウェアパッケージを含み、かつ/または使用する。SOAP de−novo、または「Wikipedia」(例えば、ワールドワイドウェブのURL:en.wikipedia.org/wiki/Sequence_assemblyにおいて、インターネットから検索される、「Wikipedia」、「Sequence Assembly」[オンライン][2013年09月25日検索])で列挙されたde novoアセンブラーなど、任意の適切なde novoアセンブラーを、独立に、またはカスタムスクリプトと共に使用して、切断点の場所を同定することができる。一部の実施形態では、メイト1および2の所与の位置、Rおよび/またはRによる1もしくは複数のbioconductorパッケージ(ワールドワイドウェブのURL:bioconductor.org)を使用して、各リードについて、ヒト基準ゲノムとのそれらの類似性を査定して、切断点を決定する。傾きを使用して、切断点の正確な位置を決定するには、任意の適切な統計学パッケージソフトウェアまたはカスタムスクリプトを使用することができる。
一部の実施形態では、不一致リード対の一方または両方の不一致リードメイトは、実質的に類似する候補切断点および/または同じ候補切断点を含む。一部の実施形態では、不一致リード対の一方のリードメイトは、候補切断点を含み、対の他方のリードメイトは、候補切断点を含まない。一部の実施形態では、不一致リード対の第1のリードメイトの配列は、対の第2のリードメイトの配列と重複し、両方のリードメイトは、同じ候補切断点または実質的に類似する候補切断点を含む。本明細書で使用される「実質的に類似する切断点」(例えば、「実質的に類似する候補切断点」)という用語は、基準ゲノムに照らして同じ場所または実質的に同じ場所に位置する切断点を意味する。実質的に類似する切断点は、場合によって、各リード上の各切断点の位置が、基準ゲノムに照らして実質的に同じである、異なるリード上の異なる相対的位置(例えば、リードの末端と比べて決定されることが多い)に位置特定される。場合によって、2つまたはこれを超えるリード(例えば、不一致リードメイト)は、同じ切断点および/または実質的に類似する切断点を含み、この場合、各リード上の切断点の位置は、同じ場合もあり、異なる場合もある。一部の実施形態では、実質的に類似する切断点は、異なるリード上の同じ位置に位置特定される。一部の実施形態では、実質的に類似する切断点の各々の側を挟む、1、2、3、4、5、6、7、または8ヌクレオチドであるか、またはこれを超える配列(例えば、塩基判定)は、実質的に同じ配列である。一部の実施形態では、実質的に類似する切断点は、第1のリード上および第2のリード上に位置特定され、この場合、第1のリードは、第2のリードの逆相補体である。
一部の実施形態では、リードのサブセットは、マッピング可能性の変化に従い選択し、この場合、選択されたサブセット内の各リードは、20連続塩基、21連続塩基、22連続塩基、23連続塩基、24連続塩基、25連続塩基、26連続塩基、27連続塩基、28連続塩基、29連続塩基、30連続塩基、31連続塩基、32連続塩基、33連続塩基、34連続塩基、35連続塩基、36連続塩基、37連続塩基、38連続塩基、39連続塩基、40連続塩基、50連続塩基、60連続塩基、70連続塩基、80連続塩基、90連続塩基、または100連続塩基の最小の長さを含む。
一部の実施形態では、リードのサブセットは、マッピング可能性の変化に従い選択し、この場合、選択されたサブセット内の各リードは、候補切断点の各々の側にある、少なくとも約10〜約60、15〜約50、15〜約40、15〜約30、15〜約25、または約15〜約20連続塩基を含む。
一部の実施形態では、試料中の2つまたはこれを超えるリード(例えば、不一致リードメイト)は、実質的に類似する候補切断点を含む。一部の実施形態では、試料から得られる、2つもしくはこれを超えるか、5つもしくはこれを超えるか、10もしくはこれを超えるか、20もしくはこれを超えるか、50もしくはこれを超えるか、100もしくはこれを超えるか、または1000もしくはこれを超えるリードは、同じ候補切断点または実質的に類似する候補切断点を含む。ある特定の実施形態では、実質的に類似する候補切断点を含む、リード、不一致リードメイト、および/または不一致リード対を、サブセットへと群分けする。一部の実施形態では、各サブセットが、実質的に類似する候補切断点を含むリードを含む、2つまたはこれを超えるサブセットを、同定および/または選択する。一部の実施形態では、第1のリードのサブセットと第2のリードのサブセットとは、異なる切断点を含む。場合によって、実質的に類似する候補切断点を含む第1のリードのサブセットは、実質的に類似する候補切断点を含む第2のリードのサブセットと異なる切断点を含む。任意の1つのサブセットまたはリードは、別のリードのサブセット内の切断点と異なる候補切断点を含むことが多い。
一部の実施形態では、本明細書で記載されるシステムまたは方法を使用して、実質的に類似する候補切断点を含むリードの、1または複数のサブセットを、基準から得、かつ/または生成する。実質的に類似する候補切断点を含む不一致リードメイトのサブセットは、同じ方法または実質的に同じ方法を使用して、基準試料および被験試料(例えば、被験被験体)から得られ、かつ/または生成されることが多い。本明細書で使用される「基準」とは、1または複数の基準被験体または基準試料を指す。本明細書で使用される「基準」とは、1または複数の基準被験体または基準試料から得られたデータ(例えば、リード、不一致リードメイトのサブセット、リードの選択されたセット)を指すことが多い。基準被験体および/または基準試料は、染色体変化を欠くことが公知であるか、または前提されることが多い。例えば、基準被験体および/または基準試料は、染色体変化を含まないことが多い。一部の実施形態では、基準は、染色体変化と関連しない特定のゲノム領域または複数のゲノム領域に由来するポリヌクレオチドおよび/またはポリヌクレオチドのリードを含む。
比較の生成
被験試料および基準から生成され、かつ/または得られたリードの、1または複数のサブセットは、比較することができる。実質的に類似する候補切断点を含む試料に由来するリードのサブセットを、実質的に類似する候補切断点を含む基準に由来するリードのサブセットと比較することが多い。一部の実施形態では、試料に由来するリードのサブセットを、基準に由来するリードのサブセットであって、両方のサブセット(すなわち、試料に由来するサブセットおよび基準に由来するサブセット)に由来するリードが、実質的に類似する候補切断点を含むサブセットと比較する。一部の実施形態では、試料に由来するリードのサブセットを、基準に由来するリードのサブセットであって、両方のサブセット(すなわち、試料に由来するサブセットおよび基準に由来するサブセット)に由来するリードが、基準ゲノム内の同じ場所または実質的に同じ場所に対してマッピングされるサブセットと比較する。基準ゲノム内の「実質的に同じ」場所に対してマッピングされるリードとは、100,000キロベース(kb)もしくはこれ未満、50,000kbもしくはこれ未満、25,000kbもしくはこれ未満、10,000kbもしくはこれ未満、5000kbもしくはこれ未満、1000kbもしくはこれ未満、500kbもしくはこれ未満、100kbもしくはこれ未満、50kbもしくはこれ未満、25kbもしくはこれ未満、10kbもしくはこれ未満、5kbもしくはこれ未満、1000塩基対(bp)もしくはこれ未満、500bpもしくはこれ未満、または100bpもしくはこれ未満以内の距離内にマッピングされるリードを指す。基準ゲノム内の「実質的に同じ」場所に対してマッピングされるリードとは、場合によって、互いから50、30、20、10、9、8、7、6、5、4、3、2、1、または0塩基の距離内にマッピングされるリードを指す。例えば、場合によって、試料に由来するリードのサブセットを、基準に由来するリードのサブセットであって、両方のサブセット(すなわち、試料に由来するサブセットおよび基準に由来するサブセット)が、マッピング可能性の変化に従い選択され、両方のサブセットに由来するリードが、基準ゲノム内の同じ場所または実質的に同じ場所に対してマッピングされるサブセットと比較する。一部の実施形態では、試料および基準に由来するリードの選択されたサブセットを、マッピング可能性の変化に従い同定し、ゲノムの同じビンまたは部分に対してマッピングし、比較する。ゲノムのビンまたはあらかじめ選択された部分であって、リードがマッピングされるビンまたは部分は、任意の適切な長さでありうる。一部の実施形態では、ゲノムのビンまたはあらかじめ選択された部分であって、リードがマッピングされるビンまたは部分の長さは、約100,000キロベース(kb)もしくはこれ未満、50,000kbもしくはこれ未満、25,000kbもしくはこれ未満、10,000kbもしくはこれ未満、5000kbもしくはこれ未満、1000kbもしくはこれ未満、500kbもしくはこれ未満、100kbもしくはこれ未満、50kbもしくはこれ未満、25kbもしくはこれ未満、10kbもしくはこれ未満、5kbもしくはこれ未満、1000塩基対(bp)もしくはこれ未満、または約500bpもしくはこれ未満である。一部の実施形態では、1または複数のサブセット内のリードの数を、定量化および比較する。一部の実施形態では、被験試料の1または複数のサブセット内のリードの数を、基準の1または複数のサブセット内のリードの数と比較する。
実質的に類似する候補切断点を含むリードのサブセットは、適切な統計学的方法、グラフ法、または数学的方法により比較することができる。一部の実施形態では、比較は、被験試料および基準に由来するリードのサブセットが同じであるかまたは異なるという決定を含む。一部の実施形態では、被験試料および基準に由来するリードのサブセットが同じであるかまたは異なるという決定は、統計学的分析を含む。一部の実施形態では、リードのサブセットを比較し、サブセットが実質的に同じまたは実質的に異なるという決定を下す。一部の実施形態では、サブセット内のリードの数を比較し、第1のサブセットに由来するリードの数と、第2のサブセットに由来するリードの数とが、統計学的に異なるかまたは統計学的に異ならないという決定を下す。本明細書で使用される「統計学的に異なる」および「統計学的差異」という用語は、統計学的に有意な差異を指す。統計学的に有意な差異は、適切な方法により評価することができる。統計学的に有意な差異を決定する方法の非限定的な例は、Zスコア、分布、相関(例えば、相関係数、t検定、k検定など)、不確実性値、信頼性の尺度(例えば、信頼区間、信頼水準、信頼係数)など、またはこれらの組合せを決定および/または比較することを含む。分布を計算および/または比較することは、確率分布関数(例えば、カーネル密度推定)を計算および/または比較することを含みうる。分布を計算および/または比較することは、2つまたはこれを超える分布の不確実性値を計算および/または比較することを含みうる。不確実性値は一般には、分散または誤差の尺度であり、任意の適切な分散または誤差の尺度でありうる。不確実性値の非限定的な例は、標準偏差、標準誤差、分散、p値、平均絶対偏差(MAD)など、またはこれらの組合せを含む。
一部の実施形態では、比較(例えば、統計学的差異を決定すること)は、リードのサブセット(例えば、リードの数)を、閾値または範囲と比較することを含む。本明細書における「閾値(threshold)」および「閾値(threshold value)」という用語は、定性化データセット(例えば、1または複数の基準)を使用して計算され、決定(例えば、切断点および/または染色体変化の存在または非存在の決定)の限界として用いられる任意の数を指す。ある特定の実施形態では、閾値を超えると、2つまたはこれを超えるサブセットは、統計学的に異なると決定される。ある特定の実施形態では、閾値を超えると、被験試料(例えば、被験体、例えば、胎児)は、染色体変化を含むと決定される。ある特定の実施形態では、閾値を超えると、リードのサブセットは、切断点を含むと決定される。一部の実施形態では、リードのサブセットについて決定された定量値(例えば、リードのカウント、リードの分布、Zスコア、不確実性値、信頼性の尺度など、またはこれらの組合せ)は、閾値の範囲の内側または外側にあり、切断点および/または染色体変化の存在または非存在の決定が下される。一部の実施形態では、閾値または値の範囲は、リードデータ(例えば、基準および/または被験被験体に由来する、例えば、1または複数のサブセット内のリードの数)を数学的および/または統計学的に操作することにより計算されることが多い。一部の実施形態では、閾値は、不確実性値を含む。
任意の適切な閾値または範囲を使用して、2つのリードのサブセットが、有意に異なることを決定することができる。場合によって、約0.01パーセント(例えば、サブセット値のうちの1つまたはいずれかの0.01パーセント)またはこれを超えて異なる2つのリードのサブセットは、有意に異なる。場合によって、約0.1パーセントまたはこれを超えて異なる2つのサブセットは、有意に異なる。場合によって、約0.5パーセントまたはこれを超えて異なる2つのサブセットは、有意に異なる。場合によって、約0.5、0.75、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、または約10%を超えて異なる2つのサブセットは、有意に異なる。場合によって、2つのサブセットが、有意に異なると、サブセット内に重複が認められず、かつ/または一方または両方のサブセットについて計算された不確実性値により規定される範囲内に重複が認められない。場合によって、不確実性値(例えば、標準偏差)は、シグマとして表される。場合によって、2つのサブセットは、有意に異なると、不確実性値(例えば、1シグマ)の約1倍またはこれを超えて異なる。場合によって、2つのサブセットは、有意に異なると、不確実性値(例えば、偏差、標準偏差、MAD、シグマ)の約2倍もしくはこれを超えて異なり、不確実性値の約3倍もしくはこれを超えるか、約4倍もしくはこれを超えるか、約5倍もしくはこれを超えるか、約6倍もしくはこれを超えるか、約7倍もしくはこれを超えるか、約8倍もしくはこれを超えるか、約9倍もしくはこれを超えるか、または約10倍もしくはこれを超えて異なる。場合によって、2つのサブセットは、不確実性値の約1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2.0、2.1、2.2、2.3、2.4、2.5、2.6、2.7、2.8、2.9、3.0、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、または4.0倍またはこれを超えて異なる場合に、有意に異なる。一部の実施形態では、信頼水準は、2つのサブセットの間の差異が増大すると上昇する。場合によって、信頼水準は、2つのサブセットの間の差異が減少し、かつ/または不確実性値が増大すると低下する。
一部の実施形態では、統計学的差異の非存在は、被験試料のリードの数と、基準のリードの数との偏差(例えば、標準偏差、平均絶対偏差)の数が、約3.5未満、約3.4未満、約3.3未満、約3.2未満、約3.1未満、約3.0未満、約2.9未満、約2.8未満、約2.7未満、約2.6未満、約2.5未満、約2.0未満、約1.5未満、または約1.0未満である場合に決定する。例えば、場合によって、被験試料のリードの数が、基準のリードの数と、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なると、統計学的差異の非存在が決定される。一部の実施形態では、妊婦から得られた被験試料のリードの数が、基準のリードの数と、偏差の尺度(例えば、3シグマ、3MAD)で3未満異なると、統計学的差異の非存在が決定される。一部の実施形態では、被験試料のリードの数と基準のリードの数との間の偏差が3未満(例えば、標準偏差では3シグマ)であることにより、染色体変化の非存在が示されることが多い。1または複数の基準被験体についての、被験試料のリードの数と基準のリードの数との間の偏差の尺度は、プロットし、視覚化することができる(例えば、zスコアプロット)。
一部の実施形態では、比較は、Zスコアを比較することを含む。ある特定の実施形態では、比較は、被験試料のリードのサブセットについてのZスコアを、所定の閾値、閾値範囲、および/または基準に由来する1または複数のZスコア(例えば、Zスコアの範囲)と比較することを含む。一部の実施形態では、Zスコアに従い決定されたZスコアおよび/または閾値を使用して、リードのサブセットが、別のサブセットおよび/または基準と有意に異なることを決定する。一部の実施形態では、閾値範囲未満のZスコアおよび/または閾値範囲内のZスコア(例えば、あるレベルの不確実性内のZスコア、例えば、3、2、または1シグマ未満のZスコア、所定の範囲内のZスコア)を含むリードのサブセットは、有意に異ならない。一部の実施形態では、閾値範囲を超えるZスコアおよび/または閾値範囲外のZスコア(例えば、所定のレベルの不確実性を超えるZスコア、例えば、2、2.5、3、3.5、4、5、または6シグマを超えるZスコア、所定の範囲外のZスコア)を含むリードのサブセットは、有意に異なる。一部の実施形態では、Zスコアの比較のために使用される閾値または所定の値は、少なくとも2.5、少なくとも2.75、少なくとも3.0、少なくとも3.25、少なくとも3.5、少なくとも3.75、少なくとも4.0、少なくとも4.25、少なくとも4.5、少なくとも4.75、少なくとも5.0、少なくとも5.25、少なくとも5.5、少なくとも5.75、少なくとも6.0、少なくとも6.25、少なくとも6.5、少なくとも6.75、少なくとも7.0、少なくとも7.25、少なくとも7.5、少なくとも7.75、少なくとも8、少なくとも8.5、少なくとも9、少なくとも9.5、または少なくとも10である。
比較することは、多変量分析を含むことが多い。一部の実施形態では、多変量分析は、ヒートマップを生成および/または比較することを含む。一部の実施形態では、ヒートマップは、視覚的に比較することができ、切断点および/または染色体変化の存在および/または非存在を、視覚的に決定する。多変量分析は、場合によって、2つまたはこれを超えるデータセット(例えば、2つまたはこれを超えるリードのサブセット)の数学的操作を含む。例えば、場合によって、2つまたはこれを超えるデータセット(例えば、2つまたはこれを超えるリードのサブセットについて導出されたリードの数、Zスコア、不確実性値、および/または係数)は、加算、減算、除算、乗算、および/または標準化される。
本明細書で記載される比較は、比較モジュール(例えば、130)または比較モジュールを含むマシンにより実施することができる。一部の実施形態では、比較モジュールは、SまたはRで書かれたコード(例えば、スクリプト)であって、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するコードを含む。例えば、ヒートマップは、「gplots」(ワールドワイドウェブのURL:cran.r-project.org/web/packages/gplots/gplots.pdfにおいて、インターネットから検索される「gplots」[オンライン]、[2013年09月25日検索])において記載されており、「gplots」(ワールドワイドウェブのURL:cran.r-project.org/web/packages/gplotsにおいて、インターネットから検索される「gplots」[オンライン]、[2013年09月25日検索])においてダウンロードが利用可能なRパッケージである、heatmap.2を使用して生成することができる。例えば、ヒートマップは、heatmap.2およびスクリプト:
heatmap.2(x)
[式中、xは、染色体AおよびBについて、基準セットに照らして試料を比較する、Zスコアの行列(Rを使用して直接計算される)である]を使用して生成することができる。一部の実施形態では、比較モジュールは、適切な統計学ソフトウェアパッケージを含み、かつ/または使用する。
染色体変化の同定
一部の実施形態では、染色体変化の存在または非存在を決定する。本明細書では、場合によって、染色体変化の存在または非存在を決定することを、「アウトカム」を決定もしくは生成すること、または「判定を下すこと」と称する。一部の実施形態では、染色体変化の存在または非存在を、比較に従い決定する。染色体変化の存在または非存在は、試料から得られた不一致リードの、1または複数の選択されたサブセットを、基準から得られた不一致リードの、1または複数の選択されたサブセットと比較することにより決定されることが多い。一部の実施形態では、被験試料について決定された実質的に類似する候補切断点を含む不一致リードメイトの数を、基準について決定された実質的に類似する候補切断点を含む不一致リードメイトの数と比較する。
被験被験体(例えば、胎児)における染色体変化の非存在は、比較に従い決定することができる。一部の実施形態では、染色体変化の非存在は、被験試料に由来する不一致リードメイトの、選択されたサブセットが、基準から得られた不一致リードメイトの、選択されたサブセットと同じ候補切断点または実質的に類似する候補切断点を含む場合に決定する。場合によって、被験被験体における染色体変化の非存在は、被験試料のリードの、1もしくは複数の、または全てのサブセットが、基準のリードのサブセットと異ならない(例えば、統計学的に異ならない)場合に決定する。ある特定の実施形態では、染色体変化の非存在を決定することは、被験試料中の(例えば、被験被験体における)1または複数の切断点の非存在を比較に従い決定することを含む。
1または複数の被験被験体(例えば、胎児)における染色体変化の存在は、比較に従い決定することができる。ある特定の実施形態では、被験被験体における染色体変化の存在は、被験試料のリードの、1または複数のサブセット(例えば、リードの選択されたサブセット)が、基準のリードの、1または複数のサブセットと異なる(例えば、統計学的に異なる)場合に決定する。場合によって、被験被験体における染色体変化の存在は、候補切断点または実質的に類似する切断点を含む被験試料に由来する、候補切断点または実質的に類似する切断点を含む基準に由来するリードの数と比較して、実質的に多数のリードを同定することにより決定し、この場合、被験試料および基準の候補切断点および/または実質的に類似する切断点は、実質的に類似する。一部の実施形態では、染色体変化の存在は、被験試料に由来する不一致リードメイトの、選択されたサブセットが、基準から得られた不一致リードメイトの、選択されたサブセット内の候補切断点と実質的に異なる(例えば、統計学的に異なる)候補切断点および/または切断点を含む場合に決定する。ある特定の実施形態では、染色体変化の存在を決定することは、被験試料の候補切断点を、基準の候補切断点と比較することにより、被験試料中の(例えば、被験被験体における)1または複数の切断点を同定することを含む。一部の実施形態では、染色体変化の存在を決定することは、実質的に類似する切断点を含む被験試料に由来するリードのサブセットを同定することを含み、これにより、基準(例えば、基準試料に由来するリードのサブセット)は、被験試料中で同定された切断点と実質的に類似する候補切断点を含まないことが決定される。一部の実施形態では、染色体変化の存在を決定することは、被験被験体における染色体変化(例えば、転座または挿入)の第1の切断点および第2の切断点を同定することを含む。一部の実施形態では、染色体欠失の存在を決定することは、被験被験体における単一の切断点を同定することを含む。一部の実施形態では、染色体変化の存在を決定することは、被験被験体において同定された染色体変化と関連する1または複数の切断点を提供することを含む。
場合によって、候補切断点は、真の切断点を含むが、場合によって、候補切断点は、真の切断点を含まない。理論に限定されずに述べると、場合によって、候補切断点は、リードの2つの領域の、2つの異なる染色体、または染色体の隣接しない位置に照らしたミスアラインメントにより引き起こされるマッピングアーチファクトに従い同定され、この場合、候補切断点は、真の切断点を含まない。マッピングアーチファクトおよび/またはミスアラインメントは、被験試料および基準試料(例えば、染色体変化を含まないことが公知の試料)中で生じることが多く、その結果として、真の切断点を実際には含まない候補切断点がもたらされる。一部の実施形態では、切断点の存在または非存在を、比較に従い決定する。例えば、切断点を含まない候補切断点と、真の切断点を含む候補切断点とは、被験試料の候補切断点を、基準の候補切断点と比較することにより同定され、かつ/または互いと識別されうることが多い。例えば、場合によって、切断点は、被験試料に由来するリードのサブセットを、基準のリードのサブセットと比較することにより同定し、この場合、両方のサブセットは、実質的に類似する候補切断点を含む。実質的に類似する候補切断点を含む被験試料に由来するリードのサブセットは、比較に従い、真の切断点を含むように決定することが多く、これにより、基準(例えば、基準試料に由来するリードのサブセット)は、被験試料中で同定された切断点と実質的に類似する候補切断点を含むリードのサブセットを含まないことが決定される。
一部の実施形態では、切断点の場所および/または位置を、候補切断点の場所および/または位置(例えば、切断点を含む候補切断点)に従い決定する。ある特定の実施形態では、切断点の場所および/または位置を、本明細書で記載される方法により決定して、候補切断点の場所および/または位置を決定する。一部の実施形態では、被験被験体における、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20カ所またはこれを超える切断点の場所および/または位置を決定する。
一部の実施形態では、染色体変化の場所および/または位置を、1または複数の切断点の場所および/または位置に従い決定する。一部の実施形態では、第1の切断点を、被験試料中で決定し、この場合、第1の切断点の場所および/または位置は、染色体変化(例えば、転座、挿入)の場所および/または位置を指し示す。例えば、第1の転座が、染色体の末端において位置特定される場合、第1の転座の単一の切断点が同定されうることから、第1の転座イベントの場所が指し示される。一部の実施形態では、第1の切断点および第2の切断点を、被験試料中で決定し、この場合、第1および第2の切断点の場所および/または位置は、染色体変化(例えば、転座、挿入)の場所および/または位置を指し示す。例えば、染色体が、挿入を含むとき、場合によって、2つの切断点(例えば、挿入されたセグメントの5’側および3’側を表す5’切断点および3’切断点)を決定することができ、この場合、全ての配列リードは、基準ゲノムの同じ鎖(例えば、プラス鎖)に対してマッピングされる。転座(例えば、セグメントの、染色体への挿入を含む転座)が染色体内にある場合は、2つの切断点を同定しうることが多い。第1の染色体と第2の染色体との間の平衡転座であって、2つの染色体間で、完全なセグメントが交換される平衡転座では、場合によって、1つまたは2つの切断点を、第1の染色体上で同定することができ(例えば、第1の染色体上の5’切断点および/または3’切断点)、場合によって、1つまたは2つの切断点を、第2の染色体上で同定することができ(例えば、第2の染色体上の5’切断点および/または3’切断点)、この場合、全ての配列リードは、基準ゲノムの同じ鎖(例えば、プラス鎖)に対してマッピングされる。一部の実施形態では、切断点の場所および/または位置を、被験試料中で決定し、この場合、切断点の場所および/または位置は、染色体欠失の場所および/または位置を指し示す。
本明細書で記載される方法により、試料について、染色体変化の存在または非存在(例えば、胎児転座)の決定を提供することができ、これにより、アウトカムが提供される(例えば、これにより、染色体変化の存在または非存在(例えば、胎児転座)を決定するアウトカムが提供される)。染色体変化の存在または非存在は、基準ゲノムに対してマッピングされた配列リードを変換し、分析し、かつ/または操作することにより決定することができる。一部の実施形態では、アウトカムを決定することは、妊婦に由来する核酸を分析することを含む。
被験試料の被験領域について、染色体変化の存在または非存在を決定するために、他の任意の適切な基準も、被験試料のリードの数と共に織り込むことができる。例えば、胎児画分の決定を、被験試料のリードの数と共に織り込んで、染色体変化の存在または非存在を決定することができる。胎児画分を定量化するための適切なプロセスであって、それらの非限定的な例が、質量分析プロセス、シーケンシングプロセス、またはこれらの組合せを含むプロセスを活用することができる。
一部の実施形態では、染色体変化(例えば、転座)の存在または非存在の決定は、判定域に従い下す。ある特定の実施形態では、判定(例えば、染色体変化の存在または非存在を決定する判定、例えば、アウトカム)は、値(例えば、測定値および/またはあるレベルの不確実性)または値のコレクションが、あらかじめ規定された範囲(例えば、区域、判定域)内に収まる場合に下す。一部の実施形態では、判定域は、同じ患者試料から得られる値のコレクションに従い規定される。ある特定の実施形態では、判定域は、同じ染色体またはそのセグメントに由来する値のコレクションに従い規定される。一部の実施形態では、倍数性の決定に基づく判定域は、信頼水準(例えば、高い信頼水準、例えば、低レベルの不確実性)および/または胎児画分に従い規定される。一部の実施形態では、判定域は、倍数性の決定と、約2.0%もしくはこれを超えるか、約2.5%もしくはこれを超えるか、約3%もしくはこれを超えるか、約3.25%もしくはこれを超えるか、約3.5%もしくはこれを超えるか、約3.75%もしくはこれを超えるか、または約4.0%もしくはこれを超える胎児画分とに従い規定される。例えば、一部の実施形態では、胎児を宿す妊婦から得られた試料について、2%もしくはこれを超えるか、または4%もしくはこれを超える、胎児画分の決定を伴う、1.25を超える倍数性の決定に基づき、胎児がトリソミー21を含むという判定を下す。ある特定の実施形態では、例えば、胎児を宿す妊婦から得られた試料について、2%もしくはこれを超えるか、または4%もしくはこれを超える、胎児画分の決定を伴う、1.25未満の倍数性の決定に基づき、胎児が正倍数性であるという判定を下す。一部の実施形態では、判定域は、約99%もしくはこれを超えるか、約99.1%もしくはこれを超えるか、約99.2%もしくはこれを超えるか、約99.3%もしくはこれを超えるか、約99.4%もしくはこれを超えるか、約99.5%もしくはこれを超えるか、約99.6%もしくはこれを超えるか、約99.7%もしくはこれを超えるか、約99.8%もしくはこれを超えるか、または約99.9%もしくはこれを超える信頼水準により規定される。一部の実施形態では、判定域を使用せずに、判定を下す。一部の実施形態では、判定域およびさらなるデータまたは情報を使用して判定を下す。一部の実施形態では、判定域の使用を伴わずに、倍数性値に基づいて判定を下す。一部の実施形態では、倍数性値を計算せずに判定を下す。一部の実施形態では、プロファイルの目視(例えば、ゲノム区分レベルの目視)に基づいて判定を下す。判定は、本明細書で記載される方法により得られた決定、値、および/またはデータに、完全に、または部分的に基づく、任意の適切な方法であって、それらの非限定的な例が、マッピング可能性の変化、マッピング可能性の閾値、関係、比較、不確実性および/または信頼性の決定、zスコアなど、またはこれらの組合せを含む方法により下すことができる。
一部の実施形態では、無判定域とは、判定が下されない区域である。一部の実施形態では、無判定域は、低い精度、高い危険性、高い誤差、低い信頼水準、高い不確実性レベルなど、またはこれらの組合せを指し示す、値または値のコレクションにより規定される。一部の実施形態では、無判定域は、部分的に、約5%もしくはこれ未満、約4%もしくはこれ未満、約3%もしくはこれ未満、約2.5%もしくはこれ未満、約2.0%もしくはこれ未満、約1.5%もしくはこれ未満、または約1.0%もしくはこれ未満の胎児画分により規定される。
一部の実施形態では、染色体変化(例えば、転座)の存在または非存在を決定するための方法は、少なくとも約90%〜約100%の精度で実施する。例えば、染色体変化の存在または非存在は、少なくとも約91%、92%、93%、94%、95%、96%、97%、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%の精度で決定することができる。一部の実施形態では、染色体変化の存在または非存在を、染色体変化決定の他の方法(例えば、核型分析)を使用するときの精度とほぼ同じであるか、またはこれより高い精度で決定する。一部の実施形態では、染色体変化の存在または非存在を、信頼区間(CI)を約80%〜約100%とする精度で決定する。例えば、信頼区間(CI)は、約81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、または99%でありうる。
ある特定の実施形態では、感度、特異度、および/または信頼水準のうちの1または複数を、百分率として表す。一部の実施形態では、百分率は、各変数について独立に、約90%を超える(例えば、約90、91、92、93、94、95、96、97、98、または99%、または99%を超える(例えば、約99.5%もしくはこれを超えるか、約99.9%もしくはこれを超えるか、約99.95%もしくはこれを超えるか、約99.99%もしくはこれを超える))。一部の実施形態では、変動係数(CV)を、百分率として表し、場合によって、百分率は、約10%もしくはこれ未満(例えば、約10、9、8、7、6、5、4、3、2、または1%、または1%未満の(例えば、約0.5%もしくはこれ未満、約0.1%もしくはこれ未満、約0.05%もしくはこれ未満、約0.01%もしくはこれ未満))である。ある特定の実施形態では、確率(例えば、特定のアウトカムが偶然によらない確率)を、Zスコア、p値、またはt検定の結果として表す。一部の実施形態では、アウトカムについて測定される、分散、信頼区間、感度、特異度など(例えば、まとめて、信頼性パラメータと称する)は、本明細書で記載される、1または複数のデータ処理操作を使用して生成することができる。アウトカムおよび関連する信頼水準の生成の具体例については、実施例節および、本文、表、式、および図面の全てを含む、その全内容が参照により本明細書に組み込まれる、国際特許出願第PCT/US12/59123号(WO2013/052913)において記載されている。
本明細書で使用される「感度」という用語は、真陽性の数を、真陽性の数に偽陰性の数を加算して得た数で除算して得た数を指し、この場合、感度(sens)は、0≦sens≦1の範囲内でありうる。本明細書で使用される「特異度」という用語は、真陰性の数を、真陰性の数に偽陽性の数を加算して得た数で除算して得た数を指し、この場合、特異度(spec)は、0≦spec≦1の範囲内でありうる。一部の実施形態では、場合によって、感度および特異度が1もしくは100%と等しいか、または1の近傍にある(例えば、約90%〜約99%間にある)方法を選択する。一部の実施形態では、感度が1または100%と等しい方法を選択し、ある特定の実施形態では、感度が1の近傍にある(例えば、約90%の感度、約91%の感度、約92%の感度、約93%の感度、約94%の感度、約95%の感度、約96%の感度、約97%の感度、約98%の感度、または約99%の感度である)方法を選択する。一部の実施形態では、特異度が1または100%と等しい方法を選択し、ある特定の実施形態では、特異度が1の近傍にある(例えば、約90%の特異度、約91%の特異度、約92%の特異度、約93%の特異度、約94%の特異度、約95%の特異度、約96%の特異度、約97%の特異度、約98%の特異度、または約99%の特異度である)方法を選択する。
被験体が、少なくとも1つの染色体変化を実際に有する場合に、被験体が、少なくとも1つの染色体変化を有さないものとして誤って同定されないように、偽陰性の数は、ゼロと等しいかまたはゼロに近いことが理想的である。逆に、感度と補完的な計量である、陰性を正確に分類する予測アルゴリズムの能力についても評価を行うことが多い。被験体が、評価される染色体変化を有さない場合に、被験体が、少なくとも1つの染色体変化を有すると誤って同定されないように、偽陽性の数も、ゼロと等しいかまたはゼロに近いことが理想的である。
一部の実施形態では、アウトカムは、本明細書で記載される、1または複数の処理ステップを実施した後で生成することができる。ある特定の実施形態では、アウトカムは、本明細書で記載される処理ステップのうちの1つの結果として生成し、一部の実施形態では、アウトカムは、データセットの各統計学的操作および/または各数学的操作を実施した後で生成することができる。染色体変化の存在または非存在の決定に関するアウトカムは、適切な形態であって、限定せずに述べると、被験体もしくは試料についての染色体変化の存在もしくは非存在と関連する、確率(例えば、オッズ比、p値)、尤度、クラスター内もしくはクラスター外の値、閾値を上回る値もしくは閾値を下回る値、範囲(例えば、閾値範囲)内の値、分散もしくは信頼性の尺度を伴う値、または危険性因子を含む形態で表すことができる。ある特定の実施形態では、試料間の比較は、試料の識別の確認を可能とする(例えば、繰り返された試料および/または混合された試料(例えば、誤表示された試料、組み合わされた試料など)の同定を可能とする)。
一部の実施形態では、アウトカムは、所定の閾値またはカットオフ値を上回るかまたは下回る値(例えば、1を超える値、1未満の値)と、値と関連する不確実性または信頼水準とを含む。ある特定の実施形態では、所定の閾値またはカットオフ値は、予測レベルまたは予測レベルの範囲である。アウトカムはまた、データ処理において使用される仮定についても記載しうる。ある特定の実施形態では、アウトカムは、所定の値の範囲(例えば、閾値範囲)内または範囲外にある値と、範囲内または範囲外にあるその値についての、関連する不確実性または信頼水準とを含む。一部の実施形態では、アウトカムは、所定の値と等しい(例えば、1と等しい、ゼロと等しい)か、または所定の値の範囲内の値と等しい値と、等しいかまたは範囲内にあるかもしくは範囲外にあるその値についての、その関連する不確実性または信頼水準とを含む。アウトカムは、場合によって、プロット(例えば、プロファイルのプロット)としてグラフ的に表示される。
上記で注目した通り、アウトカムは、真陽性、真陰性、偽陽性、または偽陰性として特徴付けることができる。本明細書で使用される「真陽性」という用語は、染色体変化を有すると正しく診断された被験体を指す。本明細書で使用される「偽陽性」という用語は、染色体変化を有すると誤って同定された被験体を指す。本明細書で使用される「真陰性」という用語は、染色体変化を有さないと正しく同定された被験体を指す。本明細書で使用される「偽陰性」という用語は、染色体変化を有さないと誤って同定された被験体を指す。任意の所与の方法についての効能の2つの尺度は、以下の発生比:(i)一般に、予測された陽性の割合であって、陽性として正しく同定された割合である感度値と;(ii)一般に、予測された陰性の割合であって、陰性として正しく同定された割合である特異度値とに基づき計算することができる。
ある特定の実施形態では、染色体変化の存在または非存在を、試料中の核酸から決定する。一部の実施形態では、検出されるかまたは検出されない変異は、1つの供給源に由来する試料核酸中には存在するが、別の供給源に由来する試料核酸中には存在しない。供給源の非限定的な例は、胎盤核酸、胎児核酸、母体核酸、がん細胞核酸、非がん細胞核酸など、およびこれらの組合せを含む。非限定的な例では、検出されるかまたは検出されない特定の染色体変化は、(i)胎盤核酸中には存在するが、胎児核酸中には存在せず、母体核酸中にも存在しないか、(ii)胎児核酸中には存在するが、母体核酸中には存在しないか、または(iii)母体核酸中には存在するが、胎児核酸中には存在しない。一部の実施形態では、染色体変化(例えば、転座)の存在または非存在を、胎児について決定する。このような実施形態では、染色体変化(例えば、転座)の存在または非存在を、母体についても決定する。
本明細書で記載される方法および/またはシステムにより検出しうる、一部の染色体変化(例えば、転座、挿入、欠失、逆位)は、その非限定的な例が表1に示される、障害または疾患と関連する。
染色体変化は、場合によって、医学的状態(例えば、表1)と関連する。染色体変化を決定するアウトカムは、場合によって、状態(例えば、医学的状態)、疾患、症候群、もしくは異常の存在もしくは非存在を決定するアウトカムであるか、または状態、疾患、症候群、もしくは異常(例えば、表1に列挙された非限定的な例)の検出を含む。ある特定の実施形態では、診断は、アウトカムについての評価を含む。本明細書で記載される方法により状態(例えば、医学的状態)、疾患、症候群、または異常の存在または非存在を決定するアウトカムは、場合によって、さらに調べることにより(例えば、核型分析および/または羊水穿刺により)、独立に検証することができる。データの分析および処理により、1または複数のアウトカムを提供することができる。本明細書で使用される「アウトカム」という用語は、染色体変化(例えば、転座、欠失)の存在または非存在を決定することを容易とする、データ処理の結果を指す場合がある。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、染色体変化(例えば、転座、欠失)の存在または非存在を予測および/または決定する結論を指す。ある特定の実施形態では、本明細書で使用される「アウトカム」という用語は、被験体(例えば、胎児)における染色体変化の存在または非存在(例えば、転座)の危険性または確率を予測および/または決定する結論を指す。診断は、場合によって、アウトカムの使用を含む。例えば、医療関係者は、アウトカムを分析し、アウトカムに基づくか、または部分的に基づき、診断を提供することができる。一部の実施形態では、状態、症候群、または異常(例えば、表1に列挙された)についての決定、検出、または診断は、染色体変化の存在または非存在を決定するアウトカムの使用を含む。一部の実施形態では、不一致リード対、マッピング特徴、および切断点の同定に基づくアウトカムは、染色体変化の存在または非存在を決定する。ある特定の実施形態では、本明細書で記載される1種またはそれより多くの種の方法またはシステムを活用して生成されたアウトカムは、表1に列挙された1または複数の状態、症候群、または異常の存在または非存在を決定する。ある特定の実施形態では、診断は、状態、症候群、または異常の存在または非存在の決定を含む。診断は、状態、症候群、または異常の性質および/または原因としての染色体変化の決定を含むことが多い。ある特定の実施形態では、アウトカムは、診断ではない。確率についての1または複数の検討の文脈では、アウトカムは、本明細書で記載される処理法を使用して生成される1または複数の数値を含むことが多い。危険性または確率の検討は、不確実性値、ばらつきの尺度、信頼水準、感度、特異度、標準偏差、変動係数(CV)および/または信頼水準、Zスコア、カイ値、ファイ値、倍数性値、適合させた胎児画分、面積比、中央値レベルなど、またはこれらの組合せを含みうるがこれらに限定されない。確率の検討は、被験体に染色体変化を有する危険性があるのかどうか、または被験体が染色体変化を有するのかどうかの決定を容易とすることが可能であり、遺伝子障害の存在または非存在を決定するアウトカムは、このような検討を含むことが多い。
アウトカムは、場合によって、表現型である。アウトカムは、場合によって、関連する信頼水準(例えば、不確実性値、例えば、胎児は、99%の信頼水準で自閉症について陽性であり、妊婦は、95%の信頼水準で、男性胎児を宿しており、被験被験体は、95%の信頼水準で、染色体変化と関連するがんについて陰性である)を伴う表現型である。アウトカム値を生成する異なる方法は、場合によって、異なる種類の結果をもたらしうる。一般に、本明細書で記載される方法を使用して生成されるアウトカム値に基づき下されうる、4種類の可能なスコアまたは判定:真陽性、偽陽性、真陰性、および偽陰性が存在する。本明細書で使用される「スコア(score)」、「スコア(scores)」、「判定(call)」、および「判定(calls)」という用語は、特定の染色体変化が、被験体において/試料中に存在するか、または非存在である確率を計算することを指す。スコアの値を使用して、例えば、染色体変化に対応しうる、マッピングされた配列リードの変動、差異、または比を決定することができる。例えば、データセットに由来する、選択された染色体変化または部分について、基準ゲノムに対して正のスコアを計算することにより、場合によって、医学的状態(例えば、がん、自閉症など)と関連する、染色体変化の存在または非存在の同定をもたらすことができる。一部の実施形態では、アウトカムは、レベル、プロファイル、および/またはプロット(例えば、プロファイルのプロット)を含む。アウトカムが、プロファイルを含む実施形態では、適切なプロファイルまたはプロファイルの組合せを、アウトカムのために使用することができる。アウトカムのために使用されうる、プロファイルの非限定的な例は、zスコアプロファイル、p値プロファイル、カイ値プロファイル、ファイ値プロファイルなど、およびこれらの組合せを含む。
染色体変化の存在または非存在を決定する、1または複数のアウトカムを含む報告を受け取る医療従事者または他の有資格者は、報告内で示されたデータを使用して、被験被験体または患者の状態についての判定を下すことができる。一部の実施形態では、医療従事者は、提供されたアウトカムに基づき、推奨を行うことができる。一部の実施形態では、医療従事者または有資格者は、報告で提供された、1または複数のアウトカム値および関連する信頼性パラメータに基づき、被験被験体または患者に、染色体変化の存在または非存在に関する判定またはスコアを提供することができる。ある特定の実施形態では、提供された報告の目視観察を使用して、医療従事者または有資格者が、手作業でスコアを作成するかまたは判定を下す。ある特定の実施形態では、場合によって、ソフトウェア内に埋め込まれた自動式のルーチンにより、スコアを作成するかまたは判定を下し、被験被験体または患者へと情報を提供する前に、医療従事者または有資格者が、精度について再検討する。本明細書で使用される「報告を受け取ること」という用語は、通信手段を介して、アウトカムを含む文章表示および/またはグラフ表示を得ることを指し、アウトカムは、再検討されると、医療従事者または他の有資格者が、被験被験体または患者における染色体変化の存在または非存在についての決定を下すことを可能とする。報告は、コンピュータにより作成することもでき、手作業によるデータ入力により作成することもでき、電子的手段(例えば、インターネットを介する、コンピュータを介する、ファックスを介する、同じ物理的施設または異なる物理的施設における1つのネットワーク拠点から別の拠点への)を使用して通信することもでき、データを送付または受領する別の方法(例えば、郵便、宅配便など)により通信することもできる。一部の実施形態では、アウトカムは、限定せずに述べると、非一過性のコンピュータ読取り型記憶メディア、および/または音声言語形態、文書形態、もしくはファイル形態を含む、適切な媒体により、医療従事者へと伝送される。ファイルは、例えば、音声ファイル、非一過性のコンピュータ読取り型ファイル、書類ファイル、検査室ファイル、または医療記録ファイルでありうるがこれらに限定されない。
本明細書で使用される、「アウトカムを提供すること」という用語およびその文法的な同等物はまた、このような情報を得るための方法であって、限定せずに述べると、情報を検査室から得る(例えば、検査室ファイル)ステップを含む方法も指す場合がある。検査室ファイルは、1または複数のアッセイを実行した検査室で作成することもでき、医学的状態の存在または非存在を決定する、1または複数のデータ処理ステップにより作成することもできる。検査室は、医学的状態の存在または非存在を検査室ファイルから同定する医療関係者と同じ場所にある場合もあり、異なる場所(例えば、別の国内)にある場合もある。例えば、検査室ファイルは、1つの場所で作成し、別の場所へと伝送することができ、そこで、その中の情報を妊婦被験体へと伝送する。ある特定の実施形態では、検査室ファイルは、実体的形態の場合もあり、電子的形態(例えば、コンピュータ読取り型形態)の場合もある。
一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提供することができ、医療従事者、医師、または有資格者は、アウトカムに基づき、診断を下すことができる。一部の実施形態では、アウトカムは、検査室から、医療従事者、医師、または有資格者へと提供することができ、医療従事者、医師、または有資格者は、さらなるデータおよび/または情報、ならびに他のアウトカムと共に、アウトカムに部分的に基づき、診断を下すことができる。
医療従事者または有資格者は、報告で提供された1または複数のアウトカムに基づき、適切な推奨を提供することができる。提供されたアウトカム報告に基づき提供されうる、推奨の非限定的な例は、手術、放射線療法、化学療法、遺伝子カウンセリング、出産後処置ソリューション(例えば、人生設計、長期にわたる介護ケア、医薬、対症的処置)、妊娠中絶、臓器移植、輸血など、または前出の組合せを含む。
検査室関係者(例えば、検査室管理者)は、染色体変化の存在または非存在の決定の根底をなす値(例えば、被験試料のリードの数、基準のリードの数、偏差のレベル)について分析することができる。染色体変化の存在または非存在に関する判定であって、微妙であるかまたは問題含みである判定のために、検査室関係者は、同じ検査を再発注することもでき、かつ/または被験被験体に由来する同じ試料核酸または異なる試料核酸を使用する、異なる検査(例えば、一部の胎児染色体変化の場合における核型分析および/または羊水穿刺)を発注することもできる。
アウトカムは、医療従事者(例えば、検査室技師または管理者;医師または助手)へと提供することが典型的である。アウトカムは、アウトカムモジュールにより提供することが多い。アウトカムモジュールは、適切な統計学ソフトウェアパッケージを含みうる。ある特定の実施形態では、アウトカムを、プロッティングモジュールにより提供する。適切な統計学的ソフトウェアは、適切なプロッティングモジュールを含むことが多い。一部の実施形態では、アウトカムモジュールは、Zスコアを生成および/または比較する。
一部の実施形態では、プロッティングモジュールは、データおよび/または情報を、それらの非限定的な例が、図表、プロット、グラフなど、またはこれらの組合せを含む、適切な視覚的メディアへと、処理および/または変換する。一部の実施形態では、プロッティングモジュールは、データおよび/または情報を、適切なディスプレイ(例えば、モニター、LED、LCD、CRTなど、またはこれらの組合せ)上、プリンター(例えば、印字された書類による提示)上、適切な周辺機器上、またはデバイス上の表示のために、処理、変換、および/または移す。ある特定の実施形態では、プロッティングモジュールは、関係および/またはアウトカムの視覚的表示をもたらす。
ある特定の実施形態では、アウトカムは、マシンの周辺機器上もしくは構成要素上またはマシン上に提供される。例えば、場合によって、アウトカムは、プリンターまたはディスプレイにより提供される。一部の実施形態では、染色体変化の存在もしくは非存在および/または関連する疾患もしくは障害を決定するアウトカムは、医療従事者へと、報告の形態で提供され、ある特定の実施形態では、報告は、アウトカム値および関連する信頼性パラメータの提示を含む。一般に、アウトカムは、染色体変化の存在もしくは非存在および/または医学的状態の決定を容易とする、適切なフォーマットで表示することができる。データセットを報告および/もしくは表示するか、またはアウトカムを報告するための使用に適するフォーマットの非限定的な例は、ディジタルデータ、グラフ、2Dグラフ、3Dグラフ、および4Dグラフ、写真、統計図表、図表、棒グラフ、円グラフ、概略図、フローチャート、散布図、マップ、ヒストグラム、密度図、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイヤグラム、コンターダイアグラム、カルトグラム、レーダーチャート、ベン図、ノモグラムなど、および前出の組合せを含む。アウトカム表示の多様な例については、図面で示され、本明細書で記載される。
データのフィルタリングおよび処理
一部の実施形態では、1または複数の処理ステップは、1または複数のフィルタリングするステップを含みうる。本明細書で使用される「〜をフィルタリングすること」という用語は、データまたはデータセットの部分を検討から除外し、データのサブセットを保持することを指す。配列リードを、冗長データ(例えば、マッピングされたリードの冗長または重複)、情報を伝えないデータ、過剰表示配列または過少表示配列、ノイズデータなど、または前出の組合せを含むがこれらに限定されない、任意の適切な基準に基づき、除外のために選択することができる。フィルタリングプロセスは、1または複数のリードおよび/またはリード対(例えば、不一致リード対)を検討から除外することを伴うことが多い。リード、リード対、および/または候補切断点を含むリードの数を、染色体変化の存在または非存在について分析されるデータセットから低減することにより、データセットの複雑性および/または次元が低減され、場合によって、染色体変化を探索し、かつ/または同定する速度が、2桁またはこれを超えて増大することが多い。
一部の実施形態では、本明細書で記載されるシステムまたは方法は、リード、不一致リードメイト、および/または不一致リード対をフィルタリングするステップを含む。フィルタリングするステップは、不一致リードメイトを同定するステップ、複数の配列リード部分配列のマッピング可能性を特徴付けるステップ、マッピング可能性の変化を提供するステップ、不一致リードメイトのサブセットを選択するステップ、候補切断点を同定するステップ、リードのサブセットを比較するステップ、候補切断点を比較するステップ、切断点を同定するステップ、または試料に由来する不一致リードメイトの数を基準と比較するステップの前に、またはこれらの後で実施することができる。フィルタリングするステップは、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップの前に実施することが多い。
フィルタリングするステップは、システムまたはモジュールにより実施することが多い。本明細書では、フィルタリングするステップを実施するシステムまたはモジュールを、フィルターモジュールまたはフィルタリングモジュールと称する。一部の実施形態では、フィルタリングモジュールは、SまたはRで書かれたコード(例えば、スクリプト)であって、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するコードを含む。例えば、フィルターモジュールは、1または複数のSAMツール(ワールドワイドウェブのURL:samtools.sourceforge.netにおいて、インターネットから検索される、「SAMtools」[オンライン][2013年09月25日検索])を含むことが可能であり、これらを活用しうる。例えば、全ての該当するフラッグの合計を使用して、一致リードを同定することができ、ここで、一致リードまたはPCR複製リードの選択は、「if(bitwiseA==83||bitwiseA==163||bitwiseA==99||bitwiseA==147||bitwiseA>=1024)」[式中、bitwiseAは、SAMフォーマット形式のファイル内の、全ての該当するフラッグの合計である]である。
フィルターは、データセット(例えば、リードのセット)を入力として受け入れ、フィルタリングされたデータのサブセット(例えば、リードのサブセット、例えば、フィルタリングされたリード)を出力することが多い。ある特定の実施形態では、フィルタリングプロセスで除外されたリードは、さらなる分析(例えば、統計学的分析)から棄却および/または除外されることが多い。フィルタリングするステップは、リードを、リードのセットから除外することを含むことが多い。一部の実施形態では、フィルタリングするステップは、不一致リード対の一方または両方のリードメイトを除外することを含む。一部の実施形態では、フィルタリングするステップは、複数のリードをリードのセットから除外することを含む。場合によって、フィルタリングするステップでは、リードは除外されない。
フィルタリングするステップは、所定の条件付きクエリーに従い、ある特定のリードを、データセットから除外、棄却、または却下することが多い。例えば、場合によって、フィルターは、入力リードを、システムまたは別のモジュールから受け取り、受け取られたリードに対してフィルタリング機能を果たし、条件を満たす入力リードだけを受け入れる。一部の実施形態では、フィルターは、入力リードを、システムまたは別のモジュールから受け取り、受け取られたリードに対してフィルタリング機能を果たし、条件を満たす入力リードだけを除外、棄却、または却下する。一部の実施形態では、条件付きクエリーは、はい/いいえまたは真/偽の決定を含む。例えば、「真」値または「はい」の値は、場合によって、クエリーの条件が満たされる、1または複数のリードへと割り当てられ、「偽」値または「いいえ」の値は、クエリーの条件が満たされないリードへと割り当てられる。
一部の実施形態では、フィルタリングするステップは、非不一致リード(例えば、一致リード)を除外、却下、および/または棄却することを含む。一部の実施形態では、フィルター(例えば、20)の条件付きクエリーは、不一致ペアドリードの存在または非存在の決定を含む。一部の実施形態では、不一致でないペアドリードを、除外、却下、および/または棄却する。一部の実施形態では、不一致でないペアドリードに、「偽」値または「いいえ」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、非不一致リードは、フィルター20を通ることを許容されない。一部の実施形態では、非不一致リードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。ある特定の実施形態では、不一致ペアドリードを同定し、かつ/またはフィルタリングされたリードの出力サブセット内で保持する。ある特定の実施形態では、不一致ペアドリードを同定し、別のモジュールまたはフィルターへと送る。一部の実施形態では、不一致ペアドリードを同定し、「真」値または「はい」の値を割り当て、フィルタリングされたリードの出力サブセット(例えば、不一致リード対)内で保持する。一部の実施形態では、不一致リードは、フィルター20により、受け入れ、通過させる。リードは、不一致リード同定モジュール(例えば、フィルター20)を介して、不一致および/または非不一致リードの存在または非存在に従いフィルタリングすることができる。不一致リード同定モジュールは、場合によって、非不一致リードを除外、却下、または棄却するように構成されたフィルターを含む。
一部の実施形態では、フィルタリングするステップは、正確な複製であるリードを除外、却下、および/または棄却することを含む。本明細書では、複製リードを、PCR複製と称する。一部の実施形態では、フィルター(例えば、30)の条件付きクエリーは、PCR複製の存在または非存在の決定を含む。一部の実施形態では、PCR複製に「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、PCR複製は、フィルター30を通ることを許容されない。一部の実施形態では、PCR複製は、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。本明細書では、複製リードのセットを表示するリードを、「表示リード」と称する。一部の実施形態では、表示リードおよびユニークリードを、フィルタリングされたリードの出力サブセット内で保持する。表示リードおよびユニークリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、表示リードおよびユニークリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、表示リードおよびユニークリードを、フィルター(例えば、30)へと受け入れ、かつ/またはフィルター(例えば、30)を通す。リードは、PCR複製フィルター(例えば、フィルター30)を介して、PCR複製に従いフィルタリングすることができる。フィルターモジュールは、場合によって、PCR複製フィルターを含む。
一部の実施形態では、フィルタリングするステップは、シーケンシング品質の低いリードを除外、却下、および/または棄却することを含む。シーケンシング品質の低いリードは、PHREDスコアが、約40、約35、約30、約25、約20、約15、約10、または約5と等しいかまたはこれ未満のリードであることが多い。一部の実施形態では、フィルター(例えば、40)の条件付きクエリーは、シーケンシング品質の低いリードの存在または非存在の決定を含む。一部の実施形態では、シーケンシング品質の低いリードに「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、シーケンシング品質の低いリードは、フィルター40を通ることを許容されない。一部の実施形態では、シーケンシング品質の低いリードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。低品質でないリード(例えば、高品質のリード)は、場合によって、フィルタリングされたリードの出力サブセット内で保持される。低品質でないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、低品質でないリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、低品質でないリードを、フィルター(例えば、40)へと受け入れ、かつ/またはフィルター(例えば、40)を通す。リードは、シーケンシング品質フィルター(例えば、フィルター40)を介して、シーケンシング品質に従いフィルタリングすることができる。フィルターモジュールは、場合によって、シーケンシング品質フィルターを含む。
一部の実施形態では、フィルタリングするステップは、リードの配列リード部分配列が、マッピング不連続性を含むリードを除外、却下、および/または棄却することを含む。マッピング不連続性は、リードの配列リード部分配列を指すことが多く、この場合、3つまたはこれを超える(例えば、>2つの)断片は、基準ゲノム上の異なる(例えば、予測外の)場所(例えば、段階的な多重アラインメントを含むリード)に対してマッピングされる。マッピング不連続性とは、場合によって、(i)異なる染色体(例えば、3つまたはこれを超える、異なる染色体)、(ii)各場所が、所定の断片サイズを超えて(例えば、300bpを超えるか、500bpを超えるか、1000bpを超えるか、5000bpを超えるか、または10,000bpを超えて)隔てられた、異なる場所、(iii)異なる配向性および/もしくは逆の配向性など、またはこれらの組合せに対してマッピングされるリードについての、3つまたはこれを超える、in silicoの断片を指す。例えば、マッピング不連続性は、2つの断片が、逆の配向性に従いマッピングされ、第3の断片が、異なる染色体に対してマッピングされる、配列リード部分配列を指す場合がある。一部の実施形態では、フィルター(例えば、60)の条件付きクエリーは、マッピング不連続性を含むリードの存在または非存在の決定を含む。一部の実施形態では、マッピング不連続性を含むリードに「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、マッピング不連続性を含むリードは、フィルター60を通ることを許容されない。一部の実施形態では、マッピング不連続性を含むリードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/またはフォーマットで保持される。マッピング不連続性を含まないリードは、場合によって、フィルタリングされたリードの出力サブセット内で保持される。マッピング不連続性を含まないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、マッピング不連続性を含まないリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、マッピング不連続性を含まないリードを、フィルター(例えば、60)へと受け入れ、かつ/またはフィルター(例えば、60)を通す。リードは、マッピング不連続性フィルター(例えば、フィルター60)を介して、マッピング不連続性に従いフィルタリングすることができる。フィルターモジュールは、場合によって、マッピング不連続性フィルターを含む。
一部の実施形態では、フィルタリングするステップは、マッピング不可能な配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルタリングするステップは、1もしくは複数であるか、2を超えるか、3を超えるか、4を超えるか、5を超えるか、6を超えるか、7を超えるか、8を超えるか、9を超えるか、10を超えるか、11を超えるか、12を超えるか、13を超えるか、14を超えるか、または15を超える、マッピング不可能な配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。「マッピング不可能な」とは、ポリヌクレオチドを、基準ゲノム(例えば、ヒト基準ゲノム)の場所へと一義的にマッピングすることの不可能性を指す。一部の実施形態では、フィルター(例えば、70)の条件付きクエリーは、マッピング不可能な配列リード部分配列を含むリードの存在または非存在の決定を含む。一部の実施形態では、マッピング不可能な配列リード部分配列を含むリードに「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、マッピング不可能な配列リード部分配列を含むリードは、フィルター70を通ることを許容されない。一部の実施形態では、マッピング不可能な配列リード部分配列を含むリードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。マッピング不可能な配列リード部分配列を含まないリードは、場合によって、フィルタリングされたリードの出力サブセット内で保持される。マッピング不可能な配列リード部分配列を含まないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、マッピング不可能な配列リード部分配列を含まないリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、マッピング不可能な配列リード部分配列を含まないリードを、フィルター(例えば、70)へと受け入れ、かつ/またはフィルター(例えば、70)を通す。リードは、マッピングフィルター(例えば、フィルター70)を介して、マッピング不可能な配列リード部分配列に従いフィルタリングすることができる。フィルターモジュールは、場合によって、マッピングフィルターを含む。
一部の実施形態では、フィルタリングするステップは、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルタリングするステップは、1もしくは複数であるか、2を超えるか、3を超えるか、4を超えるか、5を超えるか、6を超えるか、7を超えるか、8を超えるか、9を超えるか、10を超えるか、11を超えるか、12を超えるか、13を超えるか、14を超えるか、または15を超える、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルター(例えば、80)の条件付きクエリーは、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含むリードの存在または非存在の決定を含む。一部の実施形態では、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含むリードに「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含むリードは、フィルター80を通ることを許容されない。一部の実施形態では、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含むリードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含まないリードは、場合によって、フィルタリングされたリードの出力サブセット内で保持される。ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含まないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含まないリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、ミトコンドリアDNAに対してマッピングされる配列リード部分配列を含まないリードを、フィルター(例えば、80)へと受け入れ、かつ/またはフィルター(例えば、80)を通す。リードは、ミトコンドリアフィルター(例えば、フィルター80)を介して、ミトコンドリアDNAに対してマッピングされる配列リード部分配列に従いフィルタリングすることができる。フィルターモジュールは、場合によって、ミトコンドリアフィルターを含む。
一部の実施形態では、フィルタリングするステップは、セントロメアDNAに対してマッピングされる配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルタリングするステップは、1もしくは複数であるか、2を超えるか、3を超えるか、4を超えるか、5を超えるか、6を超えるか、7を超えるか、8を超えるか、9を超えるか、10を超えるか、11を超えるか、12を超えるか、13を超えるか、14を超えるか、または15を超える、セントロメアDNAに対してマッピングされる配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルターの条件付きクエリーは、セントロメアDNAに対してマッピングされる配列リード部分配列を含むリードの存在または非存在の決定を含む。一部の実施形態では、セントロメアDNAに対してマッピングされる配列リード部分配列を含むリードに「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、セントロメアDNAに対してマッピングされる配列リード部分配列を含むリードは、フィルターを通ることを許容されない。一部の実施形態では、セントロメアDNAに対してマッピングされる配列リード部分配列を含むリードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。セントロメアDNAに対してマッピングされる配列リード部分配列を含まないリードは、場合によって、フィルタリングされたリードの出力サブセット内で保持される。セントロメアDNAに対してマッピングされる配列リード部分配列を含まないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、セントロメアDNAに対してマッピングされる配列リード部分配列を含まないリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、セントロメアDNAに対してマッピングされる配列リード部分配列を含まないリードを、フィルターへと受け入れ、かつ/またはフィルターを通す。リードは、セントロメアDNAフィルターを介して、セントロメアDNAに対してマッピングされる配列リード部分配列に従いフィルタリングすることができる。フィルターモジュールは、場合によって、セントロメアDNAフィルターを含む。
一部の実施形態では、フィルタリングするステップは、反復エレメントに対してマッピングされる配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルタリングするステップは、1もしくは複数であるか、2を超えるか、3を超えるか、4を超えるか、5を超えるか、6を超えるか、7を超えるか、8を超えるか、9を超えるか、10を超えるか、11を超えるか、12を超えるか、13を超えるか、14を超えるか、または15を超える、反復エレメントに対してマッピングされる配列リード部分配列を含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルター(例えば、110)の条件付きクエリーは、反復エレメントに対してマッピングされる配列リード部分配列を含むリードの存在または非存在の決定を含む。一部の実施形態では、反復エレメントに対してマッピングされる配列リード部分配列を含むリードに「真」値または「はい」の値を割り当て、モジュールにより除外、却下し、かつ/または棄却する。一部の実施形態では、反復エレメントに対してマッピングされる配列リード部分配列を含むリードは、フィルター110を通ることを許容されない。一部の実施形態では、反復エレメントに対してマッピングされる配列リード部分配列を含むリードは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。反復エレメントに対してマッピングされる配列リード部分配列を含まないリードは、場合によって、フィルタリングされたリードの出力サブセット内で保持される。反復エレメントに対してマッピングされる配列リード部分配列を含まないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。一部の実施形態では、反復エレメントに対してマッピングされる配列リード部分配列を含まないリードを同定し、「偽」値または「いいえ」の値を割り当て、フィルタリングされたリードの出力サブセット内で保持する。一部の実施形態では、反復エレメントに対してマッピングされる配列リード部分配列を含まないリードを、フィルター(例えば、110)へと受け入れ、かつ/またはフィルター(例えば、110)を通す。リードは、反復エレメントフィルター(例えば、フィルター110)を介して、反復エレメントに対してマッピングされる配列リード部分配列に従いフィルタリングすることができる。フィルターモジュールは、場合によって、反復エレメントフィルターを含む。
一部の実施形態では、フィルタリングするステップは、シングルトンイベントを含むリードを除外、却下、および/または棄却することを含む。一部の実施形態では、フィルター(例えば、100)の条件付きクエリーは、シングルトンイベントの存在または非存在の決定を含む。本明細書で使用される「シングルトンイベント」とは、実質的に類似する候補切断点(例えば、第1の候補切断点と実質的に類似する候補切断点)が、試料から得られた他の任意のリード内で同定されず、かつ/またはこの中に存在しない、第1の候補切断点を含む、リードまたは不一致リード対を指す。一部の実施形態では、シングルトンイベントに「真」値または「はい」の値を割り当て、除外、却下、および/または棄却する。一部の実施形態では、シングルトンイベントは、フィルター100を通ることを許容されない。一部の実施形態では、シングルトンイベントは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。シングルトンイベントでないリードは、場合によって、フィルタリングされたリードの出力サブセット(例えば、選択されたサブセット)内で保持される。シングルトンイベントでないリードは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。シングルトンイベントでないリードは同定され、「偽」値または「いいえ」の値を割り当てられ、フィルタリングされたリードの出力サブセット(例えば、選択されたサブセット)内で保持される。一部の実施形態では、シングルトンイベントでないリードを、フィルター(例えば、100)へと受け入れ、かつ/またはフィルター(例えば、100)を通す。リードは、シングルトンイベントフィルター(例えば、フィルター100)を介して、シングルトンイベントの存在または非存在に従いフィルタリングすることができる。フィルターモジュールは、場合によって、シングルトンイベントフィルターを含む。
一部の実施形態では、フィルタリングするステップは、基準に由来するリードのサブセット内で見出される切断点または候補切断点と実質的に類似する切断点または実質的に類似する候補切断点を含む試料のリードのサブセットを除外、却下、および/または棄却することを含む。一部の実施形態では、基準に由来するリードのサブセット内で見出される切断点または候補切断点と実質的に類似する切断点または実質的に類似する候補切断点を含む試料のリードのサブセットに「真」値または「はい」の値を割り当て、除外、却下、および/または棄却する。一部の実施形態では、基準に由来するリードのサブセット内で見出される切断点または候補切断点と実質的に類似する切断点または実質的に類似する候補切断点を含む試料のリードのサブセットは、フィルターを通ることを許容されない。一部の実施形態では、基準に由来するリードのサブセット内で見出される切断点または候補切断点と実質的に類似する切断点または実質的に類似する候補切断点を含む試料のリードのサブセットは、削除されるか、ゴミ箱ファイルもしくは一時ファイル(例えば、10)へと移されるか、またはそれらの元のデータの場所および/もしくはフォーマットで保持される。基準に由来するリードのサブセット内で見出されず、かつ/またはこの中に存在しない、候補切断点または切断点を含む試料のリードのサブセットは、場合によって、出力サブセット(例えば、選択されたサブセット)内で保持される。基準に由来するリードのサブセット内で見出されず、かつ/またはこの中に存在しない、候補切断点または切断点を含む試料のリードのサブセットは、同定され、かつ/または別のモジュールもしくはフィルターへと送られることが多い。基準に由来するリードのサブセット内で見出されず、かつ/またはこの中に存在しない、候補切断点または切断点を含む試料のリードのサブセットは同定され、「偽」値または「いいえ」の値を割り当てられ、出力サブセット(例えば、選択されたサブセット)内で保持される。一部の実施形態では、基準に由来するリードのサブセット内で見出されず、かつ/またはこの中に存在しない、候補切断点または切断点を含む試料のリードのサブセットを、フィルターへと受け入れ、かつ/またはフィルターを通す。試料のリードのサブセットは、切断点フィルターを介して、基準に由来するリードのサブセット内で見出される候補切断点または切断点を含むリードのサブセットの存在または非存在に従いフィルタリングすることができる。フィルターモジュールは、場合によって、切断点フィルターを含む。
1種またはそれより多くの種の染色体変化の存在または非存在を、試料について決定するためのシステムまたは方法は、1または複数のフィルタリングするステップおよび/またはフィルターを含みうる。1種またはそれより多くの種の染色体変化の存在または非存在を、試料について決定するためのシステムまたは方法は、1つもしくはこれを超えるか、2つもしくはこれを超えるか、3つもしくはこれを超えるか、4つもしくはこれを超えるか、5つもしくはこれを超えるか、6つもしくはこれを超えるか、7つもしくはこれを超えるか、8つもしくはこれを超えるか、9つもしくはこれを超えるか、10もしくはこれを超えるか、11もしくはこれを超えるか、12もしくはこれを超えるか、13もしくはこれを超えるか、14もしくはこれを超えるか、15もしくはこれを超えるか、20もしくはこれを超えるか、30もしくはこれを超えるか、40もしくはこれを超えるか、または50もしくはこれを超える、フィルタリングするステップおよび/またはフィルターを含みうる。フィルタリングするステップは、本明細書で記載される通り、任意の方法またはその一部もしくはステップの前に実施することもでき、かつ/またはこれらの後で実施することもできる。本明細書で記載されるシステムは、適切なフィルターを、本明細書で記載される任意の適切なプロセスもしくはモジュールの前に含む場合もあり、かつ/またはこれらの後で含む場合もある。例えば、図6に示される例示的なシステムでは、1または複数のフィルターおよび/またはフィルタリングするステップは、15の前に、もしくは15の後で導入することもでき、150、151、152、153において導入することもでき、かつ/または140の後で導入することもできる。1または複数のフィルタリングプロセスおよび/またはフィルターは、任意の適切な順序または配置で施すことができる。例えば、図7に示される通り、不一致リード同定モジュールにより、不一致リードを、PCR複製フィルター30へと送り;フィルター30により、フィルタリングされたリードを、配列品質フィルター40へと送り;フィルター40により、フィルタリングされたリードを、マッピング不連続性フィルター60へと送り;フィルター60により、フィルタリングされたリードを、マッピングフィルター70へと送り;フィルター70により、フィルタリングされたリードを、リード選択モジュール120へと送り;モジュール120により、選択されたリードを、シングルトンイベントフィルター100へと送り;フィルター100により、フィルタリングされたリードを、反復エレメントフィルター110へと送り;フィルター110により、フィルタリングされたリードを、比較モジュール130へと送る。一部の実施形態では、リードは、同じフィルターにより、1回または複数回にわたりフィルタリングすることができる。任意の適切なフィルターを、本明細書で記載される方法またはシステムへと付加することができる。フィルターおよび/またはフィルタリングプロセスは、場合によって、任意選択であり、本明細書で記載される方法またはシステムを伴って使用してもよく、または使用しなくてもよい。例えば、フィルター30、40、60、70、80、90、100、および/または110は、本明細書で記載される方法またはシステム内に含めることもでき、これから除外することもできる。
本明細書で記載されるデータセットを処理するために、任意の適切な手順を活用することができる。データセットを処理するための使用に適する手順の非限定的な例は、フィルタリング手順、標準化手順、重み付け手順、データの数学的処理、データの統計学的処理、統計学的アルゴリズムの適用、データをプロットして、さらなる処理のためのパターンまたは傾向を同定することなど、および前出の組合せを含む。ある特定の実施形態では、本明細書で記載される通りにデータセットを処理することにより、大規模で、かつ/または複雑なデータセットの、複雑性および/または次元を低減することができる。複雑なデータセットの非限定的な例は、年齢および人種的バックグラウンドが異なる、1または複数の被験被験体および複数の基準被験体から生成された配列リードデータを含む。一部の実施形態では、データセットは、各被験被験体および/または各基準被験体について、数千〜数百万の配列リードを含みうる。
ある特定の実施形態では、データの処理は、任意の数のステップで実施することができる。例えば、一部の実施形態では、データは、単一の処理手順だけを使用して処理することができ、ある特定の実施形態では、データは、1つもしくはこれを超えるか、5つもしくはこれを超えるか、10もしくはこれを超えるまたは20もしくはこれを超える処理ステップ(例えば、1もしくはこれを超える処理ステップ、2もしくはこれを超える処理ステップ、3もしくはこれを超える処理ステップ、4もしくはこれを超える処理ステップ、5もしくはこれを超える処理ステップ、6もしくはこれを超える処理ステップ、7もしくはこれを超える処理ステップ、8もしくはこれを超える処理ステップ、9もしくはこれを超える処理ステップ、10もしくはこれを超える処理ステップ、11もしくはこれを超える処理ステップ、12もしくはこれを超える処理ステップ、13もしくはこれを超える処理ステップ、14もしくはこれを超える処理ステップ、15もしくはこれを超える処理ステップ、16もしくはこれを超える処理ステップ、17もしくはこれを超える処理ステップ、18もしくはこれを超える処理ステップ、19もしくはこれを超える処理ステップ、または20もしくはこれを超える処理ステップ)を使用して処理することができる。一部の実施形態では、処理ステップは、2回またはこれを超えて繰り返される同じステップ(例えば、2回またはこれを超えてフィルタリングするステップ、2回またはこれを超えて標準化するステップ)であることが可能であり、ある特定の実施形態では、処理ステップは、同時的または逐次的に実行される、2つまたはこれを超える異なる処理ステップ(例えば、フィルタリングするステップ、標準化するステップ;標準化するステップ、ピークの高さおよびエッジをモニタリングするステップ;フィルタリングするステップ、標準化するステップ、基準に照らして標準化するステップ、p値を決定する統計学的操作など)でありうる。一部の実施形態では、任意の適切な数の同じ処理ステップもしくは異なる処理ステップおよび/または同じ処理ステップもしくは異なる処理ステップの組合せを活用して、アウトカムの提供を容易とするように、配列リードデータを処理することができる。ある特定の実施形態では、本明細書で記載される基準を介してデータセットを処理することにより、データセットの複雑性および/または次元を低減することができる。
一部の実施形態では、処理ステップは、1または複数の統計学的アルゴリズムの使用を含みうる。単独または組合せの、任意の適切な統計学的アルゴリズムを使用して、本明細書で記載されるデータセットを分析および/または操作することができる。任意の適切な数の統計学的アルゴリズムを使用することができる。一部の実施形態では、データセットは、1つもしくはこれを超えるか、5つもしくはこれを超えるか、10もしくはこれを超えるか、または20もしくはこれを超える統計学的アルゴリズムを使用して分析することができる。本明細書で記載される方法を伴う使用に適する統計学的アルゴリズムの非限定的な例は、決定木、カウンターヌル、多重比較、オムニバス検定、ベーレンス−フィッシャー問題、ブートストラップ法、有意性についての独立の検定を組み合わせるためのフィッシャー法、帰無仮説、I型の過誤、II型の過誤、正確検定、1試料Z検定、2試料Z検定、1試料t検定、対応のあるt検定、等分散を有するプールされた2試料t検定、不等分散を有するプールされていない2試料t検定、1部分z検定、プールされた2部分z検定、プールされていない2部分z検定、1試料カイ二乗検定、等分散性についての2試料F検定、信頼区間(confidence interval)、信頼区間(credible interval)、有意性、メタ分析、単純線形回帰、頑健線形回帰など、または前出の組合せを含む。
ある特定の実施形態では、データセットは、複数の(例えば、2またはこれを超える)統計学的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポーターベクターマシンモデル、ランダムフォレスト、分類木モデル、K近傍法、ロジスティック回帰、および/またはLoessスムージング(loss smoothing))ならびに/または数学的操作および/もしくは統計学的操作(例えば、本明細書では、操作と称する)を活用することにより分析することができる。一部の実施形態では、複数の操作の使用により、アウトカムを提供するのに使用しうる、N次元空間を生成することができる。ある特定の実施形態では、複数の操作の活用を介する、データセットの分析により、データセットの複雑性および/または次元を低減することができる。
一部の実施形態では、配列リードのデータセットを、フィルタリングし、標準化し、クラスタリングし、カウントし、かつ/または重み付けした後で、数学的および/または統計学的に(例えば、統計学的関数または統計学的アルゴリズムを使用することにより)、処理されたデータセットを分析および/または比較することができる。ある特定の実施形態では、処理されたデータセットは、1または複数の選択された染色体またはその部分についてのZスコアを計算することによりさらに分析および/または比較することができる。一部の実施形態では、処理されたデータセットは、P値を計算することによりさらに分析および/または比較することができる。Zスコアを計算するための式についての一実施形態を、式A(実施例1)に提示する。
胎児核酸含量の決定
一部の実施形態では、核酸中の胎児核酸の量(例えば、濃度、相対量、絶対量、コピー数など)を決定する。ある特定の実施形態では、試料中の胎児核酸の量を、「胎児画分」と称する。一部の実施形態では、「胎児画分」とは、妊婦から得られた試料(例えば、血液試料、血清試料、血漿試料)中の循環無細胞核酸中の胎児核酸の画分を指す。一部の実施形態では、染色体変化を決定する方法はまた、胎児画分を決定するステップも含む場合がある。一部の実施形態では、染色体変化の存在または非存在を、胎児画分(例えば、試料についての胎児画分の決定)に従って決定する。胎児画分を決定することは、その非限定的な例が、下記に記載される方法を含む、適切な方法により実施することができる。
一部の実施形態では、本明細書で記載される、断片の長さを決定するための方法を使用して、胎児画分を決定することができる。無細胞胎性核酸の断片は一般に、母体に由来する核酸の断片よりも短い(例えば、Chanら、(2004年)、Clin. Chem.、50巻:88〜92頁;Loら(2010年)、Sci. Transl. Med.、2巻:61号ra91を参照されたい)。したがって、一部の実施形態では、特定の長さの閾値を下回る断片をカウントし、カウント数を、試料中の全ての核酸の量と比較することにより、胎児画分を決定することができる。特定の長さの核酸断片をカウントするための方法については、下記でさらに詳細に記載する。
ある特定の実施形態では、胎児核酸の量を、男性胎児に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性の女性におけるRhDマーカー)、多型配列の対立遺伝子比に従って、または胎児核酸に特異的であり、母体核酸には特異的でない1つもしくは複数のマーカー(例えば、母親と胎児との間で示差的な、エピジェネティックなバイオマーカー(例えば、メチル化;下記でさらに詳細に記載する)、もしくは母体の血漿中の胎児RNAマーカー(例えば、Lo、2005年、Journal of Histochemistry and Cytochemistry、53巻(3号):293〜296頁を参照されたい))に従って決定する。
胎児核酸含量(例えば、胎児画分)の決定は、場合によって、例えば、参照により本明細書に組み込まれる、米国特許出願公開第2010/0105049号において記載される通りに、胎児定量化アッセイ(FQA)を使用して実施する。この種類のアッセイにより、母体試料中の胎児核酸を、試料中の核酸のメチル化状態に基づいて検出および定量化することが可能となる。ある特定の実施形態では、母体試料に由来する胎児核酸の量を、存在する核酸の総量と比べて決定することができ、これにより、試料中の胎児核酸の百分率がもたらされる。ある特定の実施形態では、胎児核酸のコピー数を、母体試料中で決定することができる。ある特定の実施形態では、胎児核酸の量を、配列特異的(または部分特異的)な様式で、場合によって、正確な染色体量分析を可能にする(例えば、胎児染色体変化の存在または非存在を検出する)のに十分な感度を伴って決定することができる。
胎児定量化アッセイ(FQA)は、本明細書で記載される方法のうちのいずれかと共に実施することができる。このようなアッセイは、当技術分野で公知の任意の方法、および/または米国特許出願公開第2010/0105049号において記載されている方法により、例えば、示差的なメチル化状態に基づいて母体のDNAと胎児DNAとを識別し、胎児DNAを定量化しうる(すなわち、その量を決定しうる)方法などにより、実施することができる。メチル化状態に基づいて核酸を差別化するための方法は、メチル化感受性による捕捉であって、例えば、MBD2のメチル結合性ドメインを、抗体のFc断片に融合させた、MBD2−Fc断片(MBD−FC)を使用する捕捉(Gebhardら(2006年)、Cancer Res.、66巻(12号):6118〜28頁);メチル化特異的抗体;亜硫酸水素塩による転換、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドによるプライマー伸長(Ms−SNuPE)、またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素の使用(例えば、母体試料中の母体のDNAを、1つまたは複数のメチル化感受性制限酵素を使用して消化し、これにより、胎児DNAを濃縮する)を含むがこれらに限定されない。また、メチル感受性酵素を使用して、メチル化状態に基づいて核酸を差別化することもでき、これらの酵素は、例えば、後者がメチル化されていない場合には、それらのDNA認識配列において優先的または実質的に切断または消化することができる。したがって、非メチル化DNA試料は、メチル化DNA試料より小さな断片へと切られ、高メチル化DNA試料は切断されない。明示的に言明される場合を除き、メチル化状態に基づいて核酸を差別化するための任意の方法を、本明細書の技術による組成物および方法と共に使用することができる。胎児DNAの量は、例えば、1つまたは複数の競合物質を、既知の濃度で、増幅反応時に導入することにより決定することができる。胎児DNAの量の決定はまた、例えば、RT−PCR、プライマー伸長、シーケンシング、および/またはカウンティングにより行うこともできる。ある特定の場合には、核酸の量は、米国特許出願公開第2007/0065823号において記載される通り、BEAMing技術を使用して決定することができる。ある特定の実施形態では、制限の有効性を決定することができ、制限効率を使用して、胎児DNAの量をさらに決定する。
ある特定の実施形態では、胎児定量化アッセイ(FQA)を使用して、母体試料中の胎児DNAの濃度を、例えば、以下の方法:a)母体試料中に存在するDNAの総量を決定し;b)母体試料中の母体のDNAを、1または複数のメチル化感受性制限酵素を使用して選択的に消化し、これにより、胎児DNAを濃縮し;c)ステップb)から得られた胎児DNAの量を決定し;d)ステップc)から得られた胎児DNAの量を、ステップa)から得られたDNAの総量と比較し、これにより、母体試料中の胎児DNAの濃度を決定する方法により決定することができる。ある特定の実施形態では、母体試料中の胎児核酸の絶対コピー数を、例えば、質量分析および/または絶対コピー数を測定するために競合的PCR法を使用するシステムを使用して決定することができる。例えば、それらのいずれもが参照により本明細書に組み込まれる、DingおよびCantor(2003年)、PNAS USA、100巻:3059〜3064頁、ならびに米国特許出願公開第2004/0081993号を参照されたい。
ある特定の実施形態では、胎児画分は、例えば、参照により本明細書に組み込まれる、米国特許出願公開第2011/0224087号において記載されている方法などを使用して、多型配列(例えば、一塩基多型(SNP))の対立遺伝子比に基づいて決定することができる。このような方法では、ヌクレオチド配列リードを、母体試料について得、基準ゲノム内の情報を伝える多型部位(例えば、SNP)において、第1の対立遺伝子に対してマッピングされるヌクレオチド配列リードの総数と、第2の対立遺伝子に対してマッピングされるヌクレオチド配列リードの総数とを比較することにより、胎児画分を決定する。ある特定の実施形態では、胎児の対立遺伝子を、例えば、それらの、試料中の胎児核酸と母体核酸との混合物への、母体核酸による混合物への大きな寄与と比較した、相対的に小さい寄与により同定する。したがって、母体試料中の胎児核酸の相対存在度は、多型部位の2つの対立遺伝子の各々についての、基準ゲノム上の標的核酸配列に対してマッピングされる、ユニーク配列リードの総数のパラメータとして決定することができる。
細胞外核酸中の胎児核酸の量を定量化し、本明細書で提供される方法と共に使用することができる。したがって、ある特定の実施形態では、本明細書で記載される技術による方法は、胎児核酸の量を決定する、さらなるステップを含む。被験体に由来する核酸試料中の胎児核酸の量は、試料核酸を調製するための処理の前に決定することもでき、この後で決定することもできる。ある特定の実施形態では、試料核酸を処理し、調製した後で、試料中の胎児核酸の量を決定し、この量を、さらなる評価のために活用する。一部の実施形態では、アウトカムは、試料核酸中の胎児核酸の画分の因子分解(例えば、データを調整すること、試料を除外すること、判定を下すこと、または判定を下さないこと)を含む。
決定ステップ(例えば、染色体変化の存在または非存在を決定するステップ)は、本明細書で記載される方法の前、方法の間、方法内の任意の一時点において実施することもでき、本明細書で記載されるある特定の方法の後で行うこともできる。例えば、決定(例えば、胎児における染色体変化の決定)を、所与の感度または特異度で達成するために、胎児核酸の定量化法を、染色体変化の決定の前に、決定の間に、または決定の後で実装して、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、またはこれを超える胎児核酸を伴う試料を同定することができる。一部の実施形態では、ある特定の閾値量の胎児核酸(例えば、約15%またはこれを超える胎児核酸;約4%またはこれを超える胎児核酸)を有すると決定された試料を、例えば、胎児の性別または染色体変化の存在もしくは非存在について、さらに分析する。ある特定の実施形態では、例えば、染色体変化の存在または非存在の決定を、ある特定の閾値量の胎児核酸(例えば、約15%またはこれを超える胎児核酸;約4%またはこれを超える胎児核酸)を有する試料だけについて選択する(例えば、選択し、患者に伝える)。
一部の実施形態では、染色体変化の存在または非存在を同定するために、胎児画分の決定または胎児核酸の量の決定が、要求されることも、必要となることもない。一部の実施形態では、染色体変化の存在または非存在の同定は、母体のDNAと対比した、胎児のDNAの配列の差別化を要求しない。ある特定の実施形態では、これは、特定の染色体、染色体部分、またはそのセグメントにおける母体配列および胎児配列の両方の寄与の合計を分析するためである。一部の実施形態では、染色体変化の存在または非存在の同定は、胎児のDNAを母体のDNAから識別する、事前の配列情報に依拠しない。
胎児の性別
ある特定の場合には、胎児の性別を子宮内で決定することが有益でありうる。例えば、1または複数の伴性障害の家族歴を伴う患者(例えば、妊婦)は、自らの宿す胎児の性別を決定して、胎児がこのような障害を遺伝的に受け継ぐ危険性を評価する一助とすることを望む場合がある。
一部の実施形態では、胎児の性別または性別関連障害の予測は、本明細書で記載される方法、システム、マシン、装置、または非一過性のコンピュータ読取り型記憶メディアにより決定することができる。性別の決定は一般に、性染色体に基づく。ヒトでは、X染色体およびY染色体という2つの性染色体が存在する。Y染色体は、男性としての胚発生を誘発するSRY遺伝子を含有する。また、ヒトおよび他の哺乳動物のY染色体は、正常な精子の産生に必要とされる、他の遺伝子も含有する。
一部の実施形態では、胎児の性別を決定する方法はまた、胎児画分および/または胎児染色体変化の存在または非存在を決定することも含みうる。胎児性別の存在または非存在を決定することは、それらの非限定的な例が、核型分析、羊水穿刺、循環無細胞核酸分析、無細胞胎児DNA分析、ヌクレオチド配列分析、配列リードの定量化、ターゲティング法、増幅ベースの手法、質量分析ベースの手法、示差的メチル化ベースの手法、示差的消化ベースの手法、多型ベースの手法、ハイブリダイゼーションベースの手法(例えば、プローブを使用する)などを含む適切な様式で実施することができる。
医学的障害および医学的状態
本明細書で記載される方法は、任意の適切な医学的障害または医学的状態に適用可能でありうる。医学的障害および医学的状態の非限定的な例は、細胞増殖性障害および細胞増殖性状態、消耗性障害および消耗性状態、変性障害および変性状態、自己免疫障害および自己免疫状態、子癇前症、化学的毒性または環境的毒性、肝損傷または肝疾患、腎損傷または腎疾患、血管疾患、高血圧、および心筋梗塞を含む。
一部の実施形態では、細胞増殖性障害または細胞増殖性状態は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺など、またはこれらの組合せのがんである。がんの非限定的な例は、造血系由来の(例えば、骨髄系列、リンパ系列、もしくは赤血球系列、またはこれらの前駆細胞から生じる)過形成性/新生物性細胞を伴う疾患であり、低分化型急性白血病(例えば、赤芽球性白血病および急性巨核芽球性白血病)から生じうる、造血系新生物性障害を含む。ある特定の骨髄性障害は、急性前骨髄性白血病(APML)、急性骨髄性白血病(AML)および慢性骨髄性白血病(CML)を含むがこれらに限定されない。ある特定のリンパ性悪性腫瘍は、B細胞系列ALLおよびT細胞系列ALLを含む、急性リンパ芽球性白血病(ALL)、慢性リンパ球性白血病(CLL)、前リンパ球性白血病(PLL)、有毛細胞白血病(HLL)、ならびにワルデンストレームマクログロブリン血症(WM)を含むがこれらに限定されない。悪性リンパ腫のある特定の形態は、非ホジキンリンパ腫およびその異型、末梢T細胞リンパ腫、成人T細胞白血病/リンパ腫(ATL)、皮膚T細胞リンパ腫(CTCL)、大型顆粒リンパ球性白血病(LGF)、ホジキン病、およびリード−シュテルンベルク病を含むがこれらに限定されない。細胞増殖性障害は、場合によって、非内分泌腫瘍または内分泌腫瘍である。非内分泌腫瘍の例示的な例は、腺がん、腺房細胞癌、腺扁平上皮癌、巨細胞腫瘍、膵管内乳頭粘液性腫瘍、粘液性嚢胞腺癌、膵芽腫、漿液性嚢胞腺腫、充実性偽乳頭腫瘍を含むがこれらに限定されない。内分泌腫瘍は、場合によって、膵島細胞腫瘍である。
一部の実施形態では、消耗性障害もしくは消耗性状態、または変性障害もしくは変性状態は、肝硬変、筋委縮性側索硬化症(ALS)、アルツハイマー病、パーキンソン病、多系統委縮症、アテローム性動脈硬化、進行性核上性麻痺、テイ−サックス病、糖尿病、心疾患、円錐角膜、炎症性腸疾患(IBD)、前立腺炎、骨関節炎、骨粗鬆症、関節リウマチ、ハンチントン病、慢性外傷性脳症、慢性閉塞性肺疾患(COPD)、結核、慢性下痢症、後天性免疫不全症候群(AIDS)、上腸間膜動脈症候群など、またはこれらの組合せである。
一部の実施形態では、自己免疫障害または自己免疫状態は、急性播種性脳脊髄炎(ADEM)、アジソン病、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群(APS)、自己免疫性溶血性貧血、自己免疫性肝炎、自己免疫性内耳疾患、水泡性類天疱瘡、セリアック病、シャーガス病、慢性閉塞性肺疾患、クローン病(特発性炎症性腸疾患「IBD」の一種)、皮膚筋炎、1型糖尿病、子宮内膜症、グッドパスチャー症候群、グレーブス病、ギラン−バレー症候群(GBS)、橋本病、汗腺膿瘍、特発性血小板減少性紫斑病、間質性膀胱炎、全身性エリテマトーデス、混合性結合組織疾患、限局性強皮症、多発性硬化症(MS)、重症筋無力症、嗜眠、神経性筋緊張病(euromyotonia)、尋常性天疱瘡、悪性貧血、多発筋炎、原発性胆汁性肝硬変、関節リウマチ、統合失調症、強皮症、シェーグレン症候群、側頭動脈炎(「巨細胞性動脈炎」としてもまた公知の)、潰瘍性大腸炎(特発性炎症性腸疾患「IBD」の一種)、血管炎、白斑、ウェゲナー肉芽腫症など、またはこれらの組合せである。
システム、マシン、記憶メディア、およびインターフェース
本明細書で記載される、ある特定のプロセスおよび方法は、コンピュータ、マイクロプロセッサー、ソフトウェア、モジュール、または他のマシンを伴わずに実施しえないことが多い。本明細書で記載される方法は、コンピュータ実装型方法であることが典型的であり、方法の1または複数の部分は、場合によって、1または複数のプロセッサー(例えば、マイクロプロセッサー)、コンピュータ、またはマイクロプロセッサー制御型マシンにより実施される。本明細書で記載される方法に関連する実施形態は一般に、本明細書で記載される、システム内、マシン内、およびコンピュータプログラム製品内の命令により実装される、同じであるか、または類縁のプロセスに適用可能である。本明細書で記載される方法に関連する実施形態は一般に、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアにより実装される、同じであるか、または類縁のプロセスであって、プログラムが、マイクロプロセッサーに、方法またはその一部を実施することを命令するプロセスに適用可能でありうる。本明細書で使用される「非一過性」という説明的用語は、明示的に限定的であり、一過性の伝搬シグナル(例えば、伝送シグナル、電子的伝送、波(例えば、搬送波))を除外する。本明細書で使用される「非一過性のコンピュータ読取り型メディア」および/または「非一過性のコンピュータ読取り型メディア」という用語は、一過性の伝搬シグナルを除く、全てのコンピュータ読取り型メディアを含む。一部の実施形態では、本明細書で記載されるプロセスおよび方法は、自動式方法により実施する。一部の実施形態では、本明細書で記載される1または複数のステップおよび方法は、マイクロプロセッサーおよび/もしくはコンピュータにより実行し、かつ/またはメモリと共に実行する。一部の実施形態では、自動式方法は、(i)不一致リードを同定するか、(ii)マッピング可能性の変化を生成するか、(iii)マッピング可能性の変化に従いリードのサブセットを選択するか、(iv)候補切断点を決定するか、(v)リードをフィルタリングするか、(vi)リードを実質的に類似する候補切断点と比較するか、(vii)染色体変化の存在もしくは非存在を決定するか、または(viii)これらの組合せを実施する、ソフトウェア、モジュール、マイクロプロセッサー、周辺機器、および/またはマシンなどにより具体化する。
配列リード、不一致リード、リードのマッピング可能性の変化、マッピング可能性の変化に従い選択された、リードのえり抜きのサブセット、フィルタリングされたリードのサブセット、類似の候補切断点を含むリードのサブセット、基準に由来するリードおよび/または被験被験体に由来するリードは、染色体変化の存在または非存在を決定するように、さらに分析および処理することができる。リード、選択されたリード、リードのサブセット、および定量化されたリードは、場合によって、「データ」または「データセット」と称する。一部の実施形態では、データまたはデータセットは、1または複数の特徴または変数(例えば、配列ベースの特徴または変数[例えば、GC含量、特異的なヌクレオチド配列など]、機能特異的な特徴または変数[例えば、発現する遺伝子、がん遺伝子など]、場所ベースの特徴または変数[ゲノム特異的、染色体特異的な]など、およびこれらの組合せ)により特徴付けることができる。ある特定の実施形態では、データまたはデータセットは、1または複数の特徴または変数に基づき、二次またはこれを超える次数の行列へと構成することができる。行列へと構成されたデータは、任意の適切な特徴または変数を使用して構成することができる。行列内のデータの非限定的な例は、基準の候補切断点、被験試料の候補切断点、基準についてのZスコア、試料についてのZスコア、および切断点位置により構成されるデータを含む。
マシン、ソフトウェア、およびインターフェースを使用して、本明細書で記載される方法を実行することができる。マシン、ソフトウェア、およびインターフェースを使用して、使用者は、特定の情報、プログラム、またはプロセス(例えば、配列リードをマッピングするプロセス、配列リード部分配列を生成するプロセス、配列リード部分配列をマッピングするプロセス、関係を生成するプロセス、マッピング可能性の変化を生成するプロセス、リードのサブセットを選択するプロセス、リードを比較するプロセス、および/またはアウトカムを提供するプロセス)であって、例えば、統計学的分析アルゴリズム、統計学的有意性アルゴリズム、統計学的アルゴリズム、反復ステップ、検証アルゴリズム、およびグラフ表示を実装することを伴いうる、情報、プログラム、またはプロセスを使用するための選択肢を入力することもでき、これを要望することもでき、これを問い合わせることもでき、これを決定することもできる。一部の実施形態では、使用者は、データセットを、入力情報として入力することもでき、適切なハードウェアメディア(例えば、フラッシュドライブ)により、1または複数のデータセットをダウンロードすることもでき、かつ/または後続の、アウトカムを処理および/または提供すること(例えば、配列リードマッピングのために、配列リードデータを、シークエンサーから、コンピュータシステムへと送ること;アウトカムおよび/または報告を処理および作成するために、マッピングされた配列データを、コンピュータシステムへと送ること)のために、データセットを、1つのシステムから別のシステムへと送ることもできる。
システムは、1つまたはそれより多くのマシンを含むことが典型的である。各マシンは、メモリ、1つまたはそれより多くのマイクロプロセッサー、および命令のうちの1または複数を含む。システムが、2つまたはこれを超えるマシンを含む場合、マシンの一部もしくは全部を、同じ場所に配置することもでき、マシンの一部もしくは全部を、異なる場所に配置することもでき、マシンの全部を、1つの場所に配置することもでき、かつ/またはマシンの全部を、異なる場所に配置することもできる。システムが、2つまたはこれを超えるマシンを含む場合、マシンの一部もしくは全部を、使用者と同じ場所に配置することもでき、マシンの一部もしくは全部を、使用者と異なる場所に配置することもでき、マシンの全部を、使用者と同じ場所に配置することもでき、かつ/またはマシンの全部を、使用者と異なる、1または複数の場所に配置することもできる。
システムは、場合によって、演算装置もしくはシーケンシング装置、または演算装置およびシーケンシング装置(すなわち、シーケンシングマシンおよび/または演算マシン)を含む。本明細書で言及される装置は、場合によって、マシンである。シーケンシング装置は一般に、物理的核酸を受容し、核酸のヌクレオチド塩基に対応するシグナルを生成するように構成される。シーケンシング装置には、核酸を含む試料を「ロード」することが多く、シーケンシング装置内にロードされる試料の核酸は一般に、核酸シーケンシングプロセスにかけられる。本明細書で使用される「シーケンシング装置にロードすること」という用語は、シーケンシング装置の部分(例えば、フローセル)を、核酸試料と接触させることを指し、シーケンシング装置の部分は、核酸シーケンシングプロセスを実行するために試料を受容するように構成される。一部の実施形態では、シーケンシング装置に、試料核酸の変異体をロードする。変異体は、場合によって、試料核酸を、核酸をシーケンシングする(例えば、ライゲーション(例えば、アダプターを、試料核酸の末端へと、ライゲーションにより付加すること)、増幅、制限消化など、またはこれらの組合せにより)のに適する形態へと修飾するプロセスにより作り出す。シーケンシング装置は部分的に、ロードされた核酸のヌクレオチド塩基に対応するシグナル(例えば、電子シグナル、検出器シグナル、画像など、またはこれらの組合せ)を生成する、適切なDNAシーケンシング法を実施するように構成されることが多い。
DNA配列の各塩基に対応する、1または複数のシグナルは、適切なプロセスにより、塩基判定(例えば、特異的なヌクレオチド塩基、例えば、グアニン、シトシン、チミン、ウラシル、アデニンなど)へと、処理および/または変換することが多い。ロードされた核酸に由来する塩基判定のコレクションは、1または複数の配列リードへと処理および/またはアセンブルすることが多い。複数の試料核酸を、一度にシーケンシングする(すなわち、マルチプレックス化する)実施形態では、適切なデマルチプレックス化プロセスを活用して、特定のリードを、それらが由来する試料核酸と関連付けることができる。配列リードは、適切なプロセスにより、基準ゲノムに対してアラインさせることができ、基準ゲノムの部分に対してアラインされたリードは、本明細書で記載される通りにカウントすることができる。
シーケンシング装置は、場合によって、システム内の1つまたはそれより多くの演算装置と関連し、かつ/またはこれらを含む。1つまたはそれより多くの演算装置は、場合によって、以下のプロセス:塩基判定をシーケンシング装置シグナルから生成するプロセス、リードをアセンブルするプロセス(例えば、リードを生成するプロセス)、リードをデマルチプレックス化するプロセス、リードを基準ゲノムに対してアラインさせるプロセス、基準ゲノム内のゲノム部分に対してアラインされたリードをカウントするプロセスなどのうちの1または複数を実施するように構成される。1つまたはそれより多くの演算装置は、場合によって、以下のさらなるプロセス:リードカウントを標準化する(例えば、バイアスを低減または除去する)プロセス、1または複数の決定を生成する(例えば、胎児画分、胎児の倍数性、胎児の性別、胎児の染色体カウント、アウトカム、遺伝子変異の存在または非存在(例えば、胎児染色体の異数性(例えば、第13染色体トリソミー、第18染色体トリソミー、および/または第21染色体トリソミー)の存在または非存在)などを決定する)プロセスのうちの1または複数を実施するように構成される。
一部の実施形態では、1つの演算装置は、シーケンシング装置と関連し、ある特定の実施形態では、1つの演算装置により、以下のプロセス:塩基判定をシーケンシング装置シグナルから生成するプロセス、リードをアセンブルするプロセス、リードをデマルチプレックス化するプロセス、リードをアラインさせ、基準ゲノムのゲノム部分に対してアラインされたリードをカウントするプロセス、リードカウントを標準化し、1または複数のアウトカム(例えば、胎児画分、特定の遺伝子変異の存在または非存在)を生成するプロセスの多数または全部を実施する。1つの演算装置が、シーケンシング装置と関連する、後者の実施形態では、演算装置は、プロセスを実施するのに、1または複数のプロセッサー(例えば、マイクロプロセッサー)と、1または複数のプロセッサーにより実行される命令を有するメモリとを含むことが多い。一部の実施形態では、1つの演算装置は、シングルコアまたはマルチコアの演算デバイスであって、シーケンシング装置(例えば、同じ場所(例えば、同じ所在地、同じ建築物、同じ階、同じ室内など)に配置される)に対してローカルな演算デバイスでありうる。一部の実施形態では、1つの演算装置は、シーケンシング装置と共に組み込まれる。
一部の実施形態では、システム内の複数の演算装置は、シーケンシング装置と関連し、システムにより実施される全プロセスのサブセットは、システム内の特定の演算装置へと割り当てることもでき、これらの間で分割することもできる。プロセス全体のサブセットは、2つもしくはこれを超える演算装置またはそれらの群間において、任意の適切な組合せで分割することができる。ある特定の実施形態では、塩基判定をシーケンシング装置シグナルから生成するプロセスと、リードをアセンブルするプロセスと、リードをデマルチプレックス化するプロセスは、第1の演算装置またはそれらの群により実施し、基準ゲノムの部分に対してマッピングされるリードをアラインさせ、カウントするプロセスは、第2の演算装置またはそれらの群により実施し、リードカウントを標準化するプロセスと、1または複数のアウトカムを提供するプロセスとは、第3の演算装置またはそれらの群により実施する。2つもしくはこれを超える演算装置またはそれらの群を含むシステムでは、各特定の演算装置は、メモリ、1もしくは複数のプロセッサー、またはこれらの組合せを含みうる。多重演算装置システムは、場合によって、シーケンシング装置に対してローカルな、1または複数の適切なサーバーを含み、場合によって、シーケンシング装置に対してローカルでない、1または複数の適切なサーバー(例えば、ウェブサーバー、オンラインのサーバー、アプリケーションサーバー、リモートファイルサーバー、クラウドサーバー(例えば、クラウド環境、クラウドコンピューティング))を含む。
異なるシステム構成内の装置は、異なる種類の出力データを生成しうる。例えば、シーケンシング装置は、塩基シグナルを出力することが可能であり、塩基シグナルの出力データは、塩基シグナルデータを塩基判定へと転換する演算装置へと移すことができる。一部の実施形態では、塩基判定は、1つの演算装置からの出力データであり、配列リードを生成するために、別の演算装置へと移される。ある特定の実施形態では、塩基判定は、特定の装置からの出力データではなく、シーケンシング装置の塩基シグナルを受け取った同じ装置において活用されて、配列リードを生成する。一部の実施形態では、1つの装置は、シーケンシング装置の塩基シグナルを受け取り、塩基判定、配列リードを生成し、配列リードをデマルチプレックス化し、試料について、デマルチプレックス化された配列リードを出力するが、これは、配列リードを基準ゲノムに対してアラインさせる別の装置またはそれらの群へと移されうる。一部の実施形態では、1つの装置またはそれらの群は、基準ゲノムの部分に対してマッピングされる、アラインされた配列リード(例えば、SAMファイルまたはBAMファイル)を出力することが可能であり、このような出力データは、配列リードを標準化し(例えば、配列リードのカウントを標準化し)、アウトカム(例えば、胎児画分および/または胎児トリソミーの存在もしくは非存在)を生成する第2の演算装置またはそれらの群へと移すことができる。1つの装置からの出力データは、任意の適切な様式で、第2の装置へと移すことができる。例えば、1つの装置からの出力データは、場合によって、物理的記憶デバイスに収納され、記憶デバイスは、出力データが移される第2の装置へと輸送および接続される。出力データは、場合によって、データベース内の1つの装置により保存され、第2の装置は、同じデータベースからの出力データにアクセスする。
一部の実施形態では、使用者は、装置(例えば、演算装置、シーケンシング装置)と相互作用する。使用者は、例えば、ソフトウェアへとクエリーを行い、次いで、インターネットへのアクセスを介してデータセットを収集することができ、ある特定の実施形態では、プログラム可能なマイクロプロセッサーにより、所与のパラメータに基づいて、適切なデータセットを収集するように指示することができる。また、プログラム可能なマイクロプロセッサーにより、使用者に、マイクロプロセッサーにより、所与のパラメータに基づいて選択された、1または複数のデータセットの選択肢を選択するように指示することもできる。プログラム可能なマイクロプロセッサーにより、使用者に、インターネットを介して見出された情報、他の内部情報、または外部情報などに基づいて、マイクロプロセッサーにより選択された、1または複数のデータセット選択肢を選択するように指示することができる。選択肢は、1または複数のデータ特徴、1または複数の統計学的アルゴリズム、1または複数の統計学的分析アルゴリズム、1または複数の統計学的有意性アルゴリズム、反復ステップ、1または複数の検証アルゴリズム、および方法、マシン、装置(本明細書ではまた、複数形の装置としても言及される、複数の装置)、コンピュータプログラム、または実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアについての、1または複数のグラフ表示を選択するために、選択することができる。
本明細書で対象とされるシステムは、例えば、ネットワークサーバー、ラップトップシステム、デスクトップシステム、携帯型システム、患者用ディジタル式補助装置、コンピューティングキオスクなど、コンピュータシステムの一般的な構成要素を含みうる。コンピュータシステムは、キーボード、タッチスクリーン、マウス、音声認識、または使用者がデータをシステムへと入力することを可能とする他の手段など、1または複数の入力手段を含みうる。システムはさらに、ディスプレイスクリーン(例えば、CRTまたはLCD)、スピーカー、FAXマシン、プリンター(例えば、レーザープリンター、インクジェットプリンター、インパクトプリンター、モノクロプリンター、またはカラープリンター)、または情報(例えば、アウトカムおよび/または報告)の視覚的出力、聴覚的出力、および/またはハードコピーによる出力をもたらすのに有用な他の出力を含むがこれらに限定されない、1または複数の出力を含みうる。
システム内で、入力手段および出力手段は、中央処理装置へと接続することができ、中央処理装置は、他の構成要素にもまして、プログラムの命令を実行するためのマイクロプロセッサーと、プログラムコードおよびプログラムデータを保存するためのメモリとを含みうる。一部の実施形態では、プロセスは、単一の地理的位置に位置特定される、単一の使用者システムとして実装することができる。ある特定の実施形態では、プロセスは、複数使用者システムとして実装することができる。複数使用者による実装の場合、複数の中央処理装置は、ネットワークを介して接続することができる。ネットワークは、1つの建築物内の一部の中の単一の部署、建築物の全体を包含する、ローカルネットワークの場合もあり、複数の建築物に及ぶ場合もあり、領域に及ぶ場合もあり、1つの国全体に及ぶ場合もあり、全世界に及ぶ場合もある。ネットワークは、自家用ネットワークの場合もあり、プロバイダーにより所有および管理される場合もあり、使用者が、ウェブページにアクセスし、情報を入力および検索するインターネットベースのサービスとして実装される場合もある。したがって、ある特定の実施形態では、システムは、使用者に対して、ローカルマシンの場合もあり、リモートマシンの場合もある、1つまたはそれより多くのマシンを含む。使用者は、1つの場所または複数の場所における、1つを超えるマシンにアクセスすることができ、データは、直列的および/または並列的に、マッピングおよび/または処理することができる。したがって、ローカルネットワーク内、リモートネットワーク内、および/または「クラウド」コンピューティングプラットフォーム内など、複数のマシンを使用して、データをマッピングおよび/または処理するのに適する構成および制御を活用することができる。
一部の実施形態では、システムは、通信インターフェースを含みうる。通信インターフェースは、コンピュータシステムと、1または複数の外部デバイスとの間の、ソフトウェアおよびデータの移動を可能とする。通信インターフェースの非限定的な例は、モデム、ネットワークインターフェース(イーサネット(登録商標)カードなど)、通信ポート、PCMCIAスロット、およびPCMCIAカードなどを含む。通信インターフェースを介して移されるソフトウェアおよびデータは一般に、電子シグナル、電磁シグナル、光学シグナル、および/または通信インターフェースにより受信することが可能な他のシグナルでありうる、シグナルの形態である。シグナルは、チャネルを介して通信インターフェースへと提供されることが多い。チャネルは、シグナルを搬送することが多く、ワイヤーもしくはケーブル、光ファイバー、電話線、セルフォーンリンク、RFリンク、および/または他の通信チャネルを使用して実装することができる。したがって、例では、通信インターフェースを使用して、シグナル検出モジュールにより検出しうるシグナル情報を受信することができる。
データは、手動式入力デバイスまたは直接的データ入力デバイス(DDE)を含むがこれらに限定されない、適切なデバイスおよび/または方法により入力することができる。手動式デバイスの非限定的な例は、キーボード、コンセプトキーボード、タッチセンサー式スクリーン、ライトペン、マウス、トラックボール、操作棒、グラフィックタブレット、スキャナー、ディジタルカメラ、ビデオディジタイザー、および音声認識デバイスを含む。DDEの非限定的な例は、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学文字認識、光学マーク認識、およびターンアラウンドドキュメントを含む。
一部の実施形態では、シーケンシング装置またはシーケンシングマシンからの出力は、入力デバイスを介して入力されうるデータとして用いられうる。ある特定の実施形態では、マッピングされた配列リードは、入力デバイスを介して入力されうるデータとして用いられうる。ある特定の実施形態では、核酸断片サイズ(例えば、長さ)は、入力デバイスを介して入力されうるデータとして用いられうる。ある特定の実施形態では、核酸捕捉プロセスからの出力(例えば、ゲノム領域に由来するデータ)は、入力デバイスを介して入力されうるデータとして用いられうる。ある特定の実施形態では、核酸断片サイズ(例えば、長さ)と、核酸捕捉プロセスからの出力(例えば、ゲノム領域に由来するデータ)との組合せは、入力デバイスを介して入力されうるデータとして用いられうる。ある特定の実施形態では、シミュレートされたデータは、in silicoのプロセスを介して生成され、シミュレートされたデータは、入力デバイスを介して入力されうるデータとして用いられる。「in silicoの」という用語は、データ(例えば、配列リード部分配列)、データの操作、コンピュータを使用して実施される研究および実験を指す。in silicoのプロセスは、配列リードをマッピングするプロセス、配列リード部分配列を生成するプロセス、リードおよびリード部分配列をマッピングするプロセス、ならびに本明細書で記載されるプロセスに従いマッピングされた配列リードを処理するプロセスを含むがこれらに限定されない。
システムは、本明細書で記載されるプロセスを実施するのに有用なソフトウェアを含むことが可能であり、ソフトウェアは、このようなプロセス(例えば、配列モジュール、論理処理モジュール、データ表示構成モジュール)を実施するための1または複数のモジュールを含みうる。「ソフトウェア」という用語は、コンピュータ読取り型プログラムの命令であって、コンピュータにより実行されると、コンピュータによる演算を実施する命令を指す。1つまたはそれより多くのマイクロプロセッサーにより実行可能な命令は、場合によって、実行可能なコードであって、実行されると、1つまたはそれより多くのマイクロプロセッサーに、本明細書で記載される方法を実装させるコードとして提供される。
本明細書で記載されるモジュールは、ソフトウェア、およびマイクロプロセッサーにより実装または実施されうるソフトウェア内で具体化される命令(例えば、プロセス、ルーチン、サブルーチン)として存在しうる。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定のプロセスまたはタスクを実施するプログラムの一部でありうる。「モジュール」という用語は、大型のマシンシステム内またはソフトウェアシステム内で使用しうる、自己完結型の機能単位を指す。モジュールは、1つまたはそれより多くのマイクロプロセッサーによりモジュールの機能を果たすための命令のセットを含みうる。モジュールの命令は、それらの非限定的な例が、UNIX(登録商標)、Linux(登録商標)、オラクル、ウィンドウズ(登録商標)、Ubuntu、ActionScript、C、C++、C#、Haskell、Java(登録商標)、Java(登録商標)Script、Objective−C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(例えば、PHPを伴う)、PGP、G、R、Sなど、またはこれらの組合せを含む、適切なプログラミング言語、適切なソフトウェア、および/または適切な言語(例えば、当技術分野で公知のコンピュータプログラミング言語)で書かれたコード、および/またはオペレーティングシステムを使用することにより、演算環境内に実装することができる。一部の実施形態では、本明細書で記載されるモジュールは、SまたはRで書かれたコード(例えば、スクリプト)であって、適切なパッケージ(例えば、Sパッケージ、Rパッケージ)を活用するコードを含む。R、Rソースコード、Rプログラム、Rパッケージ、およびRドキュメンテーションは、CRANまたはCRANミラーサイト(Comprehensive R Archive Network(CRAN)[オンライン][2013年4月24日検索]、ワールドワイドウェブのURL:cran.us.r-project.orgにおいて、インターネットから検索される)からダウンロードするのに利用可能である。CRANとは、全世界にわたるftpおよびウェブサーバーのネットワークであって、Rのためのコードおよびドキュメンテーションの、同一の最新バージョンを保管するネットワークである。
モジュールにより、データおよび/または情報を変換することができる。本明細書で記載される方法では、それらの非限定的な例が、配列モジュール、マッピングモジュール、不一致リード同定モジュール、断片化モジュール、リード選択モジュール、マッピング特徴付けモジュール、切断点モジュール、比較モジュール、フィルターモジュール、プロッティングモジュール、アウトカムモジュールなど、またはこれらの組合せを含む、1または複数のモジュールを活用することができる。例えば、一実施形態で例示され、図6に示される通り、不一致リード同定モジュール15により、不一致リードを、不一致リード同定モジュール15から不一致リードを受け取るように構成されたマッピング特徴付けモジュール50へと送る。マッピング特徴付けモジュール50により、マッピング特徴付けを、マッピング特徴付けモジュール50からマッピング特徴付けを受け取るように構成されたリード選択モジュール120へと送ることができる。リード選択モジュール120により、リードの選択されたサブセット(例えば、不一致リード対)を、リード選択モジュール120からリードの選択されたサブセットを受け取るように構成された比較モジュール130へと送ることができる。比較モジュール130により、比較(例えば、(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と比較すること)を生成し、比較を、比較を受け取るように構成されたアウトカムモジュール140へと送ることができる。次いで、アウトカムモジュール140により、被験被験体における転座の存在または非存在を決定し、アウトカムは、末端使用者へと提示することもでき、別のモジュール(例えば、プロッティングモジュール)へと送ることもできる。モジュールは、場合によって、マイクロプロセッサーにより制御される。ある特定の実施形態では、モジュールまたは1もしくは複数のモジュールを含むマシンにより、データおよび/または情報を、別のモジュール、マシン、マシンの構成要素、周辺機器、もしくは演算子へと、またはこれらから、集め、アセンブルし、受け取り、得、これらにアクセスし、これらを回収し、提供し、かつ/または移す。一部の実施形態では、データおよび/または情報(例えば、シーケンシングリード)は、以下:1または複数のフローセル、カメラ、検出器(例えば、光検出器、光電管、電気的検出器(例えば、振幅モジュレーション検出器、周波数位相モジュレーション検出器、位相同期回路型検出器)、カウンター、センサー(例えば、センサー圧力、温度、容量、流量、重量)、流体操作デバイス、データ入力デバイス(例えば、キーボード、マウス、スキャナー、音声認識ソフトウェア、およびマイクロフォン、スタイラスなど)、プリンター、ディスプレイ(例えば、LED、LCT、またはCRT)など、またはこれらの組合せのうちの1または複数を含むマシンにより、モジュールへと提供される。例えば、場合によって、マシンまたは装置の演算子により、定数、閾値、式、または所定の値を、モジュールへと提供する。モジュールは、データおよび/または情報を、マイクロプロセッサーおよび/またはメモリへと、またはこれらから移すように構成されることが多い。モジュールは、データおよび/もしくは情報を、別の適切なモジュールもしくはマシンへと移すか、またはデータおよび/もしくは情報を、別の適切なモジュールもしくはマシンから受け取るように構成されることが多い。モジュールにより、データおよび/または情報を操作および/または変換することができる。モジュールから導出されるか、またはこれにより変換されたデータおよび/または情報は、別の適切なマシンおよび/またはモジュールへと移すことができる。モジュールを含むマシンは、少なくとも1つのマイクロプロセッサーを含みうる。モジュールを含むマシンは、マイクロプロセッサー(例えば、1つまたはそれより多くのマイクロプロセッサー)を含むことが可能であり、このマイクロプロセッサーにより、モジュールの1または複数の命令(例えば、プロセス、ルーチンおよび/またはサブルーチン)を実施および/または実装することができる。一部の実施形態では、モジュールは、1または複数の外部マイクロプロセッサー(例えば、内部ネットワークもしくは外部ネットワーク、サーバー、記憶デバイス、および/または記憶ネットワーク(例えば、クラウド))により作動する。
データおよび/または情報は、適切な形態でありうる。例えば、データおよび/または情報は、ディジタルの場合もあり、アナログの場合もある。ある特定の実施形態では、データおよび/または情報は、場合によって、パケット、バイト、文字、またはビットでありうる。一部の実施形態では、データおよび/または情報は、集められるか、アセンブルされるか、または使用可能な、任意のデータまたは情報でありうる。データおよび/または情報の非限定的な例は、適切なメディア、写真、ビデオ、音声(例えば、可聴または非可聴の周波数)、数、定数、値、オブジェクト、時間、関数、命令、マップ、基準、配列、リード、マッピングされたリード、そのレベル、範囲、閾値、シグナル、提示、表示、または変換を含む。モジュールにより、データおよび/または情報を受け入れるか、または受け取り、データおよび/または情報を、第2の形態へと変換し、第2の形態を、マシン、周辺機器、構成要素、または別のモジュールへと提供または移すことができる。モジュールにより、以下の非限定的な機能:例えば、配列リードをマッピングする機能、不一致リード対を同定する機能、配列リード部分配列を生成する機能、複数の配列リード部分配列のマッピング可能性を特徴付ける機能、マッピング可能性の変化を生成する機能、マッピング可能性の閾値を生成する機能、フィルタリングする機能、不一致リードメイトのサブセットを、マッピング可能性の変化、および/またはマッピング可能性の閾値に従い選択する機能、候補切断点を同定する機能、切断点を同定する機能、プロットする機能、比較を生成する機能(例えば、(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と比較する機能)、および/またはアウトカムを決定する機能(例えば、染色体変化の存在または非存在の決定)のうちの1または複数を実施することができる。ある特定の実施形態では、マイクロプロセッサーにより、モジュール内で命令を実行することができる。一部の実施形態では、1つまたはそれより多くのマイクロプロセッサーは、モジュール内またはモジュール群内で命令を実行するのに要求される。モジュールにより、データおよび/または情報を、別のモジュール、マシン、または供給源へと提供することができ、データおよび/または情報を、別のモジュール、マシン、または供給源から受け取ることができる。
コンピュータプログラム製品は、場合によって、非一過性のコンピュータ読取り型メディア上に具体化され、場合によって、非一過性のコンピュータ読取り型メディア上に有形で具体化される。モジュールは、場合によって、非一過性のコンピュータ読取り型メディア(例えば、ディスク、ドライブ)上、またはメモリ(例えば、ランダムアクセスメモリ)内に保存される。モジュールおよびモジュールからの命令を実装することが可能なマイクロプロセッサーは、1つのマシン内に配置することもでき、異なるマシン内に配置することもできる。モジュールのための命令を実装することが可能なモジュールおよび/またはマイクロプロセッサーは、使用者と同じ場所(例えば、ローカルネットワーク)に配置することもでき、使用者と異なる場所(例えば、リモートネットワーク、クラウドシステム)に配置することもできる。方法を、2つまたはこれを超えるモジュールと共に行う実施形態では、モジュールを、同じマシン内に配置することができ、1または複数のモジュールを、同じ物理的場所の異なるマシン内に配置することができ、1または複数のモジュールを、異なる物理的場所の異なるマシン内に配置することができる。
一部の実施形態では、マシンは、モジュール内で命令を実行するための少なくとも1つのマイクロプロセッサーを含む。基準ゲノムに対してマッピングされる配列リードは、場合によって、本明細書で記載される方法を行うように構成された命令を実行する、マイクロプロセッサーによりアクセスされる。マイクロプロセッサーによりアクセスされる配列リードは、システムのメモリ内の配列リードであることが可能であり、リードは、アクセスすることができ、それらを得た後で、システムのメモリに置くことができる。一部の実施形態では、マシンは、マイクロプロセッサー(例えば、1つまたはそれより多くのマイクロプロセッサー)を含み、このマイクロプロセッサーにより、モジュールからの1または複数の命令(例えば、プロセス、ルーチンおよび/またはサブルーチン)を実施および/または実装することができる。一部の実施形態では、マシンは、連携し、並列的に動作するマイクロプロセッサーなど、複数のマイクロプロセッサーを含む。一部の実施形態では、マシンは、1または複数の外部マイクロプロセッサー(例えば、内部ネットワークもしくは外部ネットワーク、サーバー、記憶デバイス、および/または記憶ネットワーク(例えば、クラウド))により作動する。一部の実施形態では、マシンは、モジュールを含む。ある特定の実施形態では、マシンは、1または複数のモジュールを含む。モジュールを含むマシンは、データおよび/または情報のうちの1または複数を、他のモジュールへと、またはこれから受信および移しうることが多い。ある特定の実施形態では、マシンは、周辺機器および/または構成要素を含む。ある特定の実施形態では、マシンは、データおよび/または情報を、他のモジュール、周辺機器、および/もしくは構成要素へと、またはこれらから移しうる、1または複数の周辺機器または構成要素を含みうる。ある特定の実施形態では、マシンは、データおよび/または情報を提供する周辺機器および/または構成要素と相互作用する。ある特定の実施形態では、周辺機器および構成要素は、マシンが機能を果たす一助となるか、またはモジュールと直接相互作用する。周辺機器および/または構成要素の非限定的な例は、スキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(例えば、ipad、タブレット)、タッチスクリーン、スマートフォン、モバイルフォン、USB I/Oデバイス、USB大量記憶デバイス、キーボード、コンピュータマウス、ディジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサー、サーバー、CD、DVD、グラフィックカード、専用I/Oデバイス(例えば、シークエンサー、光電管、光電子倍増管、光学リーダー、センサーなど)、流体操作構成要素、ネットワークインターフェースコントローラー、リードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、無線伝送デバイス(Bluetooth(登録商標)デバイス、WiFiデバイスなど)、ワールドワイドウェブ(www)、インターネット、コンピュータ、および/または別のモジュールを含むがこれらに限定されない、適切なコンピュータ周辺機器、I/O方式もしくはI/Oデバイス、または記憶方式もしくは記憶デバイスを含む。
ソフトウェアは、磁気メディア(例えば、フロッピー(登録商標)ディスク、ハードディスク、ROM、および磁気テープ)、光学メディア(例えば、CD−ROM、DVDなど)、磁気光学ディスク、フラッシュドライブ、RAMなど、およびプログラムの命令を記録しうる、他のこのようなメディアを含むがこれらに限定されない、非一過性のコンピュータ読取り型メディア上に記録された、プログラムの命令を含有するプログラム製品により提供されることが多い。オンラインの実装では、機構により維持されるサーバーおよびウェブサイトは、ソフトウェアのダウンロードを、遠隔の使用者へと提供するように構成することもでき、遠隔の使用者が、ソフトウェアに遠隔からアクセスするように機構により維持される、遠隔のシステムにアクセスすることもできる。ソフトウェアにより、入力された情報を得るか、または受け取ることができる。ソフトウェアは、データを具体的に得るかまたは受け取るモジュール(例えば、配列リードデータおよび/またはマッピングされたリードデータを受け取るデータ受取りモジュール)を含むことが可能であり、データを具体的に処理するモジュール(例えば、受け取られたデータを処理する処理モジュール(例えば、アウトカムおよび/または報告をフィルタリングし、提供するモジュール))を含みうる。入力された情報を「得ること」および「受け取ること」という用語は、ローカルまたはリモートの拠点からコンピュータ通信手段、手作業によるデータ入力、またはデータを受け取る他の任意の方法を介して、データ(例えば、配列リード、マッピングされたリード)を受け取ることを指す。入力された情報は、それが受け取られる同じ場所で生成することもでき、異なる場所で生成し、受け取る場所へと伝送することもできる。一部の実施形態では、入力された情報は、それを処理する前に、改変する(例えば、処理に適するフォーマットにする(例えば、表にする))。
一部の実施形態では、例えば、その中に具体化された、非一過性のコンピュータ読取り型プログラムコードであって、(a)不一致リード対をペアドエンドの配列リードから同定するステップであって、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、これらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについてのマッピング可能性の変化が提供されるステップと、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択するステップであって、サブセットが、候補切断点を含むリードを含むステップと、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成するステップと、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含む方法を実装するために実行されるように適合させたコンピュータ読取り型プログラムコードを有する、非一過性のコンピュータ使用型メディアを含むコンピュータプログラム製品などのコンピュータプログラム製品が提供される。
ソフトウェアを使用して、本明細書で記載される通り、不一致リードを同定するステップ(例えば、15)、配列リード部分配列を生成するステップ、配列リード部分配列のマッピング可能性を特徴付けるステップ、マッピング可能性の変化を生成するステップ(例えば、50)、候補切断点および/または切断点を同定するステップ、リードメイトのサブセットを選択するステップ(例えば、120)、類似する切断点を含むリードのサブセットを比較するステップ(例えば、130)、フィルタリングするステップ(例えば、20、30、40、50、70、80、90、100、および110)、データを処理するステップ、染色体変化の存在または非存在を決定するステップ(例えば、140)、アウトカムを生成するステップ、および/または生成されたアウトカムに基づいて、1または複数の推奨を提供するステップを含むがこれらに限定されない、本明細書で記載されるプロセスまたは方法の1もしくは複数のステップまたは全てのステップを実施することができる。本明細書で使用される「ソフトウェア」という用語は、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアを指し、この場合、プログラムが、マイクロプロセッサーに、機能を果たす(例えば、方法を実施する)ことを命令する。一部の実施形態では、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアにより、マイクロプロセッサーに、不一致リード対を、ペアドエンドの配列リードから同定することを命令し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定する。ある特定の実施形態では、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアにより、マイクロプロセッサーに、基準ゲノムへとに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けることを命令し、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化および候補切断点が提供される。一部の実施形態では、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアにより、マイクロプロセッサーに、不一致リードメイトのサブセットを、マッピング可能性の変化に従い、かつ/またはマッピング可能性の閾値に従い選択することを命令する。一部の実施形態では、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアにより、マイクロプロセッサーに、(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と比較することを命令する。ある特定の実施形態では、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアは、マイクロプロセッサーに、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定することを命令する。一部の実施形態では、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアは、マイクロプロセッサーに、(a)不一致リード対を、ペアドエンドの配列リードから同定し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化が提供され、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定することを命令する。
ある特定の実施形態では、ソフトウェアは、1または複数のアルゴリズムを含みうる。アルゴリズムは、有限の一連の命令に従い、データを処理し、かつ/またはアウトカムもしくは報告を提供するために使用することができる。アルゴリズムは、タスクを完遂するための規定された命令のリストであることが多い。初期状態から出発して、命令により、規定された一連の連鎖的状態を介して進行し、最終的に、最終的な終点状態で終了する演算について記載することができる。1つの状態から次の状態への移行は、必ずしも決定論的ではない(例えば、一部のアルゴリズムは、ランダムネスを組み込む)。例を目的として、限定せずに述べると、アルゴリズムは、検索アルゴリズム、分取アルゴリズム、融合アルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデル化アルゴリズム、コンピュータ形状アルゴリズム、コンビナトリアルアルゴリズム、機械学習アルゴリズム、暗号アルゴリズム、データ圧縮アルゴリズム、構文分析アルゴリズムなどでありうる。アルゴリズムは、1つのアルゴリズムを含む場合もあり、組合せで動作する、2つまたはこれを超えるアルゴリズムを含む場合もある。アルゴリズムは、任意の適切な複雑性クラスおよび/またはパラメータ化された複雑性でありうる。アルゴリズムは、計算および/またはデータを処理するために使用することができ、一部の実施形態では、決定論的手法または確率論的手法/予測法で使用することができる。アルゴリズムは、その非限定的な例が、C、C++、Java(登録商標)、Perl、R、S、Python、Fortranなどである、適切なプログラミング言語を使用することにより、演算環境内に実装することができる。一部の実施形態では、アルゴリズムは、誤差の限界、統計学的分析、統計学的有意性、および/または他の情報もしくはデータセット(例えば、ニューラルネットアルゴリズムまたはクラスタリングアルゴリズムを使用する場合に適切な)との比較を含むように構成または改変することができる。
ある特定の実施形態では、複数のアルゴリズムは、ソフトウェア内の使用のために実装することができる。一部の実施形態では、これらのアルゴリズムを、生データで訓練することができる。新規の各生データ試料について、訓練されたアルゴリズムにより、代表的な処理されたデータセットまたはアウトカムを生成することができる。処理されたデータセットは、場合によって、処理される親データセットと比較して、複雑性が低減されている。一部の実施形態では、処理されたセットに基づき、訓練されたアルゴリズムの効能を、感度および特異度に基づき評価することができる。ある特定の実施形態では、感度および/または特異度が最高のアルゴリズムを同定および活用することができる。
ある特定の実施形態では、例えば、アルゴリズムを訓練するか、またはアルゴリズムを試行することにより、シミュレートされた(またはシミュレーション)データを、データ処理の一助とすることができる。一部の実施形態では、シミュレートされたデータは、配列リードの異なる群分けについての、多様な仮説的サンプリングを含む。シミュレートされたデータは、実際の集団から予測されうるデータに基づく場合もあり、アルゴリズムを試行し、かつ/または適正な分類を割り当てるように、非対称にされる場合もある。本明細書ではまた、シミュレートされたデータを、「バーチャル」データとも称する。ある特定の実施形態では、シミュレーションは、コンピュータプログラムにより実施することができる。シミュレートされたデータセットの使用における、1つの可能なステップは、同定された結果、例えば、ランダムサンプリングが、どのくらいよく元のデータにマッチするのか、ランダムサンプリングが、元のデータを最もよく表すのかどうかについての信頼性を査定するステップである。1つの手法は、確率値(p値)を計算することであり、これにより、ランダム試料のスコアが、選択された試料より良好である確率を推定する。一部の実施形態では、少なくとも1つの試料が、基準試料にマッチする(変異の解明を伴うかまたは伴わずに)と仮定される経験モデルを評価することができる。一部の実施形態では、例えば、ポアソン分布など、別の分布を使用して、確率分布を定義することができる。
ある特定の実施形態では、システムは、1つまたはそれより多くのマイクロプロセッサーを含みうる。マイクロプロセッサーは、通信バスへと接続することができる。コンピュータシステムは、ランダムアクセスメモリ(RAM)であることが多い、メインメモリを含むことが可能であり、また、二次メモリも含みうる。一部の実施形態では、メモリは、非一過性のコンピュータ読取り型記憶メディアを含む。二次メモリは、例えば、ハードディスクドライブおよび/またはフロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、メモリカードなどを表す、リムーバブル記憶ドライブを含みうる。リムーバブル記憶ドライブは、リムーバブル記憶装置から読み出し、かつ/またはこれへと書き込むことが多い。リムーバブル記憶装置の非限定的な例は、例えば、リムーバブル記憶ドライブにより読み出すことが可能であり、これへと書き込みうる、フロッピー(登録商標)ディスク、磁気テープ、光学ディスクなどを含む。リムーバブル記憶装置は、その中にコンピュータソフトウェアおよび/またはデータを保存した非一過性のコンピュータ使用型記憶メディアを含みうる。
マイクロプロセッサーは、ソフトウェアをシステム内に実装することができる。一部の実施形態では、マイクロプロセッサーは、本明細書で記載されるタスクであって、使用者が実施しうるタスクを自動的に実施するようにプログラムすることができる。したがって、マイクロプロセッサー、またはこのようなマイクロプロセッサーにより実行されるアルゴリズムは、使用者からの監視または入力をほとんど〜全く要求しない(例えば、ソフトウェアは、機能を自動的に実装するようにプログラムすることができる)。一部の実施形態では、プロセスの複雑性は、単一の患者または患者群が、染色体変化の存在または非存在を決定するのに十分な、短い時間枠内でプロセスを実施しえない程度に大きいであろう。
一部の実施形態では、続発性メモリは、コンピュータプログラムまたは他の命令を、コンピュータシステムへとロードすることを可能とするための他の類似の手段を含みうる。例えば、システムは、リムーバブル記憶装置と、インターフェースデバイスとを含みうる。このようなシステムの非限定的な例は、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームデバイス内で見出されるものなど)、リムーバブルメモリチップ(EPROM、またはPROMなど)、および関連するソケット、ならびにソフトウェアおよびデータを、リムーバブル記憶装置から、コンピュータシステムへと移すことを可能とする、他のリムーバブル記憶装置およびインターフェースを含む。
一部の実施形態では、本明細書で記載される方法、システム、マシン、装置、またはコンピュータプログラム製品内の1つの実体により、配列リードを生成し、配列リードをマッピングし、不一致リード対を同定し、不一致リード対を活用することができる。ある特定の実施形態では、基準ゲノムに対してマッピングされる配列リードは、場合によって、第2の実体による、本明細書で記載される方法、システム、マシン、装置、またはコンピュータプログラム製品における使用のために、1つの実体により、第2の実体へと移される。
一部の実施形態では、1つの実体により、配列リードを生成し、第2の実体により、これらの配列リードを、基準ゲノムに対してマッピングする。場合によって、第2の実体により、不一致リードを同定し、本明細書で記載される方法、システム、マシン、またはコンピュータプログラム製品において、不一致リードを活用する。ある特定の実施形態では、第2の実体により、マッピングされたリードを、第3の実体へと移し、第3の実体により、不一致リードを同定し、本明細書で記載される方法、システム、マシン、またはコンピュータプログラム製品において、不一致リードを活用する。ある特定の実施形態では、第2の実体により、不一致リードを同定し、同定された不一致リードを、第3の実体へと移し、第3の実体により、同定された不一致リードを、本明細書で記載される方法、システム、マシン、またはコンピュータプログラム製品において活用する。第3の実体を伴う実施形態では、第3の実体は、場合によって、第1の実体と同じである。すなわち、場合によって、第1の実体により、配列リードを、第2の実体へと移し、この第2の実体により、配列リードを、基準ゲノムに対してマッピングし、かつ/または不一致リードを同定することができ、第2の実体により、マッピングされたリードおよび/または不一致リードを、第3の実体へと移すことができる。場合によって、第3の実体により、マッピングされたリードおよび/または不一致リードを、本明細書で記載される方法、システム、マシン、またはコンピュータプログラム製品において活用することができ、この場合、第3の実体は、場合によって、第1の実体と同じであり、場合によって、第3の実体は、第1の実体または第2の実体と異なる。
一部の実施形態では、1つの実体により、妊婦から血液を得、任意選択で、血液から(例えば、血漿または血清から)核酸を単離し、血液または核酸を、核酸から配列リードを生成する第2の実体へと移す。
図8は、本明細書で記載される、多様なシステム、方法、アルゴリズム、およびデータ構造を実装しうる演算環境510の非限定的な例について例示する。演算環境510は、適切な演算環境の一例であるに過ぎず、本明細書で記載されるシステム、方法、およびデータ構造の使用または機能性の範囲についてのいかなる限定を示唆することも意図するものではない。演算環境510は、演算環境510において例示される、任意の1つの構成要素または構成要素の組合せに関して、いかなる依存性も要件も有さないと解釈すべきである。ある特定の実施形態では、図8に示されるシステム、方法、およびデータ構造のサブセットを活用することができる。本明細書で記載されるシステム、方法、およびデータ構造は、他の多数の汎用演算システム環境もしくは汎用演算システム構成または専用演算システム環境もしくは専用演算システム構成に対しても作動的である。適切でありうる、公知の演算システム環境および/または演算システム構成の例は、患者コンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、携帯型デバイスまたはラップトップデバイス、マルチプロセッサーシステム、マイクロプロセッサーベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのうちのいずれかを含む、分散型演算環境などを含むがこれらに限定されない。
図8の動作環境510は、処理装置521、システムメモリ522、およびシステムメモリ522を含む多様なシステム構成要素を、処理装置521へと作動的に連結するシステムバス523を含むコンピュータ520の形態の汎用演算デバイスを含む。処理装置521が1つだけ存在する場合もあり、コンピュータ520のマイクロプロセッサーが、単一の中央処理装置(CPU)、または並列処理環境と一般に称する、複数の処理装置を含むように、1つを超える処理装置521が存在する場合もある。コンピュータ520は、従来型のコンピュータの場合もあり、分散型コンピュータの場合もあり、または他の任意の種類のコンピュータの場合もある。
システムバス523は、様々なバスアーキテクチャーのうちのいずれかを使用する、メモリバスまたはメモリコントローラー、周辺機器用バス、およびローカルバスを含む、複数種類のバス構造のうちのいずれかでありうる。システムメモリはまた、単にメモリとも称することが可能であり、リードオンリーメモリ(ROM)524およびランダムアクセスメモリ(RAM)を含む。スタートアップ時など、コンピュータ520内のエレメント間で情報を移す一助となる基本ルーチンを含有する基本入出力システム(BIOS)526は、ROM524内に保存される。コンピュータ520はさらに、示されないハードディスクから読み取り、かつ、これへと書き込むためのハードディスクドライブインターフェース527、リムーバブル磁気ディスク529から読み取るか、またはこれへと書き込むための磁気ディスクドライブ528、およびCD ROMまたは他の光学メディアなど、リムーバブル光学ディスク531から読み取るか、またはこれへと書き込むための光学ディスクドライブ530も含みうる。
ハードディスクドライブ527、磁気ディスクドライブ528、および光学ディスクドライブ530は、システムバス523へと、それぞれ、ハードディスクドライブインターフェース532、磁気ディスクドライブインターフェース533、および光学ディスクドライブインターフェース534により接続される。ドライブおよびそれらの関連するコンピュータ読取り型メディアは、コンピュータ520のためのコンピュータ読取り型命令、データ構造、プログラムモジュール、および他のデータの非一過性記憶を提供する。コンピュータによりアクセス可能なデータを保存しうる、任意の種類のコンピュータ読取り型メディアであって、磁気カセット、フラッシュメモリカード、ディジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)などのメディアを、動作環境内で使用することができる。
多数のプログラムモジュールは、オペレーティングシステム535、1または複数のアプリケーションプログラム536、他のプログラムモジュール537、およびプログラムデータ538を含む、ハードディスク上、磁気ディスク529上、光学ディスク531上、ROM524上、またはRAM上に保存することができる。使用者は、コマンドおよび情報を、患者コンピュータ520へと、キーボード540およびポインティングデバイス542などの入力デバイスにより入力することができる。他の入力デバイス(示されない)は、マイクロフォン、操作棒、ゲームパッド、パラボラアンテナ、スキャナーなどを含みうる。これらのおよび他の入力デバイスは、システムバスへと連結されたシリアルポートインターフェース546により、処理装置521へと接続することが多いが、並列ポート、ゲームポート、またはユニバーサルシリアルバス(USB)など、他のインターフェースにより接続することもできる。また、モニター547または他の種類のディスプレイデバイスも、ビデオアダプター548などのインターフェースを介して、システムバス523へと接続される。モニターに加えて、コンピュータは、スピーカーおよびプリンターなど、他の周辺機器用出力デバイス(示されない)も含むことが典型的である。
コンピュータ520は、リモートコンピュータ549など、1または複数のリモートコンピュータへの論理的接続を使用して、ネットワーク環境内で作動しうる。これらの論理的接続は、コンピュータ520へと連結された通信デバイスにより達成することもでき、コンピュータ520の一部により達成することもでき、他の様式で達成することもできる。リモートコンピュータ549は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイス、または他の共通ネットワークノードであることが可能であり、図8で例示したのはメモリ記憶デバイス550だけであるが、コンピュータ520に関する、上記で記載したエレメントの多くまたは全部を含むことが典型的である。図8で描示した論理的接続は、ローカルエリアネットワーク(LAN)551およびワイドエリアネットワーク(WAN)552を含む。このようなネットワーク環境は、それらの全てがネットワークの種類である、オフィスネットワーク内、企業規模のコンピュータネットワーク内、イントラネット内、およびインターネット内で常套的である。
LANネットワーク環境で使用する場合、コンピュータ520を、1つの種類の通信デバイスである、ネットワークインターフェースまたはネットワークアダプター553により、ローカルネットワーク551へと接続する。WANネットワーク環境で使用する場合、コンピュータ520は、1つの種類の通信デバイスである、モデム554、またはワイドエリアネットワーク552にわたる通信を確立するための他の任意の種類の通信デバイスを含むことが多い。内部の場合もあり、外部の場合もあるモデム554は、シリアルポートインターフェース546を介して、システムバス523へと接続される。ネットワーク環境では、患者コンピュータ520またはその部分に関して描示されるプログラムモジュールは、リモートメモリ記憶デバイス内に保存することができる。示されるネットワーク接続は、非限定的な例であり、コンピュータ間で通信リンクを確立するための他の通信デバイスも使用しうることが察知される。
ある特定のシステム、マシン、およびコンピュータプログラム製品についての実施形態
本明細書のある特定の態様では、メモリおよび1つまたはそれより多くのマイクロプロセッサーを含むシステムであって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、(a)複数の配列リード部分配列のマッピング可能性(mappability)を、配列リードについて特徴付けるステップであって、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであるステップと、(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成するステップと、(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含むシステムが提供される。
本明細書のある特定の態様ではまた、メモリおよび1つまたはそれより多くのマイクロプロセッサーを含む方法であって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付けるステップであって、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであるステップと、(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成するステップと、(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含む方法も提供される。
本明細書のある特定の態様ではまた、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアであって、プログラムが、マイクロプロセッサーに、(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付け、この場合、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであり、(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成し、(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定することを命令するように構成された記憶メディアも提供される。
ある特定の態様では、染色体変化の存在または非存在を決定するためのコンピュータ実装型の方法であって、(a)不一致リード対をペアドエンドの配列リードから同定するステップであって、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、これらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについてのマッピング可能性の変化が提供されるステップと、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択するステップであって、サブセットが、候補切断点を含むリードを含むステップと、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成するステップと、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含む方法が提供される。
ある特定の態様ではまた、1つまたはそれより多くのマイクロプロセッサーおよびメモリを含むシステムであって、メモリが、1つまたはそれより多くのマイクロプロセッサーにより実行可能な命令を含み、メモリが、基準ゲノムに対してマッピングされるヌクレオチド配列リードを含み、配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、命令により、1つまたはそれより多くのマイクロプロセッサーが、(a)不一致リード対を、ペアドエンドの配列リードから同定し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化が提供され、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するように方向付けるシステムも提供される。
メモリおよび1つまたはそれより多くのマイクロプロセッサーを含むシステムであって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、(a)不一致リード対をペアドエンドの配列リードから同定するステップであって、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、これらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについてのマッピング可能性の変化が提供されるステップと、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択するステップであって、サブセットが、候補切断点を含むリードを含むステップと、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成するステップと、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップとを含むシステム。一部の実施形態では、システムは、1つまたはそれより多くのマシンを含む。一部の実施形態では、システムは、配列リードを生成するように構成されたシーケンシングマシンを含む。一部の実施形態では、本明細書で記載されるシステムは、1つのマシンに具体化される。
ある特定の態様ではまた、1つまたはそれより多くのマイクロプロセッサーおよびメモリを含むマシンであって、メモリが、1つまたはそれより多くのマイクロプロセッサーにより実行可能な命令を含み、メモリが、基準ゲノムに対してマッピングされるヌクレオチド配列リードを含み、配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、命令により、1つまたはそれより多くのマイクロプロセッサーが、(a)不一致リード対を、ペアドエンドの配列リードから同定し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化が提供され、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するように方向付けるマシンも提供される。
ある特定の実施形態ではまた、1または複数のプロセッサーおよびメモリを含む装置であって、メモリが、1または複数のプロセッサーにより実行可能な命令を含み、メモリが、基準ゲノムに対してマッピングされる核酸配列リードを含み;1または複数のプロセッサーにより実行可能な命令が、(a)不一致リード対を、ペアドエンドの配列リードから同定し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化が提供され、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するように構成された装置も提供される。
ある特定の実施形態ではまた、1または複数のプロセッサーおよびメモリを含む装置であって、メモリが、(i)1または複数のプロセッサーにより実行可能な命令と、(ii)ペアドエンドの配列リードから同定された不一致リード対とを含み、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、1または複数のプロセッサーにより実行可能な命令が、(a)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化および候補切断点が提供され、(b)不一致リードメイトのサブセットを、(a)におけるマッピング可能性の変化に従い選択し、(c)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(b)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(d)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するように構成された装置も提供される。
ある特定の実施形態ではまた、非一過性のコンピュータ読取り型メディア上に有形で具体化されたコンピュータプログラム製品であって、1つまたはそれより多くのマイクロプロセッサーにより実行されると、(a)不一致リード対を、ペアドエンドの配列リードから同定し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化が提供され、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するように構成された命令を含むコンピュータプログラム製品も提供される。
本明細書ではまた、実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアであって、プログラムが、マイクロプロセッサーに、(a)不一致リード対を、ペアドエンドの配列リードから同定し、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、これにより、不一致リードメイトについて、マッピング可能性の変化が提供され、(c)不一致リードメイトのサブセットを、(b)におけるマッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定することを命令する、非一過性のコンピュータ読取り型記憶メディアも提供される。
変換
ある特定の実施形態では、本明細書で記載される、染色体変化の存在または非存在を決定することは、核酸配列リードの、被験体の細胞の核酸(例えば、胎児の細胞の核酸)についての表示への変換と考えることができる。被験体の細胞の核酸についての表示は、特定の染色体またはその部分についての染色体変化を反映することが多く、これにより、表示は、被験体の核酸の特性であることが多い。例えば、多数の比較的小さな配列リードを、1または複数の比較的大きな染色体についての表示へと転換することは、変換と考えることができる。例示として述べると、約36塩基対の長さの読取りを使用して、約4700万塩基の長さである第21染色体についての表示を生成するためのプロセスでは、染色体の少なくとも100,000分の1である、何千ものリードを、著明に大きな染色体についての表示へと変換する。染色体についてのこのような表示を生成することは、本明細書で記載される、比較的大きな染色体についての表示に到達するように、リードについての複数の操作(例えば、マッピング、フィルタリング、分析、および/または標準化)を伴うことが典型的である。1または複数のコンピュータの使用を要求しうる、複数の操作を活用することが多く、複数のコンピュータを並列的に連携させることが多い。
妊婦に由来する試料を使用して、胎児染色体についての染色体表示をもたらす場合、リードのうちの多数は、母体核酸に由来することが多く、リードのうちの少数が、胎児核酸に由来することが多いことを踏まえると、このような変換はさらに明らかである。母体核酸のリードは、胎児核酸のリードに優越することが多く、母体核酸のリードのうちの多数は、胎児染色体についての表示を遮蔽することが多い。典型的に大きな母体リードのバックグラウンドは、胎児の染色体核酸と、母体の染色体核酸との差異を不鮮明にする場合があり、このようなバックグラウンドに抗して胎児染色体についての表示を得ることは、本明細書で記載される通り、母体リードの寄与をデコンボリュートするプロセスを伴う。
一部の実施形態では、染色体変化の存在または非存在を決定することは、被験体(例えば、妊婦)に由来する配列リードの、被験体(例えば、母体および/または胎児)において存在する既存の構造(例えば、ゲノム、染色体、またはこれらのセグメント)についての表示への変換から生じる。一部の実施形態では、染色体変化の存在または非存在を決定することは、第1の被験体(例えば、妊婦)に由来する配列リードの、構造(例えば、ゲノム、染色体、またはこれらのセグメント)についての複合表示への変換と、複合表示についての第2の変換であって、第1の被験体(例えば、妊婦)および/または第2の被験体(例えば、胎児)において存在する構造についての表示をもたらす変換とを含む。一部の実施形態では、染色体変化の存在または非存在を決定することは、第1の被験体(例えば、女性被験体、妊婦)に由来する配列リードの、第2の被験体(例えば、胎児)において存在する構造についての表示(例えば、ゲノム、染色体、またはこれらのセグメント)への変換を含む。
本明細書の変換法は、場合によって、胎児を宿す妊婦被験体から得られた試料中の核酸リードから、胎児における転座の存在または非存在を決定するステップを含む。一部の実施形態では、本明細書の変換法は、胎児を宿す妊婦被験体から得られた試料中の核酸リードから、胎児についての染色体表示(例えば、染色体転座)を作成するステップ(例えば、決定するステップ、視覚化するステップ、表示するステップ、提供するステップ)を含みうる。
上記で注目した通り、データは、場合によって、1つの形態から、別の形態へと変換される。本明細書で使用される「変換された」、「変換」という用語、およびこれらの文法的派生物または同等物は、データの、物理的出発材料(例えば、被験被験体および/または基準被験体試料核酸)から、物理的出発材料(例えば、配列リードデータ)についてのディジタル表示への変化を指し、一部の実施形態では、ディジタル表示の、1または複数の数値またはグラフ表示へのさらなる変換であって、アウトカムを提供するのに活用しうる変換も含む。ある特定の実施形態では、ディジタル表示されたデータについての1または複数の数値および/またはグラフ表示を活用して、被験被験体の物理的ゲノムの様相を表示する(例えば、ゲノムの挿入、複製、または欠失の存在または非存在をバーチャルに表示するか、または視覚的に表示する;医学的状態と関連する配列についての物理量の変動の存在または非存在を表示する)ことができる。バーチャル表示は、場合によって、出発材料についてのディジタル表示についての1または複数の数値またはグラフ表示へとさらに変換される。これらの方法により、物理的出発材料を、数値もしくはグラフ表示、または被験被験体のゲノムの物理的様相についての表示へと変換することができる。
一部の実施形態では、データセットの変換は、データの複雑性および/またはデータの次元を低減することにより、アウトカムの提供を容易とする。データセットの複雑性は、場合によって、物理的出発材料を、出発材料についてのバーチャル表示(例えば、物理的出発材料を表示する配列リード)へと変換するプロセスにおいて低減される。適切な特徴または変数を活用して、データセットの複雑性および/または次元を低減することができる。データを処理するための標的特徴としての使用のために選択しうる特徴の非限定的な例は、GC含量、胎児性別の予測、不一致リード対、マッピング可能性の変化、候補切断点の決定、リードのカウント(例えば、実質的に類似する候補切断点を含むリードのカウント)、切断点の決定、染色体変化の同定、特定の遺伝子またはタンパク質の同定、がん、疾患、遺伝された遺伝子/形質の同定、染色体の異常、生物学的類型、化学的類型、生化学的類型、遺伝子またはタンパク質の類型、遺伝子オントロジー、タンパク質オントロジー、共調節される遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、前出の遺伝子に関連するタンパク質、遺伝子変異体、タンパク質変異体、共調節される遺伝子、共調節されるタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データなど、および前出の組合せを含む。データセットの複雑性および/または次元の低減の非限定的な例は、複数の配列リードの、プロファイルプロットへの低減;複数の配列リードの、数値(例えば、標準化値、Zスコア、p値)への低減;複数の分析法の、確率プロットまたは単一の点への低減;導出された量についての主成分分析など、またはこれらの組合せを含む。
以下の実施例は、例示だけを目的として提供するものであり、限定を目的として提供するものではない。したがって、下記に示される実施例は、ある特定の実施形態を例示するものであり、本技術を限定するものではない。当業者は、重要でない様々なパラメータであって、本質的に同じであるかまたは類似の結果をもたらすように変化させうるかまたは改変しうるパラメータをたやすく認識するであろう。
(実施例1)
方法の開発(シミュレーション)
ヒト基準ゲノム(hg19)に由来する2つの独立の領域を接続することにより、構造的再配列を、in silicoでシミュレートした。配列は、両方の末端においてユニークであるように、一方の末端においてユニークであり、他方の末端において反復配列に由来するように、または両方の末端が反復エレメントに由来するようにデザインした。ccf DNAの平均長は、約166bpであると報告されているので、シミュレートされるリードの断片長は、140〜180bpの範囲へと制限した。加えて、切断点位置を、断片長に沿って体系的に生成した。シーケンシング誤差の非存在下で、2×100のペアドエンドの配列リードを生成したが、この場合、各メイト対は、最大60塩基重複した。MAPQスコア特徴は、Bowtieにより、各メイト対について、シミュレートされた140bpの断片についての切断点の場所およびリード長の関数として決定した(図2A〜2D)。切断点が断片の縁辺の近傍にある場合(図2A)、リード長が短ければ、メイト1について、マッピング品質の低さが裏付けられるのに対し、リード長が長ければ、メイト1についてのマッピング品質は高くなった。メイト2は、切断点の影響を受けなかった。切断点を断片長に沿って移動させたところ、リード長が増大するにつれて、いずれのメイト対もマッピング品質の低下を呈示する相互挙動が観察された(図2)。
マッピング特徴は、シミュレートされる断片長に関わらず一貫し、ヒト基準ゲノムと比べて、断片特異的な再配列を含有する、不一致ペアドエンドリードの署名をもたらした。2つの計量を使用して、所与のペアドエンドリードについてのマッピング/アラインメント特徴を記載した。第1の特徴は、リード長についての線形モデルの平均の傾き、および各メイトについてのMAPQスコアであった。第2の特徴は、各メイトについてのアラインメントスコアの最大差異の平均であった。シミュレートされる140塩基の断片長について、全ての切断点における平均値の傾きの計量の全体的な分布を決定した(図3)。シミュレートされた断片であって、中央部に位置特定される切断点を含有する断片は、最も劇的な傾きの変化と、アラインメントスコアの差異とを呈示した。反復エレメントを、シミュレーションへと組み込んだところ、計量の変動の増大が観察された(図4)。しかし、配列の複雑性が小さいにも拘らず、リードの長さは、適正なアラインメントを可能とするのに十分なユニークネスを保持し、これにより、ゲノムの反復領域内の構造的再配列を検出することの実行可能性が裏付けられる。
試料の収集および血液の処理
臨床試料は、治験審査委員会(IRB)に承認された治験実施計画書(Compass IRB 00508またはWestern IRB 20080757)下で回収された。被験体は、最大20mLの全血液を、EDTA−K2を噴霧乾燥した、10mL Vacutainers(EDTA試験管;Becton Dickinson、Franklin Lakes、NJ)へと回収するための静脈穿刺を含む、任意の研究関連手順を経る前に、説明同意文書を提出した。試料は、冷蔵するかまたは水を含む氷上で保存し、採血後6時間以内に血漿へと処理した。既に記載されている通り(Palomakiら(2011年)、Genet Med、13巻:913〜20頁)に、血液を処理し、DNAを単離した。シーケンシングライブラリーは、既に記載されている通り(Jensen TJら(2013年)、Plos One、8巻:e57381)に、抽出されたccf DNAから調製した。ゲノムDNAでは、シーケンシングライブラリーは、製造元の指示書(TruSeq;Illumina)に従い調製した。ペアドエンドシーケンシングは、Illumina HiSeq2000シークエンサーを使用して、全ての調製されたライブラリーまたはライブラリー混合物について、100サイクルにわたり実施した。
データおよび結果
本研究では、4つの試料を使用した(表2)。混合物Bは、ccf DNA断片長の分布をシミュレートするようにせん断され、公知の構造的な再配列を伴わない、非妊婦ドナーの血漿に由来するccf DNAと、多様な濃度で混合された、ゲノムDNA試料であった。ゲノムDNAは、Coriell Instituteから得た。
表3で例示されるデータフィルタリングステップは、不一致(disconcordance(すなわち、discordancy))、塩基スコアによる品質、マッピング/アラインメント特徴、および偽陽性一貫性の点検に基づく、ペアドエンドリードの選択を示す。
偽陽性一貫性の点検では、対照データセットを活用し、いずれのデータセットでも見出される構造的再配列を除外した。第2染色体と第5染色体との間で推定される構造的再配列は、被験セットおよびプールされた「対照」セットのいずれでも見出された(図5)ことから、この領域は、偽陽性の可能性が高いことが示唆される。後続のデータフィルタリングにより、Zスコア>5とする構造的再配列であって、混合物Bおよび血漿Cのそれぞれについて、2つの領域および1つの領域に対応する構造的再配列を含有する、65および76の推定ペアドエンドリードを同定した。Zスコアは、式A:
[式中、aおよびbは、被験セットおよびプールされた「対照」セットであり、1Mbの分解能における推定転座イベントの分布であって、正規分布であると仮定された分布に基づく]
に従い計算した。
混合物Bは、せん断され、ccf DNAのおよそのサイズまで断片化されたゲノムDNAを伴い、公知のt(2;22)(q23;q13)転座を形成し、多様な濃度で非妊娠個体由来の血漿試料と混合されたモデル系であった。データフィルタリングの後、第4染色体(152Mb)と第11染色体(67Mb)との間、および第2染色体(149Mb)と第22染色体(45Mb)との間で、2カ所の推定転座を同定した。推定の第4染色体/第11染色体間転座は、高度に有意(Z=6.50、p=4.02×10−11)であったが、接合部(手作業でアセンブルされた213bpの領域の106位)の境界は、注釈が不十分な配列(表4)を複数含有したことから、これは、偽陽性の可能性が最も高いことが示唆される。第2の有意な領域は、Z=7.52(p=2.74×10−14)の染色体2p23および22q13を伴った。35のリード(15、30、50、および100%のせん断されたゲノム試料のそれぞれについて、4、4、0、および27のリード)についての処理後リアセンブリーにより、隣接する反復エレメントを伴わない、明確な構造的再配列が裏付けられた(図5C)。第2染色体と第22染色体との間で他の領域が同定されず、構造的再配列についてのリアセンブルされた証拠によりかつての注釈が支持された事実により、観察された染色体再配列の存在が支持された。
(実施例2)
母体血漿に由来する循環無細胞(ccf)DNAについての超並列シーケンシングが、非侵襲的出産前検査のための主要技術として出現している。最も確立された方法では、シーケンシングを活用して、ある特定の常染色体トリソミーおよび他のコピー数変異を、高感度および高特異度で検出する。CNVの検出は、既に記載されているが、コピー数について中性のイベントを結果としてもたらす染色体変化であって、平衡転座を含む染色体変化は、より困難であり、いまだccf DNAから非侵襲的には検出されていないことが証明される。
全血液は、侵襲的手順を経る前の、妊娠15週と5日である、38歳の妊婦から回収した。羊水穿刺の適応は、母体の高齢および姉妹が平衡転座を保有することが既知であることを含んだ。後続の核型分析からの結果により、第8染色体の短いアームと第11染色体の短いアームとの間で生じる胎児転座が明らかにされた[核型分析結果:平衡転座46XY、t(8;11)(p11.2;p11.2)]。
罹患個体に対して方法を実施する前に、胎児転座の検出を可能とするように、分析モデルおよび検査室モデルを開発した(実施例1を参照されたい)。塩基漸増アラインメントにより導出されるマッピング特徴を構築するのに、長さの短いccf DNAおよびペアドエンドシーケンシングを最終的に利用して、in silicoのデータのモデル化を実施して、複数の方法を査定した。次に、データフィルタリング法を最適化するように、公知の転座を伴うゲノムDNA試料を含有する混合物を創出して、妊婦に由来するccf DNA内に存在する罹患DNAの比率をシミュレートした。
これらの分析法を開発した後で、罹患胎児を宿す母体に由来する血漿中ccf DNAを単離および分析した。この試料中の胎児画分は、16%であり、DNAの品質は、標準的なシーケンシングライブラリーを生成するのに十分であった。シーケンシングは、Illumina技術を使用して実施し、これにより、合計2.7×10のペアドエンドシーケンシングリードをもたらした。開発された方法を適用して、染色体切断点の存在および正確な場所を、単一塩基の分解能で同定した。適用された方法により、公知の転座が明確に(p=1.2×10−8)同定され、他の転座の可能性が棄却されたことから、推定される胎児核型の拡大であって、塩基特異的切断点であるt(8;11)(34880907;44556834)(hg19)(図1)を含む拡大が可能となった。さらに、第11染色体と第8染色体との接合部において、6bpの欠失が同定されたが、ここでは、相互再配列は非存在であった(図1C)。
まとめると、このデータにより、母体血漿に由来するccf DNAのシーケンシングを介する、平衡胎児転座イベントの、塩基特異的分解能での非侵襲的検出および特徴付けについての概念実証が裏付けられた。
(実施例3)
実施形態の例
下記に示される実施例は、ある特定の実施形態を例示するものであり、本技術を限定するものではない。
A1. メモリおよび1つまたはそれより多くのマイクロプロセッサーを含むシステムであって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、
(a)不一致リード対をペアドエンドの配列リードから同定するステップであって、該ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、該配列リード部分配列の各々の長さが異なるステップと、
(c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択するステップであって、該サブセットが、候補切断点を含むリードを含むステップと、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成するステップと、
(e)(d)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含むシステム。
A1.1. シーケンシング装置および1つまたはそれより多くの演算装置を含むシステムであって、
シーケンシング装置が、シーケンシング装置内にロードされた核酸のヌクレオチド塩基に対応するシグナルを生成するように構成され、核酸が、被験被験体試料に由来する循環無細胞核酸であるか、またはシーケンシング装置内にロードされた核酸が、循環無細胞核酸の改変変異体であり、
1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含み、メモリが、1または複数のプロセッサーにより実行可能な命令を含み、1または複数のプロセッサーにより実行可能な命令が、
ペアドエンドの配列リードをシグナルから生成し、配列リードを基準ゲノムに対してアラインさせ、
(a)不一致リード対を、ペアドエンドの配列リードから同定し、これにより、不一致リードメイトを同定し、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、
(c)不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択し、この場合、サブセットが、候補切断点を含むリードを含み、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、
(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されたシステム。
A1.2. 前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態A1またはA1.1のシステム。
A1.3. 前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、実施形態A1またはA1.1のシステム。
A1.4. 前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、実施形態A1またはA1.1のシステム。
A1.5. 前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、実施形態A1またはA1.1のシステム。
A1.6. 1つまたはそれより多くの候補切断点の位置を決定するステップを含む、実施形態A1からA1.5のいずれか一つのシステム。
A2. (b)における前記特徴付けるステップが、各不一致リードメイトの、前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、実施形態A1からA1.5のいずれか一つのシステム。
A3. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約5塩基またはこれ未満だけ短い、実施形態A1からA2のいずれか一つのシステム。
A3.1. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより1塩基または2塩基だけ短い、実施形態A3のシステム。
A4. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより漸次的に短い、実施形態A3のシステム。
A5. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約1塩基ずつ漸次的に短い、実施形態A4のシステム。
A6. マッピング可能性の変化が、前記あてはめ関係の傾きを含む、実施形態A2からA5のいずれか一つのシステム。
A7. (c)における前記選択するステップが、マッピング可能性の閾値に従う、実施形態A1からA6のいずれか一つのシステム。
A8. 前記不一致リードメイトをフィルタリングすることを含む、実施形態A1からA7のいずれか一つのシステム。
A9. 前記フィルタリングすることが、前記不一致リードメイトの一方または両方を除外することを含む、実施形態A8のシステム。
A10. 前記フィルタリングすることが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、実施形態A8またはA9のシステム。
A11. 前記フィルタリングすることが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、実施形態A8からA10のいずれか一つのシステム。
A12. 前記フィルタリングすることが、前記実質的に類似する切断点が、前記基準内に存在する場合に、不一致リードメイトを除外することを含む、実施形態A8からA10のいずれか一つのシステム。
A13. 前記切断点の場所を、単一塩基の分解能で同定する、実施形態A1からA12のいずれか一つのシステム。
A14. (e)で、平衡転座の存在を決定する、実施形態A2からA13のいずれか一つのシステム。
A15. 前記平衡転座が1つの平衡転座である、実施形態A14のいずれか一つのシステム。
A16. (e)で、非平衡転座の存在を決定する、実施形態A1からA15のいずれか一つのシステム。
A17. (e)で前記染色体変化の存在を決定するステップが、(d)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、実施形態A1からA16のいずれか一つのシステム。
A18. 第1の切断点および第2の切断点を、(d)における前記比較に従い同定する、実施形態A1からA17のいずれか一つのシステム。
A19. (e)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、実施形態A18のシステム。
A20. (c)における前記選択するステップもしくは(d)における前記比較するステップ、または(c)における前記選択するステップおよび(d)における前記比較するステップが、クラスタリング分析を実施することを含まない、実施形態A1からA19のいずれか一つのシステム。
A21. (d)における前記比較が、信頼水準を決定することを含む、実施形態A1からA20のいずれか一つのシステム。
A22. 前記信頼水準を決定することが、p値を決定することを含む、実施形態A21のシステム。
A23. 前記信頼水準を決定することが、Zスコアを決定することを含む、実施形態A21のシステム。
A24. 1つまたはそれより多くのマシンの使用を含む、実施形態A1からA23のいずれか一つのシステム。
A25. 前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、実施形態A24のシステム。
A26. 1つのマシンに具体化される、実施形態A24またはA25のシステム。
A27. 前記メモリが、前記配列リード、前記不一致リード対、不一致リードメイトの前記サブセット、マッピング可能性の変化、前記切断点、またはこれらの組合せを含む、実施形態A1からA26のいずれか一つのシステム。
A28. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、実施形態A1からA27のいずれか一つのシステム。
A29. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、実施形態A1からA27のいずれか一つのシステム。
A30. 前記細胞増殖性障害が、がんである、実施形態A29のシステム。
A31. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、実施形態A1からA30のいずれか一つのシステム。
A32. 前記少数核酸種が、胎児核酸を含む、実施形態A31のシステム。
A33. 前記少数核酸種が、がん細胞に由来する核酸を含む、実施形態A31のシステム。
B1. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
(a)不一致リード対をペアドエンドの配列リードから同定するステップであって、該ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、該配列リード部分配列の各々の長さが異なるステップと、
(c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択するステップであって、該サブセットが、候補切断点を含むリードを含むステップと、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成するステップと、
(e)(d)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含む方法。
B1.1 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、または該シーケンシング装置に、該核酸の改変変異体をロードするステップであって、該シーケンシング装置により、該核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
任意選択で、該シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、該核酸の該シグナルから、ペアドエンドの配列リードを生成するステップであって、該システム内の該1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
該試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、該システムにより決定するステップであって、該システム内の1つの演算装置または演算装置の組合せが、該配列リードを基準ゲノムに対してアラインさせ、
(a)不一致リード対を、該ペアドエンドの配列リードから同定し、これにより、不一致リードメイトを同定し、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトの該配列リード部分配列の各々の長さが異なり、
(c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択し、この場合、該サブセットが、候補切断点を含むリードを含み、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成し、
(e)(d)における該比較に従い、該試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されるステップと
を含む方法。
B1.2. 前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態B1またはB1.1の方法。
B1.3. 前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、実施形態B1またはB1.1の方法。
B1.4. 前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、実施形態B1またはB1.1の方法。
B1.5. 前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、実施形態B1またはB1.1の方法。
B1.6. 1つまたはそれより多くの候補切断点の位置を決定するステップを含む、実施形態B1からB1.5のいずれか一つの方法。
B2. (b)における前記特徴付けるステップが、各不一致リードメイトの、前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、実施形態B1からB1.6のいずれか一つの方法。
B3. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約5塩基またはこれ未満だけ短い、実施形態B1からB2のいずれか一つの方法。
B3.1. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより1塩基または2塩基だけ短い、実施形態B3の方法。
B4. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより漸次的に短い、実施形態B3の方法。
B5. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約1塩基ずつ漸次的に短い、実施形態B4の方法。
B6. マッピング可能性の変化を、前記当てはめ関係の傾きから決定する、実施形態B2からB5のいずれか一つの方法。
B6.1. マッピング可能性の変化が、前記あてはめ関係の傾きを含む、実施形態B2からB5のいずれか一つの方法。
B7. (c)における前記選択するステップが、マッピング可能性の閾値に従う、実施形態B1からB6のいずれか一つの方法。
B8. 前記不一致リードメイトをフィルタリングするステップを含む、実施形態B1からB7のいずれか一つの方法。
B9. 前記フィルタリングするステップが、前記不一致リードメイトの一方または両方を除外することを含む、実施形態B8の方法。
B10. 前記フィルタリングするステップが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vii)段階的な多重アラインメントを含むリードを除外すること、および(viii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、実施形態B8またはB9の方法。
B11. 前記フィルタリングするステップが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、実施形態B8からB10のいずれか一つの方法。
B12. 前記フィルタリングするステップが、前記実質的に類似する切断点が、前記基準内に存在する場合に、不一致リードメイトを除外することを含む、実施形態B8からB10のいずれか一つの方法。
B13. 前記切断点の場所を、単一塩基の分解能で同定する、実施形態B1からB12のいずれか一つの方法。
B14. (e)で、平衡転座の存在を決定する、実施形態B1からB13のいずれか一つの方法。
B15. 前記平衡転座が1つの平衡転座である、実施形態B14の方法。
B16. (e)で、非平衡転座の存在を決定する、実施形態B1からB15のいずれか一つの方法。
B17. (e)で前記染色体変化の存在を決定するステップが、(d)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、実施形態B1からB16のいずれか一つの方法。
B18. 第1の切断点および第2の切断点を、(d)における前記比較に従い同定する、実施形態B1からB17のいずれか一つの方法。
B19. (e)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、実施形態B18の方法。
B20. (c)における前記選択するステップもしくは(d)における前記比較するステップ、または(c)における前記選択するステップおよび(d)における前記比較するステップが、クラスタリング分析を実施することを含まない、実施形態B1からB19のいずれか一つの方法。
B21. (d)における前記比較が、信頼水準を決定することを含む、実施形態B1からB20のいずれか一つの方法。
B22. 前記信頼水準を決定することが、p値を決定することを含む、実施形態B21の方法。
B23. 前記信頼水準を決定することが、Zスコアを決定することを含む、実施形態B21の方法。
B24. 1つまたはそれより多くのマシンの使用を含む、実施形態B1からB23のいずれか一つの方法。
B25. 前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、実施形態B24の方法。
B26. 1つのマシンに具体化される、実施形態B24またはB25の方法。
B27. 前記配列リード、前記不一致リード対、不一致リードメイトの前記サブセット、マッピング可能性の変化、前記切断点、またはこれらの組合せを得るステップを含む、実施形態B1からB26のいずれか一つの方法。
B28. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、実施形態B1からB27のいずれか一つの方法。
B29. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、実施形態B1からB27のいずれか一つの方法。
B30. 前記細胞増殖性障害が、がんである、実施形態B29の方法。
B31. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、実施形態B1からB30のいずれか一つの方法。
B32. 前記少数核酸種が、胎児核酸を含む、実施形態B31の方法。
B33. 前記少数核酸種が、がん細胞に由来する核酸を含む、実施形態B31の方法。
C1. 1または複数のプロセッサーおよびメモリを含む装置であって、メモリが、1または複数のプロセッサーにより実行可能な命令を含み、メモリが、基準ゲノムに対してマッピングされる核酸配列リードを含み;1または複数のプロセッサーにより実行可能な命令が、
(a)不一致リード対を、ペアドエンドの配列リードから同定し、ここで、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定し、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトのこれらの配列リード部分配列の各々の長さが異なり、
(c)不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択し、ここで、サブセットが、候補切断点を含むリードを含み、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成し、
(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するように構成された装置。
C1.1. 前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態C1の装置。
C1.2. 前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、実施形態C1の装置。
C1.3. 前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、実施形態C1の装置。
C1.4. 前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、実施形態C1の装置。
C1.5. 1つまたはそれより多くの候補切断点の位置を決定することを含む、実施形態C1からC1.4のいずれか一つの装置。
C2. (b)における前記特徴付けることが、各不一致リードメイトの、前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、実施形態C1からC1.5のいずれか一つの装置。
C3. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約5塩基またはこれ未満だけ短い、実施形態C1からC2のいずれか一つの装置。
C3.1. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより1塩基または2塩基だけ短い、実施形態C3の装置。
C4. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより漸次的に短い、実施形態C3の装置。
C5. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約1塩基ずつ漸次的に短い、実施形態C4の装置。
C6. マッピング可能性の変化が、前記あてはめ関係の傾きを含む、実施形態C2からC5のいずれか一つの装置。
C7. (c)における前記選択することが、マッピング可能性の閾値に従う、実施形態C1からC6のいずれか一つの装置。
C8. 前記不一致リードメイトをフィルタリングするように構成された1または複数のプロセッサーにより実行可能な命令を含む、実施形態C1からC7のいずれか一つの装置。
C9. 前記フィルタリングすることが、前記不一致リードメイトの一方または両方を除外することを含む、実施形態C8の装置。
C10. 前記フィルタリングすることが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、実施形態C8またはC9の装置。
C11. 前記フィルタリングすることが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、実施形態C8からC10のいずれか一つの装置。
C12. 前記フィルタリングすることが、前記実質的に類似する切断点が、前記基準内に存在する場合に、不一致リードメイトを除外することを含む、実施形態C8からC10のいずれか一つの装置。
C13. 前記切断点の場所を、単一塩基の分解能で同定する、実施形態C1からC12のいずれか一つの装置。
C14. (e)で、平衡転座の存在を決定する、実施形態C2からC13のいずれか一つの装置。
C15. 前記平衡転座が1つの平衡転座である、実施形態C14のいずれか一つの装置。
C16. (e)で、非平衡転座の存在を決定する、実施形態C1からC15のいずれか一つのシステム。
C17. (e)で前記転座の存在を決定することが、(d)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、実施形態C1からC16のいずれか一つの装置。
C18. 第1の切断点および第2の切断点を、(d)における前記比較に従い同定する、実施形態C1からC17のいずれか一つの装置。
C19. (e)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、実施形態C18の装置。
C20. (c)における前記選択することもしくは(d)における前記比較すること、または(c)における前記選択することおよび(d)における前記比較することが、クラスタリング分析を実施することを含まない、実施形態C1からC19のいずれか一つの装置。
C21. (d)における前記比較が、信頼水準を決定することを含む、実施形態C1からC20のいずれか一つの装置。
C22. 前記信頼水準を決定することが、p値を決定することを含む、実施形態C21の装置。
C23. 前記信頼水準を決定することが、Zスコアを決定することを含む、実施形態C21の装置。
C24. 1つまたはそれより多くのマシンの使用を含む、実施形態C1からC23のいずれか一つの装置。
C25. 前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、実施形態C24の装置。
C26. 1つのマシンに具体化される、実施形態C24またはC25の装置。
C27. 前記メモリが、前記配列リード、前記不一致リード対、不一致リードメイトの前記サブセット、マッピング可能性の変化、前記候補切断点、またはこれらの組合せを含む、実施形態C1からC26のいずれか一つの装置。
C28. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、実施形態C1からC27のいずれか一つの装置。
C29. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、実施形態C1からC27のいずれか一つの装置。
C30. 前記細胞増殖性障害が、がんである、実施形態C29の装置。
C31. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、実施形態C1からC30のいずれか一つの装置。
C32. 前記少数核酸種が、胎児核酸を含む、実施形態C31の装置。
C33. 前記少数核酸種が、がん細胞に由来する核酸を含む、実施形態C31の装置。
D1. 実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアであって、プログラムが、マイクロプロセッサーに、
(a)不一致リード対をペアドエンドの配列リードから同定させることであって、この場合、ペアドエンドの配列リードが、被験被験体試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定することと、
(b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けることであって、各不一致リードメイトの、これらの配列リード部分配列の各々の長さが異なることと、
(c)不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択することであって、サブセットが、候補切断点を含むリードを含むことと、
(d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する試料に由来する不一致リードメイトの数を、(ii)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択されたサブセット内の不一致リードメイトについて比較し、これにより、比較を生成することと、
(e)(d)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定することと
を命令するように構成された記憶メディア。
D1.1. 前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態D1の記憶メディア。
D1.2. 前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、実施形態D1の記憶メディア。
D1.3. 前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、実施形態D1の記憶メディア。
D1.4. 前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、実施形態D1の記憶メディア。
D1.5. 前記プログラムが、マイクロプロセッサーに、1つまたはそれより多くの候補切断点の位置を決定することを命令する、実施形態D1からD1.4のいずれか一つの記憶メディア。
D2. (b)における前記特徴付けることが、各不一致リードメイトの、前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、実施形態D1からD1.5のいずれか一つの記憶メディア。
D3. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約5塩基またはこれ未満だけ短い、実施形態D1からD2のいずれか一つの記憶メディア。
D3.1. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより1塩基または2塩基だけ短い、実施形態D1からD3のいずれか一つの記憶メディア。
D4. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより漸次的に短い、実施形態D1からD3.1のいずれか一つの記憶メディア。
D5. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約1塩基ずつ漸次的に短い、実施形態D1からD4のいずれか一つの記憶メディア。
D6. マッピング可能性の変化が、前記あてはめ関係の傾きを含む、実施形態D2からD5のいずれか一つの記憶メディア。
D7. (c)における前記選択することが、マッピング可能性の閾値に従う、実施形態D1からD6のいずれか一つの記憶メディア。
D8. 前記プログラムが、前記プロセッサーに、前記不一致リードメイトをフィルタリングすることを命令する、実施形態D1からD7のいずれか一つの記憶メディア。
D9. 前記フィルタリングすることが、前記不一致リードメイトの一方または両方を除外することを含む、実施形態D8の記憶メディア。
D10. 前記フィルタリングすることが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、実施形態D8またはD9の記憶メディア。
D11. 前記フィルタリングすることが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、実施形態D8からD10のいずれか一つの記憶メディア。
D12. 前記フィルタリングすることが、前記実質的に類似する切断点が、前記基準内に存在する場合に、不一致リードメイトを除外することを含む、実施形態D8からD10のいずれか一つの記憶メディア。
D13. 前記切断点の場所を、単一塩基の分解能で同定する、実施形態D1からD12のいずれか一つの記憶メディア。
D14. (e)で、平衡転座の存在を決定する、実施形態D1からD13のいずれか一つの記憶メディア。
D15. 前記平衡転座が1つの平衡転座である、実施形態D14のいずれか一つの記憶メディア。
D16. (e)で、非平衡転座の存在を決定する、実施形態D1からD15のいずれか一つの記憶メディア。
D17. (e)で前記染色体変化の存在を決定することが、(d)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、実施形態D1からD16のいずれか一つの記憶メディア。
D18. 第1の切断点および第2の切断点を、(d)における前記比較に従い同定する、実施形態D1からD17のいずれか一つの記憶メディア。
D19. (e)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、実施形態D18の記憶メディア。
D20. (c)における前記選択することもしくは(d)における前記比較すること、または(c)における前記選択することおよび(d)における前記比較することが、クラスタリング分析を実施することを含まない、実施形態D1からD19のいずれか一つの記憶メディア。
D21. (d)における前記比較が、信頼水準を決定することを含む、実施形態D1からD20のいずれか一つの記憶メディア。
D22. 前記信頼水準を決定することが、p値を決定することを含む、実施形態D21の記憶メディア。
D23. 前記信頼水準を決定することが、Zスコアを決定することを含む、実施形態D21の記憶メディア。
D24. 1つまたはそれより多くのマシンの使用を含む、実施形態D1からD23のいずれか一つの記憶メディア。
D25. 前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、実施形態D24の記憶メディア。
D26. 1つのマシンに具体化される、実施形態D24またはD25の記憶メディア。
D27. 前記記憶メディアが、前記配列リード、前記不一致リード対、不一致リードメイトの前記サブセット、マッピング可能性の変化、前記切断点、またはこれらの組合せを含む、実施形態D1からD26のいずれか一つの記憶メディア。
D28. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、実施形態D1からD27のいずれか一つの記憶メディア。
D29. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、実施形態D1からD27のいずれか一つの記憶メディア。
D30. 前記細胞増殖性障害が、がんである、実施形態D29の記憶メディア。
D31. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、実施形態D1からD30のいずれか一つの記憶メディア。
D32. 前記少数核酸種が、胎児核酸を含む、実施形態D31の記憶メディア。
D33. 前記少数核酸種が、がん細胞に由来する核酸を含む、実施形態D31の記憶メディア。
E1. メモリおよび1つまたはそれより多くのマイクロプロセッサーを含むシステムであって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、
(a)複数の配列リード部分配列のマッピング可能性(mappability)を、配列リードについて特徴付けるステップであって、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであるステップと、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、
(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成するステップと、
(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含むシステム。
E1.1. シーケンシング装置および1つまたはそれより多くの演算装置を含むシステムであって、
シーケンシング装置が、シーケンシング装置内にロードされた核酸のヌクレオチド塩基に対応するシグナルを生成するように構成され、核酸が、被験被験体試料に由来する循環無細胞核酸であるか、またはシーケンシング装置内にロードされた核酸が、循環無細胞核酸の改変変異体であり、
1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含み、メモリが、1または複数のプロセッサーにより実行可能な命令を含み、1または複数のプロセッサーにより実行可能な命令が、
配列リードをシグナルから生成し、配列リードを基準ゲノムに対してアラインさせ、
(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付け、この場合、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての配列リード部分配列は、長さが異なり、
配列リードが、試料核酸の配列リードであり、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、
(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成し、
(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されたシステム。
E2. 配列リードが、循環無細胞核酸の配列リードである、実施形態E1またはE1.1のシステム。
E3. 試料核酸中のポリヌクレオチドの平均長が、約300塩基対未満である、実施形態E1、E1.1、またはE2のシステム。
E4. 循環無細胞核酸が、血清または血漿に由来する、実施形態E2またはE3のシステム。
E5. 配列リードが、基準ゲノムまたはその部分に対してマッピングされている、実施形態E1〜E4のうちのいずれか1つのシステム。
E6. (a)の前に、基準ゲノムまたはその部分とアラインしない全ての塩基について、配列リードのサブセットを同定するステップと、サブセットについて、(a)、(b)、(c)、および(d)を実施するステップとを含む、実施形態E5のシステム。
E7. 配列リードが、シングルエンドの配列リードである、実施形態E1〜E6のうちのいずれか1つのシステム。
E7.1. 配列リードが、不一致リードである、実施形態E1〜E7のうちのいずれか1つのシステム。
E7.2. マッピング可能性の変化を、不一致リードについて決定する、実施形態E7.1のシステム。
E8. 配列リードが、ペアドエンドの配列リードである、実施形態E1〜E6のうちのいずれか1つのシステム。
E9. 配列リードが、不一致リード対である、実施形態E8のシステム。
E10. 不一致リード対を同定し、これにより、不一致リードメイトを提供することを含む、実施形態E1〜E9.1のうちのいずれか1つのシステム。
E10.1. マッピング可能性の変化を、不一致リードメイトについて決定する、実施形態E10のシステム。
E11. キメラリード対を、(a)の前に同定しない、実施形態E1〜E10.1のうちのいずれか1つのシステム。
E12. (c)における比較するステップの前に、サブセット内の各配列リードについて、候補切断点を同定するステップを含む、実施形態E1〜E11のうちのいずれか1つのシステム。
E13. 各配列リードについての候補切断点を、マッピング可能性の変化に従い同定する、実施形態E12のシステム。
E14. (c)における比較するステップが、(i)(b)で候補切断点と関連する試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で候補切断点と関連する基準から同定されたサブセット内の配列リードの各々の数と比較することを含む、実施形態E12またはE13のシステム。
E15. (b)で同定されるサブセット内の配列リードが、約32連続塩基の最小の長さを有する、実施形態E1〜E14のうちのいずれか1つのシステム。
E16. (b)で同定されるサブセット内の配列リードの各々の中の候補切断点の各々の側に、少なくとも約15連続塩基〜約20連続塩基が存在する、実施形態E12〜E15のうちのいずれか1つのシステム。
E17. 配列リードが、約20塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、実施形態E1〜E16のうちのいずれか1つのシステム。
E17.1. 配列リードが、約40塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、実施形態E17のシステム。
E18.1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態E1〜E17.1のうちのいずれか1つのシステム。
E18.1. 1種またはそれより多くの種の染色体変化が、平衡染色体転座を含む、実施形態E1〜E18のうちのいずれか1つのシステム。
E19. 1種またはそれより多くの種の染色体変化が、染色体欠失を含む、実施形態E1〜E17のうちのいずれか1つのシステム。
E20. 1種またはそれより多くの種の染色体変化が、染色体逆位を含む、実施形態E1〜E17のうちのいずれか1つのシステム。
E21. 1種またはそれより多くの種の染色体変化が、異種挿入を含む、実施形態E1〜E17のうちのいずれか1つのシステム。
E22. (d)で1種またはそれより多くの種の染色体変化の存在を決定する場合に、1または複数の切断点の位置を提供することを含む、実施形態E1〜E21のうちのいずれか1つのシステム。
E23. 1または複数の切断点の各々の位置を、1塩基対の分解能で提供する、実施形態E22のシステム。
E24. (b)における同定するステップが、リードの各々の配列リード部分配列の各々についてのマッピング可能性と、長さとの間で、当てはめ関係を生成することを含む、実施形態E1〜E23のうちのいずれか1つのシステム。
E25. マッピング可能性の変化を、関係の傾きから決定する、実施形態E24のシステム。
E26. 長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがあり、次いでその後第1の染色体に対するアラインメントがある配列リードを、(b)で同定されるサブセット内に含めない、実施形態E1〜E25のうちのいずれか1つのシステム。
E26.1. 長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがある配列リードを、(b)で同定されるサブセット内に含める、実施形態E1〜E26のうちのいずれか1つのシステム。
E27. (c)における比較を、(c)(i)における配列リードの数と、(c)(ii)における配列リードの数との間のzスコアに従い決定する、実施形態E1〜E26.1のうちのいずれか1つのシステム。
E28. (b)で同定されるサブセット内の配列リードの各々が、実質的に類似する候補切断点を含む、実施形態E12〜E27のうちのいずれか1つのシステム。
E29. 各リードの配列リード部分配列の各々が、2番目に大きな断片またはリードより約5塩基またはこれ未満だけ短い、実施形態E1〜E28のうちのいずれか1つのシステム。
E30. 各リードの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードより1塩基または2塩基だけ短い、実施形態E29のシステム。
E31. 各リードの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードより漸次的に短い、実施形態E30のシステム。
E32. 各リードの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードより約1塩基ずつ漸次的に短い、実施形態E31のシステム。
E33. 複数の配列リード部分配列のマッピング可能性を特徴付けることが、前記あてはめ関係の傾きを決定することを含む、実施形態E24からE32のいずれか一つのシステム。
E34. (b)における前記同定することが、マッピング可能性の閾値に従う、実施形態E1からE33のいずれか一つのシステム。
E35. 前記リードをフィルタリングすることを含む、実施形態E1からE34のいずれか一つのシステム。
E36. 前記フィルタリングすることが、前記不一致リードメイトの一方または両方を除外することを含む、実施形態E10からE34のいずれか一つのシステム。
E37. 前記フィルタリングすることが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、実施形態E35またはE36のシステム。
E38. 前記フィルタリングすることが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、実施形態E35からE37のいずれか一つのシステム。
E39. フィルタリングすることが、試料に由来するサブセット内の配列リードの各々の数が、基準に由来するサブセット内の配列リードの各々の数と実質的に類似する場合に、(b)で同定されるリードのサブセットを除外することを含む、実施形態E35〜E38のうちのいずれか1つの方法。
E40. 前記候補切断点の場所を、単一塩基の分解能で同定する、実施形態E28からE39のいずれか一つのシステム。
E41. (d)で、平衡転座の存在を決定する、実施形態E1からE40のいずれか一つのシステム。
E42. (d)で、非平衡転座の存在を決定する、実施形態E1からE41のいずれか一つのシステム。
E43. (d)で前記染色体変化の存在を決定することが、(c)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、実施形態E1からE42のいずれか一つのシステム。
E44. 切断点を、(c)における前記比較に従い同定する、実施形態E1からE43のいずれか一つのシステム。
E45. 第1の切断点および第2の切断点を、(c)における前記比較に従い同定する、実施形態E1からE44のいずれか一つのシステム。
E46. (d)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、実施形態E45のシステム。
E47. (c)における前記比較が、信頼水準を決定することを含む、実施形態E1からE46のいずれか一つのシステム。
E48. 前記信頼水準を決定することが、p値を決定することを含む、実施形態E47のシステム。
E49. 前記信頼水準を決定することが、Zスコアを決定することを含む、実施形態E47のシステム。
E50. 1つまたはそれより多くのマシンの使用を含む、実施形態E1からE49のいずれか一つのシステム。
E51. 前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、実施形態E50のシステム。
E52. 1つのマシンに具体化される、実施形態E50またはE51のシステム。
E53. 前記メモリが、前記配列リード、複数の配列リード部分配列、前記不一致リード対、リードの前記サブセット、前記候補切断点、またはこれらの組合せのうちの1種またはそれより多くの種を含む、実施形態E1からE52のいずれか一つのシステム。
E54. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、実施形態E1からE35のいずれか一つのシステム。
E55. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、実施形態E1からE53のいずれか一つのシステム。
E56. 前記細胞増殖性障害が、がんである、実施形態E55のシステム。
E57. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、実施形態E1からE56のいずれか一つのシステム。
E58. 前記少数核酸種が、胎児核酸を含む、実施形態E57のシステム。
E59. 前記少数核酸種が、がん細胞に由来する核酸を含む、実施形態E57のシステム。
F1. メモリおよび1つまたはそれより多くのマイクロプロセッサーを含む方法であって、メモリが、命令を含み、1つまたはそれより多くのマイクロプロセッサーが、命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するためのプロセスを実施するように構成されており、プロセスが、
(a)複数の配列リード部分配列のマッピング可能性(mappability)を、配列リードについて特徴付けるステップであって、各配列リードについて、多数の配列リード部分配列が存在し、各配列リードについての配列リード部分配列は、長さが異なり、配列リードが、試料核酸の配列リードであるステップと、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、
(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成するステップと、
(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定するステップと
を含む方法。
F1.1. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、またはシーケンシング装置に、核酸の改変変異体をロードするステップであって、シーケンシング装置により、核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
任意選択で、シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、核酸のシグナルから、配列リードを生成するステップであって、システム内の1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、システムにより決定するステップであって、システム内の1つの演算装置または演算装置の組合せが、
配列リードを基準ゲノムに対してアラインさせ、
(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付け、この場合、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての配列リード部分配列は、長さが異なり、
配列リードが、試料核酸の配列リードであり、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、
(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成し、
(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されるステップと
を含む方法。
F1.2. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、またはシーケンシング装置に、核酸の改変変異体をロードするステップであって、シーケンシング装置により、核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
任意選択で、シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、核酸のシグナルから、配列リードを生成するステップであって、システム内の1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、システムにより決定するステップであって、システム内の1つの演算装置または演算装置の組合せが、
配列リードを基準ゲノムに対してアラインさせ、
(a)不一致リード対を、前記ペアドエンドの配列リードから同定し、これにより、不一致リードメイトを同定し、
(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付け、この場合、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての配列リード部分配列は、長さが異なり、
配列リードが、試料核酸の配列リードであり、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、
(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成し、
(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定する
ように構成されるステップと
を含む方法。
F2. 配列リードが、循環無細胞核酸の配列リードである、実施形態F1またはF1.1の方法。
F3. 試料核酸中のポリヌクレオチドの平均長が、約300塩基対未満である、実施形態F1、F1.1、またはF2の方法。
F4. 循環無細胞核酸が、血清または血漿に由来する、実施形態F2またはF3の方法。
F5. 配列リードが、基準ゲノムまたはその部分に対してマッピングされている、実施形態F1〜F4のうちのいずれか1つの方法。
F6. (a)の前に、基準ゲノムまたはその部分とアラインしない全ての塩基について、配列リードのサブセットを同定するステップと、サブセットについて、(a)、(b)、(c)、および(d)を実施するステップとを含む、実施形態F5の方法。
F7. 配列リードが、シングルエンドの配列リードである、実施形態F1〜F6のうちのいずれか1つの方法。
F7.1. 配列リードが、不一致リードである、実施形態F1〜F7のうちのいずれか1つの方法。
F7.2. マッピング可能性の変化を、不一致リードについて決定する、実施形態F7.1の方法。
F8. 配列リードが、ペアドエンドの配列リードである、実施形態F1〜F6のうちのいずれか1つの方法。
F9. 配列リードが、不一致リード対である、実施形態F8の方法。
F10. 不一致リード対を同定し、これにより、不一致リードメイトを提供するステップを含む、実施形態F1〜F9のうちのいずれか1つの方法。
F10.1. マッピング可能性の変化を、不一致リードメイトについて決定する、実施形態F10による方法。
F11. キメラリード対を、(a)の前に同定しない、実施形態F1〜F10.1のうちのいずれか1つの方法。
F12. (c)における比較するステップの前に、サブセット内の各配列リードについて、候補切断点を同定するステップを含む、実施形態F1〜F11のうちのいずれか1つの方法。
F13. 各配列リードについての候補切断点を、マッピング可能性の変化に従い同定する、実施形態F12の方法。
F14. (c)における比較するステップが、(i)(b)で候補切断点と関連する試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で候補切断点と関連する基準から同定されたサブセット内の配列リードの各々の数と比較することを含む、実施形態F12またはF13の方法。
F15. (b)で同定されるサブセット内の配列リードが、約32連続塩基の最小の長さを有する、実施形態F1〜F14のうちのいずれか1つの方法。
F16. (b)で同定されるサブセット内の配列リードの各々の中の候補切断点の各々の側に、少なくとも約15連続塩基〜約20連続塩基が存在する、実施形態F12〜F15のうちのいずれか1つの方法。
F17. 配列リードが、約20塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、実施形態F1〜F16のうちのいずれか1つの方法。
F17.1. 配列リードが、約40塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、実施形態F17の方法。
F18. 1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態F1〜F17.1のうちのいずれか1つの方法。
F18.1. 1種またはそれより多くの種の染色体変化が、平衡染色体転座を含む、実施形態F1〜F18のうちのいずれか1つの方法。
F19. 1種またはそれより多くの種の染色体変化が、染色体欠失を含む、実施形態F1〜F17のうちのいずれか1つの方法。
F20. 1種またはそれより多くの種の染色体変化が、染色体逆位を含む、実施形態F1〜F17のうちのいずれか1つの方法。
F21. 1種またはそれより多くの種の染色体変化が、異種挿入を含む、実施形態F1〜F17のうちのいずれか1つの方法。
F22. (d)で1種またはそれより多くの種の染色体変化の存在を決定する場合に、1または複数の切断点の位置を提供するステップを含む、実施形態F1〜F21のうちのいずれか1つの方法。
F23. 1または複数の切断点の各々の位置を、1塩基対の分解能で提供する、実施形態F22の方法。
F24. (b)における同定するステップが、リードの各々の配列リード部分配列の各々についてのマッピング可能性と、長さとの間で、当てはめ関係を生成することを含む、実施形態F1〜F23のうちのいずれか1つの方法。
F25. マッピング可能性の変化を、関係の傾きから決定する、実施形態F24による方法。
F26. 長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがあり、次いでその後第1の染色体に対するアラインメントがある配列リードを、(b)で同定されるサブセット内に含めない、実施形態F1〜F25のうちのいずれか1つの方法。
F26.1. 長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがある配列リードを、(b)で同定されるサブセット内に含める、実施形態F1〜F26のうちのいずれか1つの方法。
F27. (c)における比較を、(c)(i)における配列リードの数と、(c)(ii)における配列リードの数との間のzスコアに従い決定する、実施形態F1〜F26.1のうちのいずれか1つの方法。
F28. (b)で同定されるサブセット内の配列リードの各々が、実質的に類似する候補切断点を含む、実施形態F12〜F27のうちのいずれか1つの方法。
F29.各リードの配列リード部分配列の各々が、2番目に大きな断片またはリードより約5塩基またはこれ未満だけ短い、実施形態F1〜F28のうちのいずれか1つの方法。
F30. 各リードの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードより1塩基または2塩基だけ短い、実施形態F29の方法。
F31. 各リードの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードより漸次的に短い、実施形態F30の方法。
F32. 各リードの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードより約1塩基ずつ漸次的に短い、実施形態F31の方法。
F33. 複数の配列リード部分配列のマッピング可能性を特徴付けるステップが、前記あてはめ関係の傾きを決定することを含む、実施形態F24からF32のいずれか一つの方法。
F34. (b)における前記同定するステップが、マッピング可能性の閾値に従う、実施形態F1からF33のいずれか一つの方法。
F35. 前記リードをフィルタリングするステップを含む、実施形態F1からF34のいずれか一つの方法。
F36. 前記フィルタリングするステップが、前記不一致リードメイトの一方または両方を除外することを含む、実施形態F35の方法。
F37. 前記フィルタリングするステップが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、実施形態F35またはF36の方法。
F38. 前記フィルタリングするステップが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、実施形態F35からF37のいずれか一つの方法。
F39. フィルタリングするステップが、試料に由来するサブセット内の配列リードの各々の数が、基準に由来するサブセット内の配列リードの各々の数と実質的に類似する場合に、(b)で同定されるリードのサブセットを除外することを含む、実施形態F35〜F38のうちのいずれか1つの方法。
F40. 前記候補切断点の場所を、単一塩基の分解能で同定する、実施形態F28からF39のいずれか一つの方法。
F41. (d)で、平衡転座の存在を決定する、実施形態F1からF40のいずれか一つの方法。
F42. (d)で、非平衡転座の存在を決定する、実施形態F1からF41のいずれか一つの方法。
F43. (d)で前記染色体変化の存在を決定するステップが、(c)の前記比較において、前記試料から、前記基準と比較して実質的に多数の配列リードを同定することを含む、実施形態F1からF42のいずれか一つの方法。
F44. 切断点を、(c)における前記比較に従い同定する、実施形態F1からF43のいずれか一つの方法。
F45. 第1の切断点および第2の切断点を、(c)における前記比較に従い同定する、実施形態F1からF44のいずれか一つの方法。
F46. (d)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、実施形態F45の方法。
F47. (c)における前記比較が、信頼水準を決定することを含む、実施形態F1からF46のいずれか一つの方法。
F48. 前記信頼水準を決定するステップが、p値を決定することを含む、実施形態F47の方法。
F49. 前記信頼水準を決定するステップが、Zスコアを決定することを含む、実施形態F47の方法。
F50. 前記メモリが、前記配列リード、複数の配列リード部分配列、前記不一致リード対、リードの前記サブセット、前記候補切断点、またはこれらの組合せのうちの1種またはそれより多くの種を含む、実施形態F1からF49のいずれか一つの方法。
F51. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、実施形態F1からF50のいずれか一つの方法。
F52. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、実施形態F1からF50のいずれか一つの方法。
F53. 前記細胞増殖性障害が、がんである、実施形態F52の方法。
F54. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、実施形態F1からF53のいずれか一つの方法。
F55. 前記少数核酸種が、胎児核酸を含む、実施形態F54の方法。
F56. 前記少数核酸種が、がん細胞に由来する核酸を含む、実施形態F54の方法。
G1. 実行可能なプログラムをその上に保存した、非一過性のコンピュータ読取り型記憶メディアであって、プログラムが、マイクロプロセッサーに、
(a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付け、この場合、
各配列リードについて、多数の配列リード部分配列が存在し、
各配列リードについての配列リード部分配列は、長さが異なり、
配列リードが、試料核酸の配列リードであり、
(b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、
(c)(i)(b)で試料から同定されたサブセット内の配列リードの各々の数を、(ii)(b)で基準から同定されたサブセット内の配列リードの各々の数と比較し、これにより、比較を生成し、
(d)(c)における比較に従い、試料について、1種またはそれより多くの種の染色体変化の存在または非存在を決定すること
を命令するように構成された記憶メディア。
G2. 配列リードが、循環無細胞核酸の配列リードである、実施形態G1による記憶メディア。
G3. 配列リードが、不一致リード対である、実施形態G1またはG2の記憶メディア。
G4. プログラムが、マイクロプロセッサーに、サブセット内の各配列リードについて、候補切断点を同定することを命令するように構成された、実施形態G1〜G3のうちのいずれか1つの記憶メディア。
G5. 1種またはそれより多くの種の染色体変化が、染色体転座を含む、実施形態G1〜G4のうちのいずれか1つの記憶メディア。
本明細書で参照される各特許、特許出願、刊行物、および文献の全体は、参照により本明細書に組み込まれる。上記の特許、特許出願、刊行物、および文献の引用は、前出のうちのいずれかが、関連する先行技術であることの容認でも、これらの刊行物または文献の内容または日付についてのいかなる容認を構成するわけでもない。
前出には、本技術の基本的態様から逸脱することなく、改変を施すことができる。本技術は、1または複数の具体的な実施形態に関して、実質的な詳細さで記載されているが、当業者は、本出願で具体的に開示される実施形態には、変化を施しうるが、これらの改変および改善は、本技術の範囲内および精神の中にあることを認識するであろう。
本明細書で例示的に記載された本技術は、本明細書で具体的に開示されていない任意のエレメントの非存在下でも、適切に実施することができる。したがって、例えば、本明細書の各場合に、「〜を含むこと」、「〜から本質的になること」、および「〜からなること」という用語のうちのいずれかを、他の2つの用語のうちの一方で置き換えることができる。援用された用語および表現は、記載の用語として使用されており、限定の用語としては使用されておらず、このような用語および表現の使用は、示され、記載された特徴またはその部分の任意の同等物を除外するものではなく、特許請求される本技術の範囲内で、多様な改変が可能である。「ある(a)」または「ある(an)」という用語は、エレメントのうちのいずれか1つまたはエレメントのうちの1つ超について記載することが文脈上明らかでない限りにおいて、それが改変するエレメントのうちの1または複数を指す場合がある(例えば、「ある試薬」とは、1または複数の試薬を意味しうる)。本明細書で使用される「約」という用語は、基礎となるパラメータの10%以内(すなわち、プラスまたはマイナス10%)の値を指し、値の連なりの始端における「約」という用語の使用により、値の各々が改変される(すなわち、「約1、2、および3」とは、約1、約2、および約3を指す)。例えば、「約100グラム」の重量は、90グラム〜110グラムの間の重量を含みうる。さらに、本明細書で値の列挙(例えば、約50%、60%、70%、80%、85%、または86%)について記載する場合、列挙は、その全ての中間値および小数値(例えば、54%、85.4%)を含む。したがって、本技術について、代表的な実施形態および任意選択の特徴により具体的に開示してきたが、ことを理解されたい。当業者は、本明細書で開示される概念の改変および変更を施すことができ、このような改変および変更は、本技術の範囲内にあると考えられる。
本技術のある特定の実施形態については、以下の特許請求の範囲に示す。

Claims (96)

  1. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するための方法であって、
    (a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付けるステップであって、
    各配列リードについて、多数の配列リード部分配列が存在し、
    各配列リードについての該配列リード部分配列は、長さが異なり、
    該配列リードが、該試料核酸の配列リードである
    ステップと、
    (b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、
    (c)(i)(b)で該試料から同定された該サブセット内の該配列リードの各々の数を、(ii)(b)で基準から同定された該サブセット内の該配列リードの各々の数と比較し、これにより、比較を生成するステップと、
    (d)該試料から(c)の比較における該基準と比較して実質的に多数の配列リードを同定することにより、該試料について、1種またはそれより多くの種の染色体変化の存在を決定し、該試料から(c)の比較における該基準と比較して実質的に多数の配列リードが同定されない場合、該1種またはそれより多くの種の染色体変化が存在しないと決定するステップと
    を含む方法。
  2. メモリおよび1つまたはそれより多くのマイクロプロセッサーを含む、システムによって実施される方法であって、該メモリが、命令を含み、該1つまたはそれより多くのマイクロプロセッサーが、該命令に従い、試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定するための方法を実施するように構成されており、該方法が、
    (a)複数の配列リード部分配列のマッピング可能性を、配列リードについて特徴付けるステップであって、
    各配列リードについて、多数の配列リード部分配列が存在し、
    各配列リードについての該配列リード部分配列は、長さが異なり、
    該配列リードが、該試料核酸の配列リードである
    ステップと、
    (b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定するステップと、
    (c)(i)(b)で該試料から同定された該サブセット内の該配列リードの各々の数を、(ii)(b)で基準から同定された該サブセット内の該配列リードの各々の数と比較し、これにより、比較を生成するステップと、
    (d)該試料から(c)の比較における該基準と比較して実質的に多数の配列リードを同定することにより、該試料について、1種またはそれより多くの種の染色体変化の存在を決定し、該試料から(c)の比較における該基準と比較して実質的に多数の配列リードが同定されない場合、該1種またはそれより多くの種の染色体変化が存在しないと決定するステップと
    を含む方法。
  3. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
    シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、または該シーケンシング装置に、該核酸の改変変異体をロードするステップであって、該シーケンシング装置により、該核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
    任意選択で、該シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、該核酸の該シグナルから、配列リードを生成するステップであって、該システム内の該1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
    該試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、該システムにより決定するステップであって、該システム内の1つの演算装置または演算装置の組合せが、該配列リードを基準ゲノムに対してアラインさせ、
    (a)複数の配列リード部分配列のマッピング可能性を、該配列リードについて特徴付け、この場合、
    各配列リードについて、多数の配列リード部分配列が存在し、
    各配列リードについての該配列リード部分配列は、長さが異なり、
    該配列リードが、該試料核酸の配列リードであり、
    (b)1つまたはそれより多くの部分配列のマッピング可能性の変化が存在する配列リードのサブセットを同定し、
    (c)(i)(b)で該試料から同定された該サブセット内の該配列リードの各々の数を、(ii)(b)で基準から同定された該サブセット内の該配列リードの各々の数と比較し、これにより、比較を生成し、
    (d)該試料から(c)の比較における該基準と比較して実質的に多数の配列リードを同定することにより、該試料について、1種またはそれより多くの種の染色体変化の存在を決定し、該試料から(c)の比較における該基準と比較して実質的に多数の配列リードが同定されない場合、該1種またはそれより多くの種の染色体変化が存在しないと決定する
    ように構成されるステップと
    を含む方法。
  4. 前記配列リードが、循環無細胞核酸の配列リードである、請求項1、2、または3に記載の方法。
  5. 前記試料核酸中のポリヌクレオチドの平均長が、約300塩基対未満である、請求項1から4のいずれか一項に記載の方法。
  6. 前記循環無細胞核酸が、血清または血漿に由来する、請求項4または5に記載の方法。
  7. 前記配列リードが、基準ゲノムまたはその部分に対してマッピングされている、請求項1から6のいずれか一項に記載の方法。
  8. (a)の前に、前記基準ゲノムまたはその部分とアラインしない全ての塩基について、配列リードのサブセットを同定するステップと、前記サブセットについて、(a)、(b)、(c)、および(d)を実施するステップとを含む、請求項7に記載の方法。
  9. 前記配列リードが、シングルエンドの配列リードである、請求項1から8のいずれか一項に記載の方法。
  10. 前記配列リードが、不一致リードである、請求項1から9のいずれか一項に記載の方法。
  11. マッピング可能性の変化を、前記不一致リードについて決定する、請求項10に記載の方法。
  12. 前記配列リードが、ペアドエンドの配列リードである、請求項1から8のいずれか一項に記載の方法。
  13. 前記配列リードが、不一致リード対である、請求項12に記載の方法。
  14. 不一致リード対を同定し、これにより、不一致リードメイトを提供するステップを含む、請求項1から13のいずれか一項に記載の方法。
  15. マッピング可能性の変化を、前記不一致リードメイトについて決定する、請求項14に記載の方法
  16. キメラリード対を、(a)の前に同定しない、請求項1から15のいずれか一項に記載の方法。
  17. (c)における前記比較するステップの前に、前記サブセット内の各配列リードについて、候補切断点を同定するステップを含む、請求項1から16のいずれか一項に記載の方法。
  18. 各配列リードについての前記候補切断点を、前記マッピング可能性の変化に従い同定する、請求項17に記載の方法。
  19. (c)における前記比較するステップが、(i)(b)で前記候補切断点と関連する前記試料から同定された前記サブセット内の前記配列リードの各々の数を、(ii)(b)で該候補切断点と関連する基準から同定された前記サブセット内の前記配列リードの各々の数と比較することを含む、請求項17または18に記載の方法。
  20. (b)で同定される前記サブセット内の前記配列リードが、約32連続塩基の最小の長さを有する、請求項1から19のいずれか一項に記載の方法。
  21. (b)で同定される前記サブセット内の前記配列リードの各々の中の前記候補切断点の各々の側に、少なくとも約15連続塩基〜約20連続塩基が存在する、請求項17から20のいずれか一項に記載の方法。
  22. 前記配列リードが、約20塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、請求項1から21のいずれか一項に記載の方法。
  23. 前記配列リードが、約40塩基〜約500塩基の平均の長さ、平均値の長さ、中央値の長さ、または最大の長さを有する核酸断片の配列リードである、請求項22に記載の方法。
  24. 前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、請求項1から23のいずれか一項に記載の方法。
  25. 前記1種またはそれより多くの種の染色体変化が、平衡染色体転座を含む、請求項1から24のいずれか一項に記載の方法。
  26. 前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、請求項1から23のいずれか一項に記載の方法。
  27. 前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、請求項1から23のいずれか一項に記載の方法。
  28. 前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、請求項1から23のいずれか一項に記載の方法。
  29. (d)で前記1種またはそれより多くの種の染色体変化の存在を決定する場合に、1または複数の切断点の位置を提供するステップを含む、請求項1から28のいずれか一項に記載の方法。
  30. 前記1または複数の切断点の各々の位置を、1塩基対の分解能で提供する、請求項29に記載の方法。
  31. (b)における前記同定するステップが、前記リードの各々の前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、請求項1から30のいずれか一項に記載の方法。
  32. マッピング可能性の変化を、前記関係の傾きから決定する、請求項31に記載の方法。
  33. 長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがあり、次いでその後該第1の染色体に対するアラインメントがある配列リードを、(b)で同定される前記サブセット内に含めない、請求項1から32のいずれか一項に記載の方法。
  34. 長さが増大した配列リード部分配列の第1の染色体に対するアラインメントがあり、その後第2の染色体に対するアラインメントがある配列リードを、(b)で同定される前記サブセット内に含める、請求項1から33のいずれか一項に記載の方法。
  35. (c)における前記比較を、(c)(i)における配列リードの数と、(c)(ii)における配列リードの数との間のzスコアに従い決定する、請求項1から34のいずれか一項に記載の方法。
  36. (b)で同定される前記サブセット内の前記配列リードの各々が、実質的に類似する候補切断点を含む、請求項17から35のいずれか一項に記載の方法。
  37. 各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより約5塩基またはこれ未満だけ短い、請求項1から36のいずれか一項に記載の方法。
  38. 各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより1塩基または2塩基だけ短い、請求項37に記載の方法。
  39. 各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより漸次的に短い、請求項38に記載の方法。
  40. 各リードの前記配列リード部分配列の各々が、2番目に大きな断片または該リードより約1塩基ずつ漸次的に短い、請求項39に記載の方法。
  41. 複数の配列リード部分配列の前記マッピング可能性を前記特徴付けるステップが、前記当てはめ関係の傾きを決定することを含む、請求項31から40のいずれか一項に記載の方法。
  42. (b)における前記同定するステップが、マッピング可能性の閾値に従う、請求項1から41のいずれか一項に記載の方法。
  43. リードをフィルタリングするステップを含む、請求項1から42のいずれか一項に記載の方法。
  44. 前記フィルタリングするステップが、前記不一致リードメイトの一方または両方を除外することを含む、請求項43に記載の方法。
  45. 前記フィルタリングするステップが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vi)段階的な多重アラインメントを含むリードを除外すること、および(vii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、請求項43または44に記載の方法。
  46. 前記フィルタリングするステップが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、請求項43から45のいずれか一項に記載の方法。
  47. 前記フィルタリングするステップが、前記試料に由来する前記サブセット内の前記配列リードの各々の数が、前記基準に由来する前記サブセット内の前記配列リードの各々の数と実質的に類似する場合に、(b)で同定されるリードの前記サブセットを除外することを含む、請求項43から46のいずれか一項に記載の方法。
  48. 前記候補切断点の場所を、単一塩基の分解能で同定する、請求項36から47のいずれか一項に記載の方法。
  49. (d)で、平衡転座の存在を決定する、請求項1から48のいずれか一項に記載の方法。
  50. (d)で、非平衡転座の存在を決定する、請求項1から49のいずれか一項に記載の方法。
  51. 切断点を、(c)における前記比較に従い同定する、請求項1から50のいずれか一項に記載の方法。
  52. 第1の切断点および第2の切断点を、(c)における前記比較に従い同定する、請求項1から51のいずれか一項に記載の方法。
  53. (d)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、請求項52に記載の方法。
  54. (c)における前記比較が、信頼水準を決定することを含む、請求項1から53のいずれか一項に記載の方法。
  55. 前記信頼水準を決定することが、p値を決定することを含む、請求項54に記載の方法。
  56. 前記信頼水準を決定することが、Zスコアを決定することを含む、請求項54に記載の方法。
  57. 前記メモリが、前記配列リード、前記複数の配列リード部分配列、前記不一致リード対、リードの前記サブセット、前記候補切断点、またはこれらの組合せのうちの1種またはそれより多くの種を含む、請求項2から56のいずれか一項に記載の方法。
  58. (a)の前に、前記配列リードを、前記循環無細胞核酸をシーケンシングすることにより決定するステップを含む、請求項4から57のいずれか一項に記載の方法。
  59. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
    (a)不一致リード対をペアドエンドの配列リードから同定するステップであって、該ペアドエンドの配列リードが、被験体の被験試料に由来する循環無細胞核酸のリードであり、これにより、不一致リードメイトを同定するステップと、
    (b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付けるステップであって、各不一致リードメイトの、該配列リード部分配列の各々の長さが異なるステップと、
    (c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択するステップであって、該サブセットが、候補切断点を含むリードを含むステップと、
    (d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成するステップと、
    (e)該試料から(d)の比較における該基準と比較して実質的に多数の配列リードを同定することにより、該試料について、1種またはそれより多くの種の染色体変化の存在を決定し、該試料から(d)の比較における該基準と比較して実質的に多数の配列リードが同定されない場合、該1種またはそれより多くの種の染色体変化が存在しないと決定するステップと
    を含む方法。
  60. 試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を決定する方法であって、
    シーケンシング装置に、被験試料に由来する循環無細胞核酸をロードするか、または該シーケンシング装置に、該核酸の改変変異体をロードするステップであって、該シーケンシング装置により、該核酸のヌクレオチド塩基に対応するシグナルが生成されるステップと、
    任意選択で、該シグナルを、1つまたはそれより多くの演算装置を含むシステムへと移した後で、このシステムにより、該核酸の該シグナルから、ペアドエンドの配列リードを生成するステップであって、該システム内の該1つまたはそれより多くの演算装置が、メモリおよび1または複数のプロセッサーを含むステップと、
    該試料核酸中の1種またはそれより多くの種の染色体変化の存在または非存在を、該システムにより決定するステップであって、該システム内の1つの演算装置または演算装置の組合せが、該配列リードを基準ゲノムに対してアラインさせ、
    (a)不一致リード対を、該ペアドエンドの配列リードから同定し、これにより、不一致リードメイトを同定し、
    (b)基準ゲノムに対してアラインされる、各不一致リードメイトの、複数の配列リード部分配列のマッピング可能性を特徴付け、この場合、各不一致リードメイトの該配列リード部分配列の各々の長さが異なり、
    (c)該不一致リードメイトのサブセットを、マッピング可能性の変化に従い選択し、この場合、該サブセットが、候補切断点を含むリードを含み、
    (d)(i)候補切断点と関連し、任意選択で、1つまたはそれより多くの実質的に類似する切断点と関連する該試料に由来する不一致リードメイトの数を、(ii)該候補切断点と関連し、任意選択で、該1つまたはそれより多くの実質的に類似する切断点と関連する基準に由来する不一致リードメイトの数と、(c)で選択された該サブセット内の該不一致リードメイトについて比較し、これにより、比較を生成し、
    (e)該試料から(d)の比較における該基準と比較して実質的に多数の配列リードを同定することにより、該試料について、1種またはそれより多くの種の染色体変化の存在を決定し、該試料から(d)の比較における該基準と比較して実質的に多数の配列リードが同定されない場合、該1種またはそれより多くの種の染色体変化が存在しないと決定する
    ように構成されるステップと
    を含む方法。
  61. 前記1種またはそれより多くの種の染色体変化が、染色体転座を含む、請求項59または60に記載の方法。
  62. 前記1種またはそれより多くの種の染色体変化が、染色体欠失を含む、請求項59または60に記載の方法。
  63. 前記1種またはそれより多くの種の染色体変化が、染色体逆位を含む、請求項59または60に記載の方法。
  64. 前記1種またはそれより多くの種の染色体変化が、異種挿入を含む、請求項59または60に記載の方法。
  65. 1つまたはそれより多くの候補切断点の位置を決定するステップを含む、請求項59から64のいずれか一項に記載の方法。
  66. (b)における前記特徴付けるステップが、各不一致リードメイトの、前記配列リード部分配列の各々についての前記マッピング可能性と、前記長さとの間で、当てはめ関係を生成することを含む、請求項59から65のいずれか一項に記載の方法。
  67. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約5塩基またはこれ未満だけ短い、請求項59から66のいずれか一項に記載の方法。
  68. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより1塩基または2塩基だけ短い、請求項67に記載の方法。
  69. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより漸次的に短い、請求項67に記載の方法。
  70. 各不一致リードメイトの、前記配列リード部分配列の各々が、2番目に大きな断片または前記リードメイトより約1塩基ずつ漸次的に短い、請求項69に記載の方法。
  71. マッピング可能性の変化を、前記当てはめ関係の傾きから決定する、請求項66から70のいずれか一項に記載の方法。
  72. (c)における前記選択するステップが、マッピング可能性の閾値に従う、請求項59から71のいずれか一項に記載の方法。
  73. 前記不一致リードメイトをフィルタリングするステップを含む、請求項59から72のいずれか一項に記載の方法。
  74. 前記フィルタリングするステップが、前記不一致リードメイトの一方または両方を除外することを含む、請求項73に記載の方法。
  75. 前記フィルタリングするステップが、(i)低品質のリードを除外すること、(ii)一致リードを除外すること、(iii)PCRで複製されたリードを除外すること、(iv)ミトコンドリアDNAに対してマッピングされるリードを除外すること、(v)反復エレメントに対してマッピングされるリードを除外すること、(vi)マッピング不可能なリードを除外すること、(vii)段階的な多重アラインメントを含むリードを除外すること、および(viii)セントロメアに対してマッピングされるリードを除外することのうちの1つまたはそれより多くから選択される、請求項73または74に記載の方法。
  76. 前記フィルタリングするステップが、1種またはそれより多くの種のシングルトンイベントを除外することを含む、請求項73から75のいずれか一項に記載の方法。
  77. 前記フィルタリングするステップが、前記実質的に類似する切断点が、前記基準内に存在する場合に、不一致リードメイトを除外することを含む、請求項73から75のいずれか一項に記載の方法。
  78. 前記切断点の場所を、単一塩基の分解能で同定する、請求項59から77のいずれか一項に記載の方法。
  79. (e)で、平衡転座の存在を決定する、請求項59から78のいずれか一項に記載の方法。
  80. (e)で、非平衡転座の存在を決定する、請求項59から79のいずれか一項に記載の方法。
  81. 第1の切断点および第2の切断点を、(d)における前記比較に従い同定する、請求項59から80のいずれか一項に記載の方法。
  82. (e)で、染色体変化の存在を、前記第1の切断点および前記第2の切断点に従い同定する、請求項81に記載の方法。
  83. (c)における前記選択するステップもしくは(d)における前記比較するステップ、または(c)における前記選択するステップおよび(d)における前記比較するステップが、クラスタリング分析を実施することを含まない、請求項59から82のいずれか一項に記載の方法。
  84. (d)における前記比較が、信頼水準を決定することを含む、請求項59から83のいずれか一項に記載の方法。
  85. 前記信頼水準を決定することが、p値を決定することを含む、請求項84に記載の方法。
  86. 前記信頼水準を決定することが、Zスコアを決定することを含む、請求項84に記載の方法。
  87. 1つまたはそれより多くのマシンの使用を含む、請求項59から86のいずれか一項に記載の方法。
  88. 前記配列リードを生成するように構成されたシーケンシングマシンの使用を含む、請求項87に記載の方法。
  89. 1つのマシンに具体化される、請求項87または88に記載の方法。
  90. 前記配列リードを得るステップ、前記不一致リード対を得るステップ、不一致リードメイトの前記サブセットを得るステップ、マッピング可能性の変化を得るステップ、前記切断点を得るステップ、またはこれらの組合せを含む、請求項59から89のいずれか一項に記載の方法。
  91. 前記試料核酸が、胎児を宿す妊婦に由来する循環無細胞核酸である、請求項1から90のいずれか一項に記載の方法。
  92. 前記試料核酸が、細胞増殖性障害を有するか、またはこれを有することが疑われる被験体に由来する循環無細胞核酸である、請求項1から90のいずれか一項に記載の方法。
  93. 前記細胞増殖性障害が、がんである、請求項92に記載の方法。
  94. 1種またはそれより多くの種の染色体変化の存在または非存在を、少数核酸種について決定する、請求項1から93のいずれか一項に記載の方法。
  95. 前記少数核酸種が、胎児核酸を含む、請求項94に記載の方法。
  96. 前記少数核酸種が、がん細胞に由来する核酸を含む、請求項94に記載の方法。
JP2016546892A 2013-10-07 2014-10-03 染色体変化の非侵襲性評価のための方法およびプロセス Active JP6680680B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361887801P 2013-10-07 2013-10-07
US61/887,801 2013-10-07
PCT/US2014/059156 WO2015054080A1 (en) 2013-10-07 2014-10-03 Methods and processes for non-invasive assessment of chromosome alterations

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020048765A Division JP2020110173A (ja) 2013-10-07 2020-03-19 染色体変化の非侵襲性評価のための方法およびプロセス

Publications (3)

Publication Number Publication Date
JP2016540520A JP2016540520A (ja) 2016-12-28
JP2016540520A5 JP2016540520A5 (ja) 2017-03-23
JP6680680B2 true JP6680680B2 (ja) 2020-04-15

Family

ID=51844846

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016546892A Active JP6680680B2 (ja) 2013-10-07 2014-10-03 染色体変化の非侵襲性評価のための方法およびプロセス
JP2020048765A Pending JP2020110173A (ja) 2013-10-07 2020-03-19 染色体変化の非侵襲性評価のための方法およびプロセス
JP2022173202A Pending JP2022191522A (ja) 2013-10-07 2022-10-28 染色体変化の非侵襲性評価のための方法およびプロセス

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2020048765A Pending JP2020110173A (ja) 2013-10-07 2020-03-19 染色体変化の非侵襲性評価のための方法およびプロセス
JP2022173202A Pending JP2022191522A (ja) 2013-10-07 2022-10-28 染色体変化の非侵襲性評価のための方法およびプロセス

Country Status (7)

Country Link
US (2) US10438691B2 (ja)
EP (3) EP3055427B1 (ja)
JP (3) JP6680680B2 (ja)
CN (2) CN111863131A (ja)
AU (3) AU2014332241B2 (ja)
CA (1) CA2925111C (ja)
WO (1) WO2015054080A1 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI335354B (en) 2006-09-27 2011-01-01 Univ Hong Kong Chinese Methods for the detection of the degree of the methylation of a target dna and kits
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
EP2764458B1 (en) 2011-10-06 2021-04-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
PL2805280T3 (pl) 2012-01-20 2022-11-21 Sequenom, Inc. Procesy diagnostyczne będące czynnikiem warunków doświadczalnych
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9920361B2 (en) 2012-05-21 2018-03-20 Sequenom, Inc. Methods and compositions for analyzing nucleic acid
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA3189752A1 (en) 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR20220133309A (ko) 2013-06-21 2022-10-04 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
PL3053071T3 (pl) 2013-10-04 2024-03-18 Sequenom, Inc. Metody i procesy nieinwazyjnej oceny zmienności genetycznych
AU2014332241B2 (en) 2013-10-07 2021-04-29 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
HUE064231T2 (hu) 2015-07-23 2024-02-28 Univ Hong Kong Chinese Sejtmentes DNS fragmentációs mintázatának elemzése
WO2017205826A1 (en) 2016-05-27 2017-11-30 Sequenom, Inc. Methods for detecting genetic variations
CA3030894A1 (en) 2016-07-27 2018-02-01 Sequenom, Inc. Methods for non-invasive assessment of genomic instability
US11200963B2 (en) 2016-07-27 2021-12-14 Sequenom, Inc. Genetic copy number alteration classifications
US11345961B2 (en) * 2016-10-05 2022-05-31 Roche Sequencing Solutions, Inc. Nucleic acid sequencing using nanotransistors
EP3571614A1 (en) 2017-01-20 2019-11-27 Sequenom, Inc. Methods for non-invasive assessment of copy number alterations
US11929145B2 (en) 2017-01-20 2024-03-12 Sequenom, Inc Methods for non-invasive assessment of genetic alterations
WO2018136881A1 (en) 2017-01-20 2018-07-26 Sequenom, Inc. Sequencing adapter manufacture and use
US11694768B2 (en) 2017-01-24 2023-07-04 Sequenom, Inc. Methods and processes for assessment of genetic variations
TW202348802A (zh) 2017-01-25 2023-12-16 香港中文大學 使用核酸片段之診斷應用
US11615864B2 (en) 2017-02-17 2023-03-28 The Board Of Trustees Of The Leland Stanford Junior University Accurate and sensitive unveiling of chimeric biomolecule sequences and applications thereof
CN106834490B (zh) * 2017-03-02 2021-01-22 上海亿康医学检验所有限公司 一种鉴定胚胎平衡易位断裂点和平衡易位携带状态的方法
PT3596233T (pt) 2017-03-17 2022-08-22 Sequenom Inc Métodos e processos para avaliação de mosaicismo genético
CN117116360A (zh) * 2017-03-30 2023-11-24 Illumina公司 基因组数据分析系统和方法
US11728007B2 (en) * 2017-11-30 2023-08-15 Grail, Llc Methods and systems for analyzing nucleic acid sequences using mappability analysis and de novo sequence assembly
CA3097146A1 (en) * 2018-04-16 2019-10-24 Memorial Sloan Kettering Cancer Center Systems and methods for detecting cancer via cfdna screening
CN112639987A (zh) * 2018-06-29 2021-04-09 格瑞尔公司 核酸重排和整合分析
EP3844760A1 (en) * 2018-08-31 2021-07-07 Guardant Health, Inc. Genetic variant detection based on merged and unmerged reads
BR122021009560B1 (pt) 2019-08-16 2023-11-28 The Chinese University Of Hong Kong Método para detectar uma modificação de um nucleotídeo em uma molécula de ácido nucleico
JP2022553829A (ja) 2019-10-31 2022-12-26 セクエノム, インコーポレイテッド 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用
CN115605618A (zh) * 2020-02-14 2023-01-13 罗得岛医院(Us) Rna测序诊断脓毒症
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
CN111584003B (zh) * 2020-04-10 2022-05-10 中国人民解放军海军军医大学 病毒序列整合的优化检测方法
CN111785324B (zh) * 2020-07-02 2021-02-02 深圳市海普洛斯生物科技有限公司 一种微卫星不稳定分析方法及装置
CN111815614B (zh) * 2020-07-17 2021-04-06 中国人民解放军军事科学院军事医学研究院 基于人工智能的寄生虫检测方法、系统及终端设备
CN113920069B (zh) * 2021-09-26 2022-07-08 广州达安临床检验中心有限公司 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质

Family Cites Families (165)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5720928A (en) 1988-09-15 1998-02-24 New York University Image processing and analysis of individual nucleic acid molecules
US5075212A (en) 1989-03-27 1991-12-24 University Of Patents, Inc. Methods of detecting picornaviruses in biological fluids and tissues
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5641628A (en) 1989-11-13 1997-06-24 Children's Medical Center Corporation Non-invasive method for isolation and detection of fetal DNA
US5091652A (en) 1990-01-12 1992-02-25 The Regents Of The University Of California Laser excited confocal microscope fluorescence scanner and method
WO1991010741A1 (en) 1990-01-12 1991-07-25 Cell Genesys, Inc. Generation of xenogeneic antibodies
US5432054A (en) 1994-01-31 1995-07-11 Applied Imaging Method for separating rare cells from a population of cells
CA2157219C (en) 1994-08-31 2010-10-05 Munehiro Noda Process for purifying recombinant human serum albumin
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
DE69520290T2 (de) 1994-12-23 2001-10-31 Imperial College Of Science, Technology & Medicine Automatisches sequenzierungs verfahren
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US5670325A (en) 1996-08-14 1997-09-23 Exact Laboratories, Inc. Method for the detection of clonal populations of transformed cells in a genomically heterogeneous cellular sample
BR9710836A (pt) 1996-04-25 2000-10-24 Spectrametrix Inc Ensaio de analitos usando marcas em partìculas
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
US6300077B1 (en) 1996-08-14 2001-10-09 Exact Sciences Corporation Methods for the detection of nucleic acids
US5928870A (en) 1997-06-16 1999-07-27 Exact Laboratories, Inc. Methods for the detection of loss of heterozygosity
US6100029A (en) 1996-08-14 2000-08-08 Exact Laboratories, Inc. Methods for the detection of chromosomal aberrations
US6403311B1 (en) 1997-02-12 2002-06-11 Us Genomics Methods of analyzing polymers using ordered label strategies
GB9704444D0 (en) 1997-03-04 1997-04-23 Isis Innovation Non-invasive prenatal diagnosis
US6566101B1 (en) 1997-06-16 2003-05-20 Anthony P. Shuber Primer extension methods for detecting nucleic acids
US6570001B1 (en) 1997-06-20 2003-05-27 Institut Pasteur Polynucleotides and their use for detecting resistance to streptogramin A or to streptogramin B and related compounds
WO2000006770A1 (en) 1998-07-30 2000-02-10 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US6263286B1 (en) 1998-08-13 2001-07-17 U.S. Genomics, Inc. Methods of analyzing polymers using a spatial network of fluorophores and fluorescence resonance energy transfer
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
DE19932890A1 (de) 1999-07-19 2001-02-01 Deutsches Krebsforsch DNA zum Nachweis von Veränderungen des Chromosoms 8
US20050287592A1 (en) 2000-08-29 2005-12-29 Yeda Research And Development Co. Ltd. Template-dependent nucleic acid polymerization using oligonucleotide triphosphates building blocks
DE60025739T2 (de) 1999-09-07 2006-08-31 The Regents Of The University Of California, Oakland Verfahren um die anwesenheit von doppelsträngiger dns in einer probe nachzuweisen
WO2001023610A2 (en) 1999-09-29 2001-04-05 Solexa Ltd. Polynucleotide sequencing
EP1226255B1 (en) 1999-10-29 2006-03-29 Stratagene California Compositions and methods utilizing dna polymerases
WO2001062952A1 (en) 2000-02-24 2001-08-30 Dna Sciences, Inc. Methods for determining single nucleotide variations
US6664056B2 (en) 2000-10-17 2003-12-16 The Chinese University Of Hong Kong Non-invasive prenatal monitoring
US6936433B2 (en) 2000-11-27 2005-08-30 The Regents Of The University Of California Methods and devices for characterizing duplex nucleic acid molecules
DE10112515B4 (de) 2001-03-09 2004-02-12 Epigenomics Ag Verfahren zum Nachweis von Cytosin-Methylierungsmustern mit hoher Sensitivität
WO2002072892A1 (en) 2001-03-12 2002-09-19 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences by asynchronous base extension
AU2002318386A1 (en) 2001-06-21 2003-01-08 Agilent Technologies, Inc. Methods for characterization of nucleic acid molecules
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
US20030157489A1 (en) 2002-01-11 2003-08-21 Michael Wall Recursive categorical sequence assembly
US6977162B2 (en) 2002-03-01 2005-12-20 Ravgen, Inc. Rapid analysis of variations in a genome
ATE349555T1 (de) 2002-03-15 2007-01-15 Epigenomics Ag Entdeckungs- und diagnoseverfahren mit 5- methylcytosin-dna-glycosylase
US20040110208A1 (en) 2002-03-26 2004-06-10 Selena Chan Methods and device for DNA sequencing using surface enhanced Raman scattering (SERS)
US7744816B2 (en) 2002-05-01 2010-06-29 Intel Corporation Methods and device for biomolecule characterization
US7005264B2 (en) 2002-05-20 2006-02-28 Intel Corporation Method and apparatus for nucleic acid sequencing and identification
US20050019784A1 (en) 2002-05-20 2005-01-27 Xing Su Method and apparatus for nucleic acid sequencing and identification
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
EP1546385B1 (en) 2002-09-06 2013-04-17 Trustees Of Boston University Quantification of gene expression
EP1613723B1 (en) 2002-11-27 2013-05-15 Sequenom, Inc. Fragmentation-based methods for sequence variation detection and discovery
US7629123B2 (en) * 2003-07-03 2009-12-08 University Of Medicine And Dentistry Of New Jersey Compositions and methods for diagnosing autism
WO2005010145A2 (en) 2003-07-05 2005-02-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
WO2005017025A2 (en) 2003-08-15 2005-02-24 The President And Fellows Of Harvard College Study of polymer molecules and conformations with a nanopore
EP2354253A3 (en) 2003-09-05 2011-11-16 Trustees of Boston University Method for non-invasive prenatal diagnosis
EP1524321B2 (en) 2003-10-16 2014-07-23 Sequenom, Inc. Non-invasive detection of fetal genetic traits
US20050095599A1 (en) 2003-10-30 2005-05-05 Pittaro Richard J. Detection and identification of biopolymers using fluorescence quenching
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050147980A1 (en) 2003-12-30 2005-07-07 Intel Corporation Nucleic acid sequencing by Raman monitoring of uptake of nucleotides during molecular replication
US20100216151A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US20060046258A1 (en) 2004-02-27 2006-03-02 Lapidus Stanley N Applications of single molecule sequencing
US20100216153A1 (en) 2004-02-27 2010-08-26 Helicos Biosciences Corporation Methods for detecting fetal nucleic acids and diagnosing fetal abnormalities
US7279337B2 (en) 2004-03-10 2007-10-09 Agilent Technologies, Inc. Method and apparatus for sequencing polymers through tunneling conductance variation detection
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
JP5190263B2 (ja) 2004-08-13 2013-04-24 プレジデント アンド フェローズ オブ ハーバード カレッジ 超高スループットの光学−ナノ細孔dna読み取りプラットフォーム
ATE443161T1 (de) 2004-11-29 2009-10-15 Univ Regensburg Klinikum Mittel und verfahren für den nachweis von methylierter dna
AU2006224971B2 (en) 2005-03-18 2009-07-02 Boston University A method for the detection of chromosomal aneuploidies
US7960105B2 (en) 2005-11-29 2011-06-14 National Institutes Of Health Method of DNA analysis using micro/nanochannel
CN101316936A (zh) 2005-11-29 2008-12-03 奥林巴斯株式会社 核酸的一级结构变化的解析方法
ES2429408T5 (es) 2006-02-02 2020-01-16 Univ Leland Stanford Junior Examen genético fetal no invasivo mediante análisis digital
SI2351858T1 (sl) 2006-02-28 2015-06-30 University Of Louisville Research Foundation Med Center Three, Zaznavanje fetalnih kromosomskih nenormalnosti z uporabo tandema polimorfizmov posameznih nukleotidov
US8189892B2 (en) 2006-03-10 2012-05-29 Koninklijke Philips Electronics N.V. Methods and systems for identification of DNA patterns through spectral analysis
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US20090075252A1 (en) 2006-04-14 2009-03-19 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
EP2029777B1 (en) 2006-05-31 2017-03-08 Sequenom, Inc. Methods and compositions for the extraction of nucleic acid from a sample
US8137912B2 (en) 2006-06-14 2012-03-20 The General Hospital Corporation Methods for the diagnosis of fetal abnormalities
WO2007147074A2 (en) 2006-06-14 2007-12-21 Living Microsystems, Inc. Use of highly parallel snp genotyping for fetal diagnosis
WO2007147063A2 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
EP1944273A1 (en) 2007-01-15 2008-07-16 Rockwool International A/S Process and apparatus for making mineral fibers
US8003319B2 (en) 2007-02-02 2011-08-23 International Business Machines Corporation Systems and methods for controlling position of charged polymer inside nanopore
CA2682275C (en) 2007-03-28 2017-05-09 Bionanomatrix, Inc. Methods of macromolecular analysis using nanochannel arrays
JP5646987B2 (ja) 2007-04-04 2014-12-24 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ナノポアを使用するための組成物、デバイス、システム、及び方法
GB0713143D0 (en) 2007-07-06 2007-08-15 Ucl Business Plc Nucleic acid detection method
US20100112590A1 (en) 2007-07-23 2010-05-06 The Chinese University Of Hong Kong Diagnosing Fetal Chromosomal Aneuploidy Using Genomic Sequencing With Enrichment
KR101829565B1 (ko) 2007-07-23 2018-03-29 더 차이니즈 유니버시티 오브 홍콩 핵산 서열 불균형의 결정
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
EP2195452B1 (en) 2007-08-29 2012-03-14 Sequenom, Inc. Methods and compositions for universal size-specific polymerase chain reaction
US20100331195A1 (en) 2007-10-04 2010-12-30 William Andregg Sequencing Nucleic Acid Polymers with Electron Microscopy
US7767400B2 (en) 2008-02-03 2010-08-03 Helicos Biosciences Corporation Paired-end reads in sequencing by synthesis
CN101230403B (zh) 2008-02-21 2010-12-29 浙江理工大学 解析染色体端粒g-末端序列的方法
WO2009114543A2 (en) 2008-03-11 2009-09-17 Sequenom, Inc. Nucleic acid-based tests for prenatal gender determination
AU2009228312B2 (en) 2008-03-26 2015-05-21 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
KR20110025993A (ko) 2008-06-30 2011-03-14 바이오나노매트릭스, 인크. 단일-분자 전체 게놈 분석용 장치 및 방법
CN103695530B (zh) 2008-07-07 2016-05-25 牛津纳米孔技术有限公司 酶-孔构建体
US9447152B2 (en) 2008-07-07 2016-09-20 Oxford Nanopore Technologies Limited Base-detecting pore
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
EP3103871B1 (en) 2008-09-16 2020-07-29 Sequenom, Inc. Processes for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for fetal nucleic acid quantification
EP3378951B1 (en) 2008-09-20 2020-05-13 The Board of Trustees of the Leland Stanford Junior University Noninvasive diagnosis of aneuploidy by sequencing
GB2467704B (en) 2008-11-07 2011-08-24 Mlc Dx Inc A method for determining a profile of recombined DNA sequences in T-cells and/or B-cells
WO2010056728A1 (en) 2008-11-11 2010-05-20 Helicos Biosciences Corporation Nucleic acid encoding for multiplex analysis
US9181578B2 (en) 2008-11-18 2015-11-10 Bionano Genomics, Inc. Polynucleotide mapping and sequencing
WO2010065470A2 (en) 2008-12-01 2010-06-10 Consumer Genetics, Inc. Compositions and methods for detecting background male dna during fetal sex determination
JP2012513217A (ja) 2008-12-22 2012-06-14 セルラ・インコーポレイテッド 対立遺伝子、ゲノムおよびトランスクリプトームを検出する方法および遺伝子型決定パネル
EP2379751B1 (en) 2009-01-13 2013-03-20 Keygene N.V. Novel genome sequencing strategies
US8455260B2 (en) 2009-03-27 2013-06-04 Massachusetts Institute Of Technology Tagged-fragment map assembly
CA2757493C (en) 2009-04-03 2018-11-13 Sequenom, Inc. Nucleic acid preparation compositions and methods
US8246799B2 (en) 2009-05-28 2012-08-21 Nabsys, Inc. Devices and methods for analyzing biomolecules and probes bound thereto
US20100330557A1 (en) 2009-06-30 2010-12-30 Zohar Yakhini Genomic coordinate system
CN102858985A (zh) * 2009-07-24 2013-01-02 西格马-奥尔德里奇有限责任公司 基因组编辑方法
US20120192298A1 (en) 2009-07-24 2012-07-26 Sigma Aldrich Co. Llc Method for genome editing
CN102666946B (zh) 2009-09-28 2017-09-05 生物纳米基因组公司 用于聚合物分析的纳米通道阵列和近场照射装置以及相关方法
CA2778338A1 (en) 2009-10-21 2011-04-28 Bionano Genomics, Inc. Methods and related devices for single molecule whole genome analysis
MX355132B (es) 2009-11-05 2018-04-06 Sequenom Inc Analisis genomico fetal de muestra biologica materna.
CA2785020C (en) 2009-12-22 2020-08-25 Sequenom, Inc. Processes and kits for identifying aneuploidy
US10388403B2 (en) 2010-01-19 2019-08-20 Verinata Health, Inc. Analyzing copy number variation in the detection of cancer
US9323888B2 (en) 2010-01-19 2016-04-26 Verinata Health, Inc. Detecting and classifying copy number variation
US10662474B2 (en) 2010-01-19 2020-05-26 Verinata Health, Inc. Identification of polymorphic sequences in mixtures of genomic DNA by whole genome sequencing
EP2526415B1 (en) 2010-01-19 2017-05-03 Verinata Health, Inc Partition defined detection methods
US20120010085A1 (en) 2010-01-19 2012-01-12 Rava Richard P Methods for determining fraction of fetal nucleic acids in maternal samples
US20120270739A1 (en) 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
EP2366031B1 (en) 2010-01-19 2015-01-21 Verinata Health, Inc Sequencing methods in prenatal diagnoses
US20110312503A1 (en) 2010-01-23 2011-12-22 Artemis Health, Inc. Methods of fetal abnormality detection
SG185544A1 (en) 2010-05-14 2012-12-28 Fluidigm Corp Nucleic acid isolation methods
EP2854058A3 (en) 2010-05-18 2015-10-28 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
KR102218512B1 (ko) * 2010-05-25 2021-02-19 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
EP2591433A4 (en) 2010-07-06 2017-05-17 Life Technologies Corporation Systems and methods to detect copy number variation
WO2012012703A2 (en) 2010-07-23 2012-01-26 Esoterix Genetic Laboratories, Llc Identification of differentially represented fetal or maternal genomic regions and uses thereof
CA2821906C (en) 2010-12-22 2020-08-25 Natera, Inc. Methods for non-invasive prenatal paternity testing
EP2655666A2 (en) 2010-12-23 2013-10-30 Sequenom, Inc. Fetal genetic variation detection
RU2013138422A (ru) * 2011-01-19 2015-02-27 Конинклейке Филипс Электроникс Н.В. Способ обработки геномных данных
US20120190020A1 (en) 2011-01-25 2012-07-26 Aria Diagnostics, Inc. Detection of genetic abnormalities
JP6153874B2 (ja) 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
WO2012118745A1 (en) 2011-02-28 2012-09-07 Arnold Oliphant Assay systems for detection of aneuploidy and sex determination
GB2484764B (en) 2011-04-14 2012-09-05 Verinata Health Inc Normalizing chromosomes for the determination and verification of common and rare chromosomal aneuploidies
ES2605372T3 (es) 2011-05-31 2017-03-14 Berry Genomics Co., Ltd. Un dispositivo para detectar el número de copias de cromosomas fetales o cromosomas de células tumorales
US20140235474A1 (en) 2011-06-24 2014-08-21 Sequenom, Inc. Methods and processes for non invasive assessment of a genetic variation
ES2512448T3 (es) 2011-06-29 2014-10-24 Bgi Diagnosis Co., Ltd. Detección no invasiva de anormalidades genéticas fetales
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
CN102409088B (zh) 2011-09-22 2014-11-12 郭奇伟 一种基因拷贝数变异的检测方法
EP2764458B1 (en) 2011-10-06 2021-04-07 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP2764459B1 (en) 2011-10-06 2021-06-30 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US9984198B2 (en) 2011-10-06 2018-05-29 Sequenom, Inc. Reducing sequence read count error in assessment of complex genetic variations
US9367663B2 (en) 2011-10-06 2016-06-14 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8688388B2 (en) 2011-10-11 2014-04-01 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013055817A1 (en) 2011-10-11 2013-04-18 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP6072819B2 (ja) 2011-12-08 2017-02-01 ファイヴ3 ゲノミクス,エルエルシー Mdm2を含む二重微小染色体およびその方法
PL2805280T3 (pl) * 2012-01-20 2022-11-21 Sequenom, Inc. Procesy diagnostyczne będące czynnikiem warunków doświadczalnych
US9892230B2 (en) 2012-03-08 2018-02-13 The Chinese University Of Hong Kong Size-based analysis of fetal or tumor DNA fraction in plasma
CA2866324C (en) 2012-03-13 2019-01-15 The Chinese University Of Hong Kong Methods for analyzing massively parallel sequencing data for noninvasive prenatal diagnosis
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2902401T3 (es) 2012-05-21 2022-03-28 Sequenom Inc Métodos y procesos para la evaluación no invasiva de variaciones genéticas
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
WO2014055790A2 (en) 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2014165596A1 (en) 2013-04-03 2014-10-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA3189752A1 (en) 2013-05-24 2014-11-27 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
KR20220133309A (ko) 2013-06-21 2022-10-04 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
US10174375B2 (en) 2013-09-20 2019-01-08 The Chinese University Of Hong Kong Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases
PL3053071T3 (pl) 2013-10-04 2024-03-18 Sequenom, Inc. Metody i procesy nieinwazyjnej oceny zmienności genetycznych
AU2014332241B2 (en) 2013-10-07 2021-04-29 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
AU2015267190B2 (en) 2014-05-30 2020-10-01 Sequenom, Inc. Chromosome representation determinations
EP3175000B1 (en) 2014-07-30 2020-07-29 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations

Also Published As

Publication number Publication date
CA2925111C (en) 2024-01-16
AU2014332241B2 (en) 2021-04-29
WO2015054080A1 (en) 2015-04-16
US20160292356A1 (en) 2016-10-06
JP2020110173A (ja) 2020-07-27
EP3495496A1 (en) 2019-06-12
JP2022191522A (ja) 2022-12-27
EP3851539A1 (en) 2021-07-21
EP3495496B1 (en) 2020-11-25
CA2925111A1 (en) 2015-04-16
CN105874082B (zh) 2020-06-02
CN111863131A (zh) 2020-10-30
AU2014332241A1 (en) 2016-05-19
US20200058372A1 (en) 2020-02-20
AU2024204048A1 (en) 2024-07-04
JP2016540520A (ja) 2016-12-28
AU2021209224B2 (en) 2024-03-14
EP3055427A1 (en) 2016-08-17
US11929146B2 (en) 2024-03-12
AU2021209224A1 (en) 2021-08-19
EP3055427B1 (en) 2018-09-12
US10438691B2 (en) 2019-10-08
CN105874082A (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
JP6680680B2 (ja) 染色体変化の非侵襲性評価のための方法およびプロセス
JP7182353B2 (ja) 染色体提示の決定
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
ES2939547T3 (es) Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
US20240290423A1 (en) Methods for non-invasive assessment of genetic alterations
US20240029826A1 (en) Methods and Processes for Assessment of Genetic Variations
JP2023130525A (ja) 遺伝子モザイク症のための方法およびプロセス
CA3049455C (en) Sequencing adapter manufacture and use
TR201904345T4 (tr) Genetik Varyasyonları Non-İnvazif Değerlendirme Yöntemi
US20240233866A1 (en) Methods for non-invasive assessment of genetic variations
Dan et al. Non-invasive prenatal diagnosis of lethal skeletal dysplasia by targeted capture sequencing of maternal plasma
JP2022553829A (ja) 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170802

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20181009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200122

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250