JP2020513812A - 遺伝子モザイク症のための方法およびプロセス - Google Patents

遺伝子モザイク症のための方法およびプロセス Download PDF

Info

Publication number
JP2020513812A
JP2020513812A JP2019550776A JP2019550776A JP2020513812A JP 2020513812 A JP2020513812 A JP 2020513812A JP 2019550776 A JP2019550776 A JP 2019550776A JP 2019550776 A JP2019550776 A JP 2019550776A JP 2020513812 A JP2020513812 A JP 2020513812A
Authority
JP
Japan
Prior art keywords
nucleic acid
fraction
copy number
fetal
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019550776A
Other languages
English (en)
Other versions
JP7370862B2 (ja
Inventor
ロナルド マイケル マクロウ,
ロナルド マイケル マクロウ,
ジェナ エル. ウォードロップ,
ジェナ エル. ウォードロップ,
エヤド アルマスリ,
エヤド アルマスリ,
Original Assignee
セクエノム, インコーポレイテッド
セクエノム, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セクエノム, インコーポレイテッド, セクエノム, インコーポレイテッド filed Critical セクエノム, インコーポレイテッド
Publication of JP2020513812A publication Critical patent/JP2020513812A/ja
Priority to JP2023120117A priority Critical patent/JP2023130525A/ja
Application granted granted Critical
Publication of JP7370862B2 publication Critical patent/JP7370862B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本明細書において提供する技術は、一部、試験試料についての1つまたは複数のモザイクコピー数変動(CNV)の非侵襲性分類に関する。本明細書において提供する技術は、例えば、非侵襲性出生前(NIPT)試験および腫瘍学試験の一部として、試料についてのモザイクCNVを分類するのに有用である。特に、生体試料について遺伝子モザイク症の存在または非存在を分類する方法を提供し、方法は、対象、例えば妊娠中の雌に由来する試料核酸中の遺伝子コピー数の変動領域を同定するステップと、試料核酸中のコピー数の変動を有する核酸のフラクションを決定するステップと、試料核酸中の少量の核酸、例えば胎仔核酸のフラクションを決定するステップと、2つのフラクションを比較するステップであって、モザイク症比を生成するステップと、モザイク症比に従ってコピー数の変動領域についての遺伝子モザイク症の存在または非存在を分類するステップとを含む。

Description

関連出願
本出願は、2017年3月17日に出願された米国仮特許出願番号第62/473,074号に基づく優先権を主張している。この米国仮特許出願番号第62/473,074号の全体の内容は、その全体が本明細書中に参考として援用される。
分野
本明細書において提供する技術は、一部、試験試料のモザイクコピー数変動(CNV)を非侵襲性に分類するための方法、システム、機械およびコンピュータプログラム製品に関する。本明細書において提供する技術は、例えば、非侵襲性出生前試験(NIPT)および腫瘍学試験の一部として、試料のモザイクCNVを分類するのに有用である。
(背景)
生きている生物(例えば、動物、植物および微生物)ならびに遺伝情報を複製するその他の形態(例えば、ウイルス)の遺伝情報は、デオキシリボ核酸(DNA)またはリボ核酸(RNA)中にコードされる。遺伝情報は連続的なヌクレオチドまたは修飾ヌクレオチドであり、これらは化学的なまたは仮定上の核酸の一次構造を示す。ヒトの場合、完全なゲノムは、24本の染色体上に位置する約30,000個の遺伝子を含有する(すなわち、22の常染色体、X染色体およびY染色体、The Human Genome、T.Strachan、BIOS Scientific Publishers、1992年を参照されたい)。各遺伝子が特定のタンパク質をコードし、タンパク質は、生きている細胞内で転写および翻訳を経て発現した後、特定の生化学的機能を果たす。
多くの医学的状態が、1つまたは複数の遺伝子の変動および/または遺伝子の変更により引き起こされる。特定の遺伝子の変動および/または遺伝子の変更が医学的状態を引き起こし、これらとして、例えば、血友病、サラセミア、デュシェンヌ型筋ジストロフィー(DMD)、ハンチントン病(HD)、アルツハイマー病および嚢胞性線維症(CF)が挙げられる(Human Genome Mutations、D.N.CooperおよびM.Krawczak、BIOS Publishers、1993年)。そのような遺伝性疾患は、特定の遺伝子のDNA中の単一ヌクレオチドの付加、置換または欠失の結果生じ得る。例えば、特定の先天性欠損が、異数性とも呼ばれる染色体異常、例として、21トリソミー(ダウン症候群)、13トリソミー(パトー症候群)、18トリソミー(エドワーズ症候群)、Xモノソミー(ターナー症候群)、および特定の性染色体異数性、例として、クラインフェルター症候群(XXY)により引き起こされる。別の遺伝子の変動は胎仔の性別であり、これはしばしば、性染色体のXおよびYに基づいて決定され得る。いくつかの遺伝子の変動により、例えば、糖尿病、動脈硬化、肥満、種々の自己免疫疾患およびがん、腫瘍、新生物、転移性疾患などの細胞増殖障害などまたはそれらの組合せなどのいくつかの疾患のうちのいずれかに、個体が、罹患しやすくなる恐れ、またはそうした疾患を発症する恐れがある。がん、腫瘍、新生物または転移性疾患は、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺などまたはそれらの組合せの障害または状態であることもある。
The Human Genome、T.Strachan、BIOS Scientific Publishers、1992年 Human Genome Mutations、D.N.CooperおよびM.Krawczak、BIOS Publishers、1993年
1つまたは複数の遺伝子の変動および/または遺伝子の変更(例えば、コピー数の変更、コピー数の変動、単一ヌクレオチドの変更、単一ヌクレオチドの変動、染色体変更、転位、欠失、挿入等)または分散の同定が、特定の医学的状態の診断またはそうした状態に対する素因の決定につながりうる。遺伝子の分散の同定は、医学的決定の促進および/または有用な医学的手順の利用をもたらすことができる。ある特定の実施形態では、1つまたは複数の遺伝子の変動および/または遺伝子の変更の同定は、循環型無細胞核酸の分析を含む。無細胞DNA(CCF−DNA)などの循環型無細胞核酸(CCF−NA)は、例えば、細胞死から生じ、抹消血中を循環するDNA断片から構成される。高い濃度のCF−DNAは、特定の臨床状態、例として、がん、外傷、熱傷、心筋梗塞、脳卒中、敗血症、感染およびその他の疾病の指標となり得る。さらに、無細胞胎性DNA(CFF−DNA)を、母体の血流中で検出し、種々の非侵襲性の出生前診断法のために使用することもできる。
1つまたは複数のコンピュータのシステムを、操作中に作用を引き起こす、またはシステムに作用を及ぼすようにさせるシステムにインストールされたソフトウェア、ファームウェア、ハードウェアまたはそれらの組合せを有することによって、特定の操作または作用を実施するように構成することができる。1つまたは複数のコンピュータプログラムを、データ処理装置によって実行されたときに、装置に作用を及ぼさせるインストラクションを含むことによって、特定の操作または作用を実施するように構成することができる。1つの一般的な局面は、生体試料について遺伝子モザイク症の存在または非存在を分類する方法であって、(a)対象に由来する試料核酸中の遺伝子コピー数の変動領域を同定するステップであって、試料核酸が多量の核酸および少量の核酸を含むステップと、(b)試料核酸中のコピー数の変動を有する核酸のフラクションを決定するステップと、(c)試料核酸中の少量の核酸のフラクションを決定するステップと、(d)(b)のフラクションを(c)のフラクションと比較するステップであって、これにより比較を提供するステップと、(e)比較に従って、コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップとを含む、方法を含む。
種々の態様は、生体試料の遺伝子モザイク症の存在または非存在を分類する方法を含む。方法は、演算デバイスによって、妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料において遺伝子コピー数の変動領域を同定するステップであって、遺伝子コピー数の変動領域がコピー数の変動を含み、循環型無細胞核酸が母体核酸および胎仔核酸を含むステップと、演算デバイスによって、循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションを決定するステップと、演算デバイスによって、循環型無細胞核酸中の胎仔核酸のフラクションを決定するステップと、演算デバイスによって、循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションを、循環型無細胞核酸中の胎仔核酸のフラクションと比較するステップであって、これにより、比較をもたらし、モザイク症比を生成するステップと、演算デバイスによって、比較およびモザイク症比に従ってコピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップとを含む。モザイク症比が約0.2〜約0.7の間である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類され、比が約0.71〜約1.3の間である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。
実施は、以下の特徴のうち1つまたは複数を含みうる。循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションがコピー数の変動領域について決定される前記方法。循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションが配列決定に基づくフラクション推定に従って決定される前記方法。循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションが多型配列の対立遺伝子の比に従って決定される前記方法。循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションがメチル化可変核酸の定量化に従って決定される前記方法。循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションが、コピー数の変動領域について決定された胎仔フラクションである前記方法。循環型無細胞核酸中のコピー数の変動を有する核酸の胎仔フラクションが配列決定に基づく胎仔フラクション推定に従って決定される前記方法。
実施はまた、以下の特徴のうち1つまたは複数も含みうる。循環型無細胞核酸中のコピー数の変動を有する核酸の胎仔フラクションが、胎仔核酸および母体核酸における多型配列の対立遺伝子の比に従って決定される、方法。循環型無細胞核酸中のコピー数の変動を有する核酸の胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、方法。循環型無細胞核酸中の胎仔核酸のフラクションが、コピー数の変動領域よりも大きいゲノム領域について決定される、方法。循環型無細胞核酸中の胎仔核酸のフラクションが、コピー数の変動領域とは異なるゲノム領域について決定される、方法。循環型無細胞核酸中の胎仔核酸のフラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、方法。循環型無細胞核酸中の胎仔核酸のフラクションが、胎仔核酸および母体核酸における多型配列の対立遺伝子の比に従って決定される、方法。循環型無細胞核酸中の胎仔核酸のフラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、方法。モザイク症比が、循環型無細胞核酸中の胎仔核酸のフラクションによって除された、循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションである、方法。
実施はまた、以下の特徴のうち1つまたは複数も含みうる。演算システムによって、モザイク症比が最小閾値未満である場合に、分類なしを提供するステップをさらに含む前記方法。最小閾値が約0.2である前記方法。演算システムによって、モザイク症比が最大閾値より大きい場合に、分類なしを提供するステップをさらに含む、方法。最大閾値が、約1.3である、方法。演算システムによって、妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料における1つまたは複数の異数性の存在についての、非侵襲性出生前試験(NIPT)からの陽性スクリーニング結果を得るステップをさらに含む、方法。演算システムによって、分類なしが提供され、モザイク症比が最小閾値未満である場合に、NIPTからの陽性スクリーニング結果を1つまたは複数の異数性の陰性結果または非存在として解釈することを提供するステップをさらに含む、方法。演算システムによって、分類なしが提供され、モザイク症比が最大閾値よりも大きい場合に、NIPTからの陽性スクリーニング結果を過剰または不確定として解釈することを提供するステップをさらに含む、方法。演算システムによって、コピー数の変動領域について遺伝子モザイク症の存在が分類される場合に、NIPTからの陽性スクリーニング結果を、モザイク提示の可能性に関するコメントを有する陽性として解釈することを提供するステップをさらに含む、方法。
これらの態様のその他の実施形態は、各々、方法の作用を及ぼすように構成されている、対応するコンピュータシステム、装置および1つまたは複数のコンピュータ記憶デバイスに記録されたコンピュータプログラムを含む。
以下の記載、実施例、特許請求の範囲、および図面では、種々の実施形態について、さらに記載する。
図面は、本技術のある特定の実施形態を例示するものであり、限定するものではない。記載を明確にし、また分かりやすくするために、図面は正確な縮尺では作成されず、一部の事例では、特定の実施形態を理解しやすくするために、様々な側面が、誇張または拡大して示される場合もある。
図1は、受胎後初期細胞系列を示す図である(図出典Thomas,Dら(1994年7月10日)Trisomy 22, placenta;ワールドワイドウェブURL sonoworld.com/Fetus/page.aspx?id=182)。細胞の大部分は、胎盤栄養膜細胞/絨毛性外胚葉(直接絨毛膜絨毛検査(CVS)調製物、NIPT)に発達する。細胞のごく一部の少数は、絨毛膜絨毛/中胚葉(CVS培養細胞)に発達する。このイメージ中の2つの細胞が、胚および羊水組織を形成するように進む(羊水穿刺)。
図2は、種々の実施形態に一致するプロセスフローを示す図である。
図3は、種々の実施形態に一致するプロセスフローを示す図である。
図4は、技術の種々の実施形態を実行できるシステムの例示的実施形態を示す図である。
図5は、試験ごとに発注医師による試料依頼フォームにおいて提供される情報に基づく試験集団におけるリスク指標の分布を示す図である。AMA−高齢の母体年齢、US−異常な超音波所見、AS−異常な血清スクリーニング結果、HIST−個人歴および/または家族歴、「その他」−その他の理由。内側の円は、MaterniT21(登録商標)PLUS(n>500,000)を使用する患者のリスク指標を示し、外側の円は、MaterniT(登録商標)GENOME(n>10,000)からのリスク指標を示す。
図6は、リスク指標による陽性率および所見の種類を示す図である。左のパネルは、リスク指標によって階層化され、陽性所見の種類によってグループ化された陽性率を示す。陽性率グラフは、指標による陽性率を反映する:上部のバーは、「GENOMEのみ所見」のものであり、第2の/中央のバーは、性染色体異数性(SCA)のものであり、下部のバーは、コアトリソミー(13、18、21)である。右パネルは、リスク群あたりの陽性コホートに対する各陽性所見の種類の寄与を示す。陽性のパーセントのグラフは、30%の「GENOMEのみ」所見が起こり、「AMAのみ」を有する患者において「これらの独特の結果」のより高い率があるのに対し、超音波所見(USF)または(血清生化学スクリーニング)SBSマークされた患者においてはより低い率があることを示す。リスク指標は以下を含む:AMA−高齢の母体年齢、US−異常な超音波所見、AS−異常な血清スクリーニング、HIST−家族歴。所見階層化は、以下を含む(各棒グラフにおいて上部から下部に):GENOME−ゲノムワイド、SCA−性染色体異数性、13/18/21−トリソミー13/18/21。30%の研究コホート平均ゲノムワイド寄与は、0.7の線によって示される。
図7は、SeqFFに基づく胎仔フラクション(x軸)と、集団中央値からの影響を受けた染色体の偏差に基づく胎仔フラクション推定(影響を受けたフラクション(AF);y軸)間の一致を示す。グラフ中の平行線は、2つの胎仔フラクション推定値間の関係を説明する回帰直線の95%信頼区間を強調する。
図8は、陽性試料間の各サイズ群におけるコピー数の変動(CNV)の有病率を示すヒストグラムを示す図である。サイズ群はメガベースである。
図9は、cfDNA陽性異数性結果のモザイク症比を示す図である。
図10は、モザイク症比の関数としての矛盾する結果を示す図である。
図11は、陽性予測値に対するモザイク症比の影響を示す図である。
図12は、予測された事象の詳細なコメントおよびイデオグラムを含むMaterniT(登録商標)GENOME報告の一部を示す図である。
図13は、症例Aの第12染色体イデオグラムを示す図である。
図14は、症例Bの第12染色体イデオグラムを示す図である。
図15は、症例Cの第12染色体イデオグラムを示す図である。
図16は、症例Cのiso(12p)を示唆する12p重複の全ゲノムプロファイル図を示す図である。
図17は、染色体Yレベルから決定された胎仔フラクション百分率(ChrFF、y軸)と比較した6000のトレーニング試料(x軸)に基づく、ビンベースの胎仔フラクション(BFF;本明細書において配列決定に基づく胎仔フラクション(SeqFF)とも呼ばれる)モデルに由来する19,312の試験試料について予測された胎仔フラクション百分率の相関(R=0.81、RMedSE=1.5)を示す図である。
図18は、胎仔比統計値(FRS)に基づいて、高胎仔フラクション含量を有するビン(すなわち、部分)(左側に示される分布)および低胎仔フラクション含量を有するビン(右側に示される分布)の相対予測誤差(x軸)を示す図である。高胎仔含量を有するビンは、より良好な性能およびより低い誤差を有する。予測スコアは、エラスティックネット回帰手順に基づいており、密度プロファイルを得るためにブートストラッピングを使用する。
図19は、胎仔フラクション含量(例えば、低、中〜低、中〜高、高)に従って分けられたビンのサブセットでエラスティックネット回帰手順を使用して決定されたモデル係数(x軸)の4つの分布を示す図である。より高い胎仔フラクション含量を有するビン(すなわち、部分)は、より高い係数(正または負)をもたらす傾向がある。
図20は、雌および雄試験試料についてビンベースの胎仔フラクション(BFF;本明細書において配列決定に基づく胎仔フラクション(SeqFF)とも呼ばれる)法を使用して決定された胎仔フラクション推定値(x軸)の2つの分布を示す図である。2つの分布は、実質的にオーバーラップする。雄および雌の胎仔は、胎仔フラクションの分布において相違を示さなかった(KS試験P=0.49)。
図21は、高リスク指標の同時発生を詳述する高リスク指標を有する試料の4群ベン図を示す図である。
図22は、高リスク指標の棒グラフを示す図である。AMA:高リスク指標として高齢の母体年齢を有する試料、US:超音波高リスク指標を有する試料、AS:高リスク指標として異常な血清スクリーニングを有する試料;HIST:個人歴または家族歴を有する試料、その他:その他の高リスク指標を有する試料または高リスク指標を有さない試料。
図23は、縦列として各試料を、横列として高リスク指標を示す図である。AMA:高リスク指標として高齢の母体年齢を有する試料、US:超音波高リスク指標を有する試料、AS:高リスク指標として異常な血清スクリーニングを有する試料;HIST:個人歴または家族歴を有する試料、その他の指標:その他の高リスク指標を有する試料または高リスク指標を有さない試料、暗領域は、この指標が試験要求フォームでマークされていなかったことを示す。明領域は、この指標が試験要求フォームでマークされていたことを示す。
詳細な説明
本明細書では、生体試料の遺伝子モザイク症の存在または非存在を分類するためのシステムおよび方法が提供される。種々の実施形態では、バイオインフォマティックツールおよびプロセスを使用して、コピー数の変動についての遺伝子モザイク症の存在または非存在を分類する。本明細書において、この方法を、例えば、断片化された核酸または切断された核酸、核酸鋳型、細胞核酸および/または無細胞核酸を含む種々のポリヌクレオチドに利用できる。一部の実施形態では、配列決定プロセスに付された試料核酸および得られた配列の読取りをさらに分析して、妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料中の遺伝子コピー数の変動を同定する。試料核酸は、母体核酸および胎仔核酸を含みうる。一部の実施形態では、試料核酸中のコピー数の変動を有する母体核酸のフラクションが決定され、試料核酸中のコピー数の変動を有する胎仔核酸のフラクションが決定される。母体核酸の多型配列は、胎仔核酸の多型配列とは異なっている。一部の実施形態では、コピー数の変動を有する母体核酸のフラクションを、コピー数の変動を有する胎仔核酸のフラクションと比較して、コピー数の変動を有する胎仔核酸のフラクションに対する、コピー数の変動を有する母体核酸のフラクションの比を得る。一部の実施形態では、遺伝子モザイク症を、コピー数の変動を有する胎仔核酸のフラクションに対する、コピー数の変動を有する母体核酸のフラクションの比に基づいて分類する。ある特定の実施形態では、比が約0.2〜約0.7である場合に、コピー数の変動について遺伝子モザイク症の存在が分類され、比が約0.6〜約1.0である場合に、コピー数の変動について遺伝子モザイク症の非存在が分類される。本明細書で使用する場合、何かの決定などの作用が、何か「によって誘発される」、「に従う」または「に基づく」場合、これは、作用が、何かの少なくとも一部に少なくとも幾分か誘発される、従う、または基づくことを意味する。ある特定のコピー数の変動についての遺伝子モザイク症の分類は、医療従事者および患者に、コピー数の変動に関する有用な情報を提供しうる。
一部の実施形態では、本明細書において記載される方法または方法の一部を実施するシステム、機械およびコンピュータプログラム製品も提供される。
導入
流体試料、特に、妊娠中の対象に由来する試料中の無細胞核酸の検出は、非侵襲性出生前試験において使用するための大きな可能性を提供する。無細胞核酸スクリーニングまたは非侵襲性出生前試験(NIPT)は、バイオインフォマティックツールおよびプロセスならびに母体血清中のDNAの断片の次世代配列決定を利用して、妊娠中のある特定の染色体状態の可能性を判定するスクリーニング試験である。すべての個体は、その血流中に自身の無細胞DNAを有する。妊娠の間、胎盤(主に、栄養膜細胞)に由来する無細胞胎仔DNAはまた、母体血流にも入り、母体無細胞DNAと混合する。栄養膜細胞のDNAは、普通、胎仔の染色体構成を反映する。無細胞核酸は、21トリソミー、18トリソミーおよび13トリソミーについてルーチン的にスクリーニングされる。胎仔性別、性染色体異数性、その他の異数性、三倍性および特定の微小欠失状態などのその他の状態についてのスクリーニングも利用可能である。異常な結果は、通常、特定の状態のリスクの増大を示す。しかし、異常な結果は、診断的なものではなく、患者は、羊水穿刺などの診断手順によって確認検査を提供されなければならない。異常な結果は、影響を受けた胎仔を示しうるが、無影響の妊娠、限局胎盤モザイク症、胎盤および胎仔モザイク症、バニシングツイン、無認識の母体状態またはその他の未知生体内生成における偽陽性結果を表す場合もある。
特に、出生前無細胞DNA試験において、分析性能、感度、特異性、臨床性能および陽性予測値(PPV)間に食い違いがある場合があり、これは、陽性NIPT結果の解釈において課題を引き起こした。この食い違いまたは不調和な結果の主な根底をなす原因の1つは、胎盤および胎仔の遺伝的構成間の差である。胎盤に制限された染色体異常は、モザイクであることが多く、胎盤に限局されうる。例えば、ほとんどの妊娠において、胎仔において検出される染色体組はまた、胎盤中にも存在する。両方とも同一接合子から発生するので、胎仔および胎盤の両方における同一染色体組の検出が予測される。しかし、妊娠の9〜11週目に絨毛膜絨毛検査(CVS)によって研究された生存可能な妊娠のおよそ2%において、細胞遺伝学的異常、ほとんどの場合、トリソミーは、胎盤に限局されうる(例えば、Kalousek DK、Vekemans M. Confined placental mosaicism. Journal of Medical Genetics.1996年、33巻(7号):529〜533頁を参照されたい)。この現象は、胎盤限局性モザイク症(CPM)として公知である。胎仔および胎盤両方内の2種またはそれより多くの核型が異なる細胞系統の存在を特徴とする胎盤および胎仔モザイク症とは対照的に、CPMは、胎盤中の細胞および胎仔中の細胞の染色体構成間の矛盾を表す。結果として、CPMは、普通、正常な胎仔アウトカムを伴う(例えば、最も一般的には、CPMが見られる場合には、胎盤ではトリソミー細胞系統を、仔では正常な2倍体染色体組を表す)が、診断的観点から誤解釈されることがある(すなわち、NIPTにおいて偽陽性)。
NIPTが、偽陽性をもたらしうることを考え、陽性NIPT結果は、通常、CVSおよび/または羊水穿刺などの侵襲性試験を用いて確認される。例えば、出生前管理は、通常、別個の事象ではなく、患者の40週連続するケアである。したがって、妊娠を通じて集められた各データ点は、臨床医が、入手可能なすべての情報をコンテキスト化することを可能にする、かなり臨床上関連する情報を提供するはずである。理想的には、すべての陽性NIPT結果でのCVSおよび/または羊水穿刺分析を含む臨床データは、不可逆である治療決定(妊娠の終結など)を行う前に偽陽性に対する懸念を軽減するのに役立つであろう。しかし、CPMもまた、CVSにおいて偽陽性結果を引き起こしうる。したがって、従来の実践は、CVSを用いて進み、蛍光in situハイブリダイゼーション(FISH)を使用する非培養試料または試料の短期間培養物ならびに長期間培養物の両方を使用してすべての細胞系統を調べることである。結果がすべて異数性を示す場合には、結果は、患者に報告される。そうではなく、結果が、モザイクでもある場合には、羊水穿刺が推奨され、FISHおよび核型の両方によって分析される。それにもかかわらず、従来の実践への現実の世界の制限は、すべての女性が、侵襲的な診断検査に、特に妊娠第一期において同意しないということである。
これらの偽陽性問題および多くの女性が侵襲的な診断検査に同意したがらないことに対処するために、本明細書において記載される種々の実施形態は、異数性がモザイク形式(例えば、CPM)で存在しうる患者を同定するためにモザイク症比(本明細書において詳細に記載される出生前無細胞DNA検査から得られる新たに発見された測定基準)の使用を導入している。図1に示されるように、細胞の大部分は、接合子から胎盤栄養膜細胞/絨毛性外胚葉105に発達し、ごく一部の少数の細胞は、絨毛膜絨毛/中胚葉110に発達し、2つの細胞のみが胚および羊水組織115を形成するように進む。この鎖中の種々のレベルで細胞分裂に誤差が生じる場合には、根本的に異なる臨床的意味を有しうる、種々のレベルの胎仔または胎盤(または両方)モザイク症につながりうる。この場合には、母体血漿中のすべてではない無細胞栄養膜DNAが影響を受ける。この知見を使用して、影響を受けた無細胞DNAおよび全無細胞DNAのモザイク症比(MR)を算出できる。種々の実施形態では、MRを、(a)試料核酸中のコピー数の変動を有する核酸のフラクションを決定するステップと、(b)試料核酸中の少量の核酸(例えば、胎仔フラクション)のフラクションを決定するステップと、(c)(a)のフラクションを(b)のフラクションと比較して、(a:):(b)の比を作成するステップとによって算出する。さらに、MR比を使用して、モザイク症(例えば、CPM)による不調和な陽性結果のより高い機会を有する患者を同定できることが発見された。例えば、MRを使用して、コピー数の変動領域について遺伝子モザイク症の存在または非存在が分類されうる。ある特定の実施形態では、MRの値が約0.2〜約0.7の間である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類される。ある特定の実施形態では、MRの値が0.7より大きい場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。このような状況におけるモザイク症比の使用は、陽性NIPT結果を確認するための非侵襲性アプローチを含めて、陽性NIPT結果を確認するために従来のプロセスを上回る多数の利点を有する。
さらに、次いで、モザイク症が存在するか不在であるかという知見を使用して、医師および遺伝カウンセラーによって、陽性NIPT結果をより良好に解釈でき、これは、検査後カウンセリングおよび全体的な出生前ケアの改善につながりうる。例えば、コピー数の変動領域についての遺伝子モザイク症分類の存在(例えば、20%〜70%のMR)は、モザイクコメントを用いて非標準陽性NIPT結果として解釈することができる。コピー数の変動領域についての遺伝子モザイク症分類の不在(例えば、70%より大きいMR)は、標準陽性NIPT結果(例えば、胎仔コピー数の変動についての陽性結果)、影響を受けた胎仔、胎仔コピー数の変動、全コピー数の変動、真のコピー数の変動、完全コピー数の変動等として解釈することができる。コピー数の変動領域について、MRの値がある特定の閾値未満である(例えば、20%未満のMR)場合に、分類なし(例えば、コールなし、臨床的関連なし)を提供でき、これは、胎仔コピー数の変動について陰性NIPT結果として解釈できる。
遺伝子モザイク症分類
試料(例えば、生体試料、試験試料)の遺伝子モザイク症(例えば、CPM)の存在または非存在を分類する方法が本明細書において提供される。種々の実施形態では、コピー数の変動についての遺伝子モザイク症の存在または非存在が分類される。コピー数の変更と呼ばれることもあるコピー数の変動として、異数性(例えば、染色体トリソミー、染色体モノソミー)、欠失(例えば、微小欠失、部分染色体欠失)および重複(例えば、微小重複、部分染色体重複)を挙げることができ、本明細書においてさらに詳細に記載されている。
コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類できる(例えば、胎盤中に限局されるトリソミー細胞系統)。コピー数の変動領域とは、コピー数の変動が同定されるゲノム領域(例えば、染色体、染色体の一部)を指す。コピー数の変動領域とは、特定の染色体を指す場合もあり、染色体上の位置(例えば、ある特定のゲノム座標に広がる領域)を指す場合もある。コピー数の変動領域は、当技術分野における、または本明細書において記載されるコピー数の変動を同定するための任意の適した方法を使用して同定できる。
一部の実施形態では、本明細書における方法は、試料核酸中のコピー数の変動を有する核酸のフラクションを決定することを含む。核酸のフラクションを決定することとは、核酸混合物中の核酸の特定の種を定量化することを指す。例えば、核酸のフラクションを決定することは、少量の核酸種を定量化すること、胎仔核酸を定量化すること、がん核酸を定量化すること等を指しうる。コピー数の変動を有する核酸のフラクションを決定することとは、コピー数の変動が同定される核酸のサブセット(例えば、核酸断片のサブセット、配列の読取りのサブセット)を定量化することを指す。一部の実施形態では、コピー数の変動を有する核酸のフラクションを決定することとは、コピー数の変動が同定される領域(例えば、ゲノム領域)に由来する核酸のサブセット(例えば、核酸断片のサブセット、配列の読取りのサブセット)を定量化することを指す。一部の実施形態では、コピー数の変動を有する核酸のフラクションを決定することとは、コピー数の変動が同定される領域(例えば、ゲノム領域)に由来するある種の核酸のサブセット(例えば、ある種の核酸断片のサブセット、ある種の配列の読取りのサブセット)を定量化することを指す。例えば、母体核酸および胎仔核酸を含む試料について、胎仔核酸が、染色体21のトリソミーを有すると同定される場合には、コピー数の変動を有する核酸のフラクションを決定することとは、染色体21またはその一部に由来する、またはそれと関連する情報(例えば、配列情報、配列読取り定量化、多型配列、メチル化可変配列)に基づいて胎仔フラクションを決定することを指す。
一部の実施形態では、本明細書における方法は、領域(例えば、ゲノム領域)についてフラクションを決定することを含む。一部の実施形態では、本明細書における方法は、コピー数の変動領域についてフラクションを決定することを含む。コピー数の変動領域についてのフラクションとは、影響を受けたフラクションまたは影響を受けた領域についてのフラクションと呼ばれることもある。上記で論じたように、コピー数の変動領域についてのフラクションは、コピー数の変動を有すると同定される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定することができる。コピー数の変動領域についてのフラクションは、核酸混合物中のある種の核酸を定量化するための任意の適した方法を使用して決定できる。例えば、コピー数の変動領域についてのフラクションは、配列決定に基づくフラクション推定に従って決定できる。配列決定に基づくフラクション推定に従って核酸フラクションを決定する方法は、本明細書およびそれらの各々が参照により本明細書に組み込まれる、国際特許出願公開第WO2014/205401号およびKimら(2015年)Prenatal Diagnosis 35巻:810〜815頁において記載されている。配列決定に基づくフラクション推定は、ビンベースのフラクション推定および/または部分特異的フラクション推定と呼ばれることもある。一部の実施形態では、コピー数の変動領域についてのフラクションを、多型配列の対立遺伝子の比に従って決定できる。多型配列は、例えば、単一ヌクレオチド多型(SNP)を含みうる。多型配列の対立遺伝子の比に従って核酸フラクションを決定する方法は、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2011/0224087号に記載されている。一部の実施形態では、コピー数の変動領域についてのフラクションを、種々のエピジェネティックバイオマーカー(例えば、メチル化可変核酸の定量化)に従って決定できる。メチル化可変核酸の定量化に従って核酸フラクションを決定する方法は、例えば、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2010/0105049号に記載されている。
一部の実施形態では、試料核酸は、多量の核酸および少量の核酸を含む。一部の実施形態では、多量の核酸は、母体核酸を含み、少量の核酸は、胎仔核酸を含む。したがって、一部の実施形態では、本明細書における方法は、胎仔フラクションを決定することを含む。一部の実施形態では、本明細書における方法は、領域(例えば、ゲノム領域)について胎仔フラクションを決定することを含む。一部の実施形態では、本明細書における方法は、コピー数の変動領域について胎仔フラクションを決定することを含む。コピー数の変動領域の胎仔フラクションは、影響を受けたフラクション、影響を受けた胎仔フラクションおよび/または影響を受けた領域の胎仔フラクションと呼ばれることもある。上記で論じたように、コピー数の変動領域についての胎仔フラクションは、胎仔コピー数の変動を有すると同定される領域(例えば、ゲノム領域)について得られた情報(例えば、配列情報、エピジェネティック情報)に従って決定することができる。コピー数の変動領域についての胎仔フラクションは、母体核酸および胎仔核酸の混合物中の胎仔核酸を定量化するための任意の適した方法を使用して決定できる。例えば、コピー数の変動領域についての胎仔フラクションは、配列決定に基づく胎仔フラクション(SeqFF)推定に従って決定できる。配列決定に基づく胎仔フラクション(SeqFF)推定に従って胎仔フラクションを決定する方法は、本明細書およびそれらの各々が参照により本明細書に組み込まれる、国際特許出願公開第WO2014/205401号およびKimら(2015年)Prenatal Diagnosis 35巻:810〜815頁において記載されている。配列決定に基づく胎仔フラクション(SeqFF)推定は、ビンベースの胎仔フラクション(BFF)推定および/または部分特異的胎仔フラクション推定と呼ばれることもある。一部の実施形態では、コピー数の変動領域についての胎仔フラクションを、胎仔核酸および母体核酸中の多型配列の対立遺伝子の比に従って決定できる。多型配列は、例えば、単一ヌクレオチド多型(SNP)を含みうる。多型配列の対立遺伝子の比に従って胎仔フラクションを決定する方法は、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2011/0224087号に記載されている。一部の実施形態では、コピー数の変動領域についての胎仔フラクションを、種々のエピジェネティックバイオマーカー(例えば、メチル化可変胎仔核酸および母体核酸の定量化)に従って決定できる。メチル化可変胎仔核酸および母体核酸の定量化に従って胎仔フラクションを決定する方法は、例えば、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2010/0105049号に記載されている。
一部の実施形態では、本明細書における方法は、試料核酸中の少量の核酸のフラクションを決定することを含む。試料核酸中の少量の核酸のフラクションを決定することは、一般に、コピー数の変動を有すると同定される領域についての情報に基づいて核酸種を定量化する方法、例えば、上記の方法に制限されない。むしろ、試料核酸中の少量の核酸のフラクションを決定することは、ゲノムにわたる領域および/またはコピー数の変動を有すると同定される領域とは異なる領域に由来する情報に従って少量の核酸を定量化する方法を含みうる。一部の実施形態では、コピー数の変動領域よりも大きいゲノム領域について、少量の核酸のフラクションを決定する。例えば、コピー数の変動を有すると同定された領域よりも多くのゲノム含量(例えば、塩基対、数キロベース、数メガベース)を含むゲノム領域について少量の核酸のフラクションを決定できる。例えば、少量の核酸が染色体21のトリソミーを有すると同定される試料について、複数の染色体に由来する、またはそれと関連する情報(例えば、配列情報、配列読取り定量化、多型配列、メチル化可変配列)に従って、少量の核酸のフラクションを決定できる。この例では、このような複数の染色体は、すべての染色体、常染色体、染色体のサブセット、常染色体のサブセット、染色体21を含む染色体のサブセット、染色体21を含む常染色体のサブセット、染色体21を含まない染色体のサブセット、染色体21を含まない常染色体のサブセットまたはその一部を含みうる。一部の実施形態では、コピー数の変動領域とは異なるゲノム領域について、少量の核酸のフラクションを決定する。例えば、少量の核酸が、染色体21のトリソミーを有すると同定される試料について、染色体21以外の染色体に由来する、またはそれと関連する情報(例えば、配列情報、配列読取り定量化、多型配列、メチル化可変配列)に従って、少量の核酸のフラクションを決定できる。
試料核酸中の少量の核酸のフラクションは、核酸混合物中のある種の核酸を定量化するための任意の適した方法を使用して決定できる。例えば、配列決定に基づくフラクション推定に従って少量の核酸のフラクションを決定できる。配列決定に基づくフラクション推定に従って少量の核酸フラクションを決定する方法は、本明細書およびそれらの各々が参照により本明細書に組み込まれる、国際特許出願公開第WO2014/205401号およびKimら(2015年)Prenatal Diagnosis 35巻:810〜815頁において記載されている。配列決定に基づくフラクション推定は、ビンベースのフラクション推定および/または部分特異的フラクション推定と呼ばれることもある。一部の実施形態では、少量の核酸のフラクションを、多型配列の対立遺伝子の比に従って決定できる。多型配列は、例えば、単一ヌクレオチド多型(SNP)を含みうる。多型配列の対立遺伝子の比に従って少量の核酸フラクションを決定する方法は、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2011/0224087号に記載されている。一部の実施形態では、少量の核酸のフラクションを、種々のエピジェネティックバイオマーカー(例えば、メチル化可変核酸の定量化)に従って決定できる。メチル化可変核酸の定量化に従って少量の核酸フラクションを決定する方法は、例えば、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2010/0105049号に記載されている。
一部の実施形態では、少量の核酸は、胎仔核酸を含む。したがって、一部の実施形態では、本明細書における方法は、胎仔フラクションを決定することを含む。胎仔フラクションは、母体核酸および胎仔核酸の混合物中の胎仔核酸を定量化するための任意の適した方法を使用して決定できる。例えば、胎仔フラクションは、配列決定に基づく胎仔フラクション(SeqFF)推定に従って決定できる。配列決定に基づく胎仔フラクション(SeqFF)推定に従って胎仔フラクションを決定する方法は、本明細書およびそれらの各々が参照により本明細書に組み込まれる、国際特許出願公開第WO2014/205401号およびKimら(2015年)Prenatal Diagnosis 35巻:810〜815頁において記載されている。配列決定に基づく胎仔フラクション(SeqFF)推定は、ビンベースの胎仔フラクション(BFF)推定および/または部分特異的胎仔フラクション推定と呼ばれることもある。一部の実施形態では、胎仔フラクションは、胎仔核酸および母体核酸中の多型配列の対立遺伝子の比に従って決定できる。多型配列は、例えば、単一ヌクレオチド多型(SNP)を含みうる。多型配列の対立遺伝子の比に従って胎仔フラクションを決定する方法は、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2011/0224087号に記載されている。一部の実施形態では、胎仔フラクションを、種々のエピジェネティックバイオマーカー(例えば、メチル化可変胎仔核酸および母体核酸の定量化)に従って決定できる。メチル化可変胎仔核酸および母体核酸の定量化に従って胎仔フラクションを決定する方法は、例えば、本明細書において、および参照により本明細書に組み込まれる米国特許出願公開第2010/0105049号に記載されている。一部の実施形態では、胎仔フラクションを、染色体Yアッセイに従って決定できる。染色体Yアッセイに従って胎仔フラクションを決定する方法は、本明細書において、およびLo YMら(1998年) Am J Hum Genet 62巻:768〜775頁に記載されている。
一部の実施形態では、同一方法論を使用してコピー数の変動領域についてのフラクションおよび少量の核酸についてのフラクションを決定する。例えば、コピー数の変動領域についてのフラクションおよび少量の核酸のフラクションを、配列決定に基づくフラクション推定に従って各々決定できる。一部の実施形態では、コピー数の変動領域についてのフラクションおよび少量の核酸のフラクションを、種々の方法論を使用して決定する。例えば、コピー数の変動領域についてのフラクションを多型配列の対立遺伝子の比に従って決定でき、少量の核酸のフラクションを種々のエピジェネティックバイオマーカーに従って決定できる。
一部の実施形態では、コピー数の変動領域についての胎仔フラクションおよび核酸試料についての胎仔フラクションを、同一方法論を使用して決定する。例えば、コピー数の変動領域についての胎仔フラクションおよび核酸試料についての胎仔フラクションを、配列決定に基づく胎仔フラクション推定に従って各々決定できる。一部の実施形態では、コピー数の変動領域についての胎仔フラクションおよび核酸試料についての胎仔フラクションを、異なる方法論を使用して決定する。例えば、コピー数の変動領域についての胎仔フラクションを多型配列の対立遺伝子の比に従って決定でき、核酸試料の胎仔フラクションを、染色体Yアッセイに従って決定できる。
一部の実施形態では、コピー数の変動(例えば、コピー数の変動領域)についてのフラクションを、染色体またはその一部について決定する。染色体またはその一部について決定されたコピー数の変動についてのフラクションとは、染色体またはその一部に由来する、またはそれと関連する情報(例えば、配列情報、配列読取り定量化、多型配列、メチル化可変配列)に基づく核酸種の定量化を指す。一部の実施形態では、コピー数の変動(例えば、コピー数の変動領域)についてのフラクションを第13染色体、第18染色体または第21染色体について決定する。一部の実施形態では、少量の核酸のフラクションを、コピー数の変動についてのフラクションを決定するために使用された染色体またはその一部とは異なる染色体またはその一部について決定する。一部の実施形態では、少量の核酸のフラクションを、複数の染色体または染色体の複数の部分について決定する。一部の実施形態では、少量の核酸のフラクションを、複数の常染色体または常染色体の複数の部分について決定する。一部の実施形態では、少量の核酸のフラクションを、複数の領域(例えば、ゲノム領域)について決定する。一部の実施形態では、少量の核酸のフラクションを、ゲノムワイドの複数の領域(例えば、ゲノム領域)について決定する。
一部の実施形態では、コピー数の変動(例えば、コピー数の変動領域)についての胎児フラクションを、染色体またはその一部について決定する。染色体またはその一部について決定されたコピー数の変動についての胎児フラクションとは、染色体またはその一部に由来する、またはそれと関連する情報(例えば、配列情報、配列読取り定量化、多型配列、メチル化可変配列)に基づく胎児核酸の定量化を指す。一部の実施形態では、コピー数の変動(例えば、コピー数の変動領域)についての胎児フラクションを第13染色体、第18染色体または第21染色体について決定する。一部の実施形態では、試料核酸の胎児フラクションを、コピー数の変動についての胎児フラクションを決定するために使用された染色体またはその一部とは異なる染色体またはその一部について決定する。一部の実施形態では、試料核酸の胎児フラクションを、複数の染色体または染色体の複数の部分について決定する。一部の実施形態では、試料核酸の胎児フラクションを、複数の常染色体または常染色体の複数の部分について決定する。一部の実施形態では、試料核酸の胎児フラクションを、複数の領域(例えば、ゲノム領域)について決定する。一部の実施形態では、試料核酸の胎児フラクションを、ゲノムワイドの複数の領域(例えば、ゲノム領域)について決定する。
一部の実施形態では、本明細書における方法は、コピー数の変動についてのフラクションを、少量の核酸のフラクションと比較することを含む。一部の実施形態では、コピー数の変動についてのフラクションを、少量の核酸のフラクションと比較することは、比を作成することを含む。例えば、比は、少量の核酸のフラクションによって除されたコピー数の変動についてのフラクションでありうる。
一部の実施形態では、本明細書における方法は、コピー数の変動についての胎児フラクションを、試料核酸の胎児フラクションと比較することを含む。一部の実施形態では、コピー数の変動についての胎児フラクションを、試料核酸の胎児フラクションと比較することは、比を作成することを含む。例えば、比は、試料核酸の胎児フラクションによって除されたコピー数の変動についての胎児フラクションでありうる。
一部の実施形態では、本明細書における方法は、コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類することを含む。コピー数の変動領域についての遺伝子モザイク症の存在または非存在を、比較に従って分類できる。例えば、コピー数の変動領域についての遺伝子モザイク症の存在または非存在を、コピー数の変動についてのフラクションおよび少量の核酸のフラクションの比較に従って分類できる。一部の実施形態では、コピー数の変動領域についての遺伝子モザイク症の存在または非存在を、コピー数の変動についての胎仔フラクションおよび試料核酸についての胎仔フラクションの比較に従って分類できる。コピー数の変動領域についての遺伝子モザイク症の存在または非存在を、比に従って分類できる。例えば、コピー数の変動領域についての遺伝子モザイク症の存在または非存在を、コピー数の変動についてのフラクションの、少量の核酸のフラクションに対する比(例えば、少量の核酸のフラクションによって除された、コピー数の変動についてのフラクション)に従って分類できる。一部の実施形態では、コピー数の変動領域についての遺伝子モザイク症の存在または非存在を、コピー数の変動についての胎仔フラクションの、試料核酸についての胎仔フラクションの比(例えば、試料核酸についての胎仔フラクションによって除されたコピー数の変動についての胎仔フラクション)に従って分類できる。
一部の実施形態では、コピー数の変動領域について遺伝子モザイク症の存在が分類される。コピー数の変動領域についての遺伝子モザイク症の存在の分類を、モザイクコピー数の変動、影響を受けた胎仔、影響を受けていない胎仔、部分的に影響を受けた胎仔、胎仔コピー数の変動、部分的な胎仔コピー数の変動、部分的なコピー数の変動、胎盤コピー数の変動、部分的な胎盤コピー数の変動、不完全なコピー数の変動、胎盤モザイク症、限局胎盤モザイク症(CPM)等として解釈できる。
一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が1未満である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類される。例えば、少量の核酸のフラクションに対するコピー数の変動のフラクションの比の値が、約0.1〜約0.9または約0.1〜約0.8または約0.1〜約0.7または約0.1〜約0.6または約0.2〜約0.9または約0.2〜約0.8または約0.2〜約0.7または約0.2〜約0.6の間である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類されうる。ある特定の実施形態では、少量の核酸のフラクションに対するコピー数の変動のフラクションの比の値が約0.2〜約0.7の間である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類される。例えば、少量の核酸のフラクションに対するコピー数の変動のフラクションの比の値が約0.2、0.3、0.4、0.5、0.6または0.7である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類されうる。本明細書で使用する場合、用語「実質的に」、「およそ」および「約」は(本明細書において別に定義されない限り)、当業者によって理解されるように、指定されるものの大部分であるが必ずしも全体的ではない(指定されるもの全体的を含む)と定義される。任意の開示された実施形態では、用語「実質的に」、「およそ」または「約」は、百分率が、0.1、1、5および10パーセントを含む場合には、指定されるもの「の[百分率]内」と置換されてもよい。
一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が、1未満の値の範囲内である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類される。例えば、試料核酸の胎児フラクションに対するコピー数の変動について胎児フラクションの比の値が約0.1〜約0.9、または約0.1〜約0.8、または約0.1〜約0.7、または約0.1〜約0.6、または約0.2〜約0.9、または約0.2〜約0.8、または約0.2〜約0.7、または約0.2〜約0.6である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類されうる。一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約0.2〜約0.7の間である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類される。例えば、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約 0.2、0.3、0.4、0.5、0.6または0.7ある場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類されうる。
一部の実施形態では、コピー数の変動領域について遺伝子モザイク症の不在が分類される。コピー数の変動領域について遺伝子モザイク症の不在の分類を、標準陽性結果(例えば、胎仔コピー数の変動についての陽性結果)、影響を受けた胎仔、胎仔コピー数の変動、全コピー数の変動、真のコピー数の変動、完全コピー数の変動等として解釈できる。
一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が、0.6より大きい場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。例えば、少量の核酸のフラクションに対するコピー数の変動についてフラクションの比の値が約0.7〜約1.5または約0.7〜約1.3または約0.7〜約1.1または約0.8〜約1.1または約0.8〜約1.0または約0.8〜約0.9の間である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類されうる。一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が約0.71〜約1.3の間である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。例えば、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が約0.71、0.8、0.9、1.0、1.1、1.2または1.3である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類されうる。その他の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が、0.7より大きい場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。
一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が、0.6より大きい場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。例えば、試料核酸の胎児フラクションに対するコピー数の変動について胎児フラクションの比の値が約0.7〜約1.5または約0.7〜約1.3または約0.7〜約1.1または約0.8〜約1.1または約0.8〜約1.0または約0.8〜約0.9の間である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類されうる。一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約0.71〜約1.3の間である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。例えば、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約0.71、0.8、0.9、1.0、1.1、1.2または1.3である場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類されうる。その他の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が、0.7より大きい場合に、コピー数の変動領域について遺伝子モザイク症の不在が分類される。
一部の実施形態では、分類なしを提供する。例えば、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値がある特定の閾値未満である場合に、分類なし(例えば、コールなし、臨床的関連なし)を提供できる。一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が約0.3またはそれ未満である場合に、分類なしを提供する。一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が約0.2またはそれ未満である場合に、分類なしを提供する。一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が約0.1またはそれ未満である場合に、分類なしを提供する。
一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が、ある特定の閾値を上回る場合に、分類なしを提供する。例えば、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が、約0.9、1.0、1.1、1.2または1.3またはそれより大きい場合に、分類なしが提供されうる。一部の実施形態では、少量の核酸のフラクションに対するコピー数の変動についてのフラクションの比の値が、約1.3またはそれより大きい場合に、分類なしが提供される。ある特定の閾値を上回る値(例えば、1.3を上回る)は、多量の核酸中に存在するコピー数の変動(例えば、母体コピー数の変動)を示しうる。
一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値がある特定の閾値未満である場合に、分類なし(例えば、コールなし、臨床的関連なし)を提供できる。一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約0.3またはそれ未満である場合に、分類なしを提供する。一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約0.2またはそれ未満である場合に、分類なしを提供する。一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が約0.1またはそれ未満である場合に、分類なしを提供する。
一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が、ある特定の閾値を上回る場合に、分類なしを提供する。例えば、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が、約0.9、1.0、1.1、1.2または1.3またはそれより大きい場合に、分類なしが提供されうる。一部の実施形態では、試料核酸の胎児フラクションに対するコピー数の変動についての胎児フラクションの比の値が、約1.3またはそれより大きい場合に、分類なしが提供される。
図2は、種々の実施形態に従う、生体試料についての遺伝子モザイク症の存在または非存在を分類するためのプロセス200を例示する。配列の読取りのセットを提供する205。配列の読取りは、試験対象(例えば、妊娠中の雌の対象)に由来する試験試料から得られた循環型無細胞試料核酸から得ることができる。循環型無細胞核酸は、母体核酸および胎仔核酸を含みうる。循環型無細胞試料核酸は、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉できる。配列の読取りのセットから循環型細胞核酸における遺伝子コピー数の変動領域を同定する210。試料核酸中のコピー数の変動を有する循環型無細胞核酸のフラクションを決定する215。フラクションは、コピー数の変動領域について決定された胎仔フラクションでありうる。循環型無細胞試料核酸中の胎仔核酸のフラクションを決定する220。コピー数の変動を有する循環型無細胞核酸のフラクションを、胎仔核酸のフラクションに対して比較して225、比較を提供し、コピー数の変動を有する循環型無細胞核酸のフラクションの、胎仔核酸のフラクションに対するモザイク症比を作成する。比較およびモザイク症比に従って、コピー数の変動領域についての遺伝子モザイク症の存在または非存在を分類する230。
図3は、生体試料についての遺伝子モザイク症の存在または非存在を分類し、種々の実施形態に一致する臨床解釈および/または診断フォローアップ情報を提供するプロセス300を例示する。配列の読取りのセットを提供し、配列の読取りのセットから遺伝子状態についてのスクリーニング検査(例えば、NIPT)を得る305。配列の読取りは、試験対象(例えば、妊娠中の雌の対象)に由来する得た試験試料から得られた循環型無細胞試料核酸から得ることができる。循環型無細胞核酸は、母体核酸および胎仔核酸を含みうる。循環型無細胞試料核酸は、ハイブリダイゼーション条件下でプローブオリゴヌクレオチドによって捕捉できる。種々の実施形態では、スクリーニングされる遺伝子状態は、コピー数の変動などの1つまたは複数の異数性の存在を含む。zスコアに基づいて配列の読取りのセットから循環型無細胞核酸において1つまたは複数の異数性の存在(陽性としてフラグが付けられた)または不在(陰性としてフラグが付けられた)を同定できる310または315。1つまたは複数の異数性の不在(陰性としてフラグが付けられた)が同定される場合には、さらなる試験を実施しなくてもよく320、または診断試験を実施してもよい325。1つまたは複数の異数性の存在(陽性としてフラグが付けられた)が同定される場合には、モザイク症比は、図2に関して記載されており、モザイク症比の値を使用して、遺伝子モザイク症の存在または非存在を分類し、NIPT結果の増強された解釈を提供する。モザイク症比を使用して、モザイク症(例えば、CPM)のために不調和な陽性結果のより高い機会を有する患者を同定できる。
モザイク症比の値が約0.2〜約0.7の間である場合にコピー数の変動領域について遺伝子モザイク症の存在が分類されうる330。モザイク症比の値が0.7より大きい場合にコピー数の変動領域について遺伝子モザイク症の不在が分類されうる335。さらに、モザイク症比の値が約1.3より大きい、または約0.2未満である場合にコピー数の変動領域について分類なしが提供されうる340/345。分類なしが提供され、モザイク症比の値が約1.3より大きい場合には、陽性NIPT結果は、過剰または不確定の可能性があると解釈されてもよく350、遺伝カウンセラーと医師の間のコンセンサス決定に応じて羊水穿刺、CVS、母体検査および/またはその他の検査を含む診断フォローアップ355が推奨されうる。分類なしが提供され、モザイク症比の値が約0.2未満である場合には、陽性NIPT結果は、陰性結果または1つまたは複数の異数性の不在と解釈されてもよく360、診断フォローアップ365は、求められないこともある。遺伝子モザイク症の存在が分類される(例えば、モザイク症比が約0.2〜約0.7である)場合には、陽性NIPT結果は、モザイクコメント(例えば、モザイク提示の可能性があるという理解)を有する陽性と解釈されてもよく370、遺伝カウンセラーと医師の間のコンセンサス決定に応じて羊水穿刺および/またはCVSを含む診断フォローアップ375が推奨されうる。遺伝子モザイク症の不在が分類される(例えば、モザイク症比が、約0.7よりも大きいが約1.3未満である)場合には、陽性NIPT結果は、陽性と解釈されてもよく380、確認のために羊水穿刺および/またはCVSを含む診断フォローアップ385が推奨されうる。
試料
本明細書では、核酸を分析するためのシステム、方法および製品を提供する。一部の実施形態では、核酸断片の混合物中の核酸断片を分析する。核酸断片は、核酸鋳型と呼ばれることもあり、この用語は本明細書において交換可能に使用されうる。核酸の混合物は、同じまたは異なるヌクレオチド配列、異なる断片長、異なる起源(例えば、ゲノム起源、胎仔起源対母体起源、細胞起源もしくは組織起源、がん対非がん起源、腫瘍対非腫瘍起源、試料起源、被験体起源等)、またはそれらの組合せを有する2つまたはそれ超の核酸断片種を含むことができる。
しばしば、本明細書に記載するシステム、方法および製品において利用する核酸または核酸混合物を、対象(例えば、試験対象)から得られた試料から単離する。対象は、これらに限定されないが、ヒト、非ヒト動物、植物、細菌、真菌、原生生物または病原体を含めた、任意の生きているまたは生きていない生物であり得る。任意のヒトまたは非ヒト動物を選択することができ、例えば、哺乳動物、爬虫類、トリ、両生類、魚、有蹄動物、反芻動物、ウシ科(例えば、ウシ)、ウマ科(例えば、ウマ)、ヤギ(caprine)およびヒツジ(ovine)(例えば、ヒツジ、ヤギ)、ブタ(swine)(例えば、ブタ)、ラクダ科(例えば、ラクダ、ラマ、アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、クマ)、家禽、イヌ、ネコ、マウス、ラット、魚、イルカ、クジラおよびサメが挙げられ得る。対象は、雄または雌(例えば、女性、妊婦)であり得る。対象は、任意の年齢(例えば、胚、胎仔、乳仔、小児、成体)であり得る。対象は、がん患者、がんを有すると疑われる患者、緩解中の患者、がんの家族歴を有する患者および/またはがん検診を受けている対象でありうる。一部の実施形態では、検査対象は、雌である。一部の実施形態では、検査対象は、ヒト女性である。一部の実施形態では、検査対象は雄である。一部の実施形態では、検査対象は、ヒト男性である。
核酸を、任意のタイプの適切な生物学的検体または試料(例えば、試験試料)から単離することができる。試料または試験試料は、対象またはそのパート(例えば、ヒト対象、妊娠中の雌、がん患者、胎仔、腫瘍)から単離されるまたは得られる任意の検体であり得る。試料は、時には、妊娠の任意の段階(例えば、ヒト対象の第一期、第二期または第三期)の胎仔を有する妊娠中の雌の対象に由来し、時には、出生後対象に由来する。試料は、時には、すべての染色体について正倍数体である胎仔を有する妊娠中の対象に由来し、時には、染色体異数性(例えば、1、3(すなわち、トリソミー(例えば、T21、T18、T13))または4コピーの染色体)またはその他の遺伝子の変動を有する胎仔を有する妊娠中の対象に由来する。検体の非限定的な例として、対象から得られた体液または組織が挙げられ、これらには、非限定的に、血液または血液生成物(例えば、血清、血漿等)、臍帯血、絨毛膜絨毛、羊水、脳脊髄液、脊髄液、洗浄した液(例えば、気管支肺胞、胃、腹腔、管、耳、関節鏡検査に由来するもの)、生検試料(例えば、着床前胚生検試料から得られた試料、がん生検)、腹腔穿刺試料、細胞(血液細胞、胎盤細胞、胚もしくは胎性細胞、胎性有核細胞もしくは胎性細胞残余物、正常細胞、異常細胞(例えば、がん細胞))またはそれらのパート(例えば、ミトコンドリア、核、抽出物等)、雌の生殖器系の洗浄物、尿、糞便、痰、唾液、鼻粘液、前立腺液、洗浄液、精液、リンパ液、胆汁、涙、汗、乳汁、乳房液等、あるいはそれらの組合せが含まれる。一部の実施形態では、生物学的試料は、対象から得られた子宮頚部スワブである。核酸が抽出される体液または組織試料は、細胞を伴わない場合がある(例えば、無細胞)。一部の実施形態では、体液または組織試料は、細胞要素または細胞残余物を含有する場合がある。一部の実施形態では、胎性細胞またはがん性細胞を、試料中に含む場合がある。
試料は、液体試料でありうる。液体試料は、細胞外核酸(例えば、循環型無細胞DNA)を含みうる。液体試料の限定されない例として、血液または血液生成物(例えば、血清、血漿など)、尿、生検試料(例えば、がんの検出のための液体生検)、上記の液体試料などまたはそれらの組合せが挙げられる。ある特定の実施形態では、試料は、一般に、疾患(例えば、がん)の存在、不在、進行または緩解についての対象に由来する液体試料の評価を指す液体生検である。液体生検は、固体生検(例えば、腫瘍生検)とともに、またはその代替物として使用できる。特定の事例では、細胞外核酸は、液体生検中で分析される。
一部の実施形態では、生物学的試料は、血液であり得、血漿または血清であり得る。用語「血液」は、全血、血液生成物または血液の任意の画分、例として、従来の定義に従う血清、血漿、バフィーコート等を包含する。血液またはその画分はしばしば、ヌクレオソームを含む。ヌクレオソームは、核酸を含み、時には、無細胞または細胞内ヌクレオソームである。血液はまた、バフィーコートも含む。バフィーコートを時には、フィコール勾配を利用することによって単離する。バフィーコートは、白血球細胞(例えば、白血球、T細胞、B細胞、血小板等)を含むことができる。血漿は、抗凝固剤で処理した血液の遠心分離の結果得られた、全血の画分を指す。血清は、血液試料が凝固した後に残存する水性の液体部分を指す。体液または組織試料をしばしば、病院または外来が一般に従う標準的なプロトコールに従って収集する。血液の場合、抹消血の適切な量(例えば、3〜40ミリリットル、5〜50ミリリットル)をしばしば収集し、調製する前または調製した後に標準的な手順に従って保存することができる。
対象の血液中に見られる核酸の分析を、例えば、全血、血清または血漿を使用して実施できる。例えば、母体血液中に見られる胎仔DNAの分析は、例えば、全血、血清または血漿を使用して実施できる。例えば、患者の血液中に見られる腫瘍DNAの分析は、例えば、全血、血清または血漿を使用して実施できる。対象(例えば、母体対象、がん患者)に由来する血液から血清または血漿を調製する方法は公知である。例えば、対象の血液(例えば、妊婦の血液;がん患者の血液)を、Vacutainer SST(Becton Dickinson、Franklin Lakes、N.J.)等の、EDTAまたは特殊な市販製品を含有するチューブ中に入れて、血液凝固を阻止することができ、次いで、血漿を、全血から遠心分離により得ることができる。血清は、血液凝固後の遠心分離の有無にかかわらず得ることができる。遠心分離を使用する場合には、典型的には、適切なスピード、例えば、1,500〜3,000回gで実施するが、必ずしもそうではない。血漿または血清を、核酸抽出のための新しいチューブに移す前に、追加の遠心分離のステップに付してもよい。全血の、細胞を伴わない部分に加えて、また、核酸も、細胞画分から回収し、バフィーコート部分中で濃縮することができ、このバフィーコート部分は、対象から得られた全血試料を遠心分離し、血漿を除去して得ることができる。
試料は、不均一でありうる。例えば、試料は、1種より多い細胞型および/または1種または複数の核酸種を含みうる。一部の場合では、試料は、(i)胎性細胞および母体細胞、(ii)がん性細胞および非がん性細胞ならびに/または(iii)病原性細胞および宿主細胞を含みうる。一部の場合では、試料は、(i)がん性の核酸および非がん性の核酸、(ii)病原体の核酸および宿主の核酸、(iii)胎仔由来および母体由来核酸ならびに/またはより一般には、(iv)突然変異した核酸および野生型の核酸を含みうる。一部の場合では、試料は、以下にさらに詳細に記載されるように、少量の核酸種および多量の核酸種を含みうる。一部の場合では、試料は、単一対象に由来する細胞および/もしくは核酸を含みうるか、または複数の対象に由来する細胞および/もしくは核酸を含みうる。
細胞型
本明細書で使用する場合、「細胞型」とは、別の種類の細胞と区別できる細胞の種類を指す。細胞外核酸は、いくつかの異なる細胞型に由来する核酸を含みうる。核酸を循環型無細胞核酸に寄与しうる細胞型の限定されない例として、肝臓細胞(例えば、肝細胞)、肺細胞、脾臓細胞、膵臓細胞、結腸細胞、皮膚細胞、膀胱細胞、眼細胞、脳細胞、食道細胞、頭部の細胞、頸部の細胞、卵巣の細胞、精巣の細胞、前立腺細胞、胎盤細胞、上皮細胞、内皮細胞、脂肪細胞、腎臓/腎細胞、心臓細胞、筋肉細胞、血液細胞(例えば、白血球)、中枢神経系(CNS)細胞等および上記の組合せが挙げられる。一部の実施形態では、核酸を分析される循環型無細胞核酸に寄与する細胞型として、白血球、内皮細胞および肝細胞肝臓細胞が挙げられる。以下にさらに詳細に記載されるように、医学的状態を有する対象における細胞型について、および医学的状態を有さない対象における細胞型について、マーカー状態が同一または実質的に同一である核酸遺伝子座を同定および選択することの一部として、異なる細胞型をスクリーニングできる。
特定の細胞型は、時には、医学的状態を有する対象において、および医学的状態を有さない対象において同一または実質的に同一のままである。限定されない例では、細胞変性状態において、特定の細胞型の生細胞または生存細胞数が低減されることがあり、医学的状態を有する対象では、生細胞、生存細胞は修飾されない、または大幅に修飾されない。
特定の細胞型は、時には、医学的状態の一部として修飾され、1種または複数の、その元の状態においてとは異なる特性を有する。限定されない例では、特定の細胞型は、正常速度より速く増殖することがあり、異なる形態学を有する細胞に形質転換しうる、1種または複数の異なる細胞表面マーカーを発現する細胞に形質転換しうる、および/またはがん状態の一部として腫瘍の一部になりうる。特定の細胞型(すなわち、前駆体細胞)が、医学的状態の一部として修飾される実施形態では、アッセイされる1種または複数のマーカーの各々のマーカー状態は、医学的状態を有する対象における特定の細胞型について、および医学的状態を有さない対象における特定の細胞型について同一または実質的に同一であることが多い。したがって、用語「細胞型」は、時には、医学的状態を有さない対象における細胞の種類に、医学的状態を有する対象における細胞の修飾版に関係する。一部の実施形態では、「細胞型」とは、前駆体細胞のみであり、前駆体細胞から生じる修飾版ではない。「細胞型」は、時には、前駆体細胞および前駆体細胞から生じる修飾された細胞に関する。このような実施形態では、分析されるマーカーのマーカー状態は、医学的状態を有する対象における細胞型について、および医学的状態を有さない対象における細胞型について同一または実質的に同一であることが多い。
ある特定の実施形態では、細胞型は、がん細胞である。ある特定のがん細胞型として、例えば、白血病細胞(例えば、急性骨髄性白血病、急性リンパ性白血病、慢性骨髄性白血病、慢性リンパ性白血病);がん性腎臓/腎細胞(例えば、腎細胞がん(明細胞、1型乳頭状、2型乳頭状、嫌色素性、オンコサイト様、集合管)、腎腺癌、グラヴィッツ腫瘍、ウィルムス腫瘍、移行上皮癌腫);脳腫瘍細胞(例えば、聴神経腫瘍、星状細胞腫(グレードI:毛様細胞性星状細胞腫、グレードII:低悪性度星状細胞腫、グレードIII:未分化星状細胞腫、グレードIV:神経膠芽腫(GBM))、脊索腫、cnsリンパ腫、頭蓋咽頭腫、神経膠腫(脳幹神経膠腫、上衣腫、混合膠腫、聴神経神経膠腫、上衣下腫)、髄芽腫、髄膜腫、転移性脳腫瘍、乏突起神経膠腫、下垂体腫瘍、原始神経外胚葉性(PNET)、シュワン腫、若年性毛様細胞性星状細胞腫(JPA)、松果体腫瘍、ラブドイド腫瘍)が挙げられる。
種々の細胞型を、制限するものではないが、1種または複数の異なる細胞表面マーカー、1種または複数の異なる形態学的特徴、1種または複数の異なる機能、1種または複数の異なるタンパク質(例えば、ヒストン)修飾および1種または複数の異なる核酸マーカーを含む任意の適した特徴によって区別できる。核酸マーカーの限定されない例として、単一ヌクレオチド多型(SNP)、核酸遺伝子座のメチル化状態、ショートタンデムリピート、挿入(例えば、微小挿入)、欠失(微小欠失)などおよびそれらの組合せが挙げられる。タンパク質(例えば、ヒストン)修飾の限定されない例として、アセチル化、メチル化、ユビキチン化、リン酸化、SUMO化等およびそれらの組合せが挙げられる。
本明細書で使用する場合、用語「関連細胞型」とは、別の細胞型と共通して複数の特徴を有する細胞型を指す。関連細胞型では、75%またはそれを超える細胞表面マーカーは、時には、細胞型に共通する(例えば、約80%、85%、90%または95%またはそれを超える細胞表面マーカーが関連細胞型に共通する)。
核酸
核酸を解析する方法が本明細書において提供される。用語「核酸」、「核酸分子」「核酸断片」および「核酸鋳型」を、本開示全体を通して交換可能に使用することができる。これらの用語は、DNA(例えば、相補的DNA(cDNA)、ゲノムDNA(gDNA)等)、RNA(例えば、メッセンジャーRNA(mRNA)、低分子干渉RNA(siRNA)、リボゾームRNA(rRNA)、tRNA、マイクロRNA、胎仔または胎盤が高度に発現するRNA等)、ならびに/またはDNAもしくはRNAのアナログ(例えば、塩基のアナログ、糖のアナログおよび/もしくは外から加えた骨格等を含有するもの)、RNA/DNAのハイブリッドおよびポリアミド核酸(PNA)等に由来する任意の組成の核酸を指し、これらは全て、一本鎖または二本鎖の形態であり得、別段の限定的がない限り、天然に存在するヌクレオチドに類似する様式で機能することができる天然ヌクレオチドの公知のアナログを包含することができる。特定の実施形態では、核酸は、プラスミド、ファージ、ウイルス、細菌、自律複製性配列(ARS)、ミトコンドリア、セントロメア、人工染色体、染色体、あるいはin vitroで、または宿主細胞、細胞、細胞核もしくは細胞の細胞質中で、複製し得るまたは複製され得るその他の核酸であってもよく、あるいはそれらに由来してもよい。鋳型核酸は、一部の実施形態では、単一の染色体に由来し得る(例えば、核酸試料は、二倍体生物から得られた試料の1つの染色体に由来し得る)。特段の限定がない限り、この用語は、参照核酸に類似する結合特性を有し、天然に存在するヌクレオチドに類似する様式で代謝される天然ヌクレオチドの公知のアナログを含有する核酸を包含する。別段の記載がない限り、特定の核酸配列は、明確に示す配列のみならず、また、その保存的改変バリアント(例えば、縮重コドン置換体)、対立遺伝子、オルソログ、一塩基多型(SNP)および相補配列も暗に包含する。具体的には、1つまたは複数の選択された(または全ての)コドンの第3の位置が、混合性塩基の残基および/またはデオキシイノシン残基で置換されている配列を生成することによって、縮重コドン置換体を得ることができる。核酸という用語は、座位、遺伝子、cDNA、および遺伝子がコードするmRNAと交換可能に使用する。この用語はまた、均等物として、ヌクレオチドのアナログから合成されたRNAまたはDNAの誘導体、バリアントおよびアナログ、一本鎖(「センス」鎖または「アンチセンス」鎖、「プラス」鎖または「マイナス」鎖、「フォワード」リーディングフレームまたは「リバース」リーディングフレーム)、および二本鎖ポリヌクレオチドも含むことができる。用語「遺伝子」は、ポリペプチド鎖の生成に関わるDNAの区画を指し、概して、遺伝子産物の転写/翻訳および転写/翻訳の調節に関わる、コード領域に先行する領域およびコード領域に続く領域(リーダーおよびトレーラー)、ならびに個々のコード領域(エクソン)間の介在配列(イントロン)を含む。ヌクレオチドまたは塩基とは一般に、核酸のプリンおよびピリミジン分子単位(例えば、アデニン(A)、チミン(T)、グアニン(G)およびシトシン(C))を指す。RNAについて、塩基チミンは、ウラシルで置換される。核酸の長さまたはサイズは、塩基数として表されうる。
核酸は、一本鎖であっても、または二本鎖であってもよい。例えば、二本鎖DNAを、例えば、加熱またはアルカリを用いる処理により変性させることによって、一本鎖DNAを生成することができる。特定の実施形態では、核酸は、二重鎖DNA分子の鎖へオリゴヌクレオチドを侵入させることによって形成されるD−ループ構造をとるか、またはDNA様分子、例として、ペプチド核酸(PNA)である。Dループの形成は、E.Coli RecAタンパク質を添加すること、および/または塩濃度を、例えば、当技術分野で公知の方法を使用して変化させることによって促進することができる。
本明細書において記載されるプロセスのために提供される核酸は、1つの試料に由来する、または2つもしくはそれより多い試料(例えば、1つもしくはそれより多い、2つもしくはそれより多い、3つもしくはそれより多い、4つもしくはそれより多い、5つもしくはそれより多い、6つもしくはそれより多い、7つもしくはそれより多い、8つもしくはそれより多い、9つもしくはそれより多い、10もしくはそれより多い、11もしくはそれより多い、12もしくはそれより多い、13もしくはそれより多い、14もしくはそれより多い、15もしくはそれより多い、16もしくはそれより多い、17もしくはそれより多い、18もしくはそれより多い、19もしくはそれより多いまたは20もしくはそれより多い試料)に由来する核酸を含有しうる。
核酸を、1つまたは複数の供給源(例えば、生物学的試料、血液細胞、血清、血漿、バフィーコート、尿、リンパ液、皮膚、土壌等)から、当技術分野で公知の方法により得ることができる。任意の適切な方法を使用して、生物学的試料(例えば、血液または血液生成物)からのDNAの単離、抽出および/または精製を行うことができ、それらの非限定的な例として、DNAの調製の方法(例えば、SambrookおよびRussell、Molecular Cloning:A Laboratory Manual第3版2001年による記載)、種々の市販されている試薬またはキット、例として、QiagenのQIAamp Circulating Nucleic Acid Kit、QiaAmp DNA Mini Kit、またはQiaAmp DNA Blood Mini Kit(Qiagen、Hilden、ドイツ)、GenomicPrep(商標)Blood DNA Isolation Kit(Promega、Madison、Wis.)、およびGFX(商標)Genomic Blood DNA Purification Kit(Amersham、Piscataway、N.J.)等、またはそれらの組合せが挙げられる。
一部の実施形態では、細胞溶解の手順を使用して細胞から核酸を抽出する。細胞溶解の手順および試薬は、当技術分野で公知であり、一般に、化学的方法(例えば、洗剤、低張溶液、酵素による手順等、もしくはそれらの組合せ)、物理的方法(例えば、フレンチプレス、超音波処理等)、または電解質による溶解方法により行うことができる。任意の適切な溶解手順を利用することができる。例えば、化学的方法は一般に、溶解剤を利用して、細胞を破壊し、細胞から核酸を抽出し、続いて、カオトロピック塩を用いて処理する。物理的方法、例として、凍結/解凍、それに続く、粉砕;細胞プレスの使用等もまた有用である。一部の場合では、高塩および/またはアルカリ溶解の手順を利用してもよい。
特定の実施形態では、核酸は、細胞外核酸を含むことができる。用語「細胞外核酸」は、本明細書で使用する場合、実質的に細胞を有さない供給源から単離された核酸を指すことができ、また、「無細胞」核酸、「循環無細胞核酸」(例えば、CCF断片、ccf DNA)および/または「無細胞循環核酸」とも呼ぶ。細胞外核酸は、血液(例えば、ヒト対象の血液)中に存在し、そこから得ることができる。細胞外核酸はしばしば、検出可能な細胞を含まず、細胞要素または細胞残余物を含有する場合がある。細胞外核酸を得るための、細胞を伴わない供給源の非限定的な例が、血液、血漿、血清および尿である。本明細書で使用する場合、用語「無細胞循環型試料核酸を得る」は、試料を直接得ること(例えば、試料、例えば、試験試料を収集すること)、または試料を収集した他者から試料を得ることを含む。理論により制限されることなく、細胞外核酸は、細胞アポトーシスおよび細胞分解の産物であり得、これらは、スペクトル(例えば、「ラダー」)にわたる一連の長さをしばしば有する細胞外核酸の基になる。一部の実施形態では、試験対象に由来する試料核酸は、循環型無細胞核酸である。一部の実施形態では、循環型無細胞核酸は、試験対象に由来する血漿または血清に由来する。
特定の実施形態では、細胞外核酸は、異なる核酸種を含むことができ、したがって、本明細書では、「不均一である」と呼ばれる。例えば、がんを有する人から得られた血清または血漿は、がん性細胞(例えば、腫瘍、新生物)に由来する核酸および非がん性細胞に由来する核酸を含む場合がある。別の例では、妊娠中の雌から得られた血清または血漿は、母体核酸および胎仔核酸を含む場合がある。一部の事例では、がんまたは胎仔核酸は時には、核酸全体の約5%〜約50%である(例えば、全ての核酸の約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48または49%が、がんまたは胎仔核酸である)。
少なくとも2種の異なる核酸種が、細胞外核酸中に異なる量で存在することがあり、時には、少量種および多量種と呼ばれる。特定の事例では、核酸の少量種は、影響を受けた細胞種(例えば、がん細胞、消耗細胞、免疫系による攻撃を受けた細胞)に由来する。特定の事例では、核酸の少量種は、アポトーシス細胞(例えば、アポトーシス胎盤細胞に由来する循環型無細胞胎仔核酸)に由来する。ある特定の実施形態では、少量の核酸種について、遺伝子の変動または遺伝子の変更(例えば、コピー数の変更、コピー数の変動、単一ヌクレオチドの変更、単一ヌクレオチド変動、染色体変更および/または転位)を決定する。ある特定の実施形態では、多量の核酸種について、遺伝子の変動または遺伝子の変更を決定する。一般に、用語「少量」または「多量」は、いずれの点においても強固に定義されることは意図されない。一態様では、「少量」と考えられる核酸は、例えば、試料中の総核酸の少なくとも約0.1%〜試料中の総核酸の50%未満の量を有しうる。一部の実施形態では、少量の核酸は、試料中の総核酸の少なくとも約1%〜試料中の総核酸の約40%の量を有しうる。一部の実施形態では、少量の核酸は、試料中の総核酸の少なくとも約2%〜試料中の総核酸の約30%の量を有しうる。一部の実施形態では、少量の核酸は、試料中の総核酸の少なくとも約3%〜試料中の総核酸の約25%の量を有しうる。例えば、少量の核酸は、試料中の総核酸の約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%または30%の量を有しうる。一部の場合では、細胞外核酸の少量種は、時には、全核酸の約1%〜約40%である(例えば、核酸の約1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%、26%、27%、28%、29%、30%、31%、32%、33%、34%、35%、36%、37%、38%、39%または40%が、少量種核酸である)。一部の実施形態では、少量の核酸は、細胞外DNAである。一部の実施形態では、少量の核酸は、アポトーシス組織に由来する細胞外DNAである。一部の実施形態では、少量の核酸は、細胞増殖障害によって影響を受けた組織に由来する細胞外DNAである。一部の実施形態では、少量の核酸は、腫瘍細胞に由来する細胞外DNAである。一部の実施形態では、少量の核酸は、細胞外胎仔DNAである。
別の態様では、「多量」と考えられる核酸は、例えば、試料中の総核酸の50%超〜試料中の総核酸の約99.9%の量を有しうる。一部の実施形態では、多量の核酸は、試料中の総核酸の少なくとも約60%〜試料中の総核酸の約99%の量を有しうる。一部の実施形態では、多量の核酸は、試料中の総核酸の少なくとも約70%〜試料中の総核酸の約98%の量を有しうる。一部の実施形態では、多量の核酸は、試料中の総核酸の少なくとも約75%〜試料中の総核酸の約97%の量を有しうる。例えば、多量の核酸は、試料中の総核酸の少なくとも約70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%または99%の量を有しうる。一部の実施形態では、多量の核酸は、細胞外DNAである。一部の実施形態では、多量の核酸は、細胞外母体DNAである。一部の実施形態では、多量の核酸は、健常組織に由来するDNAである。一部の実施形態では、多量の核酸は、非腫瘍細胞に由来するDNAである。
一部の実施形態では、細胞外核酸の少量種は、約500塩基対またはそれより少ない長さのものである(例えば、約80、85、90、91、92、93、94、95、96、97、98、99または100%の少量種核酸は、約500塩基対またはそれより少ない長さのものである)。一部の実施形態では、細胞外核酸の少量種は、約300塩基対またはそれより少ない長さのものである(例えば、約80、85、90、91、92、93、94、95、96、97、98、99または100%の少量種核酸は、約300塩基対またはそれより少ない長さのものである)。一部の実施形態では、細胞外核酸の少量種は、約250塩基対またはそれより少ない長さのものである(例えば、約80、85、90、91、92、93、94、95、96、97、98、99または100%の少量種核酸は、約250塩基対またはそれより少ない長さのものである)。一部の実施形態では、細胞外核酸の少量種は、約200塩基対またはそれ未満の長さである(例えば、少量種核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約200塩基対またはそれ未満の長さである)。一部の実施形態では、細胞外核酸の少量種は、約150塩基対またはそれ未満の長さである(例えば、少量種核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約150塩基対またはそれ未満の長さである)。一部の実施形態では、細胞外核酸の少量種は、約100塩基対またはそれ未満の長さである(例えば、少量種核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約100塩基対またはそれ未満の長さである)。一部の実施形態では、細胞外核酸の少量種は、約50塩基対またはそれ未満の長さである(例えば、少量種核酸の約80、85、90、91、92、93、94、95、96、97、98、99、または100%は、約50塩基対またはそれ未満の長さである)。
核酸を含有する試料を処理して、または処理せずに、核酸を提供して、本明細書に記載する方法を実施することができる。一部の実施形態では、核酸を含有する試料を処理してから、核酸を提供して、本明細書に記載する方法を実施する。例えば、核酸を、試料から、抽出し、単離し、精製し、部分的に精製し、または増幅することができる。用語「単離」は、本明細書で使用する場合、核酸をその元々の環境(例えば、天然に存在する場合の天然の環境、または外因性に発現させる場合の宿主細胞)から取り出すことを指し、したがって、ヒトの介入により(例えば、「人の手により」)その元々の環境から離されている点で、核酸は変化している。用語「単離核酸」は、本明細書で使用する場合、対象(例えば、ヒト対象)から取り出された核酸を指すことができる。単離核酸は、供給源の試料中に存在する成分の量よりも少ない非核酸成分(例えば、タンパク質、脂質)を伴って提供され得る。単離核酸を含む組成は、その約50%〜99%超が非核酸成分を含有しない場合がある。単離核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超が非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸を精製手順に付す前に存在した非核酸成分(例えば、タンパク質、脂質、炭水化物)の量よりも少ない非核酸成分を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の非核酸成分を含有しない場合がある。用語「精製」は、本明細書で使用する場合、核酸が由来する試料供給源中よりも少ない核酸種を含有する核酸を提供することを指すことができる。精製核酸を含む組成は、その約90%、91%、92%、93%、94%、95%、96%、97%、98%、99%または99%超がその他の核酸種を含有しない場合がある。例えば、胎仔核酸を、母体核酸および胎仔核酸を含む混合物から精製することができる。ある特定の例では、胎仔核酸の小さい断片(例えば、30〜500bp断片)を、胎仔および母体両方の核酸断片を含む混合物から精製または部分精製することができる。特定の例では、胎仔核酸のより小さな断片を含むヌクレオソームを、母体核酸のより大きな断片を含むより大きなヌクレオソーム複合体の混合物から精製することができる。ある特定の例では、がん細胞核酸を、がん細胞およびがん細胞以外の核酸を含む混合物から精製することができる。ある特定の例では、がん細胞核酸の小さい断片を含むヌクレオソームを、非がん性の核酸のより大きな断片を含むより大きなヌクレオソーム複合体の混合物から精製することができる。一部の実施形態では、核酸を含有する試料(複数可)の事前処理を伴わずに、本明細書において記載される方法を実施するために核酸が提供される。例えば、事前抽出、精製、部分精製および/または増幅を伴わずに、核酸を試料から直接分析できる。
一部の実施形態では、本明細書において記載された方法の前、その間またはその後に、核酸、例えば、細胞核酸などをせん断または切断する。用語「せん断」または「切断」は、一般に、核酸分子、例えば、核酸鋳型遺伝子分子またはその増幅産物が、2つ(またはそれより多い)より小さい核酸分子に切断されうる手順または状態を指す。このようなせん断または切断は、配列特異的、塩基特異的または非特異的であり得、例えば、化学的、酵素的、物理的せん断(例えば、物理的断片化)を含む種々の方法、試薬または条件のいずれかによって達成することができる。せん断または切断した核酸は、約5〜約10,000塩基対、約100〜約1,000塩基対、約100〜約500塩基対、または約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000もしくは9000塩基対の名目上、平均値(average)または平均(mean)の長さを有することができる。
せん断または切断した核酸は、適切な方法により生成することができ、それらの非限定的な例として、物理的方法(例えば、せん断、例えば、超音波処理、フレンチプレス、加熱、UV照射等)、酵素処理(例えば、酵素切断剤(例えば、適切なヌクレアーゼ、適切な制限酵素、適切なメチル化感受性制限酵素))、化学的方法(例えば、アルキル化、DMS、ピペリジン、酸加水分解、塩基加水分解、加熱等、もしくはそれらの組合せ)、米国特許出願公開第2005/0112590号に記載されている処理等、またはそれらの組合せが挙げられる。得られた核酸断片の平均値、平均または名目上の長さを、適切な断片生成方法を選択することによって制御することができる。
用語「増幅」は、本明細書で使用する場合、試料中の標的核酸を、標的核酸またはその部分と同じまたは実質的に同じヌクレオチド配列を有するアンプリコン核酸を線形にまたは指数関数的に生成する処理に付すことを指す。特定の実施形態では、用語「増幅」は、ポリメラーゼ連鎖反応(PCR)を含む方法を指す。ある特定の実施形態では、増幅産物は、核酸鋳型配列の増幅されるヌクレオチド領域よりもヌクレオチドを1つまたは複数多く含有することができる(例えば、プライマーは、核酸鋳型遺伝子分子に相補的なヌクレオチドに加えて、「余分な」ヌクレオチド、例として、転写開始配列を含有することができ、その結果、「余分な」ヌクレオチド、または核酸鋳型遺伝子分子のうちの増幅されるヌクレオチド領域に対応しないヌクレオチドを含有する増幅産物が生じる)。
また、本明細書に記載する方法に核酸を提供する前に、核酸中の特定のヌクレオチドを改変する処理に、核酸を曝露させることができる。例えば、核酸をその中のヌクレオチドのメチル化状況に基づいて選択的に改変する処理を、核酸に適用することができる。加えて、高温、紫外放射線、X放射線等の条件が、核酸分子の配列中に変化を引き起こすことができる。核酸を、適切な配列分析を行うのに有用な任意の形態で提供することができる。
核酸の濃縮
一部の実施形態では、核酸(例えば、細胞外核酸)を、濃縮し、または相対的に濃縮して、核酸の亜集団または種を得る。核酸の亜集団は、例えば、胎仔核酸、母体核酸、がん核酸、親核酸、特定の長さもしくは範囲の長さの断片を含む核酸、または特定のゲノム領域(例えば、単一の染色体、一連の染色体および/もしくは特定の染色体領域)に由来する核酸を含むことができる。そのような濃縮試料は、本明細書に提供する方法と併せて使用することができる。したがって、特定の実施形態では、本技術の方法は、試料中の核酸の亜集団、例えば、がんまたは胎仔核酸等について濃縮する追加のステップを含む。特定の実施形態では、濃縮して、がんまたは胎仔核酸を得るために、がん細胞核酸のフラクションまたは胎仔フラクションを決定するための方法もまた使用することができる。ある特定の実施形態では、試料から母体核酸を選択的に除去する(部分的に、実質的に、ほぼ完全にまたは完全に)。特定の実施形態では、母体核酸を、試料から、選択的に(部分的、実質的、ほとんど完全または完全に)除去する。特定の実施形態では、濃縮して、特定の低いコピー数の種の核酸(例えば、胎仔核酸)を得ることによって、定量的感受性を改善することができる。試料を核酸の特定の種について濃縮するための方法が、例えば、米国特許第6,927,028号、国際特許出願公開第WO2007/140417号、国際特許出願公開第WO2007/147063号、国際特許出願公開第WO2009/032779号、国際特許出願公開第WO2009/032781号、国際特許出願公開第WO2010/033639号、国際特許出願公開第WO2011/034631号、国際特許出願公開第WO2006/056480号および国際特許出願公開第WO2011/143659号に記載されており、それぞれの内容全体が、全ての記載、表、等式および図面を含め、参照により本明細書に組み込まれている。
一部の実施形態では、核酸を濃縮して、特定の標的断片種および/または参照断片種を得る。特定の実施形態では、下記に記載する1つまたは複数の、長さに基づく分離の方法を使用して、核酸を濃縮して、特定の核酸の断片長または範囲の断片長を得る。特定の実施形態では、本明細書に記載するおよび/または当技術分野で公知である1つまたは複数の、配列に基づく分離方法を使用して、核酸を濃縮して、選択されたゲノム領域(例えば、染色体)に由来する断片を得る。
試料中の核酸亜集団を濃縮する方法の限定されない例は、核酸種間のエピジェネティックな差を活用する方法(例えば、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号に記載されるメチル化に基づく胎仔核酸濃縮法)、制限エンドヌクレアーゼにより多型配列を増強するアプローチ(例えば、参照により本明細書に組み込まれている米国特許出願公開第2009/0317818号に記載される方法など)、選択的酵素分解のアプローチ、大規模並行シグネチャー配列決定(MPSS)のアプローチ、増幅(例えば、PCR)に基づくアプローチ(例えば、遺伝子座特異的増幅法、マルチプレックスSNP対立遺伝子PCRのアプローチ、ユニバーサル増幅法)、プルダウンのアプローチ(例えば、ビオチン化ウルトラマープルダウン法)、伸長およびライゲーションに基づく方法(例えば、分子反転プローブ(MIP)伸長およびライゲーション)およびそれらの組合せを含む。
一部の実施形態では、本明細書に記載する1つまたは複数の、配列に基づく分離方法を使用して、核酸を濃縮して、選択されたゲノム領域(例えば、染色体)に由来する断片を得る。配列に基づく分離は一般に、ヌクレオチド配列が、目的の断片(例えば、標的および/または参照の断片)中には存在し、試料のその他の断片中に実質的に存在しない、またはその他の断片はごくわずかな量でしか存在しない(例えば、5%もしくはそれ未満)ことに基づく。一部の実施形態では、配列に基づく分離は、標的断片の分離および/または参照断片の分離を行うことができる。分離された標的断片および/または分離された参照断片をしばしば、核酸試料中の残存する断片から単離し、取り出す。特定の実施形態では、また、分離された標的断片と分離された参照断片とを、相互に単離し、取り出す(例えば、分離アッセイのコンパートメントとして単離する)。特定の実施形態では、分離された標的断片と分離された参照断片とを、一緒に単離する(例えば、同じアッセイコンパートメントとして単離する)。一部の実施形態では、未結合断片を、示差的に除去または分解または消化することができる。
一部の実施形態では、選択的に核酸を捕捉する処理を使用して、核酸試料から、標的断片および/または参照断片を分離し、取り出す。市販されている、核酸を捕捉するシステムとして、例えば、Nimblegen配列捕捉システム(Roche NimbleGen、Madison、WI);Illumina BEADARRAYプラットフォーム(Illumina、San Diego、CA);Affymetrix GENECHIPプラットフォーム(Affymetrix、Santa Clara、CA);Agilent SureSelect Target Enrichment System(Agilent Technologies、Santa Clara、CA);および関連のプラットフォームが挙げられる。そのような方法は典型的には、標的断片または参照断片のヌクレオチド配列の部分または全てに対する捕捉オリゴヌクレオチドのハイブリダイゼーションを含み、固相(例えば、固相アレイ)および/または溶液に基づくプラットフォームの使用を含むことができる。選択されたゲノム領域または座位(例えば、第21、18、13、XもしくはY染色体のうちの1つ、または参照の染色体)に由来する核酸断片に優先的にハイブリダイズするように、捕捉オリゴヌクレオチド(時には、「おとり」と呼ぶ)を、選択するか、または設計する。特定の実施形態では、(例えば、オリゴヌクレオチドアレイを使用する)ハイブリダイゼーションに基づく方法を使用し、濃縮して、特定の染色体(例えば、異数体の可能性がある染色体、参照の染色体、もしくは目的のその他の染色体)、またはそれらの目的の遺伝子または領域に由来する核酸配列を得ることができる。したがって、一部の実施形態では、核酸試料は、必要に応じて、例えば、試料核酸中の選択された遺伝子に対して相補的である捕捉オリゴヌクレオチドを使用して断片のサブセットを捕捉することによって濃縮される。特定の事例では、捕捉した断片を増幅する。例えば、アダプターを含有する捕捉した断片を、アダプターオリゴヌクレオチドに対して相補的であるプライマーを使用して増幅して、アダプター配列に従って指標が付けられた増幅された断片のコレクションを形成することができる。一部の実施形態では、目的の領域(複数可)またはその一部を含有する断片中の配列に対して相補的であるオリゴヌクレオチド(例えば、PCRプライマー)を使用する1つまたは複数の目的の領域の増幅によって、選択されたゲノム領域(例えば、染色体、遺伝子)に由来する断片について核酸を濃縮する。
一部の実施形態では、1つまたは複数の、長さに基づく分離の方法を使用して、核酸を、特定の核酸断片の長さ、範囲の長さ、または特定の閾値もしくはカットオフを下回るもしくは上回る長さについて濃縮する。核酸断片の長さは典型的には、断片中のヌクレオチドの数を指す。また、核酸断片の長さは時には、核酸断片のサイズとも呼ぶ。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを測定することなく実施する。一部の実施形態では、長さに基づく分離の方法を、個々の断片の長さを決定するための方法と併せて実施する。一部の実施形態では、長さに基づく分離は、サイズ分画の手順を指し、分画されたプールの全部または一部を、単離(例えば、留保)および/または分析することができる。サイズ分画の手順は、当技術分野で公知である(例えば、アレイ上での分離、分子ふるいによる分離、ゲル電気泳動による分離、カラムクロマトグラフィー(例えば、分子ふるいカラム)による分離、およびマイクロ流体技術に基づくアプローチ)。特定の例では、長さに基づく分離のアプローチとして、例えば、選択的タグ付けアプローチ、断片の環状化、化学物質による処理(例えば、ホルムアルデヒド、ポリエチレングリコール(PEG)沈殿)、質量分析、および/またはサイズに特異的な核酸増幅を挙げることができる。
核酸定量化
試料中の核酸の量(例えば、濃度、相対量、絶対量、コピー数等)を決定できる。少量核酸の量(例えば、濃度、相対量、絶対量、コピー数等)を決定する。特定の実施形態では、試料中の少量核酸種の量を、「少量種フラクション」と呼ぶ。一部の実施形態では、「少量種フラクション」は、対象から得られた試料(例えば、血液試料、血清試料、血漿試料、尿試料)中の循環型無細胞核酸中の少量核酸種のフラクションを指す。
細胞外核酸中の少量の核酸の量を定量化し、本明細書において提供される方法とともに使用できる。したがって、ある特定の実施形態では、本明細書において記載される方法は、少量の核酸の量を決定するさらなるステップを含む。試料核酸を調製するための処理前または処理後の対象に由来する試料中の少量の核酸の量を決定できる。ある特定の実施形態では、試料核酸を処理し、調製した後に試料中の少量の核酸の量を決定し、この量をさらなる評価のために利用する。一部の実施形態では、アウトカムは、試料核酸中の少量種フラクションの寄与の程度を加減する(例えば、カウント数を調整する、試料を除去する、コールを行う、またはコールを行わない)ことを含む。
少量種フラクションの決定は、本明細書において記載される方法の前、その間またはその中の任意の1点、あるいは本明細書において記載されるある特定の方法(例えば、遺伝子の変動または遺伝子の変更の検出)の後で実施できる。例えば、ある特定の感度または特異性を有する遺伝子の変動/遺伝子の変更決定法を実施するために、少量の核酸の定量化法を、遺伝子の変動/遺伝子の変更の決定とともに、その前に、その間またはその後に実行して、約2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、21%、22%、23%、24%、25%を超えるまたはそれより多い少量の核酸を有する試料を同定できる。一部の実施形態では、ある特定の閾値量の少量の核酸(例えば、約15%またはそれより多い少量の核酸、約4%またはそれより多い少量の核酸)を有すると決定された試料を、例えば、遺伝子の変動/遺伝子の変更または遺伝子の変動/遺伝子の変更の存在または非存在についてさらに分析する。ある特定の実施形態では、例えば、ある特定の閾値量の少量の核酸(例えば、約15%またはそれより多い少量の核酸、約4%またはそれより多い少量の核酸)を有する試料についてのみ、遺伝子の変動または遺伝子の変更の決定を選択する(例えば、選択し、患者に連絡する)。
一部の実施形態では、核酸中のがん細胞核酸の量(例えば、濃度、相対量、絶対量、コピー数等)を決定する。特定の事例では、試料中のがん細胞核酸の量とは、「がん細胞核酸のフラクション」を指し、時には、「がんフラクション」または「腫瘍フラクション」と呼ばれる。一部の実施形態では、「がん細胞核酸のフラクション」とは、対象から得られた試料(例えば、血液試料、血清試料、血漿試料、尿試料)中の循環型無細胞核酸中のがん細胞核酸のフラクションを指す。
一部の実施形態では、核酸中の胎仔核酸の量(例えば、濃度、相対量、絶対量、コピー数等)を決定する。ある特定の実施形態では、試料中の胎仔核酸の量は、「胎仔フラクション」と呼ばれる。一部の実施形態では、「胎仔フラクション」とは、妊娠中の雌から得られた試料(例えば、血液試料、血清試料、血漿試料、尿試料)中の循環型無細胞核酸中の胎仔核酸のフラクションを指す。がん細胞核酸および/または少量種フラクションを決定するために、胎仔フラクションを決定するための、本明細書において記載される、または当技術分野で公知のある特定の方法を使用できる。
一部の実施形態では、コピー数の変動領域についてフラクションを決定する。一部の実施形態では、コピー数の変動領域について胎仔フラクションを決定する。一部の実施形態では、少量の核酸のフラクションを決定する。一部の実施形態では、試料核酸について胎仔フラクションを決定する。以下に記載されるフラクション(例えば、胎仔フラクション)推定または決定のための方法に従って、上記のフラクションを決定できる。
特定の例では、雄の胎仔に特異的なマーカー(例えば、Y染色体STRマーカー(例えば、DYS19、DYS385、DYS392マーカー);RhD陰性の雌中のRhDマーカー)、多型配列の対立遺伝子の比に従って、または胎仔核酸に特異的であり、母体核酸にはそうでない1つもしくは複数のマーカー(例えば、母親と胎仔との間のエピジェネティックなバイオマーカーの差(例えば、メチル化)、もしくは母体の血漿中の胎仔のRNAマーカー(例えば、Lo、2005年、Journal of Histochemistry and Cytochemistry、53巻(3号):293〜296頁を参照されたい))に従って、胎仔フラクションを決定することができる。一部の実施形態では、Y染色体の適したアッセイに従って(例えば、定量的リアルタイムPCRを使用することによって、胎仔特異的遺伝子座(例えば、雄妊娠における染色体Y上のSRY遺伝子座)の量を、母体および胎仔の両方に共通である任意の常染色体上の遺伝子座のものと比較することによって)、胎仔フラクションを決定する(例えば、Lo YMら(1998年) Am J Hum Genet 62巻:768〜775頁)。
胎仔フラクションの決定は時には、例えば、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号の記載に従って、胎仔定量化アッセイ(fetal quantifier assay)(FQA)を使用して行う。このタイプのアッセイにより、母体試料中の胎仔核酸を、試料中の核酸のメチル化状況に基づいて検出および定量化することが可能になる。特定の実施形態では、母体試料に由来する胎仔核酸の量を、存在する核酸の総量に比して決定することができ、それにより、試料中の胎仔核酸のパーセントが得えられる。特定の実施形態では、母体試料中の胎仔核酸のコピー数を決定することができる。特定の実施形態では、配列に特異的(または部分に特異的)な様式で、時には、正確な染色体量分析を可能にする(例えば、胎仔の異数性の有無を検出する)のに十分な感受性を伴って、胎仔核酸の量を決定することができる。
胎仔定量化アッセイ(FQA)を、本明細書に記載する方法のうちのいずれかと併せて行うことができる。任意の当技術分野で公知の方法、および/または米国特許出願公開第2010/0105049号の記載により、例えば、メチル化状況の差に基づいて母体核酸を胎仔核酸から区別し、胎仔核酸を定量化する(すなわち、その量を決定する)ことができる方法等により、そのようなアッセイを行うことができる。メチル化状況に基づいて核酸を差別化するための方法として、これらに限定されないが、メチル化感受性による、例えば、MBD2−Fc断片(MBD2のメチル結合性ドメインが、抗体のFc断片に融合している(MBD−FC))を使用する捕捉(Gebhardら(2006年)Cancer Res.66巻(12号):6118〜28頁);メチル化特異的抗体;亜硫酸水素塩により変換する方法、例えば、MSP(メチル化感受性PCR)、COBRA、メチル化感受性単一ヌクレオチドによるプライマーの伸長(Ms−SNuPE)、またはSequenom MassCLEAVE(商標)技術;およびメチル化感受性制限酵素の使用(例えば、母体試料中の母体核酸を、1つまたは複数のメチル化感受性制限酵素を使用して消化し、それにより、胎仔核酸を濃縮する)が挙げられる。また、メチル感受性酵素を使用して、メチル化状況に基づいて核酸を差別化することもでき、これらの酵素は、例えば、後者がメチル化されていない場合には、それらのDNA認識配列において優先的または実質的に切断または消化を行うことができる。したがって、非メチル化DNA試料は、メチル化DNA試料よりも小さな断片に切られ、高度メチル化DNA試料は切断されない。明確な記述がない場合には、メチル化状況に基づいて核酸を差別化するための任意の方法を、本明細書の技術の組成および方法と共に使用することができる。胎仔核酸の量を、増幅反応の間に、例えば、1つまたは複数の競合物質を既知の濃度で導入することによって決定することができる。胎仔核酸の量の決定はまた、例えば、RT−PCR、プライマーの伸長、配列決定および/または計数により行うこともできる。特定の事例では、核酸の量は、米国特許出願公開第2007/0065823号の記載に従ってBEAMing技術を使用して決定することができる。特定の実施形態では、制限効率を決定することができ、効率の比率を使用して、胎仔核酸の量をさらに決定する。
特定の実施形態では、多型配列(例えば、一塩基多型(SNP))の対立遺伝子の比に基づいて、例えば、参照により本明細書に組み込まれている米国特許出願公開第2011/0224087号に記載の方法等を使用して、少量種フラクションを決定することができる。そのような胎児フラクションを決定するための方法では、例えば、ヌクレオチド配列の読取りを、母体試料について得、参照ゲノム中の参考にする多型の部位(例えば、SNP)において、第1の対立遺伝子に対してマッピングされるヌクレオチド配列の読取りの総数と、第2の対立遺伝子に対してマッピングされるヌクレオチド配列の読取りの総数とを比較することによって、胎仔フラクションを決定する。特定の実施形態では、例えば、試料中の胎仔核酸と母体核酸との混合物に対して、母体核酸はそうした混合物に大きく寄与し、これと比較して、胎仔の対立遺伝子の寄与は相対的に小さいことにより、胎仔の対立遺伝子を識別する。したがって、母体試料中の胎仔核酸の相対的な存在量を、多型の部位のそれら2つの対立遺伝子のそれぞれについての参照ゲノム上の標的核酸配列に対してマッピングしたユニークな配列の読取りの総数のパラメータとして決定することができる。
一部の実施形態では、染色体異常に由来する情報を組み込む方法であって、例えば、参照により本明細書に組み込まれる、国際特許出願公開第WO2014/055774号に記載されている方法を使用して、少量種フラクションを決定することができる。一部の実施形態では、例えば、米国特許出願公開第2013/0288244号および米国特許出願公開第2013/0338933号(これらのそれぞれは、参考として本明細書に援用される)において記載されるような性染色体に由来する情報を組み込む方法を使用して、少量種フラクションを決定することができる。
一部の実施形態では、断片長情報(例えば、参照により本明細書に組み込まれている国際特許出願公開第WO2013/177086号の記載に従う断片長比(fragment length ratio)(FLR)の分析、胎仔比統計値(fetal ratio statistic)(FRS)の分析)を組み込む方法を使用して、少量種フラクションを決定することができる。無細胞胎性核酸の断片は一般に、母体に由来する核酸の断片よりも短い(例えば、Chanら、(2004年)Clin. Chem. 50巻:88〜92頁;Loら(2010年)Sci. Transl. Med. 2巻:61ra91を参照されたい)。したがって、一部の実施形態では、特定の長さの閾値を下回る断片を計数し、それらのカウント数を、例えば、特定の長さの閾値を上回る断片から得られたカウント数、および/または試料中の全ての核酸の量と比較することによって、胎仔フラクションを決定することができる。特定の長さの核酸断片を計数するための方法が、国際特許出願公開第WO2013/177086号にさらに詳細に記載されている。
ある特定の実施形態では、幾分かは、選択された断片長未満の長さを有するCCF断片に由来する部分に対してマッピングされる読取りの量に従って、FLRまたはFRSを決定する。一部の実施形態では、FLRまたはFRS値は、Xが、第1の選択された断片長未満の長さを有するCCF断片に由来する読取りの量であり、Yが、第2の選択された断片長未満の長さを有するCCF断片に由来する読取りの量である、XのYに対する比であることが多い。第1の選択された断片長は、第2の選択された断片長とは独立して選択されることが多く、逆もまた同様であり、第2の選択された断片長は、通常、第1の選択された断片長よりも大きい。第1の選択された断片長は、約200塩基またはそれより小さい〜約30塩基またはそれより小さいものでありうる。一部の実施形態では、第1の選択された断片長は、約200、190、180、170、160、155、150、145、140、135、130、125、120、115、110、105、100、95、90、85、80、75、70、65、60、55または50塩基である。一部の実施形態では、第1の選択された断片長は、約170〜約130塩基であり、時には、約160〜約140塩基である。一部の実施形態では、第2の選択された断片長は、約2000塩基〜約200塩基である。ある特定の実施形態では、第2の選択された断片長は、約1000、950、800、850、800、750、700、650、600、550、500、450、400、350、300、250塩基である。一部の実施形態では、第1の選択された断片長は、約140〜約160塩基(例えば、約150塩基)であり、第2の選択された断片長は、約500〜約700塩基(例えば、約600塩基)である。一部の実施形態では、第1の選択された断片長は、約150塩基であり、第2の選択された断片長は、約600塩基である。
一部の実施形態では、レベルに従って少量種フラクションを決定できる。例えば、レベル(例えば、影響を受けた領域についてのレベル、コピー数の変動についてのレベル)に従って、胎仔フラクションを決定できる。レベルに従って胎仔フラクションを決定することは、期待レベルからのレベルの偏差の絶対値を決定することおよび偏差の絶対値に2を乗じることを含みうる。期待レベルに、1の値を与えることができ、第1または第2のレベルの偏差は負でありうる(例えば、欠失または微小欠失について、1未満であるレベル)または正でありうる(例えば、重複または微小重複について、1より大きいレベル)。特定の事例では、偏差の規模は、胎仔フラクションに応じて変わりうる。
一部の実施形態では、少量種フラクション(例えば、がん細胞核酸のフラクション、胎仔フラクション)の決定は、遺伝子の変動または遺伝子の変更の存在または非存在を同定するために必要ではない、または必要である。一部の実施形態では、遺伝子の変動または遺伝子の変更の存在または非存在を同定することは、少量の核酸対多量の核酸の配列区別を必要としない。ある特定の実施形態では、この理由は、特定の染色体、染色体部分またはその一部における少量および多量の配列の両方の合計された寄与を分析するからである。一部の実施形態では、遺伝子の変動または遺伝子の変更の存在または非存在を同定することは、少量の核酸を多量の核酸から区別するであろう事前の配列情報に頼らない。
部分特異的フラクション推定値
一部の実施形態では、部分特異的フラクション推定値に従って、少量種フラクションを決定できる(例えば、各々、参照により本明細書において組み込まれている、国際特許出願公開第WO2014/205401号およびKimら(2015年) Prenatal Diagnosis 35巻:810〜815頁に記載されるような)。例えば、一部の実施形態では、部分特異的胎仔フラクション推定値に従って、胎仔フラクション(例えば、試料について)を決定できる。理論に制限されることなく、胎仔の循環無細胞(CCF)断片(例えば、特定の長さまたは範囲の長さの断片)から得られる読取りの量はしばしば、部分に対する頻度範囲(例えば、同じ試料内、例えば、同じ配列決定のラン内)を用いてマッピングされる。また、理論に制限されることなく、特定の部分は、複数の試料間で比較する場合、胎仔のCCF断片(例えば、特定の長さまたは範囲の長さの断片)から得られる、読取りの類似の表示を示し、その表示は、部分特異的胎仔フラクション(例えば、胎仔を起源とするCCF断片の相対量、パーセントまたは比)と相関する傾向を示す。部分特異的フラクション推定値に従って推定された胎仔フラクションは、本明細書において、配列決定に基づく胎仔フラクション(例えば、SeqFF)および/またはビンベースの胎仔フラクション(BFF)と呼ばれることもある。
一部の実施形態では、部分特異的胎仔フラクションの推定値を、一つには、部分特異的パラメータ、および胎仔フラクションとのそれらの関係に基づいて決定する。部分特異的パラメータは、部分中の特定のサイズ(例えば、サイズ範囲)のCCF断片長から得られた読取りの量または比率を反映する(例えば、それと相関する)任意の適切なパラメータであり得る。部分特異的パラメータは、複数の試料について決定された部分特異的パラメータの平均値、平均または中央値であり得る。任意の適した部分特異的パラメータを使用できる。部分特異的パラメータの限定されない例として、カウント数(例えば、部分に対してマッピングされる配列の読取りのカウント数、参照ゲノム中の部分に対してマッピングされる配列の読取りのカウント数)、正規化されたカウント数(例えば、部分に対してマッピングされた配列の読取りの正規化されたカウント数、参照ゲノム中の部分に対してマッピングされた配列の読取りの正規化されたカウント数)、断片長比(fragment length ratio)(FLR)、胎仔比統計値(fetal ratio statistic)(FRS)、選択された断片長未満の長さを有する読取りの量、ゲノムカバレッジ(すなわち、カバレッジ)、マッピング可能性、DNaseI感受性、メチル化状態、アセチル化、ヒストン分布、グアニン−シトシン(GC)含量、クロマチン構造等またはそれらの組合せが挙げられる。一部の実施形態では、部分特異的パラメータは、FLRおよび/またはFRSと、部分に特異的な様式で相関する任意の適切なパラメータであり得る。一部の実施形態では、一部または全部の部分特異的パラメータが、部分についての、FLRの直接的または間接的な表示である。一部の実施形態では、部分特異的パラメータは、グアニン−シトシン(GC)含有量ではない。
一部の実施形態では、部分特異的パラメータは、CCF断片から得られた読取りの量を表示するか、それと相関するか、またはそれに比例する任意の適切な値であり、この場合、部分に対してマッピングされる読取りは、選択された断片長未満の長さを有する。特定の実施形態では、部分特異的パラメータは、部分に対してマッピングされる比較的短いCCF断片(例えば、約200塩基対もしくはそれ未満、約150塩基対もしくはそれ未満)から得られた読取りの量の表示である。選択された断片長未満の長さを有するCCF断片はしばしば、比較的短いCCF断片であり、時には、選択された断片長は、約200塩基対またはそれ未満(例えば、約190、180、170、160、150、140、130、120、110、100、90または80塩基長であるCCF断片)である。任意の適切な方法(例えば、配列決定法、ハイブリダイゼーションのアプローチ)により、CCF断片の長さ、またはCCF断片から得られる読取りを決定(例えば、推定または推測)することができる。一部の実施形態では、CCF断片の長さを、両末端から読む(paired−end)配列決定法から得られた読取りにより決定(例えば、推定または推測)する。特定の実施形態では、CCF断片の鋳型の長さを、CCF断片から得られた読取り(例えば、単一末端からの読取り)の長さから直接決定する。
1つまたは複数の加重係数により、部分特異的パラメータに加重するか、調整するか、または変換することができる。一部の実施形態では、加重、調整または変換した部分特異的パラメータは、試料(例えば、試験試料)についての、部分特異的胎仔フラクションの推定値を提供することができる。一部の実施形態では、加重または調整は一般に、部分のカウント数(例えば、部分に対してマッピングされた読取り)、または別の部分特異的パラメータを、部分特異的胎仔フラクションの推定値に変換し、そのような変換は時には、転換とみなされる。
一部の実施形態では、加重係数は、一部、胎仔フラクション(例えば、複数の試料から決定した胎仔フラクション)と、複数の試料(例えば、トレーニングセット)についての部分特異的パラメータとの間の関係を記載および/または定義する係数または定数である。一部の実施形態では、加重係数を、複数の、胎仔フラクションの決定結果と、複数の部分特異的パラメータとについての関係に従って決定する。1つの関係を、1つまたは複数の加重係数により定義することができ、1つまたは複数の加重係数を、1つの関係から決定することができる。一部の実施形態では、加重係数(例えば、1つまたは複数の加重係数)を、(i)複数の試料(例えば、トレーニングセットにおける複数の試料)のそれぞれについて決定した胎仔核酸のフラクションと(ii)複数の試料(例えば、トレーニングセットにおける複数の試料)についての部分特異的パラメータとに従って適合させた、部分についての関係から決定する。
加重係数は、適切な関係(例えば、適切な数学的関係、代数関係、適合させた関係、回帰、回帰分析、回帰モデル)から得られる、任意の適切な係数、推定係数または定数であり得る。適切な関係に従って、そこから誘導して、またはそれから推定して、加重係数を決定することができる。一部の実施形態では、加重係数は、適合させた関係から推定された係数である。複数の試料について、関係を適合させることを時には、本明細書においてモデルをトレーニングすると呼ぶ。関係(relationship)を適合させる(例えば、モデルをトレーニングして、トレーニングセットを得る)任意の適切なモデルおよび/または方法を使用することができる。使用することができる適切なモデルの非限定的な例として、回帰モデル、線形回帰モデル、単純回帰モデル、通常の最小二乗回帰モデル、重回帰モデル、一般的な重回帰モデル、多項式回帰モデル、一般線形モデル、一般化線形モデル、離散選択回帰モデル、ロジスティック回帰モデル、多項ロジットモデル、混合ロジットモデル、プロビットモデル、多項プロビットモデル、順序ロジットモデル、順序プロビットモデル、ポアソンモデル、多変量応答回帰モデル、マルチレベルモデル、固定効果モデル、ランダム効果モデル、混合モデル、非線形回帰モデル、ノンパラメトリックモデル、セミパラメトリックモデル、ロバストモデル、クォンタイルモデル、アイソトニックモデル、主成分モデル、最小角モデル、ローカルモデル、セグメント化モデル、および変数誤差モデルが挙げられる。一部の実施形態では、適合された関係は、回帰モデルではない。一部の実施形態では、適合された関係は、決定木モデル、サポート−ベクターマシンモデル、およびニューラルネットワークモデルから選択される。モデルをトレーニングした結果(例えば、回帰モデル、関係)はしばしば、数学的に記載することができる関係であり、この関係は、1つまたは複数の係数(例えば、加重係数)を含む。例えば、線形最小二乗モデルのために、胎仔フラクション値および部分特異的パラメータ(例えば、カバレッジ、例えば、実施例4を参照のこと)を使用して一般的な多重回帰モデルをトレーニングでき、その結果、式(1)によって記載される関係が得られ、加重係数βは、式(2)、(3)および(4)においてさらに定義される。より複雑な多変量モデルは、1、2、3つまたはそれ超の加重係数を決定することができる。一部の実施形態では、複数の試料から得られた胎仔フラクションおよび2つまたはそれ超の部分特異的パラメータ(例えば、係数)に従って、モデルをトレーニングする(例えば、複数の試料に、例えば、行列により適合させた適合関係(relationship))。
加重係数は、適切な方法により、適切な関係(例えば、適切な数学的関係、代数関係、適合させた関係、回帰、回帰分析、回帰モデル)から得ることができる。一部の実施形態では、適合関係に、推定により適合させ、この非限定的な例として、最小二乗法、通常の最小二乗法、線形回帰、部分回帰、全回帰、一般化回帰、加重回帰、非線形回帰、繰返し加重回帰、リッジ回帰、最小絶対偏差、ベイズ、ベイズ多変量、縮小ランク、LASSO、Weighted Rank Selection Criteria(WRSC)、Rank Selection Criteria(RSC)、エラスティックネット推定法(例えば、エラスティックネット回帰)、およびそれらの組合せが挙げられる。
加重係数は、任意の適した値を有しうる。一部の実施形態では、加重係数は、約−1×10−2と約1×10−2の間、約−1×10−3と約1×10−3の間、約−5×10−4と約5×10−4の間または約−1×10−4と約1×10−4の間である。一部の実施形態では、複数の試料の加重係数の分布は、実質的に対称的である。複数の試料の加重係数の分布は、時には、正規分布である。複数の試料の加重係数の分布は、時には、正規分布ではない。一部の実施形態では、加重係数の分布の幅は、CCF胎仔核酸断片に由来する読取りの量に応じて変わる。一部の実施形態では、より高い胎仔核酸含量を含む部分は、より大きな係数(例えば、正または負の、例えば、図19を参照のこと)を生成する。加重係数は、ゼロでありうる、または加重係数は、ゼロより大きい場合もある。一部の実施形態では、部分の加重係数の約70%もしくはそれより多く、約75%もしくはそれより多く、約80%もしくはそれより多く、約85%もしくはそれより多く、約90%もしくはそれより多く、約95%もしくはそれより多く、または約98%もしくはそれより多くは、ゼロより大きい。
加重係数を、ゲノムの任意の適切な部分について決定するか、またはそれと関連付けることができる。加重係数を、任意の適切な染色体の任意の適切な部分について決定するか、またはそれと関連付けることができる。一部の実施形態では、加重係数を、ゲノム中の一部または全部の部分について決定するか、またはそれらと関連付ける。一部の実施形態では、加重係数を、ゲノム中の一部または全部の染色体の部分について決定するか、またはそれらと関連付ける。加重係数を時には、選択された染色体の部分について決定するか、またはそれらと関連付ける。加重係数を、1つまたは複数の常染色体の部分について決定するか、またはそれらと関連付けることができる。加重係数を、常染色体またはそれらのサブセットの中の部分を含む複数の部分中の部分について決定するか、またはそれらと関連付けることができる。一部の実施形態では、加重係数を、性染色体(例えば、ChrXおよび/またはChrY)の部分について決定するか、またはそれらと関連付ける。加重係数を、1つまたは複数の常染色体および1つまたは複数の性染色体の部分について決定するか、またはそれらと関連付けることができる。特定の実施形態では、加重係数を、全ての常染色体ならびにX染色体およびY染色体中の複数の部分中の部分について決定するか、またはそれらと関連付ける。加重係数を、X染色体および/またはY染色体中の部分を含まない複数の部分中の部分について決定するか、またはそれらと関連付けることができる。特定の実施形態では、加重係数を、ある染色体の部分について決定するか、またはそれらと関連付け、この染色体は、異数性(例えば、全染色体異数性)を含む。特定の実施形態では、加重係数を、ある染色体の部分について決定するか、またはそれらのみと関連付け、この染色体は、異数体ではない(例えば、正倍数体染色体である)。加重係数を、第13、18および/または21染色体中の部分を含まない複数の部分中の部分について決定するか、またはそれらと関連付けることができる。
一部の実施形態では、加重係数を、1つまたは複数の試料(例えば、トレーニングセットの試料)に従って、部分について決定する。加重係数はしばしば、部分に特異的である。一部の実施形態では、1つまたは複数の加重係数を、部分に独立に割り当てる。一部の実施形態では、加重係数を、複数の試料についての胎仔フラクションの決定結果(例えば、試料に特異的な胎仔フラクションの決定結果)と複数の試料に従って決定した部分特異的パラメータとについての関係に従って決定する。加重係数はしばしば、複数の試料、例えば、約20個〜約100,000個もしくはそれ超、約100個〜約100,000個もしくはそれ超、約500個〜約100,000個もしくはそれ超、約1000個〜約100,000個もしくはそれ超、または約10,000個〜約100,000個もしくはそれ超の試料から決定する。加重係数を、正倍数体である試料(例えば、正倍数体の胎仔を含む対象から得られた試料、例えば、異数体染色体が存在しない試料)から決定することができる。一部の実施形態では、加重係数を、異数体染色体を含む試料(例えば、正倍数体の胎仔を含む対象から得られた試料)から得る。一部の実施形態では、加重係数を、正倍数体の胎仔を有する対象およびトリソミーの胎仔を有する対象から得られた複数の試料から決定する。加重係数を、複数の試料から得ることができ、これらの試料は、雄の胎仔および/または雌の胎仔を有する対象から得られる。
胎仔フラクションをしばしば、トレーニングセットの1つまたは複数の試料について決定し、そこから、加重係数を誘導する。加重係数を決定する胎仔フラクションは時には、試料に特異的な胎仔フラクションの決定結果である。加重係数を決定する胎仔フラクションは、本明細書に記載するまたは当技術分野で公知である任意の適切な方法により決定することができる。一部の実施形態では、胎仔核酸の含有量(例えば、胎仔フラクション)の決定を、本明細書に記載するまたは当技術分野で公知である適切な胎仔定量化アッセイ(FQA)を使用して行い、それらの胎仔フラクションの決定の非限定的な例として、雄の胎仔に特異的なマーカーに従う決定、多型配列の対立遺伝子の比に基づく決定、胎仔核酸に特異的であり、母体核酸にはそうでない1つもしくは複数のマーカーに従う決定、メチル化に基づくDNAの識別の使用による決定(例えば、A. Nygrenら(2010年)Clinical Chemistry、56巻(10号):1627〜1635頁)、競合PCRのアプロ
ーチを使用する質量分析の方法および/もしくはシステムによる決定、参照により本明細書に組み込まれている米国特許出願公開第2010/0105049号に記載の方法による決定等、またはそれらの組合せが挙げられる。ある特定の例では、胎仔フラクションを、一つには、Y染色体のレベル(例えば、1つまたは複数のゲノム区分のレベル;プロファイルのレベル)に従って決定する。一部の実施形態では、Y染色体の適切なアッセイに従って、胎仔フラクションを決定する(例えば、定量的リアルタイムPCRを使用することによって、胎仔特異的座位(例として、雄胎仔を妊娠している場合のY染色体上のSRY座位)の量を、母親および胎仔の両方に共通する任意の常染色体上の座位の量と比較する(例えば、Lo YMら(1998年)Am J Hum Genet、62巻:768〜775頁))。
(例えば、試験試料についての)部分特異的パラメータに、1つまたは複数の加重係数(例えば、トレーニングセットから誘導した加重係数)により加重、調整または変換を行うことができる。例えば、加重係数を、部分について、複数の試料のトレーニングセットについての、部分特異的パラメータと胎仔フラクションの決定結果との関係に従って誘導することができる。次いで、試験試料の部分特異的パラメータの調整および/または加重を、トレーニングセットから誘導した加重係数に従って行うことができる。一部の実施形態では、加重係数を誘導する部分特異的パラメータが、調整または加重を行う(例えば、試験試料の)部分特異的パラメータと同じである(例えば、両方のパラメータがFLRである)。特定の実施形態では、加重係数を誘導する部分特異的パラメータが、調整または加重を行う(例えば、試験試料の)部分特異的パラメータと異なる。例えば、加重係数を、トレーニングセットの試料についての、カバレッジ(すなわち、部分特異的パラメータ)と胎仔フラクションとの間の関係から決定することができ、試験試料の部分についてのFLR(すなわち、別の部分特異的パラメータ)を、カバレッジから誘導した加重係数に従って調整することができる。理論により制限されることなく、(例えば、試験試料についての)部分特異的パラメータに時には、それぞれの部分特異的パラメータと共通の部分特異的FLRとの間の関係および/または相関関係に起因して、(例えば、トレーニングセットの)異なる部分特異的パラメータから誘導された加重係数により調整および/または加重および/または変換を行うことができる。
部分特異的胎仔フラクションの推定値を、試料(例えば、試験試料)について、部分特異的パラメータ(例えば、参照ゲノムの部分にマッピングした配列読取りのカウント)に対して、その部分について決定した加重係数により加重、調整または変換することによって決定することができる。加重は、任意の適切な数学的操作を適用することによって、部分特異的パラメータ(例えば、参照ゲノムの部分にマッピングした配列読取りのカウント)を、加重係数により調整、変換および/または転換することを含むことができ、それらの非限定的な例として、乗算、除算、加算、減算、積分、記号計算、代数的計算、アルゴリズム、三角関数もしくは幾何関数、転換(例えば、フーリエ変換)等、またはそれらの組合せが挙げられる。加重は、適切な数学的モデルによって、部分特異的パラメータ(例えば、参照ゲノムの部分にマッピングした配列読取りのカウント)を、加重係数により調整、変換および/または転換することを含むことができる(例えば、実施例4に表されるモデル)。
一部の実施形態では、胎仔フラクションを、試料について、1つまたは複数の部分特異的胎仔フラクションの推定値に従って決定する。一部の実施形態では、胎仔フラクションを、試料(例えば、試験試料)について、1つまたは複数の部分についての部分特異的パラメータ(例えば、参照ゲノムの部分にマッピングした配列読取りのカウント)の加重、調整または変換に従って決定(例えば、推定)する。特定の実施形態では、試験試料についての胎仔核酸のフラクションを、調整したカウント数または調整したサブセットのカウント数に基づいて推定する。特定の実施形態では、試験試料についての胎仔核酸のフラクションを、部分についての、調整したFLR、調整したFRS、調整したカバレッジおよび/または調整したマッピング可能性に基づいて推定する。一部の実施形態では、約1〜約500,000個、約100〜約300,000個、約500〜約200,000個、約1000〜約200,000個、約1500〜約200,000個、または約1500〜約50,000個の部分特異的パラメータの加重または調整を行う。
(例えば、試験試料についての)胎仔フラクションを、任意の適切な方法により、(例えば、同じ試験試料についての)複数の部分特異的胎仔フラクションの推定値に従って決定する。一部の実施形態では、妊娠中の雌から得られたある試験試料中の胎仔核酸のフラクションの推定の精度を向上させるための方法は、1つまたは複数の部分特異的胎仔フラクションの推定値を決定するステップを含み、この試料についての胎仔フラクションの推定値は、これら1つまたは複数の部分特異的胎仔フラクションの推定値に従って決定される。一部の実施形態では、胎仔核酸のフラクションを、試料(例えば、試験試料)について推定または決定するステップは、1つまたは複数の部分特異的胎仔フラクションの推定値を合計するサブステップを含む。合計のサブステップは、複数の部分特異的胎仔フラクションの推定値に従って、平均値、平均、中央値、AUCまたは積分値を決定することを含むことができる。
一部の実施形態では、妊娠中の雌から得られた試験試料中の胎仔核酸のフラクションの推定の精度を向上させるための方法は、参照ゲノムの部分に対してマッピングした配列の読取りのカウント数を得るステップを含み、これらの配列の読取りは、妊娠中の雌に由来する試験試料から得られた循環型無細胞核酸の読取りであり、得られたカウント数の少なくとも1つのサブセットは、ゲノムのある領域から得られ、この領域が提供する、この領域に由来する全カウント数と比べた胎仔核酸から得られたカウント数は、ゲノムの別の領域の全カウント数と比べた胎仔核酸のカウント数よりも多い。一部の実施形態では、胎仔核酸のフラクションの推定値を、部分のあるサブセットに従って決定し、部分のこのサブセットは、別の部分の胎仔核酸のカウント数よりも多い数の、胎仔核酸から得られたカウント数がマッピングされる部分に従って選択される。一部の実施形態では、部分のこのサブセットは、別の部分の非胎仔核酸と比べた胎仔核酸のカウント数よりも多い数の、非胎仔核酸と比べた胎仔核酸から得られたカウント数がマッピングされる部分に従って選択される。部分の全てまたはサブセットに対してマッピングされたカウント数に加重、調整または変換することができ、それにより、加重したカウント、調整したカウントまたは変換したカウント数が得られる。加重、調整または変換したカウント数を利用して、胎仔核酸のフラクションを推定することができ、別の部分の胎仔核酸のカウント数よりも多い数の、胎仔核酸から得られたカウント数がマッピングされる部分に従って、カウント数に加重、調整または変換することができる。一部の実施形態では、別の部分の非胎仔核酸と比べた胎仔核酸のカウント数よりも多い数の、非胎仔核酸と比べた胎仔核酸から得られたカウント数がマッピングされる部分に従って、カウント数に加重する。
胎仔フラクションを、試料(例えば、試験試料)について、試料についての複数の部分特異的胎仔フラクションの推定値に従って決定することができ、部分に特異的な推定値は、ゲノムの任意の適切な領域またはセグメントの部分から得られる。部分特異的胎仔フラクションの推定値を、適切な染色体(例えば、1つもしくは複数の選択された染色体、1つもしくは複数の常染色体、性染色体(例えば、ChrXおよび/もしくはChrY)、異数体染色体、正倍数体染色体等、またはそれらの組合せ)の1つまたは複数の部分について決定することができる。一部の実施形態では、胎仔フラクションは、試料(例えば、試験試料)について、試料の複数の部分特異的胎仔フラクション推定値に従って決定でき、これでは、部分特異的推定値は、コピー数の変動(例えば、異数性、微小重複、微小欠失)を有すると分類された染色体の部分またはその一部から得られる。部分特異的推定値が、コピー数の変動を有すると分類された染色体の部分またはその一部から得られる、試料の複数の部分特異的胎仔フラクション推定値に従って決定された胎仔フラクションは、本明細書において影響を受けたフラクション(AF)と呼ばれることもある。
部分特異的パラメータ(例えば、参照ゲノムの部分に対してマッピングされた配列の読取りのカウント数)、加重係数、部分特異的胎仔フラクション推定値および/または胎仔フラクション決定は、適したシステム、機械、装置、非一時的なコンピュータ可読記憶媒体(例えば、それに記憶された実行可能なプログラムを有する)等またはそれらの組合せによって決定できる。ある特定の実施形態では、部分特異的パラメータ(例えば、参照ゲノムの部分に対してマッピングされた配列の読取りのカウント数)、加重係数、部分特異的胎仔フラクション推定値および/または胎仔フラクション決定を、1つまたは複数のマイクロプロセッサおよびメモリを含むシステムまたは機械によって決定する(例えば、部分的に)。一部の実施形態では、プログラムがマイクロプロセッサに決定を実行するように指示する、記憶された実行可能なプログラムを有する非一時的なコンピュータ可読記憶媒体によって、部分特異的パラメータ(例えば、参照ゲノムの部分に対してマッピングされた配列の読取りのカウント数)、加重係数、部分特異的胎仔フラクション推定値および/または胎仔フラクション決定を決定する(例えば、部分的に)。
一部の実施形態では、コピー数の変動領域についてフラクションを決定する。一部の実施形態では、コピー数の変動領域について胎仔フラクションを決定する。一部の実施形態では、少量の核酸のフラクションを決定する。一部の実施形態では、試料核酸の胎仔フラクションを決定する。本明細書において記載される配列決定に基づく胎仔フラクション推定に従って上記のフラクションを決定できる。一部の実施形態では、配列決定に基づくフラクション(例えば、胎児フラクション)推定は、(i)参照ゲノムの部分に対してマッピングされた配列の読取りのカウント数を得るステップであって、配列の読取りが、対象に由来する試料核酸から得られるステップと、(ii)各部分と独立に関連する加重係数に従って、各部分にマッピングされた配列の読取りのカウント数を、核酸(例えば、胎仔核酸)の部分特異的フラクションに変換し、これにより、加重係数に従って対象に由来する試料核酸についての部分特異的フラクション推定値(例えば、胎仔フラクション推定値)を提供するステップであって、(1)トレーニングセット中の複数の試料の各々について核酸(例えば、胎仔核酸)のフラクションと、(2)複数の試料についての各部分にマッピングされた配列の読取りのカウント数の間の各部分について適合された関係から、加重係数の各々が決定されているステップと(iii)部分特異的フラクション推定値(例えば、胎仔フラクション推定値)に基づいて、対象に由来する試料核酸についての核酸(例えば、胎仔核酸)のフラクションを推定するステップとを含む方法に従って生成される。
コピー数の変動領域についてフラクションを決定するために、コピー数の変動領域中の各部分と独立に関連している加重係数に従って、コピー数の変動領域中の各部分に対してマッピングされた配列の読取りのカウント数を、核酸の部分特異的フラクションに変換することによって、部分特異的フラクション推定値を提供する。コピー数の変動領域について胎仔フラクションを決定するために、コピー数の変動領域中の各部分と独立に関連している加重係数に従って、コピー数の変動領域中の各部分に対してマッピングされた配列の読取りのカウント数を、核酸の部分特異的胎仔フラクションに変換することによって、部分特異的胎仔フラクション推定値を提供する。
少量の核酸のフラクションを決定するために、各部分と独立に関連している加重係数に従って、複数の領域中(例えば、上記のコピー数の変動領域に制限されない領域、ゲノムにわたる領域)の各部分に対してマッピングされた配列の読取りのカウント数を、核酸の部分特異的フラクションに変換することによって、部分特異的フラクション推定値を提供する。試料核酸について胎仔フラクションを決定するために、各部分と独立に関連している加重係数に従って、複数の領域中(例えば、上記のコピー数の変動領域に制限されない領域、ゲノムにわたる領域)の各部分に対してマッピングされた配列の読取りのカウント数を、胎仔核酸の部分特異的フラクションに変換することによって、部分特異的胎仔フラクション推定値を提供する。
核酸ライブラリー
一部の実施形態では、核酸ライブラリーは、特定の処理(それらの非限定的な例として、固相(例えば、固体の支持体、フローセル、ビーズ)上への固定化、濃縮、増幅、クローニング、検出が挙げられる)のために、および/または核酸の配列決定のために、調製され、集められ、かつ/または改変される複数のポリヌクレオチド分子(例えば、核酸の試料)である。特定の実施形態では、核酸ライブラリーを、配列決定の処理の前または間に調製する。核酸ライブラリー(例えば、配列決定ライブラリー)を、当技術分野で公知の適切な方法により調製することができる。核酸ライブラリーを、標的化する調製処理または標的化しない調製処理により調製することができる。
一部の実施形態では、核酸のライブラリーを改変して、固体の支持体への核酸の固定化のために構成される化学的部分(例えば、官能基)を含める。一部の実施形態では、核酸のライブラリーを改変して、固体の支持体へのライブラリーの固定化のために構成される、生物学的分子(例えば、官能基)および/または結合対のメンバーを含め、それらの非限定的な例として、チロキシン結合性グロブリン、ステロイド結合性タンパク質、抗体、抗原、ハプテン、酵素、レクチン、核酸、リプレッサー、プロテインA、プロテインG、アビジン、ストレプトアビジン、ビオチン、補体成分C1q、核酸結合性タンパク質、受容体、炭水化物、オリゴヌクレオチド、ポリヌクレオチド、相補的核酸配列等、およびそれらの組合せが挙げられる。特異的な結合対のいくつかの例として、非限定的に、アビジン部分とビオチン部分;抗原性エピトープと、抗体もしくはその免疫学的反応性断片;抗体とハプテン;ジゴキシゲニン(digoxigen)部分と抗ジゴキシゲニン(anti−digoxigen
)抗体;フルオレセイン部分と抗フルオレセイン抗体;オペレーターとリプレッサー;ヌクレアーゼとヌクレオチド;レクチンと多糖;ステロイドとステロイド結合性タンパク質;活性化合物と活性化合物の受容体;ホルモンとホルモン受容体;酵素と基質;免疫グロブリンとプロテインA;オリゴヌクレオチドもしくはポリヌクレオチドと、それに対応する相補体等、またはそれらの組合せが挙げられる。
一部の実施形態では、核酸のライブラリーを改変して、既知の組成の1つまたは複数のポリヌクレオチドを含め、それらの非限定的な例として、識別子(例えば、タグ、インデックスタグ)、捕捉配列、標識、アダプター、制限酵素部位、プロモーター、エンハンサー、複製開始点、ステムループ、相補配列(例えば、プライマー結合部位、アニーリング部位)、適切な組入れ部位(例えば、トランスポゾン、ウイルス組入れ部位)、改変ヌクレオチド等、またはそれらの組合せが挙げられる。既知の配列のポリヌクレオチドを、適切な位置、例えば、核酸配列の5’末端、3’末端または内部に付加することができる。既知の配列のポリヌクレオチドは、同じ配列であっても、または異なる配列であってもよい。一部の実施形態では、既知の配列のポリヌクレオチドを、表面(例えば、フローセル中の表面)上に固定化された1つまたは複数のオリゴヌクレオチドにハイブリダイズするように構成する。例えば、5’既知配列を含む核酸分子を、第1の、複数のオリゴヌクレオチドにハイブリダイズさせることができ、一方、その分子の3’既知配列を、第2の、複数のオリゴヌクレオチドにハイブリダイズさせることができる。一部の実施形態では、核酸のライブラリーは、染色体に特異的なタグ、捕捉配列、標識および/またはアダプターを含むことができる。一部の実施形態では、核酸のライブラリーは、1つまたは複数の検出可能な標識を含む。一部の実施形態では、1つまたは複数の検出可能な標識を、核酸ライブラリー中に、5’末端において、3’末端において、かつ/またはライブラリー中の核酸の内部の任意のヌクレオチドの位置において組み込むことができる。一部の実施形態では、核酸のライブラリーは、ハイブリダイズさせたオリゴヌクレオチドを含む。特定の実施形態では、ハイブリダイズさせたオリゴヌクレオチドは、標識されたプローブである。一部の実施形態では、核酸のライブラリーは、固相上への固定化の前にハイブリダイズさせたオリゴヌクレオチドプローブを含む。
一部の実施形態では、既知の配列のポリヌクレオチドは、ユニバーサル配列を含む。ユニバーサル配列は、2つもしくはそれ超の核酸分子、または核酸分子の2つもしくはそれ超のサブセット中に組み入れる特異的なヌクレオチド配列であり、ユニバーサル配列は、それが組み入られている分子またはサブセットの分子全てについて同じである。ユニバーサル配列はしばしば、ユニバーサル配列に対して相補性を示す単一のユニバーサルプライマーを使用して、複数の異なる配列にハイブリダイズし、かつ/またはそれらを増幅するように設計される。一部の実施形態では、2つ(例えば、対)またはそれ超のユニバーサル配列および/またはユニバーサルプライマーを使用する。ユニバーサルプライマーはしばしば、ユニバーサル配列を含む。一部の実施形態では、アダプター(例えば、ユニバーサルアダプター)は、ユニバーサル配列を含む。一部の実施形態では、1つまたは複数のユニバーサル配列を使用して、核酸の複数の種またはサブセットを、捕捉、識別および/または検出する。
核酸ライブラリーの調製の特定の実施形態では(例えば、合成の手順による特定の配列決定の場合には)、核酸を、サイズにより、選択および/または断片化して、数百塩基対またはそれ未満の長さを得る(例えば、ライブラリーの生成のための調製の場合)。一部の実施形態では、ライブラリーの調製を、断片化せずに行う(例えば、無細胞DNAを使用する場合)。
特定の実施形態では、ライゲーションに基づくライブラリーの調製方法を使用する(例えば、ILLUMINA TRUSEQ、Illumina、San Diego CA)。ライゲーションに基づくライブラリーの調製方法はしばしば、アダプター(例えば、メチル化アダプター)の設計を活用し、この設計は、最初のライゲーションのステップにおいて、インデックス配列(例えば、核酸配列について試料の起源を同定するための試料インデックス配列)を組み込むことができ、しばしば、単一末端から読む配列決定、両末端から読む配列決定、およびマルチプレックス配列決定のための試料を調製するために使用することができる。例えば、fill−in反応、エキソヌクレアーゼ反応、またはそれらの組合せにより核酸(例えば、断片化核酸または無細胞DNA)の末端の修復を行ってもよい。一部の実施形態では、次いで、得られた平滑末端修復核酸を、アダプター/プライマーの3’末端上の単一ヌクレオチドのオーバーハングに対して相補性を示す単一ヌクレオチドにより伸長することができる。任意のヌクレオチドを、伸長/オーバーハングヌクレオチドのために使用することができる。
一部の実施形態では、核酸ライブラリーの調製は、アダプターオリゴヌクレオチド(例えば、試料核酸、試料核酸断片、鋳型核酸への)のライゲーションを含む。アダプターオリゴヌクレオチドはしばしば、フローセルアンカーに対して相補性を示し、時には、例えば、核酸ライブラリーを、固体の支持体、例として、フローセルの内側表面に固定化するために利用される。一部の実施形態では、アダプターオリゴヌクレオチドは、識別子、1つもしくは複数の配列決定プライマーハイブリダイゼーション部位(例えば、ユニバーサル配列決定プライマーに対して相補性を示す配列、単一末端配列決定プライマー、両末端配列決定プライマー、マルチプレックス配列決定プライマー等)、またはそれらの組合せ(例えば、アダプター/配列決定、アダプター/識別子、アダプター/識別子/配列決定)を含む。一部の実施形態では、アダプターオリゴヌクレオチドは、プライマーアニーリングポリヌクレオチド(例えば、フローセルがつながれたオリゴヌクレオチドとのおよび/または遊離増幅プライマーとのアニーリングのための)、インデックスポリヌクレオチド(例えば、異なる試料に由来する核酸を追跡するための試料インデックス配列、試料IDとも呼ばれる)およびバーコードポリヌクレオチド(例えば、配列決定に先立って増幅される試料核酸の個々の分子を追跡するための単一分子バーコード(SMB)、分子バーコードとも呼ばれる)のうち1種または複数を含む。一部の実施形態では、アダプターオリゴヌクレオチドのプライマーアニーリング成分は、1つまたは複数のユニバーサル配列(例えば、1つまたは複数のユニバーサル増幅プライマーと相補的である配列)を含む。一部の実施形態では、インデックスポリヌクレオチド(例えば、試料インデックス、試料ID)は、アダプターオリゴヌクレオチドの成分である。一部の実施形態では、インデックスポリヌクレオチド(例えば、試料インデックス、試料ID)は、ユニバーサル増幅プライマー配列の成分である。
一部の実施形態では、アダプターオリゴヌクレオチドを、増幅プライマー(例えば、ユニバーサル増幅プライマー)と組み合わせて使用する場合に、ユニバーサル配列、分子バーコード、試料ID配列、スペーサー配列および試料核酸配列のうち1つまたは複数を含むライブラリー構築物を生成するように設計する。一部の実施形態では、アダプターオリゴヌクレオチドを、ユニバーサル増幅プライマーと組み合わせて使用する場合に、ユニバーサル配列、分子バーコード、試料ID配列、スペーサー配列および試料核酸配列のうち1つまたは複数の順序の組合せを含むライブラリー構築物を生成するように設計する。例えば、ライブラリー構築物は、第1のユニバーサル配列と、それに続く第2のユニバーサル配列と、それに続く第1の分子バーコードと、それに続くスペーサー配列と、それに続く鋳型配列(例えば、試料核酸配列)と、それに続くスペーサー配列と、それに続く第2の分子バーコードと、それに続く第3のユニバーサル配列と、それに続く試料IDと、それに続く第4のユニバーサル配列とを含みうる。一部の実施形態では、アダプターオリゴヌクレオチドを、増幅プライマー(例えば、ユニバーサル増幅プライマー)と組み合わせて使用する場合に、鋳型分子(例えば、試料核酸分子)の各鎖のライブラリー構築物を生成するように設計する。一部の実施形態では、アダプターオリゴヌクレオチドは、二本鎖アダプターオリゴヌクレオチドである。
識別子は、核酸(例えば、ポリヌクレオチド)中に組み込むまたはそれにつなぐ、適切な検出可能な標識であり、識別子により、それを含む核酸の検出および/または識別が可能になる。一部の実施形態では、識別子を、配列決定法の間に、(例えば、ポリメラーゼにより)核酸中に組み込むまたはそれにつなぐ。識別子の非限定的な例として、核酸タグ、核酸のインデックスもしくはバーコード、放射標識(例えば、同位体)、金属標識、蛍光標識、化学発光標識、リン光標識、フルオロフォアクエンチャー、染料、タンパク質(例えば、酵素、抗体もしくはそのパート、リンカー、結合対のメンバー)等、またはそれらの組合せが挙げられる。一部の実施形態では、識別子(例えば、核酸のインデックスまたはバーコード)は、ユニークな、既知のおよび/または識別可能な配列のヌクレオチドまたはヌクレオチド類似体である。一部の実施形態では、識別子は、6つまたはそれ超の近接ヌクレオチドである。多様な異なる励起スペクトルおよび発光スペクトルを有する多数のフルオロフォアが入手可能である。任意の適切なタイプおよび/または数のフルオロフォアを、識別子として使用することができる。一部の実施形態では、1つもしくは複数、2つもしくはそれ超、3つもしくはそれ超、4つもしくはそれ超、5つもしくはそれ超、6つもしくはそれ超、7つもしくはそれ超、8つもしくはそれ超、9つもしくはそれ超、10個もしくはそれ超、20個もしくはそれ超、30個もしくはそれ超、または50個もしくはそれ超の異なる識別子が、本明細書に記載する方法(例えば、核酸の検出および/または配列決定法)において利用される。一部の実施形態では、1つまたは2つのタイプの識別子(例えば、蛍光標識)を、ライブラリー中のそれぞれの核酸に連結する。識別子の検出および/または定量化を、適切な方法、装置または機械により行うことができ、それらの非限定的な例として、フローサイトメトリー、定量的ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、ルミノメーター、蛍光光度計、分光光度計、適切な遺伝子チップもしくはマイクロアレイによる分析、ウエスタンブロット、質量分析、クロマトグラフィー、細胞蛍光測定法による分析、蛍光顕微鏡法、適切な蛍光法もしくはデジタル撮像法、共焦点レーザー走査顕微鏡法、レーザー走査細胞数測定、親和性クロマトグラフィー、手作業バッチモードによる分離、電場懸濁、適切な核酸配列決定法および/または核酸配列決定装置等、ならびにそれらの組合せが挙げられる。
一部の実施形態では、トランスポゾンに基づくライブラリーの調製方法を使用する(例えば、EPICENTRE NEXTERA、Epicentre、Madison WI)。トランスポゾンに基づく方法は典型的には、in vitroでの転位を使用して、単一チューブ中での反応においてDNAの断片化およびタグ付けを同時に行い(しばしば、プラットフォームに特異的なタグおよび任意選択のバーコードの組込みが可能である)、配列決定装置で使用できるライブラリーを調製する。
一部の実施形態では、核酸ライブラリーまたはそのパートを増幅する(例えば、PCRに基づく方法により増幅する)。一部の実施形態では、配列決定法は、核酸ライブラリーの増幅を含む。核酸ライブラリーを、固体の支持体(例えば、フローセル中の固体の支持体)上への固定化の前または後に増幅することができる。核酸増幅は、(例えば、核酸ライブラリー中に)存在する核酸鋳型および/またはその相補体の数を、鋳型および/またはその相補体の1つまたは複数のコピーを生成することによって増幅するまたは増加させる処理を含む。増幅は、適切な方法により行うことができる。核酸ライブラリーを、サーモサイクリング法または等温増幅法により増幅することができる。一部の実施形態では、ローリングサークル増幅法を使用する。一部の実施形態では、増幅は、核酸ライブラリーまたはその部分が固定化されている、固体の支持体(例えば、フローセルの内部)上で起きる。特定の配列決定法では、核酸ライブラリーを、フローセルに添加し、適切な条件下でのアンカーへのハイブリダイゼーションによりに固定化する。このタイプの核酸増幅をしばしば、固相増幅と呼ぶ。固相増幅の一部の実施形態では、全部または一部の増幅産物を、固定化されたプライマーから開始する伸長により合成する。固相増幅反応は、増幅オリゴヌクレオチド(例えば、プライマー)のうちの少なくとも1つを固体の支持体上に固定化する点を除き、標準的な溶液相の増幅に類似する。一部の実施形態では、修飾された核酸(例えば、アダプターの付加によって修飾された核酸)を増幅する。
一部の実施形態では、固相増幅は、表面に固定化された、1つの種のオリゴヌクレオチドプライマーのみを含む核酸増幅反応を含む。特定の実施形態では、固相増幅は、複数の異なる固定化されたオリゴヌクレオチドプライマー種を含む。一部の実施形態では、固相増幅は、固体表面上に固定化された1つの種のオリゴヌクレオチドプライマー、および溶液中の第2の異なるオリゴヌクレオチドプライマー種を含む核酸増幅反応を含むことができる。固定化されたプライマーまたは溶液に基づくプライマーの複数の異なる種を使用することができる。固相核酸増幅反応の非限定的な例として、界面増幅、ブリッジ増幅、エマルジョンPCR、WildFire増幅(例えば、米国特許出願公開第2013/0012399号)等、またはそれらの組合せが挙げられる。
核酸捕捉
一部の実施形態では、試料核酸(または試料核酸ライブラリー)を、標的捕捉プロセスに付す。一般に、ハイブリダイゼーション条件下で、試料核酸(または試料核酸ライブラリー)をプローブオリゴヌクレオチドのセットと接触させることによって、標的捕捉プロセスを実施する。プローブオリゴヌクレオチドのセット(例えば、捕捉オリゴヌクレオチド)は、一般に、試料核酸中の配列と相補的である、または実質的に相補的である配列を有する複数のプローブオリゴヌクレオチドを含む。複数のプローブオリゴヌクレオチドは、約10種のプローブオリゴヌクレオチド種、約50種のプローブオリゴヌクレオチド種、約100種のプローブオリゴヌクレオチド種、約500種のプローブオリゴヌクレオチド種、約1,000種のプローブオリゴヌクレオチド種、2,000種のプローブオリゴヌクレオチド種、3,000種のプローブオリゴヌクレオチド種、4,000種のプローブオリゴヌクレオチド種、5000種のプローブオリゴヌクレオチド種、10,000種のプローブオリゴヌクレオチド種またはそれより多くを含みうる。一般に、第1のプローブオリゴヌクレオチド種は、第2のプローブオリゴヌクレオチド種とは異なるヌクレオチド配列を有し、セット中の異なる種のプローブオリゴヌクレオチドは、異なるヌクレオチド配列を有する。
プローブオリゴヌクレオチドは、通常、目的の核酸断片(例えば、標的断片)またはその部分とハイブリダイズまたはアニーリング可能なヌクレオチド配列を含む。プローブオリゴヌクレオチドは、天然に存在するものであっても、合成であってもよく、DNAベースであっても、RNAベースであってもよい。プローブオリゴヌクレオチドは、例えば、核酸試料中のその他の断片からの標的断片の特異的分離を可能にしうる。本明細書で使用される用語「特異的」または「特異性」とは、標的ポリヌクレオチドに対するオリゴヌクレオチドなどの、ある分子の、別の分子との結合またはハイブリダイゼーションを指す。「特異的」または「特異性」とは、2種の分子間の、それら2種の分子のいずれかの他の分子との、実質的に少ない認識、接触または複合体形成と比較した、認識、接触および安定な複合体の形成を指す。本明細書で使用する場合、用語「アニーリングする」および「ハイブリダイズする」とは、2種の分子間の安定な複合体の形成を指す。用語「プローブ」、「プローブオリゴヌクレオチド」、「捕捉プローブ」、「捕捉オリゴヌクレオチド」、「捕捉オリゴ」、「オリゴ」または「オリゴヌクレオチド」を、プローブオリゴヌクレオチドを指す場合には本文書全体を通して交換可能に使用することができる。
適したプロセスを使用してプローブオリゴヌクレオチドを設計し、合成でき、目的のヌクレオチド配列とハイブリダイズするのに、また本明細書において記載された分離および/または分析プロセスを実施するのに適した任意の長さでありうる。オリゴヌクレオチドを、目的のヌクレオチド配列(例えば、標的断片配列、ゲノム配列、遺伝子配列)に基づいて設計できる。オリゴヌクレオチド(例えば、プローブオリゴヌクレオチド)は、一部の実施形態では、約10〜約300ヌクレオチド、約50〜約200ヌクレオチド、約75〜約150ヌクレオチド、約110〜約130ヌクレオチドまたは約111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128もしくは129ヌクレオチドの長さでありうる。オリゴヌクレオチドは、天然に存在するヌクレオチドおよび/または天然に存在しないヌクレオチド(例えば、標識されたヌクレオチド)またはそれらの混合物から構成されうる。公知の技術を使用して、本明細書において記載される実施形態を用いる使用に適したオリゴヌクレオチドを合成し、標識することができる。自動シンセサイザーを使用してBeaucageおよびCaruthers(1981年)Tetrahedron Letts.22巻:1859〜1862頁によって最初に記載された固相ホスホルアミダイトトリエステル法に従って、および/またはNeedham−VanDevanterら(1984年) Nucleic Acids Res.12巻:6159〜6168頁に記載のとおり、オリゴヌクレオチドを化学的に合成することができる。オリゴヌクレオチドの精製は、例えば、PearsonおよびRegnier (1983年)J. Chrom. 255巻:137〜149頁に記載されるように、未変性アクリルアミドゲル電気泳動によって、または陰イオン交換高性能液体クロマトグラフィー(HPLC)によって達成できる。
一部の実施形態では、プローブオリゴヌクレオチド配列(天然に存在するまたは合成)のすべてまたは部分は、標的配列またはその部分と実質的に相補的でありうる。本明細書において言及されるように、配列に関して「実質的に相補的」とは、互いにハイブリダイズするヌクレオチド配列を指す。ハイブリダイゼーション条件のストリンジェンシーは、変動する量の配列ミスマッチを許容するように変更することができる。互いに55%もしくはそれより多く、56%もしくはそれより多く、57%もしくはそれより多く、58%もしくはそれより多く、59%もしくはそれより多く、60%もしくはそれより多く、61%もしくはそれより多く、62%もしくはそれより多く、63%もしくはそれより多く、64%もしくはそれより多く、65%もしくはそれより多く、66%もしくはそれより多く、67%もしくはそれより多く、68%もしくはそれより多く、69%もしくはそれより多く、70%もしくはそれより多く、71%もしくはそれより多く、72%もしくはそれより多く、73%もしくはそれより多く、74%もしくはそれより多く、75%もしくはそれより多く、76%もしくはそれより多く、77%もしくはそれより多く、78%もしくはそれより多く、79%もしくはそれより多く、80%もしくはそれより多く、81%もしくはそれより多く、82%もしくはそれより多く、83%もしくはそれより多く、84%もしくはそれより多く、85%もしくはそれより多く、86%もしくはそれより多く、87%もしくはそれより多く、88%もしくはそれより多く、89%もしくはそれより多く、90%もしくはそれより多く、91%もしくはそれより多く、92%もしくはそれより多く、93%もしくはそれより多く、94%もしくはそれより多く、95%もしくはそれより多く、96%もしくはそれより多く、97%もしくはそれより多く、98%もしくはそれより多くまたは99%もしくはそれより多く相補的である標的およびオリゴヌクレオチド配列が含まれる。
目的のヌクレオチド配列(例えば、標的配列)またはその部分に対して実質的に相補的であるプローブオリゴヌクレオチドはまた、標的配列の相補体またはその関連部分と実質的に同様である(例えば、核酸のアンチセンス鎖と実質的に同様)。2種のヌクレオチド配列が実質的に同様であるか否かを決定するための1つの試験は、共有される同一ヌクレオチド配列のパーセントを決定することである。本明細書で使用する場合、配列に関する「実質的に同様」は、互いに55%もしくはそれより多く、56%もしくはそれより多く、57%もしくはそれより多く、58%もしくはそれより多く、59%もしくはそれより多く、60%もしくはそれより多く、61%もしくはそれより多く、62%もしくはそれより多く、63%もしくはそれより多く、64%もしくはそれより多く、65%もしくはそれより多く、66%もしくはそれより多く、67%もしくはそれより多く、68%もしくはそれより多く、69%もしくはそれより多く、70%もしくはそれより多く、71%もしくはそれより多く、72%もしくはそれより多く、73%もしくはそれより多く、74%もしくはそれより多く、75%もしくはそれより多く、76%もしくはそれより多く、77%もしくはそれより多く、78%もしくはそれより多く、79%もしくはそれより多く、80%もしくはそれより多く、81%もしくはそれより多く、82%もしくはそれより多く、83%もしくはそれより多く、84%もしくはそれより多く、85%もしくはそれより多く、86%もしくはそれより多く、87%もしくはそれより多く、88%もしくはそれより多く、89%もしくはそれより多く、90%もしくはそれより多く、91%もしくはそれより多く、92%もしくはそれより多く、93%もしくはそれより多く、94%もしくはそれより多く、95%もしくはそれより多く、96%もしくはそれより多く、97%もしくはそれより多く、98%もしくはそれより多くまたは99%もしくはそれより多く同一であるヌクレオチド配列を指す。
アッセイにおいて使用されるオリゴヌクレオチドの特徴に応じて、ハイブリダイゼーション条件(例えば、アニーリング条件)を決定および/または調整することができる。オリゴヌクレオチド配列および/または長さは、時には、目的の核酸配列とのハイブリダイゼーションに影響を及ぼしうる。オリゴヌクレオチドと目的の核酸の間のミスマッチの程度に応じて、低、中または高ストリンジェンシー条件を使用して、アニーリングを達成できる。本明細書で使用する場合、用語「ストリンジェントな条件」とは、ハイブリダイゼーションおよび洗浄の条件を指す。ハイブリダイゼーション反応温度条件最適化のための方法は、当技術分野で公知であり、Current Protocols in Molecular Biology、John Wiley & Sons、N.Y.、6.3.1〜6.3.6(1989年)に見ることができる。水性および非水性法がその参考文献に記載されており、いずれかを使用できる。ストリンジェントなハイブリダイゼーション条件の限定されない例として、約45℃、6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、それに続く、50℃、0.2×SSC、0.1% SDS中での1回または複数回の洗浄がある。ストリンジェントなハイブリダイゼーション条件の別の例として、約45℃、6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、それに続く、55℃、0.2×SSC、0.1% SDS中での1回または複数回の洗浄がある。ストリンジェントなハイブリダイゼーション条件のさらなる例として、約45℃、6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、それに続く、60℃、0.2×SSC、0.1% SDS中での1回または複数回の洗浄がある。ストリンジェントなハイブリダイゼーション条件は、約45℃、6×塩化ナトリウム/クエン酸ナトリウム(SSC)中でのハイブリダイゼーションと、それに続く、65℃、0.2×SSC、0.1% SDS中での1回または複数回の洗浄であることが多い。ストリンジェンシー条件は、65℃、0.5Mリン酸ナトリウム、7% SDSと、それに続く、65℃、0.2×SSC、1% SDSでの1回または複数回の洗浄であることがより多い。ストリンジェントハイブリダイゼーション温度はまた、例えば、ある特定の有機溶媒、ホルムアミドの添加を用いて変更(すなわち、低下)できる。ホルムアミドのような有機溶媒は、二本鎖ポリヌクレオチドの熱安定性を低減し、その結果、ストリンジェントな条件を維持しながらより低い温度でハイブリダイゼーションを実施でき、熱不安定性でありうる核酸の有用な寿命を延長する。
一部の実施形態では、1種または複数のプローブオリゴヌクレオチドは、アビジン、ストレプトアビジン、抗体または受容体などの捕捉物質と結合しうる、結合対のメンバー(例えば、ビオチン)などの親和性リガンドまたは抗原と関連している。例えば、ストレプトアビジンコーティングされたビーズ上に捕捉されうるように、プローブオリゴヌクレオチドをビオチン化してもよい。
一部の実施形態では、1種または複数のプローブオリゴヌクレオチドおよび/または捕捉物質を、固体の支持体または基材に効果的に連結する。固体の支持体または基材は、これらに限定されないが、マイクロアレイおよびウェルならびに粒子、例えば、ビーズ(例えば、常磁性ビーズ、磁性ビーズ、マイクロビーズ、ナノビーズ)、微小粒子およびナノ粒子によって提供される表面を含めた、プローブオリゴヌクレオチドが直接的または間接的に付着された任意の物理的に分離可能な固体でありうる。固体の支持体としてまた、例えば、チップ、カラム、光ファイバー、ワイプ、フィルター(例えば、平坦な表面フィルター)、1つまたは複数のキャピラリー、ガラスおよび改質ガラスまたは機能化ガラス(例えば、コントロールドポア(controlled−pore)ガラス(CPG))、石英、雲母、ジアゾ化メンブラン(紙またはナイロン)、ポリホルムアルデヒド、セルロース、酢酸セルロース、紙、セラミック、金属、メタロイド、半導体材料、量子ドット、コーティングされたビーズまたは粒子、その他のクロマトグラフィー材料、磁性粒子、プラスチック(アクリル、ポリスチレン、スチレンのコポリマーまたはその他の材料、ポリブチレン、ポリウレタン、TEFLON(登録商標)、ポリエチレン、ポリプロピレン、ポリアミド、ポリエステル、ポリビニリデンジフルオリド(PVDF)等を含む)、多糖、ナイロンまたはニトロセルロース、樹脂、シリカまたはシリコンを含むシリカベースの材料、シリカゲルおよび改質シリコン、Sephadex(登録商標)、Sepharose(登録商標)、炭素、金属(例えば、鋼、金、銀、アルミニウム、シリコンおよび銅)、無機ガラス、導電性ポリマー(ポリピロールおよびポリインドールなどのポリマーを含む)、核酸タイリングアレイなどのミクロ構造もしくはナノ構造表面、ナノチューブ、ナノワイヤーもしくはナノ粒子装飾表面またはメタクリレート、アクリルアミド、糖ポリマー、セルロース、シリケートもしくはその他の線維状もしくはストランドのポリマーなどの多孔性表面もしくはゲルを挙げることができる。一部の実施形態では、固体の支持体または基材を、デキストラン、アクリルアミド、ゼラチンまたはアガロースなどのポリマーを含めた任意の数の材料を用いる受動的または化学的に誘導体化されたコーティングを使用してコーティングしてもよい。ビーズおよび/または粒子は、互いに遊離している場合も、互いに関係している(例えば、焼結された)場合もある。一部の実施形態では、固相は、粒子のコレクションでありうる。一部の実施形態では、粒子は、シリカを含んでもよく、シリカは、二酸化ケイ素を含んでもよい。一部の実施形態では、シリカは、多孔性である場合もあり、ある特定の実施形態では、シリカは、非多孔性である場合もある。一部の実施形態では、粒子は、粒子に常磁性特性を付与する物質をさらに含む。ある特定の実施形態では、物質は、金属を含み、ある特定の実施形態では、物質は、酸化金属(例えば、鉄または酸化鉄であって、酸化鉄がFe2+およびFe3+の混合物を含有する酸化鉄)である。プローブオリゴヌクレオチドは、固体の支持体に共有結合によって連結されても、または非共有相互作用によって連結されてもよく、固体の支持体に直接的に連結されても、間接的に(例えば、スペーサー分子またはビオチンなどの中間物質を介して)連結されてもよい。プローブオリゴヌクレオチドは、核酸捕捉の前、その間またはその後に固体の支持体に連結してもよい。
本明細書において記載されたアダプター配列の付加によって修飾された等、修飾されている核酸を捕獲できる。一部の実施形態では、未修飾核酸を捕捉する。一部の実施形態では、PCRなどの増幅プロセスによって、捕捉前および/または捕捉後に核酸を増幅してもよい。用語「捕捉された核酸」は、一般に、捕捉されている核酸を含み、捕捉され、増幅されている核酸を含む。一部の実施形態では、捕捉された核酸を、捕捉および増幅のさらなるラウンドに付すことができる。捕捉された核酸を、本明細書において記載された配列決定プロセス等によって配列決定することができる。
核酸配列決定および処理
本明細書において提供される方法は、一般に、核酸配列決定および分析を含む。一部の実施形態では、核酸を配列決定し、配列決定産物(例えば、配列の読取りのコレクション)を、配列決定された核酸の分析の前、またはそれとともに処理する。例えば、配列の読取りを、以下のうち1つまたは複数に従って処理できる:アラインすること、マッピングすること、フィルタリング部分、選択部分、カウント数計測、正規化すること、重み付け、プロファイルを作製すること等およびそれらの組合せ。ある特定の処理ステップは、任意の順序で実施してよく、ある特定の処理ステップを反復してもよい。例えば、部分をフィルタリングし、それに続いて、配列読取りカウント数を正規化してもよく、ある特定の実施形態では、配列読取りカウント数を正規化し、それに続いて部分フィルタリングしてもよい。一部の実施形態では、部分フィルタリングステップに、配列読取りカウント数正規化とそれに続くさらなる部分フィルタリングステップを続ける。ある特定の配列決定法および処理ステップを、以下にさらに詳細に記載する。
配列決定
一部の実施形態では、核酸(例えば、核酸断片、試料核酸、無細胞核酸)の配列決定を行う。特定の例では、完全または実質的に完全な配列を得、時には、部分的な配列を得る。核酸配列決定は、一般に、配列の読取りのコレクションをもたらす。本明細書で使用する場合、「読取り」(reads)(例えば、「読取り」(a read)、「配列の読取り」(a sequence read))は、本明細書に記載されるか、または当技術分野で公知である、任意の配列決定の処理により生成された短いヌクレオチド配列である。読取りは、核酸断片の一方の末端から生成させることができ(「単一末端からの読取り」)、時には、核酸断片の両方の末端から生成させる(例えば、両末端からの読取り、2つの末端からの読取り)。
配列の読取りの長さはしばしば、特定の配列決定の技術と関連する。例えば、高スループット法は、塩基対(bp)のサイズが数十から数百まで変化し得る配列の読取りを提供する。例えば、ナノポア配列決定は、塩基対のサイズが数十から数百または数千まで変化し得る配列の読取りを提供することができる。一部の実施形態では、配列の読取りの平均、中央値、平均の長さまたは絶対長が、約15bp〜約900bp長である。特定の実施形態では、配列の読取りの平均、中央値、平均の長さまたは絶対長が、約1000bpまたはそれ超である。一部の実施形態では、配列の読取りは、約1500、2000、2500、3000、3500、4000、4500、もしくは5000bpまたはそれより多くの平均、中央値、平均の長さまたは絶対長のものである。一部の実施形態では、配列の読取りは、約100bp〜約200bpの平均、中央値、平均の長さまたは絶対長のものである。一部の実施形態では、配列の読取りは、約140bp〜約160bpの平均、中央値、平均の長さまたは絶対長のものである。例えば、配列の読取りは、約140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159もしくは160bpの平均、中央値、平均の長さまたは絶対長のものであり得る。
一部の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長が、時には、約10個の連続ヌクレオチド〜約250個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約200個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約150個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約125個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約100個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約75個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約60個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約50個もしくはそれ超の連続ヌクレオチド、約15個の連続ヌクレオチド〜約40個もしくはそれ超の連続ヌクレオチドであり、時には、約15個の連続ヌクレオチド、または約36個もしくはそれ超の連続ヌクレオチドである。特定の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長が、約20〜約30塩基長、または約24〜約28塩基長である。特定の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長が、約1、約2、約3、約4、約5、約6、約7、約8、約9、約10、約11、約12、約13、約14、約15、約16、約17、約18、約19、約21、約22、約23、約24、約25、約26、約27、約28、もしくは約29塩基長またはそれ超である。ある特定の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長は、約20〜約200塩基、約100〜約200塩基または約140〜約160塩基の長さである。ある特定の実施形態では、単一末端からの読取りの名目上、平均値、平均の長さまたは絶対長は、約30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190または約200塩基もしくはそれ超の長さである。ある特定の実施形態では、両末端から読む読取りの名目上、平均値、平均の長さまたは絶対長は、場合によって、約10連続ヌクレオチド〜約25連続ヌクレオチドまたはそれ超(例えば、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、または25ヌクレオチドの長さまたはそれ超)、約15連続ヌクレオチド〜約20連続ヌクレオチドまたはそれ超であり、場合によって、約17連続ヌクレオチド、または約18連続ヌクレオチドである。ある特定の実施形態では、両末端から読む読取りの名目上、平均値、平均の長さまたは絶対長は、約25連続ヌクレオチド〜約400連続ヌクレオチドもしくはそれより多く(例えば、約25、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390または400ヌクレオチドの長さもしくはそれ超)、約50連続ヌクレオチド〜約350連続ヌクレオチドもしくはそれ超、約100連続ヌクレオチド〜約325連続ヌクレオチド、約150連続ヌクレオチド〜約325連続ヌクレオチド、約200連続ヌクレオチド〜約325連続ヌクレオチド、約275連続ヌクレオチド〜約310連続ヌクレオチド、約100連続ヌクレオチド〜約200連続ヌクレオチド、約100連続ヌクレオチド〜約175連続ヌクレオチド、約125連続ヌクレオチド〜約175連続ヌクレオチド、場合によって約140連続ヌクレオチド〜約160連続ヌクレオチドである。ある特定の実施形態では、両末端から読む読取りの名目上、平均値、平均の長さまたは絶対長は、約150連続ヌクレオチド、場合によって150連続ヌクレオチドである。
一部の実施形態では、試料から得られたヌクレオチド配列の読取りは、部分ヌクレオチド配列の読取りである。本明細書で使用する場合、「部分ヌクレオチド配列の読取り」とは、不完全な配列情報を有する任意の長さの配列の読取りを指し、また、配列アンビギュイティとも呼ばれる。部分ヌクレオチド配列の読取りは、核酸塩基同一性および/または核酸塩基位置もしくは順序に関する情報を欠く場合もある。部分ヌクレオチド配列の読取りは、一般に、不完全な配列情報のみ(または塩基のうちすべてより少ないものが配列決定されるか、または決定される)が、偶発性または意図しない配列決定誤差による配列の読取りを含まない。このような配列決定誤差は、ある特定の配列決定プロセスに特有ではない場合があり、例えば、核酸塩基同一性についての不正確なコールおよび失われた核酸塩基または余分の核酸塩基が挙げられる。したがって、本明細書において部分ヌクレオチド配列の読取りについて、配列についてのある特定の情報は、計画的に排除されることが多い。すなわち、核酸塩基のすべてより少ないものに関して配列情報を計画的に得、そうでなければ、配列決定誤差と特徴付けられうる、もしくは配列決定誤差でありうる。一部の実施形態では、部分ヌクレオチド配列読取りは、核酸断片の部分に広がりうる。一部の実施形態では、部分ヌクレオチド配列読取りは、核酸断片の全長に広がりうる。部分ヌクレオチド配列の読取りは、すべての本文、表、式および図面を含むその全内容が参照により本明細書に組み込まれる例えば、国際特許出願公開第WO2013/052907号に記載されている。
読取りは一般に、ヌクレオチド配列の、物理的な核酸で示す表示である。例えば、ATGCと描写される配列を含有する読取りでは、物理的な核酸として、「A」はアデニンヌクレオチドを表示し、「T」はチミンヌクレオチドを表示し、「G」はグアニンヌクレオチドを表示し、「C」はシトシンヌクレオチドを表示する。対象由来の試料から得られた配列の読取りは、少量の核酸および多量の核酸の混合物に由来する読取りでありうる。例えば、がん患者の血液から得られた配列の読取りは、がん性の核酸および非がん性の核酸の混合物に由来する読取りでありうる。別の例では、妊娠中の雌の血液から得られた配列の読取りは、胎仔核酸および母体核酸の混合物に由来する読取りでありうる。比較的短い読取りの混合物を、本明細書において記載されたプロセスによって対象中に存在するゲノム核酸の表示および/または腫瘍もしくは胎仔中に存在するゲノム核酸の表示に変換できる。特定の事例では、比較的短い読取りの混合物を、例えば、コピー数の変更、遺伝子の変動/遺伝子の変更または異数性の表示に変換できる。一例では、がん性のおよび非がん性の核酸の混合物の読取りを、がん性細胞および非がん性の細胞染色体のうち一方または両方の特徴を含む複合染色体またはその一部の表示に変換できる。別の例では、母体および胎仔核酸の混合物の読取りを、母体および胎仔染色体のうち一方または両方の特徴を含む複合染色体またはその一部の表示に変換できる。
一部の場合では、がん患者から得られた循環型無細胞核酸断片(CCF断片)は、正常細胞(すなわち、非がん性の断片)に起因する核酸断片およびがん細胞(すなわち、がん性断片)に起因する核酸断片を含む。正常細胞(すなわち、非がん性の細胞)に起因するCCF断片に由来する配列の読取りは、本明細書において「非がん性の読取り」と呼ばれる。がん細胞に起因するCCF断片に由来する配列の読取りは、本明細書において「がん読取り」と呼ばれる。非がん性の読取りが得られるCCF断片は、本明細書において、非がん性の鋳型と呼ばれることもあり、がん読取りが得られるCCF断片は、本明細書において、がん鋳型と呼ばれることもある。
一部の場合では、妊娠中の雌から得られた循環型無細胞核酸断片(CCF断片)は、胎性細胞に起因する核酸断片(すなわち、胎仔断片)および母体細胞に起因する核酸断片(すなわち、母体断片)を含む。胎仔に起因するCCF断片に由来する配列の読取りは、本明細書において「胎仔読取り」と呼ばれる。胎仔を有する妊娠中の雌(例えば、母)のゲノムに起因するCCF断片に由来する配列の読取りは、本明細書において「母体読取り」と呼ばれる。胎仔読取りが得られるCCF断片は、本明細書において胎仔鋳型と呼ばれ、母体読取りが得られるCCF断片は、本明細書において母体鋳型と呼ばれる。
特定の実施形態では、対象から得られた試料の核酸配列の読取りを「得」ること、かつ/または1人もしくは複数の参照の人から得られた生物学的検体の核酸配列の読取りを「得る」ことには、核酸の配列決定を直接行って、配列情報を得ることを含むことができる。一部の実施形態では、「得る」ことは、他者が核酸から直接得た配列情報を受け取ることを含むことができる。
一部の実施形態では、配列決定の前またはその間に、試料中の一部またはすべての核酸を濃縮および/または増幅する(例えば、非特異的に、例えば、PCRベースの方法によって)。ある特定の実施形態では、配列決定の前またはその間に、試料中の特定の核酸種またはサブセットを濃縮および/または増幅する。一部の実施形態では、核酸の予め選択されたプールの種またはサブセットを、無作為に配列決定する。一部の実施形態では、配列決定の前またはその間に、試料中の核酸を、濃縮および/または増幅しない。
一部の実施形態では、ゲノムの代表的なフラクションが、配列決定され、時には、「カバレッジ」または「カバレッジ倍率」と呼ばれる。例えば、1倍のカバレッジは、ゲノムのヌクレオチド配列のおおよそ100%が、読取りにより表示されることを示す。一部の場合では、カバレッジ倍率とは、「配列決定の深さ」と呼ばれる(それに正比例している)。一部の実施形態では、「カバレッジ倍率」は、参照としての以前の配列決定のランを参照して比較する用語である。例えば、第2の配列決定のランが、第1の配列決定のランのカバレッジの1/2である場合がある。一部の実施形態では、冗長性をもたせて、ゲノムの配列決定を行い、この場合、ゲノムの所与の領域を、2つもしくはそれ超の読取り、またはオーバーラップする読取りがカバーすることができる(例えば、1超の「カバレッジ倍率」、例えば、2倍のカバレッジ)。一部の実施形態では、ゲノム(例えば、全ゲノム)を、約0.01倍〜約100倍カバレッジ、約0.1倍〜20倍カバレッジまたは約0.1倍〜約1倍カバレッジで配列決定する(例えば、約0.015、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90倍またはそれより多いカバレッジ)。一部の実施形態では、ゲノムの特定の部分(例えば、標的化方法および/またはプローブに基づく方法に由来するゲノム部分)を配列決定し、カバレッジ倍率値は、一般に、配列決定された特定のゲノム部分のフラクションを指す(すなわち、カバレッジ倍率値は、全ゲノムを指さない)。一部の場合では、特定のゲノム部分を1000倍カバレッジで、またはそれを超えて配列決定する。例えば、特定のゲノム部分を、2000倍、5,000倍、10,000倍、20,000倍、30,000倍、40,000倍または50,000倍カバレッジで配列決定してもよい。一部の実施形態では、配列決定は、約1,000倍〜約100,000倍カバレッジでである。一部の実施形態では、配列決定は、約10,000倍〜約70,000倍カバレッジでである。一部の実施形態では、配列決定は、約20,000倍〜約60,000倍カバレッジでである。一部の実施形態では、配列決定は、約30,000倍〜約50,000倍カバレッジでである。
一部の実施形態では、1つの個体から得られた1つの核酸試料の配列決定を行う。特定の実施形態では、2つまたはそれ超の試料のそれぞれから得られた核酸の配列決定を行い、この場合、試料は、1つの個体から得られるか、または異なる個体から得られる。特定の実施形態では、2つまたはそれ超の生物学的試料から得られた核酸試料をプールし、この場合、それぞれの生物学的試料が、1つの個体、または2つもしくはそれ超の個体から得られ、プールした試料の配列決定を行う。後者の実施形態では、それぞれの生物学的試料から得られた核酸試料をしばしば、1つまたは複数のユニークな識別子により識別する。
一部の実施形態では、配列決定法は、配列決定の処理における配列決定反応のマルチプレックス化を可能にする識別子を利用する。ユニークな識別子の数が多くなるほど、例えば、配列決定の処理においてマルチプレックス化することができる、検出される試料および/または染色体の数が増える。任意の適切な数(例えば、4、8、12、24、48、96個またはそれ超)のユニークな識別子を使用して、配列決定の処理を行うことができる。
配列決定の処理は、時には固相を使用し、固相は、時にはフローセルを含み、その上に、ライブラリーに由来する核酸をつなぐことができ、試薬を、流し、つなげた核酸と接触させることができる。フローセルは時には、フローセルのレーンを含み、識別子の使用により、それぞれのレーン中のいくつかの試料の分析を促進することができる。フローセルはしばしば、結合させた分析対象を保持し、かつ/または結合させた分析対象上を試薬溶液が整然と通過するのを可能にするように構成することができる固体の支持体である。フローセルは、多くの場合、平面形状をとり、光学的に透明であり、一般に、ミリメートルのまたはミリメートルを下回るスケールであり、しばしば、チャネルまたはレーンを有し、それらの中で、分析対象と試薬との相互作用が発生する。一部の実施形態では、フローセルの所与のレーン中の分析される試料の数は、ライブラリーの調製および/またはプローブの設計の間に利用されるユニークな識別子の数に依存する。例えば、12個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、96ウエルのマイクロウエルプレート中のウエルの数に等しい)96個の試料を同時に分析するのが可能になる。同様に、例えば、48個の識別子を使用するマルチプレックス化により、8レーンのフローセル中の(例えば、384ウエルのマイクロウエルプレート中のウエルの数に等しい)384個の試料を同時に分析するのも可能になる。市販されているマルチプレックス配列決定キットの非限定的な例として、Illuminaのマルチプレックス化試料調製オリゴヌクレオチドキット、ならびにマルチプレックス化配列決定プライマーおよびPhiX制御キット(例えば、それぞれ、Illuminaのカタログ番号PE−400〜1001およびPE−400〜1002)が挙げられる。
核酸の配列決定を行う任意の適切な方法を使用することができ、それらの非限定的な例として、Maxim & Gilbert、鎖停止法、合成による配列決定、ライゲーションによる配列決定、質量分析による配列決定、顕微鏡法に基づく技法等、またはそれらの組合せが挙げられる。一部の実施形態では、本明細書に提供する方法では、第一世代の技術、例えば、サンガー配列決定法等(これらとして、マイクロ流体サンガー配列決定を含めた、自動化サンガー配列決定法が挙げられる)を使用することができる。一部の実施形態では、核酸の撮像技術(例えば、透過型電子顕微鏡法(TEM)および原子間力顕微鏡法(AFM))の使用を含む配列決定の技術を使用することができる。一部の実施形態では、高スループット配列決定法を使用する。高スループット配列決定法は一般に、DNA鋳型または単一のDNA分子をクローン的に増幅することを含み、これらの鋳型または分子の配列決定を、大規模に並行して、時にはフローセルの内部で行う。大規模に並行してDNAの配列決定を行うことが可能な次世代(例えば、第2世代および第3世代)の配列決定の技法を、本明細書に記載する方法のために使用することができ、本明細書では、これらをまとめて「大規模並行配列決定」(MPS)と呼ぶ。一部の実施形態では、MPS配列決定法は、標的化のアプローチを利用し、この場合、特定の染色体、遺伝子、または目的の領域の配列決定を行う。特定の実施形態では、標的化しないアプローチを使用し、この場合、ランダムに、試料中のほとんどまたは全ての核酸の配列決定を行い、それらを増幅し、かつ/または捕捉する。
一部の実施形態では、濃縮、増幅および/または配列決定の標的化アプローチを使用する。標的化のアプローチはしばしば、試料中の核酸のサブセットを単離、選択および/または濃縮して、配列に特異的なオリゴヌクレオチドの使用によりさらなる処理を行う。一部の実施形態では、配列に特異的なオリゴヌクレオチドのライブラリーを利用して、試料中の核酸の1つまたは複数のセットを標的にする(例えば、それらにハイブリダイズさせる)。しばしば、配列に特異的なオリゴヌクレオチドおよび/またはプライマーは、目的の染色体、遺伝子、エクソン、イントロンおよび/または調節領域の1つまたは複数中に存在する特定の配列(例えば、ユニークな核酸配列)選択的である。任意の適切な方法または方法の組合せを使用して、標的とされる核酸の1つまたは複数のサブセットの濃縮、増幅および/または配列決定を行うことができる。一部の実施形態では、標的とされる配列を、1つまたは複数の配列特異的アンカーを使用して固相(例えば、フローセル、ビーズ)に捕捉することにより単離および/または濃縮する。一部の実施形態では、配列に特異的なプライマーおよび/またはプライマーセットを使用する、ポリメラーゼに基づく方法(例えば、ポリメラーゼに基づく任意の適切な伸長によるPCRに基づく方法)により、標的とされる配列を濃縮および/または増幅する。配列特異的アンカーはしばしば、配列特異的プライマーとして使用することができる。
MPS配列決定は時には、合成による配列決定および特定の可視化処理を使用する。本明細書に記載する方法において使用することができる核酸の配列決定の技術は、合成による配列決定および可逆的鎖停止ヌクレオチドに基づく配列決定(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ2500(Illumina、San Diego CA))である。この技術を用いれば、数百万個の核酸(例えば、DNA)断片に対して、並行して配列決定を行うことができる。このタイプの配列決定の技術の1つの例では、8つの個々のレーンを有する光学的に透明なスライドを含有するフローセルを使用し、それらの表面上に、オリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合している。
合成による配列決定は、一般に、鋳型に導かれて、プライマーまたは既存の核酸鎖に、ヌクレオチドを反復して(例えば、共有結合性の付加により)付加することによって実施される。ヌクレオチドが反復付加される度に、検出を行い、核酸鎖の配列が得られるまで、この処理を複数回繰り返す。得られる配列の長さは一つには、実施される付加および検出のステップの数に依存する。合成による配列決定の一部の実施形態では、1回のヌクレオチド付加で、同じタイプ(例えば、A、G、CまたはT)の1、2、3つまたはそれ超のヌクレオチドを、付加し、検出する。ヌクレオチドは、任意の適切な(例えば、酵素または化学的)方法によりにより付加することができる。例えば、一部の実施形態では、ポリメラーゼまたはリガーゼが、鋳型に導かれて、プライマーまたは既存の核酸鎖にヌクレオチドを付加する。合成による配列決定の一部の実施形態では、異なるタイプのヌクレオチド、ヌクレオチド類似体および/または識別子を使用する。一部の実施形態では、可逆的鎖停止ヌクレオチドおよび/または除去可能(例えば、切断可能)な識別子を使用する。一部の実施形態では、蛍光標識されたヌクレオチドおよび/またはヌクレオチド類似体を使用する。特定の実施形態では、合成による配列決定は、切断(例えば、識別子の切断および除去)ならびに/または洗浄ステップを含む。一部の実施形態では、1つまたは複数のヌクレオチドの付加を、本明細書に記載するまたは当技術分野で公知である適切な方法により検出し、それらの非限定的な例として、任意の適切な撮像装置、適切なカメラ、デジタルカメラ、CCD(チャージカップリングデバイス)に基づく撮像装置(例えば、CCDカメラ)、CMOS(相補型金属酸化膜半導体(Complementary Metal Oxide Silicon))に基づく撮像装置(例えば、CMOSカメラ)、光ダイオード(例えば、光電子増倍管)、電子顕微鏡法、電界効果トランジスタ(例えば、DNA電界効果トランジスタ)、ISFETイオンセンサー(例えば、CHEMFETセンサー)等、またはそれらの組合せが挙げられる。
本明細書に記載する実施方法に適切なMPSの方法、システムまたは技術プラットフォームを使用して、核酸を配列決定の読取りを得ることができる。MPSプラットフォームの非限定的な例として、Illumina/Solex/HiSeq(例えば、IlluminaのGenome Analyzer;Genome Analyzer II;HISEQ2000;HISEQ)、SOLiD、Roche/454、PACBIOおよび/またはSMRT、Helicos True Single Molecule Sequencing、Ion Torrentおよびイオン半導体に基づく配列決定(例えば、Life Technologiesが開発したもの)、WildFire、5500、5500xl Wおよび/または5500xl W Genetic Analyzerに基づく技術(例えば、Life Technologiesが開発し、販売するもの、米国特許出願公開第2013/0012399号);ポロニー配列決定、パイロ配列決定、大規模並行シグネチャー配列決定(MPSS)、RNAポリメラーゼ(RNAP)配列決定、LaserGenのシステムおよび方法、ナノポアに基づくプラットフォーム、化学感応性電界効果トランジスタ(CHEMFET)アレイ、電子顕微鏡法に基づく配列決定(例えば、ZS Genetics、Halcyon Molecularが開発したもの)、ナノボール配列決定などまたはその組合せが挙げられる。本明細書における方法を実施するために使用してもよいその他の配列決定法として、デジタルPCR、ハイブリダイゼーションによる配列決定、ナノポア配列決定、染色体特異的配列決定(例えば、DANSR(選択された領域のデジタル分析)を使用する)技術が挙げられる。
一部の実施形態では、配列モジュールによって、配列の読取りを生成し、入手し、収集し、集積し、操作し、変換し、処理し、および/または提供する。配列モジュールを含む機械は、当技術分野で公知の配列決定技術を利用して核酸の配列を決定する適した機械および/または装置でありうる。一部の実施形態では、配列モジュールは、整列、集積、断片化、補完、逆補完および/または誤差チェック(例えば、配列の読取りを誤差修正する)することができる。
読取りのマッピング
配列の読取りをマッピングすることができ、特定の核酸領域(例えば、染色体、またはその部分)に対してマッピングする読取りの数を、カウント数と呼ぶ。任意の適切なマッピングの方法(例えば、処理、アルゴリズム、プログラム、ソフトウェア、モジュール等、またはそれらの組合せ)を使用することができる。下記に、マッピング処理の特定の態様を記載する。
ヌクレオチド配列の読取り(すなわち、ゲノムの物理的な位置が不明である断片から得られた配列情報)のマッピングを、いくつかの方法で実施することができ、これはしばしば、得られた配列の読取りの、参照ゲノム中の一致する配列とのアラインメントを含む。そのようなアラインメントでは、配列の読取りを一般に、参照配列に対して整列させ、整列させた読取りを、「マッピング」されている、「マッピングされた配列の読取り」または「マッピングされた読取り」と呼ぶ。特定の実施形態では、マッピングされた配列の読取りを、「ヒット」または「カウント数」と呼ぶ。一部の実施形態では、マッピングされた配列の読取りを、種々のパラメータに従って、一緒にしてグループ化し、特定のゲノム部分に割り当てるが、これに関しては、下記にさらに詳細に論じる。
用語「整列させた(aligned)」、「アラインメント(alignment)」または「整列する(aligning)」により、該して、一致(例えば、100%同一)または部分一致と識別され得る2つまたはそれ超の核酸配列について言及する。アラインメントは、手作業でまたはコンピュータ(例えば、ソフトウェア、プログラム、モジュールもしくはアルゴリズム)により行うことができ、それらの非限定的な例として、Illumina Genomics Analysisパイプラインの一部として流通されているEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムが挙げられる。配列の読取りのアラインメントは、100%配列一致であり得る。場合によっては、アラインメントは、100%配列一致よりも低い(すなわち、不完全一致、部分一致、部分アラインメント)。一部の実施形態では、アラインメントは、約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%または75%一致である。一部の実施形態では、アラインメントは、不一致を含む。一部の実施形態では、アラインメントは、1、2、3、4または5つの不一致を含む。2つまたはそれ超の配列は、いずれかの鎖(例えば、センスまたはアンチセンス鎖)を使用して整列させることができる。特定の実施形態では、核酸配列を、別の核酸配列の逆相補体と整列させる。
種々の計算方法を使用して、配列のそれぞれの読取りをある部分に対してマッピングすることができる。配列を整列させるために使用することができるコンピュータアルゴリズムの非限定的な例として、BLAST、BLITZ、FASTA、BOWTIE1、BOWTIE2、ELAND、MAQ、PROBEMATCH、SOAP、BWAもしくはSEQMAP、またはそれらの変更形態もしくはそれらの組合せが挙げられるが、これらに限定されない。一部の実施形態では、配列の読取りを、参照ゲノム中の配列と整列させることができる。一部の実施形態では、配列の読取りを、例えば、GenBank、dbEST、dbSTS、EMBL(European Molecular Biology Laboratory)およびDDBJ(DNA Databank of Japan)を含めた、当技術分野で公知の核酸のデータベース中に見出し、かつ/またはそれらの中の配列と整列させることができる。BLASTまたは類似のツールを使用して、識別された配列を配列データベースに照らして検索することができる。次いで、例えば、(下記に記載するように)検索ヒットを使用して、識別された配列を適切な部分に選別することができる。
一部の実施形態では、読取りを、参照ゲノム中の部分に対してユニークまたは非ユニークにマッピングすることができる。参照ゲノム中の単一配列との整列の場合であれば、読取りは、「ユニークにマッピングされる」とみなされる。参照ゲノム中の2つまたはそれ超の配列との整列の場合であれば、読取りは、「非ユニークにマッピングされる」とみなされる。一部の実施形態では、非ユニークにマッピングされた読取りは、さらなる分析(例えば、定量化)から排除される。特定の実施形態では、特定の、低い程度の不一致(0〜1つ)は、参照ゲノムと、マッピングされている、個々の試料から得られた読取りとの間に存在し得る単一ヌクレオチド多型であると説明することができる場合がある。一部の実施形態では、参照配列に対してマッピングされる読取りには、いかなる程度の不一致も許されない。
本明細書で使用する場合、用語「参照ゲノム」は、部分配列であれ、完全配列であれ、任意の生物またはウイルスの任意の特定の公知の配列決定されたまたは特徴付けられたゲノムであって、対象由来の識別された配列を照会するために使用することができるゲノムを指すことができる。例えば、ヒト対象および多くのその他の生物のために使用する参照ゲノムを、World Wide Web URL ncbi.nlm.nih.govにおけるNational Center for Biotechnology Informationにおいて見出すことができる。「ゲノム」は、核酸配列として表される、生物またはウイルスの完全な遺伝情報を指す。本明細書で使用する場合、参照配列または参照ゲノムはしばしば、1つの個体または複数の個体から得られた、集められたまたは部分的に集められたゲノム配列である。一部の実施形態では、参照ゲノムは、1つまたは複数のヒト個体から得られた、集められたまたは部分的に集められたゲノム配列である。一部の実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。
特定の実施形態では、マッピング可能性を、ゲノム領域(例えば、部分、ゲノム部分)について評価する。マッピング可能性は、ヌクレオチド配列の読取りを、参照ゲノムのある部分に対して、典型的には、例えば、0、1、2つまたはそれ超の不一致を含めた、特定の数の不一致が存在するだけで、明確に整列させることができることである。所与のゲノム領域について、事前にセットされた、読取りの長さのスライディングウィンドウのアプローチを使用し、得られた、読取りレベルのマッピング可能性の値を平均化して、予想されるマッピング可能性を推定することができる。ユニークなヌクレオチド配列のストレッチを含むゲノム領域が時には、高いマッピング可能性の値を有する。
両末端から読む配列決定のために、適したマッピングおよび/またはアラインメントプログラムの使用によって、読取りを参照ゲノムにマッピングしてもよく、その限定されない例として、BWA(Li H.およびDurbin R. (2009年)Bioinformatics 25巻、1754〜60頁)、Novoalign [Novocraft(2010年)]、Bowtie (Langmead Bら、(2009年)Genome Biol. 10巻:R25)、SOAP2(Li Rら、(2009年)Bioinformatics 25巻、1966〜67頁)、BFAST(Homer Nら、(2009年) PLoS ONE 4巻、e7767)、GASSST(Rizk,G.およびLavenier,D. (2010年)Bioinformatics 26巻、2534〜2540頁)およびMPscan(Rivals E.ら(2009年)Lecture Notes in Computer Science 5724巻、246〜260頁)等が挙げられる。両末端からの読取りを、適した短い読取りアラインメントプログラムを使用してマッピングし、および/またはアラインすることができる。短い読取りアラインメントプログラムの限定されない例として、BarraCUDA、BFAST、BLASTN、BLAT、Bowtie、BWA、CASHX、CUDA−EC、CUSHAW、CUSHAW2、drFAST、ELAND、ERNE、GNUMAP、GEM、GensearchNGS、GMAP、Geneious Assembler、iSAAC、LAST、MAQ、mrFAST、mrsFAST、MOSAIK、MPscan、Novoalign、NovoalignCS、Novocraft、NextGENe、Omixon、PALMapper、Partek、PASS、PerM、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOCS、SSAHA、SSAHA2、Stampy、SToRM、Subread、Subjunc、Taipan、UGENE、VelociMapper、TimeLogic、XpressAlign、ZOOM等またはそれらの組合せが挙げられる。両末端からの読取りは、参照ゲノムに従って、同一ポリヌクレオチド断片の対向する末端にマッピングされることが多い。一部の実施形態では、読取りメイトを独立にマッピングする。一部の実施形態では、両方の配列の読取り(すなわち、各末端から)に由来する情報をマッピング処理に織り込む。両末端からの読取りメイト間に位置する核酸の配列を決定および/または推測するために、参照ゲノムが使用されることが多い。本明細書で使用される用語「不調和な読取り対」とは、一方または両方の読取りメイトが、幾分かは、連続ヌクレオチドのセグメントによって、定義される参照ゲノムの同一領域に明確にマッピングされることができない、読取りメイトの対を含む両末端からの読取りを指す。一部の実施形態では、不調和な読取り対は、参照ゲノムの予想外の位置にマッピングされる両末端からの読取りメイトである。参照ゲノムの予想外の位置の限定されない例として、(i)2つの異なる染色体、(ii)所定の断片サイズよりも大きく(例えば、300bpよりも大きく、500bpよりも大きく、1000bpよりも大きく、5000bpよりも大きく、または10,000bpよりも大きく)分離された位置、(iii)参照配列と一致しない配向(例えば、反対の配向)等またはそれらの組合せが挙げられる。一部の実施形態では、不調和な読取りメイトを、試料中の鋳型ポリヌクレオチド断片の長さ(例えば、平均長さ、所定の断片サイズ)または予測される長さに従って同定する。例えば、試料中のポリヌクレオチド断片の平均長さまたは予測される長さよりも大きく分離されている位置にマッピングされる読取りメイトを、不調和な読取り対として同定することがある。反対の配向でマッピングされる読取り対を、読取りの一方の逆補完をとることおよび参照配列の同一鎖を使用して両方の読取りのアラインメントを比較することによって決定することもある。不調和な読取り対は、当技術分野で公知の、または本明細書において記載される任意の適した方法および/またはアルゴリズム(例えば、SVDetect、Lumpy、BreakDancer、BreakDancerMax、CREST、DELLY等またはそれらの組合せ)によって同定できる。
部分
一部の実施形態では、マッピングされた配列の読取りを、種々のパラメータに従って一緒にグループ化し、特定のゲノム部分(例えば、参照ゲノムの部分)に割り当てる。「部分」とは、本明細書において、「ゲノム区分」、「ビン」、「区画」、「参照ゲノムの部分」、「染色体の部分」または「ゲノム部分」とも呼ぶことがある。
部分は、1つまたは複数の特徴に従ってゲノムを区分化することによって定義されることが多い。ある特定の区分化特徴の限定されない例として、長さ(例えば、固定された長さ、固定されていない長さ)およびその他の構造的特徴が挙げられる。ゲノム部分は、時には、以下の特徴のうち1つまたは複数:固定された長さ、固定されていない長さ、ランダムな長さ、ランダムではない長さ、等しい長さ、等しくはない長さ(例えば、ゲノム部分の少なくとも2つが等しくはない長さのものである)を含み、オーバーラップしない(例えば、ゲノム部分の3’末端は、時には、隣接するゲノム部分の5’末端と隣接する)、オーバーラップする(例えば、ゲノム部分の少なくとも2つがオーバーラップする)、連続する、継続的である、連続しないおよび継続的ではない。ゲノム部分は、時には、約1〜約1,000キロベースの長さ(例えば、約2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、300、400、500、600、700、800、900キロベースの長さ)、約5〜約500キロベースの長さ、約10〜約100キロベースの長さまたは約40〜約60キロベースの長さである。
区分化することは、時には、例えば、情報内容および情報獲得などのある特定の情報的特徴に基づいている、または幾分かはそれに基づいている。ある特定の情報的特徴の限定されない例として、アラインメントの速度および/または利便性、配列決定カバレッジの可変性、GC含量(例えば、層別化されたGC含量、特定のGC含量、高または低GC含量)、GC含量の不均一性、配列含量のその他の尺度(例えば、個々のヌクレオチドのフラクション、ピリミジンまたはプリンのフラクション、天然対非天然核酸のフラクション、メチル化ヌクレオチドのフラクションおよびCpG含量)、メチル化状態、二重鎖の融解温度、配列決定またはPCRに対する従順性、参照ゲノムの個々の部分に割り当てられた不確実性の値、ならびに/または特定の特徴を標的とする検索結果が挙げられる。一部の実施形態では、正常と確認された対象群と異常と確認された対象群と(例えば、それぞれ、正倍数体の対象とトリソミーの対象と)を区別するための特定のゲノムの場所の有意性を測定するp値プロファイルを使用して、情報内容を定量化できる。
一部の実施形態では、ゲノムを区分化することにより、ゲノムにわたり、類似する領域(例えば、同一な領域もしくは相同な領域または同一な配列もしくは相同な配列)を消失させ、ユニークな領域だけを保つことができる。区分化において除外される領域は、単一の染色体中の場合もあり、1つまたは複数の染色体中の場合もあり、複数の染色体にわたる場合もある。一部の実施形態では、区分化されたゲノムを、迅速なアラインメントのために低減し、最適化することから、ユニークに識別可能な配列に焦点を当てることが可能となることが多い。
一部の実施形態では、ゲノム部分は、固定された長さの連続非オーバーラップ部分をもたらす非オーバーラップ固定サイズに基づく区分化に由来する。このような部分は、染色体よりも短いことが多く、コピー数の変動(またはコピー数の変更)領域(例えば、重複されている、または欠失している領域)よりも短いことが多く、その後者は、セグメントと呼ばれうる。「セグメント」または「ゲノムセグメント」は、2つまたはそれより多い固定された長さのゲノム部分を含むことが多く、2つまたはそれより多い連続する固定された長さの部分(例えば、約2〜約100のこのような部分(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90のこのような部分))を含むことが多い。
時には、群中の複数の部分を分析し、時には、ゲノム部分の特定の群に従って、部分にマッピングされた読取りを定量化する。部分が構造的特徴によって区分化され、ゲノム中の領域に対応する場合には、部分は、時には、1つもしくは複数のセグメントおよび/または1つもしくは複数の領域にグループ化される。領域の限定されない例として、部分染色体(すなわち、染色体より短い)、染色体、常染色体、性染色体およびそれらの組合せが挙げられる。1つまたは複数の部分染色体領域は、時には、遺伝子、遺伝子断片、調節配列、イントロン、エクソン、セグメント(例えば、コピー数の変更領域に広がるセグメント、コピー数の変動領域に広がるセグメント)、微小重複、微小欠失等である。領域は、時には、目的の染色体よりも小さい、または目的の染色体の同一サイズであり、時には、参照染色体よりも小さい、または参照染色体と同一サイズである。
フィルタリング部分および/または選択部分
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数の部分フィルタリングステップおよび/または部分選択ステップを含みうる。本明細書で使用される用語「フィルタリング」とは、部分または参照ゲノムの部分を考慮から除去することを指す。ある特定の実施形態では、1つまたは複数の部分をフィルタリングし(例えば、フィルタリングプロセスに付し)、これにより、フィルタリングされた部分を提供する。一部の実施形態では、フィルタリングプロセスは、ある特定の部分を除去し、部分(例えば、部分のサブセット)を残す。フィルタリングプロセス後、保持された部分は、本明細書において、フィルタリングされた部分と呼ばれることが多い。
これらに限定されないが、重複するデータ(例えば、重複またはオーバーラップする、マッピングされた読取り)、情報のないデータ(例えば、カウント数の中央値がゼロである参照ゲノムの部分)、過大表示されているもしくは過小表示されている配列を有する参照ゲノムの部分、ノイズの多いデータ等、または上記の組合せを含めた、任意の適切な判断基準に基づいて、参照ゲノムの部分を選択して、除去することができる。フィルターをかける処理はしばしば、参照ゲノムの1つまたは複数の部分を検討から除去し、除去するために選択された参照ゲノムの1つまたは複数の部分におけるカウント数を、検討中の参照ゲノム、1つもしくは複数の染色体、またはゲノムの部分について計数または合計されたカウント数から減算することを含む。一部の実施形態では、参照ゲノムの部分を、逐次的に除去する(例えば、1つずつ除去して、それぞれの個々の部分の除去の作用の評価を可能にする)ことができ、特定の実施形態では、除去するためにマークされた、参照ゲノムの部分全てを、同時に除去することができる。一部の実施形態では、特定のレベルを上回るまたは下回る分散により特徴付けられた参照ゲノムの部分を除去し、本明細書では、これを時には、参照ゲノムの「ノイズの多い」部分にフィルターをかけると呼ぶ。特定の実施形態では、フィルターをかける処理は、部分、染色体または染色体の部分の平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱するデータ点を、データセットから得ることを含み、特定の実施形態では、フィルターをかける処理は、部分、染色体または染色体の部分の平均プロファイルレベルから、プロファイルの分散の所定の倍数だけ逸脱しないデータ点を、データセットから除去することを含む。一部の実施形態では、フィルターをかける処理を利用して、遺伝子の変動/遺伝子の変更および/またはコピー数の変更(例えば、異数性、微小欠失、微小重複)の有無について分析する、参照ゲノムの候補となる部分の数を低下させる。遺伝子の変動/遺伝子の変更および/またはコピー数の変更の有無について分析する、参照ゲノムの候補となる部分の数を低下させることによって、しばしばデータセットの複雑性および/または次元性を低下させ、時には遺伝子変動/遺伝子の変更および/またはコピー数の変更の検索および/または識別のスピードを2桁またはそれ超だけ増加させる。
部分を、任意の適した方法によって、任意の適したパラメータに従って、処理(例えば、フィルタリングおよび/または選択)できる。部分をフィルタリングおよび/または選択するために使用できる特徴および/またはパラメータの限定されない例として、冗長なデータ(例えば、冗長な、またはオーバーラップしているマッピングされた読取り)、非情報的データ(例えば、マッピングされたカウント数ゼロの参照ゲノムの部分)、過大表示されている、または過小表示されている配列を有する参照ゲノムの部分、ノイズデータ、カウント数、カウント数の可変性、カバレッジ、マッピング可能性、可変性、再現性の尺度、読取り密度、読取り密度の可変性、不確定性のレベル、グアニン−シトシン(GC)含量、CCF断片長および/または読取り長さ(例えば、断片長比(FLR)、胎仔比統計値(FRS))、DNaseI感受性、メチル化状態、アセチル化、ヒストン分布、クロマチン構造、反復パーセント等またはそれらの組合せが挙げられる。部分は、本明細書において列挙または記載された特徴またはパラメータと相関する任意の適した特徴またはパラメータに従って、フィルタリングおよび/または選択できる。部分は、部分に対して特異的である(例えば、複数の試料に従って単一部分について決定されたような)特徴もしくはパラメータおよび/または試料に対して特異的である(例えば、試料内の複数の部分について決定されたような)特徴もしくはパラメータに従って、フィルタリングおよび/または選択できる。一部の実施形態では、部分を、比較的低いマッピング可能性、比較的高い可変性、高レベルの不確定性、比較的長いCCF断片長(例えば、低FRS、低FLR)、繰り返し配列の比較的大きなフラクション、高GC含量、低GC含量、低カウント数、ゼロカウント数、高カウント数等またはそれらの組合せに従ってフィルタリングおよび/または除去する。一部の実施形態では、部分(例えば、部分のサブセット)を、マッピング可能性の適したレベル、可変性、不確定性のレベル、繰り返し配列のフラクション、カウント数、GC含量等またはそれらの組合せに従って選択する。一部の実施形態では、部分(例えば、部分のサブセット)を、比較的短いCCF断片長(例えば、高FRS、高FLR)に従って選択する。部分(例えば、部分のサブセット)をフィルタリングまたは選択する前および/またはその後に、部分にマッピングされたカウント数および/または読取りを、時には、処理する(例えば、正規化する)。一部の実施形態では、部分(例えば、部分のサブセット)をフィルタリングもしくは選択する前および/またはその後に、部分にマッピングされたカウント数および/または読取りを処理しない。
一部の実施形態では、誤差の尺度(例えば、標準偏差、標準誤差、計算した分散、p値、平均絶対誤差(mean absolute error)(MAE)、平均値絶対偏差および/または平均絶対偏差(MAD))に従って、部分にフィルターをかけることができる。特定の例では、誤差の尺度は、カウント数の可変性を指し得る。一部の例実施形態では、カウント数の可変性に従って、部分にフィルターをかける。特定の実施形態では、カウント数の可変性は、複数の試料(例えば、複数の対象、例えば、50人/匹もしくはそれ超、100人/匹もしくはそれ超、500人/匹もしくはそれ超、1000人/匹もしくはそれ超、5000人/匹もしくはそれ超、または10,000人/匹もしくはそれ超の対象から得られた複数の試料)について、参照ゲノムのある部分(すなわち、部分)に対してマッピングされたカウント数について決定した誤差の尺度である。一部の実施形態では、所定の上範囲を上回るカウント数の可変性を有する部分にフィルターをかける(例えば、検討から排除する)。一部の実施形態では、所定の下範囲を下回るカウント数の可変性を有する部分をフィルタリングする(例えば、考慮から排除する)。一部の実施形態では、所定の範囲の外側のカウント数の可変性を有する部分をフィルタリングする(例えば、考慮から排除する)。一部の実施形態では、所定の範囲内のカウント数の可変性を有する部分を選択する(例えば、コピー数の変更の存在または非存在を決定するために使用する)。一部の実施形態では、部分のカウント数の可変性は、分布(例えば、正規分布)を示す。一部の実施形態では、部分を分布のクォンタイル内で選択する。一部の実施形態では、カウント数の可変性の分布の99%クォンタイル内の部分を選択する。
任意の適した数の試料に由来する配列の読取りを利用して、本明細書において記載される1つまたは複数の判定基準、パラメータおよび/または特徴を満たす部分のサブセットを同定できる。複数の対象に由来する試料の群に由来する配列の読取りが、時には利用される。一部の実施形態では、複数の対象は、妊娠中の雌を含む。一部の実施形態では、複数の対象は、健常対象を含む。一部の実施形態では、複数の対象は、がん患者を含む。複数の対象の各々に由来する1つまたは複数の試料を扱うことができ(例えば、各対象に由来する1〜約20試料(例えば、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18または19試料))、適した数の対象を扱うことができる(例えば、約2〜約10,000の対象(例えば、約10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000の対象))。一部の実施形態では、同一対象に由来する同一試験試料(複数可)に由来する配列の読取りを、参照ゲノム中の部分にマッピングし、これを使用して、部分のサブセットを生成する。
任意の適した方法によって、部分を選択および/またはフィルタリングできる。一部の実施形態では、データ、グラフ、プロットおよび/またはチャートの目視検査に従って部分を選択する。ある特定の実施形態では、1つまたは複数のマイクロプロセッサおよびメモリを含むシステムまたは機械によって、部分を選択および/またはフィルタリングする(例えば、部分的に)。一部の実施形態では、プログラムがマイクロプロセッサに選択および/またはフィルタリングを実行するように指示する、記憶された実行可能なプログラムを有する非一時的なコンピュータ可読記憶媒体によって、部分を選択および/またはフィルタリングする(例えば、部分的に)。
一部の実施形態では、試料に由来する配列の読取りは、参照ゲノムすべてまたはほとんどの部分に対してマッピングされ、その後、予め選択された部分のサブセットが選択される。例えば、特定の長さの閾値の下で、断片に由来する読取りが優先的にマッピングされる部分のサブセットを選択してもよい。部分のサブセットを予め選択するためのある特定の方法は、参照により本明細書に組み込まれている米国特許出願公開第2014/0180594号に記載されている。例えば、遺伝子の変動または遺伝子の変更の存在または非存在の決定のさらなるステップでは、部分の選択されたサブセットに由来する読取りが利用されることが多い。部分に由来する読取りは、遺伝子の変動または遺伝子の変更の存在または非存在の決定のさらなるステップでは、選択されず、利用されないことが多い(例えば、選択されない部分における読取りは、除去されるか、フィルタリングされる)。
一部の実施形態では、読取り密度と関連する部分(例えば、読取り密度が部分についての読取り密度である場合)は、フィルタリング処理により除外され、除外された部分と関連する読取り密度は、コピー数の変更(例えば、染色体の異数性、微小重複、微小欠失)の存在または非存在の決定に含まれない。一部の実施形態では、読取り密度プロファイルは、フィルタリングされた部分の読取り密度を含み、かつ/またはこれからなる。部分は、場合によって、カウント数の分布および/または読取り密度の分布に従ってフィルタリングされる。一部の実施形態では、部分を、カウント数および/または読取り密度が、1つまたは複数の参照試料から得られる場合の、カウント数の分布および/または読取り密度に従ってフィルタリングする。本明細書では、1つまたは複数の参照試料を、トレーニングセットと称し得る。一部の実施形態では、部分を、カウント数および/または読取り密度が、1つまたは複数の試験試料から得られる場合の、カウント数の分布および/または読取り密度に従ってフィルタリングする。一部の実施形態では、部分を、読取り密度分布についての不確定性の尺度に従ってフィルタリングする。ある特定の実施形態では、読取り密度の大きな偏差を裏付ける部分を、フィルタリング処理により除外する。例えば、分布中の各読取り密度が、同じ部分へとマッピングされる場合は、読取り密度の分布(例えば、読取り密度の平均値、読取り密度の平均、または読取り密度の中央値の分布)を決定することができる。ゲノムの各部分が、不確定性の尺度と関連する場合は、読取り密度の分布を複数の試料について比較することにより、不確定性の尺度(例えば、MAD)を決定することができる。前出の例によれば、部分は、各部分と関連する不確定性の尺度(例えば、標準偏差(SD)、MAD)および所定の閾値に従ってフィルタリングすることができる。ある特定の場合には、許容可能な範囲中のMAD値を含む部分を保持し、許容可能な範囲外のMAD値を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、前出の例に従って、所定の不確定性の尺度外の読取り密度値(例えば、読取り密度の中央値、平均値、または平均)を含む部分を、フィルタリング処理により検討から除外することが多い。一部の実施形態では、分布の四分位範囲外の読取り密度値(例えば、読取り密度の中央値、平均値、または平均)を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、分布の四分位範囲を2倍、3倍、4倍、または5倍を超えて外れる読取り密度値を含む部分を、フィルタリング処理により検討から除外する。一部の実施形態では、2シグマ、3シグマ、4シグマ、5シグマ、6シグマ、7シグマ、または8シグマ(例えば、シグマが、標準偏差により規定される範囲である場合)を超えて外れる読取り密度値を含む部分を、フィルタリング処理により検討から除外する。
配列読取り定量化
一部の実施形態では、選択された特徴または変数に基づいてマッピングされる、または区分化される配列の読取りを定量化して、1つまたは複数の部分(例えば、参照ゲノムの部分)にマッピングされる読取りの量または数を決定できる。ある特定の実施形態では、部分またはセグメントにマッピングされる配列の読取りの量は、カウント数または読取り密度と呼ばれる。
カウント数は、ゲノム部分と関連することが多い。一部の実施形態では、カウント数を、部分にマッピングされた(すなわち、それと関連している)配列の読取りの一部またはすべてから決定する。ある特定の実施形態では、カウント数を、部分(例えば、セグメントまたは領域(本明細書において記載される)中の部分)の群にマッピングされた配列の読取りの一部またはすべてから決定する。
カウント数は、適した方法、操作または数学的プロセスによって決定できる。カウント数は、時には、セグメントに対応するゲノム部分またはゲノム部分の群、ゲノムの部分領域(例えば、コピー数の変動領域、コピー数の変更領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域)に対応する部分の群にマッピングされるすべての配列の読取りの直接合計であり、および/または時には、ゲノムに対応する部分の群である。読取り定量化は、時には、比であり、時には、領域中aの部分(複数可)の定量化の、領域b中の部分(複数可)の定量化に対する比である。領域aは、時には、ある部分、セグメント領域、コピー数の変動領域、コピー数の変更領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域および/または性染色体領域である。領域bは独立に、時には、ある部分、セグメント領域、コピー数の変動領域、コピー数の変更領域、コピー数重複領域、コピー数欠失領域、微小重複領域、微小欠失領域、染色体領域、常染色体領域、性染色体領域、すべての常染色体を含む領域、性染色体を含む領域および/またはすべての染色体を含む領域である。
一部の実施形態では、カウント数は、未加工の配列の読取りおよび/またはフィルタリングされた配列の読取りから導かれる。ある特定の実施形態では、カウント数は、ゲノム部分またはゲノム部分の群(例えば、領域中のゲノム部分)にマッピングされた配列の読取りの平均値、平均または合計である。一部の実施形態では、カウント数は、不確定性値と関連している。カウント数を時には調整する。カウント数は、重み付けされ、除去され、フィルタリングされ、正規化され、調整され、平均化され、平均として導かれ、中央値として導かれ、付加されている、もしくはそれらの組合せの、ゲノム部分または部分の群と関連している配列の読取りに従って調整できる。
配列読取り定量化は、時には、読取り密度である。ゲノムの1つまたは複数のセグメントについて、読取り密度を決定および/または生成できる。特定の事例では、1つまたは複数の染色体について、読取り密度を決定および/または生成できる。一部の実施形態では、読取り密度は、参照ゲノムのセグメントまたは部分にマッピングされた配列の読取りのカウント数の定量的尺度を含む。読取り密度は、適したプロセスによって決定できる。一部の実施形態では、読取り密度は、適した分布および/または適した分布関数によって決定する。分布関数の限定されない例として、確率関数、確率分布関数、確率密度関数(PDF)、カーネル密度関数(カーネル密度推定)、累積分布関数、確率質量関数、個別確率分布、絶対連続単変量分布等、任意の適した分布またはそれらの組合せが挙げられる。読取り密度は、適した確率密度関数に由来する密度推定でありうる。密度推定は、根底にある確率密度関数の観察データに基づく推定値の構築物である。一部の実施形態では、読取り密度は、密度推定(例えば、確率密度推定、カーネル密度推定)を含む。読取り密度は、各部分が配列の読取りのカウント数を含む、ゲノムの1つまたは複数の部分の各々についての密度推定を生成することを含むプロセスに従って生成できる。読取り密度は、部分またはセグメントにマッピングされた正規化されたおよび/または重み付けされたカウント数について生成できる。一部の場合では、部分またはセグメントにマッピングされた各読取りは、読取り密度、本明細書において記載された正規化プロセスから得られたその重みと等しい値(例えば、カウント数)に寄与しうる。一部の実施形態では、1つまたは複数の部分またはセグメントについて読取り密度を調整する。読取り密度は適した方法によって調整できる。例えば、1つまたは複数の部分についての読取り密度は、重み付けおよび/または正規化できる。
所与の部分またはセグメントについて定量化された読取りは、1つの供給源または異なる供給源に由来しうる。一例では、読取りは、がんを有する対象またはがんを有すると疑われる対象に由来する核酸から得ることができる。このような状況では、1つまたは複数の部分にマッピングされる読取りは、健常細胞(すなわち、非がん性の細胞)およびがん細胞(例えば、腫瘍細胞)の両方を代表する読取りであることが多い。ある特定の実施形態では、部分に対してマッピングされる読取りの一部は、がん性細胞の核酸に由来し、同一部分に対してマッピングされる読取りの一部は、非がん性細胞の核酸に由来する。別の例では、読取りは、胎仔を有する妊娠中の雌に由来する核酸試料から得られ得る。そのような状況では、1つまたは複数の部分に対してマッピングされた読取りはしばしば、胎仔および胎仔の母親の両方を表示する(例えば、妊娠中の雌の対象の)読取りである。特定の実施形態では、ある部分に対してマッピングされた読取りの一部は、胎仔のゲノムに由来し、同じ部分に対してマッピングされた読取りの一部は、母体のゲノムに由来する。
レベル
一部の実施形態では、値(例えば、数、定量的値)を、レベルに割り当てる。レベルは、適切な方法、演算、または数学的処理(例えば、加工されたレベル)により決定することができる。レベルは、部分のセットについてのカウント数(例えば、正規化されたカウント数)であるか、またはこれから導出されることが多い。一部の実施形態では、部分のレベルは、部分へとマッピングしたカウント数(例えば、カウント数、正規化されたカウント数)の総数と実質的に等しい。レベルは、当技術分野で公知の適切な方法、演算、または数学的処理により加工、変換、または操作されたカウント数から決定することが多い。一部の実施形態では、レベルは、加工されたカウント数から導出し、加工されたカウント数の非限定的な例は、重み付けされるか、除外されるか、フィルタリングされるか、正規化されるか、調整されるか、平均されるか、平均として導出される(例えば、平均レベル)か、加算されるか、減算されるか、変換されたカウント数、またはこれらの組合せを含む。一部の実施形態では、レベルは、正規化されたカウント数(例えば、部分の正規化されたカウント数)を含む。レベルは、適切な処理により正規化されたカウント数のためであり得、その非限定的例は、本明細書に記載される。レベルは、正規化されたカウント数またはカウント数の相対量を含みうる。一部の実施形態では、レベルは、平均された、2つもしくはそれ超の部分のカウント数または正規化されたカウント数についてのレベルであり、レベルを、平均値レベルと称する。一部の実施形態では、レベルは、平均カウント数または正規化されたカウント数の平均を有する部分のセットについてのレベルであり、これを、平均レベルと称する。一部の実施形態では、レベルを、生のカウント数および/またはフィルタリングされたカウント数を含む部分について導出する。一部の実施形態では、レベルは、生のカウント数であるカウント数に基づく。一部の実施形態では、レベルは、不確定値(例えば、標準偏差、MAD)と関連する。一部の実施形態では、レベルを、Zスコアまたはp値により表示する。
本明細書では、1つまたは複数の部分についてのレベルは、「ゲノム区分のレベル」と同義である。本明細書で使用される用語「レベル」は、場合によって、用語「上昇」と同義である。用語「レベル」の意味の決定は、それが使用される文脈から決定することができる。例えば、部分、プロファイル、読取り、および/またはカウント数の文脈で使用される場合の用語「レベル」は、上昇を意味することが多い。物質または組成物の文脈で使用される場合の用語「レベル」(例えば、RNAのレベル、プレクシングレベル)は、量を指すことが多い。不確実性(例えば、誤差のレベル、信頼性のレベル、偏差のレベル、不確実性のレベル)の文脈で使用される場合の用語「レベル」は、量を指すことが多い。
2つまたはそれ超のレベル(例えば、2つまたはそれ超のプロファイル中のレベル)についての正規化されたカウント数または正規化されていないカウント数は、場合によって、レベルに従って、数学的に操作する(例えば、これに加算する、これに乗算する、これを平均する、これを正規化するなど、またはこれらの組合せ)ことができる。例えば、2つまたはそれ超のレベルについての正規化されたカウント数または正規化されていないカウント数は、プロファイル中のレベルの1つ、一部、または全部に従って正規化することができる。一部の実施形態では、プロファイル中の全てのレベルについての正規化されたカウント数または正規化されていないカウント数を、プロファイル中の1つのレベルに従って正規化する。一部の実施形態では、プロファイル中の第1のレベルについての正規化されたカウント数または正規化されていないカウント数を、プロファイル中の第2のレベルについての正規化されたカウント数または正規化されていないカウント数に従って正規化する。
レベル(例えば、第1のレベル、第2のレベル)の非限定的な例は、加工されたカウント数を含む部分のセットについてのレベル、カウント数の平均、中央値、もしくは平均値を含む部分のセットについてのレベル、正規化されたカウント数を含む部分のセットについてのレベルなど、またはこれらの任意の組合せである。一部の実施形態では、第1のレベルおよびプロファイル中の第2のレベルは、同じ染色体へとマッピングした部分のカウント数から導出する。一部の実施形態では、プロファイル中の第1のレベルおよび第2のレベルは、異なる染色体へとマッピングした部分のカウント数から導出する。
一部の実施形態では、レベルを、1つまたは複数の部分へとマッピングした正規化されたカウント数または正規化されていないカウント数から決定する。一部の実施形態では、レベルを、2つまたはそれ超の部分へとマッピングした正規化されたカウント数または正規化されていないカウント数から決定するが、ここで、各部分の正規化されたカウント数は、ほぼ同じであることが多い。レベルについての部分のセット中のカウント数(例えば、正規化されたカウント数)には、ばらつきが見られる場合がある。レベルについての部分のセット内には、セットの他の部分内とは、カウント数が有意に異なる1つまたは複数の部分(例えば、ピークおよび/またはディップ)が見られる場合がある。任意の適切な数の部分と関連する、任意の適切な数の正規化されたカウント数または正規化されていないカウント数は、レベルを規定しうる。
一部の実施形態では、1つまたは複数のレベルは、ゲノムの部分の全部または一部の正規化されたカウント数または正規化されていないカウント数から決定することができる。レベルは、染色体またはその部分の正規化されたカウント数または正規化されていないカウント数の全部または一部から決定しうることが多い。一部の実施形態では、2つまたはそれ超の部分(例えば、部分のセット)から導出された、2つまたはそれ超のカウント数により、レベルを決定する。一部の実施形態では、2つまたはそれ超のカウント数(例えば、2つまたはそれ超の部分に由来するカウント数)により、レベルを決定する。一部の実施形態では、2〜約100,000の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、2〜約50,000、2〜約40,000、2〜約30,000、2〜約20,000、2〜約10,000、2〜約5000、2〜約2500、2〜約1250、2〜約1000、2〜約500、2〜約250、2〜約100、または2〜約60の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、約10〜約50の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、約20〜約40またはそれ超の部分に由来するカウント数により、レベルを決定する。一部の実施形態では、レベルは、約2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60またはそれ超の部分に由来するカウント数を含む。一部の実施形態では、レベルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセット、または染色体の部分の部分のセット)に対応する。
一部の実施形態では、レベルを、連続的な部分の正規化されたカウント数または正規化されていないカウント数について決定する。一部の実施形態では、連続的な部分(例えば、部分のセット)は、ゲノムの隣接領域または染色体もしくは遺伝子の隣接領域を表示する。例えば、2つまたはそれ超の連続的な部分は、部分を末端から末端へと統合することにより配列決定する場合、各部分より長いDNA配列の配列アセンブリーを表示する可能性がある。例えば、2つまたはそれ超の連続的な部分は、無傷ゲノム、染色体、遺伝子、イントロン、エクソン、またはその部分を表示しうる。一部の実施形態では、レベルを、連続的な部分および/または非連続的な部分のコレクション(例えば、セット)から決定する。
データの処理および正規化
本明細書では、計数されるに至った、マッピングされた配列の読取りを、未加工データと呼び、その理由は、これらのデータが、操作されていないカウント数(例えば、未加工カウント数)を表示するからである。一部の実施形態では、データセット中の配列の読取りのデータを、さらに処理し(例えば、数学的および/もしくは統計学的に操作し)、かつ/または示して、アウトカムを得るのを促進することができる。特定の実施形態では、より大きなデータセットを含めて、データセットは、さらなる分析を促進するために、前処理が役立つ場合がある。データセットの前処理は時には、重複し、かつ/または情報を与えない部分または参照ゲノムの部分(例えば、情報を与えないデータを有する参照ゲノムの部分、重複する、マッピングされた読取り、カウント数の中央値がゼロである部分、過大表示されているまたは過小表示されている配列)の除去を含む。理論により制限されることなく、データの処理および/または前処理は、(i)ノイズの多いデータを除去し、(ii)情報を与えないデータを除去し、(iii)重複するデータを除去し、(iv)より大きなデータセットの複雑性を低下させ、かつ/または(v)データの1つの形態から1つもしくは複数のその他の形態への転換を促進することができる。本明細書では、用語「前処理」および「処理」は、データまたはデータセットに関して用いる場合には、まとめて「処理」と呼ぶ。処理は、データをさらなる分析に、より適した状態になすことができ、一部の実施形態では、アウトカムをもたらすことができる。一部の実施形態では、1つまたは複数または全ての処理方法(例えば、正規化の方法、部分にフィルターをかけること、マッピング、妥当性確認等、またはそれらの組合せ)が、メモリと併せたプロセッサ、マイクロプロセッサ、コンピュータにより、かつ/またはマイクロプロセッサが制御する装置により行われる。
用語「ノイズの多いデータ」は、本明細書で使用する場合、(a)分析またはプロットした場合にデータ点間に顕著な分散を示すデータ、(b)顕著な標準偏差を有する(例えば、3標準偏差よりも大きい)データ、(c)平均の顕著な標準誤差を有するデータ等、および上記の組合せを指す。ノイズの多いデータは、時には出発物質(例えば、核酸試料)の分量および/または品質に起因して発生し、時には配列の読取りを得るために使用するDNAを調製または複製するための処理の一部から発生する。特定の実施形態では、ノイズは、PCRに基づく方法を使用して調製する場合の、過大表示されている特定の配列から生じる。本明細書に記載する方法は、ノイズの多いデータの寄与を低下させるまたは排除することができ、したがって、ノイズの多いデータの、得られたアウトカムに対する作用を低下させる。
用語「情報を与えないデータ」、「情報を与えない、参照ゲノムの部分」、および「情報を与えない部分」は、本明細書で使用する場合、所定の閾値の値とは顕著に異なる数値、または値のあらかじめ定義された値の限界範囲の外側に存在する数値を有する部分、またはそこから誘導されたデータを指す。用語「閾値」および「閾値の値」は、本明細書では、適格なデータセットを使用して計算される任意の数を指し、遺伝子の変動または遺伝子の変更(例えば、コピー数の変更、異数性、微小重複、微小欠失、染色体異常等)の診断の限界として役立つ。特定の実施形態では、本明細書に記載する方法により得られた結果が閾値を上回り、対象が、コピー数の変更を有すると診断される。一部の実施形態では、閾値の値または値の範囲はしばしば、(例えば、参照および/または対象から得られた)配列の読取りのデータを数学的および/または統計学的に操作することによって計算され、特定の実施形態では、閾値の値または値の範囲を得るために操作される配列の読取りのデータは、(例えば、参照および/または対象から得られた)配列の読取りのデータである。一部の実施形態では、不確実性の値を決定する。不確実性の値は、一般に分散または誤差の尺度であり、分散または誤差の任意の適切な尺度であってよい。一部の実施形態では、不確実性の値は、標準偏差、標準誤差、計算した分散、p値または平均絶対偏差(MAD)である。一部の実施形態では、不確実性の値を、本明細書に記載する方式に従って計算することができる。
本明細書に記載するデータセットを処理するために、任意の適切な手順を利用することができる。データセットを処理するために使用するのに適切な手順の非限定的な例として、フィルターをかけること、正規化すること、加重すること、ピークの高さをモニタリングすること、ピークの面積をモニタリングすること、ピークのエッジをモニタリングすること、ピークレベル分析、ピーク幅分析、ピークエッジ位置分析、ピーク横許容範囲(peak lateral tolerance)、面積比を決定すること、データを数学的に処理すること、データを統計学的に処理すること、統計学的アルゴリズムを適用すること、一定の変数を用いて分析すること、最適化された変数を用いて分析すること、データをプロットし、パターンまたは傾向を識別して、さらなる処理を行うこと等、および上記の組合せが挙げられる。一部の実施形態では、種々の特徴(例えば、GC含有量、重複する、マッピングされた読取り、セントロメア領域、テロメア領域等、およびそれらの組合せ)、ならびに/または変数(例えば、対象の性、対象の年齢、対象の倍数性、がん細胞核酸のパーセント寄与、胎仔の性別、母体の年齢、母体の倍数性、胎仔核酸のパーセント寄与等、またはそれらの組合せ)に基づいて、データセットは処理される。特定の実施形態では、本明細書の記載に従ってデータセットを処理することによって、大きいおよび/または複雑なデータセットの複雑性および/または次元性を低下させることができる。複雑なデータセットの非限定的な例として、異なる年齢および民族性の背景の1つまたは複数の試験対象および複数の参照対象から生成された配列の読取りのデータが挙げられる。一部の実施形態では、データセットは、それぞれの試験対象および/または参照対象について、数千〜数百万個の配列の読取りを含むことができる。
特定の実施形態では、データ処理を、任意の数のステップで行うことができる。例えば、一部の実施形態では、単一の処理手順のみを使用して、データを処理することができ、特定の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の処理ステップ(例えば、1つもしくは複数の処理ステップ、2つもしくはそれ超の処理ステップ、3つもしくはそれ超の処理ステップ、4つもしくはそれ超の処理ステップ、5つもしくはそれ超の処理ステップ、6つもしくはそれ超の処理ステップ、7つもしくはそれ超の処理ステップ、8つもしくはそれ超の処理ステップ、9つもしくはそれ超の処理ステップ、10個もしくはそれ超の処理ステップ、11個もしくはそれ超の処理ステップ、12個もしくはそれ超の処理ステップ、13個もしくはそれ超の処理ステップ、14個もしくはそれ超の処理ステップ、15個もしくはそれ超の処理ステップ、16個もしくはそれ超の処理ステップ、17個もしくはそれ超の処理ステップ、18個もしくはそれ超の処理ステップ、19個もしくはそれ超の処理ステップ、または20個もしくはそれ超の処理ステップ)を使用して、データを処理することができる。一部の実施形態では、処理ステップは、2回またはそれ超回繰り返される同じステップであり得(例えば、2回またはそれ超回フィルターをかける、2回またはそれ超回正規化する)、特定の実施形態では、処理ステップは、同時または順次に行われる2つまたはそれ超の異なる処理ステップであり得る(例えば、フィルターをかけ、正規化する;正規化し、ピークの高さおよびエッジをモニタリングする;フィルターをかけ、正規化し、参照に対して正規化し、統計学的に操作して、p値を決定する等)。一部の実施形態では、同じまたは異なる処理ステップの任意の適切な数および/または組合せを利用し、配列の読取りのデータを処理して、アウトカムを得るのを促進することができる。特定の実施形態では、本明細書に記載する判断基準によりデータセットを処理することによって、データセットの複雑性および/または次元性を低下させることができる。
一部の実施形態では、1つまたは複数の処理ステップは、1つまたは複数の正規化ステップを含むことができる。正規化は、本明細書に記載するまたは当技術分野で公知である適切な方法により行うことができる。特定の実施形態では、正規化は、異なるスケールで測定された値を、概念的に共通のスケールに調整することを含む。特定の実施形態では、正規化は、調整された値の確率分布をアラインメントにもち込むための高度な数学的調整を含む。一部の実施形態では、正規化は、分布を正規分布に合わせることを含む。特定の実施形態では、正規化は、特定の全体的な影響(例えば、誤差および異常)の作用を排除する方法で、異なるデータセットについて正規化された対応する値を比較するのを可能にする数学的調整を含む。特定の実施形態では、正規化は、スケーリングを含む。正規化は時には、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化は、場合によって、所定の変数または式による1つまたは複数のデータセットの除算を含む。正規化法の非限定的な例は、部分に関する正規化、GC含有量による正規化、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所加重散布図平坦化)、主成分による正規化、リピートマスクキング(RM)、GC正規化リピートマスクキング(GCRM)、cQn、ならびに/またはこれらの組合せを含む。一部の実施形態では、コピー数の変更の存在または非存在(例えば、異数性、微小重複、微小欠失)の決定は、正規化法(例えば、部分に関する正規化、GC含有量による正規化、中央値のカウント数(中央値のビンカウント数、中央値の部分カウント数)による正規化、線形最小二乗回帰および非線形最小二乗回帰、LOESS、GC LOESS、LOWESS(局所加重散布図平坦化)、主成分による正規化、リピートマスクキング(RM)、GC正規化リピートマスクキング(GCRM)、cQn、当技術分野で公知の正規化法、ならびに/またはこれらの組合せ)を利用する。例えば、LOESS正規化、主成分正規化およびハイブリッド正規化法などの利用できる正規化プロセスのある特定の例を、本明細書の下記においてより詳細に記載する。特定の正規化プロセスの態様は、例えば、各々、参照により本明細書において組み込まれている国際特許出願公開第WO2013/052913号および同WO2015/051163号にも記載されている。
任意の適切な数の正規化を使用することができる。一部の実施形態では、データセットを、1回もしくは複数回、5回もしくはそれ超回、10回もしくはそれ超回、または20回またはそれ超回さえ正規化することができる。データセットを、任意の適切な特徴または変数(例えば、試料データ、参照データ、または両方)を表示する値(例えば、正規化値)に対して正規化することができる。使用することができるデータの正規化のタイプの非限定的な例として、1つまたは複数の選択された試験部分または参照部分についての未加工カウント数データを、その上で、選択された部分または区分がマッピングされる染色体またはゲノム全体に対してマッピングされるカウント数の総数に対して正規化すること;1つまたは複数の選択された部分についての未加工カウント数データを、その上で、選択された部分がマッピングされる1つもしくは複数の部分または染色体についての参照のカウント数の中央値に対して正規化すること;未加工カウント数データを、あらかじめ正規化されたデータまたはそれらの誘導値に対して正規化すること;およびあらかじめ正規化されたデータを、1つまたは複数のその他の所定の正規化変数に対して正規化することが挙げられる。データセットの正規化は時には、所定の正規化変数として選択された特徴または特性に応じて、統計学的誤差を単離する作用を有する。また、データセットの正規化は時には、異なるスケールを有するデータのデータとしての特徴の比較を、データに共通のスケール(例えば、所定の正規化変数)を与えることによって可能にする。一部の実施形態では、統計学的に誘導された値に対する1回または複数回の正規化を利用して、データの差を最小化し、異常値データの重要性を減少させることができる。部分または参照ゲノムの部分を正規化値に関して正規化することを時には、「部分に関する正規化」と呼ぶ。
特定の実施形態では、処理ステップは、1つまたは複数の数学的および/または統計学的な操作を含むことができる。任意の適切な数学的および/または統計学的な操作を、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の数学的および/または統計学的な操作を使用することができる。一部の実施形態では、データセットを、数学的および/または統計学的に、1回もしくは複数回、5回もしくはそれ超回、10回もしくはそれ超回、または20回もしくはそれ超回操作することができる。使用することができる数学的および統計学的な操作の非限定的な例として、加算、減算、乗算、除算、代数関数、最小二乗推定量、曲線近似、微分方程式、有理多項式、二重多項式、直交多項式、zスコア、p値、カイ値、phi値、ピークレベルの分析、ピークのエッジの場所の決定、ピーク面積比の計算、染色体レベルの中央値の分析、平均絶対偏差の計算、残余の二乗の合計、平均、標準偏差、標準誤差等、またはそれらの組合せが挙げられる。数学的および/または統計学的な操作を、配列の読取りのデータまたはそれらの処理された生成物の全部または一部に対して行うことができる。統計学的に操作することができるデータセットの変数または特徴の非限定的な例として、未加工カウント数、フィルターをかけたカウント数、正規化されたカウント数、ピークの高さ、ピークの幅、ピークの面積、ピークのエッジ、ラテラルトレランス(lateral tolerance)、P値、レベルの中央値、平均レベル、ゲノム領域内のカウント数の分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
一部の実施形態では、処理ステップは、1つまたは複数の統計学的アルゴリズムの使用を含むことができる。任意の適切な統計学的アルゴリズムを、単独でまたは組み合わせて使用して、本明細書に記載するデータセットを分析および/操作することができる。任意の適切な数の統計学的アルゴリズムを使用することができる。一部の実施形態では、1つもしくは複数、5つもしくはそれ超、10個もしくはそれ超、または20個もしくはそれ超の統計学的アルゴリズムを使用して、データセットを分析することができる。本明細書に記載する方法と共に使用するのに適切な統計学的アルゴリズムの非限定的な例として、主成分分析、決定木、対立仮説、多重比較、オムニバス検定、ベーレンス−フィッシャー検定、ブートストラッピング、有意性の独立性検定を組み合わせるためのフィッシャー法、帰無仮説、第一種の過誤、第二種の過誤、直接検定、1標本Z検定、2標本Z検定、1標本t検定、対応のあるt検定、等分散を有する2標本併合型t検定、不等分散を有する2標本非併合型t検定、1比率z検定、2比率z検定併合型、2比率z検定非併合型、1標本カイ二乗検定、分散の一様性についての2標本F検定、信頼区間、信頼区間(credible interval)、有意性、メタ分析、単回帰、ロバスト線形回帰等、または上記の組合せが挙げられる。統計学的アルゴリズムを使用して分析することができるデータセットの変数または特徴の非限定的な例として、未加工カウント数、フィルターをかけたカウント数、正規化されたカウント数、ピークの高さ、ピークの幅、ピークのエッジ、ラテラルトレランス、P値、レベルの中央値、平均レベル、ゲノム領域内のカウント数の分布、核酸種の相対的な表示等、またはそれらの組合せが挙げられる。
特定の実施形態では、複数(例えば、2つもしくはそれ超)の統計学的アルゴリズム(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K最近傍、ロジスティック回帰および/もしくは平滑化)、ならびに/または(例えば、本明細書では操作と呼ぶ)数学的および/もしくは統計学的な操作を利用することによって、データセットを分析することができる。一部の実施形態では、複数の操作の使用により、アウトカムをもたらすために使用することができるN次元空間を生成することができる。特定の実施形態では、複数の操作を利用することによりデータセットを分析することによって、データセットの複雑性および/または次元性を低下させることができる。例えば、複数の操作を参照データセットに対して使用することによって、参照試料の状況(例えば、選択された遺伝子の変動コピー数の変更について陽性または陰性)に応じて、遺伝子の変動/遺伝子の変更および/またはコピー数の変更の有無を表示するために使用することができるN次元空間(例えば、確率プロット)を生成することができる。実質的に類似する一連の操作を使用する試験試料の分析を使用して、試験試料のそれぞれについてN次元の点を生成することができる。試験対象のデータセットの複雑性および/または次元性は時には、参照データから生成されたN次元空間と容易に比較することができる単一の値またはN次元の点に単純化される。参照対象のデータが存在するN次元空間に属する試験試料データは、参照対象の遺伝子の状況に実質的に類似する遺伝子の状況を示す。参照対象のデータが存在するN次元空間の外側に存在する試験試料データは、参照対象の遺伝子の状況に実質的に類似しない遺伝子の状況を示す。一部の実施形態では、参照は、正倍数体であるか、または別段に、遺伝子の変動/遺伝子の変更および/またはコピー数の変更および/または医学的状態を有していない。
一部の実施形態では、データセットが、計数され、任意選択でフィルターをかけ正規化し、必要に応じて重み付けした後で、フィルターをかけ、かつ/または正規化する、かつ/または重み付けする1つまたは複数の手順により、これらの処理されたデータセットをさらに操作することができる。特定の実施形態では、フィルターをかけ、かつ/または正規化する、かつ/または重み付けする1つまたは複数の手順によりさらに操作されているデータセットを使用して、プロファイルを生成することができる。一部の実施形態では、時には、フィルターをかけ、かつ/または正規化する、かつ/または重み付けする1つまたは複数の手順により、データセットの複雑性および/または次元性を低下させることができる。複雑性および/または次元性が低下したデータセットに基づいてアウトカムを提供できる。一部の実施形態では、例えば、重み付けによってさらに操作した処理したデータのプロファイルプロットを生成して、分類、および/またはアウトカムの提供を促進する。例えば、重み付けされたデータのプロファイルのプロットに基づいて、アウトカムを提供できる。
部分にフィルターをかけることまたは加重することは、分析における1つまたは複数の適切な点で行うことができる。例えば、配列の読取りを、参照ゲノムの部分に対してマッピングする前または後に、部分にフィルターをかけるまたは加重することができる。一部の実施形態では、個々のゲノム部分についての実験の偏りを決定する前または後に、部分にフィルターをかけるまたは加重することができる。特定の実施形態では、レベルを計算する前または後に、部分にフィルターをかけるまたは加重することができる。
一部の実施形態では、データセットが、計数され、任意選択でフィルターをかけられ、正規化され、任意選択で加重された後に、これらの処理されたデータセットを、1つまたは複数の数学的および/または統計学的な(例えば、統計学的関数または統計学的アルゴリズムによる)操作により操作することができる。特定の実施形態では、1つまたは複数の選択された部分、染色体、または染色体の部分についてZスコアを計算することによって、処理されたデータセットをさらに操作することができる。一部の実施形態では、P値を計算することによって、処理されたデータセットをさらに操作することができる。特定の実施形態では、数学的および/または統計学的な操作は、倍数性および/または少量の種のフラクション(例えば、がん細胞核酸のフラクション:胎仔フラクション)に関する1つまたは複数の仮定を含む。一部の実施形態では、1つまたは複数の統計学的および/または数学的な操作によりさらに操作して処理したデータのプロファイルのプロットを生成して、分類、および/またはアウトカムの提供を促進する。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいて、アウトカムをもたらすことができる。統計学的および/または数学的に操作したデータのプロファイルのプロットに基づいてもたらされたアウトカムはしばしば、倍数性および/または少量の種のフラクション(例えば、がん細胞核酸のフラクション:胎仔フラクション)に関する1つまたは複数の仮定を含む。
一部の実施形態では、データの分析および処理は、1つまたは複数の仮定の使用を含むことができる。適切な数またはタイプの仮定を利用して、データセットを分析または処理することができる。データの処理および/または分析のために使用することができる仮定の非限定的な例として、対象の倍数性、がん細胞の寄与、母体の倍数性、胎仔の寄与、参照集団中の特定の配列の存在率、民族性背景、血縁の家族における選択された医学的状態の存在率、異なる患者から得られた未加工カウント数のプロファイル間の平行度および/またはGC正規化リピートマスクキング(例えば、GCRM)後のラン、PCRの不自然な結果を意味する同一の一致(例えば、同一塩基の位置)、核酸定量化アッセイ(例えば、胎仔定量化アッセイ(FQA))に固有の仮定、双子に関する仮定(例えば、双子の両方のうち、一方のみが罹患している場合、有効な胎仔フラクションは、測定された全胎仔フラクションの50%のみである(三つ子、四つ子等についても同様))、ゲノム全体を一様にカバーする無細胞DNA(例えば、cfDNA)等、ならびにそれらの組合せが挙げられる。
正規化されたカウント数プロファイルに基づいて、遺伝子の変動/遺伝子の変更および/またはコピー数の変更の有無のアウトカムを信頼性の所望のレベル(例えば、95%またはそれ超の信頼性のレベル)で予測することが、マッピングされた配列の読取りの品質および/または深さでは可能でない事例では、1つまたは複数の追加の数学的操作のアルゴリズムおよび/または統計学的予測アルゴリズムを利用して、データ分析および/またはアウトカムの提供に有用な追加の数値を生成することができる。用語「正規化されたカウント数プロファイル」は、本明細書で使用する場合、正規化されたカウント数を使用して生成されたプロファイルを指す。正規化されたカウント数および正規化されたカウント数プロファイルを生成するために使用することができる方法の例を、本明細書に記載する。上記で述べたように、計数されるに至った、マッピングされた配列の読取りを、試験試料のカウント数または参照試料のカウント数に関して正規化することができる。一部の実施形態では、正規化されたカウント数プロファイルは、プロットして示すことができる。
ウィンドウ(静止したまたはスライディング)に対して正規化すること、重み付け、偏り関係を決定すること、LOESS正規化、主成分正規化、ハイブリッド正規化、プロファイルを生成することおよび比較を実施することなどの、利用できる処理ステップおよび正規化法の限定されない例を、本明細書の下記においてより詳細に記載する。
ウィンドウに対する正規化(静止またはスライディング)
特定の実施形態では、処理ステップは、静止したウィンドウに対して正規化することを含み、一部の実施形態では、処理ステップは、移動するウィンドウまたはスライディングウィンドウに対して正規化することを含む。用語「ウィンドウ」は、本明細書で使用する場合、分析のために選ばれた1つまたは複数の部分を指し、時には、比較のための参照として使用される(例えば、正規化および/またはその他の数学的もしくは統計学的な操作ために使用される)。用語「静止したウィンドウに対して正規化する」は、本明細書で使用する場合、試験対象のデータセットと参照対象のデータセットとを比較するために選択された1つまたは複数の部分を使用する正規化の処理を指す。一部の実施形態では、選択された部分を利用して、プロファイルを生成する。静止したウィンドウは一般に、操作および/または分析の間に変化しない所定の一連の部分を含む。用語「移動するウィンドウに対して正規化する」および「スライディングウィンドウに対して正規化する」は、本明細書で使用する場合、選択された試験部分のゲノム領域に限局される部分(例えば、直近の周囲部分、隣接する部分または区分等)に対して行われる正規化を指し、この場合、1つまたは複数の選択された試験部分は、選択された試験部分の直近の周囲の部分に対して正規化される。特定の実施形態では、選択された部分を利用して、プロファイルを生成する。スライディングウィンドウまたは移動するウィンドウの正規化はしばしば、隣接する試験部分に向けて繰り返し移動またはスライディングさせ、新たに選択された試験部分を、新たに選択された試験部分の直近の周囲のまたは新たに選択された試験部分に隣接する部分に対して正規化することを含み、この場合、隣接するウィンドウは、共通する1つまたは複数の部分を有する。特定の実施形態では、複数の選択された試験部分および/または染色体を、スライディングウィンドウ処理により分析することができる。
一部の実施形態では、スライディングウィンドウまたは移動するウィンドウに対して正規化することによって、1つまたは複数の値を生成することができ、この場合、それぞれ値は、ゲノムの異なる領域(例えば、染色体)から選択された異なる一連の参照部分に対する正規化の結果を表示する。特定の実施形態では、生成された1つまたは複数の値は、累積合計(例えば、選択された部分、ドメイン(例えば、染色体のパート)または染色体にわたり正規化されたカウント数プロファイルの積分の数的な推定値)である。スライディングウィンドウまたは移動するウィンドウの処理により生成された値を使用して、プロファイルを生成し、アウトカムに到達するのを促進することができる。一部の実施形態では、1つまたは複数の部分の累積合計を、ゲノムの位置の関数として示すことができる。時には、移動するウィンドウまたはスライディングウィンドウの分析を使用して、ゲノムを微小欠失および/または微小重複の有無について分析する。特定の実施形態では、1つまたは複数の部分の累積合計を示すことを使用して、コピー数の変更(例えば、微小欠失、微小重複)の領域の有無を識別する。
加重
一部の実施形態では、処理ステップは、加重を含む。用語「加重される」、「加重する」もしくは「加重関数」、またはそれらの文法上の派生語もしくは相当語句は、本明細書で使用する場合、特定のデータセットの特徴または変数の影響を、その他のデータセットの特徴または変数に比して変化させる(例えば、1つもしくは複数の部分または参照ゲノムの部分中に含有されるデータの有意性および/または寄与を、参照ゲノムの選択された1つまたは複数の部分中のデータの品質または有用性に基づいて増加または減少させる)ために利用することがあるデータセットの一部または全部の数学的操作を指す。一部の実施形態では、加重関数を使用して、比較的小さな測定値の分散を有するデータの影響を増加させること、および/または比較的大きな測定値の分散を有するデータの影響を減少させることができる。例えば、過小表示されているまたは低い品質の配列データを有する参照ゲノムの部分の「加重を減らし」て、データセットに対する影響を最小化することができ、一方、参照ゲノムの選択された部分の「加重を増やし」て、データセットに対する影響を増加させることもできる。加重関数の非限定的な例が、[1/(標準偏差)]である。重み付け部分は、時には、部分依存性を除去する。一部の実施形態では、1つまたは複数の部分を固有関数(eigen function)(例えば、固有関数(eigenfunction))により重み付けする。一部の実施形態では、固有関数は、部分を直交固有部分により置きかえることを含む。重み付けステップは、時には、正規化ステップと実質的に同様に実施する。一部の実施形態では、データセットを所定の変数(例えば、重み付け変数)によって調整する(例えば、除する、乗する、付加する、差し引く)。一部の実施形態では、データセットは、所定の変数(例えば、加重変数)により除算される。しばしば、所定の変数(例えば、最小化目的関数、Phi)を選択して、データセットの異なるパートに異なる加重を加える(例えば、特定のデータのタイプの影響を増加させ、一方、その他のデータのタイプの影響を減少させる)。
偏り関係
一部の実施形態では、処理ステップは、偏り関係を決定することを含む。例えば、1つまたは複数の関係を、局所的なゲノムの偏りの推定値と、偏り頻度との間で生成することができる。本明細書で使用される「関係」という用語は、2つまたはそれ超の変数または値の間の数学的関係および/またはグラフ的関係を指す。関係は、適切な数学的処理および/またはグラフ的処理により生成することができる。関係の非限定的な例は、関数、相関、分布、線形式または非線形式、直線、回帰、適合させた回帰など、またはこれらの組合せの数学的表示および/またはグラフ表示を含む。場合によって、関係は、適合させた関係を含む。一部の実施形態では、適合させた関係は、適合させた回帰を含む。場合によって、関係は、2つまたはそれ超の変数または値であって、重み付き変数または重み付き値を含む。一部の実施形態では、関係は、適合させた回帰を含み、ここで、関係の1つまたは複数の変数または値が重み付けされている。場合によって、回帰は、重み付き様式で適合させる。場合によって、回帰は、重み付けされずに適合させる。ある特定の実施形態では、関係の生成は、プロッティングまたはグラフ作成を含む。
ある特定の実施形態では、関係を、GC密度とGC密度頻度との間で生成する。一部の実施形態では、試料についての(i)GC密度と、(ii)GC密度頻度との関係を生成することにより、試料GC密度関係を提示する。一部の実施形態では、参照についての(i)GC密度と、(ii)GC密度頻度との関係を生成することにより、参照GC密度関係を提示する。一部の実施形態では、局所的なゲノムの偏りの推定値がGC密度である場合、試料偏り関係は、試料GC密度関係であり、参照偏り関係は、参照GC密度関係である。参照GC密度関係および/または試料GC密度関係のGC密度は、局所的なGC含有量についての表示(例えば、数学的表示または定量的表示)であることが多い。
一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、分布を含む。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、適合させた関係(例えば、適合させた回帰)を含む。一部の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、線形適合回帰または非線形適合回帰(例えば、多項式回帰)を含む。ある特定の実施形態では、局所的なゲノムの偏りの推定値と偏り頻度との関係は、重み付き関係を含み、ここで、局所的なゲノムの偏りの推定値および/または偏り頻度は、適切な処理により重み付けされる。一部の実施形態では、重み付き適合させた関係(例えば、重み付き適合)は、四分位回帰、パラメータ付きの確率分布、または補間を有する経験的分布を含む処理により得ることができる。ある特定の実施形態では、試験試料、参照基準、またはこれらの一部についての、局所的なゲノムの偏りの推定値と偏り頻度との関係は、多項式回帰を含み、局所的なゲノムの偏りの推定値は、重み付けされている。一部の実施形態では、重み付き適合モデルは、分布値を重み付けすることを含む。分布値は、適切な処理により重み付けすることができる。一部の実施形態では、分布のテールの近傍に位置する値には、分布中央値に近い値より小さな重みを施す。例えば、局所的なゲノムの偏りの推定値(例えば、GC密度)と、偏り頻度(例えば、GC密度頻度)との分布については、重みを、所与の局所的なゲノムの偏りの推定値についての偏り頻度に従って決定し、ここで、分布の平均に近接した偏り頻度を含む局所的なゲノムの偏りの推定値には、平均から遠い偏り頻度を含む局所的なゲノムの偏りの推定値より大きな重みを施す。
一部の実施形態では、処理ステップは、試験試料の配列の読取りの局所的なゲノムの偏りの推定値を、参照基準(例えば、参照ゲノムまたはその一部)の局所的なゲノムの偏りの推定値と比較することにより配列の読取りのカウント数を正規化することを含む。一部の実施形態では、配列の読取りのカウント数は、試験試料の局所的なゲノムの偏りの推定値の偏り頻度を、参照基準の局所的なゲノムの偏りの推定値の偏り頻度と比較することにより正規化する。一部の実施形態では、配列の読取りのカウント数は、試料偏り関係と参照偏り関係とを比較することにより正規化し、これにより、比較を生成する。
配列の読取りのカウント数は、2つまたはそれ超の関係の比較に従って正規化され得る。ある特定の実施形態では、2つまたはそれ超の関係について比較し、これにより、配列の読取り中の局所的な偏りを低減する(例えば、カウント数を正規化する)ために使用される比較を提示する。適切な方法により、2つまたはそれ超の関係について比較することができる。一部の実施形態では、比較は、第1の関係に第2の関係を加算すること、第1の関係から第2の関係を減算すること、第1の関係に第2の関係を乗算すること、および/または第1の関係を第2の関係で除算することを含む。ある特定の実施形態では、2つまたはそれ超の関係の比較は、適切な線形回帰および/または非線形回帰の使用を含む。ある特定の実施形態では、2つまたはそれ超の関係の比較は、適切な多項式回帰(例えば、三次多項式回帰)を含む。一部の実施形態では、比較は、第1の回帰に第2の回帰を加算すること、第1の回帰から第2の回帰を減算すること、第1の回帰に第2の回帰を乗算すること、および/または第1の回帰を第2の回帰で除算することを含む。一部の実施形態では、2つまたはそれ超の関係について、多重回帰の推論フレームワークを含む処理により比較する。一部の実施形態では、2つまたはそれ超の関係について、適切な多変量分析を含む処理により比較する。一部の実施形態では、2つまたはそれ超の関係について、基底関数(例えば、ブレンディング関数、例えば、多項式基底、フーリエ基底など)、スプライン、放射基底関数、および/またはウェーブレットを含む処理により比較する。
ある特定の実施形態では、試験試料および参照基準についての偏り頻度を含む、局所的なゲノムの偏りの推定値の分布を、多項式回帰を含む処理により比較するが、ここで、局所的なゲノムの偏りの推定値は、重み付けされている。一部の実施形態では、多項式回帰を、(i)比の各々が、参照基準の局所的なゲノムの偏りの推定値の偏り頻度および試料の局所的なゲノムの偏りの推定値の偏り頻度を含む比と、(ii)局所的なゲノムの偏りの推定値との間で生成する。一部の実施形態では、多項式回帰を、(i)参照基準の局所的なゲノムの偏りの推定値の偏り頻度の、試料の局所的なゲノムの偏りの推定値の偏り頻度に対する比と、(ii)局所的なゲノムの偏りの推定値との間で生成する。一部の実施形態では、試験試料および参照基準の読取りについての局所的なゲノムの偏りの推定値の分布の比較は、参照基準および試料についての、局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log2比)を決定することを含む。一部の実施形態では、局所的なゲノムの偏りの推定値の分布の比較は、参照基準についての、局所的なゲノムの偏りの推定値の偏り頻度対数比(例えば、log2比)を、試料についての局所的なゲノムの偏りの推定値の偏り頻度の対数比(例えば、log2比)で除算することを含む。
比較に従ったカウント数を正規化することでは、あるカウント数は調整されるが、他のカウント数は調整されないことが典型的である。カウント数を正規化することでは、ある場合には、全カウント数が調整され、ある場合には、いかなる配列の読取りのカウント数も調整されない。配列の読取りについてのカウント数は、ある場合には、加重係数を決定することを含む処理により正規化し、ある場合には、処理は、加重係数の直接的な生成および活用を含まない。比較に従ったカウント数を正規化することは、場合によって、各配列の読取りのカウント数についての加重係数を決定することを含む。加重係数は、配列の読取りに特異的であり、特異的配列の読取りのカウント数へと適用されることが多い。加重係数は、2つまたはそれ超の偏り関係の比較(例えば、参照偏り関係と比較した試料偏り関係)に従って決定することが多い。正規化されたカウント数は、カウント数値を、加重係数に従って調整することにより決定することが多い。加重係数に従ったカウント数の調整は、場合によって、配列の読取りについてのカウント数に加重係数を加算すること、配列の読取りについてのカウント数から加重係数を減算すること、配列の読取りについてのカウント数に加重係数を乗算すること、および/または配列の読取りについてのカウント数を加重係数で除算することを含む。加重係数および/または正規化されたカウント数は、場合によって、回帰(例えば、回帰直線)から決定する。正規化されたカウント数は、場合によって、参照基準の局所的なゲノムの偏りの推定値の偏り頻度(例えば、参照ゲノム)と、試験試料の局所的なゲノムの偏りの推定値の偏り頻度との間の比較の結果として得られる、回帰直線(例えば、適合させた回帰直線)から直接得る。一部の実施形態では、試料の読取りの各カウント数を、(i)読取りの局所的なゲノムの偏りの推定値の偏り頻度の、(ii)参照基準の局所的なゲノムの偏りの推定値の偏り頻度と比較した比較に従って、正規化されたカウント数値として提示する。ある特定の実施形態では、試料について得られる配列の読取りのカウント数を正規化し、配列の読取り中の偏りを低減する。
LOESS正規化
一部の実施形態では、処理ステップは、LOESS正規化を含む。LOESSとは、当技術分野で公知の回帰モデル化法であって、多重回帰モデルを、k最近傍法ベースのメタモデル内で組み合わせる回帰モデル化法である。LOESSは、場合によって、局所重み付け多項式回帰と称する。一部の実施形態では、GC LOESSでは、LOESSモデルを、断片のカウント数(例えば、配列の読取り、配列のカウント数)と、参照ゲノム部分についてのGC組成との間の関係へと適用する。データ点のセットを通る滑らかな曲線のプロッティングであって、LOESSを使用するプロッティングは、場合によって、LOESS曲線と呼ばれ、特に、各平滑値が、y軸の散布図基準変数の値の区間にわたる、重み付き二次最小二乗回帰により与えられる場合、そう呼ばれる。データセット中の各点について、LOESS法は、低次多項式を、説明変数値がその応答が推定される点の近傍にあるデータのサブセットへと適合させる。多項式は、その応答が推定される点の近傍の点には大きな重みを与え、遠く離れた点には小さな重みを与える、重み付き最小二乗法を使用して適合させる。次いで、点についての回帰関数値を、そのデータ点についての説明変数値を使用して、局所多項式の値を求めることにより得る。LOESS適合は、場合によって、回帰関数値を、データ点の各々について計算した後において、完全であると考えられる。多項式モデルの次数および重みなど、この方法の詳細の多くは、適応性がある。
主成分分析
一部の実施形態では、処理ステップは、主成分分析(PCA)を含む。一部の実施形態では、配列読取りのカウント数(例えば、試験試料の配列読取りのカウント数)を、主成分分析(PCA:pricipal component analysis)に従って調整する。1もしくは複数の参照試料の読取り密度プロファイルおよび/または試験対象の読取り密度プロファイルは、PCAに従って調整することができる。本明細書では、場合によって、PCA関連処理を介する、読取り密度プロファイルからの偏りの除去を、プロファイルの調整と称する。PCAは、適切なPCA法またはその変化形により実施することができる。PCA法の非限定的な例は、カノニカル相関分析(CCA)、KL(Karhunen−Loeve)変換(KLT)、ホテリング変換、固有直交分解(POD)、Xの特異値分解(SVD)、XTXの固有値分解(EVD)、因子分析、エッカートヤングの定理、シュミットミルスキーの定理、経験的直交関数(EOF)、経験的固有関数分解、経験的成分分析、準調和モード、スペクトル分解、経験的モード分析など、これらの変化形または組合せを含む。PCAにより、読取り密度プロファイル中の1つまたは複数の偏りを識別および/または調整することが多い。本明細書では、場合によって、PCAにより識別および/または調整された偏りを、主成分と称する。一部の実施形態では、適切な方法を使用して、1つまたは複数の主成分に従って読取り密度プロファイルを調整することにより、1つまたは複数の偏りを除外することができる。読取り密度プロファイルは、読取り密度プロファイルに1つまたは複数の主成分を加算すること、読取り密度プロファイルから1つまたは複数の主成分を減算すること、読取り密度プロファイルに1つまたは複数の主成分を乗算すること、および/または読取り密度プロファイルを1つまたは複数の主成分で除算することにより調整することができる。一部の実施形態では、1つまたは複数の主成分を、読取り密度プロファイルから減算することにより、1つまたは複数の偏りを、読取り密度プロファイルから除外することができる。読取り密度プロファイル中の偏りは、プロファイルのPCAにより識別および/または定量化されることが多いが、主成分は、読取り密度のレベルでプロファイルから減算されることが多い。PCAにより、1つまたは複数の主成分を識別することが多い。一部の実施形態では、PCAにより、第1、第2、第3、第4、第5、第6、第7、第8、第9、および第10、またはそれ超の順位の主成分を識別する。ある特定の実施形態では、1、2、3、4、5、6、7、8、9、10またはそれ超の主成分を使用して、プロファイルを調整する。ある特定の実施形態では、5種の主成分を使用して、プロファイルを調整する。主成分は、PCA中のそれらの出現の順序でプロファイルを調整するのに使用することが多い。例えば、3つの主成分を、読取り密度プロファイルから減算する場合、第1、第2、および第3の主成分を使用する。場合によって、主成分により識別される偏りは、プロファイルの特徴であって、プロファイルを調整するのに使用されない特徴を含む。例えば、PCAにより、主成分としてのコピー数の変更(例えば、異数性、微小重複、微小欠失、欠失、転位、挿入)および/または性差を識別する。したがって、一部の実施形態では、1つまたは複数の主成分は、プロファイルを調整するのに使用されない。例えば、場合によって、第1、第2、および第4の主成分を使用して、プロファイルを調整するが、ここで、第3の主成分は、プロファイルを調整するのに使用されない。
主成分は、任意の適切な試料または参照基準を使用して、PCAから得ることができる。一部の実施形態では、主成分を、試験試料(例えば、試験対象)から得る。一部の実施形態では、主成分を、1つまたは複数の参照基準(例えば、参照試料、参照配列、参照セット)から得る。ある特定の場合には、PCAは、第1の主成分および第2の主成分の識別を結果としてもたらす複数の試料を含むトレーニングセットから得られる中央値読取り密度プロファイルに対して実施される。一部の実施形態では、主成分を、問題のコピー数の変更を欠く対象のセットから得る。一部の実施形態では、主成分を、公知の正倍数体のセットから得る。主成分は、参照基準の1つまたは複数の読取り密度プロファイル(例えば、トレーニングセット)を使用して実施されるPCAに従って識別することが多い。参照基準から得られる1つまたは複数の主成分を、試験対象の読取り密度プロファイルから減じ、これにより、調整プロファイルを提示することが多い。
ハイブリッド正規化
一部の実施形態では、処理ステップは、ハイブリッド正規化法を含む。特定の事例では、ハイブリッド正規化法は、偏り(例えば、GC偏り)を低減できる。一部の実施形態では、ハイブリッド正規化は、(i)2つの変数(例えば、カウント数およびGC含量)の関係の分析ならびに(ii)分析に従う正規化法の選択および適用を含む。ハイブリッド正規化は、ある特定の実施形態では、(i)回帰(例えば、回帰分析)ならびに(ii)回帰に従う正規化法の選択および適用を含む。一部の実施形態では、第1の試料(例えば、第1の試料のセット)について得られたカウント数を、別の試料(例えば、試料の第2のセット)から得られたカウント数とは異なる方法によって正規化する。一部の実施形態では、第1の試料(例えば、第1の試料のセット)について得られたカウント数を、第1の正規化法によって正規化し、第2の試料(例えば、第2の試料のセット)から得られたカウント数を第2の正規化法によって正規化する。例えば、ある特定の実施形態では、第1の正規化法は、線形回帰の使用を含み、第2の正規化法は、非線形回帰(例えば、LOESS、GC−LOESS、LOWESS回帰、LOESSスムージング)の使用を含む。
一部の実施形態では、ハイブリッド正規化法を使用して、ゲノムまたは染色体の部分へとマッピングした配列の読取り(例えば、カウント数、マッピングしたカウント数、マッピングした読取り)を正規化する。ある特定の実施形態では、生のカウント数を正規化し、一部の実施形態では、調整されるか、重み付けされるか、フィルタリングされるか、または既に正規化されたカウント数を、ハイブリッド正規化法により正規化する。ある特定の実施形態では、レベルまたはZスコアを、正規化する。一部の実施形態では、選択されたゲノム部分または染色体へとマッピングしたカウント数を、ハイブリッド正規化法により正規化する。カウント数は、ゲノムの部分へとマッピングした配列の読取りの適切な尺度であって、その非限定的な例が、生のカウント数(例えば、加工されていないカウント数)、正規化されたカウント数(例えば、LOESS、主成分または適切な方法により正規化された)、部分レベル(例えば、平均値レベル、平均レベル、中央値レベルなど)、Zスコアなど、またはこれらの組合せを含む尺度を指す場合がある。カウント数は、1つまたは複数の試料(例えば、試験試料、妊娠中の雌からの試料)に由来する生のカウント数の場合もあり、加工されたカウント数の場合もある。一部の実施形態では、カウント数を、1つまたは複数の対象から得られる1つまたは複数の試料から得る。
一部の実施形態では、正規化法(例えば、正規化法の種類)を、回帰(例えば、回帰分析)および/または相関係数に従って選択する。回帰分析とは、変数(例えば、カウント数およびGC含有量)間の関係を推定するための統計学的技法を指す。一部の実施形態では、回帰を、参照ゲノムの複数の部分のうちの各部分についてのGC含有量のカウント数および尺度に従って生成する。GC含有量の適切な尺度であって、その非限定的な例が、グアニン含有量、シトシン含有量、アデニン含有量、チミン含有量、プリン(GC)含有量、またはピリミジン(ATまたはATU)含有量の尺度、融解温度(T)(例えば、変性温度、アニーリング温度、ハイブリダイゼーション温度)、自由エネルギーの尺度など、またはこれらの組合せを含む尺度を使用することができる。グアニン(G)含有量、シトシン(C)含有量、アデニン(A)含有量、チミン(T)含有量、プリン(GC)含有量、またはピリミジン(ATまたはATU)含有量の尺度は、比または百分率として表すことができる。一部の実施形態では、任意の適する比または百分率であって、その非限定的な例が、GC/AT、GC/全ヌクレオチド、GC/A、GC/T、AT/全ヌクレオチド、AT/GC、AT/G、AT/C、G/A、C/A、G/T、G/A、G/AT、C/Tなど、またはこれらの組合せを含む比または百分率を使用する。一部の実施形態では、GC含有量の尺度は、GC含有量の、全ヌクレオチド含有量に対する比または百分率である。一部の実施形態では、GC含有量の尺度は、参照ゲノムの部分へとマッピングした配列の読取りについての、GC含有量の、全ヌクレオチド含有量に対する比または百分率である。ある特定の実施形態では、GC含有量は、各参照ゲノム部分へとマッピングした配列の読取りに従って、かつ/または各参照ゲノム部分へとマッピングした配列の読取りから決定し、配列の読取りは、試料から得る。一部の実施形態では、GC含有量の尺度は、配列の読取りに従って、かつ/または配列の読取りから決定されない。ある特定の実施形態では、GC含有量の尺度を、1つまたは複数の対象から得られる1つまたは複数の試料について決定する。
一部の実施形態では、回帰を生成することは、回帰分析または相関分析を生成することを含む。その非限定的な例が、回帰分析、(例えば、線形回帰分析)、適合の良さについての分析、ピアソン相関分析、ランク相関、説明されていない分散の割合、NS(Nash−Sutcliffe)モデルによる効率解析、回帰モデルの妥当性の確認、PRL(proportional reduction in loss)、二乗平均平方根偏差など、またはこれらの組合せを含む、適切な回帰を使用することができる。一部の実施形態では、回帰直線を生成する。ある特定の実施形態では、回帰を生成することは、線形回帰を生成することを含む。ある特定の実施形態では、回帰を生成することは、非線形回帰(例えば、LOESS回帰、LOWESS回帰)を生成することを含む。
一部の実施形態では、回帰により、例えば、GC含有量のカウント数および尺度の間の相関(例えば、線形相関)の存在または非存在を決定する。一部の実施形態では、回帰(例えば、線形回帰)を生成し、相関係数を決定する。一部の実施形態では、その非限定的な例が、決定係数、R値、ピアソン相関係数などを含む、適切な相関係数を決定する。
一部の実施形態では、適合の良さを、回帰(例えば、回帰分析、線形回帰)について決定する。適合の良さは、場合によって、目視分析または数学的分析により決定する。評価は、場合によって、適合の良さが、非線形回帰で大きいのか、線形回帰で大きいのかについて決定することを含む。一部の実施形態では、相関係数は、適合の良さの尺度である。一部の実施形態では、回帰についての適合の良さの評価を、相関係数および/または相関係数のカットオフ値に従って決定する。一部の実施形態では、適合の良さの評価は、相関係数と相関係数のカットオフ値との比較を含む。一部の実施形態では、回帰についての適合の良さの評価は、線形回帰を指し示す。例えば、ある特定の実施形態では、適合の良さは、非線形回帰についてより、線形回帰について大きく、適合の良さの評価は、線形回帰を指し示す。一部の実施形態では、評価は、線形回帰を指し示し、線形回帰を使用して、カウント数を正規化する。一部の実施形態では、回帰についての適合の良さの評価は、非線形回帰を指し示す。例えば、ある特定の実施形態では、適合の良さは、線形回帰についてより、非線形回帰について大きく、適合の良さの評価は、非線形回帰を指し示す。一部の実施形態では、評価は、非線形回帰を指し示し、非線形回帰を使用して、カウント数を正規化する。
一部の実施形態では、適合の良さの評価は、相関係数が、相関係数カットオフに等しいかまたはそれ超の場合に線形回帰を指し示す。一部の実施形態では、適合の良さの評価は、相関係数が相関係数カットオフ未満である場合に非線形回帰を指し示す。一部の実施形態では、相関係数カットオフは、所定のカットオフである。一部の実施形態では、相関係数カットオフは、約0.5もしくはそれ超、約0.55もしくはそれ超、約0.6もしくはそれ超、約0.65もしくはそれ超、約0.7もしくはそれ超、約0.75もしくはそれ超、約0.8もしくはそれ超、または約0.85もしくはそれ超である。
一部の実施形態では、回帰の具体的な種類(例えば、線形または非線形回帰)を選択し、回帰を生成した後で、回帰をカウント数から減算することにより、カウント数を正規化する。一部の実施形態では、回帰をカウント数から減算することにより、偏り(例えば、GCの偏り)の低減された、正規化されたカウント数を提示する。一部の実施形態では、線形回帰をカウント数から減算する。一部の実施形態では、非線形回帰(例えば、LOESS、GC−LOESS、LOWESS回帰)をカウント数から減算する。任意の適切な方法を使用して、回帰直線をカウント数から減算することができる。例えば、カウント数xを、0.5のGC含有量を含む部分i(例えば、部分i)から導出し、回帰直線により、0.5のGC含有量でのカウント数yを決定し、よって、x−y=部分iについての正規化されたカウント数である。一部の実施形態では、回帰を減算する前に、かつ/または回帰を減算した後で、カウント数を正規化する。一部の実施形態では、ハイブリッド正規化法により正規化されたカウント数を使用して、レベル、Zスコア、ゲノムまたはその部分のレベルおよび/またはプロファイルを生成する。ある特定の実施形態では、ハイブリッド正規化法により正規化されたカウント数を、本明細書で記載される方法により分析して、遺伝子の変動または遺伝子の変更(例えば、コピー数の変更)の存在または非存在を決定する。
一部の実施形態では、ハイブリッド正規化法は、正規化の前または後における、1つまたは複数の部分をフィルタリングすることまたは重み付けすることを含む。本明細書で記載される部分(例えば、参照ゲノム部分)のフィルタリング法を含む、適切な部分のフィルタリング法を使用することができる。一部の実施形態では、部分(例えば、参照ゲノム部分)は、ハイブリッド正規化法を適用する前にフィルタリングする。一部の実施形態では、選択部分(例えば、カウント数の可変性に従って選択された部分)へとマッピングした配列決定読取りのカウント数だけを、ハイブリッド正規化により正規化する。一部の実施形態では、ハイブリッド正規化法を活用する前に、フィルタリングされた参照ゲノム部分(例えば、カウント数の可変性に従ってフィルタリングされた部分)へとマッピングした配列決定読取りのカウント数を除外する。一部の実施形態では、ハイブリッド正規化法は、適切な方法(例えば、本明細書で記載される方法)に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、複数の試験試料について部分の各々へとマッピングしたカウント数についての不確定値に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、カウント数の可変性に従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。一部の実施形態では、ハイブリッド正規化法は、GC含有量、反復エレメント、反復配列、イントロン、エクソンなど、またはこれらの組合せに従った、部分(例えば、参照ゲノム部分)を選択することまたはフィルタリングすることを含む。
プロファイル
一部の実施形態では、加工するステップは、データセットまたはその派生形の多様な側面(例えば、当技術分野で公知であり、かつ/または本明細書で記載される、1つまたは複数の数学的データ加工ステップおよび/または統計学的データ加工ステップの成果)からの、1つまたは複数のプロファイルの生成(例えば、プロファイルのプロット)を含む。
本明細書で使用される「プロファイル」という用語は、大量のデータ中のパターンおよび/または相関の識別を容易としうるデータに対する数学的操作および/または統計学的操作の成果を指す。「プロファイル」は、データまたはデータセットに対する、1つまたは複数の参照基準に基づく、1つまたは複数の操作から結果として得られる値を含むことが多い。プロファイルは、複数のデータ点を含むことが多い。データセットの性格および/または複雑性に応じて、任意の適切な数のデータ点を、プロファイルに組み入れることができる。ある特定の実施形態では、プロファイルには、2つまたはそれ超のデータ点、3つもしくはそれ超のデータ点、5つもしくはそれ超のデータ点、10もしくはそれ超のデータ点、24もしくはそれ超のデータ点、25もしくはそれ超のデータ点、50もしくはそれ超のデータ点、100もしくはそれ超のデータ点、500もしくはそれ超のデータ点、1000もしくはそれ超のデータ点、5000もしくはそれ超のデータ点、10,000もしくはそれ超のデータ点、または100,000もしくはそれ超のデータ点を組み入れることができる。
一部の実施形態では、プロファイルは、データセットの全体を表示し、ある特定の実施形態では、プロファイルは、データセットの一部またはサブセットを表示する。すなわち、プロファイルは、ある場合には、いかなるデータも除外するようにフィルタリングされていないデータを表示するデータ点を含むかまたはこれらから生成されており、プロファイルは、ある場合には、望ましくないデータを除外するようにフィルタリングされたデータを表示するデータ点を含むかまたはこれらから生成されている。一部の実施形態では、プロファイル中のデータ点は、部分についてのデータ操作の結果を表示する。ある特定の実施形態では、プロファイル中のデータ点は、部分の群についてのデータ操作の結果を含む。一部の実施形態では、部分の群は、互いと隣接することが可能であり、ある特定の実施形態では、部分の群は、染色体またはゲノムの異なる部分に由来しうる。
データセットから導出されたプロファイル中のデータ点は、任意の適切なデータの類別を表示しうる。プロファイルデータ点を生成するようにデータを群分けしうる部類の非限定的な例は、サイズに基づく部分、配列特徴(例えば、GC含有量、AT含有量、染色体上の地点(例えば、短腕部、長腕部、セントロメア、テロメア)など)に基づく部分、発現のレベル、染色体など、またはこれらの組合せを含む。一部の実施形態では、プロファイルは、別のプロファイルから得られるデータ点から生成することができる(例えば、再正規化データプロファイルを生成するように、異なる正規化値に従って再正規化された正規化データプロファイル)。ある特定の実施形態では、別のプロファイルから得られるデータ点から生成されたプロファイルにより、データ点の数および/またはデータセットの複雑性を低減する。データ点の数および/またはデータセットの複雑性の低減により、データの解釈が容易となり、かつ/またはアウトカムの提示が容易となることが多い。
プロファイル(例えば、ゲノムプロファイル、染色体プロファイル、染色体の部分のプロファイル)は、2つまたはそれ超の部分の正規化されたカウント数または正規化されていないカウント数のコレクションであることが多い。プロファイルは、少なくとも1つのレベルを含むことが多く、2つまたはそれ超のレベルを含むことが多い(例えば、プロファイルは、複数のレベルを有することが多い)。レベルは一般に、ほぼ同じカウント数または正規化されたカウント数を有する部分のセットについてのレベルである。レベルについては、本明細書でより詳細に記載される。ある特定の実施形態では、プロファイルは、1つまたは複数の部分であって、重み付けするか、除外するか、フィルタリングするか、正規化するか、調整するか、平均するか、平均として導出するか、加算するか、減算するか、加工するか、またはこれらの任意の組合せにより変換しうる部分を含む。プロファイルは、2つまたはそれ超のレベルを規定する部分へとマッピングした正規化されたカウント数を含むことが多く、ここで、カウント数は、適切な方法により、レベルのうちの1つに従ってさらに正規化される。プロファイル(例えば、プロファイルレベル)のカウント数は、不確定値と関連することが多い。
1つまたは複数のレベルを含むプロファイルは、場合によって、穴埋め(例えば、ホールの穴埋め)される。穴埋め(例えば、ホールの穴埋め)とは、コピー数の変更(例えば、患者のゲノムにおける微小重複または微小欠失、母体の微小重複または微小欠失)に起因するプロファイル中のレベルを識別および調整する処理を指す。一部の実施形態では、胎仔の微小重複または胎仔の微小欠失に起因するレベルを穴埋めする。一部の実施形態では、プロファイル中の微小重複または微小欠失により、プロファイル(例えば、染色体プロファイル)の全体的なレベルを人工的に上昇または低下させ、染色体の異数性(例えば、トリソミー)についての、偽陽性または偽陰性の決定をもたらすことができる。一部の実施形態では、微小重複および/または欠失に起因するプロファイル中のレベルを識別し、場合によって、穴埋めまたはホールの穴埋めと称する処理により調整する(例えば、穴埋めおよび/または除外する)。
1つまたは複数のレベルを含むプロファイルは、第1のレベルおよび第2のレベルを含みうる。一部の実施形態では、第1のレベルは、第2のレベルと異なる(例えば、有意に異なる)。一部の実施形態では、第1のレベルは、第1の部分のセットを含み、第2のレベルは、第2の部分のセットを含み、第1の部分のセットは、第2の部分のセットのサブセットではない。ある特定の実施形態では、第1の部分のセットは、第2の部分のセットと異なり、これらから第1のレベルおよび第2のレベルが決定される。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと異なる(例えば、有意に異なる、例えば、有意に異なる値を有する)複数の第1のレベルを有しうる。一部の実施形態では、プロファイルは、プロファイル中の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含み、第1のレベルのうちの1または複数を調整する。一部の実施形態では、プロファイル中の第1のレベルを、プロファイルから除外するかまたは調整する(例えば、穴埋めする)。プロファイルは、1つまたは複数の第2のレベルと有意に異なる、1つまたは複数の第1のレベルを含む複数のレベルを含むことが可能であり、プロファイル中のレベルの大半は、互いとほぼ等しい第2のレベルであることが多い。一部の実施形態では、プロファイル中のレベルのうちの50%超、60%超、70%超、80%超、90%超または95%超は、第2のレベルである。
プロファイルは、場合によって、プロットとして示される。例えば、部分のカウント数(例えば、正規化されたカウント数)を表示する1つまたは複数のレベルは、プロットし、視覚化することができる。生成されうるプロファイルのプロットの非限定的な例は、生のカウント数(例えば、生のカウント数プロファイルまたは生のプロファイル)、正規化されたカウント数、重み付けられた部分、zスコア、p値、適合させた倍数性と対比した面積比、適合させた少量種フラクションと測定少量種フラクションとの比と対比した中央値レベル、主成分など、またはこれらの組合せを含む。一部の実施形態では、プロファイルのプロットにより、操作データの視覚化が可能となる。ある特定の実施形態では、プロファイルのプロットを活用して、アウトカム(例えば、適合させた倍数性と対比した面積比、適合させた少量種フラクションと測定少量種フラクションとの間の比と対比した中央値レベル、主成分)を提示することができる。本明細書で使用される「生のカウント数プロファイルのプロット」または「生のプロファイルのプロット」という用語は、領域中の全カウント数に正規化された、領域中の各部分(例えば、ゲノム、部分、染色体、参照ゲノムの染色体部分、または染色体の部分)中のカウント数のプロットを指す。一部の実施形態では、プロファイルは、スタティックウィンドウ処理を使用して生成することができ、ある特定の実施形態では、プロファイルは、スライディングウィンドウ処理を使用して生成することができる。
試験対象について生成されたプロファイルは、場合によって、1つまたは複数の参照対象について生成されたプロファイルと比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。一部の実施形態では、プロファイルは、1つまたは複数の出発仮定、例えば、本明細書に記載の仮説に基づき生成する。ある特定の実施形態では、試験プロファイルは、コピー数の変更の非存在を表示する所定の値を中心とすることが多く、試験対象が遺伝子の変動を保有したとする場合に、試験対象においてコピー数の変更が位置するゲノム位置に対応するエリア中の所定の値からは逸脱することが多い。コピー数の変更と関連する医学的状態の危険性があるか、またはこれを患っている試験対象では、選択部分についての数値が、罹患していないゲノム位置についての所定の値から有意に変化することが期待される。出発仮定(例えば、一定の倍数性もしくは最適化された倍数性、がん細胞核酸の一定のフラクションまたはがん細胞核酸の最適化されたフラクション、一定の胎仔フラクションもしくは最適化された胎仔フラクション、またはこれらの組合せ)に応じて、コピー数の変更の存在または非存在を指し示す所定の閾値もしくはカットオフ値または閾値の範囲は、コピー数の変更の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。一部の実施形態では、プロファイルは、表現型を指し示し、かつ/またはこれを表示する。
一部の実施形態では、問題のコピー数の変更を実質的に含まない1つまたは複数の参照試料の使用を使用して、参照カウント数プロファイル(例えば、参照中央値カウント数プロファイル)を生成でき、これは、コピー数の変更の不在を示す所定の値をもたらすことができ、もし試験対象がコピー数の変更を保有するならば、コピー数の変更が試験対象において位置するゲノムの位置に対応する領域において所定の値から、しばしば逸脱する。コピー数の変更と関連する医学的状態のリスクにある、またはそれを罹患している試験対象では、選択された部分または区分についての数値が、影響を受けていないゲノム位置についての所定の値から大幅に変わると予測される。ある特定の実施形態では、問題のコピー数の変更を保持すると分かっている1つまたは複数の参照試料の使用を使用して、参照カウント数プロファイル(参照中央値カウント数プロファイル)を生成でき、これは、コピー数の変更の存在を示す所定の値をもたらすことができ、試験対象がコピー数の変更を保持しないゲノム位置に対応する領域において所定の値から、しばしば逸脱する。コピー数の変更と関連する医学的状態のリスクにない、またはそれを罹患していない試験対象では、選択された部分または区分についての数値が、影響を受けたゲノム位置についての所定の値から大幅に変わると予測される。
非限定的な例として述べると、正規化された試料および/または参照カウント数プロファイルは、(a)コピー数の変更を保有しないことが既知である参照基準のセットから選択された、染色体、部分、またはこれらの部分についての、参照中央値カウント数を計算すること、(b)情報をもたらさない部分の、参照試料の生のカウント数からの除外(例えば、フィルタリング)、(c)残りの全ての参照ゲノム部分についての参照カウント数を、参照試料、選択された染色体、または選択されたゲノム位置についての、残りカウント数の総数(例えば、情報を与えない参照ゲノム部分を除外した後の残りのカウント数の合計)に正規化し、これにより、正規化された参照対象プロファイルを生成すること、(d)対応する部分を試験対象試料から除外すること、および(e)1つまたは複数の選択されたゲノム位置についての、残りの試験対象カウント数を、選択されたゲノム位置を含有する1つまたは複数の染色体についての、残りの参照中央値カウント数の合計に正規化し、これにより、正規化された試験対象プロファイルを生成することにより、生の配列の読取りデータから得ることができる。ある特定の実施形態では、(b)における部分のフィルタリングにより縮減された全ゲノムに関する、さらなる正規化ステップを、(c)と(d)との間に組み入れることができる。
一部の実施形態では、読取り密度プロファイルを決定する。一部の実施形態では、読取り密度プロファイルは、少なくとも1つの読取り密度を含み、しばしば、2つまたはそれより多い読取り密度を含む(例えば、読取り密度プロファイルは、しばしば複数の読取り密度を含む)。一部の実施形態では、読取り密度プロファイルは、適した定量的値(例えば、平均、中央値、Zスコア等)を含む。読取り密度プロファイルは、しばしば、1つまたは複数の読取り密度に起因する値を含む。読取り密度プロファイルは、時には、1つまたは複数の調整(例えば、正規化)に基づく読取り密度の1つまたは複数の操作に起因する値を含む。一部の実施形態では、読取り密度プロファイルは、操作されていない読取り密度を含む。一部の実施形態では、読取り密度を含むデータセットまたはその誘導物の種々の態様(例えば、当技術分野で公知のおよび/または本明細書において記載される、1つまたは複数の数学的および/または統計学的データ処理ステップの成果)から、1つまたは複数の読取り密度プロファイルを生成する。ある特定の実施形態では、読取り密度プロファイルは、正規化された読取り密度を含む。一部の実施形態では、読取り密度プロファイルは、調整された読取り密度を含む。ある特定の実施形態では、読取り密度プロファイルは、未加工の読取り密度(例えば、操作されていない、調整されていないまたは正規化されていない)、正規化された読取り密度、重み付けされた読取り密度、フィルタリングされた部分の読取り密度、読取り密度のzスコア、読取り密度のp値、読取り密度の積分値(例えば、曲線下面積)、平均値、平均または中央値読取り密度、主成分等またはそれらの組合せを含む。読取り密度プロファイルの読取り密度および/または読取り密度プロファイルは、不確定性の尺度(例えば、MAD)と関連していることが多い。ある特定の実施形態では、読取り密度プロファイルは、中央値読取り密度の分布を含む。一部の実施形態では、読取り密度プロファイルは、複数の読取り密度の関係(例えば、適合された関係、回帰等)を含む。例えば、時には、読取り密度プロファイルは、読取り密度(例えば、読取り密度値)とゲノム位置(例えば、部分、部分位置)間の関係を含む。一部の実施形態では、静止したウィンドウプロセスを使用して読取り密度プロファイルを生成し、ある特定の実施形態では、スライディングウィンドウプロセスを使用して読取り密度プロファイルを生成する。一部の実施形態では、読取り密度プロファイルを、時には、印刷および/またはディスプレイする(例えば、視覚表示、例えば、プロットまたはグラフとしてディスプレイする)。
一部の実施形態では、読取り密度プロファイルは、部分のセット(例えば、参照ゲノムの部分のセット、染色体の部分のセットまたは染色体の一部の部分のサブセット)に対応する。一部の実施形態では、読取り密度プロファイルは、部分のコレクション(例えば、セット、サブセット)と関連する読取り密度および/またはカウント数を含む。一部の実施形態では、読取り密度プロファイルを、連続的である部分の読取り密度について決定する。一部の実施形態では、連続部分は、参照配列の領域および/または密度プロファイルに含まれない配列の読取り(例えば、フィルタリングによって除去される部分)を含むギャップを含む。時には、連続的である部分(例えば、部分のセット)は、ゲノムの隣接領域または染色体もしくは遺伝子の隣接領域を示す。例えば、2つまたはそれより多い連続部分は、部分を端から端まで統合することによってアラインすると、各部分よりも長いDNA配列の配列アセンブリーを表しうる。例えば、2つまたはそれより多い連続部分は、無傷ゲノム、染色体、遺伝子、イントロン、エクソンまたはその一部を表しうる。時には、読取り密度プロファイルを、連続部分および/または不連続部分のコレクション(例えば、セット、サブセット)から決定する。一部の場合には、読取り密度プロファイルは、1つまたは複数の部分を含み、この部分は、重み付けされ、除去され、フィルタリングされ、正規化され、調整され、平均化され、平均として導かれ、付加され、差し引かれ、処理され、またはそれらの任意の組合せによって変換されうる。
読取り密度プロファイルを、試料および/または参照基準(例えば、参照試料)について決定することが多い。時には、読取り密度プロファイルを、全ゲノム、1つまたは複数の染色体について、またはゲノムもしくは染色体の一部について生成する。一部の実施形態では、1つまたは複数の読取り密度プロファイルを、ゲノムまたはその一部について決定する。一部の実施形態では、読取り密度プロファイルは、試料の読取り密度のセットの全体の代表例であり、ある特定の実施形態では、読取り密度プロファイルは、試料の読取り密度の一部またはサブセットの代表例である。すなわち、時には、読取り密度プロファイルは、フィルタリングされてデータが除去されていないデータの読取り密度代表例を含む、またはそれから生成し、時には、読取り密度プロファイルは、フィルタリングして、不要なデータを除去したデータのデータ点代表例を含む、またはそれから生成する。
一部の実施形態では、読取り密度プロファイルを、参照(例えば、参照試料、トレーニングセット)について決定する。参照についての読取り密度プロファイルは、時には、本明細書において、参照プロファイルと呼ばれる。一部の実施形態では、参照プロファイルは、1つまたは複数の参照基準(例えば、参照配列、参照試料)に由来する読取り密度を含む。一部の実施形態では、参照プロファイルは、1つまたは複数の公知の正倍数体試料(例えば、そのセット)について決定された読取り密度を含む。一部の実施形態では、参照プロファイルは、フィルタリングされた部分の読取り密度を含む。一部の実施形態では、参照プロファイルは、1つまたは複数の主成分に従って調整された読取り密度を含む。
比較の実施
一部の実施形態では、処理ステップは、比較(例えば、試験プロファイルを参照プロファイルと比較すること)を実施することを含む。適切な方法により、2つもしくはそれ超のデータセット、2つもしくはそれ超の関係、および/または2つもしくはそれ超のプロファイルについて比較することができる。データセット、関係、および/またはプロファイルの比較に適切な統計学的方法の非限定的な例は、ベーレンスフィッシャー法、ブートストラップ法、独立の有意性検定を組み合わせるためのフィッシャー法、ネイマンピアソン検定、確認的データ分析、探索的データ分析、正確検定、F検定、Z検定、T検定、不確定性の尺度、帰無仮説、対立仮説(counternull)などの計算および/もしくは比較、カイ二乗検定、オムニバス検定、有意性(例えば、統計学的有意性)のレベルの計算および/もしくは比較、メタ分析、多変量分析、回帰、線形単回帰、頑健な線形回帰など、または前出の組合せを含む。ある特定の実施形態では、2つまたはそれ超のデータセット、関係、および/またはプロファイルの比較は、不確定性の尺度の決定および/または比較を含む。本明細書で使用される「不確定性の尺度」とは、有意性(例えば、統計学的有意性)の尺度、誤差の尺度、分散の尺度、信頼性の尺度など、またはこれらの組合せを指す。不確定性の尺度は、値(例えば、閾値)の場合もあり、値の範囲(例えば、区間、信頼区間、ベイズ信頼区間、閾値範囲)の場合もある。不確定性の尺度の非限定的な例は、p値、偏差の適切な尺度(例えば、標準偏差、シグマ、絶対偏差、平均絶対偏差など)、適切な誤差の尺度(例えば、標準誤差、二乗平均誤差、二乗平均平方根誤差など)、分散の適切な尺度、適切な標準スコア(例えば、標準偏差、累積百分率、百分位数同等物、Zスコア、Tスコア、Rスコア、標準的9段階法(スタナイン)、スタナインパーセントなど)など、またはこれらの組合せを含む。一部の実施形態では、有意性のレベルの決定は、不確定性の尺度(例えば、p値)を決定することを含む。ある特定の実施形態では、2つまたはそれ超のデータセット、関係、および/またはプロファイルは、複数の(例えば、2つまたはそれ超の)統計学的方法(例えば、最小二乗回帰、主成分分析、線形判別分析、二次判別分析、バッギング、ニューラルネットワーク、サポートベクターマシンモデル、ランダムフォレスト、分類木モデル、K近傍法、ロジスティック回帰および/またはLOESSスムージング)、ならびに/または任意の適切な数学的操作および/もしくは統計学的操作(例えば、本明細書では操作と称する)を活用することにより分析および/または比較することができる。
一部の実施形態では、処理ステップは、2つまたはそれより多いプロファイル(例えば、2つまたはそれより多い読取り密度プロファイル)の比較を含む。プロファイルを比較することは、ゲノムの選択された領域について生成したプロファイルを比較することを含みうる。例えば、試験および参照プロファイルが、実質的に同一領域であるゲノム(例えば、参照ゲノム)の領域について決定された、試験プロファイルを参照プロファイルと比較することができる。プロファイルを比較することは、時には、2つまたはそれより多い、プロファイル(例えば、読取り密度プロファイル)の部分のサブセットを比較することを含む。プロファイルの部分のサブセットは、ゲノムの領域(例えば、染色体またはその領域)を表しうる。プロファイル(例えば、読取り密度プロファイル)は、任意の量の部分のサブセットを含みうる。時には、プロファイル(例えば、読取り密度プロファイル)は、2つもしくはそれより多い、3つもしくはそれより多い、4つもしくはそれより多いまたは5つもしくはそれより多いサブセットを含む。ある特定の実施形態では、プロファイル(例えば、読取り密度プロファイル)は、各部分が隣接する参照ゲノムの領域を表す、2つの部分のサブセットを含む。一部の実施形態では、試験プロファイルおよび参照プロファイルが両方とも、第1の部分のサブセットおよび第2の部分のサブセットを含み、第1および第2のサブセットがゲノムの異なる領域を表す、試験プロファイルを参照プロファイルと比較することができる。プロファイルの部分の一部のサブセットは、コピー数の変更を含むことがあり、その他の部分のサブセットは、時には、コピー数の変更を実質的に含まない。時には、プロファイル(例えば、試験プロファイル)の部分のすべてのサブセットは、コピー数の変更を実質的に含まない。時には、プロファイル(例えば、試験プロファイル)の部分のすべてのサブセットは、コピー数の変更を含む。一部の実施形態では、試験プロファイルは、コピー数の変更を含む第1の部分のサブセットおよびコピー数の変更を実質的に含まない第2の部分のサブセットを含みうる。
ある特定の実施形態では、2つまたはそれ超のプロファイルの比較は、2つまたはそれ超のプロファイルについての、不確定性の尺度の決定および/または比較を含む。場合によって、プロファイル(例えば、読取り密度プロファイル)および/または関連する不確定性の尺度を比較して、データセットの数学的操作および/もしくは統計学的操作の解釈を容易とし、かつ/またはアウトカムを提示する。場合によって、試験対象について生成されたプロファイル(例えば、読取り密度プロファイル)は、1つまたは複数の参照基準(例えば、参照試料、参照対象など)について生成されたプロファイル(例えば、読取り密度プロファイル)と比較する。一部の実施形態では、染色体、その部分または一部について、試験対象に由来するプロファイル(例えば、読取り密度プロファイル)を、参照基準に由来するプロファイル(例えば、読取り密度プロファイル)に対して比較することによってアウトカムを提供し、参照プロファイルは、コピー数の変更を有さないと分かっている参照対象のセット(例えば、参照基準)から得る。一部の実施形態では、染色体、その部分または一部について試験対象に由来するプロファイル(例えば、読取り密度プロファイル)を、参照基準に由来するプロファイル(例えば、読取り密度プロファイル)に対して比較することによってアウトカムを提供し、参照プロファイルは、特定のコピー数の変更(例えば、染色体異数性、微小重複、微小欠失)を有すると分かっている参照対象のセットから得られる。
ある特定の実施形態では、試験対象のプロファイル(例えば、読取り密度プロファイル)は、コピー数の変更の非存在を表示する所定の値と比較され、場合によって、コピー数の変更が位置するゲノム位置に対応する1つまたは複数のゲノム位置(例えば、部分)において、所定の値から逸脱する。例えば、試験対象(例えば、コピー数の変更と関連する医学的状態の危険性があるか、またはこれを患っている対象)では、プロファイルは、試験対象が、問題のコピー数の変更を含む場合の選択部分について、参照基準(例えば、参照配列、参照対象、参照セット)のプロファイルから有意に異なることが期待される。試験対象のプロファイル(例えば、読取り密度プロファイル)は、試験対象が、問題のコピー数の変更を含まない場合の選択部分について、参照基準(例えば、参照配列、参照対象、参照セット)のプロファイル(例えば、読取り密度プロファイル)と実質的に同じであることが多い。プロファイル(例えば、読取り密度プロファイル)は、所定の閾値および/または閾値範囲と比較され得る。本明細書で使用される「閾値」という用語は、定性的データセットを使用して計算され、コピー数の変更(例えば、異数性、微小重複、微小欠失など)についての診断の限界として用いられる、任意の数を指す。ある特定の実施形態では、閾値は、本明細書で記載される方法により得られる結果により超えられ、対象は、コピー数の変更を有すると診断される。一部の実施形態では、閾値の値または閾値の値の範囲は、配列の読取りデータ(例えば、参照基準および/または対象に由来する)を、数学的および/または統計学的に操作することを介して計算され得る。コピー数の変更の存在または非存在を指し示す所定の閾値または閾値の範囲は、コピー数の変更の存在または非存在を決定するために有用なアウトカムをやはり提示しながらも、変化しうる。ある特定の実施形態では、正規化された読取り密度および/または正規化されたカウント数を含むプロファイル(例えば、読取り密度プロファイル)を生成して、アウトカムの分類および/または提示を容易とする。アウトカムは、正規化されたカウント数を含むプロファイル(例えば、読取り密度プロファイル)のプロットに基づき(例えば、このような読取り密度プロファイルのプロットを使用して)提示することができる。
決定分析
一部の実施形態では、アウトカムの決定(例えば、コールを行うこと)またはコピー数の変更(例えば、染色体異数性、微小重複、微小欠失)の存在または非存在の決定を、決定分析に従って行う。ある特定の決定分析特徴は、参照により本明細書において組み込まれている、国際特許出願公開第WO2014/190286号に記載されている。例えば、決定分析は、時には、1つまたは複数の結果、結果の評価および結果に基づく一連の決定、決定の評価および/または可能性ある結論ならびに最終決定が行われるプロセスのいくつかの分岐点での終結をもたらす1つまたは複数の方法を適用することを含む。一部の実施形態では、決定分析は、決定木である。決定分析は、一部の実施形態では、1つまたは複数のプロセス(例えば、プロセスステップ、例えば、アルゴリズム)の同調化使用を含む。決定分析は、人、システム、装置、ソフトウェア(例えば、モジュール)、コンピュータ、プロセッサ(例えば、マイクロプロセッサ)等またはそれらの組合せによって実施できる。一部の実施形態では、決定分析は、決定分析が利用されない(例えば、決定が正規化されたカウント数から直接行われる)場合と比較して、偽陰性決定を低減し、偽陽性決定を低減しながら、コピー数の変更(例えば、染色体異数性、微小重複または微小欠失)の存在または非存在を決定する方法を含む。一部の実施形態では、決定分析は、1つまたは複数のコピー数の変更と関連する状態の存在または非存在を決定することを含む。
一部の実施形態では、決定分析は、ゲノムまたはゲノムの領域(例えば、染色体またはその一部)についてプロファイルを生成することを含む。プロファイルを、公知のまたは本明細書において記載される、任意の適した方法によって生成できる。一部の実施形態では、決定分析は、セグメント化プロセスを含む。セグメント化は、プロファイルを修飾および/または変換し、これにより、プロファイルの1つまたは複数の分解レンダリングを提供できる。セグメント化プロセスに付されるプロファイルは、参照ゲノム中の部分またはその一部にマッピングされる正規化されたカウント数のプロファイルであることが多い。本明細書において取り扱われるように、部分に対してマッピングされる未加工のカウント数を、1つまたは複数の適した正規化プロセス(例えば、LOESS、GC−LOESS、主成分正規化またはそれらの組合せ)によって正規化して、決定分析の一部としてセグメント化されるプロファイルを生成できる。プロファイルの分解レンダリングは、プロファイルの変換であることが多い。プロファイルの分解レンダリングは、場合によって、プロファイルの、ゲノム、染色体またはその部分の表示への変換である。
ある特定の実施形態では、セグメント化のために利用されるセグメント化処理により、プロファイル中の1つまたは複数のレベルであって、プロファイル中の1つまたは複数の他のレベルと異なる(例えば、実質的または有意に異なる)レベルを位置特定および識別する。本明細書では、プロファイル中でセグメント化処理に従って識別されるレベルであって、プロファイル中の別のレベルと異なり、プロファイル中の別のレベルと異なるエッジを有するレベルを、個別セグメントについてのレベルと称する。セグメント化処理により、正規化されたカウントまたはレベルのプロファイルから、1つまたは複数の個別セグメントを識別しうる、分解レンダリングを生成することができる。個別セグメントは一般に、セグメント化されるもの(例えば、染色体、染色体(複数)、常染色体)より少ない部分をカバーする。
一部の実施形態では、セグメント化することにより、プロファイル中の個別セグメントのエッジを位置特定および識別する。ある特定の実施形態では、1つまたは複数の個別セグメントのエッジの一方または両方を識別する。例えば、セグメント化処理により、プロファイル中の個別セグメントの右エッジおよび/または左エッジの位置(例えば、ゲノム座標、例えば、部分の位置)を識別することができる。個別セグメントは、2つのエッジを含むことが多い。例えば、個別セグメントは、左エッジおよび右エッジを含みうる。一部の実施形態では、表示または図示に応じて、左エッジは、5’−エッジであることが可能であり、右エッジは、プロファイル中の核酸セグメントの3’−エッジでありうる。一部の実施形態では、左エッジは、3’−エッジであることが可能であり、右エッジは、プロファイル中の核酸セグメントの5’−エッジでありうる。プロファイルのエッジは、セグメント化の前に既知であることが多く、したがって、一部の実施形態では、プロファイルのエッジにより、レベルのどのエッジが、5’−エッジであり、どのエッジが3’−エッジであるのかを決定する。一部の実施形態では、プロファイルのエッジおよび/または個別セグメントの一方または両方は、染色体のエッジである。
一部の実施形態では、個別セグメントのエッジを、参照試料(例えば、参照プロファイル)について生成された分解レンダリングに従って決定する。一部の実施形態では、ヌルエッジの高さの分布を、参照プロファイル(例えば、染色体またはその部分のプロファイル)の分解レンダリングに従って決定する。ある特定の実施形態では、プロファイル中の個別セグメントのエッジを、個別セグメントのレベルが、ヌルエッジの高さの分布の外側にある場合に識別する。一部の実施形態では、プロファイル中の個別セグメントのエッジを、参照プロファイルについての分解レンダリングに従って計算されたZスコアに従って識別する。
一部の場合では、セグメント化は、プロファイル中に2つまたはそれより多い個別セグメント(例えば、2つまたはそれより多い断片化されたレベル、2つまたはそれより多い断片化されたセグメント)を生成する。一部の実施形態では、セグメント化プロセスに起因する分解レンダリングは、過剰セグメント化または断片化され、複数の個別セグメントを含む。時には、セグメント化によって生成された個別セグメントは、実質的に異なり、時には、セグメント化によって生成された個別セグメントは、実質的に同様である。実質的に同様の個別セグメント(例えば、実質的に同様のレベル)は、各々、所定のレベル未満の不確定性によって異なるレベルを有する、セグメント化されたプロファイル中の2つまたはそれより多い隣接する個別セグメントを指すことが多い。一部の実施形態では、実質的に同様の個別セグメントは、互いに隣接し、介在セグメントによって分離されていない。一部の実施形態では、実質的に同様の個別セグメントは、1つまたは複数のより小さいセグメントによって分離されている。一部の実施形態では、実質的に同様の個別セグメントは、約1〜約20、約1〜約15、約1〜約10または約1〜約5部分によって分離されており、介在部分のうち1つまたは複数は、実質的に同様の個別セグメントの各々のレベルとは大幅に異なるレベルを有する。一部の実施形態では、実質的に同様の個別セグメントのレベルは、不確定性のレベルの約3倍未満、約2倍未満、約1倍未満または約0.5倍未満異なる。実質的に同様の個別セグメントは、一部の実施形態では、3未満のMAD(例えば、3未満のシグマ)、2未満のMAD、1未満のMADまたは約0.5未満のMADによって異なる中央値レベルを含み、MADは、セグメント各々の中央値レベルから算出される。実質的に異なる個別セグメントは、一部の実施形態では、隣接しない、または10もしくはそれより多い、15もしくはそれより多いまたは20もしくはそれより多い部分によって分離されている。実質的に異なる個別セグメントは、全般的に、実質的に異なるレベルを有する。ある特定の実施形態では、実質的に異なる個別セグメントは、不確定性のレベルの約2.5倍を超えて、約3倍を超えて、約4倍を超えて、約5倍を超えて、約6倍を超えて異なるレベルを含む。実質的に異なる個別セグメントは、一部の実施形態では、2.5を超えるMAD(例えば、2.5を超えるシグマ)、3を超えるMAD、4を超えるMAD、約5を超えるMADまたは約6を超えるMADによって異なる中央値レベルを含み、MADは、個別セグメントの各々の中央値レベルから算出される。
一部の実施形態では、セグメント化プロセスは、プロファイルまたはその一部中の1つまたは複数の個別セグメントについて、レベル(例えば、定量的値、例えば、平均または中央値レベル)、不確定性のレベル(例えば、不確定性値)、Zスコア、Z値、p値等またはそれらの組合せを決定すること(例えば、算出すること)を含む。一部の実施形態では、個別セグメントについて、レベル(例えば、定量的値、例えば、平均または中央値レベル)、不確定性のレベル(例えば、不確定性値)、Zスコア、Z値、p値等またはそれらの組合せを決定する(例えば、算出する)。
セグメント化は、1つまたは複数の分解生成プロセスにより、完全にまたは部分的に実施することができる。分解生成プロセスは、例えば、プロファイルの分解レンダリングを提供できる。本明細書において記載される、または当技術分野で公知の任意の分解生成プロセスを使用できる。分解生成プロセスの限定されない例として、サーキュラーバイナリセグメンテーション(CBS)(例えば、Olshenら、(2004年)、Biostatistics、5巻、(4号):557〜72頁;Venkatraman, ES、Olshen, AB(2007年)、Bioinformatics、23巻、(6号):657〜63頁を参照のこと)、ハールウェーブレットセグメンテーション(例えば、Haar, Alfred(1910年)、Mathematische Annalen、69巻(3号):331〜371頁を参照のこと)、最大オーバーラップ個別ウェーブレット変換(MODWT)(例えば、Hsuら(2005年) Biostatistics 6巻(2号):211〜226頁を参照のこと)、定常ウェーブレット(SWT)(例えば、Y. WangおよびS. Wang、(2007年)International Journal of Bioinformatics Research and Applications、3巻、(2号)、206〜222頁を参照のこと)、双対木複素ウェーブレット変換(DTCWT)(例えば、Nguyenら(2007年)Proceedings of the 7th IEEE International Conference、Boston MA、2007年10月14〜17日、137〜144頁を参照のこと)、最大エントロピーセグメント化、エッジ検出カーネルによるコンボリューション、ジェンセンシャノンダイバージェンス、カルバックライブラーダイバージェンス、バイナリ再帰的セグメンテーション、フーリエ変換等またはこれらの組合せが挙げられる。
一部の実施形態では、セグメント化は、1つのプロセスまたは複数の部分プロセスを含むプロセスによって達成され、その限定されない例として、分解生成プロセス、閾値化、レベル化、スムージング、仕上げ等またはそれらの組合せが挙げられる。閾値化、レベル化、スムージング、仕上げ等は、例えば、分解生成プロセスとともに実施できる。
一部の実施形態では、決定分析は、分解レンダリング中の候補セグメントを同定することを含む。候補セグメントは、分解レンダリング中の最も重要な個別セグメントであると決定される。候補セグメントは、セグメントによってカバーされる部分の数の点で、および/またはセグメントについて正規化されたカウント数のレベルの絶対値の点で最も重要でありうる。候補セグメントは、時には、分解レンダリング中のその他の個別セグメントよりもより大きく、時には、実質的により大きい。候補セグメントは、適した方法によって同定できる。一部の実施形態では、候補セグメントを、曲線下面積(AUC)分析によって同定する。ある特定の実施形態では、第1の個別セグメントが、分解レンダリング中の別の個別セグメントよりも実質的に大きい、レベルを有する、および/またはいくつかの部分をカバーする場合に、第1のセグメントは、より大きなAUCを含む。AUCについてレベルが分析される場合に、レベルの絶対値が利用されることが多い(例えば、正規化されたカウント数に対応するレベルは、欠失について負の値を、重複について正の値を有しうる)。ある特定の実施形態では、AUCを算出されたAUCの絶対値として決定する(例えば、得られた正の値)。ある特定の実施形態では、候補セグメントを、ひとたび同定すると(例えば、AUC分析によって、または適した方法によって)、および必要に応じて、検証した後に、候補セグメントが、遺伝子の変動または遺伝子の変更(例えば、異数性、微小欠失または微小重複)を表すか否かを決定するためのzスコア算出等のために選択する。
一部の実施形態では、決定分析は、比較を含む。一部の実施形態では、比較は、少なくとも2つの分解レンダリングを比較することを含む。一部の実施形態では、比較は、少なくとも2つの候補セグメントを比較することを含む。ある特定の実施形態では、少なくとも2つの候補セグメントの各々は、異なる分解レンダリングに由来する。例えば、第1の候補セグメントは、第1の分解レンダリングに由来してもよく、第2の候補セグメントは、第2の分解レンダリングに由来してもよい。一部の実施形態では、比較は、2つの分解レンダリングが、実質的に同一であるか、または異なっているか否かを決定することを含む。一部の実施形態では、比較は、2つの候補セグメントが、実質的に同一であるか、または異なっているか否かを決定することを含む。2つの候補セグメントは、適した比較法によって実質的に同一または異なっていると決定でき、その限定されない例として、目視検査によって、2つの候補セグメントのレベルもしくはZスコアを比較することによって、2つの候補セグメントのエッジを比較することによって、2つの候補セグメントまたはその対応する分解レンダリングのいずれかを重ね合わせることによって等、またはそれらの組合せが挙げられる。
分類およびその使用
本明細書において記載される方法は、試験試料についてゲノム領域中の遺伝子型および/または遺伝子の変動/変更の存在または非存在を示すアウトカムを提供しうる(例えば、遺伝子の変動の存在または非存在を決定するアウトカムを提供する)。本明細書において記載される方法は、時には、試験試料について表現型および/または医学的状態の存在または非存在を示すアウトカムを提供する(例えば、医学的状態および/または表現型の存在または非存在を決定するアウトカムを提供する)。アウトカムは、分類プロセスの一部であることが多く、分類(例えば、試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在の分類)は、時には、アウトカムに基づく、および/または含む。アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝子の変動、遺伝子の変更および/または分類プロセスにおける医学的状態の存在または非存在の決定を促進する、試験試料についてのデータ処理の結果(例えば、統計学的値(例えば、標準スコア(例えば、zスコア))に基づく、および/または含む。アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝子の変動、遺伝子の変更および/もしくは医学的状態の存在または非存在を決定するスコアまたはそのコールを含む、またはそれに基づく。ある特定の実施形態では、アウトカムおよび/または分類は、分類プロセスにおいて遺伝子型、表現型、遺伝子の変動、遺伝子の変更および/または医学的状態の存在または非存在を予測および/または決定する結論を含む。
遺伝子型および/または遺伝子の変動は、試験試料についてゲノムまたは遺伝情報において検出可能な変化をもたらす、1つまたは複数のヌクレオチドを含む領域の増加、喪失および/または変更(例えば、重複、欠失、融合、挿入、ショートタンデムリピート(STR)、突然変異、単一ヌクレオチドの変更、再構成、置換または異常メチル化)を含むことが多い。遺伝子型および/または遺伝子の変動は、特定のゲノム領域(例えば、染色体、染色体の部分(すなわち、部分染色体領域)、STR、多型領域、転座領域、変更されたヌクレオチド配列等または前記の組合せ)であることが多い。遺伝子の変動は、時には、特定の領域についてのコピー数の変更、例えば、染色体領域についてのトリソミーもしくはモノソミーまたは特定の領域についての微小重複もしくは微小欠失事象(例えば、約10メガベースもしくはそれより小さい(例えば、約9メガベースもしくはそれより小さい、8メガベースもしくはそれより小さい、7メガベースもしくはそれより小さい、6メガベースもしくはそれより小さい、5メガベースもしくはそれより小さい、4メガベースもしくはそれより小さい、3メガベースもしくはそれより小さい、2メガベースもしくはそれより小さいまたは1メガベースもしくはそれより小さい)領域の増加または喪失)である。コピー数の変更は、時には、特定の領域(例えば、染色体、部分染色体、STR、微小重複または微小欠失領域)のコピーを有さない、または1、2、3もしくは4つもしくはそれより多いコピーを有すると表される。
遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在は、ゲノム部分にマッピングされている配列の読取り(例えば、カウント数、参照ゲノムのゲノム部分のカウント数)を変換すること、分析することおよび/または操作することによって決定できる。ある特定の実施形態では、アウトカムおよび/または分類を正規化されたカウント数、読取り密度、読取り密度プロファイル等に従って決定し、本明細書において記載される方法によって決定できる。アウトカムおよび/または分類は、時には、試験試料についての、特定の遺伝子型、表現型、遺伝子の変動または医学的状態が存在または非存在である確率を指す1つまたは複数のスコアおよび/またはコールを含む。スコアの値を使用して、例えば、遺伝子型、表現型、遺伝子の変動または医学的状態に対応しうるマッピングされた配列の読取りの変動、相違または比を決定してもよい。例えば、参照ゲノムに関してデータセットから選択された遺伝子型、表現型、遺伝子の変動または医学的状態について正のスコアを算出することは、試験試料についての、遺伝子型、表現型、遺伝子の変動または医学的状態の分類につながりうる。
アウトカムおよび/または分類の任意の適した表現を提示できる。アウトカムおよび/または分類は、時には、1つまたは複数の確率の考慮に関連して、本明細書において記載された処理法を使用して生成した1つまたは複数の数値に基づく、および/または含む。利用できる値の限定されない例として、感受性、特異性、標準偏差、中央値絶対偏差(MAD)、確定性の尺度、信頼性の尺度、試験試料について得られた値が、特定の値の範囲の内側または外側にあるという確定性または信頼性の尺度、不確定性の尺度、試験試料について得られた値が特定の値の範囲の内側または外側であるという不確定性の尺度、変動の係数(CV)、信頼性レベル、信頼区間(例えば、約95%信頼区間)、標準スコア(例えば、zスコア)、カイ値、phi値、t検定の結果、p値、倍数性値、適合させた少量種フラクション、面積比、中央値レベル等またはそれらの組合せが挙げられる。一部の実施形態では、アウトカムおよび/または分類は、読取り密度、読取り密度プロファイルおよび/またはプロット(例えば、プロファイルプロット)を含む。ある特定の実施形態では、時には、このような値についてのプロファイル(例えば、zスコアプロファイル、p値プロファイル、カイ値プロファイル、phi値プロファイル、t検定の結果、値プロファイル等またはそれらの組合せ)において、複数の値を一緒に分析する。確率の考慮は、対象が遺伝子型、表現型、遺伝子の変動および/または医学的状態を有しているリスクにある、またはそれを有するか否かを決定することを容易にでき、前記のものを決定するアウトカムおよび/または分類は、時には、このような考慮を含む。
ある特定の実施形態では、アウトカムおよび/または分類は、試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在のリスクまたは確率を予測および/または決定する結論に基づく、および/または含む。結論は、時には、本明細書において記載されるデータ分析法から決定された値(例えば、確率、確定性および/または不確定性を示す統計学的値(例えば、標準偏差、中央値絶対偏差(MAD)、確定性の尺度、信頼性の尺度、試験試料について得られた値が特定の値の範囲の内側または外側であるという確定性または信頼性の尺度、不確定性の尺度、試験試料について得られた値が特定の値の範囲の内側または外側であるという不確定性の尺度、変動の係数(CV)、信頼性レベル、信頼区間(例えば、約95%信頼区間)、標準スコア(例えば、zスコア)、カイ値、phi値、t検定の結果、p値、感受性、特異性等またはそれらの組合せを示す統計学的値)に基づく。アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在と関連する、確率(例えば、オッズ比、p値)、尤度またはリスク因子として、特定の試験試料について検査室試験報告書(本明細書で下記においてより詳細に記載される)において表される。試験試料についてのアウトカムおよび/または分類は、時には、特定の遺伝子型、表現型、遺伝子の変動および/または医学的状態に関して「陽性」または「陰性」として提示される。例えば、アウトカムおよび/または分類は、時には、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在が決定される特定の試験試料について検査室試験報告書において「陽性」と呼ばれ、時には、アウトカムおよび/または分類は、遺伝子型、表現型、遺伝子の変動および/または医学的状態の非存在が決定される特定の試験試料について検査室試験報告書において「陰性」と呼ばれる。アウトカムおよび/または分類は、時には、決定され、時には、データ処理において使用される仮定を含む。
アウトカムおよび/または分類は、時には、クラスター中またはクラスター外の値、閾値を上回る値または閾値を下回る値、範囲(例えば、閾値範囲)内の値および/または分散のまたは信頼性の尺度を有する値に基づく、またはそれとして表される。一部の実施形態では、アウトカムおよび/または分類は、所定の閾値またはカットオフ値を上回るかまたは下回る値および/または値と関連する不確定性、信頼性レベルまたは信頼区間の尺度に基づく、またはそれとして表される。ある特定の実施形態では、所定の閾値またはカットオフ値は、予測レベルまたは予測レベル範囲である。一部の実施形態では、試験試料について得られた値は、スコアの絶対値が特定のスコア閾値(例えば、約2から約5の間の、約3から約4の間の閾値)よりも大きい場合に、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在が決定され、スコアの絶対値が特定のスコア閾値未満である場合に、遺伝子型、表現型、遺伝子の変動および/または医学的状態の非存在が決定される標準スコア(例えば、zスコア)である。ある特定の実施形態では、アウトカムおよび/または分類は、値の所定の範囲(例えば、閾値範囲)内に入るまたは範囲の外側の値および範囲内または範囲の外側であるその値についての関連する不確定性または信頼性レベルに基づく、またはそれとして表される。一部の実施形態では、アウトカムおよび/または分類は、所定の値に等しい(例えば、1に等しい、ゼロに等しい)か、または所定の値の範囲内の値に等しい値、および等しいかまたは範囲内にあるかもしくは範囲外にあるその値についての、その関連する不確定性のレベルまたは信頼性レベルを含む。アウトカムおよび/または分類は、時には、プロット(例えば、プロファイルのプロット)としてグラフ的に表される。アウトカムおよび/または分類は、時には、参照値または参照プロファイルの使用を含み、時には、参照値または参照プロファイルは、1つまたは複数の参照試料(例えば、ゲノムの選択された一部(例えば、領域)について正倍数体の参照試料(複数可))から得られる。
一部の実施形態では、アウトカムおよび/または分類は、選択された領域についての試験値またはプロファイルと参照値またはプロファイル間の不確定性の尺度の使用に基づく、またはそれを含む。一部の実施形態では、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在の決定は、選択された領域(例えば、染色体またはその一部)についての試験値またはプロファイルと参照値またはプロファイル間の偏差(例えば、シグマ)の数に従う。偏差の尺度は、偏差絶対値または絶対尺度(例えば、平均絶対偏差または中央値絶対偏差(MAD))であることが多い。一部の実施形態では、試験値またはプロファイルと参照値またはプロファイル間の偏差の数が、約1またはそれより大きい(例えば、約1.5、2、2.5、2.6、2.7、2.8、2.9、3、3.1、3.2、3.3、3.4、3.5、3.6、3.7、3.8、3.9、4、5または6偏差またはそれより大きい)場合に、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在を決定する。ある特定の実施形態では、試験値またはプロファイルと参照値またはプロファイルが、約2〜約5の偏差の尺度(例えば、シグマ、MAD)、または3より大きい偏差の尺度(例えば、3シグマ、3MAD)異なる場合に、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在を決定する。試験値またはプロファイルと参照値またはプロファイル間の3より大きい偏差は、選択された領域についての非正倍数体試験対象(例えば、遺伝子の変動の存在(例えば、トリソミー、モノソミー、微小重複、微小欠失の存在)を示すことが多い。正倍数体性を示す参照プロファイルを有意に上回る試験値またはプロファイルにより、時には、トリソミー、部分染色体重複または微小重複が決定される。正倍数体性を示す参照プロファイルより有意に小さい試験値またはプロファイルにより、時には、モノソミー、部分染色体欠失または微小欠失が決定される。一部の実施形態では、ゲノムの選択された領域についての試験値またはプロファイルと参照値またはプロファイル間の偏差の数が、約3.5またはそれより小さい(例えば、約3.4、3.3、3.2、3.1、3、2.9、2.8、2.7、2.6、2.5、2.4、2.3、2.2、2.1、2、1.9、1.8、1.7、1.6、1.5、1.4、1.3、1.2、1.1、1未満またはそれより小さい)場合に、遺伝子型、表現型、遺伝子の変動および/または医学的状態の非存在を決定する。ある特定の実施形態では、試験値またはプロファイルが、参照値またはプロファイルから3未満の偏差の尺度(例えば、3シグマ、3MAD)だけ異なる場合に、遺伝子型、表現型、遺伝子の変動および/または医学的状態の非存在を決定する。一部の実施形態では、試験値またはプロファイルと参照値またはプロファイル間の3未満の偏差の尺度(例えば、標準偏差についての3シグマ)は、正倍数体である領域(例えば、遺伝子の変動の非存在)を示すことが多い。試験試料についての試験値またはプロファイルと、1つまたは複数の参照対象についての参照値またはプロファイル間の偏差の尺度をプロットし、可視化できる(例えば、zスコアプロット)。
一部の実施形態では、アウトカムおよび/または分類を、コール域に従って決定する。ある特定の実施形態では、値(例えば、プロファイル、読取り密度プロファイルおよび/または不確定性の尺度)または値のコレクションが、所定の範囲(例えば、域、コール域)内に入る場合に、コールを行う(例えば、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を決定するコール)。一部の実施形態では、特定の群の試料から得られた値のコレクション(例えば、プロファイル、読取り密度プロファイル、確率の尺度または決定および/または不確定性の尺度)に従ってコール域を規定する。ある特定の実施形態では、同一染色体またはその一部に由来する値のコレクションに従ってコール域を規定する。一部の実施形態では、試験試料について決定された、不確定性の尺度(例えば、高い信頼性のレベルまたは低い不確定性の尺度)および/または少量の核酸種(例えば、約1%の少量種またはそれより多く(例えば、約2、3、4、5、6、7、8、9、10%またはそれより多い少量の核酸種))の定量に従って、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を決定するためのコール域を規定する。少量の核酸種定量化は、時には、試験試料について確認されたがん細胞核酸または胎仔核酸(すなわち、胎仔フラクション)のフラクションまたはパーセントである。一部の実施形態では、信頼性レベルまたは信頼区間(例えば、95%の信頼性のレベルの信頼区間)によってコール域を規定する。時には、約90%またはそれより大きい(例えば、約91、92、93、94、95、96、97、98、99、99.1、99.2、99.3、99.4、99.5、99.6、99.7、99.8、99.9%またはそれより大きい)信頼性レベルまたは特定の信頼性レベルに基づく信頼区間によって、コール域を規定する。一部の実施形態では、コール域およびさらなるデータまたは情報を使用してコールを行う。一部の実施形態では、コール域を使用せずにコールを行う。一部の実施形態では、コール域を使用しない比較に基づいてコールを行う。一部の実施形態では、プロファイルの目視検査(例えば、読取り密度の目視検査)に基づいてコールを行う。
一部の実施形態では、試験値またはプロファイルがコール域が存在しない中にある場合に、試験試料についての分類またはコールを提示しない。一部の実施形態では、コール域が存在しないことを、低い精度、高い危険性、大きな誤差、低い信頼性レベル、高い不確定性の尺度等またはそれらの組合せを示す値(例えば、値のコレクション)またはプロファイルによって規定する。一部の実施形態では、コール域が存在しないことを、幾分か、少量の核酸種定量化(例えば、約10%またはそれより少ない少量の核酸種(例えば、約9%、8%、7%、6%、5%、4%、3%、2%、1.5%、1%またはそれより少ない少量の核酸種))によって規定する。遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を決定するために生成されたアウトカムおよび/または分類は、場合によって、ヌルの結果を含む。ヌルの結果は、場合によって、2つのクラスター間のデータ点、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在および非存在の両方についての値を包摂する標準偏差を有する数値、探索される遺伝子の変動を有するかまたは含まない対象についてのプロファイルのプロットと同様ではないプロファイルのプロットを有するデータセットである。一部の実施形態では、ヌルの結果を指し示すアウトカムおよび/または分類は決定をもたらす結果と考えられ、決定は、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を決定するためのさらなる情報および/またはデータ生成の反復および/または分析に対する必要の結論を含みうる。
通常、分類プロセスにおいて生成した4つの分類の種類がある:真陽性、偽陽性、真陰性および偽陰性。本明細書で使用される用語「真陽性」とは、試験試料について正確に決定された遺伝子型、表現型、遺伝子の変動または医学的状態の存在を指す。本明細書で使用される用語「偽陽性」とは、試験試料について不正確に決定された遺伝子型、表現型、遺伝子の変動または医学的状態の存在を指す。本明細書で使用される用語「真陰性」とは、試験試料について正確に決定された遺伝子型、表現型、遺伝子の変動または医学的状態の非存在を指す。本明細書で使用される用語「偽陰性」とは、試験試料について不正確に決定された遺伝子型、表現型、遺伝子の変動または医学的状態の非存在を指す。分類プロセスについての効能の2つの尺度は、(i)一般に、予測された陽性のフラクションであって、陽性として正しく識別されたフラクションである感度値;および(ii)一般に、予測された陰性のフラクションであって、陰性として正しく識別されたフラクションである特異度値の発生比に基づき計算することができる。
ある特定の実施形態では、分類プロセスについて作成した検査室試験報告書は、試験性能の尺度(例えば、感受性および/または特異性)および/または信頼性の尺度(例えば、信頼性レベル、信頼区間)を含む。試験性能の尺度および/または信頼性は、時には、試験試料についての検査室試験を実施する前に実施する臨床検証研究から得る。ある特定の実施形態では、感度、特異度、および/または信頼性のうちの1または複数は、百分率として表される。一部の実施形態では、感度、特異度または信頼性レベルのそれぞれについて独立に表される百分率は、約90%超(例えば、約90、91、92、93、94、95、96、97、98、もしくは99%、または99%超(例えば、約99.5%またはそれ超、約99.9%またはそれ超、約99.95%またはそれ超、約99.99%またはそれ超))である。特定の信頼性レベル(例えば、約90%〜約99.9%(例えば、約95%)の信頼性レベル)について表される信頼区間を、値の範囲として表すことができ、時には、特定の信頼性レベルについての範囲または感受性および/または特異性として表す。一部の実施形態では、変動係数(CV)は、百分率として表され、場合によって、百分率は、約10%またはそれ未満(例えば、約10、9、8、7、6、5、4、3、2、もしくは1%、または1%未満(例えば、約0.5%またはそれ未満、約0.1%またはそれ未満、約0.05%またはそれ未満、約0.01%またはそれ未満))である。ある特定の実施形態では、確率(例えば、特定のアウトカムおよび/または分類が、偶然に起因しない確率)は、標準スコア(例えば、Zスコア)、p値、またはt検定の結果として表される。一部の実施形態では、アウトカムおよび/または分類についての、測定された分散、信頼性レベル、信頼区間、感度、特異度など(例えば、併せて、信頼性パラメータと称する)は、本明細書で記載される、1つまたは複数のデータ加工操作を使用して生成することができる。アウトカムおよび/または分類および関連する信頼性レベルを生成する特定の例は、例えば、すべての本文、表、式および図面を含むその全内容が参照により本明細書において組み込まれている、国際特許出願公開第WO2013/052913号、第WO2014/190286号および第WO2015/051163号に記載されている。
試験試料についてのアウトカムおよび/または分類は、試験試料を得た対象にアウトカムおよび/または分類を伝送する医療従事者または他の有資格者(例えば、医師または助手)によって指示されることが多く、それらへ提示されることが多い。ある特定の実施形態では、適した視覚媒体(例えば、機械の周辺機器またはコンポーネント、例えば、プリンターまたはディスプレイ)を使用してアウトカムおよび/または分類を提示する。分類および/またはアウトカムを、医療従事者または有資格者に報告書の形態で提示することが多い。報告書は、通常、アウトカムおよび/または分類(例えば、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在もしくは非存在の値または評価または確率)の表示を含み、時には、関連する信頼性パラメータを含み、時には、アウトカムおよび/または分類を生成するために使用される試験についての性能の尺度を含む。報告書は、時には、フォローアップ手順(例えば、アウトカムまたは分類を確認する手順)の推奨を含む。報告書は、時には、染色体またはその部分の視覚表示(例えば、染色体イデオグラムまたはカリオグラム)を含み、時には、試験試料について同定された染色体についての重複および/または欠失領域の可視化(例えば、染色体欠失または重複についての全染色体の可視化、欠失領域または複製領域が示される全染色体の可視化、複製または欠失された染色体の部分の可視化、染色体の部分の欠失の事象において残存する染色体の部分の可視化)を示す。
報告書を、医療従事者または他の有資格者による遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在の決定を容易にする適した形態で表示することができる。報告を生成するための使用に適するフォーマットの非限定的な例は、デジタルデータ、グラフ、2Dグラフ、3Dグラフ、および4Dグラフ、写真(例えば、jpg、bitmap(例えば、bmp)、pdf、tiff、gif、raw、png等または好適なフォーマット)、統計図表、図表、表、棒グラフ、円グラフ、概略図、フローチャート、散布図、マップ、ヒストグラム、密度図、関数グラフ、回路図、ブロック図、バブルマップ、信号空間ダイアグラム、コンターダイアグラム、カルトグラム、レーダーチャート、ベン図、ノモグラムなど、または前出の組合せを含む。
報告書は、コンピュータにより作成することもでき、および/または手作業によるデータ入力により作成することもでき、適する電子的媒体(例えば、インターネットを介する、コンピュータを介する、ファックスを介する、同じ物理的施設または異なる物理的施設における1つのネットワーク拠点から別の拠点への)を使用して伝送および通信することもでき、またはデータを送付または受領する別の方法(例えば、郵便、宅急便(登録商標)など)により伝送および通信することもできる。報告書を伝送する通信媒体の限定されない例として、音声ファイル、コンピュータによって読取り可能なファイル(例えば、pdfファイル)、書類ファイル、検査室ファイル、医療記録ファイルまたはこれまでの段落において記載された任意のその他の媒体が挙げられる。ある特定の実施形態では、検査室ファイルまたは医療記録ファイルは、実体的形態の場合もあり、電子的形態(例えば、コンピュータ読取り用形態)である場合もある。報告書が生成され、伝送された後に、再検討されると、医療従事者または他の有資格者が、試験試料についての遺伝子型、表現型、遺伝子の変動および/またはまたは医学的状態の存在または非存在について決定を行うことを可能にする、アウトカムおよび/または分類を含む書面および/またはグラフを適した通信媒体を介して得ることによって報告書を受け取ることができる。
アウトカムおよび/または分類を、検査室によって提示でき、検査室(例えば、検査室ファイルから得られた)から得ることができる。検査室ファイルを、試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を決定するための1つまたは複数の試験を実施する検査室によって作成できる。検査室関係者(例えば、検査室管理者)は、アウトカムおよび/または分類の根底をなす、試験試料(例えば、試験プロファイル、参照プロファイル、試験値、参照値、偏差のレベル、患者情報)に関連する情報を分析することができる。遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在に関係するコールであって、微妙であるかまたは問題含みであるコールのために、検査室関係者は、試験対象に由来する同一試験材料(例えば、同一試料のアリコート)または異なる試験試料を使用して同一手順を再実施できる。検査室は、検査室ファイルに由来する遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を評価する関係者と同じ場所にある場合もあり、異なる場所(例えば、別の国内)にある場合もある。例えば、検査室ファイルを、1つの場所で作成し、そこで試験試料についての情報が医療従事者または他の有資格者によって評価される別の場所へと伝送し、必要に応じて、試験試料を得た対象に伝送することができる。検査室は、時には、試験試料についてのゲノム不安定性、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在の分類を含有する検査室報告書を作成および/または伝送する。検査室試験報告書を作成する検査室は、時には、認定検査室であり、時には、臨床検査改善修正法(CLIA)の下で認定された検査室である。
アウトカムおよび/または分類は、時には、対象についての診断の成分であり、時には、アウトカムおよび/または分類を、試験試料についての診断を提示する一部として利用および/または評価する。例えば、医療従事者または他の有資格者は、アウトカムおよび/または分類を分析し、アウトカムおよび/または分類に基づいて、またはそれに部分的に基づいて診断を提示できる。一部の実施形態では、医学的状態、疾患、症候群または異常の決定、検出または診断は、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を決定するアウトカムおよび/または分類の使用を含む。一部の実施形態では、カウントされマッピングされた配列の読取り、正規化されたカウント数および/またはその変換に基づくアウトカムおよび/または分類は、遺伝子型および/または遺伝子の変動の存在または非存在を決定する。ある特定の実施形態では、診断は、状態、症候群または異常の存在または非存在を決定することを含む。特定の事例では、診断は、医学的状態、疾患、症候群または異常の性質および/または原因として遺伝子型または遺伝子の変動の決定を含む。したがって、本明細書において記載された方法によって作成されたアウトカムまたは分類に従って、必要に応じて、試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在についての分類を含む検査室報告書を作成することおよび伝送することに従って、試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を診断する方法が本明細書において提示される。
アウトカムおよび/または分類は、時には、対象の医療および/または治療の成分である。アウトカムおよび/または分類を、時には、試験試料を得た対象のために治療を提示する一部として利用および/または評価する。例えば、遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在を示すアウトカムおよび/または分類は、試験試料を得た対象の医療および/または治療の成分である。医学的ケア、治療および診断は、例えば、出生前ケア、細胞増殖性状態、がん等のための対象の医学的治療などの健康の任意の適した領域においてでありうる。本明細書において記載される方法によって遺伝子型、表現型、遺伝子の変動および/または医学的状態、疾患、症候群または異常の存在または非存在を決定するアウトカムおよび/または分類を、時には、さらなる試験によって独立に検証する。アウトカムおよび/または分類を検証するための任意の適した種類のさらなる試験を利用でき、その限定されない例として、例えば、血液レベル試験(例えば、血清試験)、生検、スキャン(例えば、CTスキャン、MRIスキャン)、侵襲性サンプリング(例えば、羊水穿刺または絨毛膜絨毛検査)、核型分析、マイクロアレイアッセイ、超音波、超音波画像等が挙げられる。
医療従事者または有資格者は、検査室報告書において提示されるアウトカムおよび/または分類に基づく適した医療推奨を提示できる。一部の実施形態では、推奨は、提示されるアウトカムおよび/または分類(例えば、がん、がんのステージおよび/または種類、ダウン症候群、ターナー症候群、T13における遺伝子の変動と関連する医学的状態、T18における遺伝子の変動と関連する医学的状態)に応じて変わる。検査室報告書におけるアウトカムまたは分類に基づいて提示されうる推奨の限定されない例は、制限するものではないが、手術、放射線療法、化学療法、遺伝子カウンセリング、生後処置ソリューション(例えば、人生設計、長期にわたる介護ケア、医薬、対症的処置)、妊娠中絶、臓器移植、輸血、これまでの段落において記載されたさらなる検査等または前出の組合せを含む。したがって、対象を処置する方法および対象に医療を提供する方法は、時には、本明細書において記載される方法によって試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在についての分類を作成することを、および必要に応じて、試験試料についての遺伝子型、表現型、遺伝子の変動および/または医学的状態の存在または非存在の分類を含む検査室報告書を作成し、伝送することを含む。
アウトカムおよび/または分類を作成することは、試験試料に由来する核酸配列の読取りの、対象の細胞核酸の表示への変換と考えることができる。例えば、本明細書において記載される方法によって対象に由来する核酸の配列の読取りを伝送することならびにアウトカムおよび/または分類を作成することは、比較的小さい配列読取り断片の、対象における核酸の比較的大きい、複雑な構造の表示への変換と考えることができる。一部の実施形態では、アウトカムおよび/または分類は、対象に由来する配列の読取りの、対象中に存在する既存の核酸構造(例えば、対象中のゲノム、染色体、染色体セグメント、循環型無細胞核酸断片の混合物)の表示への変換に起因する。
一部の実施形態では、本明細書における方法は、対象に由来する試験試料について遺伝子の変更または遺伝子の変動の存在が決定される場合に、対象を処置することを含む。一部の実施形態では、対象を処置することは、試験試料について遺伝子の変更または遺伝子の変動の存在が決定される場合に医学的手順を実施することを含む。一部の実施形態では、医学的手順は、例えば、羊水穿刺、絨毛膜絨毛検査、生検等といった侵襲的診断手順を含む。例えば、妊娠中の雌に由来する試験試料について胎仔異数性の存在が決定される場合には、羊水穿刺または絨毛膜絨毛検査を含む医学的手順を実施してもよい。別の例では、対象に由来する試験試料について、がんの存在を示す、またはそれと関連する遺伝子の変更の存在が、決定される場合には、生検を含む医学的手順を実施してもよい。例えば、侵襲的診断手順を実施して、遺伝子の変更もしくは遺伝子の変動の存在の決定を確認してもよく、および/またはそれを実施して、遺伝子の変更もしくは遺伝子の変動と関連する医学的状態をさらに特徴付けてもよい。一部の実施形態では、医学的手順を、遺伝子の変更または遺伝子の変動と関連する医学的状態の処置として実施してもよい。処置は、例えば、手術、放射線療法、化学療法、妊娠中絶、臓器移植、細胞移植、輸血、医薬、対照的処置等のうち1つまたは複数を含みうる。
一部の実施形態では、本明細書における方法は、対象に由来する試験試料について遺伝子の変更または遺伝子の変動の非存在が決定される場合に、対象を処置することを含む。一部の実施形態では、対象を処置することは、試験試料について遺伝子の変更または遺伝子の変動の非存在が決定される場合に医学的手順を実施することを含む。例えば、試験試料について遺伝子の変更または遺伝子の変動の非存在が決定される場合に、医学的手順は、健康モニタリング、再試験、さらなるスクリーニング、フォローアップ検査等を含みうる。一部の実施形態では、本明細書における方法は、妊娠中の雌に由来する試験試料について胎仔異数性、遺伝子の変動または遺伝子の変更の非存在が決定される場合に、正倍数体妊娠または正常妊娠と一致する対象を処置することを含む。例えば、妊娠中の雌に由来する試験試料について胎仔異数性、遺伝子の変動または遺伝子の変更の非存在が決定される場合に、正倍数体妊娠または正常妊娠と一致する医学的手順を実施してもよい。正倍数体妊娠または正常妊娠と一致する医学的手順は、胎仔および/もしくは母体の健康をモニタリングすることまたは胎仔−母体の健康をモニタリングすることの一部として実施される1つまたは複数の手順を含みうる。正倍数体妊娠または正常妊娠と一致する医学的手順は、例えば、悪心、疲労、乳房圧痛、頻尿、背痛、腹痛、下肢痙攣、便秘、胸やけ、息切れ、痔核、尿失禁、静脈瘤および睡眠障害のうちの1つまたは複数を含みうる妊娠の症状を処置するための1つまたは複数の手順を含みうる。正倍数体妊娠または正常妊娠と一致する医学的手順は、例えば、潜在的リスクを評価する、合併症を処置する、既存の医学的状態(例えば、高血圧症、糖尿病)を取り扱う、胎仔の成長および発達をモニタリングするための出生前ケアの経過を通じて実施される1つまたは複数の手順を含みうる。正倍数体妊娠または正常妊娠と一致する医学的手順は、例えば、全血球計算値(CBC)モニタリング、Rh抗体試験、尿検査、尿培養モニタリング、風疹スクリーニング、B型肝炎およびC型肝炎スクリーニング、性感染症(STI)スクリーニング(例えば、梅毒、クラミジア、淋病のスクリーニング)、ヒト免疫不全ウイルス(HIV)スクリーニング、結核(TB)スクリーニング、アルファフェトプロテインスクリーニング、胎仔心拍数モニタリング(例えば、超音波トランスデューサーを使用する)、子宮活性モニタリング(例えば、トコトランスデューサーを使用する)、遺伝性障害(例えば、嚢胞性線維症、鎌形赤血球貧血、血友病A)についての遺伝子スクリーニングおよび/または診断検査、グルコーススクリーニング、グルコース耐性試験、妊娠性糖尿病の処置、出生前高血圧症の処置、子癇前症の処置、B群連鎖球菌(GBS)血液型スクリーニング、B群連鎖球菌培養、B群連鎖球菌の処置(例えば、抗生物質を用いる)、超音波モニタリング(例えば、日常的な超音波モニタリング、レベルII超音波モニタリング、標的化超音波モニタリング)、ノンストレス試験モニタリング、生物物理学的プロファイルモニタリング、羊水指標モニタリング、血清試験(例えば、血漿タンパク質−A(PAPP−A)、アルファフェトプロテイン(AFP)、ヒト絨毛性性腺刺激ホルモン(hCG)、非抱合型エストリオール(uE3)およびインヒビン−A(inhA)試験)、遺伝子検査、羊水穿刺診断検査および絨毛膜絨毛検査(CVS)診断試験を含みうる。
一部の実施形態では、本明細書における方法は、対象に由来する試験試料について遺伝子の変動または遺伝子の変更の非存在が決定される場合に、がんを有さないことと一致する対象を処置することを含む。ある特定の実施形態では、試験試料についてがんと関連する遺伝子の変更または遺伝子の変動の非存在が決定する場合に、健常予後と一致する医学的手順を実施してもよい。例えば、健常予後と一致する医学的手順は、制限するものではないが、試験試料を試験した対象の健康をモニタリングすること、二次試験(例えば、二次スクリーニング試験)を実施すること、確証的な試験を実施すること、がんと関連する1つまたは複数のバイオマーカー(例えば、男性における前立腺特異的抗原(PSA))をモニタリングすること、血液細胞(例えば、赤血球、白血球、血小板)をモニタリングすること、1つまたは複数のバイタルサイン(例えば、心拍数、血圧)をモニタリングすることおよび/または1つまたは複数の血液代謝産物(例えば、総コレステロール、HDL(高密度リポタンパク質)、LDL(低密度リポタンパク質)、トリグリセリド、総コレステロール/HDL比、グルコース、フィブリノゲン、ヘモグロビン、デヒドロエピアンドロステロン(DHEA)、ホモシステイン、C反応性タンパク質、ホルモン(例えば、甲状腺刺激ホルモン、テストステロン、エストロゲン、エストラジオール)、クレアチン、塩(例えば、カリウム、カルシウム)等)をモニタリングすることを含む。一部の実施形態では、本明細書における方法は、試験試料について遺伝子の変更または遺伝子の変動の非存在が決定される場合に、医学的手順を、時には、侵襲性サンプリングを含む医学的手順を実施することを含まない。
機械、ソフトウェア、およびインターフェース
本明細書に記載するある特定の処理および方法(例えば、マッピング、カウント数計測、正規化、範囲の設定、調整、分類、ならびに/または配列の読取り、カウント数、レベル、および/もしくはプロファイルの決定)は、多くの場合、コンピュータ、マイクロプロセッサ、ソフトウェア、モジュールまたは他の機械なしで行うことができない。本明細書に記載する方法は、一般的にコンピュータが実施する方法であり、方法の1つまたは複数の部分が、1つまたは複数のプロセッサ(例えば、マイクロプロセッサ)、コンピュータ、システム、装置または機械(例えば、マイクロプロセッサ制御式機械)により行われ得る。
使用するのに適したコンピュータ、システム、装置、機械およびコンピュータプログラム製品は、コンピュータ可読記憶媒体を含む、またはそれとともに利用されることが多い。コンピュータ可読記憶媒体の限定されない例として、メモリ、ハードディスク、CD−ROM、フラッシュメモリデバイス等が挙げられる。コンピュータ可読記憶媒体は、一般に、コンピュータハードウェアであり、非一時的なコンピュータ可読記憶媒体であることが多い。コンピュータ可読記憶媒体は、コンピュータ可読伝送媒体ではなく、後者は、それ自体伝送シグナルである。
記憶された実行可能なプログラムを有するコンピュータ可読記憶媒体が本明細書において提供され、プログラムは、マイクロプロセッサに本明細書において記載される方法を実施するように指示する。記憶された実行可能なプログラムモジュールを有するコンピュータ可読記憶媒体もまた提供され、プログラムモジュールは、マイクロプロセッサに本明細書において記載される方法の一部を実施するように指示する。また、記憶された実行可能なプログラムを有するコンピュータ可読記憶媒体を含むシステム、機械、装置およびコンピュータプログラム製品が本明細書において提供され、プログラムは、マイクロプロセッサに本明細書において記載される方法を実施するように指示する。また、記憶された実行可能なプログラムモジュールを有するコンピュータ可読記憶媒体を含む、システム、機械および装置も提供され、プログラムモジュールは、マイクロプロセッサに本明細書において記載される方法の一部を実施するように指示する。
また、コンピュータプログラム製品も提供される。コンピュータプログラム製品は本明細書において具体化されるコンピュータ可読プログラムコード、本明細書において記載される方法または方法の一部を実装するのに実行されるよう適合させたコンピュータ可読プログラムコードを含むコンピュータ使用型媒体を含むことが多い。コンピュータ使用型媒体および可読プログラムコードは、伝送媒体ではない(すなわち、それ自体伝送シグナル)。コンピュータ可読プログラムコードは、プロセッサ、コンピュータ、システム、装置または機械によって実行されるように適合されることが多い。
一部の実施形態では、本明細書に記載する方法(例えば、定量、カウント数計測、フィルタリング、正規化、変換、クラスタリングならびに/または配列の読取り、カウント数、レベル、プロファイルおよび/もしくは結果の決定)は、自動化された方法により行われる。一部の実施形態では、本明細書に記載する方法の1つまたは複数のステップは、マイクロプロセッサおよび/もしくはコンピュータにより行われる、および/またはメモリと併せて行われる。一部の実施形態では、自動化された方法は、本明細書に記載の方法を実施するソフトウェア、モジュール、マイクロプロセッサ、周辺機器、および/またはそのようなものを含む機会に組み込まれる。本明細書で使用する場合、ソフトウェアとは、本明細書に記載するように、マイクロプロセッサにより実行されたときにコンピュータの操作を行う、コンピュータ読取り可能なプログラムインストラクションを指す。
配列の読取り、カウント数、レベル、および/またはプロファイルは、「データ」または「データセット」と呼ばれる場合もある。一部の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数(例えば、配列に基づく(例えば、GC含有量、特異的ヌクレオチド配列等)、機能特異的(例えば、発現した遺伝子、がん遺伝子等)、場所に基づく(ゲノム特異的、染色体特異的、部分または部分特異的)特性または変数等およびその組合せ)により特徴付けることができる。ある特定の実施形態では、データまたはデータセットは、1つまたは複数の特性または変数に基づく2次元またはそれ超の次元を有するマトリックスに組織化され得る。マトリックスに組織化されたデータは、任意の適する特性または変数を使用して組織化され得る。ある特定の実施形態では、1つまたは複数の特性または変数により特徴付けられるデータセットは、カウント数計測後に処理される場合もある。
機械、ソフトウェア、およびインターフェースが、本明細書に記載する方法を実施するのに使用できる。機械、ソフトウェア、およびインターフェースを使用して、ユーザーは、特定の情報、プログラム、または処理(例えば、配列の読取りのマッピング、マッピングされたデータの処理、および/またはアウトカムアウトカムの提供)を使用するためのオプションを入力、要求、照会、または決定することができ、例えば統計分析アルゴリズム、統計的有意性アルゴリズム、統計的アルゴリズム、反復ステップ、妥当性の確認アルゴリズム、および図形表示の実施が含まれ得る。一部の実施形態では、データセットは、インプット情報としてユーザーが入力可能であり、ユーザーは、適するハードウェアメディア(例えば、フラッシュドライブ)により1つもしくは複数のデータセットをダウンロードすることができ、ならびに/またはユーザーは、後続する処理のために、および/もしくはアウトカムを得るために、1つのシステムから別のシステムにデータセットを送信することができる(例えば、シーケンサーからコンピュータシステムに、配列の読取りのマッピング用として配列の読取りデータを送信する;マッピングされた配列データを、処理用として、ならびにアウトカムおよび/またはレポートの取得用としてコンピュータシステムに送信する)。
システムは、1つまたは複数の機械を一般的に含む。各機械は、1つまたは複数のメモリ、1つまたは複数のマイクロプロセッサ、およびインストラクションを含む。システムが2つまたはそれ超の機械を含む場合、機械の一部または全部は同一の場所に位置し得るか、機械の一部または全部は異なる場所に位置し得るか、全ての機械は1つの場所に位置し得るか、および/または全ての機械は異なる場所に位置し得る。システムが2つまたはそれ超の機械を含む場合、機械の一部もしくは全部はユーザーと同じ場所に位置し得るか、機械の一部もしくは全部はユーザーと異なる場所に位置し得るか、全ての機械はユーザーと同じ場所に位置し得るか、および/または全ての機械はユーザーとは異なる1つもしく複数の場所に位置し得る。
システムは、演算機械および配列決定装置または機械を含む場合があり、この場合、配列決定装置または機械は、身体由来の核酸を入手し、配列の読取りを生成するように構成され、演算装置は、配列決定装置または機械から得られた読取りを処理するように構成される。演算機械は、配列の読取りから分類結果を決定するように構成され得る。
ユーザーは、例えばソフトウェアに照会を行うことができ、ソフトウェアは、次にインターネットにアクセスしてデータセットを取得することができ、ある特定の実施形態では、プログラム可能なマイクロプロセッサは、与えられたパラメータに基づいて、適するデータセットを取得するように催促され得る。また、プログラム可能なマイクロプロセッサは、与えられたパラメータに基づいてマイクロプロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーを催促する場合もある。プログラム可能なマイクロプロセッサは、インターネット、他の内部または外部の情報等を経由して見出される情報に基づき、マイクロプロセッサにより選択された1つまたは複数のデータセットオプションを選択するようにユーザーを催促し得る。オプションは、1つまたは複数のデータ特性セレクション、1つまたは複数の統計的アルゴリズム、1つまたは複数の統計分析アルゴリズム、1つまたは複数の統計的有意性アルゴリズム、反復ステップ、1つまたは複数の妥当性確認アルゴリズム、ならびに方法、機械、装置、コンピュータプログラムまたは記憶された実行可能なプログラムを有する非一時的なコンピュータ可読記憶媒体の1つまたは複数の図形表示を選択するために選ばれ得る。
本明細書が取り上げるシステムは、コンピュータシステムの一般的なコンポーネント、例えばネットワークサーバー、ラップトップシステム、デスクトップシステム、ハンドヘルドシステム、パーソナルデジタルアシスタント、公衆コンピュータ(computing kiosk)等を含み得る。コンピュータシステムは、ユーザーがデータをシステムに入力できるようにする1つまたは複数のインプット手段、例えばキーボード、タッチスクリーン、マウス、音声認識手段、または他の手段等を含み得る。システムは、ディスプレイスクリーン(例えば、CRTまたはLCD)、スピーカー、ファックス機、プリンター(例えば、レーザー式、インクジェット式、インパクト式、白黒またはカラープリンター)、または情報の視覚的、聴覚的および/もしくはハードコピーアウトプットを提供するのに有用な他のアウトプット(例えば、結果および/またはレポート)を含むが、これらに限定されない、1つまたは複数のアウトプットをさらに含み得る。
システムでは、インプットおよびアウトプット構成成分は、コンポーネントの中でもとりわけ、プログラムインストラクションを実行するマイクロプロセッサ、ならびにプログラムコードおよびデータを保管するメモリを含み得る中央処理ユニットと接続され得る。一部の実施形態では、処理は、単一の地理的箇所に所在する単一のユーザーシステムとして実施され得る。ある特定の実施形態では、処理は、マルチユーザーシステムとして実施され得る。マルチユーザーで実施される場合、複数の中央処理ユニットが、ネットワークによって接続され得る。ネットワークは、建物の一部内の一部門、建物全体に波及するようにローカルであり、複数の建物にまたがり、1つの領域にまたがり、国全体にまたがり、または世界規模であり得る。ネットワークは個人的であり、プロバイダーにより所有、および管理され得る、またはユーザーが情報を入力および取り出すためにウェブページにアクセスするような、インターネットに基づくサービスとして実施され得る。したがって、ある特定の実施形態では、システムは、ユーザーにとってローカルまたはリモートであり得る1つまたは複数の機械を含む。1つの場所または複数の場所にある1つ超の機械に、ユーザーはアクセスでき、データは、連続しておよび/または並行してマッピングおよび/または処理され得る。したがって、適する構成および制御法が、ローカルネットワーク、リモートネットワーク、および/または「クラウド」コンピューティングプラットフォーム等において、複数の機械を使用してデータをマッピングおよび/または処理するのに利用できる。
システムは、一部の実施形態では、コミュニケーションインターフェースを含み得る。コミュニケーションインターフェースは、コンピュータシステムと1つまたは複数の外部デバイスの間で、ソフトウェアおよびデータを移送できるようにする。コミュニケーションインターフェースの非限定的な例として、モデム、ネットワークインターフェース(イーサーネットカード等)、コミュニケーションポート、PCMCIAスロットとカード等が挙げられる。コミュニケーションインターフェース経由で移送したソフトウェアおよびデータは、一般的にシグナルの形態を取り、これは、電子シグナル、電磁気シグナル、光学シグナル、および/またはコミュニケーションインターフェースにより受信される他のシグナルであり得る。シグナルは、多くの場合、チャネルを介してコミュニケーションインターフェースに提供される。チャネルは、多くの場合、シグナルを担持し、ワイヤーまたはケーブル、ファイバーオプティックス、電話線、携帯電話リンク、RFリンク、および/または他のコミュニケーションチャネルを使用して実施され得る。したがって、1つの例では、コミュニケーションインターフェースは、シグナル検出モジュールにより検出できるシグナル情報を受信するのに使用できる。
データは、マニュアルインプットデバイスまたはダイレクトデータ入力デバイス(DDE)を含むが、これらに限定されない、適するデバイスおよび/または方法によりインプットできる。マニュアルデバイスの非限定的な例として、キーボード、コンセプトキーボード、タッチ感応式スクリーン、ライトペン、マウス、トラックボール、ジョイスティック、グラフィックタブレット、スキャナー、デジタルカメラ、ビデオデジタイザー、および音声認識デバイスが挙げられる。DDEの非限定的な例として、バーコードリーダー、磁気ストリップコード、スマートカード、磁気インク文字認識、光学式文字認識、光学式マーク認識、およびターンアラウンドドキュメントが挙げられる。
一部の実施形態では、配列決定装置または機械からのアウトプットは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、核酸捕捉プロセス(例えば、ゲノム領域起源データ)からのアウトプットは、インプットデバイスを介してインプットでありうるデータとして働きうる。ある特定の実施形態では、核酸断片サイズ(例えば、長さ)および核酸捕捉プロセス(例えば、ゲノム領域起源データ)からのアウトプットの組合せは、インプットデバイスを介してインプットでありうるデータとして働きうる。ある特定の実施形態では、マッピングされた配列の読取りは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。ある特定の実施形態では、シミュレーションデータは、インシリコ処理により生成され、またシミュレーション後のデータは、インプットデバイス経由のインプットとなり得るデータとしての役割を果たすことができる。用語「インシリコ」とは、コンピュータを使用して行う研究および実験を指す。インシリコ処理は、本明細書に記載する処理により、配列の読取りをマッピングすること、およびマッピングされた配列の読取りを処理することを含むが、これらに限定されない。
システムには、本明細書に記載する処理または処理の部分を行うために有用なソフトウェアを含むことができ、ソフトウェアは、かかる処理を行う1つまたは複数のモジュールを含み得る(例えば、配列決定モジュール、論理処理モジュール、データディスプレイ組織化モジュール)。用語「ソフトウェア」は、コンピュータにより実行されると、コンピュータ操作を行う、コンピュータ読取り可能プログラムのインストラクションを指す。1つまたは複数のマイクロプロセッサにより実行可能なインストラクションは、実行されると、1つまたは複数のマイクロプロセッサに本明細書に記載する方法を実施させることができる実行可能なコードとして提供される場合もある。本明細書に記載するモジュールは、ソフトウェアとして存在し得、ソフトウェアに組み込まれたインストラクション(例えば、処理、ルーチン、サブルーチン)が、マイクロプロセッサにより実施または行われ得る。例えば、モジュール(例えば、ソフトウェアモジュール)は、特定の処理またはタスクを行うプログラムの一部であり得る。用語「モジュール」は、より大型の機械またはソフトウェアシステムで使用できる自己完結型の機能ユニットを指す。モジュールは、モジュールの機能を実施する一連のインストラクションを含み得る。モジュールは、データおよび/または情報を変換することができる。データおよび/または情報は、適する形態であり得る。例えば、データおよび/または情報は、デジタルまたはアナログであり得る。ある特定の実施形態では、データおよび/または情報は、場合により、パケット、バイト、符号、またはビットであり得る。一部の実施形態では、データおよび/または情報は、任意の収集、集積された、または使用可能なデータまたは情報であり得る。データおよび/または情報の非限定的な例として、適するメディア、画像、ビデオ、音声(例えば、周波数、可聴または非可聴)、番号、定数、値、物体、時間、機能、インストラクション、マップ、参照、配列、読取り、マッピングされた読取り、レベル、範囲、閾値、シグナル、ディスプレイ、表示、またはそれらの変換物が挙げられる。モジュールは、データおよび/または情報を受け入れまたは受信し、データおよび/または情報を第2の形態に変換し、第2の形態を機械、周辺機器、コンポーネント、または別のモジュールに提供または移送することができる。モジュールは、1つまたは複数の下記の非限定的な機能を行うことができる:例えば、配列の読取りをマッピングする、カウント数を得る、部分を集積する、レベルを得るまたは決定する、カウント数プロファイルを得る、正規化する(例えば、読取りの正規化、カウント数の正規化等)、正規化されたカウント数プロファイルまたは正規化されたカウント数のレベルを得る、2つまたはそれ超のレベルを比較する、不確実性の値を得る、予想されるレベルおよび予想される範囲(例えば、予想されるレベル範囲、閾値範囲、および閾値レベル)を得るまたは決定する、レベルに調整を施す(例えば、第1のレベルの調整、第2のレベルの調整、染色体もしくはその部分のプロファイルの調整、および/またはパディング)、識別情報を得る(例えば、コピー数の変更、遺伝子の変動/遺伝子の変更または染色体異数性を識別する)、分類する、プロットする、および/または結果を決定する。マイクロプロセッサは、ある特定の実施形態では、モジュール内でインストラクションを実施することができる。一部の実施形態では、1つまたは複数のマイクロプロセッサは、モジュールまたはモジュール群内でインストラクションを実施するように要求される。モジュールは、データおよび/または情報を別のモジュール、機械、またはソースに提供することができ、ならびにデータおよび/または情報を別のモジュール、機械、またはソースから受信することができる。
コンピュータプログラム製品は、実体的なコンピュータ読取り可能メディアに組み込まれる場合もあれば、また非一時的コンピュータ読取り可能メディアに実体的に組み込まれる場合もある。モジュールは、コンピュータ読取り可能メディア(例えば、ディスク、ドライブ)上またはメモリ(例えば、ランダムアクセスメモリ)内に保管される場合もある。モジュールからのインストラクションを実施する能力を有するモジュールおよびマイクロプロセッサは、ある機械内または異なる機械内に所在し得る。モジュールに関するインストラクションを実施する能力を有するモジュールおよび/またはマイクロプロセッサは、ユーザーと同じ場所(例えば、ローカルネットワーク)、またはユーザーとは異なる場所(例えば、リモートネットワーク、クラウドシステム)に所在し得る。方法が、2つまたはそれ超のモジュールと併せて実施される複数の実施形態では、モジュールは、同一機械内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が同一である異なる機械内に所在してもよく、1つまたは複数のモジュールは、物理的な場所が異なる、異なる機械内に所在してもよい。
機械は、一部の実施形態では、モジュール内のインストラクションを実施する少なくとも1つのマイクロプロセッサを含む。配列の読取り定量化(例えば、カウント)には、本明細書に記載する方法を実施するように構成されたインストラクションを実行するマイクロプロセッサからアクセスする場合がある。マイクロプロセッサがアクセスする配列の読取り定量化は、システムのメモリ内にあってもよく、カウント数は、その取得後にアクセス可能およびシステムのメモリ内に配置可能である。一部の実施形態では、機械はマイクロプロセッサ(例えば、1つまたは複数のマイクロプロセッサ)を含み、同マイクロプロセッサは、モジュールからの1つまたは複数のインストラクション(例えば、処理、ルーチン、および/またはサブルーチン)を行うおよび/また実施することができる。一部の実施形態では、機械は、並行同調化作動型のマイクロプロセッサ等の複数のマイクロプロセッサを含む。一部の実施形態では、機械は、1つまたは複数の外部マイクロプロセッサ(例えば、内部または外部のネットワーク、サーバー、保管デバイス、および/または保管ネットワーク(例えば、クラウド))と共に稼働する。一部の実施形態では、機械はモジュール(例えば、1つまたは複数のモジュール)を含む。モジュールを含む機械は、多くの場合、1つまたは複数のデータおよび/または情報を、他のモジュールから受信し、またそれに対して移送することができる。
ある特定の実施形態では、機械は周辺機器および/またはコンポーネントを含む。ある特定の実施形態では、機械は、データおよび/または情報を、他のモジュール、周辺機器、および/またはコンポーネントに対して、およびこれらから移送することができる1つまたは複数の周辺機器またはコンポーネントを含み得る。ある特定の実施形態では、機械は、データおよび/または情報を提供する周辺機器および/またはコンポーネントと相互作動する。ある特定の実施形態では、周辺機器およびコンポーネントは、機械がある機能を実施するのを支援する、またはモジュールと直接相互作動する。周辺機器および/またはコンポーネントの非限定的な例として、適したコンピュータ周辺機器、I/Oもしくは保管方法、またはデバイスが挙げられ、これにはスキャナー、プリンター、ディスプレイ(例えば、モニター、LED、LCT、またはCRT)、カメラ、マイクロフォン、パッド(例えば、ipad、タブレット)、タッチスクリーン、スマートフォン、携帯電話、USB I/Oデバイス、USB大容量記憶デバイス、キーボード、コンピュータマウス、デジタルペン、モデム、ハードドライブ、ジャンプドライブ、フラッシュドライブ、マイクロプロセッサ、サーバー、CD、DVD、グラフィックカード、特殊I/Oデバイス(例えば、シーケンサー、フォトセル、光電子増倍管、光学読取り装置、センサー等)、1つまたは複数のフローセル、流体ハンドリングコンポーネント、ネットワークインターフェースコントローラー、ROM、RAM、無線転送方法およびデバイス(ブルートゥース(登録商標)、WiFi等)、ワールドワイドウェブ(www)、インターネット、コンピュータおよび/または別のモジュールが含まれるが、これらに限定されない。
ソフトウェアは、多くの場合、コンピュータ読取り可能メディアに記録されているプログラムインストラクションを含有するプログラム製品上に提供され、そのようなメディアとして、フロッピー(登録商標)ディスク、ハードディスク、および磁気テープを含む磁気メディア;ならびにCD−ROMディスク、DVDディスク、光磁気ディスクを含む光学式メディア、フラッシュメモリーデバイス(例えば、フラッシュドライブ)、RAM、フロッピー(登録商標)ディスク等、およびプログラムインストラクションが記録可能である他のそのようなメディアが挙げられるが、これらに限定されない。オンラインで実施する際には、組織により維持されるサーバーおよびウェブサイトは、ソフトウェアダウンロードをリモートユーザーに提供するように構成され得る、またはリモートユーザーは、組織により維持されるリモートシステムにアクセスして、遠隔的にソフトウェアにアクセスすることができる。ソフトウェアはインプット情報を取得または受信することができる。ソフトウェアは、データを具体的に取得または受信するモジュール(例えば、配列の読取りデータおよび/またはマッピングされた読取りデータを受信するデータ受信モジュール)を含み得、データを具体的に処理するモジュール(例えば、受信したデータを処理する処理モジュール(例えば、結果および/またはレポートをフィルター処理する、正規化する、提供する))を含み得る。用語、インプット情報を「取得する」および「受信する」とは、ローカルもしくはリモートサイトからコンピュータコミュニケーション手段により、ヒトがデータ入力することにより、または任意の他のデータ受信方法により、データ(例えば、配列の読取り、マッピングされた読取り)を受信することを指す。インプット情報は、受信した場所と同一の場所で生成される場合もあれば、異なる場所で生成され、受信場所に移転される場合もある。一部の実施形態では、インプット情報は、処理される前に修正される(例えば、処理しやすいフォーマット(例えば、表形式)に配置される)。
ある特定の実施形態では、ソフトウェアは1つまたは複数のアルゴリズムを含み得る。アルゴリズムは、データを処理するのに、および/または有限列のインストラクションにより、結果またはレポートを得るのに使用できる。アルゴリズムは、多くの場合、タスクを完了するための規定されたインストラクションのリストである。初期状態から開始し、インストラクションは、規定された一連の連続した状態を経由して進行し、最終的に最終エンディング状態で終了する演算について記載し得る。1つの状態から次の状態への移行は必ずしも確定的ではない(例えば、一部のアルゴリズムには、偶然性が取り込まれる)。例として、アルゴリズムは、非限定的にサーチアルゴリズム、ソーティングアルゴリズム、統合アルゴリズム、数値アルゴリズム、グラフアルゴリズム、ストリングアルゴリズム、モデリングアルゴリズム、計算型幾何アルゴリズム、コンビナトリアルアルゴリズム、機械学習アルゴリズム、クリプトグラフィーアルゴリズム、データ圧縮アルゴリズム、パージングアルゴリズム等であり得る。アルゴリズムは、1つのアルゴリズムまたは組み合わせて作動する2つもしくはそれ超のアルゴリズムを含み得る。アルゴリズムは、任意の適する複雑性クラス、および/またはパラメータ化された複雑性のものであってもよい。アルゴリズムは計算および/またはデータ処理するのに使用することができ、一部の実施形態では、確定的または確率的/予測的なアプローチで使用することができる。アルゴリズムは、適するプログラミング言語を使用することにより、演算環境内で実施可能であり、そのような言語の非限定的な例として、C、C++、Java(登録商標)、Perl、Python、Fortran等がある。一部の実施形態では、アルゴリズムは、許容誤差、統計分析、統計的有意性、および/または他の情報もしくはデータセットとの比較(例えば、ニューラルネットまたはクラスタリングアルゴリズムを使用する際に適用可能)を含むように構成または修正され得る。
ある特定の実施形態では、いくつかのアルゴリズムが、ソフトウェア内で使用するために実施され得る。これらのアルゴリズムは、一部の実施形態では、生データを用いてトレーニング可能である。新しい生データ試料毎に、トレーニングされたアルゴリズムは、代表的な処理済みデータセットまたは結果を生成し得る。処理済みのデータセットは、処理された親データセットと比較して複雑性が低減されたものの場合もある。処理済みのセットに基づき、一部の実施形態では、感度および特異性に基づきトレーニングされたアルゴリズムの性能を評価することができる。最高の感度および/または特異性を有するアルゴリズムが、ある特定の実施形態では、識別および利用され得る。
ある特定の実施形態では、シミュレーションされた(またはシミュレーション)データが、例えばアルゴリズムをトレーニングするまたはアルゴリズムを試験することによりデータ処理を補助することができる。一部の実施形態では、シミュレーションされたデータには、配列の読取りの異なるグルーピングの、仮想的な様々なサンプリングが含まれる。シミュレーションされたデータでは、何が真の母集団から予想されるか、またはアルゴリズムを試験する、および/または正しい分類を割り当てる際に何に歪みが生じ得るか、が基準となり得る。また、シミュレーションされたデータは、本明細書では、「仮想」データとも呼ばれる。シミュレーションは、ある特定の実施形態では、コンピュータプログラムにより行われ得る。シミュレーションされたデータセットを使用する際の1つの考え得るステップは、識別された結果の信頼度を評価すること、例えばランダムサンプリングが、どのくらい良好にオリジナルデータと一致するか、またはオリジナルデータを最好に代表するか、評価することである。1つのアプローチは、確率値(p値)を計算することであり、この値は、ランダム試料が選択された試料より良好なスコアを有する確率を推定する。一部の実施形態では、経験的モデルが評価される場合があり、この場合、少なくとも1つの試料が参照試料と一致することを前提とする(分解変動の有無を問わない)。一部の実施形態では、例えばポアソン分布等の別の分布が、確率分布を規定するのに使用することができる。
システムは、ある特定の実施形態では、1つまたは複数のマイクロプロセッサを含み得る。マイクロプロセッサは、コミュニケーションバスと接続され得る。コンピュータシステムは、メインメモリ、多くの場合ランダムアクセスメモリ(RAM)を含み得、二次メモリも含むことができる。一部の実施形態では、メモリは、非一時的コンピュータ読取り可能保管メディアを含む。二次メモリは、例えばハードディスクドライブおよび/またはリムーバブルストレージドライブを含み、フロッピー(登録商標)ディスクドライブ、磁気テープドライブ、光学式ディスクドライブ、メモリカード等がこれに該当し得る。リムーバブルストレージドライブは、多くの場合、リムーバブルストレージユニットから読み取る、および/またはこれに書き込む。リムーバブルストレージユニットの非限定的な例として、フロッピー(登録商標)ディスク、磁気テープ、光学式ディスク等が挙げられ、例えばリムーバブルストレージドライブにより、読取りおよび書き込み可能である。リムーバブルストレージユニットは、コンピュータソフトウェアおよび/またはデータを内蔵するコンピュータ使用可能ストレージメディアを含み得る。
マイクロプロセッサは、システム内でソフトウェアを実施可能である。一部の実施形態では、マイクロプロセッサは、ユーザーが行うことができる、本明細書に記載するタスクを自動的に行うようにプログラムされ得る。したがって、マイクロプロセッサまたはかかるマイクロプロセッサにより実施されるアルゴリズムは、ユーザーによる監視またはインプットを、ほとんどまたはまったく必要としないと考えられる(例えば、ソフトウェアは、機能を自動的に実施するようにプログラムされ得る)。一部の実施形態では、処理はあまりにも複雑であり、一人の個人であっても、また個人の群であっても、遺伝子の変動または遺伝子の変更の有無を決定するのに十分短いタイムフレーム内で処理を行うことは不可能である。
一部の実施形態では、二次メモリは、コンピュータプログラムまたは他のインストラクションをコンピュータシステムにロードできるようにするために、他の類似した手段を含み得る。例えば、システムは、リムーバブルストレージユニットおよびインターフェースデバイスを含み得る。かかるシステムの非限定的な例として、プログラムカートリッジおよびカートリッジインターフェース(ビデオゲームデバイスに見出されるもの等)、リムーバブルメモリチップ(EPROMまたはPROM等)、および関連するソケット、ならびにソフトウェアおよびデータをリムーバブルストレージユニットからコンピュータシステムに移動できるようにする、他のリムーバブルストレージユニットおよびインターフェースが挙げられる。
図4は、本明細書に記載する様々なシステム、方法、アルゴリズム、およびデータ構造の実施が可能である演算環境410の非限定的な例を示す。演算環境410は、適する演算環境の1つの例に過ぎず、本明細書に記載するシステム、方法、およびデータ構造の使用の範囲または機能性について何らかの制限を示唆するようには意図されない。また、演算環境410は、演算環境410に示すコンポーネントの任意の1つまたはその組合せと関連する何らかの依存性または要件を有するものと解釈してはならない。図4に示すシステム、方法、およびデータ構造のサブセットは、ある特定の実施形態で利用可能である。本明細書に記載するシステム、方法、およびデータ構造は、非常に多くの他の汎用または専用の演算システム環境またはコンフィギュレーションと共に運用可能である。適すると考えられる公知の演算システム、環境、および/またはコンフィギュレーションの例として、パーソナルコンピュータ、サーバーコンピュータ、シンクライアント、シッククライアント、携帯式またはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを含む分散型演算環境等が挙げられるが、これらに限定されない。
図4のオペレーティング環境410はコンピュータ420の形態の汎用演算デバイスを含み、これには、処理ユニット421、システムメモリ422、およびシステムメモリ422を含む様々なシステムコンポーネントを処理ユニット421に作動可能に連結させるシステムバス423が含まれる。コンピュータ420のプロセッサが、単一の中央処理ユニット(CPU)または並列処理環境と一般的に呼ばれる複数の処理ユニットを含むように、処理ユニット421は1つのみ存在し得る、または1つ超存在し得る。コンピュータ420は、従来型コンピュータ、分散型コンピュータ、またはあらゆる他の種類のコンピュータであり得る。
システムバス423は、メモリバスまたはメモリコントローラー、周辺バス、および様々なバスアーキテクチャーのいずれかを使用するローカルバスを含む、任意の数種類のバス構造であり得る。また、システムメモリは、単にメモリと呼ばれる場合もあり、リードオンリメモリ(ROM)424およびランダムアクセスメモリ(RAM)を含む。立ち上げ時等に、コンピュータ420内のエレメント間の情報移送に役立つ基本ルーチンを含む基本入出力システム(BIOS)426は、ROM424に保管される。コンピュータ420は、図示しないがハードディスクから読み出し、これに書き込むハードディスクドライブインターフェース427、リムーバブル磁気ディスク429から読み出し、これに書き込む磁気ディスクドライブ428、およびリムーバブル光学式ディスク431、例えばCD ROMまたは他の光学式メディアから読み出し、これに書き込む光学式ディスクドライブ430をさらに含み得る。
ハードディスクドライブ427、磁気ディスクドライブ428、および光学式ディスクドライブ430は、ハードディスクドライブインターフェース432、磁気ディスクドライブインターフェース433、および光学式ディスクドライブインターフェース434により、システムバス423とそれぞれ接続される。ドライブおよびその関連するコンピュータ読取り可能メディアは、コンピュータ読取り可能インストラクション、データ構造、プログラムモジュール、およびコンピュータ420用の他のデータの不揮発性の保管を提供する。コンピュータがアクセス可能なデータを保管することができる、あらゆる種類のコンピュータ読取り可能メディア、例えば磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)等が、オペレーティング環境内で使用することができる。
いくつかのプログラムモジュールが、オペレーティングシステム435、1つまたは複数のアプリケーションプログラム436、他のプログラムモジュール437、およびプログラムデータ438を含む、ハードディスク、磁気ディスク429、光学式ディスク431、ROM424、またはRAM上に保管され得る。ユーザーは、コマンドおよび情報を、インプットデバイス、キーボード440およびポインティングデバイス442等を通じてパーソナルコンピュータ420に入力することができる。他のインプットデバイス(図示せず)として、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディシュ、スキャナー等を挙げることができる。これらおよび他のインプットデバイスが、多くの場合、システムバスに連結したシリアルポートインターフェース446を経由して処理ユニット421と接続されるが、他のインターフェース、例えばパラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)により接続される場合もある。モニター447または他の種類のディスプレイデバイスも、インターフェース、例えばビデオアダプター448を介してシステムバス423と接続される。モニターに加えて、コンピュータは、他の周辺アウトプットデバイス(図示せず)、例えばスピーカーおよびプリンターを一般的に含む。
コンピュータ420は、1つまたは複数のリモートコンピュータ、例えばリモートコンピュータ449との論理接続を使用して、ネットワーク化した環境内で作動可能である。これらの論理接続は、コンピュータ420もしくはその一部と連結しているコミュニケーションデバイスにより、または他の方式で達成され得る。図4ではメモリストレージデバイス450しか示さなかったが、リモートコンピュータ449は、別のコンピュータ、サーバー、ルーター、ネットワークPC、クライアント、ピアデバイス、もしくは他の一般的なネットワークノードであり得、コンピュータ420と関連して上記エレメントの多くまたは全てを一般的に含む。図4に示す論理接続として、ローカルエリアネットワーク(LAN)451およびワイドエリアネットワーク(WAN)452が挙げられる。かかるネットワーク環境は、オフィスネットワーク、全社的コンピュータネットワーク、イントラネット、およびインターネットでは普通であり、そのいずれも典型的なネットワークである。
LAN−ネットワーク環境で使用する場合、コンピュータ420は、コミュニケーションデバイスの一種であるローカルネットワーク451と、ネットワークインターフェースまたはアダプター453を介して接続される。WAN−ネットワーク環境で使用する場合、コンピュータ420は、多くの場合、コミュニケーションデバイスの一種であるモデム454、またはワイドエリアネットワーク452全体にわたりコミュニケーションを確立するために他の任意の種類のコミュニケーションデバイスを含む。モデム454は、内部または外部であってもよいが、シリアルポートインターフェース446を介してシステムバス423と接続される。ネットワーク化された環境では、パーソナルコンピュータ420またはその一部と関連して示されるプログラムモジュールは、リモートメモリストレージデバイス内に保管され得る。示すようなネットワーク接続は非限定的な例であり、またコンピュータ間のコミュニケーションリンクを確立するための他のコミュニケーションデバイスも使用することができると認識される。
変換
上記のように、データは1つの形態から別の形態に変換される場合もある。用語「変換された」、「変換」、およびその文法的な派生物または同等物は、本明細書で使用する場合、物理的な出発物質(例えば、試験対象および/または参照対象試料の核酸)から物理的な出発物質のデジタル表示(例えば、配列の読取りデータ)へのデータの変更を指し、一部の実施形態では、結果を提供するのに利用できる1つもしくは複数の数値への、またはデジタル表示の図形表示へのさらなる変換を含む。ある特定の実施形態では、1つまたは複数の数値および/またはデジタル的に表示されたデータの図形表示は、試験対象の物理的なゲノムの状況を表すのに利用できる(例えば、ゲノムの挿入、重複、または欠失の有無を仮想的に表すまたは可視的に表す;医学的状態と関連した配列の物理量の変動の有無を表す)。仮想表示は、1つもしくは複数の数値、または出発物質のデジタル表示の図形表示にさらに変換される場合もある。これらの方法は、物理的な出発物質を、数値もしくは図形表示に、または試験対象核酸の物理的状況表示に変換することができる。
一部の実施形態では、データセットを変換すると、データの複雑性および/またはデータの次元数が低減し、これにより結果の提供がし易くなる。データセットの複雑性は、物理的な出発物質を出発物質の仮想表示に変換する処理の際に低減する場合もある(例えば、物理的な出発物質を表わす配列の読取り)。適する特性または変数が、データセットの複雑性および/または次元数を低減するのに利用できる。データ処理するための標的特性として使用するのに選択できる特性の非限定的な例として、GC含有量、胎仔の性別予測、断片サイズ(例えば、CCF断片の長さ、その読取りまたは好適な表示(例えば、FRS))、断片配列、コピー数の変更の識別、染色体異数性の識別、特定の遺伝子またはタンパク質の識別、がん、疾患、遺伝性の遺伝子/特性、染色体異常の識別、生物学的カテゴリー、化学的カテゴリー、生化学的カテゴリー、遺伝子またはタンパク質のカテゴリー、遺伝子オントロジー、タンパク質オントロジー、同時制御された遺伝子、細胞シグナル伝達遺伝子、細胞周期遺伝子、上記遺伝子に関連するタンパク質、遺伝子変異体、タンパク質変異体、同時制御された遺伝子、同時制御されたタンパク質、アミノ酸配列、ヌクレオチド配列、タンパク質構造データ等、および上記組合せが挙げられる。データセットの複雑性および/または次元数の低減に関する非限定的な例として;複数の配列読取りをプロファイルプロットに低減化すること、複数の配列読取りを数値に低減化すること(例えば、値、Zスコア、p値の正規化);複数の分析方法を確率プロットまたは単一ポイントに低減化すること;導き出された数量の主成分分析等、またはその組合せが挙げられる。
遺伝子の変動/遺伝子の変更および医学的状態
本明細書において記載される方法または装置を使用して、遺伝子の変動の存在または非存在を決定できる。遺伝子の変動はまた、遺伝子の変更と呼ばれることもあり、この用語は、本明細書においておよび当技術分野で交換可能に使用されることが多い。特定の事例では、「遺伝子の変更」は、対象中の細胞のサブセット中のゲノムが、変更(例えば、腫瘍またはがん細胞において等)を含有することによる体細胞変更を記載するために使用されうる。特定の事例では、「遺伝子の変動」は、一方または両方の親から遺伝された変動(例えば、胎仔における遺伝子の変動など)を記載するために使用されうる。
ある特定の実施形態では、1つまたは複数の遺伝子の変動または遺伝子の変更の有無は、本明細書に記載する方法または装置を使用して決定することができる。ある特定の実施形態では、1つまたは複数の遺伝子の変動または遺伝子の変更の有無は、本明細書に記載する方法および装置により提供されるアウトカムにより判定される。遺伝子の変動は、一般的に、ある特定の個体中に存在する特定の遺伝的表現型であり、多くの場合、遺伝子の変動は、個体の統計的に有意な部分母集団の中に存在する。一部の実施形態では、遺伝子の変動は、染色体異常またはコピー数の変更(例えば、染色体異数性、1つまたは複数の染色体の重複、1つまたは複数の染色体の喪失、部分的染色体異常、またはモザイク症(例えば、染色体の1つまたは複数の領域の喪失または獲得)、転位、反転)であり、そのそれぞれについて、本明細書でより詳細に記載する。遺伝子の変動/遺伝子の変更の非限定的な例として、1つまたは複数のコピー数の変動/変更、欠失(例えば、微小欠失)、重複(例えば、微小重複)、挿入、突然変異(例えば、単一ヌクレオチド変動、単一ヌクレオチドの変更)、多型(例えば、一塩基多型)、融合、リピート(例えば、短いタンデムリピート)、異なるメチル化部位、異なるメチル化パターン等、およびその組合せが挙げられる。挿入、リピート、欠失、重複、突然変異、または多型は、任意の長さのものであり得、一部の実施形態では、長さ約1塩基または塩基対(bp)〜約250メガ塩基(Mb)である。一部の実施形態では、挿入、リピート、欠失、重複、突然変異、または多型は、長さ約1塩基または塩基対(bp)〜約50,000キロ塩基(kb)である(例えば、長さ約10bp、50bp、100bp、500bp、1kb、5kb、10kb、50kb、100kb、500kb、1000kb、5000kbまたは10,000kb)。
遺伝子の変動または遺伝子の変更は、欠失の場合もある。ある特定の例では、欠失は染色体またはDNA配列の一部が欠損している突然変異である(例えば、遺伝子異常)。欠失は、多くの場合、遺伝物質の喪失である。任意の数のヌクレオチドが欠失し得る。欠失は、1つもしくは複数の染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、その部分、またはその組合せの欠失を含み得る。欠失は、微小欠失を含み得る。欠失は、単一塩基の欠失を含み得る。
遺伝子の変動または遺伝子の変更は、重複の場合もある。ある特定の例では、重複は染色体またはDNA配列の一部がコピーされ、ゲノムに再挿入される突然変異(例えば、遺伝子異常)である。ある特定の実施形態では、遺伝子の重複(すなわち、重複)は、DNA領域の任意の重複である。一部の実施形態では、重複は、ゲノムまたは染色体内の、多くの場合タンデムに反復した核酸配列である。一部の実施形態では、重複は、1つもしくは複数の染色体全体、染色体の領域、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、その部分、またはその組み合わせのコピーを含み得る。重複は、微小重複を含み得る。重複は、1つまたは複数の重複した核酸のコピーを含む場合もある。重複は、1回または複数回反復した(例えば、1、2、3、4、5、6、7、8、9、または10回反復した)遺伝子領域として特徴付けられる場合もある。重複は、小領域(数千塩基対)から一部の事例では染色体全体の範囲であり得る。重複は、相同的組換えにおける誤差の結果として、またはレトロトランスポゾンイベントに起因して高頻度で生ずる。重複は、ある特定の種の増殖性疾患と関連していた。重複は、ゲノムマイクロアレイまたは比較遺伝子交雑法(CGH)を使用して特徴付けできる。
遺伝子の変動または遺伝子の変更は、挿入の場合もある。挿入は、1つまたは複数のヌクレオチド塩基対の核酸配列への付加の場合もある。挿入は、微小挿入の場合もある。ある特定の実施形態では、挿入は、染色体の領域のゲノム、染色体、またはその部分への付加を含む。ある特定の実施形態では、挿入は、対立遺伝子、遺伝子、イントロン、エクソン、任意の非コード領域、任意のコード領域、その部分またはその組合せの、ゲノムまたはその部分への付加を含む。ある特定の実施形態では、挿入は、起源が不明の核酸の、ゲノム、染色体、またはその部分への付加(例えば、挿入)を含む。ある特定の実施形態では、挿入は、単一塩基の付加(例えば、挿入)を含む。
本明細書で使用する場合、「コピー数の変更」は、一般に、遺伝子の変動、遺伝子の変更または染色体異常のクラスまたは種類である。コピー数の変更はまた、コピー数の変動と呼ばれることもあり、この用語は、本明細書においておよび当技術分野で交換可能に使用されることが多い。特定の事例では、「コピー数の変更」は、対象中の細胞のサブセット中のゲノムが、変更(例えば、腫瘍またはがん細胞においてなど)を含有することによる体細胞変更を記載するために使用されうる。特定の事例では、「コピー数の変動」は、一方または両方の親から遺伝された変動(例えば、胎仔におけるコピー数の変動など)を記載するために使用されうる。コピー数の変更は、欠失(例えば、微小欠失)、重複(例えば、微小重複)または挿入(例えば、微小挿入)でありうる。本明細書で時に使用される接頭辞「微小」は、長さ5Mb未満の核酸の領域であることが多い。コピー数の変更は、染色体の一部の1つまたは複数の欠失(例えば、微小欠失)、重複および/または挿入(例えば、微小重複、微小挿入)を含みうる。ある特定の実施形態では、重複は、挿入を含む。ある特定の実施形態では、挿入は重複である。ある特定の実施形態では、挿入は重複ではない。
一部の実施形態では、コピー数の変更は、腫瘍またはがん性細胞に由来するコピー数の変更である。一部の実施形態では、コピー数の変更は、非がん性細胞に由来するコピー数の変更である。ある特定の実施形態では、コピー数の変更は、対象(例えば、がん患者)のゲノム内および/または対象におけるがん細胞もしくは腫瘍のゲノム内のコピー数の変更である。コピー数の変更は、ヘテロ接合性のコピー数の変更であり得、変動(例えば、重複または欠失)は、ゲノムの1つの対立遺伝子に存在する。コピー数の変更は、ホモ接合性のコピー数の変更であり得、変更は、ゲノムの対立遺伝子の両方に存在する。一部の実施形態では、コピー数の変更は、ヘテロ接合性またはホモ接合性のコピー数の変更である。一部の実施形態では、コピー数の変更は、がん性細胞または非がん性細胞に由来するヘテロ接合性またはホモ接合性コピー数の変更である。コピー数の変更は、時には、がん性細胞ゲノムおよび非がん性細胞ゲノム中に存在し、がん性細胞ゲノム中に存在しかつ非がん性細胞ゲノムには存在せず、または非がん性細胞ゲノム中に存在しかつがん性細胞ゲノムには存在しない。
一部の実施形態では、コピー数の変更は、胎仔のコピー数の変更である。多くの場合、胎仔のコピー数の変更は、胎仔のゲノム内のコピー数の変更である。一部の実施形態では、コピー数の変更は、母体および/または胎仔のコピー数の変更である。ある特定の実施形態では、母体および/または胎仔のコピー数の変更は、妊娠中の雌(例えば、胎仔を有する雌の対象)、分娩経験のある雌の対象、または胎仔を有する能力を有する雌のゲノム内のコピー数の変更である。コピー数の変更は、ヘテロ接合性のコピー数の変更であり得、この場合、変更(例えば、重複または欠失)は、ゲノムの1方の対立遺伝子上に存在する。コピー数の変更は、ホモ接合性のコピー数の変更であり得、この場合、変更は、ゲノムの両方の対立遺伝子に存在する。一部の実施形態では、コピー数の変更はヘテロ接合性またはホモ接合性の胎仔のコピー数の変更である。一部の実施形態では、コピー数の変更は、ヘテロ接合性またはホモ接合性の母体および/または胎仔のコピー数の変更ある。コピー数の変更は、母体ゲノムおよび胎仔ゲノムに存在する、母体ゲノムに存在するが胎仔ゲノムに存在しない、または胎仔ゲノムに存在するが母体ゲノムに存在しない場合がある。
「倍数性」とは、対象に存在する染色体の数を指す。ある特定の実施形態では、「倍数性」は、「染色体倍数性」と同じである。ヒトでは、例えば常染色体は、多くの場合、対で存在する。例えば、遺伝子の変動または遺伝子の変更が存在しない場合、ほとんどのヒトは各常染色体(例えば、第1〜22染色体)を2つ有する。ヒトでは2つの常染色体について正常な補体が存在し、これは多くの場合、正倍数体または2倍体と呼ばれる。「微小倍数性」は、意味上では、倍数性に類似する。「微小倍数性」は、多くの場合、染色体の部分の倍数性を指す。用語「微小倍数性」とは、染色体内のコピー数の変更(例えば、欠失、重複、および/または挿入)の有無(例えば、ホモ接合性またはヘテロ接合性の欠失、重複、または挿入等またはその不存在)を指す場合もある。
対象について有無が識別された遺伝子の変動または遺伝子の変更は、ある特定の実施形態では医学的状態と関連する。したがって、本明細書に記載する技術は、医学的状態または病状と関連する1つまたは複数の遺伝子の変動または遺伝子の変更の有無を識別するのに使用することができる。医学的状態の非限定的な例として、知的障害(例えば、ダウン症候群)、細胞増殖異常(例えば、がん)、微生物核酸(例えば、ウイルス、細菌、真菌、酵母)の存在、および子癇前症と関連した状態が挙げられる。
遺伝子の変動/遺伝子の変更、医学的状態および病状の非限定的な例は、以下に記載されている。
染色体異常
一部の実施形態では、染色体異常の有無は、本明細書に記載する方法および/または装置を使用して決定することができる。染色体異常として、非限定的に、コピー数の変更、および染色体全体または1つもしくは複数の遺伝子を含む染色体の領域の取得または喪失が挙げられる。染色体異常には、モノソミー、トリソミー、ポリソミー、ヘテロ接合性の喪失、転座、不均衡な転座により引き起こされた欠失および重複を含む、1つまたは複数のヌクレオチド配列(例えば、1つまたは複数の遺伝子)の欠失および/または重複が含まれる。用語「染色体異常」または「染色体異数性」は、本明細書で使用する場合、対象の染色体構造と正常な相同染色体構造の間の乖離を指す。用語「正常」とは、特定の種の健康な個体に見出される優勢な核型またはバンディングパターン、例えば正倍数体ゲノム(例えば、ヒトにおける異数性、例えば、46、XXまたは46、XY)を指す。生物が異なれば染色体の補体も幅広く変化し、用語「染色体異数性」は特定の染色体の数を指すものではなく、生物の所与の細胞の1つまたは複数内の染色体含有量が異常である状況を指す。一部の実施形態では、用語「染色体異数性」は、本明細書では、染色体の全部または染色体の一部の喪失または取得により引き起こされた遺伝物質の不均衡を指す。「染色体異数性」は、染色体の領域の1つまたは複数の欠失および/または挿入を指し得る。用語「正倍数体」は、一部の実施形態では、染色体の正常な補体を指す。
用語「モノソミー」は、本明細書で使用する場合、正常な補体の1つの染色体が欠如していることを指す。単一のコピー内に染色体の部分のみが存在する、不均衡な転座または欠失においては、部分的モノソミーが生じ得る。性染色体のモノソミー(45、X)は、例えばターナー症候群を引き起こす。用語「ダイソミー」は、染色体のコピーが2つ存在することを指す。各染色体の2つのコピーを有するヒト等の生物(二倍体または「正倍数体」の生物)の場合、ダイソミーは正常な状態である。各染色体の3つまたはそれ超のコピーを通常有する生物(三倍体またはそれ超の生物)の場合、ダイソミーは異数染色体の状態である。片親性のダイソミーでは、染色体の両方のコピーは同一の親に由来する(他方の親の寄与はない)。
用語「トリソミー」は、本明細書で使用する場合、特定の染色体の2つのコピーではなく3つのコピーが存在することを指す。ヒトのダウン症候群に見出される余分な第21染色体の存在は、「トリソミー21」と呼ばれる。トリソミー18およびトリソミー13は、他の2つのヒト常染色体トリソミーである。性染色体のトリソミーは、雌(例えば、トリプルX症候群の47、XXX)または雄(例えば、クラインフェルター症候群の47、XXY;またはジェイコブス症候群の47、XYY)に認められる場合がある。一部の実施形態では、トリソミーは、ほとんどまたは全ての常染色体の重複である。ある特定の実施形態では、トリソミーは全染色体異数性であり、特定の種類の染色体について3つのインスタンス(例えば、3つのコピー)をもたらす(例えば、正倍数体についての特定の種類の染色体の2つのインスタンス(例えば、対)ではなく)。
用語「テトラソミー」および「ペンタソミー」は、本明細書で使用する場合、4つまたは5つの染色体のコピーがそれぞれ存在することを指す。常染色体ではほとんど認められないが、性染色体のテトラソミーおよびペンタソミーが、XXXX、XXXY、XXYY、XYYY、XXXXX、XXXXY、XXXYY、XXYYY、およびXYYYYを含め、ヒトで報告されている。
用語「モザイク症」は、本明細書で使用する場合、生物の全ての細胞ではなく、一部の細胞内の染色体異数性を指す。ある特定の染色体異常は、モザイク性および非モザイク性の染色体異常として存在し得る。例えば、ある特定のトリソミー21個体はモザイクダウン症候群を有し、一部は非モザイクダウン症候群を有する。異なる機構が、モザイク症を引き起こしている可能性がある。例えば、(i)最初の接合体は、3つの第21染色体を有すると考えられ、これは単純なトリソミー21を通常もたらすが、細胞分裂の過程で、1つまたは複数の細胞系統が、第21染色体の1つを喪失する;および(ii)最初の接合体は、2つの第21染色体を有すると考えられるが、細胞分裂の過程で、第21染色体の1つが重複した。モザイク症と関連するその他の状態として、モザイククラインフェルター症候群、モザイクターナー症候群、パリスター・キリアンモザイク症候群、紙吹雪状魚鱗癬、クリッペル・トレノネー症候群、環状第14染色体症候群、SOX2無眼球症症候群、トリプルX症候群およびモザイクトリソミー18が挙げられる。体細胞モザイク症は、完全なまたはモザイク性の染色体異数性を伴う遺伝的症候群と一般的に関連する機構とは異なる機構を通じて生ずる可能性がある。体細胞モザイク症は、例えばある特定の種類のがんやニューロンにおいて識別された。ある特定の事例では、トリソミー12は、慢性リンパ球性白血病(CLL)において識別され、トリソミー8は、急性骨髄性白血病(AML)において識別された。また、個体が染色体の破断しやすい傾向を有するような遺伝的症候群(染色体不安定症候群)では、様々な種類のがんに対するリスクの増大と高頻度で関連し、したがって発癌性における体細胞染色体異数性の役割が注目される。本明細書に記載する方法およびプロトコールは、非モザイク性およびモザイク性の染色体異常の有無を識別することができる。
コピー数の変動についてのモザイク症は、胎仔中に、胎盤中に、または胎仔中および胎盤中に存在しうる。胎盤中に存在し、胎仔中には存在しない、コピー数の変動についてのモザイク症は、時には、限局された胎盤モザイク症(CPM)と呼ばれる。CPMについて、胎盤の細胞の一部またはすべてが、コピー数の変動を有し、胎仔はコピー数の変動を有さないことが多い。CPMは、コピー数の変動を有する一部の細胞が、絨毛膜絨毛検査で検出され、胎仔血液サンプリングまたは羊水穿刺などのその後の出生前検査では正常細胞のみが見られる場合に診断することができる。
胎仔の性別
一部の実施形態では、胎仔の性別または性別関連の障害(例えば、性染色体異数性)の予測は、本明細書に記載する方法、機械または装置により決定することができる。性別の決定は、性染色体に一般的に基づく。ヒトでは、2つの性染色体、XおよびY染色体が存在する。Y染色体は、雄として胚が発生する契機となる遺伝子、SRYを含有する。ヒトおよび他の哺乳動物のY染色体は、正常な精子産生に必要とされる他の遺伝子も含有する。XXを有する個体は雌であり、XYは雄であり、多くの場合、性染色体異数性と呼ばれる非限定的な変動として、X0、XYY、XXX、およびXXYが挙げられる。ある特定の実施形態では、雄は、2つのX染色体および1つのY染色体(XXY;クラインフェルター症候群)、または1つのX染色体および2つのY染色体(XYY症候群;ジェイコブス症候群)を有し、ならびに一部の雌は、3つのX染色体(XXX;トリプルX症候群)または2つではなく単一のX染色体(X0;ターナー症候群)を有する。ある特定の実施形態では、個体内の一部の細胞のみが、性染色体異数性により影響を受け、モザイク症(例えば、ターナーモザイク症)と呼ばれる場合もある。他の症例として、SRYが損傷を受けている症例(XYの雌となる)、またはXにコピーされた症例(XXの雄となる)が挙げられる。
医学的障害および医学的状態
本明細書において記載される方法は、任意の適した医学的障害または医学的状態に適用可能でありうる。医学的障害および医学的状態の限定されない例として、細胞増殖性障害および状態、消耗性障害および状態、変性性障害および状態、自己免疫障害および状態、子癇前症、化学毒性または環境毒性、肝臓損傷または疾患、腎臓損傷または疾患、血管性疾患、高血圧症および心筋梗塞が挙げられる。
一部の実施形態では、細胞増殖障害または状態は、時には、がん、腫瘍、新生物、転移性疾患等またはそれらの組合せである。細胞増殖障害または状態は、時には、肝臓、肺、脾臓、膵臓、結腸、皮膚、膀胱、眼、脳、食道、頭部、頸部、卵巣、精巣、前立腺等の障害もしくは状態またはそれらの組合せである。がんの限定されない例として、造血起源の(例えば、骨髄、リンパ球または赤血球系統またはその前駆体細胞から生じる)過形成性/新生細胞が関与する疾患である造血新生物性障害が挙げられ、低分化急性白血病(例えば、赤芽球性白血病および急性巨核芽球性白血病)から生じうる。ある特定の骨髄性障害として、これらに限定されないが、急性前骨髄性白血病(APML)、急性骨髄性白血病(AML)および慢性骨髄性白血病(CML)が挙げられる。ある特定のリンパ球悪性腫瘍として、これらに限定されないが、B系統ALLおよびT系統ALLを含む急性リンパ性白血病(ALL)、慢性リンパ性白血病(CLL)、前リンパ性白血病(PLL)、ヘアリー細胞白血病(HLL)およびワルデンストレーム高ガンマグロブリン血症(WM)が挙げられる。悪性リンパ腫のある特定の形態として、これらに限定されないが、非ホジキンリンパ腫およびその変形、末梢T細胞リンパ腫、成人T細胞白血病/リンパ腫(ATL)、皮膚T細胞リンパ腫(CTCL)、大顆粒リンパ性白血病(LGF)、ホジキン疾患およびリード・シュテルンベルク疾患が挙げられる。細胞増殖障害は、時には、非内分泌腫瘍または内分泌腫瘍である。非内分泌腫瘍の例示的例として、これらに限定されないが、腺がん、腺房細胞癌、腺扁平上皮癌、巨細胞腫、膵管内乳頭粘液性腫瘍、粘液性嚢胞腺がん、膵芽腫、血清嚢胞腺腫、充実性偽乳頭状腫瘍が挙げられる。内分泌腫瘍は、時には、島細胞腫瘍である。
一部の実施形態では、消耗性障害もしくは状態または変性性障害もしくは状態は、硬変、筋萎縮性側索硬化症(ALS)、アルツハイマー病、パーキンソン病、多系統萎縮症、アテローム性動脈硬化、進行性核上性麻痺、テイ・サックス病、糖尿病、心疾患、円錐角膜、炎症性腸疾患(IBD)、前立腺炎、変形性関節症、骨粗鬆症、関節リウマチ、ハンチントン病、慢性外傷性脳障害、慢性閉塞性肺疾患(COPD)、結核、慢性下痢、後天性免疫不全症候群(AIDS)、上腸間膜動脈症候群等またはそれらの組合せである。
一部の実施形態では、自己免疫障害または状態は、急性播種性脳脊髄炎(ADEM)、アジソン病、円形脱毛症、強直性脊椎炎、抗リン脂質抗体症候群(APS)、自己免疫性溶血性貧血、自己免疫性肝炎、自己免疫性内耳疾患、水疱性類天疱瘡、セリアック病、シャーガス病、慢性閉塞性肺疾患、クローン病(特発性炎症性腸疾患「IBD」の1種)、皮膚筋炎、1型糖尿病、子宮内膜症、グッドパスチャー症候群、グレーブス病、ギランバレー症候群(GBS)、橋本病、化膿性汗腺炎、特発性血小板減少性紫斑病、間質性膀胱炎、紅斑性狼瘡、混合結合組織病、モルフェア、多発性硬化症(MS)、重症筋無力症、ナルコレプシー、神経性筋強直症(euromyotonia)、尋常性天疱瘡、悪性貧血、多発性筋炎、原発性胆汁性肝硬変、関節リウマチ、統合失調症、強皮症、シェーグレン症候群、側頭動脈炎(「巨大細胞動脈炎」としても公知である)、潰瘍性大腸炎(特発性炎症性腸疾患「IBD」の1種)、脈管炎、白斑、ウェジナー肉芽腫症等またはそれらの組合せである。
子癇前症
一部の実施形態では、子癇前症の有無は、本明細書に記載する方法または装置を使用して決定される。子癇前症は、妊娠中に高血圧症が発生する状態(例えば、妊娠誘発性高血圧症)であり、尿中の相当量のタンパク質と関連する。ある特定の例では、子癇前症は、細胞外核酸のレベル上昇および/またはメチル化パターン変化と関連し得る。例えば、細胞外の胎仔由来過剰メチル化RASSF1Aレベルと子癇前症の重症度の間に正の相関が認められた。ある特定の例では、子癇前症の胎盤内のH19遺伝子について、正常な対照と比較してDNAのメチル化の増加が認められる。
病原体
一部の実施形態では、病態の有無は、本明細書に記載する方法または装置により決定される。病態は、細菌、ウイルス、または真菌を含むが、これらに限定されない病原体に宿主が感染することにより引き起こされ得る。病原体は宿主の核酸と区別可能な核酸(例えば、ゲノムDNA、ゲノムRNA、mRNA)を一般的に有するので、本明細書において提供される方法、機械および装置が、病原体の有無を決定するのに使用できる。多くの場合、病原体は、例えばエピジェネティックな状態および/または1つもしくは複数の配列の変動、重複、および/または欠失等の、特定の病原体に固有の特徴を持つ核酸を有する。したがって、本明細書において提供される方法は、特定の病原体または病原体の変異体(例えば、株)を識別するのに使用できる。
がん
無細胞核酸の使用
特定の事例では、特定の状態または障害と関連する異常細胞または罹患細胞に由来する核酸が、循環性無細胞核酸(CCF−NA)として細胞から放出される。例えば、がん細胞核酸は、CCF−NA中に存在し、本明細書において提供される方法を使用するCCF−NAの分析を使用して、対象ががんを有する、またはがんを有するリスクにあるか否かを決定できる。CCF−NAにおけるがん細胞核酸の存在または非存在の分析を、例えば、がんスクリーニングのために使用できる。ある例では、血清中のCCF−NAのレベルは、健康な患者と比較して様々な種類のがんを有する患者で上昇し得る。例えば、転移性の疾患を有する患者は、非転移性の患者の約2倍高い血清DNAレベルを有する場合があり得る。したがって、本明細書において記載される方法は、対象(例えば、特定の状態または疾患を有する、それを有すると疑われる、その素因がある、またはその素因があると疑われる対象)に由来する試料から抽出したCCF−NAに由来する配列決定読取りカウント数を処理することによってアウトカムを提供できる。
マーカー
特定の事例では、異常細胞または罹患細胞中のポリヌクレオチドは、正常細胞または非罹患細胞中の核酸に関して修飾されている(例えば、単一ヌクレオチドの変更、単一ヌクレオチド変動、コピー数の変更、コピー数の変動)。一部の場合では、ポリヌクレオチドは、異常細胞または罹患細胞中に存在し、正常細胞または非罹患細胞中に存在せず、時には、ポリヌクレオチドは、異常細胞または罹患細胞中に存在せず、正常細胞または非罹患細胞中に存在する。したがって、マーカーは、時には、単一ヌクレオチドの変更/変動および/またはコピー数の変更/変動(例えば、示差的に発現されたDNAまたはRNA(例えば、mRNA))である。例えば、転移性の疾患を有する患者は、がん特異的マーカー、および/または、例えばある特定の一塩基多型または短いタンデムリピートによっても識別され得る。循環型DNAのレベル上昇と正に相関し得るがんの種類の非限定的な例として、乳がん、結腸直腸がん、胃腸がん、肝細胞がん、肺がん、メラノーマ、非ホジキンリンパ腫、白血病、多発性骨髄腫、膀胱がん、ヘパトーマ、子宮頚がん、食道がん、膵臓がん、および前立腺がんが挙げられる。様々ながんは、非がん性の健康な細胞に由来する核酸から区別可能な特徴、例えばエピジェネティックな状態、ならびに/または配列の変動、重複、および/もしくは欠失等を伴う核酸を有し得、これを血流中に放出し得る。かかる特徴は、例えば特定の種類のがんに固有であり得る。したがって、本明細書において記載される方法は、時には、特定のマーカーの存在または非存在を決定することに基づくアウトカムを提供し、時には、アウトカムは、特定の種類の状態(例えば、特定の種類のがん)の存在または非存在である。
本明細書で記載されるある特定の方法は、例えば、それらの各々がその全体において参照により本明細書に組み込まれる、国際特許出願公開第WO2013/052913号、国際特許出願公開第WO2013/052907号、国際特許出願公開第WO2013/055817号、国際特許出願公開第WO2013/109981号、国際特許出願公開第WO2013/177086号、国際特許出願公開第WO2013/192562号、国際特許出願公開第WO2014/116598号、国際特許出願公開第WO2014/055774号、国際特許出願公開第WO2014/190286号、国際特許出願公開第WO2014/205401号、国際特許出願公開第WO2015/051163号、国際特許出願公開第WO2015/138774号、国際特許出願公開第WO2015/054080号、国際特許出願公開第WO2015/183872号、国際特許出願公開第WO2016/019042号および国際特許出願公開第WO 2016/057901号(それぞれの内容全体が、テキスト、表、等式および図面を含め、本明細書に参考として援用される)において記載されている方法と共に実施することができる。
以下に示される実施例は、ある特定の実施形態を例示し、技術を制限しない。
(実施例1)
10,000症例を用いるゲノムワイドcfDNAスクリーニング:臨床検査室実験
胎仔の遺伝的健康に関する包括的出生前情報は、核型および/またはマイクロアレイ分析と組み合わせた絨毛膜絨毛検査(CVS)または羊水穿刺などの侵襲性試験によって得ることができることが多い。手順に関連するリスクを避けるために、ある特定の患者は、侵襲性試験を控えている。一部の場合には、侵襲性試験は、技術的または臨床的考慮のために利用可能ではない場合がある。
非侵襲性無細胞DNA(cfDNA)試験をスクリーニングツールとして使用でき、スクリーニング陽性試験に、侵襲性サンプリングによる診断確認ならびに核型および/またはマイクロアレイ分析によるその後の分析を続けることができる。このようなcfDNAスクリーニング試験を、トリソミー21、18および13ならびに性染色体異数体を含む染色体異常の選択されたサブセットに制限することができ、一部はまた、選択された微小欠失のセットについてスクリーニングする。しかし、cfDNAスクリーニングを、染色体異常のサブセットのみに制限する必要はない。最近のデータは、伝統的なcfDNA試験を用いて、一般的な分娩集団から異常な染色体提示を有する妊娠のおよそ80%を同定することができ、伝統的なcfDNAスクリーニングと、侵襲性確認を用いる血清スクリーニングの間に有意な20%の検出ギャップを残すことを示唆する。
7Mbと等しい、または7Mbよりも大きいコピー数の変動ならびに7Mbより小さいサイズの選択された微小欠失の群のゲノムワイド分析を可能にすることによって、非侵襲性試験のこの検出ギャップを狭めるために、新規cfDNAスクリーニング試験(MaterniT(登録商標)GENOME)を開発した。スクリーニング試験は、より多くの情報が望まれる場合に、症例をスクリーニングする標準cfDNAスクリーニングの代替法として提供できる。臨床検査室でのいくつかの実験後の、10,000の症例から得られた結果をここで報告する。
方法
以下に記載する方法を、この実施例および他の実施例のある特定の態様のために使用した。
試料コホート
ここで報告するデータは、CLIA保証およびCAP認定実験室におけるMaterniT(登録商標)GENOME実験室開発試験の臨床使用から作成した。試験についての指標は、以下のように検査依頼フォームで発注臨床医によって指定された:高齢の母体年齢、家族歴または個人歴、超音波異常、異常な血清スクリーニング、その他またはそれらの組合せ。妊娠期間は、発注臨床医によって報告されたように、最終月経(LMP)または超音波によって決定した。試料は検査室に登録され、結果は発注臨床医に報告された。1p36欠失、ウォルフ・ヒルショルン症候群、ネコ鳴き症候群、ランガー−ギデオン症候群、ヤコブセン症候群、プラダー・ウィリー症候群、アンジェルマン症候群およびディジョージ症候群と関連する、ゲノムワイドコピー数の変動≧7Mbのサイズについて、および選択された微小欠失の群<7Mbのサイズについて試料を試験した。7Mbカットオフは、MaterniT(登録商標)GENOME試験の特徴であり、この分析のためにカスタマイズされたものではなかった。
試料検査室処理
無細胞DNA BCTチューブ(Streck Inc.、Omaha、NE)中に採取された全血試料を使用して、または凍結されて発送され、受け取られた処理血漿で試験を実施した。MyOne(商標)Dynabeads(登録商標)(Thermofisher Scientific、Waltham、MA)を使用する自動抽出法を使用して血漿からcfDNAを抽出した。Tynanら(2016年) Prenat. Diagn. 36巻:56〜62頁に記載されるように、血漿DNAを使用して、インデックス配列決定ライブラリーを作製した。Lefkowitzら(2016年)Am. J. Obstet. Gynecol. 215巻:227頁に記載されるように、HISEQ 2000またはHISEQ 2500機器(Illumina,Inc.、San Diego、CA)で、配列決定ライブラリーを多重化し、クラスター化し、配列決定した。Zhaoら(2015年)Clin Chem. 2015年;61巻(4号):608〜616頁;Lefkowitzら(2016年)Am. J. Obstet. Gynecol. 215巻:227頁;およびKimら(2015年) Prenat Diagn. 2015年;35巻(8号):810〜815頁に記載されるように、バイオインフォマティクスアルゴリズムを使用して、配列決定結果を正規化し、胎仔フラクション、染色体21、18および13トリソミー、性染色体異数体およびその他のゲノムワイド全染色体および部分染色体コピー数変異体について分析した。
データ再検討
臨床検査室指導者は、発注臨床医への結果の最終報告に先立って各試料から得られた配列決定データを再検討した。必要な場合には、臨床検査室指導者は、試験依頼フォームで提供された指標および臨床情報にアクセスした。不十分なフラクションの胎仔DNA濃度を有する試料を「十分ではない品質」として分類し、報告書を発行しなかった。ライブラリー濃度および配列決定特異的測定基準を含むその他の検査室品質制御測定基準が劣っている試料を、「報告可能ではないその他のもの」として分類した。
レトロスペクティブ研究について分析したデータを、試験依頼フォームで集められた匿名化された、個々に同定可能ではない患者データから入手した。さらに、MaterniT(登録商標)GENOME検査室開発試験の結果として作成されたすべての患者特異的データを、医療保険の携行と責任に関する法律(Health Insurance Portability and Accountability Act)(HIPAA)および2005年4月のFDAガイダンス文書「Informed Consent for In Vitro Diagnostic Device Studies Using Leftover Human Specimens that are Not Individually Identifiable」に従って匿名化し、分析のために組み合わせた。この報告書には、試験を用いた全体的な臨床使用および所見が記載されている。
分析カテゴリー
分析カテゴリー(AMA、US±その他、AS±その他、HIST±その他)を、以下の通りに規定する。高齢の母体年齢(AMA)とは、35歳またはそれよりも高齢であり、何らかのその他の高リスク指標を有さなかった患者を指す。超音波知見(US±その他)とは、高リスク指標のうち少なくとも1つとして超音波所見を有していた患者を指す。これらの患者は、単独高リスク指標としてUSを有する可能性があり、またはその他の高リスク指標も有する可能性もある。異常な血清スクリーニング(AS±その他)とは、高リスク指標のうち少なくとも1つとして異常な血清スクリーニングを有していた患者を指す。これらの患者は、単独高リスク指標としてASを有する可能性があり、またはその他の高リスク指標も有する可能性もある。家族歴(HIST±その他)とは、高リスク指標のうち少なくとも1つとして家族歴を有していた患者を指す。これらの患者は、単独高リスク指標としてHISTを有する可能性があり、またはその他の高リスク指標も有する可能性もある。
結果
NIPTについてのリスク指標
MaterniT(登録商標)GENOME検査室開発試験を用いるコピー数の変動のゲノムワイド評価のために、10,272試料を臨床検査室に提出した。提出時点での妊娠期間の分布は、MaterniT21(登録商標)PLUS検査室開発試験によるcfDNAスクリーニングに匹敵していたが、妊娠20〜21週で集められた試料の相対割合において、統計的に有意ではないがわずかに増加していた。これは、陽性超音波所見による妊娠後期の使用の増大、提出された試料について見られた高リスク指標の分布によってさらに支持される仮説を示す可能性がある。図5は、ゲノムワイド(MaterniT(登録商標)GENOME)cfDNA試験のために、ならびに伝統的な(MaterniT21(登録商標)PLUS)cfDNA試験のために試料提出時に提供されたリスク因子500の分布を記載する。リスク因子500を試験依頼フォームで以下のカテゴリーにわけた:高齢母体年齢(AMA)、異常な超音波所見(US)、異常な血清スクリーニング(AS)、染色体異常の個人歴または家族歴(HIST)または「その他」。伝統的な(MaterniT21(登録商標)PLUS)cfDNA試験と比較された、ゲノムワイド(MaterniT(登録商標)GENOME)cfDNA試験における最も認識できる相違は、AMAのためにおよび異常な超音波所見のために提出された試料の群においてであった。「AMAのみ」のために提出された試料の割合は、MaterniT21(登録商標)PLUS cfDNA試験におけるおよそ68%から、MaterniT(登録商標)GENOME cfDNA試験におけるおよそ48%に低下した。この低減は、単独高リスク指標として、または複数の高リスク指標のうちの一部として、異常な超音波所見を有していた試料によってほぼ完全に補われた(MaterniT21(登録商標)PLUS cfDNA試験において13%、MaterniT(登録商標)GENOME cfDNA試験において25%)。
陽性率
554の症例においてスクリーニング陽性試験結果が報告され、およそ5.4%(MaterniT21(登録商標)PLUS cfDNAスクリーニングにおける2.3%と比較して)のスクリーニング陽性率につながった。単独指標としての、またはその他の高リスク因子と組み合わせた異常な超音波所見とともに提出された試料は、約11%の高いスクリーニング陽性率を有していたが、個人歴または家族歴のために提出された試料は、4%の低いスクリーニング陽性率を有していた(例えば、図6を参照のこと)。特定の組合せの高リスク指標を有する試料のいくつかの亜群は、極めて高いスクリーニング陽性率を示した。例えば、一緒に高齢の母体年齢および異常な超音波所見のために提出された試料において、陽性率は23%であった。これらのスクリーニング陽性率は、一般的な高リスク集団において予測されるものよりも高かった。これは、臨床医によるその試料の提出の前に患者が経験した主観的な選択プロセスに起因する可能性がある。総合すると、これらのデータは、臨床採用のこの初期相の間で、提供者が、染色体異常について極めて高いリスクにある症例について、この試験を優先的に選択することを示す。
ゲノムワイドスクリーニングの利益を調べるために、陽性結果を、伝統的な(MaterniT21(登録商標)PLUS)cfDNAスクリーニング(n=390)(染色体13、18、21のトリソミーおよび性染色体異数性を含む)によって得ることができた所見およびゲノムワイド(MaterniT(登録商標)GENOME)cfDNAスクリーニング(n=164)によって発見可能であった所見に分解した。ゲノムワイドcfDNA試験に限定される所見は、すべてのスクリーニング陽性結果のうちおよそ30%に寄与し、全ゲノムにわたって大きな(>7Mb)部分染色体および/または全染色体異数性を含んでいた。試験のためのいくつかの指標が、これらの独特に発見可能な所見の頻度に対して最小にしか影響を及ぼさなかったが、その他の指標は、相当な影響を示した。特定の事例では、患者は、試験のための1つよりも多い指標を有していた可能性がある。この分析の目的のために、患者を4つのカテゴリーに割り当てた。最初の3つは、単一または複数のリスク指標を有していたが、以下の1)異常な超音波所見、2)異常な血清スクリーニング、3)個人歴または家族歴のうち少なくとも1つを有していた患者を含んでいた。第4の群は、その唯一の高リスク指標が、4)高齢の母体年齢である患者を含んでいた。ゲノムワイド試験によって専ら得ることができる陽性結果の頻度は、これらの群の間で変わった。個人歴または家族歴を有する試料では、およそ50%の所見は、ゲノムワイドスクリーニングを用いてのみ発見可能であった。高齢の母体年齢を有する試料では、このフラクションは、38%であった。超音波および血清スクリーニングは、トリソミー18および21(およびより低い程度までトリソミー13)の高リスクにある妊娠を特異的に同定する方法であることが多い。異常な超音波所見およびまたは異常な血清スクリーニング指標を有するこの研究における陽性試料は、3つの一般的な常染色体異数性について濃縮されていた(AMAについての47%および家族歴および/または個人歴についての29%と比較して、異常な超音波所見について58%、異常な血清スクリーニングについて51%)。したがって、これらの2群の独特に発見可能なゲノムワイド所見の相対寄与は、全コホートにおける30%の全頻度からわずかに低下した;異常な血清スクリーニング結果を有する試料についての25%および異常な超音波所見を有する試料についての24%。
ゲノムワイド所見位置およびサイズ分布
合計80試料が、第21、18および13染色体以外の常染色体の異数性についてスクリーニング陽性と報告された。第16染色体(15症例)、第7染色体(11症例)および第3染色体(10症例)が最も多く影響を受けた。45以外の、Xは、モノソミーが報告されず、第5、6、17および19染色体についてトリソミーが報告されなかった。
第21、18および13染色体が関与するトリソミーは、最も頻繁に非モザイクであるが、他のほとんどの常染色体異数性は、モザイク症と関連する、および/または胎盤に限局される可能性がより高い。絨毛膜絨毛検査(CVS)およびcfDNA両試験の限界は、それらは、胎盤の遺伝子構成が胎仔のものと同一であると仮定することが多いが、稀な場合に、限局された胎盤モザイク症(CPM)による可能性がある不一致があるということである。
胎盤モザイク症の可能性を同定するために、2つの独立胎仔フラクション測定値を得、比較した(図7)。第1の測定値、配列決定に基づく胎仔フラクション705(SeqFF;時には、部分特異的胎仔フラクション推定値に従って、ビンベースの胎仔フラクション(BFF)または胎仔フラクションとも呼ばれる)は、異なるゲノム領域に由来する配列決定データに基づく胎仔フラクション推定であり、胎仔の異数性状態とは独立している(実施例4およびKimら(2015年)Prenat Diagn.2015年;35巻(8号):810〜815頁にさらに詳細に記載される)。異数性が検出された場合には、第2の測定値、影響を受けたフラクション(AF)710を適用した。この方法は、その特定の影響を受けた領域の配列カウント数の観察された増加(または喪失)を引き起こすのに必要な影響を受けたDNAのフラクションを算出する。影響を受けた領域中の部分にのみSeqFF算出を適用することによってAF710を算出した。例えば、トリソミー21陽性試料について、ゲノムにわたってSeqFFを使用して第1の胎仔フラクション測定値を生成し、影響を受けた領域中の部分に適用したSeqFFを使用して第2の胎仔フラクション測定値(AF)を生成した。非モザイクトリソミーの場合には、SeqFFおよびAF値は、高度に一致していた。しかし、モザイク胎盤の症例では、AF値は、SeqFF推定値よりも有意に小さく、これは、すべてではない胎盤由来のcfDNAが異数性によって影響を受けたことを示す。このデータセットでは、標準トリソミー21、13および18についてのAF710のSeqFF705に対する平均割合は、1.06(SD=0.27)であり、5%の試料のみが0.54より低い割合を有していた。これらの観察結果は、これらのトリソミーのほとんどが、その全体で胎盤と関与するという考えを支持する。対照的に、その他の常染色体トリソミーについて観察された割合は、二峰性分布を示し、試料の50%より多くが、0.54より小さい割合を示し、これは、これらの場合には、胎盤DNAのフラクションのみが、トリソミーによって影響を受けたことを示した。したがって、全ゲノムについての胎仔フラクション推定値(SeqFF)によって除された、目的の染色体(または領域)において推定された胎仔フラクション相対割合(AF)は、胎盤のモザイク対非モザイク状態の予測を用いて支援される有用な測定基準であった。妊娠後期に、胎盤モザイク症の可能性に気付くことは、モザイク症は胎盤に限局される可能性がより高いので、臨床医にとってますます重要となる可能性がある。結果的に、CPMの臨床上重大な有害作用をモニタリングできる。
第19および17染色体を除くすべての常染色体に関して部分染色体事象が報告された。予測されるコピー数の変動のサイズの解釈を可能にするために、ある特定のアッセイ制約が考慮されなければならない。例えば、このアッセイは、7Mb(G分染法による染色体分析の分解能の通常のレベル)よりも大きいゲノムワイドコピー数増加および喪失を予測するように、高い分析感度を保証し、解釈の課題を最小にするように設計された。臨床的に関連する微小欠失の選択セットと関連する場合、またはより大きな欠失または重複(不均衡転位とともに見られうるような)についての予測と関連する偶発所見として発見された場合にのみ、検査室管理者による詳細な再検討後に、より小さい事象が報告された。推定されたサイズの得られた分布は、より小さいコピー数の変動が、より大きなものよりも一般的であることを示す(図8)。極めて大きいCNVのセットは、染色体の末端を含むことが多い。このデータセットでは、予測された欠失は、予測された重複よりも小さいものである傾向があった(欠失の中央値サイズ=13Mb、重複の中央値サイズ=31Mb)。
その他の所見
5つの症例において、22q11領域中の欠失が、母体起源であると予測された。これらの症例のうち2つは、異常な超音波所見を有していたが、3つは高齢の母体年齢のみを単独リスク指標として有していた。
患者の別のサブセットについて、2つまたはそれより大きい部分染色体のコピー数の変動が予測された。特定の事例では、2つの事象の同時出現は、特に、影響を受けた染色体の末端に位置する場合には、不均衡な転位事象を示す。この関連は、現在、核型が確認された試料の限定されたサブセットに基づいている。これに関連して、リスク指標として個人歴または家族歴を有する試料は、このような複雑な試験所見を示す可能性が3倍より高かった。
結論
ゲノムワイドcfDNAスクリーニングは、分析される領域を制限せず、したがって、事前に疑われていなかったであろう難解な欠失、重複および異数性の検出を可能にする。ゲノムワイドcfDNAスクリーニングのための1つの課題は、いくつかのコピー数の変動についてであり、臨床相関は決定することが困難である。しかし、本明細書において記載される検査室開発試験は、7Mbより大きいCNVに関してのみ報告することによってこの問題を大きく回避し、歴史的に、これは、G分染法による染色体分析核型分析によって報告される目に見える欠失または重複の分解能の下限であった。ゲノム全体のすべての染色体でも陽性所見が観察され、ゲノムワイドスクリーニングの利益を強調した。
5.4%の、全体的なスクリーニング陽性率は、高リスク集団において伝統的なcfDNAスクリーニングについて報告されているもの(2〜3%)と比較しておよそ2倍高かった。これは、ゲノムワイドcfDNA試験は、染色体異常の有病率が、従来の高リスク集団と比較してかなり高い妊娠について優先的に使用されていることを示す。この解釈は、試験指標の分布によって補助される。試験は、伝統的なcfDNA試験における試験指標の分布と比較して、高齢の母体年齢が唯一のリスク指標である女性については、あまり頻繁に発注されず、異常な超音波所見を有する女性についてより頻繁に発注された。すべての陽性所見のおよそ30%は、伝統的なcfDNAスクリーニングを用いた場合には検出可能ではなかったであろう。それらの中に、例えば、不均衡転位を用いて予測され得るような、1つより多い欠失および/または重複を有する多数の試料がある。不均衡転位は直接的に検出されることができないが(cfDNAスクリーニングは、ゲノム材料の過剰提示または提示不足のみ検出し、構造的な染色体異常を検出しない)、それらは、特定のパターンをたどると思われる。末端欠失ならびに末端重複を同時に有する試料が、通常、不均衡転位と関連している。
この実施例は、出生前スクリーニングのためにゲノムワイドcfDNA分析を用いる臨床実験の説明を提供し、大きな臨床コホートにおけるゲノムワイドcfDNA試験の使用に関する情報を提供する。ゲノムワイドcfDNAスクリーニングは、このコホートにおいて見られた臨床的に関連する異常の30%に独特に寄与していた。
(実施例2)
cfDNA試験におけるモザイク症比:不調和な結果を同定するためのツール
出生前cfDNA試験において、不調和な結果の根底をなす原因は、胎盤および胎仔の遺伝子構成間の相違である。胎盤に限定された染色体異常は、モザイクであることが多く、胎盤に限局される場合がある。これらの場合には、母体血漿中のすべての無細胞DNAが影響を受けるわけではない。影響を受けたcfDNAと総cfDNAのモザイク症比(MR)を算出することができる。この実施例におけるレトロスペクティブ研究は、モザイク症(mosaicsm)比を使用して、限局された胎盤モザイク症(CPM)のために不調和な陽性結果のより高い機会を有する患者をプロスペクティブに同定できることを示す。
研究デザイン
Sequenom Laboratories(登録商標)のNIPTを用いてトリソミー21/18/13について陽性とスクリーニングされた3,373試料のコホートを、不調和な結果に対するすべての利用可能な臨機応変の臨床フィードバックを使用して分析した。モザイク症比(MR)を、正倍数体染色体のみについて推定された胎仔フラクション(AF)を、すべての染色体について推定された胎仔フラクション(SeqFF)で除することによって生成した。これらの比を次いで、不調和な臨床フィードバックに対して比較し、分析した。
結果
トリソミー13、18および21についてのすべての報告された陽性にわたるMRの分析は、トリソミー13を有するモザイク結果の可能性の頻度における相違を示し、モザイクである最大の可能性、トリソミー21は最低であることを示す。すべての染色体において、MRは、不調和な結果と反比例する。この試験されたコホートにおいて、陽性予測値(PPV)は、MR≧0.7での>99%から、0.1のMRでの73%の低さまで低下した。図9は、cfDNA陽性異数性結果についてのモザイク症比を示す。多量の試料は、.71〜1.3のモザイク症比あたりであり、従って、試料は、モザイクを考慮されないであろう。図10は、モザイク症比の関数として矛盾した結果を示す。図11は、陽性予測値に対するモザイク症比の影響を示す。0.1〜0.7で不調和な結果の増大があり、モザイクトロホブラストおよび影響を受けない胎仔を反映する。図12は、予測された事象の詳細なコメントおよびイデオグラムを含む、MaterniT(登録商標)GENOME報告書の部分を示す。
結論
出生前管理は、別個の事象ではなく、患者の40週連続するケアである。したがって、妊娠を通じて集められた各データ点は、臨床医が、入手可能なすべての情報をコンテキスト化することを可能にする、かなり臨床上関連する情報を臨床医に提供するはずである。この実施例は、陽性cfDNAスクリーニング結果をより良好に解釈するために医療提供者がモザイク症比を使用できることを示す。
種々のモザイク症比を示す事例を、以下の表1に示す。
(実施例3)
パリスター・キリアンモザイク症候群のNIPT検出
伝統的な非侵襲性出生前試験(NIPT)は、一般的な異数性についての価値あるスクリーニングツールである。MaterniT(登録商標)GENOMEを用いると、さらなる細胞遺伝学的異常の非侵襲性検出が可能である。パリスター・キリアンモザイク症候群は、過剰な同腕染色体12p、i(12p)の存在を独特に特徴とする。パリスター・キリアンモザイク症候群の組織特異性および臨床可変性が、診断を困難なものにしうる。この実施例では、i(12p)の3つの症例およびそのNIPT結果が記載されている。
方法
MaterniT(登録商標)GENOMEのためにSequenom Laboratories(登録商標)に提出された母体血液試料を、Jensenら(2013年) PLoS One 8巻(3号):e57381によって記載されたように、DNA抽出、ライブラリー調製および全ゲノム超並列配列決定に付した。Lefkowitzら(2016年) Am. J. Obstet. Gynecol. 215巻:227頁によって記載されたように、トリソミーおよび部分染色体事象ならびに7Mbおよびそれより大きいゲノムワイド事象を検出するために、新規のアルゴリズムを使用して配列決定データを分析した。
症例
症例A:指標:先天性横隔膜ヘルニア。図13中のイデオグラムに示されるような、MaterniT(登録商標)GENOME結果:34.3Mb増加12(p11.1〜p13.33)。胎仔フラクション(SeqFF)を、観察された事象のフラクション(AF)に対して比較することによって確立された、12pについての40%モザイク症(20% i(12p))を示唆する。羊水穿刺核型によって、パリスター・キリアンモザイク症候群と一致する80%モザイクi(12p)が確認された。
症例B:指標:AMA;6mm NT。図12中のイデオグラムに示されるようなMaterniT(登録商標)GENOME結果:33.9Mb増加12(p11.1−p13.33)。胎仔フラクション(SeqFF)を、観察された事象のフラクション(AF)に対して比較することによって確立された、12pについての65%モザイク症(32.5% i(12p))を示唆する。羊水穿刺核型およびマイクロアレイによって、パリスター・キリアンモザイク症候群と一致する75%モザイクi(12p)が確認された。
症例C:指標:先天性横隔膜ヘルニア、内反足、後頸部の肥厚、襞の増加。図15および図16中のイデオグラムに示されるような、MaterniT(登録商標)GENOME結果:34.30Mb増加12(p11.1〜p13.33)。胎仔フラクション(SeqFF)を、観察された事象のフラクション(AF)に対して比較することによって確立された、12pについての64%モザイク症(32% i(12p))を示唆する。羊水穿刺核型およびマイクロアレイによって、パリスター・キリアンモザイク症候群と一致する80%モザイクi(12p)が確認された。
結論
MaterniT(登録商標)GENOMEは、i(12p)を示唆し得る12pの増加を含む>7Mbの難解な異常を報告するために独特に位置付けられている。新規同腕染色体は、母体減数分裂エラーとその後のi(12p)保持または喪失に起因して、高齢の母体年齢妊娠においてより一般的に観察される。モザイク症は高度に可変性であり、組織依存性であり得るので、症候群のモザイク性によって、スクリーニングおよび診断試験の両方に課題が提起される。胎盤(トロホブラスト)ゲノムを見るNIPTの能力は、新規i(12p)異常の早期形成を捕捉しうる。
(実施例4)
ビンベースの胎仔フラクション
この実施例は、配列決定カバレッジデータを使用して母体血液試料において循環型無細胞胎仔DNAの量を定量化する方法を実証する。この技術は、ビンベースの胎仔フラクション(BFF)、配列決定に基づく胎仔フラクション(SeqFF)または母体血液試料中の胎仔DNAのフラクションを定量化するために配列決定カバレッジマップを使用する部分特異的胎仔フラクション推定値に従う胎仔フラクションのような、本明細書において記載される方法を包含する。方法は、機械学習法を利用して、配列決定カバレッジを胎仔フラクションに関連付けるモデルを構築する。
BFF法の第1のステップは、ゲノムカバレッジデータを得ることであった。ゲノムカバレッジデータは、配列決定のランおよびアラインメントから得られた。このカバレッジデータは、次いで、胎仔フラクションについての予測因子として役立った。カバレッジ予測因子変数は、これらに限定されないが、別個のゲノムビン、可変サイズのビンまたはスムージングされたカバレッジマップのポイントベースビューを含む任意の適した方法によって生成できる。
BFF法の第2のステップは、カバレッジデータ予測因子(例えば、パラメータ)から胎仔フラクションを推定するためにモデルをトレーニングすることであった。この実施例では、一般的な多重回帰モデルを、簡単な最小二乗を使用してトレーニングして、特定のビンの既知比例的配列決定レベルから胎仔フラクションを直接的に推定した。このアプローチは、多変量多重回帰モデルに拡大して、胎仔フラクションと比例していると知られているビン(それから胎仔フラクションが順に導かれうる)を予測できる。同様に、ビンが相関している場合には、相関している応答を説明するために多変量応答モデルをトレーニングしてもよい。以下は、その最も簡単な形態である実施例である。
以下で式1として、多重回帰モデルを選択した;
[式中、Xbinは、ビンカウント数のm×pマトリックスであり、yffは、トレーニング試料のm数および予測因子ビンのp数のm×1ベクターであり、εは、期待値E(ε)=0を有するノイズベクターであり、ここで、共分散Cov(ε)=σI(式中、Iは単位マトリックスである(すなわち、誤差は等分散性である))およびランク(Xbin)<p]。ベクターyffは、胎仔フラクションに比例すると知られているレベルを有するビンに対応していた。
一般性を喪失せずに、Xbinはその平均によって中心とすると仮定した。したがってβ、回帰係数のp×1ベクターは、
として
の正規式を解くことから推定できる。
多変量多重応答モデルへの拡大は、これまでのモデルを、多重応答変数を有するように、またはサイズm×nのマトリックスYff(式中、nは、胎仔フラクションに比例するレベルを有するいくつかの異なるビンである)として簡単に拡大した。したがって、モデルは、
[式中、Eは、複数のモデルに対する平行仮定を有するノイズマトリックスである]。係数Bのマトリックスは、
[式中、
は、p×nマトリックスである]
において
について解くことによって推定できる。
ランク rank(Xbin)<pである場合には、次いで、多重共線性を説明するために問題を任意数の適した回帰モデルに分解してもよい。これに加えて、低減したランクの
の推定量も見出され、その結果、
であり、多変量応答内の相関の可能性が説明される。得られた推定量を、適した方法によって平均化し、一緒に重み付けすることができる。
BFFアプローチは、この回帰法に制限されない。推定を改善するために、これらに限定されないが、その他の多重回帰法、多変量応答回帰、決定木、サポート−ベクターマシンおよびニューラルネットワークを含む多数の適した機械学習法を使用できる。仮定を緩め、すべての関連ビンをモデルに組み込むことができるように高次推定を提供することができる方法もある。このような推定量の限定されない例として、予測力を改善するとわかっている、Reduced−Rank、LASSO、Weighted Rank選択判定基準(WRSC)、Rank選択判定基準(RSC)およびElastic Net推定量などの制約ベースのものがある。
胎仔フラクション予測はまた、ゲノムカバレッジ偏りの測定およびパイプラインへの組込みによっても改善された。これらの偏りは、これらに限定されないが、GC含量、DNase1過敏性、マッピング可能性およびクロマチン構造を含むいくつかの供給源からくることがある。このようなプロファイルは、試料ベースごとに定量化して、ゲノムカバレッジデータを調整するために使用でき、または胎仔フラクションモデルに予測因子もしくは制約として追加できる。
例えば、多重回帰アプローチを、胎仔フラクション(ChrFF)の真の値としてすべてのビンにわたる染色体Yカバレッジの相対レベルを使用して6000の雄の正倍数体試料でトレーニングした。一般的なトリソミーの検出を用いた循環性を防ぐために、モデルを常染色体カバレッジビンのみでトレーニングし、第13、18または21染色体を含まなかった。モデルは、19,312の独立試料からなる試験データで強力な性能を実証した(図17)。
BFFの強力な性能は、胎仔DNAを引きつける傾向があるビンおよび領域によって駆動される。これらの領域は、より高いカバレッジ分散を有する傾向があり、モデルはこの変動を利用する。ブートストラップアプローチを使用して、専ら、高または低胎仔フラクションの表示(FRSに基づいて)を有するビンでトレーニングされたモデルを比較した。より高い胎仔含量を有するビンは、胎仔フラクション(FI.18)のより良好な予測因子であるとわかった。これは、より高い胎仔表示を有するビンで構築されたモデル程、大きな回帰係数を有する傾向があるという知見に対応していた(図19)。
実施例トレーニングセットは雄試料のみを含んでいたが、胎仔フラクションをトリソミー染色体表示を使用して独立に推定できる予測は、雌試料および雄のトリソミー試料の両方で行った。雄および雌試料の胎仔フラクション推定は、全体的な分布において相違を示さなかった(図20)。これは、BFFが一方の性別のもう一方に対して比較された胎仔フラクションを推定するために系統的に偏っていないことを実証する。
(実施例5)モザイクおよび非モザイク解釈
以下の表2は、各染色体について示す、表示の増大または減少についてのモザイク解釈および非モザイク解釈を提示する。
(実施例6)
実施形態の例
本技術の実施形態の限定されない例の一覧を、本明細書の下記において提供する。
A1.生体試料について遺伝子モザイク症の存在または非存在を分類する方法であって、
(a)対象に由来する試料核酸中の遺伝子コピー数の変動領域を同定するステップであって、試料核酸が多量の核酸および少量の核酸を含むステップと、
(b)試料核酸中のコピー数の変動を有する核酸のフラクションを決定するステップと、
(c)試料核酸中の少量の核酸のフラクションを決定するステップと、
(d)(b)のフラクションを(c)のフラクションと比較するステップであって、これにより比較を提供するステップと、
(e)比較に従って、コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップと
を含む、方法。
A2.(b)におけるフラクションが、コピー数の変動領域について決定される、実施形態A1の方法。
A3.(b)におけるフラクションが、配列決定に基づくフラクション推定に従って決定される、実施形態A2の方法。
A4.(b)におけるフラクションが、多型配列の対立遺伝子の比に従って決定される、実施形態A2の方法。
A5.(b)におけるフラクションが、メチル化可変核酸の定量化に従って決定される、実施形態A2の方法。
A6.多量の核酸が母体核酸を含み、少量の核酸が胎仔核酸を含む、実施形態A2の方法。
A7.(b)におけるフラクションが、コピー数の変動領域について決定された胎仔フラクションである、実施形態A6の方法。
A8.(b)における胎仔フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態A7の方法。
A9.(b)における胎仔フラクションが、胎仔核酸および母体核酸における多型配列の対立遺伝子の比に従って決定される、実施形態A7の方法。
A10.(b)における胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、実施形態A7の方法。
A11.(c)におけるフラクションが、コピー数の変動領域よりも大きいゲノム領域について決定される、実施形態A1からA10のいずれか1つの方法。
A12.(c)におけるフラクションが、コピー数の変動領域とは異なっているゲノム領域について決定される、実施形態A1からA11の方法。
A13.(c)におけるフラクションが、配列決定に基づくフラクション推定に従って決定される、実施形態A11またはA12の方法。
A14.(c)におけるフラクションが、多型配列の対立遺伝子の比に従って決定される、実施形態A11またはA12の方法。
A15.(c)におけるフラクションが、メチル化可変核酸の定量化に従って決定される、実施形態A11またはA12の方法。
A16.多量の核酸が母体核酸を含み、少量の核酸が胎仔核酸を含む、実施形態A11またはA12の方法。
A17.(c)におけるフラクションが、コピー数の変動領域よりも大きいゲノム領域について決定される胎仔フラクションである、実施形態A16の方法。
A18.(c)におけるフラクションが、コピー数の変動領域とは異なっているゲノム領域について決定される胎仔フラクションである、実施形態A16の方法。
A19.(c)における胎仔フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態A17またはA18の方法。
A20.(c)における胎仔フラクションが、胎仔核酸および母体核酸における多型配列の対立遺伝子の比に従って決定される、実施形態A17またはA18の方法。
A21.(c)における胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、実施形態A17またはA18の方法。
A22.(c)における胎仔フラクションが、染色体Yアッセイに従って決定される、実施形態A17またはA18の方法。
A23.(b)におけるフラクションおよび(c)におけるフラクションが各々、配列決定に基づくフラクション推定に従って決定される、実施形態A1、A2、A11およびA12のうちいずれか1つの方法。
A24.(b)における胎仔フラクションおよび(c)における胎仔フラクションが各々、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態A7、A17およびA18のいずれか1つの方法。
A25.(b)におけるフラクションが、染色体について決定される、実施形態A1からA24のいずれか1つの方法。
A26.(b)におけるフラクションが、第13染色体、第18染色体または第21染色体について決定される、実施形態A25の方法。
A27.(b)におけるフラクションが、染色体の一部について決定される、実施形態A1からA24のいずれか1つの方法。
A28.(c)におけるフラクションが、(b)におけるフラクションの決定のために使用される染色体またはその一部とは異なっている染色体またはその一部について決定される、実施形態A1からA27のいずれか1つの方法。
A29.(c)におけるフラクションが、複数の染色体について決定される、実施形態A1からA27のいずれか1つの方法。
A30.(c)におけるフラクションが、複数の常染色体について決定される、実施形態A29の方法。
A31.(c)におけるフラクションが、複数の領域について決定される、実施形態A1からA27のいずれか1つの方法。
A32.(c)におけるフラクションが、ゲノムワイドの複数の領域について決定される、実施形態A1からA27のいずれか1つの方法。
A33.(d)において比較することが、比を作成することを含む、実施形態A1からA32のいずれか1つの方法。
A34.比が、(c)のフラクションによって除された(b)のフラクションである、実施形態A33の方法。
A35.比が約0.2〜約0.6の間である場合に、コピー数の変動領域についての遺伝子モザイク症の存在を分類するステップを含む、実施形態A33またはA34の方法。
A36.比が約0.6〜約1.0の間である場合に、コピー数の変動領域についての遺伝子モザイク症の非存在を分類するステップを含む、実施形態A33またはA34の方法。
B1.配列決定に基づく胎仔フラクション推定が、
(i)参照ゲノムの部分に対してマッピングされた配列の読取りのカウント数を得るステップであって、配列の読取りが、対象に由来する試料核酸から得られるステップと、
(ii)各部分と独立に関連する加重係数に従って、各部分にマッピングされた配列の読取りのカウント数を、胎仔核酸の部分特異的フラクションに変換し、これにより、加重係数に従って対象に由来する試料核酸についての部分特異的胎仔フラクション推定値を提供するステップであって、
(1)トレーニングセット中の複数の試料の各々について胎仔核酸のフラクションと、(2)複数の試料についての各部分にマッピングされた配列の読取りのカウント数の間の各部分について適合された関係から、加重係数の各々が決定されているステップと
(iii)部分特異的胎仔フラクション推定値に基づいて、対象に由来する試料核酸についての胎仔核酸のフラクションを推定するステップと
を含む方法に従って得られる、実施形態A8、A19およびA24からA36のいずれか1つの方法。
B2.(iii)における対象に由来する試料核酸について胎仔核酸のフラクションを推定するステップが、部分特異的胎仔フラクション推定値を平均化するステップまたは合計するステップを含む、実施形態B1の方法。
B3.各部分についての加重係数が、複数の試料についての部分に対してマッピングされた胎仔核酸断片に由来する読取りの平均量に比例する、実施形態B1またはB2の方法。
B4.加重係数が、適合された関係から推定された係数である、実施形態B1からB3のいずれか1つの方法。
B5.適合された関係が、最小二乗、通常の最小二乗法、線形回帰、部分回帰、全回帰、一般化回帰、加重回帰、非線形回帰、繰返し加重回帰、リッジ回帰、最小絶対偏差、ベイズ、ベイズ多変量、縮小ランク、LASSO、エラスティックネット推定法およびそれらの組合せから選択される推定によって適合される、実施形態B1からB4のいずれか1つの方法。
B6.(ii)において各部分と独立に関連する加重係数に従って、各部分にマッピングされた配列の読取りのカウント数を、胎仔核酸の部分特異的フラクションに変換するステップが、乗算、除算、加算、減算、積分、記号計算、代数的計算、アルゴリズム、三角関数もしくは幾何関数、変換およびそれらの組合せから選択される数学的操作を適用するステップを含む、実施形態B1からB5のいずれか1つの方法。
B7.(b)におけるフラクションを決定するための部分特異的胎仔フラクション推定値が、コピー数の変動領域中の各部分と独立に関連する加重係数に従って、コピー数の変動領域中の各部分にマッピングされた配列の読取りのカウント数を、胎仔核酸の部分特異的フラクションに変換するステップによって提供される、実施形態B1からB6のいずれか1つの方法。
B8.(c)におけるフラクションを決定するための部分特異的胎仔フラクション推定値が、各部分と独立に関連する加重係数に従って、複数の領域中の各部分にマッピングされた配列の読取りのカウント数を、胎仔核酸の部分特異的フラクションに変換するステップによって提供される、実施形態B1からB7のいずれか1つの方法。
C1.試料核酸が、対象に由来する生体試料に由来する、実施形態A1からB8のいずれか1つの方法。
C2.試料核酸が、循環型無細胞核酸を含む、実施形態A1からC1のいずれか1つの方法。
C3.循環型無細胞核酸が、対象に由来する血漿または血清に由来する、実施形態C2の方法。
C4.少量の核酸が対象におけるある供給源に由来し、多量の核酸が、対象における別の供給源に由来する、実施形態C1からC3のいずれか1つの方法。
C5.対象が雌である、実施形態C1からC4のいずれか1つの方法。
C6.雌が、ヒト女性である、実施形態C5の方法。
C7.雌が、妊娠中の雌である、実施形態C5またはC6の方法。
C8. 試料核酸が、母体核酸および胎仔核酸を含む、実施形態C7の方法。
C9.多量の核酸が母体核酸を含み、少量の核酸が胎仔核酸を含む、実施形態C8の方法。
C10.対象が雄である、実施形態C1からC4のいずれか1つの方法。
C11.対象がヒト男性である、実施形態C10の方法。
C12.試料核酸が、対象核酸およびがん核酸を含む、実施形態C1からC11の方法。
C13.多量の核酸が対象核酸を含み、少量の核酸ががん核酸を含む、実施形態C1からC12のいずれか1つの方法。
D1.遺伝子コピー数の変動領域が、参照ゲノムの部分にマッピングされた配列の読取りの定量化に従って同定され、配列の読取りが、対象に由来する試料核酸について得られる、実施形態A1からC13のいずれか1つの方法。
D2.部分が、固定された長さのものである、実施形態D1の方法。
D3.部分が、等しい長さのものである、実施形態D2の方法。
D4.部分が、約50キロベースの長さである、実施形態D3の方法。
D5.部分のうち少なくとも2つが等しくない長さのものである、実施形態D1またはD2の方法。
D6.部分が重複しない、実施形態D1からD5のいずれか1つの方法。
D7.部分の3’末端が、隣接する部分の5’末端に隣接する、実施形態D6の方法。
D8.部分のうち少なくとも2つがオーバーラップする、実施形態D1からD5のいずれか1つの方法。
D9.配列決定プロセスによって試料核酸から配列の読取りを生成するステップを含む、実施形態D1からD8のいずれか1つの方法。
D10.配列決定プロセスが、ゲノムワイド配列決定プロセスである、実施形態D9の方法。
D11.配列決定プロセスが、合成による配列決定を含む、実施形態D9またはD10の方法。
D12.配列の読取りを得、参照ゲノムの部分に配列の読取りをマッピングし、これにより、部分にマッピングされた配列の読取りを提供するステップを含む、実施形態D1からD11のいずれか1つの方法。
D13.部分にマッピングされた配列の読取りを得、部分の各々にマッピングされた配列の読取りを定量化し、これにより、部分にマッピングされた配列の読取りの定量化を生成するステップを含む、実施形態D1からD12のいずれか1つの方法。
D14.参照ゲノムの部分にマッピングされた配列の読取りの定量化が、カウント数または読取り密度である、実施形態D1からD13のいずれか1つの方法。
D15.参照ゲノムの部分にマッピングされた配列の読取りの定量化が、正規化された定量化である、実施形態D1からD14のいずれか1つの方法。
D16.部分にマッピングされた配列の読取りの定量化を正規化し、これにより、部分にマッピングされた配列の読取りの正規化された定量化を生成するステップを含む、実施形態D1からD15のいずれか1つの方法。
D17.正規化が、グアニン−シトシン(GC)正規化プロセスを含む、実施形態D16の方法。
D18.GC正規化プロセスが、LOESS、GCRMまたはそれらの組合せを含む、実施形態D17の方法。
D19.正規化ステップが、試料のトレーニングセットに由来する主成分部分重みによって、部分にマッピングされた、配列の読取りの定量化または配列の読取りの正規化された定量化を調整し、これにより、部分にマッピングされた配列の読取りの調整された定量化を生成するステップを含む、実施形態D16からD18のいずれか1つの方法。
D20.正規化または調整の前に、またはその後に、ある特定の部分がフィルタリングされる、実施形態D16からD19のいずれか1つの方法。
D21.フィルタリングが、マッピング可能性、反復マスキングまたはそれらの組合せに基づく、実施形態D20の方法。
D22.フィルタリングが、複数の参照試料にわたって部分にマッピングされた配列の読取りの定量化の変動、複数の参照試料にわたって部分にマッピングされた読取りが一貫してないこと、またはそれらの組合せに基づく、実施形態D21の方法。
D23.遺伝子コピー数の変動領域におけるコピー数の変動がトリソミーである、実施形態A1からD22のいずれか1つの方法。
D24.遺伝子コピー数の変動領域におけるコピー数の変動が、第13染色体、第18染色体または第21染色体のトリソミーである、実施形態A1からD23のいずれか1つの方法。
D25.遺伝子コピー数の変動領域におけるコピー数の変動が、モノソミーである、実施形態A1からD22のいずれか1つの方法。
D26.遺伝子コピー数の変動領域におけるコピー数の変動が、微小重複または微小欠失である、実施形態A1からD22のいずれか1つの方法。
D27.実施形態A1の(a)、(b)、(c)および/または(d)が、コンピュータによって実施される、実施形態A1からD26のいずれか1つの方法。
D28.実施形態A1の(a)、(b)、(c)および/または(d)が、コンピュータにおいて1つまたは複数のプロセッサによって実施される、実施形態D27の方法。
D29.実施形態A1の(a)、(b)、(c)および/または(d)が、メモリに記憶されたインストラクションに従って実施され、コンピュータによって実施される、実施形態D27またはD28の方法。
E1.1つまたは複数のプロセッサおよびメモリを含むシステムであって、メモリが、1つまたは複数のプロセッサによって実行可能なインストラクションを含み、1つまたは複数のプロセッサによって実行可能なインストラクションが、実施形態A1からD29のいずれか1つの方法を実施するように構成される、システム。
E2.1つまたは複数のプロセッサおよびメモリを含む機械であって、メモリが、1つまたは複数のプロセッサによって実行可能なインストラクションを含み、1つまたは複数のプロセッサによって実行可能なインストラクションが、実施形態A1からD29のいずれか1つの方法を実施するように構成される、機械。
E3.コンピュータ可読記憶媒体中のコンピュータプログラム製品であって、コンピュータが実施形態A1からD29のいずれか1つの方法を実施するためのプログラム化インストラクションを含む、製品。
F1.妊娠中の雌の対象に由来する循環型無細胞核酸の遺伝子スクリーニング試験における遺伝子モザイク症の程度を評価する方法であって、(a)循環型無細胞核酸の遺伝子スクリーニング試験からデータを得るステップであって、データがコピー数の変動を含む循環型無細胞核酸内の遺伝子コピー数の変動領域を同定し、循環型無細胞核酸が、母体核酸および胎仔核酸を含むステップと、(b)データを使用する演算デバイスによって、循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションを定量化するステップと、(c)データを使用する演算デバイスによって、循環型無細胞核酸中の胎仔核酸のフラクションを定量化するステップと、(d)演算デバイスによって、循環型無細胞核酸中のコピー数の変動を有する核酸のフラクションを、循環型無細胞核酸中の胎仔核酸のフラクションに対して比較するステップであって、これにより、比較を提供し、モザイク症比を生成するステップと、(e)演算デバイスによって、比較およびモザイク症比に従ってコピー数の変動領域について遺伝子モザイク症を分類するステップとを含み、モザイク症比が約0.2〜約0.7の間である場合に、コピー数の変動領域について遺伝子モザイク症の存在が分類され、比が約0.7より大きい場合に、コピー数の変動領域について遺伝子モザイク症の非存在が分類され、比が約0.2未満である場合に、分類なしが提供される、方法。
F2.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される、実施形態F1に記載の方法。
F3.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、配列決定に基づくフラクション推定に従って決定される、実施形態F1またはF2に記載の方法。
F4.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、多型配列の対立遺伝子の比に従って決定される、実施形態F1またはF2に記載の方法。
F5.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、メチル化可変核酸の定量化に従って決定される、実施形態F1またはF2に記載の方法。
F6.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される胎仔フラクションである、実施形態F1に記載の方法。
F7.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態F6に記載の方法。
F8.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、実施形態F6に記載の方法。
F9.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、実施形態F6に記載の方法。
F10.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記コピー数の変動領域よりも大きいゲノム領域について決定される、実施形態F1に記載の方法。
F11.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記コピー数の変動領域とは異なるゲノム領域について決定される、実施形態F1に記載の方法。
F12.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態F1、F10またはF11に記載の方法。
F13.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、実施形態F1、F10またはF11に記載の方法。
F14.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、実施形態F1、F10またはF11に記載の方法。
F15.前記モザイク症比が、前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションによって除された、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションである、実施形態F1に記載の方法。
F16.遺伝子スクリーニング試験が、妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料において1つまたは複数の異数性の存在についての非侵襲性出生前試験(NIPT)であり、データが1つまたは複数の異数性の存在についての陽性スクリーニング結果を含んでいた、実施形態F1の方法。
F17.演算システムによって、分類なしが提供され、モザイク症比が約0.2未満である場合に、NIPTからの陽性スクリーニング結果を1つまたは複数の異数性の陰性結果または非存在として解釈することを提供するステップをさらに含む、実施形態F1の方法。
F18.演算システムによって、コピー数の変動領域について遺伝子モザイク症の非存在が分類され、モザイク症比が約1.3より大きい場合に、NIPTからの陽性スクリーニング結果を過剰または不確定として解釈することを提供するステップをさらに含む、実施形態F1の方法。
F19.演算システムによって、コピー数の変動領域について遺伝子モザイク症の存在が分類される場合に、NIPTからの陽性スクリーニング結果を、モザイク提示の可能性に関するコメントを有する陽性として解釈することを提供するステップをさらに含む、実施形態F1の方法。
F20.演算システムによって、コピー数の変動領域について遺伝子モザイク症の非存在が分類され、モザイク症比が約1.3未満である場合に、NIPTからの陽性スクリーニング結果を陽性として解釈することを提供するステップをさらに含む、実施形態F1の方法。
F21.1つまたは複数のプロセッサおよびメモリを含むシステムであって、メモリが、1つまたは複数のプロセッサによって実行可能なインストラクションを含み、1つまたは複数のプロセッサによって実行可能なインストラクションが、実施形態F1からF20のいずれか1つの方法を実施するように構成される、システム。
F22.1つまたは複数のプロセッサおよびメモリを含む機械であって、メモリが、1つまたは複数のプロセッサによって実行可能なインストラクションを含み、1つまたは複数のプロセッサによって実行可能なインストラクションが、実施形態F1からF20のいずれか1つの方法を実施するように構成される、機械。
F23.コンピュータ可読記憶媒体中のコンピュータプログラム製品であって、コンピュータが実施形態F1からF20のいずれか1つの方法を実施するためのプログラム化インストラクションを含む、製品。
G1.生体試料について遺伝子モザイク症の存在または非存在を分類する方法であって、演算デバイスによって、妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料において遺伝子コピー数の変動領域を同定するステップであって、前記遺伝子コピー数の変動領域がコピー数の変動を含み、前記循環型無細胞核酸が母体核酸および胎仔核酸を含むステップと、前記演算デバイスによって、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸のフラクションを決定するステップと、前記演算デバイスによって、前記循環型無細胞核酸中の前記胎仔核酸のフラクションを決定するステップと、前記演算デバイスによって、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションを、前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションと比較するステップであって、これにより、比較を提供し、モザイク症比を生成するステップと、前記演算デバイスによって、前記比較および前記モザイク症比に従って前記コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップとを含み、前記モザイク症比が約0.2〜約0.7の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類され、前記比が約0.71〜約1.3の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される、方法。
G2.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される、実施形態G1に記載の方法。
G3.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、配列決定に基づくフラクション推定に従って決定される、実施形態G1またはG2に記載の方法。
G4.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、多型配列の対立遺伝子の比に従って決定される、実施形態G1またはG2に記載の方法。
G5.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、メチル化可変核酸の定量化に従って決定される、実施形態G1またはG2に記載の方法。
G6.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される胎仔フラクションである、実施形態G1に記載の方法。
G7.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態G6に記載の方法。
G8.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、実施形態G6に記載の方法。
G9.前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、実施形態G6に記載の方法。
G10.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記コピー数の変動領域よりも大きいゲノム領域について決定される、実施形態G1に記載の方法。
G11.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記コピー数の変動領域とは異なるゲノム領域について決定される、実施形態G1に記載の方法。
G12.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、実施形態G1、G10またはG11に記載の方法。
G13.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、実施形態G1、G10またはG11に記載の方法。
G14.前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、実施形態G1、G10またはG11に記載の方法。
G15.前記モザイク症比が、前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションによって除された、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションである、実施形態G1に記載の方法。
G16.前記演算システムによって、前記モザイク症比が最小閾値未満である場合に、分類なしを提供するステップをさらに含む、実施形態G1またはG15に記載の方法。
G17.前記最小閾値が約0.2である、実施形態G16に記載の方法。
G18.前記演算システムによって、前記モザイク症比が最大閾値より大きい場合に、分類なしを提供するステップをさらに含む、実施形態G1またはG15に記載の方法。
G19.最大閾値が、約1.3である、実施形態G16に記載の方法。
G20.前記演算システムによって、前記妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料における1つまたは複数の異数性の存在についての、非侵襲性出生前試験(NIPT)からの陽性スクリーニング結果を得るステップをさらに含む、実施形態G1、G16、G17、G18またはG19に記載の方法。
G21.前記演算システムによって、分類なしが提供され、前記モザイク症比が前記最小閾値未満である場合に、前記NIPTからの前記陽性スクリーニング結果を前記1つまたは複数の異数性の陰性結果または非存在として解釈することを提供するステップをさらに含む、実施形態G20に記載の方法。
G22.前記演算システムによって、分類なしが提供され、前記モザイク症比が前記最大閾値よりも大きい場合に、前記NIPTからの前記陽性スクリーニング結果を過剰または不確定として解釈することを提供するステップをさらに含む、実施形態G20に記載の方法。
G23.前記演算システムによって、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類される場合に、前記NIPTからの前記陽性スクリーニング結果を、モザイク提示の可能性に関するコメントを有する陽性として解釈することを提供するステップをさらに含む、実施形態G20に記載の方法。
G24.前記演算システムによって、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される場合に、前記NIPTからの前記陽性スクリーニング結果を陽性として解釈することを提供するステップをさらに含む、実施形態20に記載の方法。
G25.1つまたは複数のプロセッサおよびメモリを含むシステムであって、メモリが、1つまたは複数のプロセッサによって実行可能なインストラクションを含み、1つまたは複数のプロセッサによって実行可能なインストラクションが、実施形態G1からG24のいずれか1つの方法を実施するように構成される、システム。
G26.1つまたは複数のプロセッサおよびメモリを含む機械であって、メモリが、1つまたは複数のプロセッサによって実行可能なインストラクションを含み、1つまたは複数のプロセッサによって実行可能なインストラクションが、実施形態G1からG24のいずれか1つの方法を実施するように構成される、機械。
G27.コンピュータ可読記憶媒体中のコンピュータプログラム製品であって、コンピュータが実施形態G1からG24のいずれか1つの方法を実施するためのプログラム化インストラクションを含む、製品。
本明細書において参照される特許、特許出願、出版物、および文書それぞれについて、その全体を、本明細書により参照によって援用する。上記特許、特許出願、出版物、および文書を引用は、上記資料のいずれかが、関連する先行技術であることを承認するものではなく、またこれらの出版物または文書の内容または日付に関して何らかの承認となるものでもない。それらの引例は、関連する開示内容の検索を示すものではない。文書の日付(複数可)または内容に関するすべての記述は、入手可能な情報に基づいており、その正確性または精度に関する承認ではない。
本技術の基本的な態様から逸脱せずに、上記について修正を行うことができる。本技術は、1つまたは複数の特定の実施形態を参照しながら、かなり詳細に記載されており、当業者は、本出願で具体的に開示されている実施形態に変更を行うことが可能であると認識するであろうが、これらの修正および改良は、依然として本技術の範囲および精神内である。
本明細書に実例として記載する本技術は、本明細書に特に開示されないエレメント(複数可)のいずれかが存在しなくても好適に実践可能である。したがって、例えば、本明細書の各事例において、用語「を含む(comprising)」、「本質的に〜からなる(consisting essentially of)」、および「からなる(consisting of)」のいずれも、他方の2つの用語と置き換え可能である。採用された用語および語句は、制限ではなく説明の用語として使用され、またかかる用語および語句の使用が、示され記載された特性、またはその部分と等価なものをいずれも除外するものではなく、様々な修正が、特許請求された技術の範囲内で可能である。用語「方法」および「プロセス」は本明細書において互換可能に使用される。用語「1つの(a)」または「1つの(an)」は、エレメントのうちの1つ、またはエレメントのうちの1つ超が記載されていることが文脈上明白でない限り、それが修飾する1つまたは複数のエレメントを指し得る(例えば、「試薬(a reagent)」は、1つまたは複数の試薬を意味し得る)。用語「約(about)」は、本明細書で使用する場合、基礎となるパラメータの10%以内の値を指す(すなわち、プラスまたはマイナス10%)、および連なった値の最初で用語「約」を使用する場合、その用語は値のそれぞれを修飾する(すなわち、「約1、2、および3」は、約1、約2、および約3を指す)。例えば、「約100グラム」の重量は、90グラム〜110グラムの間の重量を含み得る。さらに、値の列挙が本明細書に記載される場合(例えば、約50%、60%、70%、80%、85%、または86%)、列挙には、全ての中間の値およびその分数の値(例えば、54%、85.4%)が含まれる。したがって、本技術は、代表的な実施形態および任意選択的な特性により具体的に開示されているものの、本明細書で開示する概念の修正および変更は当業者により実施可能であると理解すべきであり、かかる修正および変更は本技術の範囲内とみなされる。
本技術のある特定の実施形態を、後続する特許請求の範囲に記載する。

Claims (49)

  1. 生体試料について遺伝子モザイク症の存在または非存在を分類する方法であって、
    演算デバイスによって、妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料において遺伝子コピー数の変動領域を同定するステップであって、前記遺伝子コピー数の変動領域がコピー数の変動を含み、前記循環型無細胞核酸が母体核酸および胎仔核酸を含むステップと、
    前記演算デバイスによって、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸のフラクションを決定するステップと、
    前記演算デバイスによって、前記循環型無細胞核酸中の前記胎仔核酸のフラクションを決定するステップと、
    前記演算デバイスによって、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションを、前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションと比較するステップであって、これにより、比較を提供し、モザイク症比を生成するステップと、
    前記演算デバイスによって、前記比較および前記モザイク症比に従って前記コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップと
    を含み、
    前記モザイク症比が約0.2〜約0.7の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類され、前記比が約0.71〜約1.3の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される、方法。
  2. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される、請求項1に記載の方法。
  3. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、配列決定に基づくフラクション推定に従って決定される、請求項1または2に記載の方法。
  4. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、多型配列の対立遺伝子の比に従って決定される、請求項1または2に記載の方法。
  5. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、メチル化可変核酸の定量化に従って決定される、請求項1または2に記載の方法。
  6. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される胎仔フラクションである、請求項1に記載の方法。
  7. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、請求項6に記載の方法。
  8. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、請求項6に記載の方法。
  9. 前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、請求項6に記載の方法。
  10. 前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記コピー数の変動領域よりも大きいゲノム領域について決定される、請求項1に記載の方法。
  11. 前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記コピー数の変動領域とは異なるゲノム領域について決定される、請求項1に記載の方法。
  12. 前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、請求項1、10または11に記載の方法。
  13. 前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、請求項1、10または11に記載の方法。
  14. 前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、請求項1、10または11に記載の方法。
  15. 前記モザイク症比が、前記循環型無細胞核酸中の前記胎仔核酸の前記フラクションによって除された、前記循環型無細胞核酸中の前記コピー数の変動を有する核酸の前記フラクションである、請求項1に記載の方法。
  16. 前記演算システムによって、前記モザイク症比が最小閾値未満である場合に、分類なしを提供するステップをさらに含む、請求項1または15に記載の方法。
  17. 前記最小閾値が約0.2である、請求項16に記載の方法。
  18. 前記演算システムによって、前記モザイク症比が最大閾値より大きい場合に、分類なしを提供するステップをさらに含む、請求項1または15に記載の方法。
  19. 最大閾値が、約1.3である、請求項16に記載の方法。
  20. 前記演算システムによって、前記妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料における1つまたは複数の異数性の存在についての、非侵襲性出生前試験(NIPT)からの陽性スクリーニング結果を得るステップをさらに含む、請求項1、16、17、18または19に記載の方法。
  21. 前記演算システムによって、分類なしが提供され、前記モザイク症比が前記最小閾値未満である場合に、前記NIPTからの前記陽性スクリーニング結果を前記1つまたは複数の異数性の陰性結果または非存在として解釈することを提供するステップをさらに含む、請求項20に記載の方法。
  22. 前記演算システムによって、分類なしが提供され、前記モザイク症比が前記最大閾値よりも大きい場合に、前記NIPTからの前記陽性スクリーニング結果を過剰または不確定として解釈することを提供するステップをさらに含む、請求項20に記載の方法。
  23. 前記演算システムによって、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類される場合に、前記NIPTからの前記陽性スクリーニング結果を、モザイク提示の可能性に関するコメントを有する陽性として解釈することを提供するステップをさらに含む、請求項20に記載の方法。
  24. 前記演算システムによって、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される場合に、前記NIPTからの前記陽性スクリーニング結果を陽性として解釈することを提供するステップをさらに含む、請求項20に記載の方法。
  25. 試験試料についてコピー数の変更の存在または非存在を分類するシステムであって、
    1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサに連結されたメモリであって、
    対象に由来する試料核酸中の遺伝子コピー数の変動領域を同定するステップであって、前記試料核酸が多量の核酸および少量の核酸を含むステップと、
    前記試料核酸中の前記コピー数の変動を有する核酸のフラクションを決定するステップと、
    前記試料核酸中の前記少量の核酸のフラクションを決定するステップと、
    前記試料核酸中の前記コピー数の変動を有する核酸の前記フラクションを、前記試料核酸中の前記少量の核酸の前記フラクションと比較するステップであって、これにより、比較を提供し、モザイク症比を生成するステップと、
    前記比較および前記モザイク症比に従って前記コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップと
    を含むプロセスを実施するように構成されたインストラクションのセットを用いてコード化されたメモリと
    を含み、
    前記モザイク症比が約0.2〜約0.7の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類され、前記比が約0.71〜約1.3の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される、システム。
  26. 前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される、請求項25に記載のシステム。
  27. 前記コピー数の変動を有する核酸の前記フラクションが、配列決定に基づくフラクション推定に従って決定される、請求項25または26に記載のシステム。
  28. 前記コピー数の変動を有する核酸の前記フラクションが、多型配列の対立遺伝子の比に従って決定される、請求項25または26に記載のシステム。
  29. 前記コピー数の変動を有する核酸の前記フラクションが、メチル化可変核酸の定量化に従って決定される、請求項25または26に記載のシステム。
  30. 前記コピー数の変動を有する核酸の前記フラクションが、前記コピー数の変動領域について決定される胎仔フラクションである、請求項25に記載のシステム。
  31. 前記コピー数の変動を有する核酸の前記胎仔フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、請求項30に記載のシステム。
  32. 前記コピー数の変動を有する核酸の前記胎仔フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、請求項30に記載のシステム。
  33. 前記コピー数の変動を有する核酸の前記胎仔フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、請求項30に記載のシステム。
  34. 前記少量の核酸の前記フラクションが、前記コピー数の変動領域よりも大きいゲノム領域について決定される、請求項25に記載のシステム。
  35. 前記少量の核酸の前記フラクションが、前記コピー数の変動領域とは異なるゲノム領域について決定される、請求項25に記載のシステム。
  36. 前記少量の核酸の前記フラクションが、配列決定に基づく胎仔フラクション推定に従って決定される、請求項25、34または35に記載のシステム。
  37. 前記少量の核酸の前記フラクションが、前記胎仔核酸および前記母体核酸における多型配列の対立遺伝子の比に従って決定される、請求項25、34または35に記載のシステム。
  38. 前記少量の核酸の前記フラクションが、メチル化可変胎仔および母体核酸の定量化に従って決定される、請求項25、34または35に記載のシステム。
  39. 前記モザイク症比が、前記試料核酸中の前記少量の核酸の前記フラクションによって除された、前記試料核酸中の前記コピー数の変動を有する核酸の前記フラクションである、請求項25に記載のシステム。
  40. 前記プロセスが、前記モザイク症比が最小閾値未満である場合に、分類なしを提供するステップをさらに含む、請求項25または39に記載のシステム。
  41. 前記最小閾値が約0.2である、請求項40に記載のシステム。
  42. 前記プロセスが、前記モザイク症比が最大閾値を上回る場合に、分類なしを提供するステップをさらに含む、請求項25または39に記載のシステム。
  43. 最大閾値が、約1.3である、請求項42に記載のシステム。
  44. 前記プロセスが、前記妊娠中の雌の対象に由来する循環型無細胞核酸を含む試料における1つまたは複数の異数性の存在についての、非侵襲性出生前試験(NIPT)からの陽性スクリーニング結果を得るステップをさらに含む、請求項25、40、41、42または43に記載のシステム。
  45. 前記プロセスが、分類なしが提供され、前記モザイク症比が前記最小閾値未満である場合に、前記NIPTからの前記陽性スクリーニング結果を前記1つまたは複数の異数性の陰性結果または非存在として解釈することを提供するステップをさらに含む、請求項44に記載のシステム。
  46. 前記プロセスが、分類なしが提供され、前記モザイク症比が前記最大閾値よりも大きい場合に、前記NIPTからの前記陽性スクリーニング結果を過剰または不確定として解釈することを提供するステップをさらに含む、請求項44に記載のシステム。
  47. 前記プロセスが、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類される場合に、前記NIPTからの前記陽性スクリーニング結果を、モザイク提示の可能性に関するコメントを有する陽性として解釈することを提供するステップをさらに含む、請求項44に記載のシステム。
  48. 前記プロセスが、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される場合に、前記NIPTからの前記陽性スクリーニング結果を陽性として解釈することを提供するステップをさらに含む、請求項44に記載のシステム。
  49. 指示を記憶した非一時的なコンピュータ可読記憶媒体であって、演算システムの1つまたは複数のプロセッサによって実行された場合、前記演算システムに
    対象に由来する試料核酸中の遺伝子コピー数の変動領域を同定するステップであって、前記試料核酸が多量の核酸および少量の核酸を含むステップと、
    前記試料核酸中の前記コピー数の変動を有する核酸のフラクションを決定するステップと、
    前記試料核酸中の前記少量の核酸のフラクションを決定するステップと、
    前記試料核酸中の前記コピー数の変動を有する核酸の前記フラクションを、前記試料核酸中の前記少量の核酸の前記フラクションと比較するステップであって、これにより、比較を提供し、モザイク症比を生成するステップと、
    前記比較および前記モザイク症比に従って前記コピー数の変動領域について遺伝子モザイク症の存在または非存在を分類するステップと
    を含む操作を実施させ、
    前記モザイク症比が約0.2〜約0.7の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の存在が分類され、前記比が約0.71〜約1.3の間である場合に、前記コピー数の変動領域について前記遺伝子モザイク症の非存在が分類される、非一時的なコンピュータ可読記憶媒体。
JP2019550776A 2017-03-17 2018-03-19 遺伝子モザイク症のための方法およびプロセス Active JP7370862B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023120117A JP2023130525A (ja) 2017-03-17 2023-07-24 遺伝子モザイク症のための方法およびプロセス

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762473074P 2017-03-17 2017-03-17
US62/473,074 2017-03-17
PCT/US2018/023151 WO2018170511A1 (en) 2017-03-17 2018-03-19 Methods and processes for assessment of genetic mosaicism

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023120117A Division JP2023130525A (ja) 2017-03-17 2023-07-24 遺伝子モザイク症のための方法およびプロセス

Publications (2)

Publication Number Publication Date
JP2020513812A true JP2020513812A (ja) 2020-05-21
JP7370862B2 JP7370862B2 (ja) 2023-10-30

Family

ID=61874050

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019550776A Active JP7370862B2 (ja) 2017-03-17 2018-03-19 遺伝子モザイク症のための方法およびプロセス
JP2023120117A Pending JP2023130525A (ja) 2017-03-17 2023-07-24 遺伝子モザイク症のための方法およびプロセス

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023120117A Pending JP2023130525A (ja) 2017-03-17 2023-07-24 遺伝子モザイク症のための方法およびプロセス

Country Status (7)

Country Link
US (1) US20200087710A1 (ja)
EP (2) EP3596233B1 (ja)
JP (2) JP7370862B2 (ja)
CA (1) CA3056118A1 (ja)
IL (1) IL269202A (ja)
PT (1) PT3596233T (ja)
WO (1) WO2018170511A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200303036A1 (en) * 2017-10-17 2020-09-24 The Broad Institute, Inc. Methods and systems for detection of somatic structural variants
US20200299677A1 (en) 2017-10-27 2020-09-24 Juno Diagnostics, Inc. Devices, systems and methods for ultra-low volume liquid biopsy
WO2019191319A1 (en) * 2018-03-30 2019-10-03 Juno Diagnostics, Inc. Deep learning-based methods, devices, and systems for prenatal testing
JP2022517456A (ja) * 2019-01-24 2022-03-09 イルミナ インコーポレイテッド 臓器健康および疾患をモニタリングするための方法およびシステム
JP2022553829A (ja) * 2019-10-31 2022-12-26 セクエノム, インコーポレイテッド 多胎児妊娠およびパーソナライズされたリスク評価におけるモザイク現象比の適用
US11211147B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing
US11475981B2 (en) 2020-02-18 2022-10-18 Tempus Labs, Inc. Methods and systems for dynamic variant thresholding in a liquid biopsy assay
US11211144B2 (en) 2020-02-18 2021-12-28 Tempus Labs, Inc. Methods and systems for refining copy number variation in a liquid biopsy assay
CN111508559B (zh) * 2020-04-21 2021-08-13 北京橡鑫生物科技有限公司 检测目标区域cnv的方法及装置
CN116018646A (zh) * 2020-05-22 2023-04-25 阿克图尔公司 用于表征无细胞核酸片段的方法
US20210398617A1 (en) * 2020-06-19 2021-12-23 Tempus Labs, Inc. Molecular response and progression detection from circulating cell free dna
CA3204451A1 (en) * 2021-01-07 2022-07-14 Francisco M. De La Vega Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US20220344001A1 (en) * 2021-04-12 2022-10-27 Zeljko Jovan Dzakula System and Method for Reduction of Technical Variability and Extraction of Biological Signal from Nucleic Acid Sequencing Data
CN113436678A (zh) * 2021-07-07 2021-09-24 哈尔滨因极科技有限公司 一种基于滤波降噪的基因组结构变异检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013530727A (ja) * 2010-07-23 2013-08-01 エソテリックス ジェネティック ラボラトリーズ, エルエルシー 差次的に提示される胎児のゲノム領域もしくは母親のゲノム領域の同定およびそれらの使用
JP2014512817A (ja) * 2011-04-12 2014-05-29 ベリナタ ヘルス インコーポレイテッド 多型カウントを用いたゲノム画分の分析
US20140274740A1 (en) * 2013-03-15 2014-09-18 Verinata Health, Inc. Generating cell-free dna libraries directly from blood
US20150064695A1 (en) * 2010-12-17 2015-03-05 Celula Inc. Methods for screening and diagnosing genetic conditions
US9260745B2 (en) * 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6927028B2 (en) 2001-08-31 2005-08-09 Chinese University Of Hong Kong Non-invasive methods for detecting non-host DNA in a host using epigenetic differences between the host and non-host DNA
CA2507189C (en) 2002-11-27 2018-06-12 Sequenom, Inc. Fragmentation-based methods and systems for sequence variation detection and discovery
EP1641809B2 (en) 2003-07-05 2018-10-03 The Johns Hopkins University Method and compositions for detection and enumeration of genetic variations
CA2589487C (en) 2004-11-29 2014-07-29 Klinikum Der Universitat Regensburg Means and methods for detecting methylated dna
US8679741B2 (en) 2006-05-31 2014-03-25 Sequenom, Inc. Methods and compositions for the extraction and amplification of nucleic acid from a sample
WO2007147063A2 (en) 2006-06-16 2007-12-21 Sequenom, Inc. Methods and compositions for the amplification, detection and quantification of nucleic acid from a sample
ATE549419T1 (de) 2007-08-29 2012-03-15 Sequenom Inc Verfahren und zusammensetzungen für die universelle grössenspezifische polymerasekettenreaktion
WO2009032779A2 (en) 2007-08-29 2009-03-12 Sequenom, Inc. Methods and compositions for the size-specific seperation of nucleic acid from a sample
AU2009228312B2 (en) 2008-03-26 2015-05-21 Sequenom, Inc. Restriction endonuclease enhanced polymorphic sequence detection
EP3103871B1 (en) 2008-09-16 2020-07-29 Sequenom, Inc. Processes for methylation-based enrichment of fetal nucleic acid from a maternal sample useful for fetal nucleic acid quantification
US8476013B2 (en) 2008-09-16 2013-07-02 Sequenom, Inc. Processes and compositions for methylation-based acid enrichment of fetal nucleic acid from a maternal sample useful for non-invasive prenatal diagnoses
ES2534758T3 (es) 2010-01-19 2015-04-28 Verinata Health, Inc. Métodos de secuenciación en diagnósticos prenatales
US20140227691A1 (en) 2010-05-14 2014-08-14 Fluidigm, Inc. Nucleic acid isolation methods
WO2013019361A1 (en) 2011-07-07 2013-02-07 Life Technologies Corporation Sequencing methods
US10196681B2 (en) 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2886508T3 (es) 2011-10-06 2021-12-20 Sequenom Inc Métodos y procedimientos para la evaluación no invasiva de variaciones genéticas
CA2850785C (en) 2011-10-06 2022-12-13 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10424394B2 (en) 2011-10-06 2019-09-24 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3243908B1 (en) 2011-10-11 2019-01-02 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
ES2929923T3 (es) 2012-01-20 2022-12-02 Sequenom Inc Procesos de diagnóstico que condicionan las condiciones experimentales
US10504613B2 (en) 2012-12-20 2019-12-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2013177086A1 (en) 2012-05-21 2013-11-28 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US10497461B2 (en) 2012-06-22 2019-12-03 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
AU2013204615A1 (en) * 2012-07-20 2014-02-06 Verinata Health, Inc. Detecting and classifying copy number variation in a fetal genome
US10482994B2 (en) 2012-10-04 2019-11-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US20130309666A1 (en) 2013-01-25 2013-11-21 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
EP3004383B1 (en) 2013-05-24 2019-04-24 Sequenom, Inc. Methods for non-invasive assessment of genetic variations using area-under-curve (auc) analysis
AU2014284180B2 (en) 2013-06-21 2020-03-19 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
WO2015051163A2 (en) 2013-10-04 2015-04-09 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA2925111C (en) 2013-10-07 2024-01-16 Sequenom, Inc. Methods and processes for non-invasive assessment of chromosome alterations
EP3736344A1 (en) 2014-03-13 2020-11-11 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
CA3191504A1 (en) 2014-05-30 2015-12-03 Sequenom, Inc. Chromosome representation determinations
US11783911B2 (en) 2014-07-30 2023-10-10 Sequenom, Inc Methods and processes for non-invasive assessment of genetic variations
JP6971845B2 (ja) 2014-10-10 2021-11-24 セクエノム, インコーポレイテッド 遺伝子の変動の非侵襲的評価のための方法および処理

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9260745B2 (en) * 2010-01-19 2016-02-16 Verinata Health, Inc. Detecting and classifying copy number variation
JP2013530727A (ja) * 2010-07-23 2013-08-01 エソテリックス ジェネティック ラボラトリーズ, エルエルシー 差次的に提示される胎児のゲノム領域もしくは母親のゲノム領域の同定およびそれらの使用
US20150064695A1 (en) * 2010-12-17 2015-03-05 Celula Inc. Methods for screening and diagnosing genetic conditions
JP2014512817A (ja) * 2011-04-12 2014-05-29 ベリナタ ヘルス インコーポレイテッド 多型カウントを用いたゲノム画分の分析
US20140274740A1 (en) * 2013-03-15 2014-09-18 Verinata Health, Inc. Generating cell-free dna libraries directly from blood

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PRENATAL DIAGNOSIS, vol. 35, JPN6021042546, 2015, pages 810 - 815, ISSN: 0004881577 *

Also Published As

Publication number Publication date
CA3056118A1 (en) 2018-09-20
JP7370862B2 (ja) 2023-10-30
US20200087710A1 (en) 2020-03-19
PT3596233T (pt) 2022-08-22
EP3596233A1 (en) 2020-01-22
JP2023130525A (ja) 2023-09-20
IL269202A (en) 2019-11-28
WO2018170511A1 (en) 2018-09-20
EP3998350A1 (en) 2022-05-18
EP3596233B1 (en) 2022-05-18

Similar Documents

Publication Publication Date Title
JP7370862B2 (ja) 遺伝子モザイク症のための方法およびプロセス
JP6749972B2 (ja) 遺伝子の変動の非侵襲性評価のための方法および処理
US20220093207A1 (en) Genetic Copy Number Alteration Classifications
JP6971845B2 (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
JP2023153924A (ja) 染色体提示の決定
US20240029826A1 (en) Methods and Processes for Assessment of Genetic Variations
CA3049682C (en) Methods for non-invasive assessment of genetic alterations
WO2018022906A1 (en) Methods for non-invasive assessment of genomic instability
US11929143B2 (en) Methods for non-invasive assessment of copy number alterations
CA3194557A1 (en) Sequencing adapter manufacture and use
WO2021087491A1 (en) Application of mosaicism ratio in multifetal gestations and personalized risk assessment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230724

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230922

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231018

R150 Certificate of patent or registration of utility model

Ref document number: 7370862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150