JP7009518B2

JP7009518B2 - 既知又は未知の遺伝子型の複数のコントリビューターからのｄｎａ混合物の分解及び定量化のための方法並びにシステム

Info

Publication number: JP7009518B2
Application number: JP2019570464A
Authority: JP
Inventors: ヨン・リ; ジョスリン・ブリュアンド; ライアン・ケリー; チー・リー; コンラッド・シェフラー
Original assignee: イルミナインコーポレイテッド
Priority date: 2017-06-20
Filing date: 2018-06-19
Publication date: 2022-01-25
Anticipated expiration: 2038-06-19
Also published as: AU2018288772A1; CN110770840A; SG11201911538YA; EP3642747A1; CA3067419A1; KR102487135B1; JP2020529648A; IL271155A; AU2018288772B2; KR20200010464A; NZ759485A; US20210151125A1; WO2018236911A1

Description

関連出願の相互参照
本出願は、2017年6月20日に出願された、「METHODS FOR ACCURATE COMPUTATIONAL DECOMPOSITION OF DNA MIXTURES FROM CONTRIBUTORS OF UNKNOWN GENOTYPES」という名称の米国仮特許出願第62/522,605号に対する、米国特許法第119条(e)の下での利益を主張し、これは、すべての目的のために、その全体が参照によって本明細書に組み込まれる。

密接に関連しているゲノムの核酸(例えば、DNA又はRNA)混合物からの配列決定データは、研究においてだけでなく、臨床の状況においても頻繁に見られ、混合されたコントリビューターの定量化は、元のゲノムが未知である場合に、課題であった。例えば、微生物学及びメタゲノミクスの文脈において、研究者及び臨床医は、環境試料中の同じ種の密接に関連する菌種を定量化する必要があり得る。科学捜査の状況では、法執行機関の職員は、複数の個人のDNAを含有する血液試料からヒト個体を定量化及び同定する必要があり得る。生物医学的研究の状況では、科学者は、細胞又はDNA試料中の純度又は混入物の程度を決定する必要があり得る。

別の適用は、液体生検と連結される次世代配列決定(NGS)である。NGS連結液体生検は、各種の臨床の状況において、潜在的な適用を有する新たな診断戦略である。臓器又は組織移植の文脈では、NGS連結液体生検は、受容者の血液中の同種のDNAの量を定量化することによって、同種移植の健康をモニタリングするための非侵襲的なアプローチを提供する。いくつかの適用において、提供者及び受容者のゲノムは、未知又は部分的に未知である。

キメラという用語は、異なる個体が起源の細胞集団を含有する個体を記載するために、現代医学において使用されている。キメラ化の状態は、遺伝的形質によって自然発生し得るが、移植、輸血又は試料の汚染によって人為的により頻繁に生じる。

キメラ化は、移植の種類に応じて異なるDNAの種類に有益なシグナルを残す。骨髄及び造血幹細胞の移植に関して、移植後に収集された血液のゲノムDNA(gDNA)は、移植の生着状態に応じて、キメラ化のさまざまなレベルを有する。固形臓器移植に関して、キメラ化のシグナルは、血液の無細胞DNA(cfDNA)において見ることができる。このようなシグナルは、臓器移植のモニタリングのための現在の標準治療である侵襲的組織生検の手順とは対照的に、非侵襲的な液体生検によって抽出することができる。

キメラ化DNA試料に対する提供者のゲノムの相対的寄与の再現可能で正確な決定は、移植のモニタリングのための有益なツールを提供し、研究者及び臨床医が、提供者及び受容者の細胞の間の動態の変化を非侵襲的かつ客観的に測定することを可能にし、これは、提供者の細胞及び臓器の健康状態を反映する。本開示は、キメラ化試料へのそれぞれのゲノムの相対的寄与を定量化するための新規で改善された方法を導入する。

米国特許出願第15/130,668号米国特許出願第15/863,737号米国特許出願第13/555,037号米国特許第7601499号米国特許出願第2012/0,053,063号米国特許出願公開第2009/0026082号 PCT特許公開第WO2009/046445号

Fanら、Proc Natl Acad Sci、105巻:16266～16271頁[2008年] Koideら、Prenatal Diagnosis、25巻:604～607頁[2005年] Chenら、Nature Med.、2巻:1033～1035頁[1996年] Loら、Lancet、350巻:485～487頁[1997年] Botezatuら、Clin Chem.、46巻:1078～1084頁、2000年 Suら、J Mol. Diagn.、6巻:101～107頁[2004年] Alnemri及びLiwack、J Biol. Chem、265巻:17323～17333頁[1990年] Richards及びBoyer、J Mol Biol、11巻:327～240頁[1965年] Bentleyら、Nature、6巻:53～59頁[2009年] Fanら、Clin Chem、56巻:1279～1286頁[2010年] Kozarewaら、Nature Methods、6巻:291～295頁[2009年] es|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing Langmeadら、Genome Biology、10巻:R25.1～R25.10頁[2009年] Harris T.D.ら、Science、320巻:106～109頁[2008年] Margulies, M.ら、Nature、437巻:376～380頁[2005年] Soni GV及びMeller A.、Clin Chem、53巻:1996～2001頁[2007年]

本明細書に提示するいくつかの実施は、2人以上のコントリビューターの未知の遺伝子型の核酸を含む核酸混合物試料の定量化及び解析のための、コンピューターが実施する方法並びにシステムを提供する。本開示の1つの態様は、異なるゲノムを有する2人以上のコントリビューターの核酸(例えば、DNA又はRNA)を含む核酸試料中の核酸の割合を定量化するための方法に関する。いくつかの実施において、核酸混合物試料としては、下記に説明する、生物組織、細胞、末梢血、唾液、尿及び他の生体液が挙げられる。いくつかの適用において、核酸試料は、単一のコントリビューターのみの核酸を含み、本明細書に記載の実施は、単一のコントリビューターの核酸が、試料中で100%の核酸を占めることを決定することができる。そのため、本明細書の以下の説明は、いくつかの実施において、核酸試料を核酸混合物試料と称し、この試料は、100%又は1であるコントリビューターの割合を有する単一のコントリビューターの核酸を含むことができることが理解される。当然ながら、本方法は、2人以上のコントリビューターの核酸を含む試料を定量化するために使用することもできる。

本明細書において提供される各種の方法及びシステムは、確率混合モデル及びベイズ推論の技術を使用する戦略及びプロセスを実施するので、本実施形態は、核酸(例えば、DNA又はRNA)混合物試料の定量化及び解析における従来の方法からの技術的改善を提供する。いくつかの実施は、分析の感受性及び特異性の改善を提供し、核酸混合物試料のより正確な解析及び定量化を提供する。

いくつかの実施は、正確に定量するためには従来の方法では低すぎる核酸の量を有する核酸混合物試料の正確な定量化を可能にする。いくつかの実施は、3～10ngの無細胞DNA(cfDNA)混合物試料の正確な定量化を可能にし、これは、従来の方法によって正確に定量化することはできない。いくつかの実施は、従来の方法では対処できない、3人以上のコントリビューターによる混合物試料への適用を可能にする。いくつかの実施は、従来の方法では対処できない、1つ又は複数の未知のゲノムを有する混合物への適用を可能にする。本明細書に記載のいくつかの実施は、DNA試料を指すが、この実施が、RNA試料を分析するためにも適用可能であることが理解される。

いくつかの実施形態において、本方法は、2人以上のコントリビューターの核酸を含む核酸混合物試料を解析及び定量化するために構成された1つ又は複数のプロセッサ及びシステムメモリを含むコンピューターシステムで実施される。

いくつかの実施形態は、コントリビューター及び少なくとも1人の他のコントリビューターの核酸を含む核酸混合物試料中のコントリビューターの核酸の割合を定量化するための方法を提供する。本方法は、(a)核酸試料から核酸分子を抽出する工程;(b)抽出された核酸分子を増幅する工程;(c)核酸配列決定装置を使用して、増幅された核酸分子を配列決定して、核酸配列リードを生成する工程;(d)1つ又は複数のプロセッサによって、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングする工程;(e)マッピングされた核酸配列リードを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定する工程;及び(f)確率混合モデルを使用して、1つ又は複数のプロセッサによって、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程を含み、ここで、確率混合モデルを使用する工程が、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、核酸配列リードにおけるエラーを説明する。

いくつかの実施において、(d)のマッピングする工程は、コンピューターハッシング又はコンピューターダイナミックプログラミングを使用してマッピングする工程を含む。いくつかの実施において、(f)の定量化する工程は、マルチ反復グリッド検索、及びブロイデン-フレッチャー-ゴールドファーブ-シャンノ(BFGS)-準ニュートン法を組み合わせる新規な最適化方法を使用して定量化する工程を含む。いくつかの実施において、(f)の定量化する工程は、反復加重線形回帰を使用して定量化する工程を含む。これらの特徴は、行うためにコンピューターが必要であり、コンピューター技術に根差している。

いくつかの実施において、本方法は、確率混合モデルを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1人又は複数人のコントリビューターの1つ又は複数の遺伝子型を決定する工程を更に含む。

いくつかの実施において、本方法は、1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を使用して、別のコントリビューター(提供者)から移植された組織又は臓器を1人のコントリビューター(被提供者)が拒絶する危険性を決定する工程を更に含む。

いくつかの実施において、1人又は複数人のコントリビューターは、2人以上のコントリビューターを含む。

いくつかの実施において、核酸分子は、DNA分子又はRNA分子を含む。

いくつかの実施において、核酸試料は、ゼロ、1つ又は複数の混入ゲノム、及び目的の1つのゲノムからの核酸を含む。

いくつかの実施において、1人又は複数人のコントリビューターは、ゼロ、1人又は複数人の移植の提供者及び移植の被提供者を含み、核酸試料は、被提供者から得られた試料を含む。

いくつかの実施において、移植は、同種又は異種移植を含む。

いくつかの実施において、核酸試料は、被提供者から得られた生体試料を含む。

いくつかの実施において、核酸試料は、細胞培養から得られた生体試料を含む。

いくつかの実施において、抽出された核酸分子は、無細胞核酸を含む。

いくつかの実施において、抽出された核酸分子は、細胞DNAを含む。

いくつかの実施において、1つ又は複数の多型遺伝子座は、1つ又は複数の二対立遺伝子の多型遺伝子座を含む。

いくつかの実施において、1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子は、1つ又は複数の一塩基多型(SNP)対立遺伝子を含む。

いくつかの実施において、確率混合モデルは、単一遺伝子座尤度関数を使用して、単一多型遺伝子座における対立遺伝子カウントをモデル化する。単一遺伝子座尤度関数は、
M(n_1i,n_2i|p_1i,θ)
を含む。

n_1iは、遺伝子座iにおける対立遺伝子1の対立遺伝子カウントであり、n_2iは、遺伝子座iにおける対立遺伝子2の対立遺伝子カウントであり、p_1iは、遺伝子座iにおける対立遺伝子1の予想される割合であり、θは、1つ又は複数のモデルのパラメータを含む。

いくつかの実施において、p_1iは、(i)遺伝子座iにおけるコントリビューターの遺伝子型、又はg_i=(g_11i,...,gD_1i)(これは、コントリビューター1...Dにおける遺伝子座iでの対立遺伝子1のコピー数のベクトルである);(ii)(c)における配列決定操作から生じるリードカウントのエラー、又はλ;及び(iii)核酸試料中のコントリビューターの核酸の割合、又はβ=(β₁,...,β_D)(ここで、Dは、コントリビューターの数である)の関数としてモデル化される。いくつかの実施において、コントリビューターは、2人以上のコントリビューターを含み、p_1i=p(g_i,λ,β)←[(1-λ)g_i+λ(2-g_i)]/2・β(ここで、・は、ベクトル内積演算子である)である。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、p_1iは、Table 3(表3)におけるp₁'値を使用して得られる。

いくつかの実施において、コントリビューターの0、1つ又は複数の遺伝子型は、未知である。いくつかの実施において、(f)は、遺伝子型の多数の可能な組み合わせについて周辺化して、確率パラメータp_1iを数える工程を含む。いくつかの実施において、本方法は、1つ又は複数の多型遺伝子座のそれぞれにおける遺伝子型構成を決定する工程を更に含み、遺伝子型構成は、1人又は複数人のコントリビューターのそれぞれについての2つの対立遺伝子を含む。いくつかの実施において、単一遺伝子座尤度関数は、第1の二項分布を含む。いくつかの実施において、第1の二項分布は、以下:
n_1i～BN(n_i,p_1i)
のように表される。

n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり;n_iは、遺伝子座iにおける総リードカウントであり、これは、総ゲノムコピー数n''に等しい。いくつかの実施において、(f)は、多数の単一遺伝子座尤度関数から計算された複数遺伝子座尤度関数を最大化する工程を含む。

いくつかの実施において、(f)は、多数の潜在的な割合値及び(e)において決定された核酸配列リードの対立遺伝子カウントの複数遺伝子座尤度関数を使用して、多数の複数遺伝子座尤度値を計算する工程;最大の複数遺伝子座尤度値に関連する1つ又は複数の潜在的な割合値を特定する工程;並びに特定された潜在的な割合値として核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程を含む。

いくつかの実施において、複数遺伝子座尤度関数は、
L(β,θ,λ,π;n₁,n₂)=Π_i[Σg_iM(n_1i,n_2i|p(g_i,λ,β),θ)・P(g_i|π)]
を含む。

L(β,θ,λ,π;n₁,n₂)は、対立遺伝子1及び2に対する対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり;p(g_i,λ,β)は、遺伝子座iにおけるコントリビューターの遺伝子型g_iに基づいて遺伝子座iにおける対立遺伝子1で観察される予想される割合又は確率であり;P(g_i|π)は、集団対立遺伝子頻度(π)を仮定した場合の遺伝子座iにおける遺伝子型g_iを観察する事前確率であり;Σg_iは、コントリビューターの遺伝子型の多数の可能な組み合わせにわたる総和を表す。

いくつかの実施において、複数遺伝子座尤度関数は、L(β,λ,π;n₁,n₂)=Π_i[Σg_iBN(n_1i|n_i,・p(g_i,λ,β))・P(g_i|π)]
を含む。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、尤度関数は、
L(β,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBN(n_1i|n_i,p_1i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
を含む。

L(β,λ,π;n₁,n₂)は、パラメータβ及びπを仮定した場合の対立遺伝子1及び2についてn₁からn₂の対立遺伝子カウントのベクトルを観察する尤度であり;p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、Table 3(表3)からp₁'として取られる確率パラメータであり;P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の2人のコントリビューターの遺伝子型を観察する事前同時確率である。

いくつかの実施において、事前同時確率は、ハーディー-ワインベルクの式を満足する周辺分布P(g_1i|π)及びP(g_2i|π)を使用して計算される。

いくつかの実施において、事前同時確率は、2人のコントリビューターの間の遺伝的関係を使用して計算される。

いくつかの実施において、確率混合モデルは、(a)において行われる核酸分子を抽出する工程から生じる核酸分子のコピー数のエラー、及び(c)における配列決定操作から生じるリードカウントのエラーを説明する。いくつかの実施において、確率混合モデルは、第2の二項分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての抽出された核酸分子の対立遺伝子カウントをモデル化する。いくつかの実施において、第2の二項分布は、以下:
n_1i''～BN(n_i'',p_1i)
のように表される。

n_1i''は、遺伝子座iにおける対立遺伝子1についての抽出された核酸分子の対立遺伝子カウントであり;n_i''は、遺伝子座iにおける総核酸分子カウントであり;p_iuは、遺伝子座iにおける対立遺伝子1の確率を示す確率パラメータである。

いくつかの実施において、第1の二項分布は、対立遺伝子割合n_1i''/n_i''を条件としたものである。いくつかの実施において、第1の二項分布は、以下:
n_1i～BN(n_i,n_1i''/n_i'')
のように再パラメータ化される。

n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり;n_i''は、遺伝子座iにおける核酸分子の総数であって、これは、総ゲノムコピー数n''に等しく;n_iは、遺伝子座iにおける総リードカウントであり;n_1i''は、遺伝子座iにおける対立遺伝子1についての抽出された核酸分子の数である。

いくつかの実施において、確率混合モデルは、第1のベータ分布を使用して、n_1i''/n''の分布を近似する。いくつかの実施において、第1のベータ分布は、第2の二項分布の平均及び分散とマッチする平均及び分散を有する。いくつかの実施において、遺伝子座iは、二対立遺伝子としてモデル化され、第1のベータ分布は、以下:
n_i1''/n''～Beta((n''-1)p_1i,(n''-1)p_2i)
のように表される。

p_1iは、遺伝子座iにおける第1の対立遺伝子の確率を示す確率パラメータであり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率を示す確率パラメータである。

いくつかの実施において、(f)は、第1のベータ-二項分布に従うn_1iの単一遺伝子座尤度関数を得るために、配列決定リードカウントをモデル化する第1の二項分布、及び抽出された核酸分子数をモデル化する第1のベータ分布を組み合わせる工程を含む。いくつかの実施において、第1のベータ-二項分布は、形式:n_1i～BB(n_i,(n''-1)・p_1i,(n''-1)・p_2i)、又は代替の近似:n_1i～BB(n_i,n''・p_1i,n''・p_2i)を有する。いくつかの実施において、複数遺伝子座尤度関数は、
L(β,n'',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,(n''-1)・p_1i,(n''-1)・p_2i)・P(g_i|π)]
を含む。

L(β,n'',λ,π;n₁,n₂)は、すべての遺伝子座における対立遺伝子1及び2についての対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり、p_1i=p(g_i,λ,β)であり、p_2i=1-p_1iである。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、複数遺伝子座尤度関数は、
L(β,n'',λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i,n_2i|n_i,(n''-1)・p_1i(g_1i,g_2i,λ,β),(n''-1)・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
を含む。

L(β,n'',λ,π;n₁,n₂)は、パラメータβ、n''、λ及びπを仮定した場合の、すべての遺伝子座の第1の対立遺伝子についての対立遺伝子カウントのベクトル(n₁)並びにすべての遺伝子座の第2の対立遺伝子についての対立遺伝子カウントのベクトル(n₂)を観察する尤度であり;p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、Table 3(表3)からp₁'として取られる確率パラメータであり;p_2i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子2の確率を示す、Table 3(表3)からp₂'として取られる確率パラメータであり;P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の、遺伝子座iにおける、第1の対立遺伝子についての第1のコントリビューターの遺伝子型(g_1i)、及び第1の対立遺伝子についての第2のコントリビューターの遺伝子型(g_2i)を観察する事前同時確率である。

いくつかの実施において、(f)は、抽出された核酸分子の集合から、抽出された総ゲノムコピー数n''を推定する工程を含む。いくつかの実施において、推定された抽出された総ゲノムコピー数n''は、抽出された核酸分子の断片サイズに従って調整される。

いくつかの実施において、確率混合モデルは、(b)において行われる核酸分子を増幅する工程から生じる核酸分子の数のエラー、及び(c)における配列決定操作から生じるリードカウントのエラーを説明する。いくつかの実施において、(b)の増幅プロセスは、以下:
x_t+1=x_t+y_t+1
のようにモデル化される。

x_t+1は、増幅のt+1サイクル後の所与の対立遺伝子の核酸コピーであり;x_tは、増幅のtサイクル後の所与の対立遺伝子の核酸コピーであり;y_t+1は、t+1サイクルで発生する新たなコピーであり、これは、二項分布y_t+1～BN(x_t,r_t+1)に従い;r_t+1は、t+1サイクルについての増幅速度である。

いくつかの実施において、確率混合モデルは、第2のベータ分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての増幅された核酸分子の対立遺伝子の割合をモデル化する。

いくつかの実施において、遺伝子座iは、二対立遺伝子であり、第2のベータ分布は、以下:
n_1i'/(n_1i'+n_2i')～Beta(n''・ρ_i・p_1i,n''・ρ_i・p_2i)
のように表される。

n_1i'は、遺伝子座iにおける第1の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n_2i'は、遺伝子座iにおける第2の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n''は、任意の遺伝子座における総核酸分子カウントであり;ρ_iは、平均増幅速度rに関する定数であり:p_1iは、遺伝子座iにおける第1の対立遺伝子の確率であり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率である。いくつかの実施において、ρ_iは、(1+r)/(1-r)/[1-(1+r)^-t]であり、rは、サイクルあたりの平均増幅速度である。いくつかの実施において、ρ_iは、(1+r)/(1-r)として近似される。

いくつかの実施において、(f)は、第2のベータ-二項分布に従うn_1iについての単一遺伝子座尤度関数を得るために、第1の二項分布及び第2のベータ分布を組み合わせる工程を含む。いくつかの実施において、第2のベータ-二項分布は、形式:
n_1i～BB(n_i,n''・ρ_i・p_1i,n''・ρ_i・p_2i)
を有する。

n_1iは、遺伝子座iにおける第1の対立遺伝子についての核酸配列リードの対立遺伝子カウントであり;p_1iは、遺伝子座iにおける第1の対立遺伝子の確率を示す確率パラメータであり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率を示す確率パラメータである。

いくつかの実施において、(f)は、1つ又は複数の多型遺伝子座が同じ増幅速度を有することを仮定することによって、n_1i～BB(n_i,n''・(1+r)/(1-r)・p_1i,n''・(1+r)/(1-r)・p_2i)(ここで、rは、増幅速度である)として第2のベータ-二項分布を再パラメータ化する工程を含む。いくつかの実施において、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,n''・(1+r)/(1-r)・p_1i,n''・(1+r)/(1-r)・p_2i)・P(g_i|π)]
を含む。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2i[BB(n_1i|n_i,''・(1+r)/(1-r)・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/(1-r)・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)]
を含む。

L(β,n'',r,λ,π;n₁,n₂)は、パラメータβ、n''、r、λ及びπを仮定した場合の、すべての遺伝子座の第1の対立遺伝子についての対立遺伝子カウントのベクトル(n₁)及びすべての遺伝子座の第2の対立遺伝子についての対立遺伝子カウントのベクトル(n₂)を観察する尤度である。

いくつかの実施において、(f)は、遺伝子座の総リードに比例するものとしてそれぞれの多型遺伝子座の相対増幅速度を定義することによって、
n_1i～BB(n_i,c'・n_i・p_1i,c'・n_i・p_2i)
として第2のベータ-二項分布を再パラメータ化する工程を含む。

c'は、最適化されるパラメータであり;n_iは、遺伝子座iにおける総リードである。

いくつかの実施において、複数遺伝子座尤度関数は、
L(β,n'',c',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,c'・n_i・p_1i,c'・n_i・p_2i)・P(g_i|π)]
を含む。

いくつかの実施において、確率混合モデルは、(a)において行われる核酸分子を抽出する工程及び(b)において行われる核酸分子を増幅する工程から生じる核酸分子数のエラー、並びに(c)における配列決定操作から生じるリードカウントのエラーを説明する。いくつかの実施において、確率混合モデルは、第3のベータ分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての増幅された核酸分子の対立遺伝子の割合をモデル化し、(a)において行われる核酸分子を抽出する工程及び(b)において行われる核酸分子を増幅する工程から生じる試料抽出のエラーを説明する。いくつかの実施において、遺伝子座iは、二対立遺伝子であり、第3のベータ分布は、形式:
n_1i'/(n_1i'+n_2i')～Beta(n''・(1+r_i)/2・p_1i,n''・(1+r_i)/2・p_2i)
を有する。

n_1i'は、遺伝子座iにおける第1の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n_2i'は、遺伝子座iにおける第2の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n''は、総核酸分子カウントであり;r_iは、遺伝子座iについての平均増幅速度であり:p_1iは、遺伝子座iにおける第1の対立遺伝子の確率であり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率である。いくつかの実施において、(f)は、第3のベータ-二項分布に従うn_1iの単一遺伝子座尤度関数を得るために、第1の二項分布及び第3のベータ分布を組み合わせる工程を含む。

いくつかの実施において、第3のベータ-二項分布は、形式:
n_1i～BB(n_i,n''・(1+r_i)/2・p_1i,n''・(1+r_i)/2・p_2i)
を有する。

r_iは、増幅速度である。

いくつかの実施において、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,n''・(1+r)/2・p_1i,n''・(1+r)/2・p_2i)・P(g_i|π)]
を含む。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i|n_i,n''・(1+r)/2・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/2・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
を含む。

L(n₁,n₂|β,n'',r,λ,π)は、パラメータβ、n''、r、λ及びπを仮定した場合の、第1の対立遺伝子のベクトルについての対立遺伝子カウントn₁及び第2の対立遺伝子のベクトルについての対立遺伝子カウントのベクトルn₂を観察する尤度である。

いくつかの実施において、本方法は、(g)数値微分を使用しlog尤度のヘッセ行列を使用して、1人又は複数人のコントリビューターの核酸の1つ又は複数の割合の1つ又は複数の信頼区間を推定する工程を更に含む。

いくつかの実施において、(d)のマッピングする工程は、コンピューターハッシング及びコンピューターダイナミックプログラミングを使用する1つ又は複数のプロセッサによって、多数の不偏標的配列の任意の配列にマッチする核酸配列リードの中のリードを同定する工程を含み、多数の不偏標的配列は、参照配列の部分配列、及び単一ヌクレオチドが部分配列と異なる配列を含む。いくつかの実施において、多数の不偏標的配列は、多数の多型部位のそれぞれの多型部位を包含する配列の5つのカテゴリー:(i)参照配列の部分配列である参照標的配列であって、多型部位において参照ヌクレオチドを伴う参照対立遺伝子を有する参照標的配列;(ii)多型部位において代替ヌクレオチドを伴う代替対立遺伝子をそれぞれ有する代替標的配列であって、代替ヌクレオチドが参照ヌクレオチドと異なる、代替標的配列;(iii)多型部位ではない部位においてヌクレオチド1つのみが参照標的配列とそれぞれ異なるすべての可能な配列を含む変異参照標的配列;(iv)多型部位ではない部位においてヌクレオチド1つのみが代替標的配列と異なるすべての可能な配列を含む変異代替標的配列;並びに(v)参照対立遺伝子及び代替対立遺伝子と異なる予想外の対立遺伝子をそれぞれ有し、かつ先の4つのカテゴリーの配列と異なる配列をそれぞれ有する、予想外の対立遺伝子標的配列を含む。

いくつかの実施において、本方法は、(v)の予想外の対立遺伝子標的配列を観察する頻度に基づいて、バリアント部位における配列決定のエラーの割合λを推定する工程を更に含む。いくつかの実施において、(e)は、1つ又は複数の多型遺伝子座において対立遺伝子についての核酸配列リードの対立遺伝子カウントを決定するために、同定されたリード及びそれらのマッチする不偏標的配列を使用する工程を含む。いくつかの実施において、多数の不偏標的配列は、核酸配列リードと同じ長さを有するようにトランケートされた配列を含む。いくつかの実施において、多数の不偏標的配列は、1つ又は複数のハッシュテーブルに保存された配列を含み、リードは、ハッシュテーブルを使用して同定される。

開示される実施形態は、本明細書に列挙された操作及び本明細書に記載のコンピューターによる操作を行うためのプログラム指示を提供されている非一時的コンピューター可読媒体を含むコンピュータープログラム製品も提供する。

いくつかの実施形態は、コントリビューター及び少なくとも1人の他のコントリビューターの核酸を含む核酸混合物試料中のコントリビューターの核酸の割合を定量化するためのシステムを提供する。本システムは、試料から核酸配列の情報を提供する試験試料から核酸を受け取るための配列決定装置;プロセッサ;及び本明細書において列挙された方法を使用してDNA混合物試料を解析及び定量化するためのプロセッサにおける実行のための指示がそこに保存された1つ又は複数のコンピューター可読保存媒体を含む。

本開示の別の態様は、1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化するシステムを提供する。本システムは、(a)(i)核酸試料から抽出された核酸分子を受け取り;(ii)抽出された核酸分子を増幅し;及び(iii)核酸配列リードを生成する条件下、増幅された核酸分子を配列決定するように構成された配列決定装置;並びに(b)核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングし;マッピングされた核酸配列リードを使用して、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定し;並びに確率混合モデルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化するように構成された1つ又は複数のプロセッサを含むコンピューターを含む。確率混合モデルを使用する工程は、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、確率混合モデルは、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布は、核酸配列リードにおけるエラーを説明する。

いくつかの実施において、本システムは、核酸試料から核酸分子を抽出するためのツールを含む。いくつかの実施において、確率分布は、以下:
n_1i～BN(n_i,p_1i)
のような第1の二項分布を含む。

n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり;n_iは、遺伝子座iにおける総リードカウントであり、これは、総ゲノムコピー数n''に等しく;p_1iは、遺伝子座iにおける対立遺伝子1の確率を示す確率パラメータである。

本開示の追加の態様は、コンピューターシステムの1つ又は複数のプロセッサによって実行される場合に、1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化する方法をコンピューターシステムに実施させるプログラムコードが保存された非一時的機械可読媒体を含むコンピュータープログラム製品であって、前記プログラムコードが、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングするためのコード;マッピングされた核酸配列リードを使用して、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定するためのコード;並びに
確率混合モデルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化するためのコードを含む、コンピュータープログラム製品を提供する。確率混合モデルを使用する工程は、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、確率混合モデルは、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布は、核酸配列リードにおけるエラーを説明する。

本開示の更に別の態様は、1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化する、1つ又は複数のプロセッサ及びシステムメモリを含むコンピューターシステムで実施される方法を提供する。本方法は、(a)1つ又は複数のプロセッサによって、核酸試料から得られた核酸配列リードを受け取る工程;(b)1つ又は複数のプロセッサによって、コンピューターハッシング及びコンピューターダイナミックプログラミングを使用して、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングする工程;(c)マッピングされた核酸配列リードを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定する工程;並びに(d)確率混合モデルを使用して、1つ又は複数のプロセッサによって、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合及び割合の信頼性を定量化する工程を含む。確率混合モデルを使用する工程は、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含む。確率混合モデルは、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布は、マッピングされた核酸配列リードにおけるエラーを説明する。定量化する工程は、(i)マルチ反復グリッド検索、及びBFGS-準ニュートン法、又は反復加重線形回帰を組み合わせるコンピューター最適化方法、並びに(ii)数値微分法を利用する。

ヒト及び言語に関する本明細書における例は、ヒトの関心に主に向けられているが、本明細書に記載の概念は、任意の植物又は動物からのゲノムに適用可能である。本開示のこれら及び他の目的及び特徴は、以下の説明及び添付の特許請求の範囲からより完全に明らかになり、又は本明細書の以下で説明される本開示の実践によって獲得され得る。

参照による組み込み
本明細書を参照する、これらの参照文献内に開示されたすべての配列を含む、すべての特許、特許出願及び他の刊行物は、それぞれ個々の刊行物、特許又は特許出願が、参照によって組み込まれるように具体的かつ個々に示されるのと同程度に、参照により本明細書に明確に組み込まれる。引用されたすべての文献は、関連部分において、本明細書におけるこれらの引用の文脈によって示された目的のために、それらの全体が、参照によって本明細書に組み込まれる。しかしながら、任意の文書の引用は、これが、本開示に関連する先行技術であるという自認として解釈されるべきではない。

図1A～図1Cは、コントリビューターDNA定量のために設計した方法及び統計モデルの概略を示す。図2Aは、核酸試料中の1人又は複数のコントリビューターの核酸(例えば、DNA又はRNA)の1つ又は複数の割合を定量するためのプロセスを例示するブロック図を示す。図2Bは、確率混合モデルの様々な成分を例示するブロック図を示す。図2Cは、1つの対立遺伝子を別の対立遺伝子に、及び真の対立遺伝子を予想外の対立遺伝子に変換する配列決定エラーを模式的に例示する。図3は、1人又は複数のコントリビューターの核酸を含む核酸試料を評価するためのプロセスを例示するブロック図を示す。図4は、ある特定の実施形態により計算装置として働き得る典型的なコンピューターシステムのブロック図を示す。図5は、試験試料からコール又は診断を生成するための分散型システムの1つの実施を示す。図6は、別個の場所におけるいくつかの実施の様々な操作を行うための選択肢を示す。図7は、各々、cfDNA長パラメータの様々な選択下における、開示する方法及びベースライン方法の性能を示す。図8は、別の形式におけるいくつかの実施の分析精度を示す。図9は、いくつかの実施の定量限界(LOQ:limit of quantification)を決定するための、16個の条件の変動係数(CV:coefficient of variance)を示す。

定義
他の指示がない限り、本明細書に開示される方法及びシステムの実践は、当業者の範囲内である、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びDNA配列決定、並びに組換えDNA分野において一般に使用される従来技術及び装置を含む。このような技術及び装置は、当業者に公知であり、多数の教科書及び参考文献(例えば、Sambrookら、「Molecular Cloning: A Laboratory Manual」、第3版(Cold Spring Harbor)[2001年]);及びAusubelら、「Current Protocols in Molecular Biology」[1987年]を参照のこと)に記載されている。

数値範囲は、範囲を規定する数値を含む。本明細書全体にわたって与えられるすべての最大の数値の限定は、このようなより低い数値の限定が本明細書に明示的に記述されているかのように、すべてのより低い数値の限定を含むことを意図する。本明細書全体にわたって与えられるすべての最小の数値の限定は、このようなより高い数値の限定が本明細書に明示的に記述されているかのように、すべてのより高い数値の限定を含む。本明細書全体にわたって与えられるすべての数値範囲は、このようなより狭い数値範囲が本明細書にすべて明示的に記述されているかのように、このようなより広い数値範囲内にあるすべてのより狭い数値範囲を含む。

本明細書に提供される見出しは、本開示を限定することを意図するものではない。

本明細書において他に定義されない限り、本明細書において使用されるすべての技術及び科学用語は、当業者によって一般に理解されるものと同じ意味を有する。本明細書に含まれる用語を含む各種の科学辞書は、周知であり、当業者に利用可能である。本明細書に記載されるものと同様又は等価な任意の方法及び材料は、本明細書に開示される実施形態の実践及び試験における使用が見出されるが、いくつかの方法及び材料が記載される。

直下に定義される用語は、本明細書全体を参照することによって、より完全に記載される。本開示は、これらが当業者によって使用される文脈に応じてこれらは変化するので、記載された特定の方法論、プロトコール及び試薬に限定されないことが理解されるべきである。本明細書で使用される場合、単数形の「a」、「an」及び「the」は、文脈が明確に他を指示していない限り、複数形の指示対象を含む。

他の指示がない限り、核酸は、5'から3'の方向で左から右に記述され、アミノ酸配列は、それぞれ、アミノからカルボキシの方向に左から右に記述される。

「キメラ化試料」という用語は、本明細書において、DNAの2以上のゲノムを含有すると考えられる試料を指すために使用される。キメラ化分析は、本明細書において、キメラ化試料の生物学的及び化学的加工、並びに/又はキメラ化試料中の2以上の有機体の核酸の定量化を指すために使用される。いくつかの実施において、キメラ化分析はまた、2以上の有機体のゲノムの配列情報のいくつか又はすべてを決定する。

提供者のDNA(dDNA)という用語は、移植の提供者の細胞が起源であるDNA分子を指す。各種の実施において、dDNAは、提供者から移植された組織/臓器を受ける被提供者から得られた試料中で見出される。

循環無細胞DNA又は単なる無細胞DNA(cfDNA)は、細胞内に閉じ込められておらず、血流又は他の体液中を自由に循環するDNA断片である。cfDNAは、いくつかの場合では被提供者の血液中を循環する提供者の組織DNAと、いくつかの場合では腫瘍細胞又は細胞に影響を及ぼす腫瘍と、他の場合では、母親の血液を循環する胎児DNAと異なる基源を有することが知られている。一般に、cfDNAは、断片化され、少量のゲノムのみが含まれ、これは、cfDNAが得られる個体のゲノムと異なっていてもよい。

非循環ゲノムDNA(gDNA)又は細胞DNAという用語は、細胞中に閉じ込められ、しばしば完全なゲノムを含むDNA分子を指すために使用される。

「対立遺伝子カウント」という用語は、特定の対立遺伝子の配列リードのカウント又は数を指す。いくつかの実施において、これは、リードを参照ゲノム中の場所にマッピングすること、及び対立遺伝子配列を含み、参照ゲノムにマッピングされる、リードをカウントすることによって決定することができる。

ベータ分布は、ランダム変数の指数及び分布の形状の制御として出現する、例えば、α及びβによって表される2つの正の形状パラメータによってパラメータ化された区間[0,1]において定義される連続確率分布の系列である。ベータ分布は、多種多様な領域における有限長の間隔を限定するランダム変数の挙動をモデル化するために適用されてきた。ベイズ推論において、ベータ分布は、ベルヌーイ分布、二項分布、負の二項分布及び幾何分布についての共役事前確率分布である。例えば、ベータ分布は、成功の確率に関する初期知識を記載するベイズ解析において使用することができる。ランダム変数Xがベータ分布に従う場合、ランダム変数Xは、X～Beta(α,β)として記述される。

二項分布は、一連のn個の独立した実験における成功数の離散確率分布であり、それぞれyes-noの質問を尋ね、それぞれ自体のブール値の結果:単一ビットの情報を含有するランダム変数:正(確率pを有する)又は負(確率q=1-pを有する)による。単一の試行、すなわち、n=1について、二項分布は、ベルヌーイ分布である。二項分布は、サイズNの母集団からの置換で表されるサイズnの試料における成功数をモデル化するために頻繁に使用される。ランダム変数Xがパラメータn∈N及びp∈[0,1]による二項分布に従う場合、ランダム変数Xは、X～B(n,p)として記述される。

本明細書においてPois()として示されるポアソン分布は、これらの事象が、既知の平均速度で生じ、最後の事象からの時間と独立する場合に、固定された時間間隔及び/又は空間で生じる所与の数の事象の確率を表す離散確率分布である。ポアソン分布は、距離、面積又は体積等の他の特定の間隔における事象の数についても使用することができる。ポアソン分布による間隔におけるk事象を観察する確率は、式

(ここで、λは、間隔における事象の平均数若しくは事象の速度であって、速度パラメータeがオイラー数又は自然対数の基数の2.71828であるとも呼ばれ、kは、0、1、2...の値を取り、k!は、kの階乗である)
によって与えられる。

ガンマ分布は、連続確率分布の2パラメータ系列である。一般的な使用における3つの異なるパラメータ化がある:形状パラメータk、及びスケールパラメータθによる;形状パラメータα=k、及び速度パラメータと呼ばれる逆スケールパラメータβ=1/θによる;又は形状パラメータk、及び平均パラメータμ=k/βによる。これら3つの形式のそれぞれにおいて、両方のパラメータは、正の実数である。ガンマ分布は、E[X]=kθ=α/βが、固定され、かつゼロよりも大きく、E[ln(X)]=ψ(k)+ln(θ)=ψ(α)-ln(β)が固定される(ψはディガンマ関数である)、ランダム変数Xについての最大エントロピー確率分布である。

多型及び遺伝的多型は、本明細書において、それぞれ相当の頻度で、1つのゲノム遺伝子座における2つ以上の対立遺伝子の同じ集団での発生を指すために、互換可能に使用される。

多型部位及び多型性部位は、本明細書において、2以上の対立遺伝子が存在するゲノム上の遺伝子座を指すために、互換可能に使用される。いくつかの実施において、これは、異なる塩基の2つの対立遺伝子を有する単一ヌクレオチドの変化を指すために使用される。

対立遺伝子頻度又は遺伝子頻度は、遺伝子の他の対立遺伝子に対して、遺伝子(又は遺伝子のバリアント)の対立遺伝子の頻度であり、これは、割合又は百分率として表すことができる。対立遺伝子頻度は、遺伝子がしばしば1つ又は複数の遺伝子座に位置するので、特定のゲノム遺伝子座にしばしば関連する。しかしながら、本明細書で使用される対立遺伝子頻度は、DNA断片のサイズに基づくビンにも関連し得る。この意味において、対立遺伝子を含有するcfDNA等のDNA断片は、異なるサイズに基づくビンに割り当てられる。他の対立遺伝子の頻度に対して、サイズに基づくビンにおける対立遺伝子の頻度は、対立遺伝子頻度である。

「パラメータ」という用語は、本明細書において、値又は他の特徴が試料又はDNA断片等の関連する条件に影響を及ぼす、物理的特徴等のシステムの特性を特徴付ける数値を指す。いくつかの場合において、パラメータという用語は、数学的関係又はモデルの出力に影響を与える変数を参照して使用され、この変数は、独立変数(すなわち、モデルへの入力)又は1つ若しくは複数の独立変数に基づく中間変数であり得る。モデルの範囲に応じて、1つのモデルの出力は、別のモデルの入力になってもよく、それによって、他のモデルへのパラメータになる。

「多数」という用語は、2以上の要素を指す。

「ペアエンドリード」という用語は、核酸断片のそれぞれの末端から1つのリードを得る、ペアエンド配列決定からのリードを指す。ペアエンド配列決定は、インサートと呼ばれる短い配列にポリヌクレオチドの鎖を断片化することを含み得る。断片化は、無細胞DNA分子等の比較的短いポリヌクレオチドのために任意であるか、又は必要ではない。

「ポリヌクレオチド」、「核酸」及び「核酸分子」という用語は、互換可能に使用され、あるヌクレオチドの五炭糖の3'位が次の五炭糖の5'位にホスホジエステル基によって連結されている、ヌクレオチド(すなわち、RNAについてリボヌクレオチド、及びDNAについてデオキシリボヌクレオチド)の共有結合した配列を指す。ヌクレオチドは、cfDNA又は細胞DNA分子等のRNA及びDNA分子を含むが、これらに限定されない、核酸の任意の形態の配列を含む。「ポリヌクレオチド」という用語は、限定されないが、一本鎖及び二本鎖ポリヌクレオチドを含む。

「試験試料」という用語は、本明細書において、典型的には、核酸又は核酸の混合物を含む、生体液、細胞、組織、臓器又は有機体に由来する試料を指す。このような試料としては、限定されるものではないが、痰/口腔液、羊水、血液、血液画分、又は細針生検試料(例えば、外科的生検、細針生検等)、尿、腹水、胸水等が挙げられる。試料は、しばしば、ヒト対象(例えば、患者)から取得されるが、アッセイは、限定されるものではないが、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ブタ等を含む任意の哺乳動物からの試料において使用することができる。試料は、生物学的供給源から入手したまま直接、又は試料の特徴を改変するための前処理後に、使用してもよい。例えば、このような前処理としては、血液からの血漿の調製、粘性液体の希釈等が挙げられ得る。前処理の方法としては、限定されるものではないが、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解等も挙げられ得る。このような前処理の方法が試料に関して利用される場合、このような前処理方法は、典型的には、目的の核酸が試験試料中に、時には、未処理の試験試料(例えば、すなわち、任意のこのような前処理方法に付されていない試料)中の濃度に比例した濃度で残るようなものである。このような「処理された」又は「加工された」試料は、依然として、本明細書の記載の方法に関して生物学的な「試験」試料であると考えられる。

「次世代配列決定(NGS)」という用語は、本明細書において、クローン的に増幅された分子及び単一核酸分子の大量の並列配列決定を可能にする配列決定方法を指す。NGSの非限定的な例としては、可逆的色素ターミネーターを使用する合成による配列決定、及びライゲーションによる配列決定が挙げられる。

「リード」という用語は、核酸試料の部分から得られる配列を指す。典型的には、必ずしもではないが、リードは、試料中の近接する塩基対の短い配列を表す。リードは、試料の部分の塩基対配列によって記号的に表され得る(A、T、C又はGで)。これは、メモリデバイスに保存され、必要に応じて、これが参照配列にマッチするか、又は他の基準を満たすか否かを決定するために加工され得る。リードは、配列決定装置から直接的に、又は試料に関する保存された配列情報から間接的に得られ得る。いくつかの例において、リードは、より大きい配列又は領域を同定するために使用することができる、例えば、染色体若しくはゲノムの領域又は遺伝子に整列させて、特異的に割り当てることができる十分な長さ(例えば、少なくとも約25bp)のDNA配列である。

「ゲノムリード」という用語は、個体のゲノム全体における任意のセグメントのリードに関して使用される。

本明細書で使用される場合、「整列した」、「整列」又は「整列させること」という用語は、参照配列とリード又はタグを比較し、それによって、参照配列がリード配列を含有するか否かを決定するプロセスを指す。参照配列がリードを含有する場合、リードは、参照配列に、又はある特定の実施形態において、参照配列中の特定の場所にマッピングされ得る。いくつかの例において、整列は、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するか、又は非存在であるか否か)を単に知らせる。例えば、ヒト染色体13についての参照配列へのリードの整列は、リードが、染色体13について参照配列中に存在するか否かを知らせる。この情報を提供するツールは、セットメンバーシップテスターと称され得る。いくつかの例において、整列は、リード又はタグがマッピングされる参照配列中の場所を追加で示す。例えば、参照配列が全ヒトゲノム配列である場合、整列は、リードが染色体13上に存在することを示してもよく、リードが染色体13の特定の鎖及び/又は部位上にあることを更に示してもよい。

整列したリード又はタグは、参照ゲノムからの既知の配列へのそれらの核酸分子の順序の観点でマッチとして同定される1つ又は複数の配列である。本明細書に開示される方法を実施するために合理的な期間でリードを整列させることは不可能であるので、整列は、手動で行うことができるが、整列は、典型的には、コンピュータープログラムによって実施される。配列を整列させることからのプログラムの一例は、Illumina Genomics Analysis pipelineの部分として配布されたEfficient Local Alignment of Nucleotide Data (ELAND)コンピュータープログラムである。或いは、Bloomフィルター又は同様のセットメンバーシップテスターが、リードを参照ゲノムに整列させるために利用され得る。その全体が、参照によって本明細書に組み込まれる、2011年10月27日に出願された米国特許出願第61/552,374を参照のこと。整列における配列読取りのマッチングは、100%配列マッチ又は100%未満(不完全マッチ)であり得る。

本明細書で使用される「マッピング」という用語は、配列リードを、整列又はメンバーシップ割り当てを使用して、より大きな配列、例えば、参照ゲノム、より大きな配列の部分配列に特異的に割り当てることを指す。

本明細書で使用される場合、「参照ゲノム」又は「参照配列」という用語は、部分又は完全であろうとなかろうと、対象からの同定された配列に言及するために使用され得る任意の有機体又はウイルスの任意の特定の既知のゲノム配列を指す。例えば、ヒト対象及び多くの他の有機体について使用される参照ゲノムは、ncbi.nlm.nih.gov.におけるNational Center for Biotechnology Informationにおいて見出される。「ゲノム」は、核酸配列中で発現する有機体又はウイルスの完全な遺伝情報を指す。

各種の実施形態において、参照配列は、それに整列されるリードよりも著しく大きい。例えば、これは、少なくとも約100倍大きくてもよく、又は少なくとも約1000倍大きくてもよく、又は少なくとも約10,000倍大きくてもよく、又は少なくとも約10⁵倍大きくてもよく、又は少なくとも約10⁶倍大きくてもよく、又は少なくとも約10⁷倍大きくてもよい。

1つの例において、参照配列は、全長ヒトゲノムのものである。このような配列は、ゲノム参照配列と称され得る。別の例において、参照配列は、染色体13等の特定のヒト染色体に限定される。いくつかの実施形態において、参照Y染色体は、ヒトゲノムバージョンhg19からのY染色体配列である。このような配列は、染色体参照配列と称され得る。参照配列の他の例としては、他の種のゲノム、及び任意の種の染色体、部分染色体領域(例えば、鎖)等が挙げられる。

各種の実施形態において、参照配列は、複数の個体に由来する、共通配列又は他の組み合わせである。しかしながら、ある特定の適用において、参照配列は、特定の個体から取得され得る。

「由来する」という用語は、核酸又は核酸の混合物の文脈で使用される場合、本明細書において、それによって、核酸が、それらが起源である供給源から得られることを意味することを指す。例えば、1つの実施形態において、2つの異なるゲノムに由来する核酸の混合物は、核酸、例えば、cfDNAが、ネクロシス又はアポトーシス等の天然に生じるプロセスによって、細胞により天然に放出されることを意味する。別の実施形態において、2つの異なるゲノムに由来する核酸の混合物は、核酸が、対象からの2つの異なる種類の細胞から抽出されたことを意味する。例えば、核酸の混合物は、臓器移植の対象から得られた、提供者の細胞及び被提供者の細胞が起源の核酸を含む。いくつかの実施において、核酸の混合物は、2以上のコントリビューター個体の生体材料を含む。例えば、2以上の個体の生体材料を含む法医学試料は、2以上の個体のDNAを含む。

「に基づく」という用語は、特定の定量的な値を得る文脈で使用される場合、本明細書において、出力としての特定の定量的な値を計算するための入力として、別の量を使用することを指す。

「生体液」という用語は、本明細書において、生物学的供給源から取得された液体を指し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙液、唾液等を含む。本明細書で使用される場合、「血液」、「血漿」及び「血清」という用語は、明確に、その画分又は加工された部分を包含する。同様に、試料が、生検、スワブ、スメア等から取得される場合、「試料」は、明確に、生検、スワブ、スメア等に由来する加工された画分又は部分を包含する。

本明細書で使用される場合、「に相当する」という用語は、時には、核酸配列、例えば、遺伝子又は染色体を指し、これは、異なる対象のゲノム中に存在し、必ずしもすべてのゲノム中で同じ配列を有さないが、目的の配列、例えば、遺伝子又は染色体の遺伝情報ではなく、むしろ同一性を提供する働きをする。

「コントリビューター」という用語は、本明細書において、ヒトコントリビューター、及び哺乳動物、無脊椎動物、脊椎動物、真菌、酵母、バクテリア及びウイルス等の非ヒトコントリビューターを指す。ヒト及び言語に関する本明細書における例は、ヒトの関心に主に向けられているが、本明細書に開示される概念は、任意の植物又は動物からのゲノムに適用可能であり、獣医学、動物科学、研究所等の分野において有用である。

本明細書で使用される「感受性」という用語は、目的の状態が存在する場合、試験結果が陽性である確率を指す。これは、真陽性を、真陽性及び偽陰性の合計で割った数として計算され得る。

本明細書で使用される「特異性」という用語は、目的の状態が非存在である場合、試験結果が陰性である確率を指す。これは、真陰性を、真陰性及び偽陽性の合計で割った数として計算され得る。

本明細書で使用される場合、「プライマー」という用語は、伸長産物の合成を誘発する条件下に置かれた場合(例えば、条件には、ヌクレオチド、DNAポリメラーゼ等の誘発剤、並びに適切な温度及びpHを含む)、合成の開始点として働く能力がある単離されたオリゴヌクレオチドを指す。プライマーは、好ましくは、増幅における最大効率のためには一本鎖であるが、或いは、二本鎖であってもよい。二本鎖の場合、プライマーは、伸長産物を調製するために使用される前に、その鎖を分離するために最初に処理される。好ましくは、プライマーは、オリゴデオキシリボヌクレオチドである。プライマーは、誘発剤の存在中、伸長産物の合成をプライミングするのに十分長くなければならない。プライマーの正確な長さは、温度、プライマーの供給源、方法の使用、及びプライマー設計のために使用されるパラメータを含む、多くの因子に依存する。

導入
本開示は、2人以上のコントリビューターの未知の遺伝子型の核酸を含む核酸混合物試料の定量化及び解析のための方法並びにシステムを提供し、各種の利点及び技術的な改善を提供する。例えば、いくつかの実施は、確率混合モデル化、ベイズ推論技術、及び数値最適化方法を適用して、コントリビューターの遺伝子型を知ることなく、混合物中のコントリビューターのDNAを定量化する。

密接に関連しているゲノムの核酸(例えば、DNA又はRNA)混合物からの配列決定データは、研究においてだけでなく、臨床の状況においても頻繁に見られ、混合されたコントリビューターを定量化することは、元のゲノムが未知である場合に、課題であった。

キメラ化分析(骨髄及び血液幹細胞移植のみのため)の従来の方法は、ショートタンデムリピート(STR)又は小さな挿入及び欠失(Indels)の、キャピラリー電気泳動(CE)断片分析又は定量的ポリメラーゼ連鎖反応(qPCR)分析を利用する。これらの方法は、定量化、ダイナミックレンジ又は再現性の限界が劣る傾向がある。これらは、限定された標的の数、複雑なワークフロー、時間がかかり、分析のための不正確な手動での入力を有する。従来の方法は、これらの異なる測定基準の中に含まれる傾向がある。CEアプローチは、1%～5%の範囲のLOQを有し、低い再現性に悩まされる。これらの限界は、臨床使用において大きな影響を与え得る。例えば、99%の実際のキメラ化の結果は、100%として報告される。qPCRアプローチは、0.1%の低いLOQを達成することができるが、これは、純粋なベースライン試料のために必要なDNAを考慮しなくても、66ng以上のキメラ化DNAが必要である。固形臓器移植のための所定のcfDNA分析では、66ngも10ngも不可能である。加えて、ダイナミックレンジのqPCRに基づくキメラ化には弱点があり、マイナーなコントリビューターが30%超である場合のキメラ化の予測は信頼できない。

高い投入DNA要件を考慮すると、CE及びqPCRアプローチは、骨髄又は血液幹細胞移植にのみ適用可能である。どちらのアプローチも、典型的な採血からのcfDNAの量が10ngをはるかに下回る、固形臓器移植モニタリングには有効ではない。加えて、同じ量でさえ、cfDNAは、PCRの鋳型として、gDNAほど有効ではない。

高いDNA投入要件以外に、CE及びqPCRアプローチは両方とも、適用可能な純粋な移植前のベースライン試料を必要とする。これらはまた、複雑なアッセイに関連し、定量化の前に適切なマーカーを選択する手動での介入を必要とする。

これらに加えて、既存の方法は機能しないが、本発明者らの方法が体系的に対処する、キメラ化の定量化における2つの基本的な課題が存在する。

第1の課題は、2人以上の提供者による移植に相当する、2人を超えるコントリビューターによるキメラ化試料を定量化することである。複数の提供者の移植は、骨髄及び血液幹細胞移植では一般的である。これはまた、固形臓器移植、例えば、以前の腎不全の後の2回目の腎臓移植、又は固形臓器移植が他の提供者からの輸血と同時に起こる場合に生じる。

第2の課題は、コントリビューターの1人が未知である場合に、キメラ化試料を定量化することである。これは、臨床の状況、例えば、1)提供者のゲノムが入手可能ではない場合、2)複数の提供者の場合において、前の臓器の提供者のゲノムが入手可能ではない場合、又は3)固形臓器移植の受容者が未知の提供者から輸血も受けた場合に、頻繁に生じる。

従来の方法は、これらの課題に対応していないが、本明細書に開示される方法は、未知の提供者が存在する場合に、キメラ化試料を正確に定量化することができる。提供者が1人だけの場合、提供者又は受容者のゲノムはいずれも、開示される方法を使用するのに必要ではない。更に、開示される方法は、任意の数の提供者で機能し得る。いくつかの経験的な研究は、4人の提供者に対する開示される方法の性能を検証し、10ngの総gDNAの投入で、0.35%未満のLOQが達成された。

いくつかの実施において、開示される方法は、3ng程度の低いcfDNA投入で、0.1%～0.2%のLOQを達成し、0.1%～99.9%の広範なダイナミックレンジを達成する。いくつかの実施は、既知であるベースラインゲノムを必要としないが、ベースラインを知ることにより、性能を改善することができる。開示される方法は、任意の数の提供者のキメラ化試料で機能し、0～4人の提供者の試料について実験的に検証されており、これは、固形臓器移植、骨髄移植及び造血幹細胞移植についての臨床的に関連するほぼすべての事例を網羅する。加えて、開示される方法は、ゲノムマーカーの選択において任意の手動での介入を必要とせず、核酸の定量化のデジタル化及び自動化を可能にする。

いくつかの実施は、血液のcfDNA又はgDNA試料の複数のマーカーを標的とする再配列決定データから、コントリビューターのDNAを定量化するための方法及びシステムを提供する。いくつかの実施は、新しい確率モデル及び数値最適化法を使用して、血液のcfDNA又はgDNA試料の複数のマーカーを標的とする再配列決定データから、コントリビューターのDNAを定量化するための方法及びシステムを提供する。いくつかの実施は、ベイズモデル化を、遺伝的関係をコード化する事前分布とともに使用して、未知の遺伝子型の遺伝的に関連する提供者及び受容者について、コントリビューターのDNAを定量化するための方法及びシステムを提供する。遺伝的関係の情報を使用してベイズのフレームワークにおいて事前情報を提供することによって、DNA混合物の定量化は、遺伝的関係の情報を使用しない方法と比較して、改善され得る。

いくつかの実施は、log尤度関数の推定されたヘッセ行列からクラメール-ラオの限界を数字的にコンピューティングすることによって、DNA定量化の信頼区間を推定するための方法及びシステムを提供する。

短い配列決定リードマッピングにおける対立遺伝子バイアスは、DNA定量化を交絡させる。いくつかの実施において、本発明者らは、バリアント部位にまたがるリードの不偏マッピング戦略によって、交絡効果を低減する。

本明細書に記載の実施は、与えられたゲノムの遺伝子型が完全に未知であっても、コントリビューターのDNAの割合を正確に推定することができる。PCR増幅後のマーカー部位の対立遺伝子の割合は、ベータ分布で容易にモデル化することができる。

参照及び代替の対立遺伝子の両方を含有する不偏参照DNA配列データベースを使用して、参照対立遺伝子に対するリードマッピングのバイアスを除去することができ、バリアント部位における対立遺伝子カウント及び配列決定のエラーを容易に推定することができる。

本明細書に記載の実施は、混合物DNA試料の単一配列決定の実行により、予想されるコントリビューターのDNAの割合の信頼区間を推定することができる。

形式的に、コントリビューターのDNA定量化(CDQ)の問題は、以下のように述べられる。1人又は複数人のコントリビューターで構成されるDNA試料の配列決定データを考慮して、試料中のそれぞれのコントリビューターの割合を決定する。コントリビューターのゲノムの遺伝子型が未知の場合、CDQの問題は、盲検法のコントリビューターのDNA定量化(盲検CDQ)と称され;逆は、非盲検CDQと称される。いくつかの実施に関するいくつかの説明は、提供者及び受容者として2人のコントリビューターを指すが、これらは、本方法の適用を臓器提供の状況に限定しない。いくつかの実施に関する本明細書の以下のいくつかの説明において、コントリビューターは、提供者と同等であり、他のコントリビューターは、被提供者と同等である。

盲検CDQは、非盲検CDQと比較してより難しい問題であり、しかし、これは、混合物試料の単一配列決定実験のみが達成可能であるすべてのシナリオに広く適用されるが、非盲検CDQは、コントリビューター(例えば、臓器提供者及び受容者)の遺伝子型を決定するために事前の配列決定実験が必要である。

本文書に記載のコンピューターによる方法は、1人、2人又は複数人のコントリビューターによる盲検CDQ及び非盲検CDQの問題の両方に対応する。

図1A～図1Cは、コントリビューターのDNA定量化のために設計された方法及び統計モデルの概略を示す。図1Aは、同種のDNA検出に基づく配列決定のための実験パイプラインを示す。図1Bは、対立遺伝子をカウントするための不偏リードのマッピングのワークフローを示す。図1Cは、マーカーの遺伝子座あたりの対立遺伝子カウントについての、階層的確率混合モデルを示す。

いくつかの実施は、図1Aに表現される実験パイプラインに適用する。この一般的な実験パイプラインは以下の工程を有する。
1)複数の遺伝的起源からDNAを含有する血液又は他の種類の試料を得る。
2)適切な種類のDNA、例えば、細胞DNA(gDNAとも称される)又は無細胞DNA(cfDNA)を、適用に応じて抽出する。
3)ゲノムの特異的バリアント部位又は多型部位を、PCR増幅又はハイブリダイゼーション等のアプローチによって標的化及び濃縮する。バリアント部位は、ヒト(又は目的の別の有機体)の多様な集団の中から可変になるようにあらかじめ選択される。或いは、非標的化(全ゲノム)配列決定を行うことができ、すべてのバリアント部位が網羅される。
4)DNA試料を、目的のバリアント部位を網羅する配列決定リードを得るために、本明細書の以下に記載のもののいくつか等のNGS又は他のDNA配列決定技術によって配列決定する。

CDQのためのコンピューターによる方法は、3つの主要な構成要素を有する:
1)対立遺伝子のカウント:それぞれの標的マーカー部位についてのそれぞれの対立遺伝子からの配列決定リードの不偏にカウントするためのハッシング及びダイナミックプログラミングに基づくコンピュータープログラム(図1B)。
2)コントリビューターのDNA定量化:階層的確率モデル、及びマルチ反復グリッド検索、及びBFGS-準ニュートン法の新規な組み合わせ、又はいくつかの実施において、コントリビューターのDNAの割合を定量化するための反復加重線形回帰(図1c)。
3)信頼区間(不確定)決定:定量化された混合物の割合の周辺で、分散を、情報不平等に基づいてlog尤度関数のヘッセ行列に基づいて決定する。

キメラ化の定量のためのこれらの構成要素の全体は、人間の専門家によって手動で実行すること、又は人間の専門家の頭の中で行うことは不可能である。これらはコンピューターを必要とし、コンピューター実行技術である。これらのコンピューターによる構成要素は、開示される方法を、比類がない定量化の感受性、ダイナミックレンジ及び再現性を達成するものにする。これらはまた、開示される方法が、cfDNA又はgDNAが3～10ng以上の投入DNA、0～4以上の提供者、及び既知若しくは未知のゲノムを有する遺伝的に関連又は非関連の提供者を含む多様なキメラ化試料のセットを確実に定量化できるようにする。

いくつかの実施は、ここで、「相対定量化」のみを対象とするが、実施が、絶対量(質量又はコピー数に関して)よりもむしろ、コントリビューター源が起源のDNA試料の百分率又は割合を推定することを意味する。投入DNAの総量が測定されるか、又は既知の場合に、相対存在量を絶対存在量に変換する追加の工程を取ることができる。

核酸試料中のコントリビューターの割合を定量化するためのプロセスの概略
図2Aは、核酸試料中の1人又は複数人のコントリビューターの核酸(例えば、DNA又はRNA)の1つ又は複数の割合を定量化するためのプロセス200を説明するブロック図を示す。この方法は、本明細書の以下に記載するシステム等の、1つ又は複数のプロセッサ及びシステムメモリを含むコンピューターシステムで実施される。本明細書における説明は、いくつかの実施及び適用におけるDNAを指すが、当業者は、本明細書に記載の実施を使用して、他の形態の核酸も分析することができることを理解する。本明細書に記載の各種の実施は、1人又は複数人のコントリビューターからの核酸を含有する核酸試料を分析するために使用することができる。いくつかの実施において、方法及びシステムは、1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化するために提供される。本明細書におけるいくつかの説明において、試料は2人を超えるコントリビューターからの核酸を含むことができるので、核酸試料は、混合物試料と称される。しかしながら、「混合物」という用語の使用は、試料が2人以上のコントリビューターの核酸を含む可能性を示すことが理解され、試料が1人のコントリビューターのみからの核酸を含む可能性を排除するものではない。後者の場合において、1又は100%の百分率の割合(又はエラーの限度内の値)は、1人のコントリビューターについて決定されてもよい。

いくつかの実施において、核酸試料の1人又は複数人のコントリビューターは、移植の提供者及び移植の被提供者を含む。いくつかの実施において、移植は、同種又は異種移植を含む。いくつかの実施において、核酸試料は、被提供者から得られた生体試料である。いくつかの実施において、核酸試料は、無細胞核酸を含む。いくつかの実施において、試料は、細胞DNAを含む。いくつかの実施において、核酸試料は、ゼロ、1つ又は複数の混入ゲノム、及び目的の1つのゲノムからの核酸を含む。いくつかの実施において、核酸試料は、細胞培養から得られた生体試料を含み、これは、いくつかの実施において異なる遺伝的起源の複数の細胞株の混合物であり得る。

プロセス200は、本明細書に記載のもの等の技術を使用して、核酸試料から核酸分子を抽出する工程を含む。ブロック202を参照のこと。

プロセス200は、抽出された核酸分子を増幅又は濃縮する工程を更に含む。ブロック204を参照のこと。本明細書に記載のもの等の各種の増幅又は濃縮技術が使用され得る。いくつかの実施において、PCRは、抽出された核酸分子を増幅するために使用される。いくつかの実施において、増幅は、特異的多型を標的にし、この増幅は、標的化濃縮とも称される。他の実施において、全ゲノム増幅を行ってもよく、特異的多型部位についての対立遺伝子データは、配列決定によって得られ得る。

プロセス200は、核酸配列リードを生成する核酸配列決定装置を使用して、増幅又は濃縮された核酸分子を配列決定する工程も含む。ブロック206を参照のこと。各種の配列決定技術及びデバイスを、本明細書の以下に更に記載し、これは、操作206において適用され得る。

プロセス200は、核酸配列リードを参照配列上の1つ又は複数の多型遺伝子座にマッピングする工程を更に含む。いくつかの実施において、整列技術は、核酸配列リードを1つ又は複数の多型遺伝子座にマッピングするために使用され得る。他の実施において、不偏マッピング技術は、核酸配列リードを多型遺伝子座にマッチさせるために使用され得る。ブロック208を参照のこと。いくつかの実施において、核酸配列リードは、多型遺伝子座における特異的対立遺伝子にマッピングされる。不偏マッピング技術を、本明細書の以下に更に記載する。いくつかの実施において、1つ又は複数の多型遺伝子座(又は多型性遺伝子座)は、二対立遺伝子の遺伝子座を含む。いくつかの実施において、1つ又は複数の多型遺伝子座における対立遺伝子は、一塩基多型(SNP)対立遺伝子を含む。

いくつかの実施において、固有の分子インデックス(UMI)は、抽出された核酸分子に付着され、これは、その後、増幅、配列決定及び多型遺伝子座又は対立遺伝子にマッピングされる。固有の分子インデックスは、試料の加工及び分析工程において生じ得るエラーを低減するための機構を提供する。例えば、同じ固有の分子インデックス(UMI)を共有する異なるリードを、組み合わせ又は崩壊させて、リードが由来する配列を決定し、増幅及び配列決定の間に生じるエラーを効果的に除去する。

プロセス200は、本方法を使用して、核酸配列リード、1つ又は複数の多型遺伝子座における対立遺伝子についての核酸配列リードの対立遺伝子カウントを決定する工程を更に含む。ブロック210を参照のこと。

プロセス200は、確率混合モデルを核酸配列リードの対立遺伝子カウントに適用する工程も含む。確率混合モデルは、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化する。確率分布は、核酸配列リードにおけるエラー及びノイズを説明する。確率混合モデルは、確率分布からのランダム試料として、核酸配列リードのそれぞれの対立遺伝子カウントを処理する。

本明細書の以下の方程式において、下記の表記法を使用する。

d:提供者についての指標、d=1、2...、Dであり、ここで、Dは、コントリビューターの総数である。Dは、任意の自然数であり得る。いくつかの実施において、Dは5以下である。いくつかの実施において、Dは9以下である。

a:対立遺伝子についての指標。いくつかの実施において、対立遺伝子は、二対立遺伝子のSNPを含み、a=1又は2である。

i:マーカーの遺伝子座についての指標、i=1...Iであり、ここで、Iは、マーカーの総数、例えば300である。

g_dai:マーカーiについてのコントリビューターdの対立遺伝子の種類aの遺伝子型。これは、0、1又は2の値を取り、このコントリビューターにおけるこの遺伝子座についての対立遺伝子aのコピーの数を表す。

n_ai、n_ai'、n_ai'': 対立遺伝子の種類a及びマーカーの遺伝子座iの、リードのコピー、増幅後のDNA分子及び増幅前のDNA分子。

n_i、n_i'、n_i'': マーカーの遺伝子座iについての、リードの総コピー、増幅後の核酸分子及び増幅前のDNA分子。

r_ai:対立遺伝子の種類a及びマーカーの遺伝子座iについてのリードカウントの割合。

p_ai:所与のマーカーの遺伝子座iにおける対立遺伝子の種類aのリードを見る確率。

g_dai、n_ai、n_ai'、n_ai''、n_i、n_i'、n_i''、r_ai及びp_aiについて、下付き文字のiは、実施が単一の遺伝子座に焦点を合わせる場合、時に省略される。

β_d:混合物試料を提供するコントリビューターdからの核酸の割合。

λ:配列決定のエラー率。

太字は、ベクトル又は行列を表す。

g=[g_d1i]_{i=1...I,d=1...D}:すべてのコントリビューター及びすべての遺伝子座における参照対立遺伝子カウントを有する遺伝子型の行列。

g_i=[g_d1i]_d=1...D:すべてのコントリビューター及び所与の遺伝子座iについての参照対立遺伝子カウントを有する遺伝子型のベクトル。

r=[r_1i]_i=1...I:すべての遺伝子座についての対立遺伝子1リードの割合を有する、対立遺伝子の割合のベクトル。

n=[n_i]_i=1...I:すべての遺伝子座についてのリードカウントを有するリードカウントのベクトル。

p=[p_1i]_i=1...I:すべての遺伝子座について予想される対立遺伝子1の割合を有するベクトル。

β=[β_d]_d=1...D.:核酸試料を提供するそれぞれのコントリビューターの相対割合を有する、コントリビューターの割合のベクトル。

いくつかの実施において、確率混合モデルは、単一遺伝子座尤度関数を使用して、単一多型遺伝子座における対立遺伝子カウントをモデル化し、単一遺伝子座尤度関数は、
M(n_1i,n_2i|p_1i,θ)
(ここで、n_1iは、遺伝子座iにおける対立遺伝子1の対立遺伝子カウントであり、n_2iは、遺伝子座iにおける対立遺伝子2の対立遺伝子カウントであり、p_1iは、遺伝子座iにおける対立遺伝子1の予想される割合であり、θは、1つ又は複数のモデルのパラメータを含む)として表され得る。

いくつかの実施において、p_1iは、(i)遺伝子座iにおけるコントリビューターの遺伝子型、又はgi=(g_11i,...,g_D1i)(これは、コントリビューター1...Dにおける遺伝子座iでの対立遺伝子1のコピー数のベクトルである);(ii)配列決定から生じる、リードカウントのエラー又はλ;及び(iii)核酸試料中のコントリビューターの核酸の割合、又はβ=(β₁,...,β_D)(ここで、Dは、コントリビューターの数である)の関数p(g_i,λ,β)としてモデル化される。

いくつかの実施において、p_1iは、p_1i=p(g_i,λ,β)←[(1-λ)g_i+λ(2-g_i)]/2・β(ここで、・は、ベクトル内積演算子である)として計算される。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、p_1iは、本明細書の以下に記載のTable 3(表3)におけるp₁'値を使用して得られる。

いくつかの実施(方法S)において、単一遺伝子座尤度関数は、第1の二項分布を含む確率分布である。いくつかの実施において、第1の二項分布は、遺伝子座における総対立遺伝子カウントを示す量のパラメータ、及び遺伝子座における第1の対立遺伝子の確率を示す高い確実性のパラメータを含む。いくつかの実施において、第1の二項分布は、以下:
n_1i～BN(n_i,p_1i)
(ここで、n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり;n_iは、遺伝子座iにおける総リードカウントであり;p_1iは、遺伝子座iにおける対立遺伝子1の確率を示す確率パラメータである)のように表される。

いくつかの実施において、確率パラメータpは、コントリビューターの核酸の割合の関数、又はβである。高い確実性のパラメータは、1人又は複数人のコントリビューターの遺伝子型の割合gでもある。確率パラメータは、206の配列決定操作から生じるエラーの関数、又はλでもある。いくつかの実施において、コントリビューターの0、1つ又は複数の遺伝子型は、未知であった。いくつかの実施において、確率混合モデルは、図2Bに示す各種の確率分布を含む。

図2Aに戻って、プロセス200は、確率混合モデルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程を含む。ブロック214を参照のこと。いくつかの実施において、定量化する工程は、遺伝子型の多数の可能な組み合わせにについて周辺化して、確率パラメータpを数える工程を含む。いくつかの実施において、定量化する工程は、確率混合モデルのパラメータを条件として操作210で決定される核酸配列リードの対立遺伝子カウントの複数遺伝子座尤度関数を使用して、コントリビューターの核酸の割合であるβを決定する工程を含む。

いくつかの実施において、定量化は、多数の潜在的な割合値及び核酸配列リードの対立遺伝子カウントの複数遺伝子座尤度関数を使用して、多数の尤度値を計算する工程を含む。定量化は、多数の尤度値の中で最大値である尤度値に関連する潜在的な割合値を特定する工程も含む。いくつかの実施において、多数の尤度値は、多次元グリッドにおけるそれらの多数のパラメータ及び値について得られる。定量化は、最大の尤度を有する、特定された潜在的な割合値において、核酸試料中のコントリビューターの核酸の割合を定量化する工程も含む。いくつかの実施において、複数遺伝子座尤度関数は、1つ又は複数の多型遺伝子座についての多数の周辺分布を含む。

いくつかの実施において、既知、未知若しくは部分的に既知の遺伝子型を有する1人又は複数人のコントリビューターの複数遺伝子座尤度関数は、以下:
L(β,θ,λ,π;n₁,n₂)=Π_i[Σg_iM(n_1i,n_2i|p(g_i,λ,β),θ)・P(g_i|π)]
(ここで、L(β,θ,λ,π;n₁,n₂)は、対立遺伝子1及び2に対する対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり;p(g_i,λ,β)は、遺伝子座iにおけるコントリビューターの遺伝子型g_iに基づいて遺伝子座iにおける対立遺伝子1で観察される予想される割合又は確率であり;P(g_i|π)は、集団対立遺伝子頻度(π)を仮定した場合の遺伝子座iにおける遺伝子型g_iを観察する事前確率であり;Σg_iは、コントリビューターの遺伝子型の多数の可能な組み合わせにわたる総和を表す)のようにコンピューターで計算され、いくつか又はすべてのコントリビューターについての既知の遺伝子型の制約に付される。

いくつかの実施において、すべての遺伝子型は既知であり、複数遺伝子座尤度関数は、L(β,θ,λ,π;n₁,n₂)=Π_i[M(n_1i,n_2i|p(g_i,λ,β),θ)・P(g_i|π)]のコントリビューターについての既知の遺伝子型の組み合わせを表す遺伝子型のベクトルg_iを使用して、コンピューターで計算される。

いくつかの実施において、確率混合モデルは、202において行われる核酸分子を抽出する工程から生じる核酸分子の数のエラー、及び206における配列決定操作から生じるリードカウントのエラーを説明する。

いくつかの実施において、確率混合モデルは、第2の二項分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての抽出された核酸分子の対立遺伝子カウントをモデル化する。いくつかの実施において、第2の二項分布は、以下:
n_1i''～BN(n_i'',p_1i)
(ここで、n_1i''は、遺伝子座iにおける対立遺伝子1についての抽出された核酸分子の対立遺伝子カウントであり;n_i''は、遺伝子座iにおける総核酸分子カウントであって、これは、総ゲノムコピー数n''に等しく;p_1iは、遺伝子座iにおける対立遺伝子1の確率を示す確率パラメータである)のように表される。

いくつかの実施において、第1の二項分布は、対立遺伝子割合n_1i''/n_i''を条件としたものである。いくつかの実施において、第1の二項分布は、以下:
n_1i～BN(n_i,n_1i''/n_i'')
(ここで、n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントである)のように再パラメータ化される。

いくつかの実施において、確率混合モデルは、第1のベータ分布を使用して、n_1i''/n_i''の分布を近似する。いくつかの実施において、第1のベータ分布は、第2の二項分布の平均及び分散とマッチする平均及び分散を有する。

いくつかの実施において、遺伝子座iは、二対立遺伝子としてモデル化され、第1のベータ分布は、以下:
n_1i''/n''～Beta((n''-1)p_1i,(n''-1)p_2i)
(ここで、p_1iは、遺伝子座iにおける第1の対立遺伝子の確率を示す確率パラメータであり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率を示す確率パラメータである)のように表される。

いくつかの実施において、本方法は、第1のベータ-二項分布に従うn_1iの単一遺伝子座尤度関数を得るために、配列決定リードカウントをモデル化する第1の二項分布、及び抽出された核酸分子数をモデル化する第1のベータ分布を組み合わせる工程を含む。

いくつかの実施において、第1のベータ-二項分布は、形式:
n_1i～BB(n_i,(n''-1)・p_1i,(n''-1)・p_2i)、
又は代替の近似:
n_1i～BB(n_i,n''・p_1i,n''・p_2i)
を有する。

いくつかの実施において、複数遺伝子座尤度関数は、
L(β,n'',λ,π;n₁,n₂)=Π_i[Σ_giBB(n_1i|n_i,(n''-1)・p_1i,(n''-1)・p_2i)・P(g_i|π)]
(ここで、L(β,n'',λ,π;n₁,n₂)は、すべての遺伝子座における対立遺伝子1及び2についての対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり、p_1i=p(g_i,λ,β)であり、p_2i=1-p_1iである)として表すことができる。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、複数遺伝子座尤度関数は、
L(β,n'',λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i,n_2i|n_i,(n''-1)・p_1i(g_1i,g_2i,λ,β),(n''-1)・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(β,n'',λ,π;n₁,n₂)は、パラメータβ、n''、λ及びπを仮定した場合の、すべての遺伝子座の第1の対立遺伝子についての対立遺伝子カウントのベクトル(n₁)並びにすべての遺伝子座の第2の対立遺伝子についての対立遺伝子カウントのベクトル(n₂)を観察する尤度であり;p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、Table 3(表3)からp₁'として取られる確率パラメータであり;p_2i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子2の確率を示す、Table 3(表3)からp₂'として取られる確率パラメータであり;P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の、遺伝子座iにおける、第1の対立遺伝子についての第1のコントリビューターの遺伝子型(g1i)、及び第1の対立遺伝子についての第2のコントリビューターの遺伝子型(g2i)を観察する事前同時確率である)のように表される。

いくつかの実施において、操作214は、抽出された核酸分子の集合から、抽出された総ゲノムコピー数n''を推定する工程を含む。いくつかの実施において、推定された抽出された総ゲノムコピー数n''は、本明細書の以下に更に記載する抽出された核酸分子の断片サイズに従って調整される。

いくつかの実施において、確率混合モデルは、204において行われる核酸分子を増幅する工程から生じる核酸分子の数のエラー、及び206における配列決定操作から生じるリードカウントのエラーを説明する。いくつかの実施において、核酸の増幅プロセスは、以下:
x_t+1=x_t+y_t+1
(ここで、x_t+1は、増幅のt+1サイクル後の所与の対立遺伝子の核酸コピーであり;x_tは、増幅のtサイクル後の所与の対立遺伝子の核酸コピーであり;y_t+1は、t+1サイクルで発生する新たなコピーであり、これは、二項分布y_t+1～BN(x_t,r_t+1)に従い;
r_t+1は、t+1サイクルについての増幅速度である)のようにモデル化される。

いくつかの実施において、確率混合モデルは、第2のベータ分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての増幅された核酸分子の対立遺伝子の割合をモデル化する。いくつかの実施において、遺伝子座iは、二対立遺伝子としてモデル化され、第2のベータ分布は、以下:
n_1i'/(n_1i'+n_2i')～Beta(n''・ρ_i・p_1i,n''・ρ_i・p_2i)
(ここで、n_1i'は、遺伝子座iにおける第1の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n_2i'は、遺伝子座iにおける第2の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n''は、任意の遺伝子座における総核酸分子カウントであり;ρ_iは、すべての増幅サイクルにわたる平均増幅速度r_iに関する定数であり:p_1iは、遺伝子座iにおける第1の対立遺伝子の確率であり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率である)のように表される。いくつかの実施において、ρ_iは、(1+r_i)/(1-r_i)/[1-(1+r_i)^-t]である。いくつかの実施において、ρ_iは、(1+r_i)/(1-r_i)として近似される。

いくつかの実施において、操作214は、第2のベータ-二項分布に従うn_1iについての単一遺伝子座尤度関数を得るために、第1の二項分布及び第2のベータ分布を組み合わせる工程を含む。いくつかの実施において、第2のベータ-二項分布は、形式:
n_1i～BB(n_i,n''・ρ_i・p_1i,n''・ρ_i・p_2i)
(ここで、n_1iは、遺伝子座iにおける第1の対立遺伝子についての核酸配列リードの対立遺伝子カウントであり;p_1iは、遺伝子座iにおける第1の対立遺伝子の確率を示す確率パラメータであり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率を示す確率パラメータである)を有する。

いくつかの実施において、操作214は、1つ又は複数の多型遺伝子座が同じ増幅速度を有することを仮定することによって、
n_1i～BB(n_i,n''・(1+r)/(1-r)・p_1i,n''・(1+r)/(1-r)・p_2i)
(ここで、rは、増幅速度である)として第2のベータ-二項分布を再パラメータ化する工程を含む。

いくつかの実施において、操作214は、第2のベータ-二項分布を使用して得られる複数遺伝子座尤度関数を使用する核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程を含み、複数遺伝子座尤度関数は、以下:
L(β,n'',r,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,n''・(1+r)/(1-r)・p_1i,n''・(1+r)/(1-r)・p_2i)・P(g_i|π)]
の通りである。

いくつかの実施において、コントリビューターは2人のコントリビューターを含み、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2i[BB(n_1i|n_i,n''・(1+r)/(1-r)・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/(1-r)・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)]
(ここで、L(β,n'',r,λ,π;n₁,n₂)は、パラメータβ、n''、r、λ及びπを仮定した場合の、すべての遺伝子座の第1の対立遺伝子についての対立遺伝子カウントのベクトル(n₁)及びすべての遺伝子座の第2の対立遺伝子についての対立遺伝子カウントのベクトル(n₂)を観察する尤度である)を含む。

いくつかの実施において、操作214は、遺伝子座あたり総リードに比例するものとしてそれぞれの多型遺伝子座の相対増幅速度を定義することによって、
n_1i～BB(n_i,c'・n_i・p_1i,c'・n_i・p_2i)
(ここで、c'は、最適化されるパラメータである)として第2のベータ-二項分布を再パラメータ化する工程を含む。

いくつかの実施において、操作214は、第2のベータ-二項分布を使用して得られる複数遺伝子座尤度関数を使用する核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程を含み、複数遺伝子座尤度関数は、以下:
L(β,n'',c',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,c'・n_i・p_1i,c'・n_i・p_2i)・P(g_i|π)]
に従う。

いくつかの実施において、確率混合モデルは、202において行われる核酸分子を抽出する工程及び204において行われる核酸分子を増幅する工程から生じる核酸分子数のエラー、並びに206における配列決定操作から生じるリードカウントのエラーを説明する。

いくつかの実施において、確率混合モデルは、第3のベータ分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての増幅された核酸分子の対立遺伝子の割合をモデル化し、202において行われる核酸分子を抽出する工程及び204において行われる核酸分子を増幅する工程から生じる試料抽出のエラーを説明する。いくつかの実施において、遺伝子座iは、二対立遺伝子としてモデル化され、第3のベータ分布は、形式:
n_1i'/(n_1i'+n_2i')～Beta(n''・(1+r_i)/2・p_1i,n''・(1+r_i)/2・p_2i)
(ここで、n_1i'は、遺伝子座iにおける第1の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n_2i'は、遺伝子座iにおける第2の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;n''は、総核酸分子カウントであり;r_iは、遺伝子座iについての平均増幅速度であり:p_1iは、遺伝子座iにおける第1の対立遺伝子の確率であり;p_2iは、遺伝子座iにおける第2の対立遺伝子の確率である)を有する。

いくつかの実施において、操作214は、第3のベータ-二項分布に従うn_1iの単一遺伝子座尤度関数を得るために、第1の二項分布及び第3のベータ分布を組み合わせる工程を含む。いくつかの実施において、第3のベータ-二項分布は、
n_1i～BB(n_i,n''・(1+r_i)/2・p_1i,n''・(1+r_i)/2・p_2i)
(ここで、r_iは、増幅速度である)の形態を有する。

いくつかの実施において、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,n''・(1+r)/2・p_1i,n''・(1+r)/2・p_2i)・P(g_i|π)]
(ここで、rは、すべての遺伝子座について等しいと仮定される増幅速度である)である。

いくつかの実施において、コントリビューターは2人のコントリビューターを含み、複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i|n_i,n''・(1+r)/2・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/2・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(n₁,n₂|β,n'',r,λ,π)は、パラメータβ、n''、r、λ及びπを仮定した場合の、第1の対立遺伝子のベクトルについての対立遺伝子カウントn₁及び第2の対立遺伝子のベクトルについての対立遺伝子カウントn₂を観察する尤度である)である。

いくつかの実施において、プロセス200は、クラメール・ラオの不等式を使用して、1人又は複数人のコントリビューターの核酸の1つ又は複数の割合の1つ又は複数の信頼区間を推定する工程を更に含む。

いくつかの実施において、208のマッピング操作は、多数の不偏標的配列の任意の配列にマッチする核酸配列リードの中のリードを特定する工程を含み、多数の不偏標的配列は、参照配列の部分配列、及び単一ヌクレオチドが部分配列と異なる配列を含む。

いくつかの実施において、多数の不偏標的配列は、多数の多型部位のそれぞれの多型部位を包含する配列の5つのカテゴリー:(i)参照配列の部分配列である参照標的配列であって、多型部位において参照ヌクレオチドを伴う参照対立遺伝子を有する参照標的配列;(ii)多型部位において代替ヌクレオチドを伴う代替対立遺伝子をそれぞれ有する代替標的配列であって、代替ヌクレオチドが参照ヌクレオチドと異なる、代替標的配列;(iii)多型部位ではない部位においてヌクレオチド1つのみが参照標的配列とそれぞれ異なるすべての可能な配列を含む変異参照標的配列;(iv)多型部位ではない部位においてヌクレオチド1つのみが代替標的配列とそれぞれ異なるすべての可能な配列を含む変異代替標的配列;並びに(v)参照対立遺伝子及び代替対立遺伝子と異なる予想外の対立遺伝子をそれぞれ有し、かつ先の4つのカテゴリーの配列と異なる配列をそれぞれ有する、1つ又は複数の予想外の対立遺伝子標的配列を含む。いくつかの実施において、5つのカテゴリーの配列は、同じ長さを有し、ゲノムの同じ領域に位置する。

いくつかの実施において、操作208は、1つ又は複数の多型遺伝子座において対立遺伝子についての核酸配列リードの対立遺伝子カウントを決定するために、同定されたリード及びそれらのマッチする不偏標的配列を使用する工程を含む。いくつかの実施において、多数の不偏標的配列は、核酸配列リードと同じ長さを有するようにトランケートされた配列を含む。いくつかの実施において、多数の不偏標的配列は、1つ又は複数のハッシュテーブルに保存された配列を含み、リードは、その後、ハッシュテーブルを使用して同定される。

いくつかの実施において、プロセス200は、既知の遺伝子型のコントリビューターが、最大化された複数遺伝子座尤度値の2つのバージョンを比較することによって、混合物試料に対して真のコントリビューターであるか否かを決定するための手順を更に含み、1つのバージョンは、コントリビューターの既知の遺伝子型を含有する遺伝子型の行列を使用し、別のバージョンは、コントリビューターの未知の遺伝子型を有する行列を遺伝子型決定するのに使用する。

いくつかの実施において、本方法は、1つ又は複数の多型遺伝子座において1人又は複数人のコントリビューターの1つ又は複数の遺伝子型を決定する工程を更に含む。いくつかの実施において、本方法は、1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を使用して、別のコントリビューター(提供者)から移植された組織又は臓器を1人のコントリビューター(被提供者)が拒絶する危険性を決定する工程を含む。多くの適用において、危険性は、推定されたコントリビューターの割合のみに基づかないか、又は基づき得ない。代わりに、コントリビューターの割合は、危険性を決定するための中間パラメータ又は中間結果として使用される。各種の実施において、他の方法から得られる他のパラメータをコントリビューターの割合と組み合わせて、危険性を決定する。このような他の方法としては、限定されるものではないが、組織生検、血清中クレアチニン測定、HLA-DSA(提供者特異的抗体)分析が挙げられる。

図3は、1人又は複数人のコントリビューターの核酸を含む核酸試料を評価するためのプロセス300を説明するブロック図を示す。プロセス300は、核酸試料から得られた1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子の核酸配列リードを受け取る工程によって開始する。ブロック302を参照のこと。いくつかの実施において、核酸配列リードは、本明細書に記載の各種の技術を使用して、核酸試料中の核酸を配列決定することによって得られた。

いくつかの実施において、固有の分子インデックス(UMI)は、抽出された核酸分子に付着され、これは、次いで、増幅、配列決定及び多型遺伝子座又は対立遺伝子にマッピングされる。固有の分子インデックスは、試料の加工及び分析工程において生じ得るエラーを低減するための機構を提供する。例えば、同じ固有の分子インデックス(UMI)を共有する異なるリードを、組み合わせ又は崩壊させて、リードが由来する配列を決定し、試料の加工及び配列決定の間に生じるエラーを効果的に除去することができる。2016年4月16日に出願された米国特許出願第15/130,668号及び2018年1月5日に出願された米国特許出願第15/863,737号は、固有の分子インデックスを使用する核酸を配列決定するための各種の方法及びシステムを記載しており、これらは、すべての目的のために、それらの全体が、参照によって組み込まれる。

UMIをアッセイにおいて使用する場合、鋳型核酸のPCR増幅から生じる重複DNA分子を単一リードに崩壊させる。このような実験手順に関して、単一遺伝子座リードカウントのための好ましいモデルは、配列決定リードカウントをモデル化する第1の二項分布、及び抽出された核酸分子の数をモデル化する第1のベータ分布を組み合わせる、第1のベータ-二項分布である。

UMIをアッセイにおいて使用しない場合、核酸抽出、増幅及び配列決定はすべて、リードカウントにおける統計学的変動に寄与する。このような実験手順に関して、単一遺伝子座リードカウントのための好ましいモデルは、配列決定リードカウントをモデル化する第1の二項分布、増幅された核酸分子の対立遺伝子の割合をモデル化する第3のベータ分布、及び抽出された核酸分子における対立遺伝子の割合をモデル化する第1のベータ分布を組み合わせる、第3のベータ-二項分布である。

プロセス300は、核酸配列リードを使用して、1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子についての対立遺伝子カウントを決定する工程更にを含む。

プロセス300は、確率混合モデルを対立遺伝子カウントに適用する工程も含む。確率モデルは、確率分布を使用して、1つ又は複数の多型遺伝子座において対立遺伝子の対立遺伝子カウントをモデル化する。確率分布は、対立遺伝子のデータにおけるエラーについてカウントする。エラーは、核酸抽出、試料の加工及び配列決定操作が起源のエラーを含む。

いくつかの実施において、確率分布は、第1の二項分布を含む。いくつかの実施において、第1の二項分布は、遺伝子座における総対立遺伝子カウントを示すパラメータ、及び遺伝子座における第1の対立遺伝子の確率を示す確率パラメータを含む。いくつかの実施において、確率パラメータは、核酸試料中の1人又は複数人のコントリビューターの核酸の割合の関数である。確率パラメータは、1人又は複数人のコントリビューターの遺伝子型の関数又はG、及び核酸配列リードデータにおけるエラーの関数又はθでもある。いくつかの実施において、リードデータにおけるエラーは、核酸抽出、試料の加工及び配列決定操作が起源のエラーを含む。

プロセス300は、モデルパラメータを仮定した場合の対立遺伝子データを観察する尤度値及び潜在的な核酸の割合値を得る工程も含む。ブロック308を参照のこと。

いくつかの実施において、プロセス300は、尤度値を使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の割合を定量化する工程を含む。ブロック310を参照のこと。

いくつかの実施において、プロセス300は、尤度値を使用して、少なくとも1人のコントリビューターについての少なくとも1つの遺伝子型を決定する工程を更に含む。ブロック312を参照のこと。

いくつかの実施において、コントリビューターの遺伝子型は、プロセス300の前に未知であった。

いくつかの実施において、確率混合モデルは、ベータ分布を使用して、対立遺伝子データにおけるエラーをモデル化する。いくつかの実施において、ベータ分布は、平均パラメータ及び濃度パラメータによって規定される。いくつかの実施において、濃度パラメータは、異なるノイズ条件を表す離散事前確率を有する。濃度パラメータは、遺伝子座にわたって異なる。

いくつかの実施において、操作310の定量化は、ベータ-二項分布に従う周辺分布を得るために、第1の二項分布及びベータ分布を組み合わせる工程を含む。

いくつかの実施において、310の定量化は、対立遺伝子データの複数遺伝子座尤度関数を使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の割合を定量化する工程を含む。いくつかの実施において、定量化は、多数の潜在的な割合値及び対立遺伝子カウントの複数遺伝子座尤度関数を使用して、多数の尤度値を計算する工程を含む。定量化は、最大の尤度値に関連する潜在的な割合のベクトルを特定する工程、及び特定された潜在的な割合のベクトルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の割合を定量化する工程も含む。

いくつかの実施において、複数遺伝子座尤度関数は、P(G|π)に依存し、これは、集団対立遺伝子頻度(π)を仮定した場合の1人又は複数人のコントリビューターの遺伝子型の事前確率である。いくつかの実施において、事前確率は、機構的なドロップアウトを表す固定された事前確率を有するダミー対立遺伝子を考慮して計算される。

いくつかの実施において、1人又は複数人のコントリビューターは、2人以上のコントリビューターを含む。いくつかの実施において、プロセス300は、1人又は複数人のコントリビューターにおけるコントリビューターの総数を決定する操作を含む。いくつかの実施において、1人又は複数人のコントリビューターの1つ又は複数の遺伝子型は未知であり、プロセス300は、1つ又は複数の多型遺伝子座のそれぞれの対立遺伝子の構成を決定する操作を含み、対立遺伝子の構成は、1人又は複数人のコントリビューターのそれぞれについての対立遺伝子を含む。いくつかの実施において、プロセス300は、対立遺伝子の構成について推定された確率を決定する操作を含む。

いくつかの実施において、プロセス300は、1人又は複数人のコントリビューターの中で特異的なコントリビューターが特異的遺伝子型を有する事後確率を得る工程を更に含む。いくつかの実施において、プロセス300は、事後確率に基づいて、核酸試料が特異的なコントリビューターからの核酸を含むことを呼び出す工程を更に含む。いくつかの実施において、1人又は複数人のコントリビューターの中で特異的なコントリビューターが特異的遺伝子型を有する事後確率を得る工程は、(i)遺伝子型構成の事前確率を遺伝子型構成の尤度と乗じる工程;(ii)遺伝子型の空間に対する合計によって(i)の積を正規化する工程;及び(iii)事後確率を得るための特異的遺伝子型を含有する遺伝子型構成に対して合計する工程を含む。

いくつかの実施において、特異的遺伝子型は、複数遺伝子座の遺伝子型を含み、この方法は、すべてのコントリビューターに対して、コントリビューターがすべての遺伝子座における特異的遺伝子型を有する事後確率を合計する工程、及び合計された確率に基づいて、任意のコントリビューターに現れる特異的な複数遺伝子座の遺伝子型を決定する工程を更に含む。

いくつかの実施において、核酸試料は、法医学試料であり、複数遺伝子座の遺伝子型のデータは、目的の人々から得られる。本方法は、目的の人々が、核酸試料のコントリビューターであることを決定する工程を更に含む。

いくつかの実施において、確率混合モデルは、二項分布を使用して、対立遺伝子データにおけるスタッターエラーをモデル化する。いくつかの実施において、第2の二項分布は、以下:
s_ik～BN(n_i(k+1),r_i)
(ここで、s_ikは、対立遺伝子kのように見えるが、実際には対立遺伝子k+1のスタッターエラーから生じる、スタッター対立遺伝子の遺伝子座iにおけるスタッター対立遺伝子カウントであり;n_i(k+1)は、遺伝子座iにおける対立遺伝子k+1の元の対立遺伝子カウントであり;r_iは、遺伝子座iについてのスタッター速度である)のように表される。

いくつかの実施において、スタッター速度rは、遺伝子座にわたって異なり、異なるノイズ条件を表す事前確率を有し、この事前確率は、遺伝子座にわたって共有される。

いくつかの実施において、操作310は、非スタッター対立遺伝子カウントの尤度及びスタッター対立遺伝子カウントの尤度の積を含む、複数遺伝子座尤度関数を使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の割合を定量化する工程を含む。

いくつかの実施において、確率混合モデルを適用する工程は、スタッターが潜在的に起源であり得る分子の数を決定する場合、対立遺伝子k+1に割り当てられる対立遺伝子カウントに分子の固定数を追加する工程を含む。

いくつかの実施において、確率混合モデルは、ダミーの試料外対立遺伝子を使用して、天然のドロップアウトをモデル化する。いくつかの実施において、ダミーの試料外対立遺伝子の事前確率は、観察されていない対立遺伝子の数に比例する。いくつかの実施において、観察されていない対立遺伝子の数は、観察された整数値の最短及び最長の対立遺伝子の間のすべての整数を補間する工程、観察された任意の非整数値の対立遺伝子を追加する工程、並びに得られる値及び基準値の最大値を返す工程によって推定される。

いくつかの実施において、確率混合モデルを適用する工程は、使用するデータから遺伝子型構成を切り詰めて、核酸試料中の1人又は複数人のコントリビューターの核酸の割合を定量化する工程を含む。いくつかの実施において、遺伝子型構成を切り詰め工程は、必要な対立遺伝子のリストを構築することによって妥当である遺伝子型構成を限定する工程、及びすべての必要な対立遺伝子を説明するのに十分なコントリビューターを有さない遺伝子座を除外する工程を含む。いくつかの実施において、必要な対立遺伝子のリストは、閾値を上回る対立遺伝子カウントを有する対立遺伝子から本質的になり、スタッターのドロップインに起因して妥当であるには高すぎる。いくつかの実施において、閾値は、(i)最大の非スタッター対立遺伝子カウント、及び(ii)潜在的なスタッターの提供者の対立遺伝子のカウントによって乗じられた値の合計である。いくつかの実施において、遺伝子型構成を切り詰め工程は、対立遺伝子データ及び予想される対立遺伝子カウントの間で不十分なマッチを有する遺伝子型構成を除去する工程を含む。いくつかの実施において、不十分なマッチを有する遺伝子型構成は、1つ又は複数の閾値よりも大きい二乗平均平方根エラー(RMSE)値を有する。

いくつかの実施において、1つ又は複数の多型遺伝子座における対立遺伝子は、一塩基多型(SNP)対立遺伝子及び/又はショートタンデムリピート(STR)対立遺伝子を含む。

マーカー部位に対するリードの不偏マッピングのための方法
核酸(例えば、DNA又はRNA)配列リードをゲノムにマッピングするための従来のコンピューターによる方法は、使用する参照ゲノムによって偏向し得る。それぞれのバリアント部位について1つのみの対立遺伝子(参照対立遺伝子)が参照ゲノムに存在するので、リード及び参照の間のミスマッチは、既存のリードマッピング戦略における配列決定エラーとして処理される。問題は、非参照対立遺伝子を含有するリードが配列決定エラーを含有するとして処理される場合、整列の信頼性(スコア)を減少させ、それ故に、それらがその後のフィルタリング工程において確信を持ってマッピングされたリードとして保持される可能性が低いことである。このマッピングバイアスは、対立遺伝子カウントを歪め(図1B)、その後、コントリビューターのDNAの割合の推定を損なう。

マッピングバイアスの論点に対応し、最適なCDQを可能にするために、いくつかの実施は、バリアント部位に対するリードをマッピングするための新規なワークフローを提供する。新たなリードマッピングのアプローチは、対立遺伝子の不偏のカウント、並びにバリアント部位及び非バリアント部位における配列決定エラーの推定を可能にする

リードマッピングのワークフローは以下の通りである。ワークフローは、最初に、1)参照配列、及び2)バリアント部位の既知の対立遺伝子に基づいて、配列の5つの種類(Table 1(表1)を参照のこと)を発生させる。2以上の単一の変異が配列ごとに許容される場合、より多くの種類の配列を発生させる。5つの種類の配列は、それぞれ、ref、alt、ref.mut、alt.mut,及びsnp.mutと称される。例えば、長さLの標的配列によって網羅されるそれぞれの二対立遺伝子のSNPマーカー部位に関して、1つのref、1つのalt、[L-1]×3のref.mut、[L-1]×3のalt.mut及び2つのsnp.mutの配列が存在する。すべての5つの種類の配列は、その結果、「不偏標的配列」のデータベースに含まれる(図1B)。配列からのリードの長さに応じて、不偏標的配列は、次いで、2つのバージョンにトランケートされる。rは、リードの長さとする。トランケートされた標的配列のバージョン1は、すべての不偏標的配列のrの5'塩基を含むが、トランケートされた標的配列のバージョン2は、すべての不偏標的配列のrの3'塩基の逆補完を含む。トランケートされた標的配列中の重複配列は、次いで、除去される。2つのトランケートされた標的配列データベース中の固有配列は、次いで、2つのハッシュテーブルに記録される。次に、配列決定リードは、ハッシュテーブルを使用してカウントされる。ペアエンド配列決定戦略のためには、R1リード及びR2リードは、第1及び第2のハッシュテーブルをそれぞれ使用して、カウントされる。非ペアエンド配列決定のためには、すべてのリードは、第1のハッシュテーブルを使用してカウントされる。最後に、それぞれのマーカー部位について、カウントは、この種類のトランケートされた不偏標的配列がTable 1(表1)に相当する、上記で定義された5つの種類に集約される。

類似の戦略は、配列整列ツールをマッピングのためにハッシュテーブルを使用する代わりに使用して、実施することができる。それぞれのマーカー部位に関して、ref及びaltの種類の配列を発生させて、不偏配列データベースを形成する。それぞれの配列決定リードは、次いで、あらかじめ規定された数の配列決定のエラーまでこのデータベースに整列させる。マッピングされたリードは、次いで、Table 1(表1)に基づいて分類される。SNPマーカーについて、ここで、二対立遺伝子のシナリオのみが提示されるが、この方法は、多対立遺伝子座にも拡張される。

提案されるリードマッピングのワークフローは、実際のデータを使用して試験する場合に、リードマッピングのバイアスの論点に対応する。ワークフローによって、参照に代替のエラーに対する観察されたエラー率及び代替の参照のエラーに対する観察されたエラー率は同一である。参照DNAコピー及び代替DNAコピーにおける非バリアント部位の配列決定のエラー率も同一である。

対立遺伝子割合とのコントリビューターのDNA割合の連結
エラーがないシナリオの配列決定
本発明者らは、n₁を試料にDNAを供給するコントリビューター1(例えば、臓器受容者)の細胞の数として表し、n₂を試料にDNAを供給するコントリビューター2(例えば、臓器提供者)の細胞の数として表す。これらの細胞に基づいて、実施は、コントリビューター2の割合を、β₂=n₂/(n₁+n₂)として規定する。2人のコントリビューターのシナリオに関して、本発明者らは、β₂を略してβとして表す。それぞれの特異的遺伝子座における2人のコントリビューターの遺伝子型に応じて、2つの対立遺伝子は、異なる割合を有し(詳細には、Table 2(表2)を参照のこと)、これらを計算するための一般式は、p₁=[g₁₁(1-β)+g₂₁・β]/2及びp₂=[g₁₂(1-β)+g₂₂・β]/2である。g₁₁及びg₁₂は、コントリビューター1(受容者)の遺伝子型、すなわち、受容者のゲノムにおける対立遺伝子1及び2のコピーであり、g₂₁及びg₂₂は、コントリビューター2(提供者)の遺伝子型、すなわち、提供者のゲノムにおける対立遺伝子1及び2のコピーであることに留意されたい。

行列の表記法において、複数のコントリビューターの場合についての関係は、一般に、p←g/2・βとして実施され、ここで、pは、すべての遺伝子座についての予想される対立遺伝子1の割合のベクトルであり、gは、すべてのコントリビューターにおけるすべての遺伝子座の遺伝子型の行列であり、β=[β₁,β₂,...,β_D]は、すべてのコンストラクタについての核酸の割合のベクトルである。この実施は、一般に、1人、2人及び複数人のコントリビューターのシナリオに適用される。

配列決定のエラーによる一般的なシナリオ
2つの既知の対立遺伝子がバリアント部位にある場合、配列決定のエラーは、2つの既知の対立遺伝子からこの遺伝子座における2つの残りのヌクレオチドへの変換に加えて、1つの対立遺伝子から別の対立遺伝子に変換される。その結果、配列決定されたリードにおける対立遺伝子の割合が、NGS投入試料における対立遺伝子の割合から逸脱する。

図2Cは、1つの対立遺伝子を別の対立遺伝子に変換し、真の対立遺伝子を予想外の対立遺伝子に変換する配列決定のエラーを図で説明する。パネル(A)は、ヌクレオチドに依存する配列決定のエラーを示し、パネル(B)は、均一な配列決定のエラーを示す。

N_1、N₂は、対立遺伝子1及び対立遺伝子1のヌクレオチドとする。p₁'、p₂'は、これが、実際であろうとなかろうと、又は配列決定のエラーに起因するものであろうとなかろうと、それぞれ、対立遺伝子1及び対立遺伝子2のリードを観察する確率とし、p₀' =1-p₁'-p₂'は、配列決定のエラーに起因する2つの予想外の対立遺伝子を観察する確率とする。λ_N1N2は、N₁からN₂の変異速度(確率)とし、ここで、N₁及びN₂は、それぞれのSNP部位に固有であり、λ_N1#:N₁から3つのヌクレオチドの非N₁ヌクレオチドのいずれかへの変異確率である。

SNP部位の4つのヌクレオチドの間の遷移図を図2Cに示す。これに基づいて、この実施は、真の対立遺伝子の割合p₁、p₂から、観察された対立遺伝子の割合p₁'、p₂'及びp₀'に変換するための以下の方程式を得る:
p₁'=p₁-p₁・λ_N1#+p₂・λ_N2N1
p₂'=p₂-p₂λ_N2#+p₁・λ_N1N2
p₀'=p₁・(λ_N1#-λ_N1N2)+p₂・(λ_N2#-λ_N2N1)

この実施が、ヌクレオチドの同一性と独立している均一な配列決定エラー率を仮定すると、この実施は、
p₁'=p₁・(1-3・λ)+p₂・λ
p₂'=p₂・(1-3・λ)+p₁・λ
p₀'=2λ
を有する。

この実施が予想外の対立遺伝子を無視する場合、
p₁'=(p₁・(1-3・λ)+p₂・λ)/(1-2λ)
p₂'=(p₂・(1-3・λ)+p₁・λ)/(1-2λ)
であり、ここで、o(λ²)は、近似エラーであり、これらは
p₁'=p₁・(1-λ)+p₂・λ
p₂'=p₂・(1-λ)+p₁・λ
として修正される。

又は、遺伝子座i、及びpについてg及びβを置換するためには、
p_1i'←Σ_d[(g_d1i・(1-λ)+g_d2i・λ]・β_d)/2
p_2i'←Σ_d[(g_d2i・(1-λ)+g_d1i・λ]・β_d)/2
であり、これは、エラー-調整-遺伝子型の加重混合係数と称される。

2人のコントリビューターのシナリオにおいて、コントリビューター2の割合βを観察された対立遺伝子の割合p₁'と連結する式を、Table 3(表3)に列挙する。

行列のフォーマットにおいて、配列決定のエラーλを説明する対立遺伝子1についてのエラー-調整-遺伝子型は、G←[(1-λ)g+λ(2-g)]/2として実施される。

2人を超えるコントリビューターを有する一般的な場合に関して、対立遺伝子1に関する割合のベクトルの予想される混合は、p←G・βとしてコンピューターで計算され、これは、1人、2人又は複数人のコントリビューターで核酸混合物について実施される。

λ=0の場合、実施は、特別の場合:p←g/2・βを有する。

DNA抽出、PCR(増幅)及び配列決定モデルの概略
3つの確率的モデル(図1C)は、一般的な実験パイプライン(図1A)における3つの主要な構成要素:1)DNA/RNA抽出;2)標的のDNA/RNAを濃縮するためのアプローチとしてのDNA/RNA増幅(例えば、PCR);3)配列決定(例えば、NGS配列決定)をモデル化するために提供される。これら及び他のモデル化の構成要素は、次いで、単一遺伝子座モデルを実施するために統合され、単一遺伝子座尤度関数M(n_1i,n_2i|p_1i,θ)をコンピューターで計算する。

以下の表記法を、Table 4(表4)に詳述する数理モデル及び本節の残りにおいて使用する。

B():ベータ関数
Beta()、BN()、Pois()、Gamma():ベータ分布、二項分布、ポアソン分布及びガンマ分布

NB()は、負の二項分布を表し、これは、規定された(非ランダム)数の失敗(rと表す)が生じる前の一連の独立した同一分布のベルヌーイ試行における成功数の離散確率分布である。

DNA抽出モデル:モデルE
cfDNA又は細胞DNAが血液試料から抽出される場合、得られるDNAは、DNAの大きなプールからの小さな試料であり、それ故、その実施は、それぞれの遺伝子座における2つの対立遺伝子のカウントを2つのポアソン分布としてモデル化する。それ故、総カウントn''を条件とした遺伝子座における対立遺伝子1についてのDNAコピー(n₁'')は、二項分布:n₁''～BN(n'',p₁)に従い、ここで、平均μ₀=n''・p₁であり、分散δ₀ ²=n''・p₁・p₂である。

gDNAが試料から抽出される場合、それぞれの遺伝子座について得られるgDNAの量は、抽出損失に起因して、再び変化し得る。投入試料中の対立遺伝子1の割合としてp₁を見ると、抽出されたDNA中の対立遺伝子1の量は、二項分布:n₁''～BN(n'',p₁)によって、再びモデル化することができる。

PCR増幅モデル:モデルP
本発明者らは、PCR生成物中の対立遺伝子1のカウントの確率分布を得るために、確率過程として、PCR増幅プロセスをモデル化する。x_tは、PCR増幅のサイクルtの後の所与の対立遺伝子のDNAコピーとし、r_tは、サイクルtについての増幅速度とし、y_tは、サイクルtで発生した新たなコピーとする。DNAのそれぞれの小片が、増幅され、DNAプールへの追加で得られる確率r_tを有すると仮定することによって、この実施は、増幅についての以下のモデルを有する:
x_t+1=x_t+y_t+1
(ここで、y_t+1～BN(x_t,r_t+1)は、パラメータとしてx_t及びr_t+1を有する二項分布に従う)。

このモデルに基づいて、実施は、PCR生成物中の遺伝子座についてのDNAコピー数がおおよそガンマ分布に従うと仮定する。下記が理由である。

工程1:PCR(離散時間型確率過程)を近似するためにユール過程(連続時間型確率過程)を使用する。
PCRプロセスのx_t+1=x_t+y_t+1(ここで、y_t+1～BN(x_t,r_t+1)は、離散時間型純出生過程である):時間tの所与のサイクルにおいて、DNA''のそれぞれのコピーは、いくつかの速度r_tで独立して「出生を与える」。純出生過程の連続時間型バージョンは、ユール-ファリー過程として周知である。連続時間型出生過程に関して、所与の時間tでの遺伝子座についての最終コピー数は、負の二項分布に従うことが知られている。実施は、PCRサイクルの総数が1に近接していない場合、離散時間型出生過程を近似するために同じ分布を使用することができる。

工程2:負の二項分布(離散分布)を近似するためにガンマ分布(連続分布)を使用する。
負の二項確率変数は、独立同分布(i.i.d)幾何確率変数の合計として記述することができる。指数分布は、幾何分布の連続バージョンであることが知られている。それ故、ガンマ分布に従うi.i.d.指数確率変数の合計は、負の二項である二項確率変数の合計の連続バージョンである。

下記はPCR生成物中の対立遺伝子カウントのガンマ分布のパラメータを推定する実施である。

全分散の原理に基づいて、var(x_t+1)=var(E(x_t+1|x_t)+E(var(x_t+1|x_t))であり、実施は、以下のように再帰的に、x_tの平均及び分散を導くことができる。
μ_t+1=μ_t・(1+r_t+1)
δ_t+1 ²=μ_t・r_t+1・(1-r_t+1)+δ_t ²・(1+r_t+1)²
(ここで、μ_t=E(x_t)であり、δ_t ²=var(x_t)である)。

PCRサイクルあたりの平均増幅速度をr_t+1=rと仮定すると、この実施は以下を有する。
μ_t=μ₀・(1+r)^t
δ_t ²=μ₀・(1+r)^t・[(1+r)^t-1]・(1-r)/(1+r)+δ₀ ²・(1+r)^2t

μ₀及びδ₀ ²は、PCR増幅投入におけるDNA対立遺伝子カウントの平均及び分散であり、これらは、上記に記載のDNA抽出モデル(モデルE)に基づいてコンピューターで計算することができることに留意されたい。或いは、実施が、確率変数としてcfDNA/細胞DNAの対立遺伝子カウントを処理しない場合、実施は、μ₀=n₁''又はn₂''、及びδ₀ ²=0を有する。

この平均及び分散にマッチする、相当するガンマ分布G(x_t|k,θ)=x^k-1e^-x/θ/[θ^k・Γ(k)]は、以下のパラメータを有する。
θ=[(1+r)^t-1]・(1-r)/(1+r)+δ₀ ²/μ₀・(1+r)^t
k=μ₀・(1+r)^t/[[(1+r)^t-1]・(1-r)/(1+r)+δ₀ ²/μ₀・(1+r)^t]

2つの対立遺伝子及び2つの初期コピー(n₁''、n₂'')を有する所与の遺伝子座に関して、それぞれの遺伝子座に関する2つの対立遺伝子について同一の増殖速度r₁=r₂=rと仮定すると、ガンマ分布に相当する2つのG(n₁'|k₁,θ₁)及びG(n₂'|k₂,θ₂)は、以下のパラメータを有する。
θ₁=[(1+r)^t-1]・(1-r)/(1+r)+p₂・(1+r)^t
θ₂=[(1+r)^t-1]・(1-r)/(1+r)+p₁・(1+r)^t
k₁=n''p₁/[[1-(1+r)^-t]・(1-r)/(1+r)+p₂]
k₂=n''p₂/[[1-(1+r)^-t]・(1-r)/(1+r)+p₁]

実施が、PCRモデルを、DNA抽出モデル、s.t.μ₀=n₁''又はn₂''及びδ₀ ²=0、を条件とするものとするものである場合、この実施は以下を有する。
θ₁=[(1+r)^t-1]・(1-r)/(1+r)
θ₂=[(1+r)^t-1]・(1-r)/(1+r)
k₁=n₁''・(1+r)/(1-r)/[1-(1+r)^-t]
k₂=n₂''・(1+r)/(1-r)/[1-(1+r)^-t]

それ故、PCR生成物中の対立遺伝子コピーのn₁'及びn₂'は、同一スケールのパラメータθ₁及びθ₂を有する2つのガンマ分布に従い、これは、PCRプロセスにのみ依存する(サイクルの数及び増幅速度)。したがって、
n₁'/(n₁'+n₂')～Beta(n₁''・ρ,n₂''・ρ)
(ここで、ρは増幅速度rに関する定数である)であり、これは、PCRプロセスにのみ依存する:ρ=(1+r)/(1-r)/[1-(1+r)^-t]、又はサイクルtの数が大きい場合に近似的にρ=(1+r)/(1-r)。特異的遺伝子座に関して、これは、遺伝子座特異的PCR増幅速度を捕らえるために、n_1i'/(n_1i'+n_2i')～Beta(n_1i''・ρ_i,n_2i''・ρ_i)として記述される。

実施がDNA試料抽出を無視し、すべての遺伝子座が同じ総DNAコピー数を有すると仮定する場合、n_i''=n''であり、したがって、n_1i''=n''・p_1i及びn_2i''= n''・p_2iである。PCR生成物における遺伝子座についての対立遺伝子の割合は以下である。
n_1i'/(n_1i'+n_2i')～Beta(n''・ρ_i・p_1i,n''・ρ_i・p_2i)

ガンマ分布の近似値なしで、PCR生成物の対立遺伝子カウントは、n₁'～NB(r₁,p)及びn₂'～NB(r₂,p)を有し、比n₁'/(n₁'+n₂')は、閉形式の分布を有さないことに留意されたい。ガンマ分布の近似を用いると、n₁'～Gamma(n₁''・ρ,θ)及びn₂'～Gamma(n₂''・ρ,θ)及びn₁'/(n₁'+n₂')は、ベータ分布に従う。

配列決定リードカウントモデル:モデルS
NGS配列決定は、DNA分子のプールから試料を配列決定装置に供給し、これらの分子の配列を読み出すプロセスである。PCR生成物における遺伝子座iについての対立遺伝子1の割合は、n_1i'/(n_1i'+n_2i')である。この割合は、対立遺伝子1のリードが配列決定の結果で生じる確率を決定する。遺伝子座あたりのリードの総数であるn_iを条件とした、遺伝子座の対立遺伝子1のリードカウントであるn_1iの分布は、したがって、二項分布n_1i～BN(n_i,n₁'/(n₁'+n₂'))としてモデル化される。

事前分布としてのコントリビューター間の遺伝的関係のモデル化
コントリビューターの遺伝型が完全に既知である場合、これらは、上記に記載の構成要素のモデルのパラメータとして、(Table 2(表2)又はTable 3(表3))を使用して直接組み込むことができる。しかしながら、遺伝型が未知である場合、その実施は、正確な混合物の定量化を達成するために、2人のコントリビューターの状況で提供者及び受容者の間の遺伝的関係の情報を使用する。遺伝的関係は、一般に、臓器移植等の臨床適用において利用可能である。ここで、本発明者らは、2人のコントリビューターのシナリオについての実施を提示するが、この「遺伝的事前確率」アプローチは、任意の数のコントリビューターに一般化することができる。

本発明者らは、提供者(コントリビューター2)及び受容者(コントリビューター1)の可能な遺伝型の組み合わせの空間における特異的な事前分布として、異なる種類の提供者-受容者の関係を系統立てて説明する。ハーディー-ワインベルクの式を仮定して、単一の個体に関する所与の遺伝子座についての遺伝子型分布は、P(g=[0,1,2])=[(1-π)²,2π(1-π),π²]であり、ここで、πは、対立遺伝子1の集団頻度であり、gは、対立遺伝子1のコピー数である。すべての遺伝的関係は、親-子の関係の結果であることに留意されたい。所与の二対立遺伝子マーカー部位についての親及び子の間の遺伝的関係に基づいて(Table 5(表5))、この実施は、2人又は複数人のコントリビューターの間の任意の遺伝的関係についての接合分布をコンピューターで計算することができる。

2人のコントリビューターの間の遺伝的関係の各種の種類についての事前分布を、下記に更に提供する。

父親及び子の遺伝子型の間の接合分布
例として、父親-子の提供者-受容者の遺伝子型(GT)の接合分布を、以下の式を使用してコンピューターで計算する。
P(Recipient=Me GT,Donor=Father GT)=Σ_{mother GT}[P(Me GT|Father GT,Mother GT)・P(Father GT,Mother GT)]
(ここで、P(Me GT|Father GT,Mother GT)及びP(Father GT,Mother GT)の値は、Table 5(表5)の欄2及び欄4からそれぞれ取得される)

兄弟姉妹の遺伝子型の間の接合分布
例として、私-兄弟姉妹の提供者-受容者の遺伝子型の接合分布を、親のゲノムを仮定した場合の2人の兄弟姉妹の遺伝子型の条件付き独立に基づいて、以下の式を使用してコンピューターで計算する。
P(Recipient=Me GT,Donor=Sibling GT)=Σ_{Mother GT}Σ_{Father GT}[P(Me GT|Father GT,Mother GT)・P(Sibling GT|Father GT,Mother GT)・P(Father GT,Mother GT)]
(ここで、P(Me GT|Father GT,Mother GT)、P(Sibling GT|Father GT,Mother GT)及びP(Father GT,Mother GT)の値は、Table 5(表5)の欄3、欄3及び欄4からそれぞれ取得される)

おじ-甥の遺伝子型の間の接合分布
例として、おじ/おば-甥/姪の提供者-受容者の遺伝子型の接合分布を、以下の式を使用してコンピューターで計算する。
P(Recipient=Me GT,Donor=Uncle GT)
=Σ_{grandMother GT}Σ_{grandFather GT}Σ_{Mother GT}Σ_{Father GT}[P(Me GT|Father GT,Mother GT)・P(Mother GT)・P(Father GT|GrandFather GT,GrandMother GT)・P(Uncle GT|GrandFather,GrandMother GT)・P(GrandFather GT,GrandMother GT)]
=Σ_{Mother GT}Σ_{Father GT}P(Me GT|Father GT,Mother GT)・P(Mother GT)・P(Father GT,Uncle GT)
(ここで、P(Me GT|Father GT,Mother GT))の値は、Table 5(表5)の欄3から取得され、P(Father GT,Uncle GT)は、P(Recipient=Me GT,Donor=Sibling GT)と同じである。

行列表記法において、これは、親/子の事前行列、兄弟姉妹の事前行列、及び単一ゲノムの事前ベクトルを使用して、コンピューターで計算することができる。
=[P(Me GT,Father GT)]_Me,_Father・diag(1/[P(Father GT)]_Father)・[P(Father GT,Uncle GT)]_Father,Uncle

いとこの遺伝子型の間の接合分布
いとこが、兄弟であるそれらの父親によって遺伝的関係があり、母親が遺伝的に無関係であると仮定すると、その結果、
P(Recipient =Me GT、Donor=Cousin GT)
=Σ_{Aunt GT}Σ_{Uncle GT}Σ_{Mother GT}Σ_{Father GT}P(Me GT|Father GT,Mother GT)・P(Mother GT)・P(Father GT,Uncle GT)・P(Aunt GT)・P(Cousin GT|Uncle GT,Aunt GT)
=Σ_{Aunt GT}Σ_{Uncle GT}P(Me GT,Uncle GT)・P(Aunt GT)・P(Cousin GT|Uncle GT,Aunt GT)
=Σ_{Uncle GT}P(Me GT,Uncle GT)・P(Cousin GT,Uncle GT)/P(Uncle GT)
である。

行列表記法において、これは、おじ/姪の事前行列、親/子の事前行列、及び単一ゲノムの事前ベクトルを使用して、コンピューターで計算することができる。
=[P(Me GT,Uncle GT)]_Me,Uncle・diag(1/[P(Uncle GT)]_Uncle)・[P(Cousin GT,Uncle GT)]_Uncle,Cousin

P(Cousin GT,Uncle GT)が、親-子関係と同じであることに留意されたい。

片親が違う兄弟姉妹の遺伝子型の間の接合分布
片親が違う兄弟姉妹は、1人の母親によって関係があり、2人の父親は無関係であると仮定すると、
P(Recipient=Me GT、Donor=HafSib GT)
=Σ_{Father GT}Σ_{Mother GT}Σ_{StepFather GT}P(Me GT|Father GT,Mother GT)・P(HalfSib GT|StepFather GT,Mother GT)・P(Mother GT)・P(Father GT)・P(StepFather GT)
=Σ_{Mother GT}P(Me GT,Mother GT)・P(HalfSib GT,Mother GT)/P(Mother GT)
である。

行列表記法において、これは、2つの親子の事前行列、及び単一ゲノムの事前ベクトルを使用して、コンピューターで計算することができる。
=[P(Me GT,Mother GT)]_Me,Mother・diag(1/[P(Mother GT)]_Mother)・[P(HalfSib GT,Mother GT)]_{HalfSib,Mother}

ハーディー-ワインベルクの式の下で、片親が違う兄弟姉妹の関係は、おじ/おば/甥/姪の関係と同じ分布に従うことに留意されたい。これは、ハーディー-ワインベルクの式なしで真実ではない場合がある。

概要
上記の導出からの結果をTable 6(表6)に概要を述べ、集合のSNPの対立遺伝子頻度π=0.5を仮定した場合の特異的な例を、Table 7(表7)に提供する。祖父母-孫の関係、又は複数のコントリビューターの関係等の追加的な関係は、同じ基本的な原則に基づいて導くことができる。

親-子、及び兄弟姉妹の関係についての分布は、無関係とは全く違ったが、おじ/おば-甥/姪は、無関係に近い。提供者の遺伝子型が未知である場合において、実施は、上記の遺伝的関係のそれぞれの適合モデルの尤度関数を評価することによって、遺伝的関係を推察することができる。或いは、実施は、遺伝的事前分布における複数の自由なパラメータを許容し(周辺分布がハーディー-ワインベルクの式に従う必要があるという追加の制約あり)、提供者の割合の推定と一緒にこれらのパラメータを推定することができる。

DNAの長さに基づくDNAコピー数の調整
PCRのDNA増幅を含むアンプリコン系アッセイに関して、DNAの長さは、PCR鋳型としてのDNAの有効性に影響を与える。極端には、DNA断片が意図するアンプリコンの長さよりも短い場合、これらは、PCR鋳型として0%の有効性である。この効果を修正するために、本発明者らは、以下の手順を使用して、平均DNA長さを使用してDNAコピー数を調節し、これは、投入DNAの種類に応じて変わる。いくつかの実施は、投入DNA鋳型の平均長さに基づいて、有効な投入DNA分子の数を調整する。いくつかの実施において、有効な投入DNA分子の数は、下記:
n''=w/w₀・(L-L_a+1)/L
(ここで、n''は、有効な投入DNA分子の数(半数体)であり、wは、投入DNAの量であり、w₀(3.59×103ng/コピー))は、半数体のヒトゲノムの質量であり、Lは、投入DNA鋳型の平均長さであり、L_aは平均アンプリコン長さ(本発明者らのアンプリコン設計に関して110bp)である)の式によって調整される。

DNA鋳型の効率は、e=(L-L_a+1)/Lとして規定され、これは、L>=L_aに関して規定される。Table 8(表8)は、例のDNAの種類及びそれらのPCR鋳型としての効率を示す。

モデル化構成要素の統合
確率混合モデルの構成要素は、コントリビューターのDNA定量化(CDQ)の問題に対する解決手段を提供するために統合される。それぞれのSNP部位についての集団対立遺伝子頻度πは、dbSNP等の公開データベースから得ることができる。最も有益なSNPマーカー、即ち、π=0.5を有するSNPを実験設計において選択する場合、すべての遺伝子座についてπ=0.5を設定することができ、P(g₁₁,g₂₁)は、先の節において記載した遺伝的関係の事前分布とする。

略図のレベルで、図2Bは、確率混合モデル250の各種の構成要素を説明するブロック図を示す。いくつかの構成要素は、いくつかの実施において、任意である。確率混合モデル250は、配列決定リードの対立遺伝子カウントをモデル化するための二項分布258を含む。いくつかの実施において、確率混合モデルは、遺伝的関係の事前分布252を使用する、提供者-被提供者(又は受容者)の関係をモデル化するための構成要素も含む。いくつかの実施において、確率混合モデルは、DNA抽出対立遺伝子カウントをモデル化するための二項分布254も含む。いくつかの実施において、確率混合モデル250は、PCR生成物又は増幅生成物の対立遺伝子の割合をモデル化するためのベータ分布256も含む。ブロック256を参照のこと。

いくつかの実施において、混合モデルは、二項分布208を二項分布254と組み合わせ、DNA抽出のエラー及び配列決定のエラーの両方をモデル化する。このような実施において、DNA抽出に起因する対立遺伝子カウントにおける変動を捕らえながら、混合モデルは、ベータ-二項分布260を使用して、配列決定リードの対立遺伝子カウントをモデル化する。

いくつかの実施において、確率混合モデル250は、ベータ分布256及び二項分布258を組み合わせ、ベータ-二項分布262を使用して、PCR又は増幅プロセスにおけるエラー及び配列決定プロセスのエラーの両方をモデル化する。

いくつかの実施において、確率混合モデル250は、二項分布254、ベータ分布256及び二項分布258を組み合わせて、DNA抽出、増幅プロセス及び配列決定プロセスのそれぞれから生じる変動を説明する。このような実施において、確率混合モデル200は、最初に、ベータ分布264を使用して、二項分布254及びベータ分布256の効果を近似する。確率混合モデル250は、次いで、ベータ-二項分布256を使用して、ベータ分布264及び二項分布258を組み合わせる。

配列決定モデル:モデルS
完全モデルの基本バージョンは、DNA抽出モデル及びPCRモデルを無視し、配列決定モデルのみを考慮する。それぞれの遺伝子座について、参照対立遺伝子についての配列決定リードカウントを、二項分布(図1C)のn_1i～BN(n_i,p_1i)(ここで、パラメータp_1i(g_1i,g_2i,λ,β)の値は、遺伝子座についての提供者-受容者の遺伝子型の組み合わせに対する関数である)によってモデル化する(Table 2(表2)及びTable 3(表3))。遺伝子型が未知であることを考慮すると、実施は、P(g_1i,g_2i|π)を事前分布として、それぞれの遺伝子座についての9つの可能な遺伝子型の組み合わせにについて周辺化する(Table 6(表6)及びTable 7(表7))。すべての遺伝子座にわたる完全な尤度関数は、すべての遺伝子座についての周辺分布:
L(β,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBN(n_1i|n_i,p_1i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(β,λ,π;n₁,n₂)は、パラメータβ及びπを仮定した場合の対立遺伝子1及び2についてn₁からn₂の対立遺伝子カウントのベクトルを観察する尤度であり;p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、Table 3(表3)からp1'として取られる確率パラメータであり;P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の2人のコントリビューターの遺伝子型を観察する事前同時確率である)の積である。

これを複数のコントリビューターに拡張すると、尤度関数は、
L(β,λ,π;n₁,n₂)=Π_i[Σg_iBN(n_1i|n_i,・p(g_i,λ,β))・P(g_i|π)]
として表すことができる。

抽出-配列決定化合物モデル:モデルES
より高度なモデルは、DNA抽出モデルと配列決定モデルを組み合わせる。実施は、PCR工程を無視し(すなわち、それぞれの遺伝子座について、PCR生成物中の対立遺伝子の割合が、DNA試料中の対立遺伝子の割合と同じであると仮定する)、それぞれの遺伝子座についてのDNA試料抽出及び配列決定の工程のみをモデル化し、投入DNA試料中の対立遺伝子カウントに関する二項分布が存在する。これは、NGS配列決定に提供される、投入DNA中の対立遺伝子の割合の遺伝子座間の変動を捉える。

DNA抽出モデルに関して、実施は、DNA抽出モデルを条件とする際、n_1i''～BN(n'',p_1i)を有し、配列決定モデルは、n_1i|n_1i'',n''～BN(n_i,n_1i''/n'')(ここで、n_i''=n''は、投入DNAに相当する半数体ゲノムのコピーである)である。残念ながら、n_1iの周辺分布は、閉形式の式を有さない。実施は、n_1i''/n''の分布をベータ分布のBeta(a,b)で近似し、最良のベータ分布は、n_1i''/n''の平均及び分散を、二項モデルのn_1i''～BN(n'',p_1i):
p_1i=a/(a+b)
p_1i・(1-p_1i)/n''=ab/(a+b)²/(a+b+1)
から導かれるものとマッチさせることによって選択される。

式を解くことにより、最良の近似としてベータ分布のBeta((n''-1)p_1i,(n''-1)p_2i)が与えられる。DNA抽出モデルへのこの近似により、n_1iの周辺分布は、したがって、形式:
n_1i～BB(n_i,(n''-1)・p_1i,(n''-1)・p_2i)
又は、代替の近似:
n_1i～BB(n_i,n''・p_1i,n''・p_2i)
のベータ-二項分布に従う。

遺伝的関係事前確率を考慮する相当する全尤度関数は、したがって、
L(β,n'',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,(n''-1)・p_1i,(n''-1)・p_2i)・P(g_i|π)]
(ここで、L(β,n'',λ,π;n₁,n₂)は、すべての遺伝子座において対立遺伝子1及び2についての対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり、p_1i=p(g_i,λ,β)であり、p_2i=1-p_1iである)
である。

N''及びπ=0.5の両方が既知のパラメータであること、並びに最終の全尤度関数が提供者のDNA割合である単一の未知のパラメータβのみを有することに留意されたい。

投入DNA(半数体)コピー数のn''は、投入DNAの質量から導くことができる。投入DNA量が8ngである場合、n''=8 ng/[3.59×10^-3ng/コピー]=2228.412である。

PCR-配列決定化合物モデル:モデルPS
DNA抽出モデルを無視し、所与の遺伝子座についての既知の遺伝子型の組み合わせを仮定することで、その結果として、PCRモデル:n_1i'/(n_1i'+n_2i')～Beta(n''・ρ_i・p_1i,n''・ρ_i・p_2i)及び配列決定モデル:n_1i～BN(n_i,n₁'/(n₁'+n₂'))は、ベータ-二項分布:BB(n_i,n''・ρ_i・p_1i,n''・ρ_i・p_2i)に組み合わせることができる。基本的な遺伝子座特異的PCR増幅速度ρ_iの両方が未知であることに留意されたい。実施が、すべての遺伝子座が同じ固有の増幅速度を有していると仮定すると、その結果、実施は、BB(n_i,c・p_1i(g₁₁,g₂₁,β)、c・p_2i(g₁₁,g₂₁,β))を有する。

すべての遺伝子座にわたる完全尤度モデルは、その結果、L(β,n'',c,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,c・p_1i,c・p_2i)・P(g_i|π)](ここで、c及びβは、推定される2つのパラメータである)である。

或いは、実施は、遺伝子座あたりの総リードに比例するそれぞれの遺伝子座の相対増幅速度を規定し、ベータ二項をn_1i～BB(n_i,c'・n_i・p_1i,c'・n_i・p_2i)(ここで、c'は、最適化されるパラメータであり;n_iは、遺伝子座iにおける総リードである)として再パラメータ化することができる。

すべての遺伝子座にわたる完全尤度モデルは、その結果、L(β,n'',c',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,c'・n_i・p_1i,c'・n_i・p_2i)・P(g_i|π)](ここで、c及びβは、推定される2つのパラメータである)である。

抽出-PCR-配列決定化合物モデル:モデルEPS
実施が、DNA抽出及びPCRモデルを1つのモデルに組み合わせ、単一のベータ分布によって近似する場合、抽出-PCR-配列決定の一般的な実験パイプラインにおける3つの構成要素のすべてを、ベータ-二項によって一緒にモデル化することができる。直感的に、PCR生成物における対立遺伝子1の割合の予想される値(n₁'/n'、Table 4(表4)を参照のこと)は、p₁のままであるが、n₁'/n'の不確実性(分散)は、DNA抽出及びPCR工程の両方が起源である。DNA抽出及びPCRを一緒にモデル化するベータ分布のbeta(a,b)を得るために、実施は、以下の原理:E(n_1i'/n')=E(E(n_1i'/n_i'|n_1i''/n'')及びvar(n_i1'/n')=var(E(n_1i'/n_i'|n_1i''/n''))+E(var(n_1i'/n_i'|n_1i''/n''))に基づくn_1i'/n'の条件付けしていない平均及び分散をコンピューターで計算する。これは、E(n_1i'/n')=p_1i、及びvar(n_1i'/n')=p_1ip_2i/n''+p_1ip_2i/(n''・ρ_i+1)-p₁p₂/[n''・(n''・ρ_i+1)](ここで、ρ_i=(1+r_i)/(1-r_i)>1は、増幅速度r_iに関する定数である)を与える。n''は大きいので、実施は、以下の近似var(n_1i'/n')=p_1ip_2i/[n''・(1+r_i)/2]を有する。DNA抽出及びPCRをモデル化する最良のベータ分布は、その結果、Beta([n''・(1+r_i)/2-1]p_1i,[n''・(1+r_i)/2-1]p_2i)である。これは、cfDNA/gDNA抽出についてのベータ分布のBeta((n''-1)p_1i,(n''-1)p_2i)に近いが、それでも分散は大きいことに留意されたい。r_i=0.8～0.95の典型的なPCR反応に関して、実施は、n''・(1+r_i)/2=0.9・n''～0.975・n''を有する。

cfDNA-PCR-配列決定モデルについての全複数遺伝子座尤度関数は、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i|n_i,n''・(1+r)/2・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/2・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
である。

ベースライン法:NaiveLM又はKGT.NaiveLM
コントリビューターのDNAの割合を定量化するための従来の方法は、基本の線形回帰式を使用し、これは、上記に記載の同じ確率モデル又は費用関数を使用しない。代わりに、その費用関数は、
E=[r-p]^T・[r-p]
(ここで、rは、対立遺伝子のベクトルであり、p=g/2・βは、予測される対立遺伝子の割合のベクトルであり、gは、遺伝子型の行列であり、βは、コントリビューターのDNAの割合のベクトルである)として表される。単純な方法は、すべてのベースラインが既知である場合にのみ適用可能である。

コントリビューターの核酸の割合及びそれらの信頼区間を推定するための方法
コントリビューターのDNAの割合を推定するための数値最適化
コントリビューターのDNAの割合βは、全尤度関数L(n₁,n₂|β)を最大化する値として推定される。上述のように、DNAは、この例及び他の例において参照されるが、RNA及び他の核酸分子は、同様に加工及び分析され得る。また、例は、核酸混合物試料を参照するが、試料は、1人のコントリビューターの核酸のみを含んでいてもよく、この場合において、コントリビューターの割合は、1として、又は1からのエラーの限度内であると推定される。

L(n₁,n₂|β)の計算の間に、複数の小さな確率の値は、乗じられる。小さな確率を乗じる場合、数値のアンダーフローを回避するために、実施は、すべての加算及び乗算はlogスケールで行う。logスケールにおける小さな確率の合計は、以下のように行われる:1)x_maxとしてlog確率の最大値を得る;2)最大値によるlog確率をすべて減算する;3)累乗し、次いで、得られた値を合計する;4)得られた合計をlogに変換する;5)log確率の最大値を戻して加算する。log(exp(x₁-x_max)+exp(x₂-x_max)+...+exp(x_n-x_max))+x_max。

0～1内の正のコントリビューターの割合を確実にするために、ロジット変換のβ=1/(1+e^-η)が使用される。

反復グリッド検索をブロイデン-フレッチャー-ゴールドファーブ-シャンノ(BFGS)-準ニュートン法と継ぎ目なく統合する新規な数値最適化コンピューター戦略は、下記に記載のようにして実施される。

工程1: グリッド初期化方法は、N-1次元空間で偶数グリッドを発生させ、ここで、Nは、コントリビューターの数である。2人のみのコントリビューターによる適用において、大域的最適化及び局所最適の回避を確実にするために、全尤度関数は、2人のコントリビューターの場合について、β₀=1/(1+e^-η ₀)(ここで、η₀は、L(n₁,n₂|β₀=1/(1+e^-η ₀)を最大化する-10、-9.9、-9.8,....、-0.1、0の間の値である)で初期化される。複数のコントリビューターの場合による適用において、βは、softmaxを使用して変換され、次いで、高次元グリッド上で初期化される。

工程2:グリッド上の全数検索を行い、-log2(L)を最小化する混合物の割合を特定する。

工程3:特定された混合物の割合を使用して初期化することにより、ηの数値最適化を、次いで、ブロイデン-フレッチャー-ゴールドファーブ-シャンノ(BFGS)-準ニュートン法を使用して行って、-log2(L)を最小化する。最適化された混合物の割合及び収束を記録する。

工程4:-log2(L)のヘッセ行列を、特定された混合物の割合において数値微分を使用して、コンピューターで計算する。

工程5:コンピューターで計算された混合物の割合の周辺のエラー及び信頼区間を、逆のヘッセ行列に基づいて決定する。その一方で、ヘッセ行列が半正定値であるか否かを決定する。

工程6:BFGS最適化が収束しない場合、又はヘッセ行列が半正定値ではない場合、手順は、次いで、最適化の次の反復のために構成される。その他の場合、最適化は終了する。

工程7:最適化の次の反復が行われる場合、推定された混合物の割合に相当する以前に決定されたηの周辺の2^N-1の元のグリッドを網羅して、より細かいN-1次元のグリッドが構築される。次いで、手順は、グリッド検索、及びBFGS最適化の次の反復のために、ループにより工程2に戻る。

これらの工程の全体は、人間の専門家によって手動で、又は人間の専門家の頭の中で行うことはできない。代わりに、1つ又は複数のコンピューターが、これらの工程を行うために必要である。

既知の遺伝子型によるモデルSのための反復戦略(KGT.IterLM)
いくつかの実施において、単一遺伝子座尤度関数は、二項分布を含み、複数遺伝子座尤度関数は、以下:L(β,λ,π;n₁,n₂)=Π_i[Σg_iBN(n_1i|n_i,・p(g_i,λ,β))・P(g_i|π)]の通りである。

いくつかの実施において、コントリビューターは、2人のコントリビューターを含み、尤度関数は、L(β,λ,π;n₁,n₂)=Π_iΣ_g1i,g2iBN(n_1i|n_i,p_1i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(β,λ,π;n₁,n₂)は、パラメータβ及びπを仮定した場合の対立遺伝子1及び2についてn₁からn₂の対立遺伝子カウントのベクトルを観察する尤度であり;p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、Table 3(表3)からp₁'として取られる確率パラメータであり;P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の2人のコントリビューターの遺伝子型を観察する事前同時確率である)である。

いくつかの実施において、すべてのコントリビューターの遺伝子型は既知であり、尤度関数は、L(β,λ;n₁,n₂)=Π_in_i!/(n_1i!n_2i!)p_1i ⁿ¹ⁱp_2i ⁿ²ⁱ(ここで、p_ai=Σ_d=0...D-1g_dai・β_d/[Σ_d=0...D-1β_d・(Σ_a=1,2g_dai)]である)として表される。すべてのマーカーが、体細胞染色体上にある場合、したがって、p_ai=1/2・Σ_d=0...D-1g_dai・β_dである。行列表記法において、これは、p←g/2・βである。

反復加重線形回帰法は、β=β₀である場合、それぞれの反復においてlog[L(β; n₁, n₂)]のものと同じ勾配を有する費用関数を構築することによって展開される:E=1/2・Σ_in_i/[p_1i(β₀)・(1-p_1i(β₀))]・(n_1i/n_i-p_1i(β))²。

行列表記法において、これは、E=1/2・(r-p)^T・W²・(r-p)(ここで、W=diag([n/(p₀・(1-p₀))]^1/2)は、対角行列であり、p₀=g/2・β₀である)である。

反復加重線形回帰は、r、n、g及びλの入力があったものとして、以下の工程を実行することによって行われる。

工程1:βを均一な長さのD確率ベクトルβ←[1/D]_Dとして初期化する。

工程2: 遺伝子型の行列g:G←[(1-λ)g+λ(2-g)]/2のエラーの修正をコンピューターで計算する。

工程3:工程a～工程eを収束まで繰り返す。

工程a:以前のコンピューターで計算されたコントリビューターの割合:p←G・βを使用して、予想される対立遺伝子1の割合をアップデートする。

工程b:加重回帰W←diag([n/(p・(1-p))]^1/2)についての加重をコンピューターで計算する。

工程c:加重線形回帰:β←(W・G)^-1・(W・r)を解く。

工程d:非負性を確実にする:それぞれのコントリビューターについてi,β_i←max(β_i,0)。

工程e:確率ベクトルに正規化する:β←β/Σ_iβ_i-正規化。

信頼区間の推定
推定の信頼区間の下界を、クラメール・ラオの不等式:var(θ_ML)≧1/I(θ_ML)(ここで、θ_MLは、パラメータθの最大尤度の推定であり、I(θ_ML)は、θ_MLにおけるフィッシャーの情報量である)に基づいて決定する。これに基づいて、上記に記載の尤度関数におけるβ及びcの分散を推定することができる。標準エラーは、クラメール・ラオの限界の後にsqrt(1/H)として推定され、ここで、Hは、近似することができ、BFGS-準ニュートン法において推定されるヘッセ行列である。

本発明者らは、β及びcを推定するために、数値最適化の間に、以下の再パラメータ化を使用する。
β=1/(1+e^-η)
c=e^κ

I(η)及びI(κ)は、パラメータ化η及びκの下でフィッシャーの情報量とし、次いで、フィッシャーの情報量の元のパラメータは、
I(β)=I(η)(1/(β(1-β))²
I(c)=I(k)(1/c)²
である

それ故、実施は、標準偏差を推定するための最上位の数値最適化方法において以下の変換を有する。
std(β)=std(η)・β・(1-β)
std(β)=std(η)・c

試料
本明細書において使用される試料は、「無細胞」(例えば、cfDNA)又は細胞に結合した(例えば、細胞DNA)である核酸を含有する。無細胞DNAを含む無細胞核酸は、限定されるものではないが、血漿、血清及び尿を含む生体試料から、当技術分野において公知の各種の方法によって得ることができる(例えば、Fanら、Proc Natl Acad Sci、105巻:16266～16271頁[2008年];Koideら、Prenatal Diagnosis、25巻:604～607頁[2005年];Chenら、Nature Med.、2巻:1033～1035頁[1996年];Loら、Lancet、350巻:485～487頁[1997年];Botezatuら、Clin Chem.、46巻:1078～1084頁、2000年;及びSuら、J Mol. Diagn.、6巻:101～107頁[2004年]を参照のこと)。試料中の細胞から無細胞DNAを分離するために、限定されるものではないが、分画、遠心分離(例えば、密度勾配遠心分離)、DNA特異的沈殿、若しくはハイスループット細胞選別及び/又は他の分離方法を含む各種の方法を使用することができる。cfDNAの手動及び自動化された分離のための市販のキットが利用可能である(Roche Diagnostics社、Indianapolis、IN、Qiagen社、Valencia、CA、Macherey-Nagel社、Duren、DE)。cfDNAを含む生体試料は、染色体の異数性及び/又は各種の多型を検出することができる配列決定アッセイによって、染色体異常、例えば、21トリソミーの存在又は非存在を決定するアッセイにおいて使用されている。

各種の実施形態において、試料中に存在するDNAは、使用する前(例えば、配列決定ライブラリーを調製する前)に、特異的又は非特異的に濃縮することができる。試料DNAの非特異的濃縮は、DNA配列決定ライブラリーを調製する前に試料DNAのレベルを増加させるために使用することができる試料のゲノムDNA断片の全ゲノム増幅を指す。非特異的濃縮は、2以上のゲノムを含む試料中に存在する2つのゲノムの1つの選択的濃縮であり得る。例えば、非特異的濃縮は、血漿試料中のがんゲノムの選択であり得、これは、試料中の正常DNAに対してがんの相対的な比率を増加させる公知の方法によって得ることができる。或いは、非特異的濃縮は、試料中に存在する両方のゲノムの非選択的増幅であり得る。例えば、非特異的増幅は、がん及び正常ゲノムからのDNAの混合物を含む試料中のがん及び正常DNAのものであり得る。全ゲノム増幅のための方法は、当技術分野において公知である。変性オリゴヌクレオチドプライムドPCR(DOP)、プライマー伸長PCR技術(PEP)及び多置換増幅(MDA)は、全ゲノム増幅方法の例である。いくつかの実施形態において、異なるゲノムからのcfDNAの混合物を含む試料は、混合物中に存在するゲノムのcfDNAについて濃縮されない。他の実施形態において、異なるゲノムからのcfDNAの混合物を含む試料は、試料中に存在するゲノムのいずれか1つについて非特異的に濃縮される。

本明細書に記載の方法が適用される核酸を含む試料は、典型的には、例えば、上記に記載の生体試料(「試験試料」)を含む。いくつかの実施形態において、分析される核酸は、多くの周知の方法のいずれかによって精製又は単離される。

したがって、ある特定の実施形態において、試料は、精製若しくは単離されたポリヌクレオチドを含むか、これらからなり、又はこれは、組織試料、生体液試料、細胞試料等の試料を含み得る。適切な生体液試料としては、限定されるものではないが、血液、血漿、血清、汗、涙液、痰、尿、痰、耳流体、リンパ液、唾液、脳脊髄液、洗浄液、骨髄懸濁液、膣流体、経頸管洗浄液、脳液、腹水、乳、呼吸器、腸管及び尿生殖路の分泌液、羊水、乳、並びに白血球除去輸血試料が挙げられる。いくつかの実施形態において、試料は、非侵襲的な手順、例えば、血液、血漿、血清、汗、涙液、痰、尿、痰、耳流体、唾液又は糞便によって容易に得られ得る試料である。ある特定の実施形態において、試料は、末梢血試料、又は末梢血試料の血漿及び/若しくは血清画分である。他の実施形態において、生体試料は、スワブ若しくはスメア、生検標本、又は細胞培養物である。別の実施形態において、試料は、2つ以上の生体試料の混合物であり、例えば、生体試料は、2つ以上の、生体液試料、組織試料及び細胞培養試料を含み得る。本明細書で使用される場合、「血液」、「血漿」及び「血清」という用語は、明確に、その画分又は加工された部分を包含する。同様に、試料が、生検、スワブ、スメア等から取得される場合、「試料」は、明確に、生検、スワブ、スメア等に由来する加工された画分又は部分を包含する。

ある特定の実施形態において、試料は、限定されるものではないが、異なる個体からの試料、同一若しくは異なる個体の異なる成長段階からの試料、異なる疾患の個体(例えば、がんを有するか、又は遺伝性障害を有する疑いがある個体)からの試料、正常な個体、個体における疾患の異なる段階で得られる試料、疾患に対して異なる処置に付された個体から得られる試料、異なる環境要因に付された個体からの試料、病理学的な素因を有する個体からの試料、感染性病原体(例えば、HIV)に曝露された個体の試料等を含む供給源から得ることができる。

1つの実例であるが、非限定的な実施形態において、試料は、被提供者からの血漿試料等の臓器移植の被提供者から得られる被提供者の試料であり、これは、被提供者が起源のcfDNA、及び提供者から移植された組織又は臓器が起源のcfDNAを含む。この例において、試料は、被提供者及び提供者のDNAの一部を定量化するために、本明細書に記載の方法を使用して分析することができる。被提供者の試料は、組織試料、生体液試料又は細胞試料であり得る。生体液試料としては、非限定的な例として、血液、血漿、血清、汗、涙液、痰、尿、痰、耳流体、リンパ液、唾液、脳脊髄液、洗浄液、骨髄懸濁液、膣流体、経頸管洗浄液、脳液、腹水、乳、呼吸器、腸管及び尿生殖路の分泌液、並びに白血球除去試料が挙げられる。

別の実例であるが、非限定的な実施形態において、被提供者の試料は、2つ以上の生体試料の混合物であり、例えば、生体試料は、2つ以上の、生体液試料、組織試料及び細胞培養試料を含み得る。いくつかの実施形態において、試料は、非侵襲的な手順、例えば、血液、血漿、血清、汗、涙液、痰、尿、乳、痰、耳流体、唾液及び糞便によって容易に得られ得る試料である。いくつかの実施形態において、生体試料は、末梢血試料、並びに/又はそれらの血漿及び血清画分である。他の実施形態において、生体試料は、スワブ若しくはスメア、生検標本、又は細胞培養物の試料である。上記に開示するように、「血液」、「血漿」及び「血清」という用語は、明確に、その画分又は加工された部分を包含する。同様に、試料が、生検、スワブ、スメア等から取得される場合、「試料」は、明確に、生検、スワブ、スメア等に由来する加工された画分又は部分を包含する。

ある特定の実施形態において、試料は、インビトロで培養された、組織、細胞、又は他のポリヌクレオチド含有供給源から得ることもできる。培養された試料は、限定されるものではないが、異なる培地及び条件(例えば、pH、圧力又は温度)で維持された培養物(例えば、組織又は細胞)、異なる長さの期間で維持された培養物(例えば、組織又は細胞)、異なる因子若しくは試薬(例えば、薬物候補又は修飾因子)で処理された培養物(例えば、組織又は細胞)、又は異なる種類の組織及び/若しくは細胞の培養物を含む供給源から取得することができる。

生物学的供給源から核酸を単離する方法は、周知であり、供給源の性質に応じて異なる。当業者は、本明細書に記載の方法のために、必要に応じて、供給源から核酸を容易に単離することができる。いくつかの例において、核酸試料中の核酸分子を断片化することが有利であり得る。断片化は、ランダムであり得るか、又は、例えば、制限エンドヌクレアーゼ消化を使用して達成されるように、特異的であり得る。ランダムな断片化のための方法は、当技術分野において周知であり、例えば、制限されたデオキシリボヌクレアーゼ消化、アルカリ処理及び物理的剪断を含む。1つの実施形態において、試料の核酸は、cfDNAとして得られ、これは、断片化に付されない。

配列決定ライブラリーの調製
1つの実施形態において、本明細書の記載の方法は、複数の試料が、単一回の配列決定の実行で、ゲノム分子として(すなわち、シングルプレックス配列決定)、又はインデックス付きのゲノム分子を含むプールされた試料として(例えば、マルチプレックス配列決定)、個々に配列決定されることを可能にする、次世代配列決定技術(NGS)を利用することができる。これらの方法は、最大で数億のDNA配列のリードを発生させることができる。各種の実施形態において、ゲノム核酸及び/又はインデックス付きのゲノム核酸の配列は、例えば、本明細書に記載の次世代配列決定技術(NGS)を使用して決定することができる。各種の実施形態において、NGSを使用して得られた膨大な量の配列データの解析は、本明細書に記載の1つ又は複数のプロセッサを使用して行うことができる。

各種の実施形態において、このような配列決定技術の使用は、配列決定ライブラリーの調製を含まない。

しかしながら、ある特定の実施形態において、本明細書において考慮される配列決定方法は、配列決定ライブラリーの調製を含む。1つの実例となるアプローチにおいて、配列決定ライブラリーの調製は、配列決定するための準備である、アダプター-修飾DNA断片(例えば、ポリヌクレオチド)のランダムコレクションの生成を含む。ポリヌクレオチドの配列決定ライブラリーは、等価物を含むDNA又はRNA、DNA又はcDNAのいずれかのアナログ、例えば、逆転写の作用によってRNA鋳型から生成される相補若しくはコピーDNAであるDNA又はRNAから調製することができる。ポリヌクレオチドは、二本鎖の形態(例えば、ゲノムDNA断片、cDNA、PCR増幅産物等のようなdsDNA)が起源であってもよく、又は、ある特定の実施形態において、ポリヌクレオチドは、一本鎖の形態(例えば、ssDNA、RNA等)が起源であってもよく、dsDNAの形態に変換されてもよい。実例として、ある特定の実施形態において、一本鎖mRNA分子は、配列決定ライブラリーの調製における使用のために適切な二本鎖cDNAにコピーされてもよい。一次ポリヌクレオチド分子の正確な配列は、一般に、ライブラリーの調製の方法にとって重要ではなく、既知又は未知であってもよい。1つの実施形態において、ポリヌクレオチド分子はDNA分子である。より具体的には、ある特定の実施形態において、ポリヌクレオチド分子は、全遺伝的相補性の有機体、又は本質的に全遺伝的相補性の有機体を表し、ゲノムDNA分子(例えば、細胞DNA、無細胞DNA(cfDNA)等)であり、これは、典型的には、イントロン配列及びエクソン配列(コード配列)の両方、並びにプロモーター及びエンハンサー配列等の非コード調節配列を含む。ある特定の実施形態において、一次ポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば、妊娠した対象の末梢血中に存在するcfDNA分子を含む。

いくつかのNGS配列決定プラットフォームのための配列決定ライブラリーの調製は、特異的な範囲の断片サイズを含むポリヌクレオチドの使用によって容易になる。このようなライブラリーの調製は、典型的には、所望のサイズ範囲のポリヌクレオチドを得るための大きなポリヌクレオチド(例えば、細胞ゲノムDNA)の断片化を含む。

断片化は、当業者に公知の多くの方法のいずれかによって達成することができる。例えば、断片化は、限定されるものではないが、噴霧、超音波処理及びハイドロシェアを含む機械的手段によって達成することができる。しかしながら、機械的断片化は、典型的には、DNA主鎖をC-O、P-O及びC-C結合で切断し、不均一な混合物の平滑末端化、並びに破壊されたC-O、P-O及びC-C結合を有する3'及び5'オーバーハング末端をもたらし(例えば、Alnemri及びLiwack、J Biol. Chem、265巻:17323～17333頁[1990年];Richards及びBoyer、J Mol Biol、11巻:327～240頁[1965年])、これは、配列決定のためにDNAを調製するために必要な、その後の酵素反応、例えば、配列決定アダプターのライゲーションのために必要な5'-ホスフェートが欠如する場合があるので、修復が必要であり得る。

対照的に、cfDNAは、典型的には、約300未満の塩基対の断片として存在し、その結果として、断片化は、典型的には、cfDNA試料を使用する配列決定ライブラリーを発生させるために必要ではない。

典型的には、ポリヌクレオチドが、強制的に断片化されようと(例えば、インビトロで断片化される)、又は断片として天然に存在しようと、これらは、5'-ホスフェート及び3'-ヒドロキシルを有する平滑末端のDNAに変換される。標準的なプロトコール、例えば、本明細書のどこかに記載の、例えばIlluminaプラットフォームを使用して配列決定するためのプロトコールは、試料DNAの末端を修復すること、dAテーリングの前に末端修復生成物を精製すること、及びライブラリー調製のアダプターライゲーション工程の前にdAテーリング生成物を精製することを使用者に指示する。

本明細書に記載の配列ライブラリー調製の方法の各種の実施形態は、NGSによって配列決定し得る修飾DNA生成物を得るための標準プロトコールによって典型的に要求される、1つ又は複数の工程を行う必要性を取り除く。簡易法(ABB法)、1工程法及び2工程法は、配列決定ライブラリーの調製のための方法の例であり、これは、2012年7月20日に出願された米国特許出願第13/555,037号に見ることができ、これは、その全体が参照によって組み込まれる。

配列決定方法
上記に示すように、調製された試料(例えば、配列決定ライブラリー)は、DNA混合物試料を定量化及び解析するための手順の部分として、配列決定される。多くの配列決定技術のいずれかを利用することができる。

いくつかの配列決定技術は、下記に記載の、Affymetrix Inc.社(Sunnyvale、CA)のハイブリダイゼーションによる配列決定プラットフォーム、並びに454 Life Sciences社(Bradford、CT)、Illumina/Solexa社(Hayward、CA)及びHelicos Biosciences社(Cambridge、MA)の合成による配列決定プラットフォーム、並びにApplied Biosystems社(Foster City、CA)のライゲーションによる配列決定プラットフォーム等が市販されている。Helicos Biosciences社の合成による配列決定を使用して行われる単一分子配列決定に加えて、他の単一分子配列決定技術としては、限定されるものではないが、Pacific Biosciences社のSMRT(商標)技術、ION TORRENT(商標)技術、及び例えばOxford Nanopore Technologies社によって開発されたナノ細孔配列決定が挙げられる。

自動化されたサンガー法は、「第1世代」技術と考えられるが、自動化されたサンガー配列決定を含むサンガー配列決定も、本明細書の記載の方法において利用することができる。追加の適切な配列決定方法としては、限定されるものではないが、核酸画像化技術、例えば、原子間力顕微鏡法(AFM)又は透過型電子顕微鏡法(TEM)が挙げられる。配列決定技術の実例をより詳細に下記に記載する。

1つの実例であるが、非限定的な実施形態において、本明細書に記載の方法は、Illumina社の合成による配列決定、及び可逆的ターミネーターに基づく配列決定化学(例えば、Bentleyら、Nature、6巻:53～59頁[2009年]に記載されている)を使用して、試験試料中の核酸、例えば、提供者のDNA及び被提供者のDNAを含む被提供者の試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞DNA等について、配列決定情報を得る工程を含む。鋳型DNAは、ゲノムDNA、例えば、細胞DNA又はcfDNAであり得る。いくつかの実施形態において、単離された細胞からのゲノムDNAは、鋳型として使用され、数百の塩基対の長さに断片化される。他の実施形態において、cfDNAは、鋳型として使用され、断片化は、短い断片として存在するcfDNAとして必要ではない。例えば、胎児cfDNAは、およそ170の塩基対(bp)の長さの断片として血流中を循環し(Fanら、Clin Chem、56巻:1279～1286頁[2010年])、DNAの断片化は、配列決定の前に必要ではない。循環する腫瘍DNAは、約150～170bpで最大になるサイズ分布を有する短い断片中にも存在する。Illumina社の配列決定技術は、オリゴヌクレオチドアンカーが結合する平面的な光学的に透明な表面への断片化されたゲノムDNAの付着に依拠する。鋳型DNAは、末端修復されて、5'-リン酸化平滑末端を発生させ、クレノウ断片のポリメラーゼ活性を使用して、単一のA塩基を平滑末端リン酸化DNA断片の3'末端に付加する。この付加は、オリゴヌクレオチドアダプターとのライゲーションのためのDNA断片を調製し、これは、ライゲーション効率を増加させるために、それらの3'末端に単一のT塩基のオーバーハングを有する。アダプターオリゴヌクレオチドは、フローセルアンカーオリゴ(反復伸長の分析においてアンカー/アンカーリードと混同しない)に相補的である。限界希釈条件下、アダプター修飾された一本鎖鋳型DNAがフローセルに添加され、アンカーオリゴへのハイブリダイゼーションによって固定化される。付着されたDNA断片は、伸長され、ブリッジ増幅されて、同じ鋳型の約1,000コピーをそれぞれ含有する数億のクラスターを有する超高密度配列決定フローセルを作成する。1つの実施形態において、ランダムに断片化されたゲノムDNAは、それがクラスター増幅に付される前に、PCRを使用して増幅される。或いは、増幅なし(例えば、PCRなし)のゲノムライブラリー調製が使用され、ランダムに断片化されたゲノムDNAは、クラスター増幅を単独で使用して濃縮される(Kozarewaら、Nature Methods、6巻:291～295頁[2009年])。鋳型は、除去可能な蛍光色素を有する可逆的ターミネーターを利用する頑強な合成による4色DNA配列決定技術を使用して配列決定される。高感度蛍光検出は、レーザー励起及び全内反射光学を使用して達成される。約10～数百塩基対の短い配列リードは、参照配列に対して整列され、参照ゲノムへの短い配列リードの固有マッピングは、特別に開発されたデータ解析パイプラインソフトウェアを使用して同定される。第1のリードの終了後、鋳型を、インサイチュで再生して、断片の反対の端からの第2のリードを可能にすることができる。したがって、DNA断片のシングルエンド又はペアエンド配列決定のいずれかを使用することができる。

本開示の各種の実施形態は、ペアエンド配列決定を可能にする合成による配列決定を使用してもよい。いくつかの実施形態において、Illumina社の合成による配列決定プラットフォームは、断片のクラスター形成を含む。クラスター形成は、それぞれの断片の分子が等温的に増幅されるプロセスである。いくつかの実施形態において、本明細書に記載の例として、断片は、断片の2つの末端に付着した2つの異なるアダプターを有し、アダプターは、断片がフローセルのレーンの表面上の2つの異なるオリゴとハイブリダイズすることを可能にする。断片は、更に、断片の2つの末端で2つのインデックス配列を含むか、又はこれらに連結され、このインデックス配列は、マルチプレックス配列決定において異なる試料を同定するラベルを提供する。いくつかの配列決定プラットフォームにおいて、配列決定される断片は、インサートとも称する。

いくつかの実施において、Illuminaプラットフォームにおけるクラスター形成のためのフローセルは、レンズを有するガラススライドである。それぞれのレーンは、2種類のオリゴのローンでコーティングされたガラスチャネルである。ハイブリダイゼーションは、表面上の第1の2種類のオリゴによって可能になる。このオリゴは、断片の一方の末端上の第1のアダプターに相補的である。ポリメラーゼは、ハイブリダイズされた断片の相補鎖を作成する。二本鎖分子は、変性され、元の鋳型鎖は、洗い流される。残った鎖は、多くの他の残った鎖と同時に、ブリッジの適用によってクローン的に増幅される。

ブリッジ増幅において、鎖の折り重なり、及び鎖の第2の末端における第2のアダプター領域は、フローセルの表面上で第2の種類のオリゴとハイブリダイズされる。ポリメラーゼは、相補的鎖を発生させ、二本鎖ブリッジ分子を形成する。この二本鎖分子は、変性されて、2つの異なるオリゴを通してフローセルに繋ぎ留められた2つの一本鎖分子をもたらす。次いで、このプロセスは、何度も繰り返され、すべての断片のクローン的増幅をもたらす数百万のクラスターを同時に生じる。ブリッジ増幅の後、逆鎖が切断され、洗い流されて、順鎖のみが残される。3'末端は、ブロックされて、望ましくないプライミングを防ぐ。

クラスター形成の後、配列決定を、第1の配列決定プライマーの伸長によって開始して、第1のリードを発生させる。それぞれのサイクルにより、蛍光タグ化ヌクレオチドは、鎖の成長のための付加と競合する。1つのみが、鋳型の配列に基づいて組み込まれる。それぞれのヌクレオチドの付加の後、クラスターは、光源によって励起され、特徴的な蛍光信号を発する。サイクル数は、リードの長さを決定する。放射波長及び信号強度は、ベースコールを決定する。所与のクラスターに関して、すべての同一の鎖は、同時に読み取られる。数億のクラスターが、超並列方式で配列決定される。第1のリードが終了すると、リード生成物は洗い流される。

2つのインデックスプライマーを含むプロトコールの次の工程において、インデックス1プライマーは、鋳型のインデックス1領域に導入及びハイブリダイズされる。インデックス領域は断片の同定を提供し、これは、マルチプレックス配列決定プロセスにおける逆マルチプレックス化試料のために有用である。インデックス1リードは、第1のリードと同様に発生される。インデックス1リードの終了の後、リード生成物は洗い流され、鎖の3'末端は脱保護される。次いで、鋳型鎖は、折り重なり、フローセル上の第2のオリゴに結合する。インデックス2配列は、インデックス1と同様の方法で読み取られる。次いで、インデックス2リード生成物は、工程の終了の際に洗い流される。

2つのインデックスの読み取り後、リード2は、ポリメラーゼを使用することによって惹起されて、第2のフローセルオリゴを伸長させ、二本鎖ブリッジを形成する。この二本鎖DNAは変性され、3'末端はブロックされる。元の順鎖は、切断され、洗い流され、逆鎖が残される。リード2は、リード2配列決定プライマーの導入により開始する。リード1と同様に、配列決定工程は、所望の長さに達するまで繰り返される。リード2生成物は洗い流される。この全プロセスは、すべての断片を表す、数百万のリードを発生させる。プールされた試料ライブラリーからの配列は、試料調製の間に導入された固有のインデックスに基づいて分離される。それぞれの試料に関して、同様の区間のベースコールのリードは、局所的にクラスター形成される。順及び逆リードは、ペアを成して、連続的な配列が作成される。これらの連続的な配列は、バリアントの同定のために、参照ゲノムに整列される。

上記に記載の合成例による配列決定は、ペアエンドリードを含み、これは、開示される方法の多くの実施形態において使用される。ペアエンド配列決定は、断片の2つの末端からの2つのリードを含む。リードのペアが参照配列にマッピングされると、2つのリードの間の塩基ペアの間隔を決定することができ、この間隔は、次いで、リードが得られた断片の長さを決定するために使用することができる。いくつかの例において、2つのビンにまたがる断片は、1つのビンに整列させたそのペアエンドリードの1つ、及びビンに隣接する別のペアエンドリードを有する。これは、ビンが長くなるにつれて、又はリードが短くなるにつれて、まれになる。各種の方法は、これらの断片のビン-メンバーシップを構成するために使用され得る。例えば、これらは、ビンの断片のサイズの頻度を決定する際に省略することができ;これらは、隣接するビンの両方についてカウントすることができ;これらは、2つのビンのより多くの数の塩基対を包含するビンに割り当てることができ;又は、これらは、それぞれのビンにおける塩基対の部分に関する質量を用いて、両方のビンに割り当てることができる。

ペアエンドリードは、異なる長さ(すなわち、配列決定される異なる断片のサイズ)のインサートを使用し得る。本開示におけるデフォルトの意味として、ペアエンドリードは、各種のインサートの長さから得られるリードを指すために使用される。いくつかの例において、短いインサートのペアエンドリードを長いインサートのペアエンドリードから区別するために、後者は、メイトペアリードとも称される。メイトペアリードを含むいくつかの実施形態において、2つのビオチン接合アダプターは、最初に、相対的に長いインサート(例えば、数kb)の2つの末端に付着する。次いで、ビオチン接合アダプターは、インサートの2つの末端を連結させて、環状化分子を形成する。次いで、ビオチン接合アダプターを包含する小断片は、環状化分子の更なる断片化によって得ることができる。次いで、逆の配列順で元の断片の2つの末端を含む小断片は、上記に記載の短いインサートのペアエンド配列決定に関する同じ手順によって配列決定することができる。Illuminaプラットフォームを使用するメイトペアの配列決定の更なる詳細は、以下のURLのオンライン公開で示されており、これは、その全体が参照によって、組み込まれる:res|.|illumina|.|com/documents/products/technotes/technote_nextera_matepair_data_processing。ペアエンド配列決定についての追加情報は、米国特許第7601499号及び米国特許出願第2012/0,053,063号に見ることができ、これらは、ペアエンド配列決定方法及び装置における材料に関して、参照によって組み込まれる。

DNA断片の配列決定の後、所定の長さ、例えば100bpの配列リードは、既知の参照ゲノムにマッピング又は整列される。マッピング又は整列されたリード及び参照配列上のこれらの対応する位置もタグとして参照される。1つの実施形態において、参照ゲノム配列は、NCBI36/hg18配列であり、これは、genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)のワールドワイドウェブで利用可能である。或いは、参照ゲノム配列は、GRCh37/hg19であり、これは、genome.ucsc.edu/cgi-bin/hgGatewayのワールドワイドウェブで利用可能である。公開配列情報の他の出所としては、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所)及びDDBJ(日本DNAデータベース)が挙げられる。多くのコンピュータープログラムが、配列を整列させるために利用可能であり、限定されるものではないが、BLAST(Altschulら、1990年)、BLITZ(MPsrch)(Sturrock & Collins、1993年)、FASTA(Person & Lipman、1988年)、BOWTIE(Langmeadら、Genome Biology、10巻:R25.1～R25.10頁[2009年])又はELAND(Illumina, Inc.社、San Diego、CA、米国)が挙げられる。1つの実施形態において、血漿cfDNA分子のクローン的伸長コピーの1つの末端は、Efficient Large-Scale Alignment of Nucleotide Databases (ELAND)ソフトウェアを使用する、Illumina Genome Analyzerのためのバイオインフォマティクス整列解析によって配列決定及び加工される。

1つの実例であるが、非限定的な実施形態において、本明細書に記載の方法は、Helicos True Single Molecule Sequencing(tSMS)技術(例えば、Harris T.D.ら、Science、320巻:106～109頁[2008年]に報告されている)の単一分子配列決定技術を使用して、試験試料中の核酸、例えば、被提供者及び提供者DNAを含む被提供者試料中のcfDNA、がん等についてスクリーニングされる対象中のcfDNA又は細胞DNA中に関する配列情報を得る工程を含む。tSMS技術において、DNA試料は、およそ100～200ヌクレオチドの鎖に切断され、ポリA配列がそれぞれのDNA鎖の3'末端に付加される。それぞれの鎖は、蛍光標識化アデノシンヌクレオチドの付加によって標識される。次いで、DNA鎖は、フローセル表面に固定化されている数百万のオリゴ-T捕捉部位を含有するフローセルにハイブリダイズされる。ある特定の実施形態において、鋳型は、約1億鋳型/cm2の密度であり得る。次いで、フローセルは、機器、例えば、HeliScope(商標)配列決定装置にロードされ、レーザーがフローセルの表面を照射し、それぞれの鋳型の位置を明らかにする。CCDカメラは、フローセル表面上の鋳型の位置をマッピングすることができる。次いで、鋳型蛍光標識は、切断され、洗い流される。配列決定反応は、DNAポリメラーゼ及び蛍光標識化ヌクレオチドを導入することによって開始する。オリゴ-T核酸は、プライマーとしての機能を果たす。ポリメラーゼは、鋳型が方向付けた方法で標識化ヌクレオチドをプライマーに組み込む。ポリメラーゼ及び組み込まれていないヌクレオチドは除去される。蛍光標識化ヌクレオチドの組み込みを方向付ける鋳型は、フローセル表面を画像化することによって識別される。画像化の後、切断工程は、蛍光標識を除去し、このプロセスは、所望のリード長さに達するまで、他の蛍光標識化ヌクレオチドを用いて繰り返される。配列情報は、それぞれのヌクレオチド付加工程によって収集される。単一分子配列決定技術による全ゲノム配列決定は、配列決定ライブラリーの調製におけるPCRに基づく増幅を排除又は典型的に防ぎ、本方法は、その試料のコピーの測定ではなく、むしろ試料の直接的測定を可能にする。

別の実例であるが、非限定的な実施形態において、本明細書の記載の方法は、454配列決定(Roche社)(例えば、Margulies, M.ら、Nature、437巻:376～380頁[2005年]に報告されている)を使用して、試験試料中の核酸、例えば、提供者及び被提供者のDNAを含む被提供者の試験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞DNA等について、配列決定情報を得る工程を含む。454配列決定は、典型的には、2つの工程を含む。第1の工程において、DNAは、およそ300～800塩基対の断片に剪断され、断片は、平滑末端化される。次いで、オリゴヌクレオチドアダプターは、断片の末端にライゲートされる。アダプターは、断片の増幅及び配列決定のためのプライマーとしての機能を果たす。断片は、例えば、5'-ビオチンタグを含有するアダプターBを使用して、DNA捕捉ビーズ、例えば、ストレプトアビジン被覆ビーズに付着され得る。ビーズに付着された断片は、油-水エマルジョンの液滴内でPCR増幅される。結果は、それぞれのビーズ上のクローン的に増幅されたDNA断片の複数のコピーである。第2の工程において、ビーズは、ウェル(例えば、ピコリットルサイズのウェル)中で捕捉される。ピロ配列決定は、同時にそれぞれのDNA断片において行われる。1つ又は複数のヌクレオチドの付加は、配列決定装置中のCCDカメラによって記録される光信号を発生させる。信号強度は、組み込まれたヌクレオチドの数に比例する。ピロ配列決定は、ヌクレオチドの付加の際に放出される、ピロホスフェート(PPi)を使用する。PPiは、アデノシン5'ホスホサルフェートの存在中、ATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ATPを使用して、ルシフェリンをオキシルシフェリンに変換し、この反応は、測定及び分析される光を発生させる。

別の実例であるが、非限定的な実施形態において、本明細書の記載の方法は、SOLiD(商標)技術(Applied Biosystems社)を使用して、試験試料中の核酸、例えば、被提供者の試験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞DNA等について、配列決定情報を得る工程を含む。SOLiD(商標)ライゲーションによる配列決定において、ゲノムDNAは、断片に剪断され、アダプターが断片の5'及び3'末端に付着されて、断片ライブラリーを発生させる。或いは、内部アダプターは、断片の5'及び3'末端へのアダプターのライゲーションによって導入され、断片を環状化させ、環状化した断片を消化して内部アダプターを発生させることができ、生じた断片の5'及び3'末端にアダプターを付着させて、メイトペアライブラリーを発生させる。次に、クローンビーズ集団が、ビーズ、プライマー、鋳型及びPCRの構成要素を含有するマイクロリアクターにおいて調製される。PCRの後、鋳型は、変性され、ビーズは濃縮されて、伸長された鋳型を有するビーズが分離される。選択されたビーズ上の鋳型は、ガラススライドへの結合を可能にする3'修飾に付される。配列は、特定のフルオロフォアによって同定される中心決定塩基(又は塩基の対)との部分的にランダムなオリゴヌクレオチドの連続的なハイブリダイゼーション及びライゲーションによって決定することができる。色が記録された後、ライゲーションされたオリゴヌクレオチドは、切断され、除去され、次いで、このプロセスが繰り返される。

別の実例であるが、非限定的な実施形態において、本明細書の記載の方法は、Pacific Biosciences社の単一分子のリアルタイム(SMRT(商標))配列決定技術を使用して、試験試料中の核酸、例えば、被提供者の試験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞DNA等について、配列決定情報を得る工程を含む。SMRT配列決定において、色素標識化ヌクレオチドの連続的な組み込みは、DNA合成の間に画像化される。単一DNAポリメラーゼ分子は、リン酸結合されたヌクレオチドが成長しているプライマー鎖に組み込まれている間に、配列情報を得る個々のゼロモード波長検出器(ZMW検出器)の底部表面に付着される。ZMW検出器は、ZMWの内外で迅速に拡散する(例えば、マイクロ秒で)蛍光ヌクレオチドのバックグラウンドに対して、DNAポリメラーゼによる単一ヌクレオチドの組み込みの観察を可能にする閉じ込め構造を含む。ヌクレオチドを成長している鎖に組み込むために、典型的には数ミリ秒かかる。この時間の間、蛍光標識は、励起され、蛍光シグナルを生成し、蛍光タグは、切断される。相当する色素の蛍光の測定は、どの塩基が組み込まれたかを示す。このプロセスが繰り返されて、配列が提供される。

別の実例であるが、非限定的な実施形態において、本明細書の記載の方法は、ナノポア配列決定(例えば、Soni GV及びMeller A.、Clin Chem、53巻:1996～2001頁[2007年]に報告されている)を使用して、試験試料中の核酸、例えば、材料又は被提供者の試験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞DNA等について、配列決定情報を得る工程を含む。ナノポア配列決定DNA分析技術は、例えば、Oxford Nanopore Technologies社(Oxford、英国)、Sequenom社、NABsys社等を含む多くの会社によって開発されている。ナノポア配列決定は、単一分子配列決定技術であり、それによって、DNAの単一分子は、ナノポアを通過しながら、直接配列決定される。ナノポアは、典型的には、直径が1ナノメートルの桁の小さな孔である。導電性流体へのナノポアの浸漬及びその全域への電位(電圧)の適用は、ナノポアを通したイオンの伝導に起因するわずかな電流をもたらす。流れる電流の量は、ナノポアのサイズ及び形状に敏感である。DNA分子がナノポアを通過するときに、DNA分子上のそれぞれのヌクレオチドは、ナノポアを異なる程度に詰まらせ、ナノポアを通る電流の大きさを異なる程度に変化させる。したがって、DNA分子がナノポアを通過するときの電流のこの変化は、DNA配列のリードを提供する。

別の実例であるが、非限定的な実施形態において、本明細書の記載の方法は、化学感受性電界効果トランジスタ(chemFET)アレイ(例えば、米国特許出願公開第2009/0026082号に報告されている)を使用して、試験試料中の核酸、例えば、被提供者の試験試料中のcfDNA、がんについてスクリーニングされる対象におけるcfDNA又は細胞DNA等について、配列決定情報を得る工程を含む。この技術の1つの例において、DNA分子を反応チャンバー中に置くことができ、鋳型分子を、ポリメラーゼに結合する配列決定プライマーにハイブリダイズすることができる。配列決定プライマーの3'末端での新しい核酸鎖中への1つ又は複数のトリホスフェートの組み込みは、chemFETによって電流の変化として識別することができる。アレイは、複数のchemFETセンサーを有し得る。別の例において、単一核酸は、ビーズに付着させることができ、核酸は、ビーズ上で増幅させることができ、個々のビーズは、chemFETアレイ上の個々の反応チャンバーに移すことができ、chemFETセンサーを有するそれぞれのチャンバーで、核酸は配列決定され得る。

別の実施形態において、本方法は、透過型電子顕微鏡(TEM)を使用して、試験試料中の核酸、例えば、被提供者の試験試料中のcfDNAについて、配列決定情報を得る工程を含む。Individual Molecule Placement Rapid Nano Transfer(IMPRNT)と称される方法は、重原子マーカーで選択的に標識化された高分子量(150kb以上)のDNAの単一原子分解能透過型電子顕微鏡画像化の利用、及び一貫した塩基から塩基の間隔を有する超高密度(鎖から鎖が3nm)並行アレイにおける極薄のフィルム上へのこれらの分子の配置を含む。電子顕微鏡を使用して、フィルム上の分子を画像化して、重原子マーカーの位置を決定し、DNAからの塩基配列情報を抽出する。この方法は、PCT特許公開第WO2009/046445号に更に記載されている。この方法は、10分未満で完全ヒトゲノムを配列決定することを可能にする。

別の実施形態において、DNA配列決定技術は、Ion Torrent単一分子配列決定であり、これは、半導体技術を単純な配列決定化学と組み合わせて、化学的にコードされる情報(A、C、G、T)を半導体チップ上のデジタル情報(0、1)に直接翻訳する。実際は、ヌクレオチドがポリメラーゼによってDNAの鎖中に組み込まれるときに、水素イオンが、副産物として放出される。Ion Torrentは、この生化学的プロセスを大規模な並行方法で行うために、微細加工されたウェルの高密度アレイを使用する。それぞれウェルは、異なるDNA分子を保持する。ウェルの真下にイオン感受性層があり、その真下にイオンセンサーがある。ヌクレオチド、例えば、Cは、DNA鋳型に加えられ、次いで、DNAの鎖中に組み込まれるときに、水素イオンが放出される。そのイオンからの電荷は、溶液のpHを変化させ、これは、Ion Torrentのイオンセンサーによって検出することができる。本質的に世界で最も小さい固体状態のpHメーターである配列決定装置は、塩基を呼び出し、化学情報からデジタル情報に直接なる。次いで、Ion personal Genome Machine(PGM(商標))配列決定装置は、1つのヌクレオチド、その後別のヌクレオチドで連続的にチップに大量の情報を送る。チップに大量に情報を送る次のヌクレオチドがマッチではない場合、電圧変化は、記録されず、塩基は、呼び出されない。DNA鎖上に2つの同一の塩基が存在する場合、電圧は、2倍であり、チップは、呼び出された2つの同一の塩基を記録する。直接検出は、数秒でのヌクレオチドの組み込みの記録を可能にする。

別の実施形態において、本方法は、ハイブリダイゼーションによる配列決定を使用して、試験試料中の核酸、例えば、被提供者の試験試料中のcfDNAについて、配列決定情報を得る工程を含む。ハイブリダイゼーションによる配列決定は、多数のポリヌクレオチド配列を多数のポリヌクレオチドプローブと接触させる工程を含み、ここで、多数のポリヌクレオチドプローブのそれぞれは、任意に基板につながれていてもよい。基板は、既知のヌクレオチド配列のアレイを含む平面であってもよい。アレイへのハイブリダイゼーションのパターンは、試料中に存在するポリヌクレオチド配列を決定するために使用することができる。他の実施形態において、それぞれのプローブは、ビーズ、例えば、磁気ビーズ等につながれる。ビーズへのハイブリダイゼーションは、試料内の多数のポリヌクレオチド配列を同定するために決定及び使用することができる。

本明細書の記載の方法のいくつかの実施形態において、マッピングされた配列タグは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130bp、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp又は約500bpの配列リードを含む。技術的利点は、ペアエンドリードが発生したときに、約1000bp超のリードを可能にする、500bp超のシングルエンドのリードを可能にすることであると予想される。1つの実施形態において、マッピングされた配列タグは、36bpの配列リードを含む。配列タグのマッピングは、タグの配列を参照の配列と比較して配列決定された核酸(例えば、cfDNA)分子の染色体の起源を決定することによって達成され、特異的な遺伝子配列情報は必要ではない。わずかな程度のミスマッチ(配列タグあたり0～2のミスマッチ)は、混合された試料中の参照ゲノム及びゲノムの間に存在し得るマイナーな多型を説明することを可能にし得る。

多数の配列タグは、典型的には、試料ごとに得られる。いくつかの実施形態において、75bpのリードの間を含む少なくとも約1×10⁵の配列タグが、試料ごとに参照ゲノムにリードをマッピングすることで得られる。

DNA混合物試料を正しく定量化するために必要な正確性は、配列決定の実行内で試料の間で参照ゲノムにマッピングされる配列タグの数の変動(実行内の変動性)、及び異なる配列決定の実行において参照ゲノムにマッピングされる配列タグの数の変動(実行内の変動性)に基礎を置いている。他の変動は、核酸の抽出及び精製のための異なるプロトコールを使用すること、配列決定ライブラリーの調製、並びに異なる配列決定プラットフォームの使用からもたらされ得る。

複数の供給源からの核酸の混合物を解析及び定量化するための装置及びシステム
配列決定データの解析及びそれらから誘導される診断は、典型的には、各種のコンピュータープログラムを使用して行われる。したがって、ある特定の実施形態は、1つ若しくは複数のコンピューターシステム、又は他の加工システムに保存又は変換されたデータを含むプロセスを利用する。本明細書に開示される実施形態は、これらの操作を行うための装置にも関する。この装置は、必要な目的のために特別に構築されてもよく、或いはこれは、コンピューターに保存されたコンピュータープログラム及び/若しくはデータ構造によって選択的に起動又は再構成される汎用コンピューター(又はコンピューターの群)であってもよい。いくつかの実施形態において、プロセッサの群は、列挙された解析操作の一部若しくはすべてを協同的に(例えば、ネットワーク又はクラウドコンピューティングを介して)及び/又は並行して、行う。本明細書に記載の方法を行うためのプロセッサ又はプロセッサの群は、プログラム可能デバイス(例えば、CPLD及びFPGA)及びゲートアレイASIC又は汎用マイクロプロセッサ等の非プログラム可能デバイス等のマイクロコントローラ並びにマイクロプロセッサを含む各種の種類のものであり得る。

加えて、ある特定の実施形態は、各種のコンピューター実行操作を行うためのプログラム指示及び/若しくはデータ(データ構造を含む)を含む有形並びに/又は非一時的コンピューター可読媒体若しくはコンピュータープログラム製品に関する。コンピューター可読媒体の例としては、限定されるものではないが、読み出し専用メモリデバイス(ROM)及びランダムアクセスメモリ(RAM)等のプログラム指示を保存し、行うように特別に構成された、半導体メモリデバイス、ディスクドライブ、磁気テープ等の磁気媒体、CD等の光媒体、光磁気媒体、及びハードウェアデバイスが挙げられる。コンピューター可読媒体は、エンドユーザーによって直接制御されてもよく、又はこの媒体は、エンドユーザーによって間接制御されてもよい。直接制御される媒体の例としては、他の実体と共有されていないユーザーファシリティ及び/又は媒体に位置する媒体が挙げられる。間接制御される媒体の例としては、外部ネットワークを介して、及び/又は「クラウド」等のサービス提供共用資源を介してユーザーに間接アクセス可能である媒体が挙げられる。プログラムの指示の例としては、例えばコンパイラによって生成される機械コード、及びインタープリターを使用してコンピューターによって実行され得るより高いレベルのコードを含有するファイルの両方が挙げられる。

各種の実施形態において、開示される方法及び装置において利用されるデータ又は情報は、電子フォーマットで提供される。このようなデータ又は情報としては、核酸試料に由来するリード及びタグ、参照配列の特定の領域で整列される(例えば、染色体又は染色体セグメントに整列される)ようなタグのカウント又は密度、参照配列(単独又は主に多型を提供する参照配列を含む)、SNV又は異数性のコール等のコール、カウンセリングの推奨事項、診断等が挙げられ得る。本明細書で使用される場合、電子フォーマットで提供されるデータ又は他の情報は、機械上での保存及び機械間の通信が利用可能である。慣例的に、電子フォーマットのデータは、デジタル的に提供され、各種のデータ構造、リスト、データベース等においてビット及び/又はバイトとして保存され得る。データは、電子工学的に、光学的に等で、具体化され得る。

1つの実施形態は、試験試料中のがんに関連するSNV若しくは異数性の存在又は非存在を示す出力を発生させるためのコンピュータープログラム製品を提供する。コンピューター製品は、染色体の異常を決定するためのいずれか1つ又は複数の上述の方法を行うための指示を含有し得る。説明されるように、コンピューター製品は、プロセッサがDNA混合物試料を定量化することを可能にするために記録されたコンピューターが実行可能若しくはコンパイル可能な論理(例えば、指示)を有する非一時的及び/又は有形のコンピューター可読媒体を含み得る。1つの例において、コンピューター製品は、プロセッサがDNA混合物試料を定量化することを可能にするために記録されたコンピューターが実行可能若しくはコンパイル可能な論理(例えば、指示)を有するコンピューター可読媒体を含む。

考慮中の試料からの配列情報は、対象のいずれか1つ又は複数の染色体のそれぞれについて、配列タグの数を特定するための染色体参照配列にマッピングされ得る。各種の実施形態において、参照配列は、例えば、リレーショナルデータベース又はオブジェクトデータベース等のデータベースに保存される。

本明細書に開示される方法のコンピューターによる操作を人間が自力で行うことは、実際的ではなく、又はほとんどの場合において可能でさえないことが理解されるべきである。例えば、ヒト染色体のいずれか1つに試料から単一の30bpのリードをマッピングすることは、計算装置の助けなしでは何年もの努力が必要かもしれない。

本明細書において開示される方法は、DNA混合物試料を定量化するために、システムを使用して行うことができる。本システムは、(a)試料から核酸配列の情報を提供する試験試料から核酸を受け取るための配列決定装置;(b)プロセッサ;及び(c)DNA混合物試料を定量化するための方法を行うための前記プロセッサにおける実行のための指示がそこに保存された1つ又は複数のコンピューター可読保存媒体を含む。

いくつかの実施形態において、本方法は、DNA混合物試料を定量化するための方法を行うためのコンピューター可読指示がそこに保存されたコンピューター可読媒体によって指示される。したがって、1つの実施形態は、コンピューターシステムの1つ又は複数のプロセッサによって実行される場合に、DNA混合物試料を定量化するための方法をコンピューターシステムに実行させるコンピューター実行可能指示がそこに保存された1つ又は複数のコンピューター可読非一時的保存媒体を含むコンピュータープログラム製品を提供する。本方法は、(a)核酸試料から核酸分子を抽出する工程;(b)抽出された核酸分子を増幅する工程;(c)核酸配列決定装置を使用して、増幅された核酸分子を配列決定して、核酸配列リードを生成する工程;(d)1つ又は複数のプロセッサによって、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングする工程;(e)マッピングされた核酸配列リードを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定する工程;及び(f)確率混合モデルを使用して、1つ又は複数のプロセッサによって、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程を含み、ここで、確率混合モデルを使用する工程が、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、核酸配列リード配列及びカウントにおけるエラーを説明する。

いくつかの実施形態において、指示は、被提供者の試験試料を提供するヒト対象についての患者の医療記録中に、本方法に関する情報を自動的に記録する工程を更に含んでいてもよい。患者の医療記録は、例えば、研究室、診療所、病院、保健維持機構、保険会社、又は個人の医療記録のウェブサイトによって維持され得る。更に、プロセッサが実行する解析の結果に基づいて、本方法は、被提供者の試験試料が採取されたヒト対象の処置を、処方、開始及び/又は変更する工程を更に含んでいてもよい。これは、対象から採取された追加試料に対して、1つ若しくは複数の追加試験又は分析を行う工程を含んでいてもよい。

開示される方法は、DNA混合物試料を定量化するための方法を行うために適合又は構成されたコンピューター処理システムを使用して行うこともできる。1つの実施形態は、本明細書に記載の方法を行うために適合又は構成されたコンピューター処理システムを提供する。1つの実施形態において、本装置は、本明細書のどこかに記載された配列情報の種類を得るための、試料中の核酸分子の少なくとも一部を配列決定するために適合又は構成された配列決定デバイスを含む。本装置は、試料を加工するための構成要素も含み得る。このような構成要素は、本明細書のどこかに記載される。

配列又は他のデータは、直接的又は間接的のいずれかで、コンピューターに入力され得るか、又はコンピューター可読媒体に保存され得る。1つの実施形態において、コンピューターシステムは、試料から核酸の配列を読み取り及び/又は解析する、配列決定デバイスに直接連結される。このようなツールからの配列又は他の情報は、コンピューターシステムのインターフェースを介して提供される。或いは、システムによって加工された配列は、データベース又は他のリポジトリ等の配列保存源から提供される。処理装置で利用可能になると、メモリデバイス又は大容量記憶デバイスは、核酸の配列を少なくとも一時的にバッファリング又は保存する。加えて、メモリデバイスは、各種の染色体又はゲノム等についてのタグカウントを保存し得る。メモリは、提示された配列若しくはマッピングされたデータを解析するための各種のルーティン及び/又はプログラムも保存し得る。このようなプログラム/ルーティンは、統計解析等を行うためのプログラムを含んでいてもよい。

1つの例において、ユーザーは、配列決定装置に試料を提供する。データは、コンピューターに連結された配列決定装置によって収集及び/又は解析される。コンピューター上のソフトウェアは、データの収集及び/又は解析を可能にする。データは、別の場所に、保存、表示(モニター又は他の同様のデバイスを介して)、及び/又は送信することができる。コンピューターは、リモートユーザー(例えば、医師、科学者又は解析者)によって利用される携帯用デバイスにデータを送信するために使用されるインターネットに接続されていてもよい。データが送信の前に保存及び/又は解析されてもよいことが理解される。いくつかの実施形態において、生データは、収集され、データを解析及び/若しくは保存するリモートユーザー又は装置に送信される。送信はインターネットを介して起こり得るが、衛星又は他の接続を介しても起こり得る。或いは、データは、コンピューター可読媒体に保存することができ、媒体は、(例えば、郵送により)エンドユーザーに発送することができる。リモートユーザーは、限定されないが、建物、都市、州、国若しくは大陸を含む、同じ又は異なる地理的な場所に存在し得る。

いくつかの実施形態において、本方法は、複数のポリヌクレオチド配列に関するデータ(例えば、リード、タグ及び/又は参照染色体配列)を収集する工程、及びコンピューター又は他のコンピューターによるシステムにデータを送信する工程も含む。例えば、コンピューターは、研究室の設備、例えば、試料採取装置、ヌクレオチド増幅装置、ヌクレオチド配列決定装置又はハイブリダイゼーション装置に接続することができる。次いで、コンピューターは、研究室のデバイスによって蓄積された適用可能なデータを収集することができる。データは、任意の工程、例えば、リアルタイムでの収集の間、送信する前、送信の間若しく送信と同時に、又は送信の後に、コンピューターに保存することができる。データは、コンピューターから抽出することができるコンピューター可読媒体に保存することができる。収集又は保存されたデータは、例えば、ローカルネットワーク、又はインターネット等の広域ネットワークを介して、コンピューターから遠隔地に送信することができる。遠隔地で、各種の操作を、下記に記載するように、送信されたデータに対して行うことができる。

本明細書において開示される、システム、装置及び方法において、保存、送信、解析及び/又は操作され得る電子的にフォーマットされたデータの種類の中には、以下がある。
試験試料中の核酸を配列決定することによって得られるリード
参照ゲノム又は他の参照配列(複数可)にリードを整列させることによって得られるタグ
参照ゲノム又は配列
対立遺伝子カウント - 参照ゲノム若しくは他の参照配列のそれぞれの対立遺伝子及び領域についてのタグのカウント又は数
決定されたコントリビューターの核酸の割合及び関連する信頼区間
診断(コールに関連する臨床状態)
コール及び/又は診断に由来する更なる試験のための推奨
コール及び/又は診断に由来する、処置及び/又はモニタリングの計画

これらの各種の種類のデータは、特徴的な装置を使用して、1つ又は複数の場所で、得られ、保存され、送信され、解析され、及び/又は操作されてもよい。処理の選択肢は、広範囲に及ぶ。範囲の一端では、この情報のすべて又は大部分は、試験試料が加工される場所、例えば、診療所又は他の臨床施設で保存及び使用される。他端では、試料はある場所で入手され、これは異なる場所で加工及び任意に配列決定され、リードは1つ又は複数の異なる場所で整列及び呼び出され、更に別の場所(これは、試料が入手された場所であってもよい)で診断、推奨及び/又は計画が行われる。

各種の実施形態において、リードは、配列決定装置で発生され、次いで、それらがコールを生成するために加工される遠隔部に送信される。この遠隔地で、例として、リードは、タグを生成する参照配列に整列させ、これは、染色体又は対象のセグメントにカウント及び割り当てられる。また、遠隔地で、ドーズを使用して、コールを発生させる。

異なる場所で利用され得る処理操作には、以下がある。
試料の収集
配列決定の前の試料の加工
配列決定
配列データの解析及びDNA混合物試料の定量化
診断
患者又は医療提供者への診断及び/又はコールの報告
更なる処置、試験及び/又はモニタリングのための計画の作成
計画の実行
カウンセリング

これらの操作のいずれか1つ又は複数は、本明細書のどこかに記載されるように自動化され得る。典型的には、配列決定及び配列データの解析及びDNA混合物試料の定量化は、コンピューターで行われる。他の操作は、手動又は自動的に行われ得る。

試料の収集が行われ得る場所の例としては、医療従事者のオフィス、診療所、患者の自宅(試料収集ツール又はキットが提供される場所)、及び移動型医療車両が挙げられる。配列決定の前に試料の加工が行われ得る場所の例としては、医療従事者のオフィス、診療所、患者の自宅(試料の加工装置又はキットが提供される場所)、移動型医療車両、及びDNA解析提供者の施設が挙げられる。配列決定が行われ得る場所の例としては、医療従事者のオフィス、診療所、医療従事者のオフィス、診療所、患者の自宅(試料の配列決定装置及び/又はキットが提供される場所)、移動型医療車両、及びDNA解析提供者の施設が挙げられる。配列決定が行われ得る場所は、電子的フォーマットの配列データ(典型的には、リード)を送信するための専用のネットワーク接続が提供され得る。このような接続は、有線又は無線であり得、処理サイトへの送信前にデータを処理及び/又は集約することができるサイトにデータを送信するように構成されたか、構成され得る。データ集約者は、保健維持機構(HMO)等の保健機関によって維持され得る。

解析及び/又は導出操作は、先述の場所のいずれか、或いは核酸配列データをコンピューターで計算及び/又は解析するサービスの専用の更なる遠隔サイトで行われてもよい。このような場所としては、例えば、汎用サーバーファーム等のクラスター、DNA分析サービスビジネスの施設等が挙げられる。いくつかの実施形態において、解析を行うために利用されるコンピューター計算装置は、リース又はレンタルされる。コンピューター計算リソースは、口語的に、クラウドとして公知の処理リソース等のインターネットでアクセス可能なプロセッサ群の一部であり得る。いくつかの場合において、コンピューター計算は、互いに関連若しくは無関連のプロセッサの並列又は大規模並列群によって行われる。処理は、クラスターコンピューティング、グリッドコンピューティング等のような分散処理を使用して達成され得る。このような実施形態において、コンピューター計算リソース共同体のクラスター又はグリッドは、一緒に作動する複数のプロセッサ又はコンピューターで構成される超仮想コンピューターを形成して、本明細書に記載の解析及び/又は導出を行う。これらの技術及びより従来のスーパーコンピューターを利用して、本明細書に記載の配列データを処理し得る。それぞれは、プロセッサ又はコンピューターに依拠する並列コンピューティングの形態である。グリッドコンピューティングの場合において、これらのプロセッサ(しばしば、コンピューター全体)は、イーサネット（登録商標）等の従来のネットワークプロトコールによるネットワーク(プライベート、パブリック又はインターネット)によって接続される。対照的に、スーパーコンピューターは、ローカル高速コンピューターバスによって接続された多くのプロセッサを有する。

ある特定の実施形態において、診断は、解析作業と同じ場所で出される。他の実施形態において、診断は、異なる場所で行われる。いくつかの例において、診断の報告は、試料が採取された場所で行われるが、これは、そうである必要はない。診断を出すか、若しくは報告することができる場所、及び/又は計画の作成が行われる場所の例としては、医療従事者のオフィス、診療所、コンピューターによるアクセス可能なインターネットサイト、及びネットワークへの有線又は無線の接続を有する、携帯電話、タブレット、スマートフォン等のような携帯用デバイス等が挙げられる。カウンセリングが行われる場所の例としては、医療従事者のオフィス、診療所、コンピューターによるアクセス可能なインターネットサイト、携帯用デバイス等が挙げられる。

いくつかの実施形態において、試料の収集、試料の加工、及び配列決定の作業は、第1の場所で実施され、解析及び導出の作業は、第2の場所で実施される。しかしながら、いくつかの場合において、試料の収集は、1つの場所(例えば、医療従事者のオフィス又は診療所)で収集され、試料の加工及び配列決定は異なる場所で実施され、これは、任意で解析及び導出が行われる場所と同じである。

各種の実施形態において、上記で列挙した一連の作業は、ユーザーによって、又は試料の収集、試料の加工及び/若しくは配列決定を開始する実体によって、始動され得る。1つ又は複数のこれらの操作は実行が始まった後、他の操作は自然に続き得る。例えば、配列決定の操作は、リードの自動的な収集、及び加工装置への送信を引き起こしてもよく、次いで、これは、しばしば、自動的に及び場合により更なるユーザーの介入なしで、配列解析及びDNA混合物試料の定量化を実施する。いくつかの実施において、次いで、この処理操作の結果は、場合により診断として再フォーマットされて、医療専門家及び/又は患者への情報の報告を処理するシステム構成要素又は実体に、自動的に送達される。説明されるように、このような情報は、自動的に処理されて、場合によりカウンセリング情報とともに、処置、試験及び/又はモニタリングの計画を作成することもできる。したがって、早期の段階の操作を開始することで、健康状態に作用するのに有用な診断、計画、カウンセリング及び/又は他の情報が、医療専門家、患者又は他の関係当事者に提供される、端から端までの配列が始動され得る。これは、システム全体の一部が物理的に分離していたとしても、場合により、例えば試料及び配列装置の場所から遠いとしても、達成される。

図4は、単純なブロック形式で、適切に構成又は設計される場合、ある特定の実施形態に従ってコンピューター計算装置としての機能を果たし得る典型的なコンピューターシステムを説明する。コンピューターシステム2000は、一次記憶装置2006(典型的には、ランダムアクセスメモリ又はRAM)、一次記憶装置2004(典型的には、読み出し専用メモリ又はROM)を含む記憶デバイスに連結された任意の数のプロセッサ2002(中央処理装置又はCPUとも称する)を含む。CPU2002は、プログラム可能デバイス(例えば、CPLD及びFPGA)及びゲートアレイASIC又は汎用マイクロプロセッサ等の非プログラム可能デバイス等のマイクロコントローラ並びにマイクロプロセッサを含む各種の種類であり得る。表される実施形態において、一次記憶装置2004は、データ及び指示をCPUに一定方向に伝達するために作動し、一次記憶装置2006は、典型的には、データ及び指示を双方向で伝達するために使用される。これらの一時記憶装置は両方とも、上記に記載のもの等の任意の適切なコンピューター可読媒体を含み得る。大容量記憶装置2008はまた、一次記憶装置2006に双方向で連結され、追加のデータ記憶容量を提供し、上記に記載のいずれかのコンピューター可読媒体を含んでいてもよい。大容量記憶装置2008は、プログラム、データ等を保存するために使用され得、典型的には、ハードディスク等の二次記憶装置である。しばしば、このようなプログラム、データ等は、CPU2002における実行のために、一次記憶装置2006に一時的にコピーされる。大容量記憶装置2008内に保持される情報は、適切な場合において、一次記憶装置2004の一部として標準的な方法で組み込まれ得ることが理解される。CD-ROM2014等の特定の大容量記憶装置はまた、CPU又は一次記憶装置に一定方向にデータを渡し得る。

CPU2002は、核酸配列決定装置(2020)、ビデオモニター、トラックボール、マウス、キーボード、マイク、タッチセンサーディスプレイ、トランスデューサーカードリーダー、磁気若しくは紙テープリーダー、タブレット、タッチペン、音声若しくは手書き文字認識周辺機器、USBポート、又は当然ながら他のコンピューター等の他の周知の入力デバイス等の1つ又は複数の入力/出力デバイスに接続されるインターフェース2010にも連結される。最後に、CPU2002は、2012で一般に示されるように、データベース等の外部デバイス、又はコンピューター若しくは電気通信ネットワークに、外部接続を使用して任意に連結され得る。このような接続により、CPUは、本明細書に記載の方法の工程を行う過程で、ネットワークから情報を受信する可能性があるか、又はネットワークに情報を出力する可能性があると考えられる。いくつかの実施において、核酸配列(2020)は、インターフェース2010を介することに代えて、又はそれに加えて、ネットワーク接続2012を介して、CPU2002にコミュニケーション的に連結されてもよい。

1つの実施形態において、コンピューターシステム2000等のシステムは、本明細書に記載のタスクのいくつか又はすべてを行う能力を有する、データインポート、データ相関、及び問い合わせシステムとして使用される。データファイルを含む、情報及びプログラムは、研究者によるアクセス又はダウンロードのために、ネットワーク接続2012を介して提供され得る。或いは、このような情報、プログラム及びファイルは、記憶デバイスで研究者に提供され得る。

特定の実施形態において、コンピューターシステム2000は、マイクロアレイ、ハイスループットスクリーニングシステム、又は試料からデータを捕捉する核酸配列装置(2020)等のデータ取得システムに直接連結される。このようなシステムからのデータは、システム2000による解析のために、インターフェース2010を介して提供される。或いは、システム2000によって処理されたデータは、データベース又は他の関連データのリポジトリ等のデータ保存源から提供される。一旦、装置2000において、一次記憶装置2006又は大容量記憶装置2008等のメモリデバイスは、少なくとも一時的に、関連データをバッファリング又は記憶する。メモリは、配列リード、UMI、配列リードを決定するためのコード、配列リードの折りたたみ、及びリードにおけるエラーの修正等を含む、データをインポート、解析及び表示するための各種のルーティン並びに/又はプログラムも保存し得る。

ある特定の実施形態において、本明細書において使用されるコンピューターとしては、ユーザー端末を含んでいてもよく、これは、任意の種類のコンピューター(例えば、デスクトップ、ラップトップ、タブレット等)、メディアコンピューティングプラットフォーム(例えば、ケーブル、サテライトセットトップボックス、デジタルビデオレコーダー等)、ハンドヘルドコンピューターデバイス(例えば、PDA、電子メールクライアント等)、携帯電話、又はその他の種類のコンピューター若しくは通信プラットフォームが挙げられ得る。

ある特定の実施形態において、本明細書において使用されるコンピューターとしては、ユーザー端末と通信するサーバーシステムも挙げられ得、このサーバーシステムは、サーバーデバイス又は分散サーバーデバイスを含んでいてもよく、メインフレームコンピューター、ミニコンピューター、スーパーコンピューター、パーソナルコンピューター、又はこれらの組み合わせを含み得る。多数のサーバーシステムも、本発明の範囲から逸脱することなく使用され得る。ユーザー端末及びサーバーシステムは、ネットワークを通じて互いに通信し得る。ネットワークは、本発明の範囲を限定することなく、例えば、LAN(ローカルエリアネットワーク)、WAN(広域ネットワーク)、MAN(メトロポリタンエリアネットワーク)、ISDN(統合サービスデジタルネットワーク)等のような有線ネットワーク、並びに無線LAN、CDMA、ブルートゥース（登録商標）、及び衛星通信ネットワーク等のような無線ネットワーク等を含み得る。

図5は、試験試料からのコール又は診断を生成するための分散システムの1つの実施を示す。試料収集場所01は、妊婦又は推定のがん患者等の患者から試験試料を得るために使用される。次いで、試料を、試験試料が上記に記載のように加工及び配列決定され得る、加工及び配列決定場所03に提供した。場所03は、試料を加工するために装置、及び加工された試料を配列決定するための装置を含む。本明細書のどこかに記載される配列決定の結果は、典型的には、電子的フォーマットで提供され、インターネット等のネットワークに提供されるリードの収集であり、これは、図5における参照番号05によって示される。

配列データは、解析及びコールの発生が行われるリモートの場所07に提供される。この場所は、コンピューター又はプロセッサ等の1つ又は複数の強力なコンピューターデバイスを含んでいてもよい。場所07でのコンピューター計算リソースがそれらの解析を終了し、受け取った配列情報からコールを発生させた後、コールはネットワーク05に中継して送り返される。いくつかの実施において、場所07でコールが発生されるだけでなく、関連する診断も発生される。次いで、コール及び/又は診断は、図5に示すように、ネットワークの全域に送信され、試料収集場所01に戻る。説明されるように、これは、コール又は診断の発生に関連する各種の操作を、各種の場所の間で分割し得る方法に対する多くの変形の1つにすぎない。1つの一般的な変形物は、試料の収集及び加工、並びに単一の場所での配列決定を提供する工程を含む。別の変形は、解析及びコールの発生と同じ場所で加工及び配列決定を提供する工程を含む。

図6は、区別される場所で各種の操作を行うための選択肢を詳述する。図6に表される最も細かい意味において、次の操作のそれぞれは別の場所で行われる:試料の収集、試料の加工、配列決定、リードの整列、コーリング、診断並びに報告及び/又は計画の作成。

これらの操作のいくつかを集約する1つの実施形態において、試料の加工及び配列決定は、1つの場所で行われ、リードの整列、コーリング及び診断は、別の場所で行われる。参照文字Aで特定される図6の部分を参照のこと。図6において文字Bで特定される別の実施において、試料の収集、試料の加工及び配列決定は、同じ場所ですべて行われる。この実施において、リードの整列及びコーリングは、第2の場所で行われる。最後に、診断及び報告並びに/又は計画の作成は、第3の場所で行われる。図6において文字Cによって表される実施において、試料の収集は、第1の場所で行われ、試料の加工、配列決定、リードの整列、コーリング及び診断は、第2の場所で一緒にすべて行われ、報告及び/又は計画の作成は、第3の場所で行われる。最後に、図6においてDによって表される実施において、試料の収集は、第1の場所で行われ、試料の加工、配列決定、リードの整列及びコーリングは、第2の場所ですべて行われ、診断並びに報告及び/又は計画の管理は、第3の場所で行われる。

1つの実施形態は、腫瘍に関連する単純なヌクレオチドのバリアントについて無細胞DNA(cfDNA)を解析するためのシステムであって、システムが、核酸試料を受け取り、核酸試料からの核酸配列情報を提供するための配列決定装置;プロセッサ;及び前記プロセッサにおける実行のための指示を含む機械可読記憶媒体を含み、指示が、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングするためのコード;マッピングされた核酸配列リードを使用して、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定するためのコード;並びに確率混合モデルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化するためのコードを含み、ここで、確率混合モデルを使用する工程が、確率混合モデルを核酸配列リードの対立遺伝子カウントに適用する工程を含み、確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、核酸配列リードにおけるエラーを説明する、システムを提供する。

本明細書において提供されるいずれかのシステムのいくつかの実施形態において、配列決定装置は、次世代配列決定(NGS)を行うように構成される。いくつかの実施形態において、配列決定装置は、可逆的色素ターミネーターを用いる合成による配列決定を使用して、超並列配列決定を行うように構成される。他の実施形態において、配列決定装置は、ライゲーションによる配列決定を行うように構成される。更に他の実施形態において、配列決定装置は、単一分子配列決定を行うように構成される。

(実施例1)
この実施例は、いくつかの実施が、DNA混合試料の定量において、本明細書で開示する確率手法を使用しない従来技術より高い精度及び信頼性並びにより低い実験的偏りを提供し得ることを例示するために、実際のDNA混合試料から得たデータを使用する。

DNA混合試料は、ゲノム(コントリビューター)からの2つのDNAを含み、マイナーの割合は、異なる試料において0.1%、0.2%、0.4%及び2%である。いくつかの試料は3ngの投入DNAを含み、その他は10ngを含んだ。2つのプライマー設計を示すためにNack又はNack2と標識した2つの実験手技において試料をプロセスし、標的遺伝子座の数は、2つの設計について異なる。いくつかの試料はMiSeq配列決定プラットフォームを使用してプロセスし、いくつかはMiniSeqプラットフォームを使用してプロセスした。

3つの異なる方法を使用して、試料データを分析した。Table 8(表9)は、様々な試料及び実験手技を使用する3つの異なる方法についての、多数の混合割合にわたる変動係数(CV、予測の標準偏差/真の割合として定義される)値の平均、及び多数の混合割合にわたる変動係数+偏り(CVB:coefficient of variation + bias、通常CV(RMSD)として示され、RMSD/真の割合として定義される)値の平均を示す。第1の方法は、配列決定エラーをモデリングするために二項分布を含む確率モデルを適用する。第1の方法は、上記のSeqモデルとして説明するいくつかの実施に対応する。第1の方法(Seq)についてのデータを、Table 8(表9)の第3の列に示す。第2の方法は、DNA抽出エラー、PCR増幅エラー及び配列決定エラーを説明する確率分布を含む確率混合モデルを適用する。第2の方法は、上記の抽出-PCR-Seqモデルとして説明するいくつかの実施に対応する。第2の方法(EPS)についてのデータを、Table 8(表9)の第4の列に示す。

第3の方法は、上記に説明するNaiveLM又はKGT. NaiveLMとも呼ばれるベースライン方法に対応する。それは、基本的な直線回帰式を使用してコントリビューターのDNA割合を決定する。第3の方法(NaiveLM)についてのデータを、Table 8(表9)の第5の列に示す。

コントリビューターの遺伝子型情報は、Seq又はEPS法においてコントリビューターの割合を定量するために使用されなかったが、NaiveLM法においては使用されたことは特筆に値する。Seq法及びEPS法は、コントリビューターの遺伝子型情報を使用する必要がなかったという事実にもかかわらず、それらは、NaiveLM法より小さい変動係数値により示される通り、より信頼性のある結果を生成した。更に、Seq法及びEPS法は、NaiveLM法より小さいCVB値により示される通り、偏りがより低かった。3つの方法の中の最も優れた結果を、Table 8(表9)において太字で表す。要するに、確率混合モデルを使用する2つの方法は、直線回帰法より信頼性のある、精密な、より偏りの少ない結果を生成した。

(実施例2)
多数の自由パラメータ、例として、DNA鋳型の平均長、アンプリコンの平均長、ヒトゲノム分子量があり、それらは、投入DNA量と共に、有効投入DNA量及びリードカウントを見積もるために使用される。これらのパラメータの正当な調節は、より少ない偏り及び強固な予測性能を確実にし得る。この実施例は、DNA鋳型の平均長がどのように、DNA混合物を定量するための上記に説明する様々な方法の性能に影響を及ぼすかを調査する。

この実施例は、実際のcfDNAを模倣する模倣cfDNA(mcfDNA:mock cfDNA)を使用する。実際のcfDNAについての適切な補正因子を得るために、1)2つの個体から抽出した実際のcfDNAを使用する類似標準混合物を産生し、2)実際のcfDNA混合物にわたる実験においてgDNAスパイクを行う必要がある。

ソースゲノム
mcfDNA:Nack4標的部位が細胞株についてのCNVを有しない、試験した細胞株のうちの1つからのmcfDNA。
cfDNA:健康な人からのcfDNAであるが、母系cfDNAではない
gDNA:試験した細胞株のうちの1つ又は正常細胞株からのgDNA

混合物組成設計
混合物1:75% cfDNA又はmcfDNA、25% gDNA
混合物2:50% cfDNA又はmcfDNA、50% gDNA
混合物3:25% cfDNA又はmcfDNA、75% gDNA
混合物4:10% cfDNA又はmcfDNA、90% gDNA
各々3反復。

混合計画
1. cfDNA及びgDNA鋳型を定量する;
2. cfDNA及びgDNA鋳型を、3:1、1:1、1:3、1:9の比で混合する;
3. 混合した鋳型についてPCR。

得られる混合物及びそれらの組成を、Table 9(表10)に示す。

図7は、各々、cfDNA長パラメータの様々な選択下における、様々な方法のCVB性能を示す。以下の長さ:120bp、130bp、140bp、150bp、160bp、216bp、300bp、409bp及び100k bpを評価する。バーの様々な網掛けは、様々なmcfDNA長を示す。

様々な方法を、以下の通り標識する。

S:配列決定によるエラーを説明する確率モデル。ベースラインゲノムを入力として使用しない。(D及びRゲノムが未知)

EPS:DNA抽出、PCR及び配列決定によるエラーを説明する確率モデル。ベースラインゲノムを入力として使用しない。

PUGT.EPS00:既知、未知及び部分的に既知のベースラインを許容するEPSモデルの一般的実施。ベースラインゲノムを入力として使用しない。

PUGT.EPS:既知、未知及び部分的に既知のベースラインを許容するEPSモデルの一般的実施。ベースラインゲノムを入力として使用する。

KGT.IterLM:反復型直線モデル。ベースラインゲノムを入力として使用する。

KGT.Seq:配列決定によるエラーを説明する確率モデル。ベースラインゲノムを入力として使用する。

KGT.NaiveLM:既知の遺伝子型についての、ベースライン方法であるnaive直線モデル。ベースラインゲノムを入力として使用する。

160bpのデフォルトDNA長パラメータにおいて、EPSモデルは、ベースラインゲノムが利用可能である場合及び利用可能でない場合の両方で、最も優れた性能(矢印で示す)を有する。

更に、実施者がDNA長パラメータを160bpから120bp又は216bpに撹乱させた場合でさえも、EPS法の定量性能は、やはり著しい。このことは、cfDNA長パラメータに対するこの方法の強固さを示す。範囲は、上記に説明する実施において使用されるパラメータより不自由なく広い:mcfDNAについて160bp、及びcfDNAについて165bp。

様々な方法の性能ランキングは、以下の通りである。

PUGT.EPS(ベースラインゲノムを使用する)>KGT.seq又はKGT.IterLM(ベースラインゲノムを使用する)>PUGT.EPS又はEPS(ベースラインゲノムを使用しない)>S(ベースラインゲノムを使用しない)>KGT.Naive(ベースラインゲノムを使用する)。

明白に、3つのEPS法は、既知の遺伝子型についてnaive直線モデルより顕著に低いCVBを有し、EPS法が、従来型直線モデル法に優る精度の改善及び偏りの低減を有することを示す。従来法は、ベースラインゲノムが既知の混合試料にのみ適用可能であることに留意されたい。

更に、デフォルトDNA長パラメータの下で、本開示で説明する方法は、従来型直線モデルを使用する方法より低いブランク限界(LOB:limit of bland)及びより高い分析感度を有する。Table 10(表11)において示す通り、ブランク限界(LOB)は、開示する4つの方法について0.1%未満であるが、従来型naive直線モデル法のLOBは、0.42%である。

(実施例3)
この実施例は、模倣cfDNA(mcfDNA)及び実際のゲノムDNA(gDNA)から得たデータを使用して、開示する方法のうちのいくつかの感度を調査し、それらを、qPCR技術を使用する公知の方法であるKIMERD_Xと比較する。

Table 11(表12)は、以下の通り標識した2つの確率モデルのLOQを示す。

LOQ又は定量限界は、定量感度の測定値である。それは、20%以下の変動係数(CV)において決定され得る最小提供者割合として定義される。

固形臓器移植患者からのcfDNA試料を模倣するmcfDNA条件下において(Table 11(表12)のデータの上2つの列)、2人のコントリビューターのDNA混合試料を産生した。各試料は、3ngのDNAを含んだ。確率法PUGT.EPS(ベースライン遺伝子型を使用する)及びEPS(移植前の受容者及び提供者からのベースライン遺伝子型を使用しない)を、5つの試料×3回の反復に適用した。両方の確率法は、わずか3ngの投入DNAを使用した場合、0.2%以下のLOQを達成し、両方の開示する方法についての高感度を示した。

骨髄移植患者からの血液gDNA試料を模倣するgDNA条件下において(Table 11(表12)のデータの第3の列)、2人のコントリビューターのDNA混合試料を産生した。各試料は、10ngのDNAを含む。PUGT.EPS法を、5つの試料×3回の反復を分析するために使用した。PUGT.EPS法は、10ngの投入DNAを使用した場合、0.1%以下のLOQを達成し、これは、予測した通り、3ngの投入DNAを使用するmcfDNA条件におけるLOQより低い。

別のgDNA条件下において(Table 11(表12)のデータの第4の列)、5人のコントリビューターのDNA混合試料を産生した。各試料は、10ng全量のDNAを含む。PUGT.EPS法を、5つの試料×3回の反復を分析するために使用した。PUGT.EPS法は、0.35%以下のLOQを達成した。5人のコントリビューターによるそのような困難な条件についてでさえも、本方法は、1%より顕著に低い優れたLOQを達成した。

Table 12(表13)は、2人のみのコントリビューターの混合試料についての、qPCR技術を使用するKIMERD_X法の感度(LOQ)値を示す。KIMERD_X法を、様々な量の投入gDNAを分析するために使用した。0.1%のLOQを達成するために、それは、66ngの投入gDNAを必要とする。比較すると、PUGT.EPS法は、同じレベルの感度を達成するのに10ng以下の投入DNAしか必要としない。PUGT.EPSについての0.1%未満と比較して、10ngの投入gDNAにより、KIMERD_Xは0.7%のLOQを達成し得る。

それゆえ、この実施例は、開示する確率法は、当技術水準方法と比較して、同じレベルの感度を達成するのに顕著により少ない投入DNAしか必要としなかったことを例示する。反対に、開示する方法は、低投入DNA量において顕著により高い感度を達成する。本方法は、その感度の改善のために、より速い試料の加工を可能にし、より少ない試薬しか必要とせず、DNA混合物定量の精度を改善し得る。

現存のキメラ化アッセイは、固形臓器移植モニタリングに役立たないが、私たちの方法は固形臓器移植モニタリングのために設計される。開示する方法は、DNA混合物定量の感度を改善し、このことは、投入DNA量が限定されている適用において特に有益であり、これはすべての固形臓器移植事例を含む。cfDNAを使用する固形臓器移植モニタリングは、典型的な血液試料から抽出されるcfDNAの量が典型的に、抽出可能なgDNAの量よりはるかに低い10ng未満であるために、困難である。一方、cfDNAは、同じ量のgDNAと比較して、PCR鋳型としてあまり有効ではない。

また、現存の方法は、2人以上の提供者からの移植に役立たないが、私たちが開示する方法は、2人以上の提供者からの移植についてでも高感度を達成した。2人以上の提供者からの移植は、骨髄移植について頻繁にあり、輸血を伴う臓器移植において、及び以前の臓器移植を有する患者においてもまたよくある。

(実施例4)
キメラ化分析の従来法は、短反復配列(STR:short tandem repeat)又は小挿入及び欠失(インデル)のキャピラリー電気泳動(CE:capillary electrophoresis)断片分析又は定量ポリメラーゼ連鎖反応(qPCR:quantitative polymerase chain reaction)分析を利用する。これらの方法に伴ういくつかの欠点があり、それは、定量、ダイナミックレンジ、標的数、ワークフロー、分析及び再現性の限界を含む。これらの従来法に対する代替手法は、何百ものSNPをターゲティングする次世代配列決定(NGS:next-generation sequencing)を利用して、低い定量限界、広いダイナミックレンジ、単純なワークフロー、自動化分析及び強固な再現性でキメラ化を定量的に査定する。

CEを使用する従来型キメラ化分析
標的:STR
STRは、ゲノム全体にわたり見られる遺伝子座である。それらは、タンデムに反復する通常2～8個のヌクレオチド、最も一般的には4個のヌクレオチドの短い配列(例えば、gatagatagatagatagataとしてタンデムに反復するgata)からなる。反復数は、4～40個の反復で変動し、典型的なSTRは、長さが全部で400個未満のヌクレオチドである。反復数は、ヒト集団内で高度に変動性である。比較的短い全長及び高変動性という、STRのこれらの2つの特徴のために、それらは法科学におけるヒト特定のための魅力的な標的である。より大きな領域の増幅は、質の悪い法科学試料では困難であるため、短い長さは、これらの種類の試料にとって重要である。集団における高変動性は、比較的少数しか陽性特定のために必要とされないので、魅力的な特色である。100個を超えるSTRがヒトゲノムにおいて十分に特徴付けられているが、ほとんどの適用は、30個未満しか使用していない。

アッセイ設計
STR周辺の保存された隣接領域において、PCRプライマーを設計する。プライマーは、様々な長さの4～7個のSTRを含有する4個のフルオロフォアの各々によりマルチプレックス化され得る。このことは、マルチプレックスが、10～21個のユニークなSTRを支持することを意味する。CE系により、相対蛍光ユニット及び検出までの経過時間を測定して、各STRについての電気泳動図を産生する。ほとんどの検査室は、受容者及び提供者についての移植前のベースライン遺伝子型を産生するために完全マルチプレックスを利用する。移植前の遺伝子型を互いに比較して、受容者及び提供者がユニークな対立遺伝子を有するマーカーである、情報価値のあるマーカーを選択する。キメラ化試料を、情報価値のあるSTRについて、全マルチプレックスアッセイで実行してもよく、個々のシングルプレックスアッセイで実行してもよい。シングルプレックスアッセイは一般的に、最高レベルの感度を提供するが、多くの検査室は、マルチプレックスアッセイを実行することが多い。

ワークフロー
・末梢血、骨髄又は磁気ビーズにより、若しくはフローサイトメトリーにより単離した細胞系統から、DNAを抽出する。
・蛍光タグ付けを含め、標的STRのPCR増幅を行う。
・電気泳動法、最も頻繁にはCE器具により、STR-PCRアンプリコンの分離及び検出を行う。CE系により、相対蛍光ユニット及び検出までの経過時間を測定して、試料中に存在する各対立遺伝子についての電気泳動図を産生する。
・分析を行う人は、各情報価値のあるマーカーについて電気泳動図を再検討して、提供者の受容者に対する相対頻度を決定する。多数の情報価値のあるマーカーがある事例においては、通常、様々なマーカーの変動性の性能を考慮した後に、平均頻度をキメラ化の最終測定値として採用する。

DNA抽出からデータ分析までは、約7時間かかり、そのうちの約2時間は、実務時間である。データ分析は、非常に変動性であり、情報価値のあるマーカーの数、マーカー間の変動性及びstutterピーク減算の複雑さによって単一のキメラ化試料を分析するのに15分～2時間かかる。

限界
キメラ化分析のためのSTR領域のCE分析について3つの主要な限界がある。

第1に、電気泳動図のピーク単独では多くの場合、分析困難であり、同じ試料内の多数のピークからのキメラ化のパーセントは多くの場合、10～15%変動する。この変動性の結果として、単一の試料についての分析は多くの場合、数時間かかる場合があり、結果はそれでも、半定量的である。

第2に、定量限界(LOQ)は、多くの場合、検出限界(LOD:limit of detection)又は感度とも呼ばれ、この方法では1～5%に及ぶ。この広い範囲は、各STRが、STR上でのPCR酵素のstutter又は「滑り(slippage)」、及びフルオロフォアの変動性の性能によってそれ自体のLOQを有するために存在する。

第3に、100個を超えるSTR標的が、ゲノム内で十分に特徴付けられているが、アッセイにおいて21個を超えるSTRを含むと、信頼性がない。これは、そのように多くの特異的プライマープールをマルチプレックス化して単一のアッセイにすることを、強固かつ信頼性のあるものにすることは、非常に困難であるからである。それゆえ、近親の個体からのキメラ化混合物は、情報価値のあるマーカーを特定するのが困難である場合があり、多くの提供者を有する事例は、分析するのが非常に困難であり得る。

これらの限界は、臨床使用において顕著であり得る。例えば、99%の実際のキメラ化結果は、100%として報告される。

qPCRを使用する従来型キメラ化分析
標的:インデル
インデルは、1～10,000個のヌクレオチド塩基の挿入又は欠失である。ヒトゲノムにおいて数百万個のインデルが発見されており、そのため、インデルは、SNPに続いて第2番目にヒトゲノム変動性に貢献している。STRと同様に、多くのインデルは短く、高度に分解されたDNA及び少量のDNAからでさえも容易に増幅することができる。加えて、様々な長さ、様々な対立遺伝子頻度で使用可能な広範なインデルがあり、それらは、ゲノム全体にわたり広く分布している。インデルのこれらの特色のために、インデルは、ヒト特定及びキメラ化分析のための魅力的な標的である。

アッセイ設計
インデルを増幅するためにPCRプライマーを設計し、シングルプレックス、小マルチプレックス(約3つの標的)又は大マルチプレックス(30～40つの標的)として設計する。個体を互いに区別するために、30～40個の適切に選択したインデルが必要とされることが示されている。市販されているキットにより、移植前の提供者及び受容者のベースライン試料を、96ウェルプレート上に並べた3個のインデルのマルチプレックス又は個々のインデルのいずれかにおいて30～40個のインデル標的を通して実行する。この工程は、提供者及び受容者が異なる対立遺伝子を有する情報価値のある標的を特定する。その後、最小限2つの情報価値のある標的を、各提供者-受容者対について選択して、キメラ化分析のために使用する。

各インデルを、目的のDNAにハイブリダイズする1組の蛍光標識したプライマーによってターゲティングする。アンプリコンをPCRサイクリングに供するとき、蛍光の増大は、存在するアンプリコンの量に比例する。定量は、閾値サイクル(Ct:threshold cycle)値に達するのに必要なPCRサイクル数によって決定される。情報価値のあるマーカーは通常、マイナーなコントリビューター、通常幹細胞移植の事例においては受容者のゲノムを増幅するために選択される。その後、量を、移植後の試料、適合させた移植前のベースライン及び参照対照試料のCt値を比較することによって決定する。

ワークフロー
・末梢血、骨髄又は磁気ビーズにより、若しくはフローサイトメトリーにより単離した細胞系統から、DNAを抽出する。
・精製DNAを定量し、標的濃度を達成するのに必要とされる通り希釈する。
・系のどの標的インデルについても提供者及び受容者両方の移植前の試料を試験することによって、ベースライン遺伝子型決定を行う。小マルチプレックス系において、これは、1反応当たり2～3個のインデル標的の10回の個々の反応を含む。シングルプレックス系においては、これは、各反応における単一のインデル標的での46回の個々の反応を必要とする。また、各ベースライン試料の実行は、陽性対照及び鋳型なしの対照を含まなければならない。このことは、小マルチプレックス系が96ウェルプレート上に8つのベースライン試料を適合し得ること、及びシングルプレックス系が1プレート当たり2つを適合し得ることを意味する。
・10ngのベースラインDNAを、各反応ウェルに添加する(小マルチプレックスについて全部で100ng、及びシングルプレックスについて460ng)。
・PCRマスターミックスを調製し、各反応ウェルに添加する。
・増幅プライマーを、適切なウェルに添加する(小マルチプレックスについて8×10、及びシングルプレックスについて2×46)。
・プレートを、密閉し、ボルテックスし、遠心分離し、qPCR器具上にロードする。
・結果を、その適用に特異的なソフトウェアにロードする。
・ソフトウェアにおいて受容者及び提供者のベースラインを比較し、情報価値のあるマーカーをキメラ化分析のために選択する。通常、各移植受容者/提供者対について2つの情報価値のある標的を選択する。
・増幅する各標的について、マイナーなコントリビューターからの移植前のベースライン試料は3反復で実行しなければならず、各移植後のキメラ化試料は3反復で実行しなければならず、どの2つの反応ウェルについても陽性対照を、及び各標的について鋳型なしの対照を実行しなければならない。換言すれば、単一の移植後のキメラ化分析を行うために、60ng(6ウェル)の参照DNAを実行しなければならず、60ng(6ウェル)の移植前のベースラインDNAを実行しなければならず、60ng(6ウェル)の移植後のキメラ化DNAを実行しなければならない。これは、2つの標的からデータを産生するために全部で21ウェルである。
・PCRマスターミックスを調製し、各反応ウェルに添加する。
・増幅プライマーを、適切なウェルに添加する(1試料当たり7つのウェル-3つの移植前、3つの移植後及び1つの鋳型なし対照)。
・プレートを密閉し、ボルテックスし、遠心分離し、qPCR器具上にロードする。
・結果を、その適用に特異的なソフトウェアにロードする。

DNA抽出から情報価値のあるマーカー選択のための遺伝子型決定データまでは、全部で約3時間かかり、1時間半は実務時間である。情報価値のあるマーカーの選択及びキメラ化試料からのDNA抽出後、更なる3時間及び1時間半の実務時間が、キメラ化データの産生のために必要とされる。

限界
インデル標的のqPCRに基づくキメラ化分析の3つの主要な限界がある。

第1に、各キメラ化分析は、60ngの移植前の受容者のベースライン試料を必要とする。これは、最初の遺伝子型決定に必要とされる100～500ngのベースラインDNAに加えてである。頻繁にキメラ化分析を行うプログラムについては、移植前のベースライン試料は枯渇し、長期間このアッセイを実行する能力を限定し得る。

第2に、シングルプレックス反応としてキメラ化分析を実行する必要のために、何十ものユニークなアッセイが項目別に行われることを必要として、全体的な系が複雑になる。加えて、通常、各反応コストのために、分析は提供者-受容者対当たり2つの標的のみに限定され、これらの標的は、各提供者-受容者対について異なる場合があり、設定がエラーを起こしやすくなる。

第3に、qPCRのLOQは非常に低い一方で、qPCRに基づくキメラ化のダイナミックレンジは悪く、マイナーなコントリビューターが30%を超える場合のキメラ化予測は、信頼できない。

NGSによる新規キメラ化分析
標的:SNP
SNPは、ヒト集団内又は特定の集団内で測定可能な程度の変動が存在する、単一ヌクレオチドの位置である。dbSNPは、米国国立バイオテクノロジー情報センター(NCBI:National Center for Biotechnology Information)によって管理されているSNPのデータベースであり、現在、1億7千万個を超えるヒトSNPを含有し、そのうちのほぼ2千5百万個は確証されている。これは、SNPが、ヒト集団内の大多数の変動性の原因であり、平均で1,000個のヌクレオチド塩基当たり1個のSNPがあることを意味する。SNPは、二対立遺伝子(2つの観察された対立遺伝子)、三対立遺伝子(3つの観察された対立遺伝子)又は四対立遺伝子(4つの観察された対立遺伝子)であり得る。集団中の個体のランダムな組において、マイナー対立遺伝子が少なくとも1%の頻度を有する場合、単一塩基バリアントは、SNPと考えることができる。SNPは、それらの低い変異速度、小アンプリコンサイズ及びハイスループット配列決定技術との適合性のために、キメラ化分析の優れた標的である。

アッセイ設計
世界中の様々な集団内でおよそ50/50対立遺伝子頻度を有する二対立遺伝子であるようなSNPを選択する。加えて、低変異速度を有し、SNPプールとの連鎖不平衡を有しないSNPを選択する。最後に、SNPを、プライマー-プライマー相互作用を最小限にすること、並びにPCR増幅及び配列決定範囲における均一性の両方の点で、設計能力について査定する。世界中のすべての集団から第1度近親者間で区別する検出力に基づいて、SNPの総数を決定する。

単一のPCR工程によって、DNAを増幅し、目的のアンプリコンを単離し、フローセルアダプター(試料アンプリコンをフローセルに結合させるIlluminaフローセル上の配列に対する逆オリゴヌクレオチド配列)、配列決定プライマー(合成(SBS)プロセスによるIllumina配列決定のための開始部位として働くオリゴヌクレオチド配列)及びインデックスバーコード配列(多数の試料を同時に実行することを可能にするオリゴヌクレオチド配列)を組み込む。

NGS系は、各アンプリコンを何百回～何千回配列決定する。移植前のベースライン試料において、この情報は、各コントリビューターを遺伝子型決定するために使用される。移植後のキメラ化試料において、SNP位置における各ヌクレオチドについてのリードカウントを、ベースライン遺伝子型あり又はなしで使用して、最高で全部で5人のコントリビューターまで、各コントリビューターのキメラ化パーセントを正確に見積もることができる。

ワークフロー
・末梢血、骨髄又は磁気ビーズにより、若しくはフローサイトメトリーにより単離した細胞系統から、DNAを抽出する。
・精製DNAを定量し、標的濃度を達成するのに必要とされる通り希釈する。
・ユニークインデックスバーコードを、各試料DNAに添加する。
・どの試料にもマスターミックスを添加し、混合し、密閉し、遠心分離する。
・PCR増幅を行う。
・すべての試料を単一のウェルにプールし、その後、PCRクリーンアップを行う。
・クリーンアップしたプールを定量し、希釈し、変性させる。
・最終的なプールは、ライブラリーとも呼ばれ、これをシークエンサー上にロードし、配列決定を開始する。
・配列決定データを、キメラ化特異的分析ソフトウェアにインポートし、自動質管理及びキメラ化分析を行う。

DNA抽出からシークエンサーのローディングまでは、3時間未満しかかからず、実務時間は2時間未満である。同時に実行される試料数によって、配列決定実行は、9～13時間を要する。配列決定データを回収すると、データ分析は、手動介入を必要とせず、分析の自動化を可能にし、人的エラーを低減する。

限界
CE及びqPCRに基づくキメラ化分析と比較して、SNPを使用するNGSに基づくキメラ化分析の1つの主要な限界があり、それは、NGSに基づく試料の加工及び配列決定は、実務時間は同等であるものの、より長くかかることである。NGSに基づくライブラリー調製は午後に完了し、配列決定は一晩で完了し得る。これは、午前中に受容した試料について丸24時間となる。しかしながら、配列決定をマルチプレックス化することができるので、この方法は、配列決定について多数の試料を組み合わせ、それによって、試料の加工の全体的な効率を改善し得る。

要約
SNP標的を使用するNGSに基づくキメラ化分析は、従来型キメラ化分析法に伴う限界の多くを克服する、効率的な、正確な、かつ信頼性のある方法である。結果は、真に定量的であり、人による手のかかる電気泳動図の再検討及びstutter減算を必要とすることなく自動的に産生することができる。NGSに基づくキメラ化分析は、広いダイナミックレンジを有し、LOQが低く、高レベルの混合キメラ化において性能低下がない。NGS系では200個を超えるSNP標的を使用し、それらは、単一の反応にマルチプレックス化される。このことにより、2人以上の提供者による場合、及び非常に近親の提供者-受容者対による場合の利用性を可能にする。NGS系のインデックス付け能力及びスループットにより、ベースライン及びキメラ化試料を同時に実行することが可能になり、1つのアッセイ及びキットのみが在庫であればよく、ワークフローにおける人的エラーの可能性が低くなる。

(実施例5)
この実施例は、NGSシークエンサーのスループット、非常に高い均一性を有するアッセイ設計及びSNPの標的としての使用のために、いくつかの実施が従来法に優り改善していることを示す。開示する方法は、30個未満の標的に限定される従来法よりはるかに多くの標的を分析することができる。プロセスは、マルチプレックスの多くの試料が効率を高めることを可能にする。本方法は、定量的であり、すべて費用効果的に行うことができる。

ある実験は、既知の、又は未知のベースラインゲノムによるいくつかの実施において本方法の性能を比較する。Table 12(表14)は、3つのベースライン条件(両方のベースラインが既知、両方のベースラインが未知、及び受容者が既知であるが提供者が未知)についての異なる受容者部分での4つの試料についてのDNA定量を示す。結果は、本方法は、異なる受容者部分において同様の性能によりベースラインあり及びなしで行うことができることを示す。ベースラインが既知の場合、本方法は、より小さい信頼区間(及びより高い信頼性)を有する結果を生成する傾向がある。

図8は、いくつかの実施によって決定したDNA部分(Y軸)と実際のDNA部分(X軸)とを比較する。水平な線は、実際の部分の値を示す。キメラ化試料は、Horizon Discovery社(カタログ番号12498714289)により提供される模倣cfDNAであるcfDNA混合物を含む。図が示す通り、予測されるマイナーなコントリビューター部分は、0.1%、0.2%、0.4%及び2%において実際のマイナーなコントリビューター部分にかなり近い。

図9は、いくつかの実施の定量限界(LOQ)を決定するための16個の条件の変動係数(CV)を示す。LOQは、不正確さ(CV)が20%未満である、分析物を確実に検出することができる最低濃度として定義される。この測定は、分析物感度(すなわち、検出限界)及び再現性(すなわち、正確さ)の両方を考慮する。バーの4つの異なる群は、0.1%、0.2%、0.4%及び2%の異なるマイナーなコントリビューターの割合を表す。群中の4つのバーは、左から右へ、4つの投入DNA条件:10ngのgDNA、3ngのgDNA、10ngのcfDNA、及び3ngのcfDNAを表す。各マイナーなコントリビューターの割合において、予測される通り一致するパターンが存在する、すなわち、より少量の試料は、より高いCVをもたらし、cfDNAは、より高いCVをもたらす。

1つの条件(0.1%のマイナーなコントリビューターの割合、3ngのcfDNA)を除くすべては、20%未満の不正確さ(CV)で分析物を検出することができる。換言すれば、1つの条件(3ngのcfDNA)は0.2%のLOQを有し、一方で、残りの条件は0.1%のLOQを有する。

Table 13(表15)は、上記のデータを要約する。それは、すべての4つの投入DNA条件は、0.2%より小さいLOQ値を有し、最も困難な投入条件(3ngのcfDNA)を除くすべては、0.1%のLOQを有することを明らかに示す。

考察
qPCR又はCE技術を使用する従来型キメラ化法は、使用の容易さ、標的数、感度又はダイナミックレンジが悪い。

実施された方法は、単一のアッセイにおいて試料をマルチプレックス化する。このことは、移植前のベースライン試料及び移植後のキメラ化試料を、同じアッセイを使用して、かつ同じ配列決定実行で並列して実行することを可能にする。本方法は、ベースラインあり及びなしで、ほとんど同一の性能により行うことができる。

qPCR及びCEキメラ化法は、移植前のベースライン試料についてあるレベルのマルチプレックス化を提供し得るが、標的をマルチプレックス化すると、これらの方法は、移植後のキメラ化定量について性能低下を有する。このことは、ベースライン及びキメラ化試料を別々に実行しなければならないこと、及び系全体は、少なくとも1ダースものユニークなアッセイを必要とし得ることを意味する。

qPCRは、マイクロキメラ化検出に高感度であるが、混合キメラ化については信頼性のあるダイナミックレンジを欠く。CEに基づくキメラ化分析は、混合キメラ化検出について広いダイナミックレンジを提供するが、マイクロキメラ化についての感度を欠く。開示する方法は、信頼性のある低い定量限界(LOQ)及び広いダイナミックレンジの両方を提供し、すべての様々な種類のキメラ化に及ぶことができる1つの解決策を可能にする。

01 試料回収
03 加工及び配列決定
05 ネットワーク/クラウド(例えば、インターネット)
07 分析及びコール産生
200 核酸試料を定量する
202 1人又は複数のコントリビューターの核酸を含む核酸試料から核酸分子を抽出する
204 抽出した核酸分子を増幅する
206 核酸シークエンサーを使用して、増幅した核酸分子を配列決定して、核酸配列リードを生成する
208 核酸配列リードを参照配列上の1つ又は複数の多型遺伝子座にマッピングする
210 マッピングした核酸配列リードを使用して、1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定する
212 核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する
214 確率混合モデルを使用して、核酸試料中の1人又は複数のコントリビューターの核酸の1つ又は複数の割合を定量する
252 提供者-受容者関係:事前の遺伝的関係性
254 DNA抽出対立遺伝子カウント:二項分布
256 PCR産物対立遺伝子割合:ベータ分布
258 配列決定リード対立遺伝子カウント:二項分布
260 ベータ-二項
262 ベータ-二項
264 ベータ
266 ベータ-二項
300 1人又は複数のコントリビューターの核酸を含む核酸試料を定量する
302 核酸試料から得た1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子の核酸配列リードを受容する
304 核酸配列リードを使用して、1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子の各々についての対立遺伝子カウントを決定する
306 対立遺伝子カウントに確率混合モデルを適用する(確率混合モデルは、確率分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子カウントをモデリングし、確率分布は、核酸配列リードにおけるエラーを説明する)
308 モデルパラメータを与えた対立遺伝子カウントを観察する尤度値、及び可能性のある核酸割合値を得る
310 尤度値を使用して、DNA混合試料中の1人又は複数のコントリビューターのDNAの割合を定量する
312 尤度値を使用して、コントリビューターのうちの少なくとも1人についての少なくとも1つの遺伝子型を決定する
2002 プロセッサ
2004 主記憶装置(B)
2006 主記憶装置(A)
2008 大容量記憶装置
2010 インターフェース
2012 ネットワーク接続
2020 シークエンサー

Claims

1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化する、1つ又は複数のプロセッサ及びシステムメモリを含むコンピューターシステムで実施される方法であって、方法が、
(a)核酸試料から核酸分子を抽出する工程;
(b)抽出された核酸分子を増幅する工程;
(c)核酸配列決定装置を使用して、増幅された核酸分子を配列決定して、核酸配列リードを生成する工程;
(d)1つ又は複数のプロセッサによって、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングする工程;
(e)マッピングされた核酸配列リードを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定する工程;及び
(f)確率混合モデルを使用して、1つ又は複数のプロセッサによって、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程
を含み、
ここで、確率混合モデルを使用する工程が、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、核酸配列リードにおけるエラーを説明し、
確率混合モデルが、単一遺伝子座尤度関数を使用して、単一多型遺伝子座における対立遺伝子カウントをモデル化し、単一遺伝子座尤度関数が、
M(n _1i ,n _2i |p _1i ,θ)
(ここで、
n _1i は、遺伝子座iにおける対立遺伝子1の対立遺伝子カウントであり、
n _2i は、遺伝子座iにおける対立遺伝子2の対立遺伝子カウントであり、
p _1i は、遺伝子座iにおける対立遺伝子1の予想される割合であり、
θは、1つ又は複数のモデルのパラメータを含む)、
を含む、方法。

確率混合モデルを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1人又は複数人のコントリビューターの1つ又は複数の遺伝子型を決定する工程を更に含む、請求項1に記載の方法。

1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を使用して、別のコントリビューター(提供者)から移植された組織又は臓器を1人のコントリビューター(被提供者)が拒絶する危険性を決定する工程を更に含む、請求項1に記載の方法。

1人又は複数人のコントリビューターが、2人以上のコントリビューターを含む、請求項1に記載の方法。

核酸分子が、DNA分子又はRNA分子を含む、請求項1に記載の方法。

核酸試料が、ゼロ、1つ又は複数の混入ゲノム、及び対象の1つのゲノムからの核酸を含む、請求項1に記載の方法。

1人又は複数人のコントリビューターが、ゼロ、1人又は複数人の移植の提供者及び移植の被提供者を含み、核酸試料が、被提供者から得られた試料を含む、請求項1に記載の方法。

移植が、同種又は異種移植を含む、請求項7に記載の方法。

核酸試料が、被提供者から得られた生体試料を含む、請求項1に記載の方法。

核酸試料が、細胞培養から得られた生体試料を含む、請求項1に記載の方法。

抽出された核酸分子が、無細胞核酸を含む、請求項1に記載の方法。

抽出された核酸分子が、細胞DNAを含む、請求項1に記載の方法。

1つ又は複数の多型遺伝子座が、1つ又は複数の二対立遺伝子の多型遺伝子座を含む、請求項1に記載の方法。

1つ又は複数の多型遺伝子座における1つ又は複数の対立遺伝子が、1つ又は複数の一塩基多型(SNP)対立遺伝子を含む、請求項1に記載の方法。

p_1iが、
(i)遺伝子座iにおけるコントリビューターの遺伝子型、又はg_i=(g_11i,...,g_D1i)(これは、コントリビューター1...Dにおける遺伝子座iでの対立遺伝子1のコピー数のベクトルである);
(ii)(c)における配列決定操作から生じるリードカウントのエラー、又はλ;及び
(iii)核酸試料中のコントリビューターの核酸の割合、又はβ=(β₁,...,β_D)(ここで、Dは、コントリビューターの数である)
の関数としてモデル化される、
請求項1に記載の方法。

コントリビューターが、2人以上のコントリビューターを含み、
p_1i=p(g_i,λ,β)←[(1-λ)g_i+λ(2-g_i)]/2・β
(ここで、・は、ベクトル内積演算子である)である、
請求項15に記載の方法。

コントリビューターが、2人のコントリビューターを含み、p_1iが、以下の表におけるp₁'値を使用して得られる、請求項16に記載の方法。

コントリビューターのゼロ、1つ又は複数の遺伝子型が、未知である、請求項15に記載の方法。

(f)が、遺伝子型の多数の可能な組み合わせにについて周辺化して、確率パラメータp_1iを数える工程を含む、請求項18に記載の方法。

1つ又は複数の多型遺伝子座のそれぞれにおける遺伝子型構成を決定する工程を更に含み、遺伝子型構成が、1人又は複数人のコントリビューターのそれぞれについての2つ対立遺伝子を含む、請求項18に記載の方法。

単一遺伝子座尤度関数が、第1の二項分布を含む、請求項15に記載の方法。

第1の二項分布が、以下:
n_1i～BN(n_i,p_1i)
(ここで、n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり、
n_iは、遺伝子座iにおける総リードカウントであって、これは、総ゲノムコピー数n''に等しい)のように表される、
請求項21に記載の方法。

(f)が、多数の単一遺伝子座尤度関数から計算された複数遺伝子座尤度関数を最大化する工程を含む、請求項22に記載の方法。

(f)が、
多数の潜在的な割合値及び(e)において決定された核酸配列リードの対立遺伝子カウントの複数遺伝子座尤度関数を使用して、多数の複数遺伝子座尤度値を計算する工程;
最大の複数遺伝子座尤度値に関連する1つ又は複数の潜在的な割合値を特定する工程;並びに
特定された潜在的な割合値として核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する工程
を含む、請求項23に記載の方法。

複数遺伝子座尤度関数が、
L(β,θ,λ,π;n₁,n₂)=Π_i[Σg_iM(n_1i,n_2i|p(g_i,λ,β),θ)・P(g_i|π)]
(ここで、L(β,θ,λ,π;n₁,n₂)は、対立遺伝子1及び2に対する対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり;
p(g_i,λ,β)は、遺伝子座iにおけるコントリビューターの遺伝子型g_iに基づいて遺伝子座iにおける対立遺伝子1を観察する予想される割合又は確率であり;
P(g_i|π)は、集団対立遺伝子頻度(π)を仮定した場合の遺伝子座iにおける遺伝子型g_iを観察する事前確率であり;
Σg_iは、コントリビューターの遺伝子型の多数の可能な組み合わせにわたる総和を表す)、
請求項23に記載の方法。

複数遺伝子座尤度関数が、
L(β,λ,π;n₁,n₂)=Π_i[Σg_iBN(n_1i|n_i,・p(g_i,λ,β))・P(g_i|π)]
を含む、請求項25に記載の方法。

コントリビューターが、2人のコントリビューターを含み、尤度関数が、
L(β,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBN(n_1i|n_i,p_1i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(β,λ,π;n₁,n₂)は、パラメータβ及びπを仮定した場合の対立遺伝子1及び2についてn₁からn₂の対立遺伝子カウントのベクトルを観察する尤度であり;
p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、以下の表からp₁'として取られる確率パラメータであり;
P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の2人のコントリビューターの遺伝子型を観察する事前同時確率である)
を含む、
請求項26に記載の方法。

事前同時確率が、ハーディー-ワインベルクの式を満足する周辺分布P(g_1i|π)及びP(g_2i|π)を使用して計算される、請求項27に記載の方法。

事前同時確率が、2人のコントリビューターの間の遺伝的関係を使用して計算される、請求項28に記載の方法。

確率混合モデルが、(a)において行われる核酸分子を抽出する工程から生じる核酸分子のコピー数のエラー、及び(c)における配列決定操作から生じるリードカウントのエラーを説明する、請求項25に記載の方法。

確率混合モデルが、第2の二項分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての抽出された核酸分子の対立遺伝子カウントをモデル化する、請求項30に記載の方法。

第2の二項分布が、以下:
n_1i''～BN(n_i'',p_1i)
(ここで、
n_1i''は、遺伝子座iにおける対立遺伝子1についての抽出された核酸分子の対立遺伝子カウントであり;
n_i''は、遺伝子座iにおける総核酸分子カウントであり;
p_iuは、遺伝子座iにおける対立遺伝子1の確率を示す確率パラメータである)
のように表される、
請求項31に記載の方法。

第1の二項分布が、対立遺伝子割合n_1i''/n_i''を条件としたものである、請求項32に記載の方法。

第1の二項分布が、以下:
n_1i～BN(n_i,n_1i''/n_i'')
(ここで、
n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり;
n_i''は、遺伝子座iにおける核酸分子の総数であって、これは、総ゲノムコピー数n''に等しく;
n_iは、遺伝子座iにおける総リードカウントであり;
n_1i''は、遺伝子座iにおける対立遺伝子1についての抽出された核酸分子の数である)
のように再パラメータ化される
請求項33に記載の方法。

確率混合モデルが、第1のベータ分布を使用して、n_1i''/n''の分布を近似する、請求項34に記載の方法。

第1のベータ分布が、第2の二項分布の平均及び分散とマッチする平均及び分散を有する、請求項35に記載の方法。

遺伝子座iが、二対立遺伝子としてモデル化され、第1のベータ分布が、以下:
n_i1''/n''～Beta((n''-1)p_1i,(n''-1)p_2i)
(ここで、
p_1iは、遺伝子座iにおける第1の対立遺伝子の確率を示す確率パラメータであり;
p_2iは、遺伝子座iにおける第2の対立遺伝子の確率を示す確率パラメータである)
のように表される、
請求項35に記載の方法。

(f)が、第1のベータ-二項分布に従うn_1iの単一遺伝子座尤度関数を得るために、配列決定リードカウントをモデル化する第1の二項分布、及び抽出された核酸分子数をモデル化する第1のベータ分布を組み合わせる工程を含む、請求項35に記載の方法。

第1のベータ-二項分布が、形式:
n_1i～BB(n_i,(n''-1)・p_1i,(n''-1)・p_2i)
又は、代替の近似:
n_1i～BB(n_i,n''・p_1i,n''・p_2i)
を有する、請求項38に記載の方法。

複数遺伝子座尤度関数が、
L(β,n'',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,(n''-1)・p_1i,(n''-1)・p_2i)・P(g_i|π)]
(ここで、L(β,n'',λ,π;n₁,n₂)は、すべての遺伝子座における対立遺伝子1及び2についての対立遺伝子カウントのベクトルn₁及びn₂を観察する尤度であり、p_1i=p(g_i,λ,β)であり、p_2i=1-p_1iである)
を含む、請求項39に記載の方法。

コントリビューターが、2人のコントリビューターを含み、複数遺伝子座尤度関数が、
L(β,n'',λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i,n_2i|n_i,(n''-1)・p_1i(g_1i,g_2i,λ,β),(n''-1)・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(β,n'',λ,π;n₁,n₂)は、パラメータβ、n''、λ及びπを仮定した場合の、すべての遺伝子座の第1の対立遺伝子についての対立遺伝子カウントのベクトル(n₁)並びにすべての遺伝子座の第2の対立遺伝子についての対立遺伝子カウントのベクトル(n₂)を観察する尤度であり;
p_1i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子1の確率を示す、以下の表からp₁'として取られる確率パラメータであり;
p_2i(g_1i,g_2i,λ,β)は、2人のコントリビューターの遺伝子型(g_1i,g_2i)に基づく遺伝子座iにおける対立遺伝子2の確率を示す、以下の表からp₂'として取られる確率パラメータであり;
P(g_1i,g_2i|π)は、集団対立遺伝子頻度(π)を仮定した場合の、遺伝子座iにおける、第1の対立遺伝子についての第1のコントリビューターの遺伝子型(g_1i)、及び第1の対立遺伝子についての第2のコントリビューターの遺伝子型(g_2i)を観察する事前同時確率である)
を含む、請求項40に記載の方法。

(f)が、抽出された核酸分子の集合から、抽出された総ゲノムコピー数n''を推定する工程を含む、請求項34に記載の方法。

推定された抽出された総ゲノムコピー数n''が、抽出された核酸分子の断片サイズに従って調整される、請求項42に記載の方法。

確率混合モデルが、(b)において行われる核酸分子を増幅する工程から生じる核酸分子数のエラー、並びに(c)における配列決定操作から生じるリードカウントのエラーを説明する、請求項25に記載の方法。

(b)の増幅プロセスが、以下:
x_t+1=x_t+y_t+1
(ここで、
x_t+1は、増幅のt+1サイクル後の所与の対立遺伝子の核酸コピーであり;
x_tは、増幅のtサイクル後の所与の対立遺伝子の核酸コピーであり;
y_t+1は、t+1サイクルで発生する新たなコピーであり、これは、二項分布y_t+1～BN(x_t,r_t+1)に従い;
r_t+1は、t+1サイクルについての増幅速度である)
のようにモデル化される、請求項44に記載の方法。

確率混合モデルが、第2のベータ分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての増幅された核酸分子の対立遺伝子の割合をモデル化する、請求項44に記載の方法。

遺伝子座iが、二対立遺伝子であり、第2のベータ分布が、以下:
n_1i'/(n_1i'+n_2i')～Beta(n''・ρ_i・p_1i,n''・ρ_i・p_2i)
(ここで、
n_1i'は、遺伝子座iにおける第1の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;
n_2i'は、遺伝子座iにおける第2の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;
n''は、任意の遺伝子座における総核酸分子カウントであり;
ρ_iは、平均増幅速度rに関する定数であり:
p_1iは、遺伝子座iにおける第1の対立遺伝子の確率であり;
p_2iは、遺伝子座iにおける第2の対立遺伝子の確率である)
のように表される、請求項46に記載の方法。

ρ_iが、(1+r)/(1-r)/[1-(1+r)^-t]であり、rが、サイクルあたりの平均増幅速度である、請求項47に記載の方法。

ρ_iが、(1+r)/(1-r)として近似される、請求項47に記載の方法。

(f)が、第2のベータ-二項分布に従うn_1iについての単一遺伝子座尤度関数を得るために、第1の二項分布及び第2のベータ分布を組み合わせる工程を含む、請求項47に記載の方法。

第2のベータ-二項分布が、形式:
n_1i～BB(n_i,n''・ρ_i・p_1i,n''・ρ_i・p_2i)
(ここで、
n_1iは、遺伝子座iにおける第1の対立遺伝子についての核酸配列リードの対立遺伝子カウントであり;
p_1iは、遺伝子座iにおける第1の対立遺伝子の確率を示す確率パラメータであり;
p_2iは、遺伝子座iにおける第2の対立遺伝子の確率を示す確率パラメータである)
を有する、請求項50に記載の方法。

(f)が、1つ又は複数の多型遺伝子座が同じ増幅速度を有することを仮定することによって、
n_1i～BB(n_i,n''・(1+r)/(1-r)・p_1i,n''・(1+r)/(1-r)・p_2i)
(ここで、rは、増幅速度である)
として第2のベータ-二項分布を再パラメータ化する工程を含む、請求項51に記載の方法。

複数遺伝子座尤度関数が、
L(β,n'',r,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,n''・(1+r)/(1-r)・p_1i,n''・(1+r)/(1-r)・p_2i)・P(g_i|π)]
を含む、請求項52に記載の方法。

コントリビューターが、2人のコントリビューターを含み、複数遺伝子座尤度関数が、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2i[BB(n_1i|n_i,n''・(1+r)/(1-r)・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/(1-r)・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)]
(ここで、L(β,n'',r,λ,π;n₁,n₂)は、パラメータβ、n''、r、λ及びπを仮定した場合の、すべての遺伝子座の第1の対立遺伝子についての対立遺伝子カウントのベクトル(n₁)及びすべての遺伝子座の第2の対立遺伝子についての対立遺伝子カウントのベクトル(n₂)を観察する尤度である)
を含む、請求項52に記載の方法。

(f)が、遺伝子座の総リードに比例するものとしてそれぞれの多型遺伝子座の相対増幅速度を定義することによって、
n_1i～BB(n_i,c'・n_i・p_1i,c'・n_i・p_2i)
(ここで、
c'は、最適化されるパラメータであり;
n_iは、遺伝子座iにおける総リードである)
として第2のベータ-二項分布を再パラメータ化する工程を含む、請求項51に記載の方法。

複数遺伝子座尤度関数が、
L(β,n'',c',λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,c'・n_i・p_1i,c'・n_i・p_2i)・P(g_i|π)]
を含む、請求項55に記載の方法。

確率混合モデルが、(a)において行われる核酸分子を抽出する工程及び(b)において行われる核酸分子を増幅する工程から生じる核酸分子数のエラー、並びに(c)における配列決定操作から生じるリードカウントのエラーを説明する、請求項25に記載の方法。

確率混合モデルが、第3のベータ分布を使用して、1つ又は複数の多型遺伝子座における対立遺伝子についての増幅された核酸分子の対立遺伝子の割合をモデル化し、(a)において行われる核酸分子を抽出する工程及び(b)において行われる核酸分子を増幅する工程から生じる試料抽出のエラーを説明する、請求項57に記載の方法。

遺伝子座iが、二対立遺伝子であり、第3のベータ分布が:
n_1i'/(n_1i'+n_2i')～Beta(n''・(1+r_i)/2・p_1i,n''・(1+r_i)/2・p_2i)
(ここで、
n_1i'は、遺伝子座iにおける第1の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;
n_2i'は、遺伝子座iにおける第2の対立遺伝子についての増幅された核酸分子の対立遺伝子カウントであり;
n''は、総核酸分子カウントであり;
r_iは、遺伝子座iについての平均増幅速度であり:
p_1iは、遺伝子座iにおける第1の対立遺伝子の確率であり;
p_2iは、遺伝子座iにおける第2の対立遺伝子の確率である)
の形態を有する、請求項58に記載の方法。

(f)が、第3のベータ-二項分布に従うn_1iの単一遺伝子座尤度関数を得るために、第1の二項分布及び第3のベータ分布を組み合わせる工程を含む、請求項59に記載の方法。

第3のベータ-二項分布が、形式:
n_1i～BB(n_i,n''・(1+r_i)/2・p_1i,n''・(1+r_i)/2・p_2i)
(ここで、r_iは、増幅速度である)
を有する、請求項60に記載の方法。

複数遺伝子座尤度関数が、
L(β,n'',r,λ,π;n₁,n₂)=Πi[Σg_iBB(n_1i|n_i,n''・(1+r)/2・p_1i,n''・(1+r)/2・p_2i)・P(g_i|π)]
(ここで、rは、すべての遺伝子座について等しいと推定される増幅速度である)
を含む、請求項61に記載の方法。

コントリビューターが、2人のコントリビューターを含み、複数遺伝子座尤度関数が、
L(β,n'',r,λ,π;n₁,n₂)=Π_iΣ_g1ig2iBB(n_1i|n_i,n''・(1+r)/2・p_1i(g_1i,g_2i,λ,β),n''・(1+r)/2・p_2i(g_1i,g_2i,λ,β))・P(g_1i,g_2i|π)
(ここで、L(n₁,n₂|β,n'',r,λ,π)は、パラメータβ、n''、r、λ及びπを仮定した場合の、第1の対立遺伝子のベクトルn ₁についての対立遺伝子カウント及び第2の対立遺伝子のベクトルn ₂についての対立遺伝子カウントを観察する尤度である)
を含む、請求項61に記載の方法。

(g)数値微分を使用しlog尤度のヘッセ行列を使用して、1人又は複数人のコントリビューターの核酸の1つ又は複数の割合の1つ又は複数の信頼区間を推定する工程を更に含む、請求項1に記載の方法。

(d)のマッピングする工程が、コンピューターハッシング及びコンピューターダイナミックプログラミングを使用する1つ又は複数のプロセッサによって、多数の不偏標的配列の任意の配列にマッチする核酸配列リードの中のリードを同定する工程を含み、多数の不偏標的配列が、参照配列の部分配列、及び単一ヌクレオチドが部分配列と異なる配列を含む、請求項1に記載の方法。

多数の不偏標的配列が、多数の多型部位のそれぞれの多型部位を包含する配列の5つのカテゴリー:
(i)参照配列の部分配列である参照標的配列であって、多型部位において参照ヌクレオチドを伴う参照対立遺伝子を有する参照標的配列;
(ii)多型部位において代替ヌクレオチドを伴う代替対立遺伝子をそれぞれ有する代替標的配列であって、代替ヌクレオチドが参照ヌクレオチドと異なる、代替標的配列;
(iii)多型部位ではない部位においてヌクレオチド1つのみが参照標的配列とそれぞれ異なるすべての可能な配列を含む変異参照標的配列;
(iv)多型部位ではない部位においてヌクレオチド1つのみが代替標的配列とそれぞれ異なるすべての可能な配列を含む変異代替標的配列;並びに
(v)参照対立遺伝子及び代替対立遺伝子と異なる予想外の対立遺伝子をそれぞれ有し、かつ先の4つのカテゴリーの配列と異なる配列をそれぞれ有する、予想外の対立遺伝子標的配列
を含む、請求項65に記載の方法。

(v)の予想外の対立遺伝子標的配列を観察する頻度に基づいて、バリアント部位における配列決定のエラーの割合λを推定する工程を更に含む、請求項66に記載の方法。

(e)が、1つ又は複数の多型遺伝子座において対立遺伝子についての核酸配列リードの対立遺伝子カウントを決定するために、同定されたリード及びそれらのマッチする不偏標的配列を使用する工程を含む、請求項66に記載の方法。

多数の不偏標的配列が、核酸配列リードと同じ長さを有するようにトランケートされた配列を含む、請求項66に記載の方法。

多数の不偏標的配列が、1つ又は複数のハッシュテーブルに保存された配列を含み、リードが、ハッシュテーブルを使用して同定される、請求項66に記載の方法。

1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化するシステムであって、システムが、
(a)(i)核酸試料から抽出された核酸分子を受け取り;(ii)抽出された核酸分子を増幅し;及び(iii)核酸配列リードを生成する条件下、増幅された核酸分子を配列決定するように構成された配列決定装置;並びに
(b)核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングし;
マッピングされた核酸配列リードを使用して、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定し;並びに
確率混合モデルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化する
ように構成された1つ又は複数のプロセッサを含むコンピューター
を含み、
ここで、確率混合モデルを使用する工程が、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、
確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、核酸配列リードにおけるエラーを説明し、
確率混合モデルが、単一遺伝子座尤度関数を使用して、単一多型遺伝子座における対立遺伝子カウントをモデル化し、単一遺伝子座尤度関数が、
M(n _1i ,n _2i |p _1i ,θ)
(ここで、
n _1i は、遺伝子座iにおける対立遺伝子1の対立遺伝子カウントであり、
n _2i は、遺伝子座iにおける対立遺伝子2の対立遺伝子カウントであり、
p _1i は、遺伝子座iにおける対立遺伝子1の予想される割合であり、
θは、1つ又は複数のモデルのパラメータを含む)、
を含む、システム。

核酸試料から核酸分子を抽出するためのツールを更に含む、請求項71に記載のシステム。

確率分布が、以下:
n_1i～BN(n_i,p_1i)
(ここで、
n_1iは、遺伝子座iにおける対立遺伝子1についての核酸配列リードの対立遺伝子カウントであり;
n_iは、遺伝子座iにおける総リードカウントであって、これは、総ゲノムコピー数n''に等しく;
p_1iは、遺伝子座iにおける対立遺伝子1の確率を示す確率パラメータである)
ような第1の二項分布を含む、請求項71に記載のシステム。

コンピューターシステムの1つ又は複数のプロセッサによって実行される場合に、1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化する方法をコンピューターシステムに実施させるプログラムコードが保存された非一時的機械可読媒体を含むコンピュータープログラム製品であって、前記プログラムコードが、
核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングするためのコード;
マッピングされた核酸配列リードを使用して、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定するためのコード;並びに
確率混合モデルを使用して、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合を定量化するためのコード
を含み、
ここで、確率混合モデルを使用する工程が、確率混合モデルを核酸配列リードの対立遺伝子カウントに適用する工程を含み、
確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座において核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、核酸配列リードにおけるエラーを説明し、
確率混合モデルが、単一遺伝子座尤度関数を使用して、単一多型遺伝子座における対立遺伝子カウントをモデル化し、単一遺伝子座尤度関数が、
M(n _1i ,n _2i |p _1i ,θ)
(ここで、
n _1i は、遺伝子座iにおける対立遺伝子1の対立遺伝子カウントであり、
n _2i は、遺伝子座iにおける対立遺伝子2の対立遺伝子カウントであり、
p _1i は、遺伝子座iにおける対立遺伝子1の予想される割合であり、
θは、1つ又は複数のモデルのパラメータを含む)、
を含む、コンピュータープログラム製品。

1人又は複数人のコントリビューターの核酸を含む核酸試料を定量化する、1つ又は複数のプロセッサ及びシステムメモリを含むコンピューターシステムで実施される方法であって、方法が、
(a)1つ又は複数のプロセッサによって、核酸試料から得られた核酸配列リードを受け取る工程;
(b)1つ又は複数のプロセッサによって、コンピューターハッシング及びコンピューターダイナミックプログラミングを使用して、核酸配列リードを参照配列における1つ又は複数の多型遺伝子座にマッピングする工程;
(c)マッピングされた核酸配列リードを使用して、1つ又は複数のプロセッサによって、1つ又は複数の多型遺伝子座において1つ又は複数の対立遺伝子について核酸配列リードの対立遺伝子カウントを決定する工程;並びに
(d)確率混合モデルを使用して、1つ又は複数のプロセッサによって、核酸試料中の1人又は複数人のコントリビューターの核酸の1つ又は複数の割合及び割合の信頼性を定量化する工程
を含み、
ここで、確率混合モデルを使用する工程が、核酸配列リードの対立遺伝子カウントに確率混合モデルを適用する工程を含み、
確率混合モデルが、確率分布を使用して、1つ又は複数の多型遺伝子座における核酸配列リードの対立遺伝子カウントをモデル化し、確率分布が、マッピングされた核酸配列リードにおけるエラーを説明し、
定量化する工程が、(i)マルチ反復グリッド検索、及びBFGS-準ニュートン法、又は反復加重線形回帰を組み合わせるコンピューター最適化方法、並びに(ii)数値微分法を利用し、
確率混合モデルが、単一遺伝子座尤度関数を使用して、単一多型遺伝子座における対立遺伝子カウントをモデル化し、単一遺伝子座尤度関数が、
M(n _1i ,n _2i |p _1i ,θ)
(ここで、
n _1i は、遺伝子座iにおける対立遺伝子1の対立遺伝子カウントであり、
n _2i は、遺伝子座iにおける対立遺伝子2の対立遺伝子カウントであり、
p _1i は、遺伝子座iにおける対立遺伝子1の予想される割合であり、
θは、1つ又は複数のモデルのパラメータを含む)、
を含む、方法。