JP2021530231A

JP2021530231A - ニューラルネットワークを使用して倍数性状態を呼び出すための方法およびシステム

Info

Publication number: JP2021530231A
Application number: JP2021502513A
Authority: JP
Inventors: エギルソン，アーガスト; ヘメロス，ジョージ; シグルヨンソン，ストゥルミル
Original assignee: ナテラ，インコーポレイテッド
Priority date: 2018-07-17
Filing date: 2019-07-16
Publication date: 2021-11-11
Also published as: US20210327538A1; WO2020018522A1; CN112639982A; EP3824470A1

Abstract

ニューラルネットワークを使用して倍数性状態を呼び出す方法は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、特定のプロセスを使用して重みを反復的に修正することをさらに含む。本方法は、さらに、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことを含む。

Description

関連出願の相互参照
本出願は、２０１８年７月１７日に出願された米国仮出願第６２／６９９，１３５号に対する優先権を主張し、この仮出願は、参照によりその全体が本明細書に組み込まれる。

胚性染色体異常を検出することは、胚または胎児の健康を判定するのに有用であり得る。例えば、胚の健康は、体外受精（ＩＶＦ）プロセスを介して、着床の前に、全体的な染色体異数性または局所的な異数性を含む異数性を検出することによって決定することができるか、または異数性の観点から胎児の健康は、非侵襲的な出生前検査（ＮＩＰＴ）を使用して決定することができる。しかしながら、従来の技術を用いてそのような異数性を検出することは困難である可能性があり、異数性の位置に関し粒度を有してそのような異数性を検出することは困難である可能性がある。本開示は、とりわけ、正確に、胚および胎児の異数性を呼び出すことと、染色体の特定のセグメントについて、胚および胎児の異数性を呼び出すこととを提供する改善されたシステムおよび方法を記載する。

本明細書に記載されるシステムおよび方法の少なくともいくつかは、ニューラルネットワークを使用して胚または胎児異数性を呼び出すことに関する。ニューラルネットワークは、注釈付きデータについて訓練されて、胚サンプルの倍数性状態を正確に呼び出すことができ、したがって、胚の健康に関する洞察を提供する。本明細書におけるシステムおよび方法は、染色体の小さなセグメントに特異的な異数性を含む配列および配列決定データの両方から、胚および胎児における異数性の改善された検出、位置および分類を提供することができ、より大きな倍数性領域を分類することに加えて、倍数性状態による各ゲノム位置の分類を提供することができる。本明細書に記載されるシステムおよび方法は、その全体が本明細書に組み込まれる、出版物ＤｅｅｐＬｅａｒｎｉｎｇ（ＡｄａｐｔｉｖｅＣｏｍｐｕｔａｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）、ＩａｎＧｏｏｄｆｅｌｌｏｗ、ＹｏｓｈｕａＢｅｎｇｉｏ、ＡａｒｏｎＣｏｕｒｖｉｌｌｅ、ＭＩＴＰｒｅｓｓ（２０１６年１１月１８日）に記載されるもののいずれかのような、深層学習または機械学習プロセスを実装してもよい。

本明細書に記載されるシステムおよび方法は、多くの条件について試験することに使用され得る、改善された非侵襲的な出生前試験を提供して、胎児がダウン症候群、エドワーズ症候群、またはターナー症候群などの何らかの全体的な染色体異常を有するかどうかを決定すること、胎児がモザイク、欠失症候群、または重複などの何らかの部分的な染色体異常を有するかどうかを決定すること、あるいは１つまたは複数の遺伝子座、例えば、単一一塩基多型（ＳＮＰ）にリンクした疾患についての胎児の遺伝子型を決定することができる。さらに、本明細書に記載されるシステムおよび方法は、改善された着床前遺伝子診断（ＰＧＤ）を提供することができる。ＰＧＤは、異数性のような染色体異常を検出することができ、着床の成功および健康な赤子を確実にするために使用され得る。ＰＧＤは、遺伝子疾患スクリーニングのために訴えることもできる。

本明細書に記載されるいくつかの実施形態は、ニューラルネットワークを訓練し、それを用いることによって染色体セグメントの倍数性状態を呼び出し、シミュレートするためのシステムおよび方法を対象とする。呼び出される染色体セグメントは、血漿混合物およびゲノムサンプルから得られた標的配列決定またはアレイデータによって表される。本明細書に記載されるニューラルネットワーク訓練方法は、全体的な染色体異数性呼び出しおよびサブ染色体レベルに存在する異数性呼び出しを対象とする。本方法は、既存のアルゴリズムを改善し、ニューラルネットワークがゲノム位置バイアスを学習し、訓練パイプラインを変更することによってノイズに堅牢性および不変性を加えることを可能にする。集団中の共通の相同体の存在を最初に捕捉することによって現実的なセグメント倍数性状態をシミュレートするためのシステムが教示され、訓練されたニューラルネットワークが染色体構造中の小さな微小欠失のような欠失を呼び出すことを可能にする訓練データを拡張するために用いられる。試験サンプルは、遺伝的異常の検出を含む、試験サンプルの特徴を決定するために、ニューラルネットワークを通過することができる。

いくつかの実施態様において、ニューラルネットワークは、胚遺伝子データに加えて、母系遺伝子データおよび父系遺伝子データについての遺伝子データを入力とする。遺伝子データは、例えば、任意のタイプのＤＮＡもしくはＲＮＡの鎖もしくはフラグメント、またはそれらから導出されたデータのリードまたは配列決定であってもよい。ニューラルネットワークは、胚、母系、および父系の遺伝子データを含む訓練データを使用して開発することができ、そのようなデータを利用することによって、胚サンプルの倍数性状態を正確に呼び出すことができる。本明細書で使用される場合、用語「倍数性状態」は、正倍数体または異数性である遺伝子セグメントまたは染色体の分類を指すことができ、特定の異数性を提示する遺伝子セグメントまたは染色体を指すことができる。いくつかの実施態様において、ニューラルネットワークは、１つ以上の合成ケースを含む拡張データを使用して訓練される。例えば、拡張データは、訓練データに含まれる２つの他の遺伝子セグメントを組み合わせることによって生成される遺伝子情報を含んでもよく、または訓練データに含まれる遺伝子セグメント内の欠失をシミュレートすることによって生成される遺伝子情報を含んでもよい。合成ケースは、特に異数性を含むように生成されてもよく、「真」または既知の値のセット（例えば、手動注釈によって決定された）は、合成ケースを考慮するように更新されてもよい。訓練における合成ケースの使用は、いくつかの他の技法よりもはるかに効率的かつ正確に、サブ染色体異数性呼び出すことが容易に可能なニューラルネットワークを提供することができる。

したがって、一態様において、本開示は、出生前試験を実施する方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む、方法を提供する。本方法は、さらに、終了条件が満たされるまで、ニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めて、拡張バッチを生成することと、合成ケースに基づいて、真の状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、損失値に基づいて、複数の重みのうちの１つ以上を修正することと、を含む。本方法は、さらに、妊婦から抽出された血漿を含む試験サンプルを選択することと、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む。

別の態様において、本開示は、着床前遺伝子スクリーニングを実施する方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む、方法を提供する。本方法は、さらに、終了条件が満たされるまで、ニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めて、拡張バッチを生成することと、合成ケースに基づいて、真の状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、損失値に基づいて、複数の重みのうちの１つ以上を修正することと、を含む。モデルは、さらに、胚から試験サンプルを選択することと、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む。

別の態様において、本開示は、ニューラルネットワークを使用して倍数性状態を呼び出す方法を提供する。本方法は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、さらに、終了条件が満たされるまでニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの倍数性状態値を含むネットワーク出力を生成することと、損失関数および真の倍数性状態値を使用して、１つ以上のそれぞれの倍数性状態値に基づいて、１つ以上の損失値を判定することと、損失値に基づいて、複数の重みのうちの１つ以上を修正することと、を含む。本方法は、さらに、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことを含む。

別の態様において、本開示は、拡張データを使用してニューラルネットワークを訓練する方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、それぞれの状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、さらに、終了条件が満たされるまでニューラルネットワークを反復的に修正することを含み、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めることと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、を含む。本方法は、さらに、ネットワーク出力に基づいて、複数の重みのうちの１つ以上を修正することを含む。

さらなる態様において、本開示は、サブ染色体倍数性状態を呼び出すためのニューラルネットワークを訓練するためのシステムであって、プロセッサと、非一時的メモリに記憶されたプロセッサ実行可能命令とを、含み、プロセッサ実行可能命令は、プロセッサによって実行されるときに、プロセッサに、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、複数の遺伝子位置の少なくともいくつかを含む、判定することと、を行わせる、システムを提供する。プロセッサ実行可能命令は、プロセッサによって実行されるときに、さらに、プロセッサに、それぞれの状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、終了条件が満たされるまでニューラルネットワークを反復的に修正することと、を行わせる。反復修正は、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、複数のケースの第１のケースの第１のセグメントの一部を選択することと、真の状態値に基づいて、異数性を有する複数のケースのうちの第２のケースの第２のセグメントを選択することと、第２のセグメントの一部を選択することと、第１のセグメントの一部を第２のセグメントの一部に置き換えて合成ケースを生成し、バッチに合成ケースを含めて拡張バッチを生成することと、合成ケースに基づいて、真の状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、ネットワーク出力に基づいて、複数の重みのうちの１つ以上を修正することと、を含む。

前述の一般的な説明、ならびに以下の図面の説明および詳細な説明は、一例かつ説明的なものとしてであり、請求項に記載される実施態様のさらなる説明を提供することが意図されている。他の目的、利点、および新規な特徴は、以下の図面の簡単な説明および詳細な説明から、当業者に容易に明らかとなるであろう。

添付の図面は、縮尺通りに描かれることが意図されていない。種々の図面における同様の参照番号および指定は、同様の要素を示す。明確性を目的として、全ての構成要素が全ての図面においてラベル付けされなくてもよい。

いくつかの実施形態による、ゲノムまたは血漿サンプルの遺伝子型決定または配列決定のための例示的なプロセスの概要を図示する。いくつかの実施形態による、配列決定またはアレイデータに注釈を付ける例示的なプロセスの概要を図示する。いくつかの実施形態による、ニューラルネットワークを訓練する例示的なプロセスを図示する。いくつかの実施形態による、ニューラルネットワークを訓練する例示的なプロセスを図示する。いくつかの実施形態による、ニューラルネットワークの詳細な例を図示する。いくつかの実施形態による、分類ネットワークの例を図示する。いくつかの実施形態による、訓練データおよび真のデータを拡張するための例示的なアルゴリズムを図示する。いくつかの実施形態による、訓練データおよび真のデータを拡張するための例示的なアルゴリズムを図示する。いくつかの実施形態による、ニューラルネットワークアーキテクチャの例を図示する。いくつかの実施形態による、倍数性呼び出しシステムの実施形態を示すブロック図である。いくつかの実施形態による、標的遺伝子領域の倍数性状態を呼び出す例示的な方法を図示するフローチャートである。いくつかの実施形態による、ニューラルネットワークを修正する例示的な方法を図示するフローチャートである。

記載される概念は、いずれの特定の実施態様にも限定されないため、上記で導入され、以下でより詳細に論じられる種々の概念は、多数の方法のうちのいずれかで実装されてもよい。特定の実施態様および用途の例は、主に説明を目的として提供される。

ここで図１を参照すると、図１は、例えば、Ｃｙｔｏ１２ｂアレイまたは次世代配列決定（ＮＧＳ）を使用した標的一塩基多型（ＳＮＰ）プールを使用してゲノムまたは血漿サンプルの遺伝子型決定または配列決定するための例示のプロセスの概要を示す。Ｃｙｔｏ１２ｂアレイは、例えば、全ての染色体にわたって約３０万個（ここでは約３００ｋと書く）のＳＮＰ標的を有し得、種々のＮＧＳプールは、例えば、数百個のゲノム位置から数万または数十万個のＳＮＰの範囲のより小さな標的ＳＮＰセットを有し得る。配列決定またはアレイ遺伝子型決定プロセスへの入力は、胚由来の１つ以上の細胞（図１の１）、ならびに胚の親由来の任意選択のゲノムサンプル（図１の２および３）を含んでもよい。いくつかの実施形態において、配列決定プロセスへの入力は、妊婦からの血漿サンプルであってもよい（図１の１）（例えば、胎児に関して非侵襲的な液体生検によって取得される）。配列決定またはアレイ遺伝子型決定プロセスまたはラボプロセス（図１の４）の出力は、分析処理後、いくつかのコンピュータ記憶媒体に記憶されたサンプルのそれぞれについての数値アレイデータ（図１の５）を含み、これは、サンプル当たり２つ以上の正の数の数値アレイを含むことができ、各数値アレイ長は、配列決定ターゲットプールまたはアレイによって特定されるゲノム位置の数に等しく、数値アレイ内の個々のエントリは、ＳＮＰの標的プール中のマッチングターゲット位置当たりのカウントまたは強度を表す。

ここで図２を参照すると、図２は、配列決定またはアレイデータに注釈を付ける例示のプロセスの概要を示す（図２の５）。例えば、アレイデータのビジュアルハンドレビューに関連する経験的アルゴリズムおよび第１原理アルゴリズムを、配列決定または配列遺伝子型決定プロセスの出力に適用することができる（図２の６）。これは、出力データを分類し、個体に癌または他の疾患を引き起こす可能性のある体細胞変異を含むｃｆＤＮＡを検出するための液体生検を配列決定するときに、個々の染色体、胚または胎児、または血漿自体の状態に関するトゥルース、またはトゥルースデータ（図２の７）を取得するために行うことができる。トゥルースデータは、参照データとして使用することができ、例えば、分析されたサンプルの正確な分類を示すと仮定してもよい。トゥルースデータは、ニューラルネットワークを訓練するためにいくつかのコンピュータ記憶媒体に記憶され得る。このトゥルースデータは、胚または胎児から特定された各染色体が正倍数性状態にあるか、またはいくつかの異数体状態の１つにあるとされる分類および尤度を含んでもよい。宿主個体における癌のような疾患を検出するために使用される血漿サンプルについては、トゥルースデータは、ゲノムサンプル、例えば、血漿が得られる液体生検からのバフィーコートを配列決定することによって取得されるか、または個体から異なる時点で取得される個体由来のゲノム位置および生殖細胞変異体の記述に関する一致正規データを含んでもよい。加えて、トゥルースデータは、血漿サンプルを使用して癌を検出するとき、体細胞変異体および／または癌に関連する他のサブ染色体異常に関する情報（例えば、定量および／または位置）を含むことができ、癌サンプルを配列決定し、結果を一致正規配列決定データまたはヒトのための公的に入手可能な参照ゲノムデータと比較することによって取得され得る。

図３は、ディープニューラルネットワークであり得る、ニューラルネットワークを訓練する例示のプロセスを示す。本プロセスは、図１および２に関して説明されるように、配列決定またはアレイデータ５ならびにトゥルース７を使用して、ニューラルネットワークを訓練および評価する（例えば、アレイデータおよびトゥルースデータを出力する）か、または染色体もしくは標的ゲノム位置当たりのトゥルースデータおよび分類を改善する。

いくつかの実施形態において、配列決定またはアレイデータ５は、フィルタリングプロセス８によってグループに分割される。グループは、訓練データ、検証データ、および試験データを含む。検証データおよび試験データは、訓練されたニューラルネットワーク上で後で試験するために留められたデータを含むことができる（例えば、検証データは、最適化プロセス中にオーバーフィッティングについてテストするために使用され得、試験データは、最終的なネットワークの予測力を定量化するために使用され得る）。訓練中、訓練データは、ニューラルネットワークを規則化し、より良い一般化を提供し、既存の訓練セットの一部ではない追加のノイズおよび例に関してネットワークを回復させるように摂動される（図３の９）。図３の摂動プロセス９はまた、損失関数（１２）の出力を最小限に抑えるために、ネットワークを訓練するのに有用な追加の派生属性を計算することを含んでもよい。データは、バッチで前方伝播プロセス（図３の１０）を介して送られ、ネットワーク出力（図３の１１）を生成し、これは、損失関数を使用して、トゥルース（７）と比較されて、１つ以上の損失値（図３の１２）を計算する。損失値は、ニューラルネットワーク内の重みの関数であり、これらの重みは、複数の反復にわたって、トゥルースに近い（例えば、より低い損失値をもたらす）新しいニューラルネットワーク出力１１を生成するように最適化、更新、そうでなければ修正されてもよい。そのような最適化プロセス（図３の１４）は、新しい配列決定またはアレイデータのバッチがネットワークを通過する前に、ネットワークの重みを修正する。最適化プロセスは、例えば、確率的勾配降下最適化の修正された形態、または別の適切な最適化プロセスであり得る。終了条件に達する（例えば、１つ以上の損失値が所定の閾値（例えば、所定の検証閾値）以下であると判定される）ときに、訓練プロセスは終了し、ネットワーク重み（図３の１６）は、コンピュータ可読媒体に記憶され、ネットワークによって指定された前方伝播機能に従って、配列決定またはアレイデータを出力にマッピングする機能を構築するためにデシリアライズされ得る。訓練プロセスはまた、訓練が完了した後に訓練プロセスおよび偏りのない試験統計を誘導するために使用され得る（例えば、検証データおよび試験データを使用して）検証統計（図３の１５）を作成してもよい。

図４は、ニューラルネットワークのための訓練段階の例示の実施態様を示す。訓練後、次いで、ネットワークを使用して、同じ入力パイプラインおよび前方伝播プロセスを介して配列決定またはアレイ数値データを走らせることによって、胚を正倍数性または異数性状態にあるものとして分類することができる。ネットワークへの入力は、図１に関連して記載されるように、配列決定またはアレイプロセスの出力である２つ以上の（おそらく正規化された）数値アレイを含むことができる。サンプルのセット（例えば、１〜３個のサンプル（胚または血漿、および任意選択の母親および父親のゲノムサンプル））のそれぞれについて取得される対立遺伝子頻度（例えば、異数性対立遺伝子の総リード数に対するリード数の比率であり得る対立遺伝子比、または対立遺伝子頻度）もまた、ネットワークの第１の層への入力であってもよい。いくつかの実施形態において、胚または血漿由来の対立遺伝子比が、唯一の入力であってもよい。図４は、プロセス（８）において訓練データとして選択され、プロセス（９）において構文解析、変換および摂動されたデータについて、各行が１つの胚または血漿に由来する対立遺伝子比を含有するマトリックス（１４ａ）を示す。列は、ゲノム位置を表す。胚生検由来の細胞を用いて作業するときに、示されるように、胚対立遺伝子比が入力されてもよく、いくつかの実施形態では、３つのサンプル（胚、母、および父サンプル）についての対立遺伝子比率が入力される。妊娠している女性の液体生検からの血漿を用いて作業するときに、血漿からの正規化された配列決定またはアレイデータリードまたは強度および対立遺伝子比が入力されてもよい。癌を有しているか、または癌を有していた個体の液体生検からの血漿を用いて作業するときに、目的が、血漿中に存在する癌からｃｆＤＮＡ、例えば、体細胞変異体を定量化するようにネットワークを訓練することであるときに、入力チャネルは、例えば、一致正常サンプルからの配列決定データ、例えば、液体生検（例えば、血液サンプル）から取得されたバフィーコート材料を配列決定することによって取得された個体の生殖細胞変異体の少なくともいくつかを特定することを含むことができる。入力はまた、そのようなサンプルが利用可能である場合、個体から取得された現在のまたは以前の癌サンプル中で特定された体細胞変異体に関するデータを含んでもよい。これは、血漿自体の高リード深度（ｒｅｆａｎｄｍｕｔ）で入力されるチャネルに加えてもよい。マトリックス（１４ａ）は、例のプールからランダムに選択され得るいくつかの「例」（本明細書では「ケース」とも呼ばれる）を含む１つの訓練バッチの例である。図４はまた、図３に記載されるような例示のネットワーク出力（１１）、トゥルースデータ（７）およびトゥルースデータ（７）およびネットワーク出力（１１）に基づいて決定され得る損失値（１２）を示す。１つの例示のプロセスは、損失式、例えば、クロスエントロピー式を使用して損失値（１２）を計算することを含む。ニューラルネットワークは、胚、母親および父親のサンプルから取得されたアレイデータを入力として受け入れることができる。ネットワークは、最適化プロセス（１４）中にネットワーク出力を修正するために使用され得る訓練可能な変数を含むことができる。ネットワーク出力（１１）は、例えば、（ｘ、ｙ）のような分類ベクトルであり、ｘおよびｙは、合計が１となる非負値であり、ｘ＞＞ｙは、正倍数性分類を示し、ｙ＞＞ｘは、胚の異数性分類を示す。血漿サンプル中の癌に関連する体細胞変異体の存在を検出するために分類ネットワークを訓練するケースでは、ｙ＞＞ｘは、例えば、ネットワークがそのような変異体の存在を検出したことを示すことができ、ｘ＞＞ｙは、ネットワークが体細胞変異体の存在を検出しなかったことを示すことができる。例えば、ｘ値が所定量（いくつかの実施形態では、ゼロまたは負の量であってもよい）でｙ値よりも大きい場合、システムは、サンプルを正倍数性として分類してもよく、ｙ値が所定量（いくつかの実施形態では、ゼロまたは負の量であってもよい）でｘ値よりも大きい場合、システムは、サンプルを異数性を呈するものとして分類してもよい。ネットワーク出力（１１）に示される各行は、マトリックス（１４ａ）の入力行ごとのそのようなベクトルの出力を表す。状態の数は、図４（例えば、２つの状態）のマトリックス（７）および（１１）の列の数と等しく、ネットワークを訓練するために使用されるトゥルースデータの利用可能な状態に依存する。ネットワークの出力はまた、トゥルース値（Ｌ１ノルム）または距離の２乗（Ｌ２ノルム）との絶対差のような異なる損失関数を使用して近似される単一の値であってもよい。このような値の一例は、妊婦の血漿中に見出される胎児画分である。別の例は、宿主からの血漿サンプル中の癌に関連する体細胞変異体からのＤＮＡの定量である。バッチに対する損失値（１２）は、バッチに含まれる各例に対する個々の損失の平均または合計として定義されてもよい。任意の他の適切な損失関数も使用されてもよい。

図５は、訓練（例えば、確率的勾配降下様最適化を使用して）のために使用され得、次いで前方パスプロセスを使用して胚または胎児染色体の状態を分類するために使用され得る、図３および図４に記載のニューラルネットワークの詳細な例を示す。ネットワークは、Ｎ×３×約３００ｋの数値テンソルの入力（図５の１５）で開始し、ここで、Ｎは、Ｃｙｔｏ１２ｂアレイと作業するときに一緒に分類されるか、または訓練中にバッチ処理される例の数であり、３つのチャネルは、胚、母親および父親の対立遺伝子比であり、最後の数約３００ｋは、標的にされるゲノム位置の数を表す（図５の２１）。血漿を用いて作業するケースでは、いくつかの実施形態において、Ｎ×５×約１２ｋの入力（図５の１５）であって、ここでも、Ｎは、一緒にバッチ処理される例の数であり、約１２ｋはゲノム位置の数（図５の２１）であり、５つのチャネルは、血漿についての対立遺伝子比、ＮＧＳ配列決定プロセスからの参照対立遺伝子リード、変異対立遺伝子リード、品質スコア、および対立遺伝子リードエラー率などの４つの（例えば、正規化された）出力アレイである。いくつかの入力チャネルは、異なる基準に従って並べ替えられることがあるため、ゲノム位置が全ての入力チャネルに適用される必要はない。以下に記載される血漿セットアップはまた、５の代わりに１つの入力チャネルのみを有するセットアップを含み（例えば、血漿対立遺伝子リード）、ある数の他の組み合わせが可能である。プロセスは、ネットワーク内の複数の系列（描写される例ではＡおよびＢ）を含むことができ、これらは、異なる入力テンソルに供給され得、いくつかはゲノム位置によってインデックス化され得、いくつかはそうではない。示されるネットワークは、入力ベクトルのサイズを小さくし、追加のチャネルの形態で関連する特徴を抽出する（図５の２０によって例示される）、図５で１６として示される複数の初期１次元畳み込み層、活性化層およびプーリング層を含む。入力（１５）は、複数のプーリングおよび活性化機能を含む複数のそのような一連の畳み込み層にチャネリングすることができる。図５は、図中のＡおよびＢによって示される２つのそのような一連の例を示す。一連の複数の層はまた、一緒に連結されてもよい。次いで、一連の層は、ドロップアウトおよび他の規則化技術が任意選択で埋め込まれた、１つ以上の一連の完全に接続された層（図５の１７）に拡張される。完全に接続された層は、ノード間に数百万の重み（図５の１９）をもたらす数百または数千ノードを有してもよい。次いで、完全に接続された層を一緒に連結し、最終的に、サイズＮ×ｋの最終的なロジット層（図５の１８）につながり、ここで、ｋは、所望の分類におけるクラスの数であり、例えば、（１８）に示されるように、ｋ＝２は２つのクラス、すなわち、正倍数性状態および異数性状態を表す。最終出力（１８）は、いくつかの実施形態において、そのような量がトゥルースセットで利用可能であるときに、母親の血漿中の胎児画分などの統計量を示すことを意図した単一の変数であり得る。訓練および分類のための使用中、ロジット（１８）は、各状態についての信頼値を取得するためにソフトマックス計算器に供給されてもよく、訓練中に、損失関数が、ネットワークで使用される重みに関する勾配を計算する前に、クロスエントロピーなどに適用される（図４および図３の損失値１２を参照）。

図６は、ネットワークがゲノム位置当たり１セットのクラスを出力する分類ネットワークの一例を示す（図６の２３）。クラスは、所与のゲノム標的またはＳＮＰにおける胚または胎児の状態を表す。例えば、５つのクラスのセットは、図示の軸（図６の２３）によって例示されるように、それぞれが、例えば、各ゲノム位置またはゲノムビンにおける母系一染色体性、父系一染色体性、二染色体性、母系三染色体性もしくは父系トリソミーの尤度を計算するために使用されるロジットの１つを表す５つのチャネル（図６の２２）を有する最終畳み込み層（図６の２５）によって表されるであろう。このケースでは、入力は、図５（１５および２１）に例示されるものと同じタイプであるが、出力層は、Ｎ×「ゲノム位置の数」（図６の２３）×ｋ（図６の２２）テンソルを含み、ここで、ｋチャネルの各最終寸法は、図３に関連して取得され説明されるトゥルース状態（７）を表すｋクラスを表し、Ｎは、訓練、検証または試験段階中に一緒に分類されるか、または一緒にバッチ処理される例の数である。ネットワークは、複数の一次元畳み込み層、活性化層およびプーリング層（図６の１６）、続いて１つ以上の転置畳み込み層（図６の２４）（逆畳み込み層とも呼ばれる）、ならびに出力（図６の２６）および最終畳み込み層（図６の２５）を平滑化するために使用される任意選択の層を含み得る。訓練および最適化は、例えば、アダム最適化アルゴリズムのようなミニバッチ勾配降下およびモーメンタムタイプ最適化を使用して進行する。図６は、畳み込み−逆畳み込みセットアップのいくつかの系列を示す（図６のＡ、Ｂ、Ｃ）。対応する逆畳み込み層（図６の２４）で終了する系列の各々は、任意選択で、それぞれの損失関数を使用して個別に訓練することができ、次いで、ネットワーク内の他の重み（例えば、図６の層（２６）および（２５）などの追加の畳み込み層から）は、逆畳み込みチャネルからの入力を入力チャネルとして使用して訓練され得る。

図７は、（例えば、図３、４、５および６に例示されるような）ニューラルネットワークの訓練後、ネットワークが染色体のセグメントを正倍数性または複数の異数性状態の１つであるように分類することができるように、訓練データおよびトゥルースデータを拡張するためのアルゴリズムを示す。図５に示すニューラルネットワークの場合、ネットワークは、拡張されたトゥルースおよび配列決定またはアレイデータセットを使用して、示される拡張データセットによってセグメント化または全体的な染色体異数性を有するとして胚の状態を検出するように訓練される。図６に示される神経ネットワークは、拡張された訓練セットに基づいて、種々の倍数体状態にある胚または胎児のゲノム内で、ＳＮＰまたはゲノム位置を検出および位置付けるように訓練される。配列決定またはアレイデータおよびトゥルースデータは、１個以上の合成ケースまたは例を使用して、図７に示されるように、訓練中に拡張される。合成例を生成するために、アルゴリズムは、訓練セットから２つの例を選択する（図７の２７）。これは、ランダムに行うことができ、例のうちの１つ（例えば、第２の例）は、訓練セットから選択されて、真のデータによって、染色体全体または局所的異数性を有することが保証されるようにする。例えば、システムは、第２の例が、全体的な染色体または局所的異数性を有すると判定することができ、その判定に基づいて第２の例を選択することができる。アルゴリズムは、第２の例の異数性領域（図７の２８）内で、ある程度最小長であり得るセグメントを（例えば、ランダムに）選択し、第１の例からの対応する配列決定またはアレイデータを、第２の例からのデータによって置き換えるプロセス（図７の２９）を行う。第１の例から第２の例からのデータによって置き換えられたデータは、第２の例から選択される異数性セグメントからのゲノム位置に対応してもよい。プロセス（図７の２９）は、訓練中にネットワークも変更されていない例を使用して訓練され得るように、システムを介して変更されていない第１の例を選択的に（例えば、ランダムに、または他の基準に基づいて）通過させてもよい。示される次のプロセス（図７の３０）では、アルゴリズムは、損失計算に提出されたトゥルースデータを修正して、挿入されたセグメントが修正された第１の例において異数性セグメントとしてカウントされるようにし、例が提出されるときに、図３および図４に関連して上述されたように、ネットワークの訓練段階中に、ニューラルネットワークに対して、合成および変更されていない例の混合物を含むより大きなバッチの一部としてプロセス（図７の３１）を行う。選択プロセス中（図７の２７）、例は、トゥルースセット内で見出されるか、そうでなければ２つの例について計算される配列決定またはアレイデータ統計が、設定範囲内で類似するように選択される。妊婦由来の血漿のケースでは、これには、類似の胎児画分統計を有する可能性のある合成配列決定またはアレイデータを生成するために選択される２つの例が含まれるであろう。訓練中、この手順は各エポックまたはサイクル中に再び繰り返される。

図８は、合成配列決定またはアレイデータ（例えば、対立遺伝子リード）を挿入し、これらは、例えば、そのような欠失が起き、既知の状態を引き起こすと知られている、染色体の種々の領域における小染色体欠失を表すことによって、訓練データおよびトゥルースデータを拡張するためのアルゴリズムを示す。この拡張データを使用して訓練されたネットワークは、欠失の存在に基づいてこれらの領域を分類することを学習する。異なるタイプのネットワーク、例えば、図４、５または６に示されるネットワークは、この拡張データを使用して訓練されることができ、分類アルゴリズムおよびより一般的な欠失位置アルゴリズムの両方をもたらす。アルゴリズムは、ゲノムの事前定義された領域における小染色体ホモログ欠失（例えば、微小欠失）を検出する能力を有するニューラルネットワークの訓練中に、以下の手順を使用することができると仮定する。第１のプロセスは、訓練セットから例を選択し（図８の３２）、選択された各例について、領域を選択する（図８の３３）ことである（例えば、既知の条件を表す事前定義された微小欠失領域のリストから）。微小欠失領域は、例えば、以下の遺伝子条件および疾患に関連する領域のうちの１つ以上を含むことができる。１ｐ３６欠失、１ｑ２１．１遠位微小欠失、２ｑ３７微小欠失：Ａｌｂｒｉｇｈｔ遺伝性骨形成異常様／短指症、３ｑ２９微小欠失、Ｗｏｌｆ−Ｈｉｒｓｃｈｈｏｒｎ症候群、ＣｒｉＤｕＣｈａｔ、５ｐ１５．２微小欠失、Ｗｉｌｌｉａｍ−Ｂｅｕｒｅｎ症候群、Ｌａｎｇｅｒ−Ｇｉｅｄｉｏｎ／ＴｒｉｃｈｏｒｈｉｎｏｐｈａｌａｎｇｅａｌＩＩ型、９ｑ３４微小欠失／Ｋｌｅｅｆｓｔｒａ症候群、１０ｐ１３−ｐ１４ＤｉＧｅｏｒｇｅ２、１１ｐ１３微小欠失：ＷＡＧＲ、１１ｑ２４．１微小欠失：Ｊａｃｏｂｓｅｎ症候群、Ａｎｇｅｌｍａｎ、Ａｎｇｅｌｍａｎ症候群２型、Ｐｒａｄｅｒ−Ｗｉｌｌｉ症候群２型、Ｐｒａｄｅｒ−Ｗｉｌｌｉ、１６ｐ１１．２微小欠失、１６ｐｔｅｒ−ｐ１３．３微小欠失：ＡＴ−ＩＤ、ＳｍｉｔｈＭａｇｅｎｉｓ、ＭｉｌｌｅｒＤｉｅｋｅｒ症候群、ＲＣＡＤ（１７ｑ１２ｄｅｌ）、１７ｑ２１．３１微小欠失、１８ｑ２１．２微小欠失：Ｐｉｔｔ−Ｈｏｐｐｋｉｎｓ症候群、ＤｉＧｅｏｒｇｅ、２２ｑ１１．２１微小欠失、２２ｑ１１．２微小欠失、ＰｈｅｌａｎＭｃＤｅｒｍｉｄ２２ｑ１３欠失、５ｑ２２欠失：ＩＤを有する家族性腺腫性ポリポーシス、５ｑ３５．２−３５．３微小欠失−Ｓｏｔｏｓ症候群、６ｐ２５．３（ｐ２４）微小欠失、８ｐ２３．１微小欠失ＣＤＨ２、１１ｐ１１．２微小欠失：Ｐｏｔｏｃｋｉ−Ｓｈａｆｆｅｒ症候群、１３ｑ１４．２欠失、ＩＤを有する網膜芽細胞腫、１３ｑ３２欠失−ＨＰＥ５、ＰＫＤ１／ＴＳＣ２連続欠失症候群、１７ｐ１３．３遠位微小欠失、１７ｐ１３．３遠位微小欠失、１７ｑ２１．３１微小欠失、同腕染色体、２１ｑ２２．３微小欠失：全前脳胞症１、ＰｅｌｉｚａｅｕｓＭｅｒｚｂａｃｈｅｒＸＬ。選択された領域は、設定された範囲内のサイズおよび位置で変更されてもよい。ホモログ生成プロセス（図８の３４）において、アルゴリズムは、事前定義された頻度で、選択された領域における微小欠失ケースを表す配列決定またはアレイデータのシミュレーションを生成し、任意選択で、選択されたゲノム位置からの既存のデータを、母親の血漿のケースにおける胎児画分および胎児ＤＮＡ分布などの統計を考慮して、シミュレーションされたデータで置き換える。挿入されたマイクロ欠失データは、そのような事前選択された状態の実際の既知のケースに由来してもよく、または本明細書の図９に関連して記載されるような第２のニューラルネットワーク、もしくは以下に記載される第２のニューラルネットワークによって生成されてもよい。トゥルースを生成または更新するプロセス（図８の３５）において、トゥルースデータは修正され、微小欠失またはパススルーケースを正確に表すためにニューラルネットワークに渡される。合成例を表す配列決定データを生成するプロセス（図８の３６）が実装されてもよく、合成例について生成された配列決定データが摂動され、ニューラルネットワークを介して伝播のために前方に渡され得る。

いくつかの実施形態は、第２のニューラルネットワークを実装し、ニューラルネットワークを訓練して、これらのセグメントの集団発生を表す個々のホモログセグメントを生成するために、敵対的生成ネットワーク（ＧＡＮ）を使用する方法を実装してもよい。ＧＡＮＳは、生成ネットワークおよび識別ネットワークを含んでもよい。生成ネットワークは、それぞれが単一セグメントのホモログを生成する２つの（例えば、同一の）ホモログ生成ネットワークを含んでよい。生成ネットワークの出力は、２つのホモログ生成ネットワークによって産生される２つのホモログを組み合わせることによって産生される非位相性セグメント遺伝子型である。識別ネットワークは、生成ネットワークによって産生される非位相性遺伝子型を、実際の非位相性遺伝子型データと区別する。ＧＡＮを訓練するために、識別ネットワークは、生成ネットワークによって産生された非位相性遺伝子型を実際の非位相性遺伝子型データと区別するように訓練され、生成ネットワークは、識別ネットワークを「騙す」ように訓練される（識別ネットワークが実際の非位相性遺伝子型データと区別することができない（または区別することが困難である）非位相性遺伝子型を産出する）。一度訓練されると、生成ネットワークを使用して、合成データを作成するために使用されるホモログについての統計を生成し、図８に関連して説明されるように訓練データの一部を拡張および置き換え、それによって、上述のニューラルネットワークが、胎児または胚に深刻な条件を引き起こす微小欠失を含む関連染色体異常を検出することを可能にすることができる。

図９は、これらのセグメントの集団発生を表す個々のホモログセグメント（図９の４１）を生成するように訓練され得る（例えば、第２のニューラルネットワークのための）概略的なニューラルネットワークアーキテクチャを示す。このネットワークは、オートエンコーダと呼ばれるディープニューラルネットワークのグループに関する。訓練のためのネットワークへの入力（図９の３７）は、集団配列決定またはアレイデータ（５）の一部として使用され、利用可能なゲノム位置のサブセットと互換性のある遺伝子型の非位相性セットであり、ランダムに、そうでなければ選択された位相遺伝子型である。ホモログのために生成された統計を使用して、図８に関連して説明されるように、訓練データの一部を拡張し、置き換え、それによって、前述のニューラルネットワークが、胎児または胚に深刻な状態を引き起こす微小欠失を含む関連染色体異常を検出することを可能にする。複数のタイプのネットワークを使用して、エンコーダ（図９の３８）およびデコーダ（図９の４０および４２）を表すことができる。これらには、エンコードするためのプーリングおよび活性化機能を有する畳み込み層、またはエンコードするためのドロップアウトおよび活性化機能を有する完全に接続された層、ならびデコードする層のためのトランスポーズ畳み込みおよび畳み込み、またはデコーダのためのドロップアウトおよび活性化を有する完全に接続された層を含む。オートエンコーダを作成するための種々の技術が実装されてもよく、いくつかは図６に関連して説明される。

いくつかの実施形態の説明は以下のようである。本説明は、例としてのみ提供され、本明細書に記載の方法およびシステムと一致する他の実施形態は、本開示に包含される。

図５に示されるネットワークを、少数の細胞のゲノムサンプルからのアレイデータに適用するいくつかの実施形態を以下に記載する。図５のネットワークは、ＩＶＦサイクル中に行われる胚生検（例えば、５日間の胚生検）からの、約８０，０００個を超えるアレイデータのサンプル、胚の親からの血液サンプル、ならびに生成されラベル付けされたアルゴリズムおよびハンドレビューされたトゥルースの訓練サブセットを使用して訓練される。各例について、入力は、３つのチャネルを含み、１つは胚対立遺伝子比について、１つは母親の対立遺伝子比について、３つ目は父親の対立遺伝子比についてであり、全ての染色体にまたがる３つのサンプルのそれぞれについて約３０万個のゲノム位置でＣｙｔｏ１２ｂアレイを使用して全て遺伝子型決定される。対立遺伝子比は、各アレイＳＮＰ位置におけるｘ／（ｘ＋ｙ）比であり、ここで、ｘおよびｙは、アレイ遺伝子型決定プロセスによって生成される２アレイチャネル強度である。ハンドラベル付けされた胚全染色体状態トゥルースは、胚染色体ごとに利用可能であり、胚を正倍数性としてか、または異数性状態にあるかとして分類するために使用される。入力層に続いて、いくつかの実施形態は、シリーズＡおよびＢとして、図５に示されるように、２つの異なる経路またはシリーズに続く約１０の畳み込み層を使用する。畳み込み層の各々には、活性化「ｅｌｕ」機能および最大プール層が続く。畳み込み層および最大プール層の第１のセットは、チャネルの数をそれぞれ３から１６に拡大し、それぞれ５１２および１個の連続する位置の領域を走査してから、１６のシフトを有する最大プールが続く活性化関数の出力に対して２５６個の連続する位置の最大走査を実行することによって開始する。次いで、この構造は、各シリーズＡおよびＢごとに約４回繰り返され、各回で異なる走査および最大プールサイズが各プロセスにおける出力チャネルの数を倍増させる。いくつかの実施形態についての走査サイズは、図５のシリーズＡおよびＢの各々について３２、１６、８、８のパターン、ならびに各シリーズの第１の層の後のシリーズ内の各層の最大プールについて１６、８、４、４のパターンに従う。畳み込み層のシリーズの各々に続いて、完全に接続された層が１０２４、続いて２５６個のノードと共に追加され、次いで、いくつかの実施形態は、完全に接続された層を連結し、サイズ１２８のさらに２つの追加の層、およびトゥルースセットで求められ利用可能な倍数性状態の数に等しい２またはいくつかの数を追加する。最終層内の２つのノードは、２つのクラス「正倍数性」および「異数性」を単純に表す。いくつかの実施形態は、最終層を除く完全に接続された層のそれぞれについて約２５％〜約７５％のドロップアウト率を実装し、最後の層を除く完全に接続された層のそれぞれについては、ｅｌｕ活性化機能が続く。図３および図４に示される関連する入力パイプラインは、入力データに摂動を適用し、例えば、ＳＮＰ当たりのアレイリードをランダムに並べ替えることと、常染色体リードについての母親および父親のサンプルの役割をランダムに切り替えることと、アレイリードを、平均が１に近い分布および比較的小さい標準偏差から描画されるスカラーとランダムに乗算することによって摂動することと、を含む。ニューラルネットワークの訓練は進行し、検証サンプルセットによって満たされたときに、指定された基準に基づいてシリアライズされる。いくつかの実施形態において、Ａｄａｍと呼ばれる運動量で確率的勾配降下のようなアルゴリズムを使用し、学習速度を約０．０００１に設定し、３２のバッチサイズを使用する。

サブ染色体異数性を検出するためのいくつかの実施形態は、図７に示されるアルゴリズムまたは図８に示されるアルゴリズムを図５の入力パイプラインに適用することによって、異数性のサブ染色体セグメント、例えば欠失セグメント、重複および／または三染色体セグメントを検出するために、図５に示され、上述されるネットワークを適合させる。このプロセスは、トゥルースラベル付けによって、全染色体異数性を含有することが知られている他の例からのそのような異数性の１つ以上のサンプルをトゥルースデータ（図２、図３、図４、図７の７）内に位置付けることを含むことができる。選択は、所定の頻度で訓練中にランダムに例に対して行うことができる。例えば、選択は、５０％以上、または３３％以上の頻度で行うことができる。いくつかの実施形態において、頻度は、２５％〜６６％である。次いで、いくつかの最小長のアレイセグメント（例えば、少なくとも１００個のＳＮＰ）を、ランダムな場所から開始する１つ以上のランダムに選択された異数性染色体データ（ｘおよびｙ強度リード、または対立遺伝子比）からコピーされ、図７（プロセス２９）に示されるように、訓練のために処理される例に挿入される。選択されたランダムな例の父アレイデータおよび母アレイデータからの対応するセグメントも、それぞれ、訓練実施例のために父アレイデータおよび母アレイデータに挿入される。訓練実施例に使用されるラベルは、訓練中に修正され（例えば、一時的に）、図７に概説される記述的ワークフローによって示されるように、修正された例の変更されたトゥルース状態、または図８に示される微小欠失を検出するための類似のワークフローを表す。訓練が成功した後に得られるニューラルネットワークは、前方伝播を使用して新しいデータがネットワークを通過するときに、サブ染色体異数性セグメントを容易に検出して、ネットワークを分類のために利用することができるであろう。

いくつかの実施形態において、妊婦からの血漿および領域からのおよそ１３，０００個のＳＮＰのより小さい標的セット（ゲノム位置）を配列決定するときに、標的次世代配列決定から取得される配列決定データは、例えば、染色体１３、１８、２１、および染色体Ｘを含み、図５に示されるネットワークのいくつかの実施形態は、畳み込みカーネルサイズに関して類似したスケールダウン構造を使用し、これにより、初期畳み込みネットワークは、１２８個のゲノム位置、４つの入力チャネル、１６の出力チャネル、１６位置の最大シフトを有する６４の位置にわたる最大プールを採用する。これに続いて、いくつかの実施形態は、完全に接続された層に切り替える前またはフローする前に、畳み込み、活性化、および最大プールの追加の層（例えば、約５個の追加の層）を採用する。いくつかの実施形態は、完全に接続された層において高いドロップアウト率（例えば、約６５％以上、または約７５％以上、または約８５％以上、またはそれ以上）を採用することができ、オーバーフィットを回避するために線形ボトルネック層を実装することができる。訓練セット内の異数性ラベル率は、例えば、１〜２パーセントで低くてもよいため、ノイズの追加、リードの摂動、参照および変異リードの役割の切り替えを含む、アレイデータに関連して上述された技術に加えて、いくつかの実施形態は、所与の例において、訓練データの一部を、異数性を有する異なる例の染色体および類似の血漿胎児画分からのデータで置き換えおよび並べ替えた後に、トゥルースデータによって決定されるように、例を再ラベル付けすることを含み、図７または図８に示されるプロセスに従うことを含む。いくつかの実施形態において、染色体全体の異数性呼び出しのいくつかの実施態様において、図７のプロセス２９におけるＳＮＰの最小数が使用される（例えば、所与の染色体上の位置の数、および所与の染色体上の利用可能なＳＮＰの数に等しい最大長に基づく、および／またはそれに近い数（例えば、＋／−５％））。いくつかの実施形態は、訓練バッチにおけるそれらの頻度を増加させることに加えて、異数性例について、約０．０００１の目標学習速度、ならびに学習速度スケジュール、約１２８のミニバッチサイズ、および約０．２５の減少した重みを実装する。

いくつかのナチュラルネットワークトポロジー実施形態では、本明細書では、妊婦からの血漿を分類するときに使用されるものは、リードのためのバイアスモデルと呼ばれる、染色体１３、１８、２１、およびＸからのおよそ１３，０００のゲノム位置からの参照および変異血漿リードから開始することを含む。実施形態は、追加の染色体またはより少ない染色体からのリードを含んでもよい。参照および変異読み取りは、ネットワークへの入力として処理または集約された次世代配列決定リード（「ｒｅｆ」および「ｍｕｔ」リード）から２つの初期チャネルまたは特徴として開始し、次いで、畳み込み層のシリーズを構築して、チャネルまたは特徴の数を増加させるが、走査長を１つのゲノム位置、２〜１２８チャネル、１２８〜６４チャネル、６４〜３２チャネル、３２〜１６チャネル、８〜４チャネル、４〜２チャネルに維持し、各層は、訓練可能な重みのカーネルおよび特徴ごとに１つの訓練可能なバイアス変数、ならびに各層間のｅｌｕ活性化関数を有する。次いで、ネットワークは、活性化機能が続く２〜１チャネルの畳み込み層を継続して採用するが、この場合、１つのチャネルバイアス変数に加えて、このレベルでのネットワークの出力に対応する各ゲノム位置は、出力されたゲノム位置ごとに別個の訓練可能な変数を取得し、時には結合解除バイアスと呼ばれる。モデルが、縛られたバイアスおよび縛られていないバイアスのこの特定のモデルを採用した後、出力データは、チャネルまたは特徴の数を１から１２８に、１２８から６４に、６４から３２に、３２から１６に、および１６から８に変更して、一連の畳み込みおよび活性化関数を通して再び取得され、各回は、チャネルごとの特徴バイアスを含み、ｅｌｕ活性化関数および１の走査サイズが続く。次いで、各ネットワーク層のサイズは、縛られた特徴バイアスのみを採用する、各々活性化関数および最大プール層が続くさらに６つの畳み込み層を追加することによって修正される。これらの６つの層の走査サイズは、６つの層のうちの最初の層について１２８であるため、各層は、サイズ４の走査カーネルを有し、チャネルの数は、各層によって倍増され、最大走査は、６４に設定され、最初の２つの層については８に設定され、最大プールまたはシフトは、それぞれの６つの最終畳み込み最大プール層について１６、８、４、４、２および２に設定される。これら全ての畳み込み層に続いて、ドロップアウトを有する２つの完全に接続された層およびｅｌｕ活性化が使用され、第１のものは１０２４のノードを有し、第２のものは２５６のノードを有し、９０％を超える高いドロップアウト率が使用されるが、これは、入力データの処理と、正のケースが挿入（図７を参照）によって、または反復および／または重みによって訓練セット内のそれらの頻度を人工的に増加させることによってのいずれかによって、何回繰り返されるかに依存する。最後に、図５に関連して記載されたように分類結果を得るために、２つの出力を有するリニアロジット層が添付される。次いで、訓練プロセスは、本明細書に記載されるように進行してもよい。

標的次世代配列決定血漿配列決定を使用するときのサブ染色体異数性呼び出しについて、いくつかの実施形態は、図７のプロセス２８および２９のための少数の最小数のＳＮＰを使用して、図７に示されるアルゴリズムを実装する。いくつかの実施形態は、アルゴリズム内のプロセス３４について図９のデコーダネットワーク４０および４２を使用して生成された混合合成集団データを使用して、特定の微小欠失について図８に示されるアルゴリズムを採用する。マージセグメントは、図７のプロセス２９において、例えば、確率的プロセス（例えば、ランダムな開始位置）を使用して選択された開始位置を有する連続セグメント、および図７にさらに記載されるように、手元の訓練例および所与の異数性サンプルを含有する例の両方について同様の胎児画分を有する血漿データに由来する染色体全体異数性からの長さとして選択される。

ＳＮＰレベル分解能までの種々の染色体内の異数性のサブ染色体セグメントを位置付けるために、いくつかの実施形態は、図６に示されるセグメンテーションネットワークを使用する。いくつかの実施形態は、図６においてＡ、Ｂ、Ｃとして示される、および図６に関連して上述されるような３つの異なる経路またはシリーズを含む。アレイデータに関して、いくつかの実施形態は、データを圧縮するために、畳み込み層、続いてＲｅＬｕ活性化関数および最大プールを使用する。いくつかの実施形態において、層Ａ、ＢおよびＣは、３つの入力チャネル（各ゲノム位置についての胚、母親および父親の対立遺伝子比）、５１２個の連続位置の走査サイズおよび３２個の出力チャネル、続いて、活性化関数ならびに２５６個の連続ゲノム位置の最大走査および３２の最大プールステップサイズを有する１つの畳み込み層から始まり、その後に、さらに２つの畳み込み層を加え、各々が活性化関数を含み、チャネルを３２から６４、次いで１２８まで増加させ、それぞれが８の走査を有する。いくつかの実施形態は、経路Ａについて、２５６の出力走査、３２のストライド、および２つの出力層を有する転置畳み込み層（図６の２４）を採用する。経路Ｂに続いて、いくつかの実施形態は、３２の走査長を有し、出力チャネルを倍増させる、少なくとも１つの追加の畳み込み層、続いて、活性化関数、および１６の最大走査および４のステップサイズ４を有する最大プール層を含む。パスＣは、図６のレイアウトによって示されるように、１６の走査長を有し、再び出力チャネルを倍増させるさらに別の畳み込み層、続いて、活性化関数、および８の最大走査および４のステップサイズを有する最大プール層を採用する。経路ＡおよびＢに関して、いくつかの実施形態は、経路Ｃについて最後の最大プール層に続くが、調整されたチャネル入力および出力数を有し、かつ以前と同様に、各プロセスにおけるチャネル数に関して２の比率を有する同様の畳み込み層を採用する。経路Ｂに続く転置畳み込み層（図６の２４）は、１２８のストライド長、２５６の出力走査を有し、チャネルの数を２に減らす。経路Ｃに続く転置畳み込み層（図６の２４）は、５１２のストライド長、２５６の出力走査を有し、チャネルの数を再び２に減らす。

次いで、３つの転置畳み込み層からそれぞれ２個の６つの出力チャネルを６つのチャネルに組み合わせ、それぞれがＲｅＬｕ活性化関数に続くさらに２つの畳み込み層を通過させる。いくつかの実施形態において、最終層は、２つの最終出力チャネルを有し、これは、訓練後、トゥルース状態のそれぞれのセグメントに属するゲノム位置の信頼性尤度（例えば、ソフトマックス信頼性尤度）を提供することによって、見えない例または注釈のない例と共に供給され、前方伝播を使用し、上記図６に関連してさらに説明されるようなもののときに、各ゲノム位置（ＳＮＰ）の正倍数性クラスと異数性クラスを区別するように構成される。

次世代配列決定データについて、いくつかの実施形態は、母親の血漿由来の対立遺伝子比、ゲノム位置当たりの正規化およびスケール化された総リード数、ならびに対立遺伝子比の１つ以上の並べ替えされたセットなどの量を表す入力チャネルを実装する。セグメンテーションネットワーク（例えば、図６に示されるように）は、データのサイズ（ＳＮＰの数）に一致するようにスケールされる。両方の場合において、アレイデータおよび配列決定データは、上記図３、４、および５に関連して説明されるように、摂動を経る。サブ染色体異数性を検出するためにネットワークを訓練するために、図７および／または図８に示されるアルゴリズムは、入力パイプラインに含まれ得、アレイデータを参照して上述された方法と同様の方法でサブ染色体異数性を位置決めするように構成されたシステムをもたらす。いくつかの実施形態は、サブ染色体異数性を検出するためにネットワークを訓練するときに、プロセス２８において小さな最小セグメント長を使用する。

いくつかの実施形態は、図９に示される訓練されたニューラルネットワークを使用して、図８に示される訓練アルゴリズムのプロセス３４で使用される配列決定またはアレイデータを生成するために使用される、図９のサブネットワーク４０および４２として示される復号サブネットワークを作成する。図９に示されるネットワークのいくつかの実施形態は、ゲノムの特定のゲノム領域に焦点を当てたおよそ１０００個のＳＮＰに対応する、図９の３７の入力層を使用する。各場所で初期畳み込み層、活性化層および最大プール層に入力されるクラスは、サイズ４のベクターとして示され、以下に説明される４つのチャネルとして表される遺伝子型である。ランダム（そうでなければ）選択された位相ヘテロ接合性遺伝子型を使用して、２つの親デコーダサブネットワーク（図９の４０または図９の４２）のうちのどちらが各例についてどのホモログを出力すべきかを判定することができる。このネットワークは、入力されたものと同じゲノム配列を出力するように訓練されている（図９の４３）ため、トゥルースは知られており、１２８の例のミニバッチでこのネットワークを訓練するとき、出力されたソフトマックス確率上のクロスエントロピー関数として損失関数が容易に計算される。第１の入力畳み込み層に続いて、チャネルの数は、後続の畳み込み層においてゆっくりと増加し、畳み込み層の各々には、活性化および最大プール層が続き、構造３８および３９として図９に示されるように、複数の符号化または圧縮層をもたらす。いくつかの実施形態は、最終復号層３９内の入力変数の数が、第１の層によって提供される集約および最大プールによって、大幅に減少することを確実にし、入力変数の数は、図９の３７として示される最初の層で使用される。最後のデコーダ層に続いて、図９の３９、転置畳み込み層の図９の２つのシリーズ４０および４２は、いくつかの実施形態において、入力（３７）されるゲノム位置の数とほぼ等しい長さを有するが、３７として示される入力に採用される４つのチャネルの代わりに、それぞれが２つのチャネルを有する親１（第１の親）および親２（第２の親）ホモログを構築するために用いられる。図９の最終出力４３を生成するために、以下に説明する式が、図９の層４０および４２の出力に適用される。以下のプロセスは、図９の入力層３７と、復号ネットワーク４０および４２の２つのサブネットワーク４１および４４の出力、ならびに最終出力４３との間の遺伝子型を接続するために使用することができる。いくつかの実施形態について、ネットワーク構造は、既に説明されているように、２つの染色体ホモログがネットワーク構造内に内部で表されるようなものであり、ネットワークは、訓練後に生成されたホモログを個別に選択的に出力するように細分化されてもよい。ゲノム位置ごとに入力される５つのゲノム遺伝子型は、各例についての各入力位置の集団データに見出される順序のない（非位相性）ＲＲ、ＲＭ、ＭＭ、および位相性Ｒ_１Ｍ_２、Ｒ_２Ｍ_１シンボルである。最後の２つの位相性遺伝子型クラスＲ_１Ｍ_２、Ｒ_２Ｍ_１は、それぞれ、親１（図９の４０）からのＲ（参照、遺伝子型、対立遺伝子、または所与の位置でのＳＮＰ）、親２（図９のネットワーク４４）からのＭ（変異、遺伝子型、対立遺伝子、または所与の位置でのＳＮＰ）、およびその逆を表す。したがって、位相性集団配列決定またはアレイデータは、位相性ヘテロ接合遺伝子型を使用して、訓練中に非位相性データと混合されてもよい。位相性遺伝子型および非位相性遺伝子型の混合に対応するために、ネットワークは、ゲノム位置当たり４チャネルの入力層から開始することができ、各位置は、ＲＲ＝（１，０，０，０）、ＭＭ＝（０，１，０，０）、ＲＭ＝（０，０，０．５，０．５）、Ｒ_１Ｍ_２＝（０，０，１，０）、およびＲ_２Ｍ_１＝（０，０，０，１）としての遺伝子型に応じた属性を有する。明らかに、チャネルの並べ替えを含む他の表現が可能である。デコーダ層のそれぞれの出力（図９の４１および４４）は、ゲノムホモログ位置について、ｘ＞ｙがＲを表し、ｘ＜ｙがＭを表すゲノム位置当たりの尤度ベクトル（ｘ、ｙ）である。最終出力（図９の４３）は、単純に、親１（４１）（ｘ１、ｙ１）についてのデコーダ層からの出力、および親２（４４）（ｘ２、ｙ２）についての出力を、ネットワークの出力（４３）に含まれる各ゲノム位置についての出力チャネル値を表す遺伝子型尤度値（ｘ１＊ｘ２、ｙ１＊ｙ２、ｘ１＊ｙ２、ｘ２＊ｙ１）にマッピングするデコーダ層からの出力の関数である。この操作は、ソフトマックス公式の前または後に適用されてもよく、アプローチに応じて、式がそれに応じて修正される。図９は、図上でゲノム位置６のための式を示すことによってこのマッピングを例示する（図９の４１、４４および４３）。

図９に示されるネットワークが、上述のように、手元の微小欠失ゲノム領域の集団アレイまたは配列決定データを使用して訓練された後、個々のホモログ層４０および４２を定義する重みおよび前方伝播は、親から子に渡されるホモログを集団一貫した方法で合成するためのジェネレータの少なくとも一部を構成する。次いで、中間層（図９の４５）から出力される可能な数値の各セットについて生成されたホモログを使用して、エンコーダ４０または４２のうちの１つを無視することによって、または別の染色体異常を無視することによって、欠失から取得された対立遺伝子比または読み取り値をシミュレートすることができる。中間層（図９の４５）からの出力を表すために選択された値範囲は、現実的なホモログを生成するために、（図９の３７）から始まるより大きなネットワークを介して検証または試験データを動作させるときに、図９の層３９の出力を通過する値に近い値の範囲に基づいて、選択されてもよい。

（例えば、上述のように）ＧＡＮを実装するいくつかの実施形態では、ＧＡＮが手元の微小欠失ゲノム領域の集団アレイまたは配列決定データを使用して訓練された後、ＧＡＮの生成ネットワークによって生成されたホモログを使用して、単一のホモログのみまたは別の染色体異常を使用して非位相性遺伝子型を作成することによって、欠失から取得された対立遺伝子比またはリードをシミュレートすることができる。ホモログを合成データとして使用することができ、図８に関連して説明されるように、訓練データの一部を拡張および置き換えることができ、それによって、上述のニューラルネットワークが、胎児または胚に深刻な状態を引き起こす微小欠失を含む関連染色体異常を検出することを可能にする。

ここで図１０を参照すると、図１０は、倍数性呼び出しシステム１０００の一実施形態を示すブロック図である。倍数性呼び出しシステム１０００は、１つ以上のプロセッサ１００２、およびメモリ１００４を含むことができる。１つ以上のプロセッサ１００２は、１つ以上のマイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など、またはそれらの組み合わせを含んでもよい。メモリ１００４は、限定されないが、電子、磁気、またはプロセッサにプログラム命令を提供することができる任意の他の記憶装置または送信デバイスを含んでもよい。メモリは、磁気ディスク、メモリチップ、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、電気的に消去可能なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、またはプロセッサが命令を読み取ることができる任意の他の適切なメモリを含んでもよい。メモリ１００４は、本明細書に記載される任意のプロセスを含む、エラー分析プロセスを実装するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の１つ以上のセットを含んでもよい。例えば、メモリ１００４は、訓練データ１００６、アノテータ１００８、ニューラルネットワーク１０１２、トゥルースデータ１０１０、およびネットワークアップデータ１０１６を含んでもよい。

訓練データ１００６は、ゲノムまたは血漿サンプルについての遺伝子型決定または配列決定データを含んでもよい。訓練データ１００６は、例えば、次世代配列決定（ＮＧＳ）を使用して、Ｃｙｔｏ１２ｂアレイまたは標的一塩基多型（ＳＮＰ）プールを使用して生成されてもよい。Ｃｙｔｏ１２ｂアレイは、例えば、全ての染色体にわたって約３０万個（ここでは約３００ｋと書く）のＳＮＰ標的を有し得、種々のＮＧＳプールは、例えば、数百個のゲノム位置から数万または数十万個のＳＮＰの範囲のより小さな標的ＳＮＰセットを有し得る。訓練データ１００６を生成するために使用されるサンプルは、例えば、胚由来の１つ以上の細胞、および胚の親由来の任意選択のゲノムサンプルを含んでもよい。いくつかの実施形態において、サンプルは、妊婦からの血漿サンプルを含んでもよい（例えば、胎児に関して、非侵襲的な液体生検によって取得される）。訓練データ１００６は、分析されたサンプルの各々についての数値アレイデータを含んでもよく、これは、サンプル当たりの正の数の２つ以上の数値アレイを含み得、各数値アレイ長は、配列決定標的プールまたはアレイおよび数値アレイ内の個々のエントリによって特定されるゲノム位置の数と等しい。

アノテータ１００８は、訓練データを使用してトゥルースデータを生成するための、構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の１つ以上のセットを含んでもよい。アノテータ１００８は、経験的および第１原理アルゴリズムを訓練データに適用して、訓練データに注釈を付け（例えば、訓練データを分類するために）、トゥルースデータ１０１０を生成してもよい。トゥルースデータ１０１０は、参照データとして使用され得、例えば、分析されたサンプルの正確な分類を示すと仮定されてもよい。トゥルースデータ１０１０は、胚または胎児から特定された各染色体が正倍数性状態にあるか、またはいくつかの倍数性状態のうちの１つにあるとされる分類および尤度を含んでもよい。いくつかの実施形態において、アノテータ１００８は、マニュアルアノテーションと併せて使用されて、トゥルースデータ１０１０を生成する。いくつかの実施形態において、アノテータ１００８は省略されてもよく、トゥルースデータ１０１０は、いくつかの他の方法で（例えば、マニュアルアノテーションを介して）生成または供給される。

ニューラルネットワーク１０１２は、遺伝子配列決定データまたは（前処理され得る）遺伝子アレイデータをニューラルネットワーク１０１２を介して伝播させることによって、試験サンプルについて、または訓練中に、標的遺伝子領域の倍数性状態（例えば、正倍数性もしくは異数性の指定、または１つ以上の特定の異数性の指定）を判定するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の１つ以上のセットを含んでもよい。ニューラルネットワーク１０１２は、倍数性状態を示す分類情報を出力してもよい。ニューラルネットワーク１０１２は、１つ以上の層を含んでもよい。例えば、ニューラルネットワーク１０１２は、複数の畳み込み層、活性化層およびプーリング層を含んでもよい（例えば、入力ベクトルのサイズを小さくし、関連する特徴を追加チャネルの形態で抽出する）。ニューラルネットワーク１０１２は、１つ以上のシリーズを含んでもよい。シリーズは、まとめて鎖状とされるか、またはリンクされてもよい。シリーズは、ドロップアウトおよび任意選択で埋め込まれた他の規則化技術を用いて、完全に接続された層の１つ以上のシリーズに延在してもよい。完全に接続された層は、ノード間に数百万の重み１０１４をもたらす数百または数千のノードを有してもよい。完全に接続された層は、最終層につながるように一緒に連結されてもよい。ニューラルネットワーク１０１２は、サイズＮ×ｋの最終ロジット層を含んでよく、ここで、ｋは、所望の分類におけるクラスの数である（例えば、ｋ＝２は、正倍数性状態および異数性状態の２つのクラスを表す）。ニューラルネットワーク１０１２の最終出力は、いくつかの実施形態において、そのような量がトゥルースセットで利用可能であるときに、母親の血漿中の胎児画分などの統計量を示すことを意図した単一の変数であり得る。ニューラルネットワーク１０１２は、「ｅｌｕ」活性化機能または「ＲｅＬｕ」活性化機能を実装してもよい。ニューラルネットワーク１０１２は、特徴、構造のいずれかを含んでもよく、または本明細書に記載される利点のいずれかを提供して、倍数性状態情報を出力、および／もしくは倍数性状態を呼び出してもよい。

ネットワークアップデータ１０１６は、ニューラルネットワーク１０１２を更新、最適化、または修正するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の１つ以上のセットを含んでもよい。例えば、ネットワークアップデータ１０１６は、バッチャー１０１８、ケースシンセサイザ１０２０、損失計算器１０２２、および重みオプティマイザ１０２４を含んでもよい。ネットワークアップデータ１０１６は、ニューラルネットワーク１０１２の重み１０１４を修正して、ニューラルネットワーク１０１２を最適化するように構成されてもよい。例えば、ネットワークアップデータ１０１６は、ニューラルネットワーク１０１２を介して訓練データ１００６のバッチをフィードしてもよく（各バッチは、１つ以上の例、またはケースを含む）、そのようなプロセスの出力に基づいて、ニューラルネットワーク１０１２を最適化してもよい。

バッチャー１０１８は、ューラルネットワーク１０１２を通過する、または伝播する訓練データ１００６のバッチを決定するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の１つ以上のセットを含んでよい。バッチは、所定の数のケースまたは訓練データの例を含んでもよく、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置について対立遺伝子頻度を示すデータを含む。バッチに含まれるケースは、ランダムに判定されてもよい。

バッチャー１０１８は、合成ケースを生成するように構成されたケースシンセサイザ１０２０を含んでよい。例えば、バッチャー１０１８は、訓練データ１００６から２つのケースを選択する。これはランダムに行うことができ、ケースのうちの１つ（例えば、第２のケース）は、訓練データ１００６から選択されて、トゥルースデータ１０１０によって、染色体全体または局所的異数性を有することが保証されるようにする。例えば、ケースシンセサイザ１０２０は、第２のケースが染色体全体または局所的異数性を有すると判定することができ、その判定に基づいて第２のケースを選択することができる。ケースシンセサイザ１０２０は、第２のケースの異数性領域内で、ある程度最小長であり得るセグメントを（例えば、ランダムに）選択し、第１のケースからの対応する配列決定またはアレイデータを、第２のケースからのデータによって置き換える。第１のケースから第２のケースからのデータによって置き換えられたデータは、第２のケースから選択される異数性セグメントからのゲノム位置に対応してもよい。ケースシンセサイザ１０２０は、訓練中にネットワークも変更されていない例を使用して訓練され得るように、システムを介して変更されていない第１のケースを選択的に（例えば、ランダムに、または他の基準に基づいて）通過させてもよい。ケースシンセサイザ１０２０は、ネットワークの訓練段階中に、合成および変更されていない例の混合物を含むより大きなバッチの一部としてケースがニューラルネットワークに提出されるときに、挿入されたセグメントが修正された第１のケースにおいて異数性セグメントとしてカウントされるように、トゥルースデータ１０１０を修正してもよい。選択プロセス中、バッチャー１０１８は、トゥルースセット内で見出されるか、そうでなければ２つの例について計算される配列決定またはアレイデータ統計が、設定範囲内で類似するようにケースを選択する。妊婦由来の血漿のケースでは、これには、類似の胎児画分統計を有する可能性がある合成配列決定またはアレイデータを生成するために選択される２つのケースが含まれ得る。訓練中、この手順は各エポックまたはサイクル中に再び繰り返される。

損失計算器１０２２は、損失関数または損失式を使用して、トゥルースデータ１０１０に基づいて、かつニューラルネットワーク１０１２の出力に基づいて、１つ以上の損失値を決定するように構成されてもよい。例えば、損失式は、クロスエントロピー式を含む。損失計算器１０２２は、全体としてバッチについての損失を計算してもよく、例えば、バッチに含まれるケースごとの個々の損失の平均または合計として計算してもよい。

重みオプティマイザ１０２４は、例えば、損失計算器１０２２によって決定される損失値に基づいて、重み１０１４を最適化するか、そうでなければニューラルネットワーク１０１２を修正するように構成される。重みオプティマイザ１０２４は、例えば、確率的勾配降下最適化の修正された形態、または別の適切な最適化プロセスを使用して、重み１０１４を修正することができる。いくつかの実施形態において、重みオプティマイザ１０２４は、運動量を有する確率的勾配降下様アルゴリズム（例えば、本明細書に記載されるアダムアルゴリズム）を使用し、学習レートを約０．０００１に設定する。いくつかの実施形態において、重みオプティマイザ１０２４は、ミニバッチ勾配降下および運動量タイプ最適化を使用する。

ここで図１１を参照すると、図１１は、標的遺伝子領域の倍数性状態を呼び出す一例の方法を示すフローチャートである。本方法は、プロセス１１０２〜１１１０を含む。簡単に要約すると、プロセス１１０２において、倍数性呼び出しシステム１０００は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定する。プロセス１１０４において、倍数性呼び出しシステム１０００は、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定する。プロセス１１０６において、倍数性呼び出しシステム１０００は、それぞれの複製状態値を呼び出すためのニューラルネットワークを決定し、ニューラルネットワークは少なくとも部分的に複数の重みによって定義される。プロセス１１０８において、倍数性呼び出しシステム１０００は、終了条件が満たされるまで、ニューラルネットワークを反復的に修正する。プロセス１１１０において、倍数性呼び出しシステム１０００は、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出す。

より詳細には、プロセス１１０２において、倍数性呼び出しシステム１０００は、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定する。遺伝子配列決定データまたは遺伝子アレイデータは、次世代配列決定（ＮＧＳ）を使用して、Ｃｙｔｏ１２ｂアレイまたは標的一塩基多型（ＳＮＰ）プールを含んでもよい。遺伝子配列決定データは、１つ以上の標的のいくつかのリードまたはリードカウントを含んでもよい。Ｃｙｔｏ１２ｂアレイは、例えば、全ての染色体にわたって約３０万個（ここでは約３００ｋと書く）のＳＮＰ標的を有し得、種々のＮＧＳプールは、例えば、数百個のゲノム位置から数万または数十万個のＳＮＰの範囲のより小さな標的ＳＮＰセットを有し得る。訓練データ１００６を生成するために使用されるサンプルは、例えば、胚由来の１つ以上の細胞、および胚の親由来の任意選択のゲノムサンプルを含んでもよい。いくつかの実施形態において、サンプルは、妊婦からの血漿サンプルを含んでもよい（例えば、胎児に関して、非侵襲的な液体生検によって取得される）。

プロセス１１０４において、倍数性呼び出しシステム１０００は、アノテータ１００８を使用して、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定し、アノテータ１００８は、訓練データに経験的および第１原理アルゴリズムを適用して、訓練データに注釈を付け（例えば、訓練データを分類）、トゥルースデータ１０１０を生成してもよい。トゥルースデータ１０１０は、参照データとして使用され得、例えば、分析されたサンプルの正確な分類を示すと仮定されてもよい。トゥルースデータ１０１０は、胚または胎児から特定された各染色体が正倍数性状態にあるか、またはいくつかの異数体状態の１つにあるとされる分類および尤度を含んでもよい。いくつかの実施形態において、アノテータ１００８は、マニュアルアノテーションと併せて使用されて、トゥルースデータ１０１０を生成する。いくつかの実施形態において、アノテータ１００８は省略されてもよく、トゥルースデータ１０１０は、例えば、手動アノテーションを介して、または外部データベースを参照することによって、いくつかの他の方法で決定されてもよい。

プロセス１１０６において、倍数性呼び出しシステム１０００は、それぞれの複製状態値を呼び出すためにニューラルネットワーク（例えば、ニューラルネットワーク１０１２）を判定し、ニューラルネットワークは少なくとも部分的に複数の重みによって定義される。ニューラルネットワーク１０１２は、倍数性状態を示す分類情報を出力してもよい。ニューラルネットワーク１０１２は、１つ以上の層を含んでもよい。例えば、ニューラルネットワーク１０１２は、複数の畳み込み層、活性化層およびプーリング層を含んでもよい（例えば、入力ベクトルのサイズを小さくし、関連する特徴を追加チャネルの形態で抽出する）。ニューラルネットワーク１０１２は、１つ以上のシリーズを含んでもよい。ニューラルネットワーク１０１２は、サイズＮ×ｋの最終ロジット層を含んでよく、ここで、ｋは、所望の分類におけるクラスの数である（例えば、ｋ＝２は、正倍数性状態および異数性状態の２つのクラスを表す）。ニューラルネットワーク１０１２の最終出力は、いくつかの実施形態において、そのような量がトゥルースセットで利用可能であるときに、母親の血漿中の胎児画分などの統計量を示すことを意図した単一の変数であり得る。ニューラルネットワーク１０１２は、「ｅｌｕ」活性化機能または「ＲｅＬｕ」活性化機能を実装してもよい。

プロセス１１０８において、倍数性呼び出しシステム１０００は、終了条件が満たされるまでニューラルネットワークを反復的に修正する（例えば、ネットワークアップデータ１０１６を使用して）。ネットワークアップデータ１０１６は、ニューラルネットワーク１０１２の重み１０１４を修正して、ニューラルネットワーク１０１２を最適化するように構成されてもよい。例えば、ネットワークアップデータ１０１６は、ニューラルネットワーク１０１２を介して訓練データ１００６のバッチをフィードしてもよく（各バッチは、１つ以上の例、またはケースを含む）、そのようなプロセスの出力に基づいて、ニューラルネットワーク１０１２を最適化してもよい（例えば、損失関数を最小化することによって）。ニューラルネットワークを反復的に修正する例示的な実施態様を図１２に示す。

プロセス１１１０において、倍数性呼び出しシステム１０００は、試験サンプルについて、修正されたニューラルネットワークを介して試験サンプルについての遺伝子配列決定データまたは試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出す。いくつかの実施形態において、ネットワーク出力は、（ｘ、ｙ）のような分類ベクトルであり、ｘおよびｙは、合計が１となる非負値であり、ｘ＞＞ｙは、正倍数性分類を示し、ｙ＞＞ｘは、胚の異数性分類を示す。例えば、ｘ値が所定量（いくつかの実施形態では、ゼロまたは負の量であってもよい）でｙ値よりも大きい場合、システムは、サンプルを正倍数性として分類してもよく、ｙ値が所定量（いくつかの実施形態では、ゼロまたは負の量であってもよい）でｘ値よりも大きい場合、システムは、サンプルを異数性を呈するものとして分類してもよい。

ここで図１２を参照すると、図１２は、ニューラルネットワークを修正する例示の方法を示すフローチャートである。例示の方法は、ニューラルネットワークを最適化するために反復的に使用されてもよい。本方法は、プロセス１２０２〜１２１０を含む。簡単に要約すると、プロセス１２０２において、倍数性呼び出しシステム１０００は、複数のケースを含むデータのバッチを判定する。プロセス１２０４において、倍数性呼び出しシステム１０００は、バッチの複数のケースのうちの１つ以上に基づいて合成ケースを生成し、拡張バッチを生成するためにバッチに合成ケースを含める。プロセス１２０６において、倍数性呼び出しシステム１０００は、合成ケースに基づいて真の状態値を拡張する。プロセス１２０８において、倍数性呼び出しシステム１０００は、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成する。プロセス１２１０において、倍数性呼び出しシステム１０００は、ネットワーク出力に基づいて、複数の重みのうちの１つ以上を修正する。

より詳細には、プロセス１２０２において、倍数性呼び出しシステム１０００は、複数のケースを含むデータのバッチを決定する（例えば、バッチャー１０１８を使用する）。バッチャー１０１８は、ニューラルネットワークを通過する、または伝播する訓練データのバッチを決定するための構成要素、サブシステム、モジュール、スクリプト、アプリケーション、またはプロセッサ実行可能命令の１つ以上のセットを含んでよい。バッチは、所定の数のケースまたは訓練データの例を含んでもよく、各ケースは、複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、それぞれの遺伝子セグメントの１つ以上の位置について対立遺伝子頻度を示すデータを含む。バッチに含まれるケースは、ランダムに判定されてもよい。

プロセス１２０４において、倍数性呼び出しシステム１０００は、（例えば、ケースシンセサイザ１０２０を使用して）バッチの複数のケースのうちの１つ以上に基づいて合成ケースを生成し、拡張バッチを生成するためにバッチに合成ケースを含める。例えば、バッチャー１０１８は、訓練データ１００６から２つのケースを選択する。これはランダムに行うことができ、ケースの１つ（例えば、第２のケース）が訓練データから選択されて、トゥルースデータによって、染色体全体または局所的異数性を有することが保証される。例えば、ケースシンセサイザ１０２０は、第２のケースが染色体全体または局所的異数性を有すると判定することができ、その判定に基づいて第２のケースを選択することができる。ケースシンセサイザ１０２０は、第２のケースの異数性領域内で、ある程度最小長であり得るセグメントを（例えば、ランダムに）選択し、第１のケースからの対応する配列決定またはアレイデータを、第２のケースからのデータによって置き換える。第１のケースから第２のケースからのデータによって置き換えられたデータは、第２のケースから選択される異数性セグメントからのゲノム位置に対応してもよい。ケースシンセサイザ１０２０は、訓練中にネットワークも変更されていない例を使用して訓練され得るように、システムを介して変更されていない第１のケースを選択的に（例えば、ランダムに、または他の基準に基づいて）通過させてもよい。選択プロセス中、バッチャー１０１８は、トゥルースセット内で見出されるか、そうでなければ２つの例について計算される配列決定またはアレイデータ統計が、設定範囲内で類似するようにケースを選択する。妊婦由来の血漿のケースでは、これには、類似の胎児画分統計を有する可能性がある合成配列決定またはアレイデータを生成するために選択される２つのケースが含まれ得る。訓練中、この手順は各エポックまたはサイクル中に再び繰り返される。

プロセス１２０６において、倍数性呼び出しシステム１０００は、合成ケースに基づいて真の状態値を拡張する。ケースシンセサイザ１０２０は、ネットワークの訓練段階中に、合成および変更されていない例の混合物を含むより大きなバッチの一部としてケースがニューラルネットワークに提出されるときに、挿入されたセグメントが修正された第１のケースにおいて異数性セグメントとしてカウントされるように、トゥルースデータ１０１０を修正してもよい。

プロセス１２０８において、倍数性呼び出しシステム１０００は、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成する。プロセス１２１０において、倍数性呼び出しシステム１０００は、ネットワーク出力に基づいて、複数の重みのうちの１つ以上を修正する。これは、例えば、重みオプティマイザ１０２４を使用して、例えば、損失計算器１０２２によって判定された損失値に基づいて実装されてもよい。重みオプティマイザ１０２４は、例えば、確率的勾配降下最適化の修正された形態、または別の適切な最適化プロセスを使用して、ニューラルネットワークの重みを修正することができる。いくつかの実施形態において、重みオプティマイザ１０２４は、運動量を有する確率的勾配降下様アルゴリズム（例えば、本明細書に記載されるアダムアルゴリズム）を使用し、学習レートを約０．０００１に設定する。いくつかの実施形態において、重みオプティマイザ１０２４は、ミニバッチ勾配降下および運動量タイプ最適化を使用する。したがって、倍数性呼び出しシステム１０００は、ニューラルネットワークを訓練してもよい。

サンプル調製
いくつかの実施形態において、本明細書に記載されるシステムおよび方法を使用して、生体サンプルの倍数性状態を呼び出してもよい。生体サンプルは、胎児、母、または父のものであってもよい。生体サンプルは、血液、血清、血漿、尿、および生検サンプルから選択されてもよい。いくつかの実施形態において、少なくとも１０、または少なくとも２０、または少なくとも５０、または少なくとも１００、または少なくとも２００、または少なくとも５００、または少なくとも１，０００個のＳＮＶ遺伝子座が、単離された無細胞ＤＮＡから増幅される。いくつかの実施形態において、少なくとも２００、または少なくとも５００、または少なくとも１，０００、または少なくとも２，０００、または少なくとも１０，０００、または少なくとも２０，０００、または少なくとも５０，０００、または少なくとも１００，０００のリード深度で配列決定される。サンプルの調製または処理は、対象の生体サンプルから無細胞ＤＮＡを単離することと、単離された無細胞ＤＮＡから複数の標的塩基を含む複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、増幅産物を配列決定して、遺伝子配列決定データを取得することと、を含んでもよい。いくつかの実施形態は、患者から複数の生体サンプルを長期的に収集し、分析することを含む。

癌を検出するための方法
さらなる態様において、本開示は、サンプルを癌性として分類するための方法であって、対象の生体サンプルから無細胞ＤＮＡを単離することと、単離された無細胞ＤＮＡから複数の標的塩基を含む複数の一塩基バリアント（ＳＮＶ）遺伝子座またはセグメントを増幅することであって、ＳＮＶ遺伝子座またはセグメントが癌に関連することが知られている、増幅することと、増幅産物を配列決定することと、サンプルを癌性として分類するために、本明細書に記載される１つ以上のプロセスを使用すること（例えば、本明細書に記載される方法で訓練されたニューラルネットワークを使用することであって、ラベル付けされ、増強され、および／または合成された訓練データを使用することができる）と、を含む方法を提供する。いくつかの実施形態において、複数の一塩基バリアント遺伝子座は、癌についてＴＣＧＡおよびＣＯＳＭＩＣデータセットにおいて特定されたＳＮＶ遺伝子座から選択される。

いくつかの実施形態は、複数の標的塩基を含む複数の一塩基バリアント（ＳＮＶ）遺伝子座について単離された無細胞ＤＮＡから増幅するためにマルチプレックス増幅反応を行うことであって、ＳＮＶ遺伝子座は、対象が治療を受けた癌に関連する患者固有のＳＮＶ遺伝子座である、行うことと、増幅産物を配列決定して、複数の標的塩基の配列リードを取得することと、を含む。いくつかの実施形態において、マルチプレックス増幅反応は、対象が治療を受けた癌に関連する少なくとも４、または少なくとも８、または少なくとも１６、または少なくとも３２、または少なくとも６４、または少なくとも１２８個の患者固有のＳＮＶ遺伝子座を増幅する。

「癌」および「癌性」という用語は、典型的には制御されない細胞増殖を特徴とする、動物における生理学的状態を指すか、またはこれを説明する。「腫瘍」は、１つ以上の癌性細胞を含む。いくつかの主要な種類の癌が存在する。癌腫は、皮膚内、または内臓の輪郭を形成するか、または内臓を覆う組織内で始まる癌である。肉腫は、骨、軟骨、脂肪、筋肉、血管、または他の結合組織もしくは支持組織から始まる癌である。白血病は、骨髄などの血液形成組織内で始まり、大量の異常な血球が産生され、血液に入り込む癌である。リンパ腫および多発性骨髄腫は、免疫系の細胞内で始まる癌である。中枢神経系の癌は、脳および脊髄の組織内で始まる癌である。

いくつかの実施形態において、癌は、急性リンパ芽球性白血病、急性骨髄性白血病、副腎皮質癌腫、ＡＩＤＳ関連癌、ＡＩＤＳ関連リンパ腫、肛門癌、虫垂癌、星細胞腫、非定型奇形腫／ラブドイド腫瘍、基底細胞癌腫、膀胱癌、脳幹グリオーマ、脳腫瘍（脳幹グリオーマ、中枢神経系非定型奇形腫／ラブドイド腫瘍、中枢神経系胚芽腫、星細胞腫、頭蓋咽頭腫、上衣芽細胞腫、上衣腫、髄芽腫、髄様上皮腫、中分化型松果体実質腫瘍、テント上原始神経外胚葉腫瘍および松果体芽細胞腫を含む）、乳癌、気管支腫瘍、バーキットリンパ腫、原発部位不明癌、カルチノイド腫瘍、原発部位不明癌腫、中枢神経系非定型奇形腫／ラブドイド腫瘍、中枢神経系胚芽腫、子宮頸癌、小児癌、脊索腫、慢性リンパ性白血病、慢性骨髄性白血病、慢性骨髄増殖性障害、結腸癌、大腸癌、頭蓋咽頭腫、皮膚Ｔ細胞リンパ腫、膵臓内分泌島細胞腫瘍、子宮内膜癌、上衣芽細胞腫、上衣腫、食道癌、鼻腔神経芽細胞腫、ユーイング肉腫、頭蓋外胚細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管癌、胆嚢癌、胃癌（ｇａｓｔｒｉｃ（ｓｔｏｍａｃｈ）ｃａｎｃｅｒ）、胃腸カルチノイド腫瘍、胃腸間質細胞腫瘍、消化管間質腫瘍（ＧＩＳＴ）、妊娠性絨毛腫瘍、グリオーマ、有毛細胞白血病、頭頸部癌、心臓癌、ホジキンリンパ腫、下咽頭癌、眼内黒色腫、島細胞腫瘍、カポジ肉腫、腎臓癌、ランゲルハンス細胞組織球増加症、喉頭癌、口唇癌、肝臓癌、悪性線維性組織球腫骨癌、髄芽腫、髄様上皮腫、黒色腫、メルケル細胞癌腫、メルケル細胞皮膚癌腫、中皮腫、原発不明の転移性頸部扁平上皮癌、口癌（ｍｏｕｔｈｃａｎｃｅｒ）、多発性内分泌腫瘍症候群、多発性骨髄腫、多発性骨髄腫／形質細胞腫、菌状息肉腫、骨髄異形成症候群、骨髄増殖性新生物、鼻腔癌、鼻咽腔癌、神経芽細胞腫、非ホジキンリンパ腫、非黒色腫皮膚癌、非小細胞肺癌、口癌（ｏｒａｌｃａｎｃｅｒ）、口腔癌、口腔咽頭癌、骨肉腫、他の脳脊髄腫瘍、卵巣癌、上皮性卵巣癌、卵巣胚細胞腫瘍、卵巣低悪性度腫瘍、膵臓癌、乳頭腫症、副鼻腔癌、副甲状腺癌、骨盤内癌、陰茎癌、咽頭癌、中分化型松果体実質腫瘍、松果体芽細胞腫、下垂体腫瘍、形質細胞腫／多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系（ＣＮＳ）リンパ腫、原発性肝細胞肝臓癌、前立腺癌、直腸癌、腎臓癌、腎細胞（腎臓）癌、腎細胞癌、気道癌、網膜芽細胞腫、横紋筋肉腫、唾液腺癌、セザリー症候群、小細胞肺癌、小腸癌、軟部組織肉腫、扁平上皮癌腫、頸部扁平上皮癌、胃癌（ｓｔｏｍａｃｈ（ｇａｓｔｒｉｃ）ｃａｎｃｅｒ）、テント上原始神経外胚葉腫瘍、Ｔ細胞リンパ腫、精巣癌、咽喉癌、胸腺癌腫、胸腺腫、甲状腺癌、移行上皮癌、腎盂および尿管の移行上皮癌、絨毛性腫瘍、尿管癌、尿路癌、子宮癌、子宮肉腫、膣癌、外陰癌、ヴァルデンストレームマクログロブリン血症またはウィルムス腫瘍を含む。

したがって、特定の例では、本方法は、一塩基バリアント遺伝子座のセットのそれぞれで、各対立遺伝子決定についての信頼値を特定することを含み、少なくとも一部には遺伝子座についてのリード深度に基づくことができる。信頼限界は、少なくとも７５％、８０％、８５％、９０％、９５％、９６％、９６％、９８％または９９％で設定することができる。信頼限界は、異なる種類の変異について、異なるレベルで設定することができる。

ｃｔＤＮＡＳＮＶ増幅／配列決定ワークフローを含む本明細書のＳＮＶを検出するいずれかの方法において、マルチプレックスＰＣＲについての改良された増幅パラメータを使用してもよい。例えば、増幅反応がＰＣＲ反応である場合、アニーリング温度が、範囲の下限でプライマーのセットのうち少なくとも１０、２０、２５、３０、４０、５０、０６、７０、７５、８０、９０、９５または１００％のプライマーの融点よりも１、２、３、４、５、６、７、８、９または１０℃高く、範囲の上限で２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４または１５℃より高い。

特定の実施形態において、増幅反応がＰＣＲ反応である場合、ＰＣＲ反応中のアニーリング工程の長さは、範囲の下限で１０、１５、２０、３０、４５および６０分、範囲の上限で１５、２０、３０、４５、６０、１２０、１８０または２４０分である。特定の実施形態において、増幅（例えばＰＣＲ反応）におけるプライマー濃度は、１〜１０ｎＭである。さらに、例示的な実施形態において、プライマーのセット中のプライマーは、プライマー二量体形成を最小限にするように設計される。

したがって、増幅工程を含む本明細書のいずれかの方法の一例において、増幅反応はＰＣＲ反応であり、アニーリング温度は、プライマーのセットのプライマーの少なくとも９０％の融点より１〜１０℃高く、ＰＣＲ反応中のアニーリング工程の長さは、１５〜６０分であり、増幅反応におけるプライマー濃度は、１〜１０ｎＭであり、プライマーのセット中のプライマーは、プライマー二量体形成を最小限にするように設計される。この例のさらなる態様において、マルチプレックス増幅反応は、制限プライマー条件下で行われる。

本発明の方法で分析されるサンプルは、特定の例示的な実施形態において、血液サンプル、またはそのフラクションである。本明細書で提供される方法は、特定の実施形態において、特に、ＤＮＡフラグメント、特に、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）において見出される腫瘍ＤＮＡフラグメントを増幅させるように適合される。このようなフラグメントは、典型的には、約１６０ヌクレオチド長である。

無細胞核酸（例えば、ｃｆＤＮＡ）は、アポトーシス、壊死、オートファジーおよびネクロトーシスなどの細胞死の種々の形態を介して循環中に放出され得ることが当該技術分野で知られている。ｃｆＤＮＡは、フラグメント化され、フラグメントのサイズ分布は、１５０〜３５０ｂｐから１００００ｂｐを超えるものまでさまざまである（Ｋａｌｎｉｎａｅｔａｌ．ＷｏｒｌｄＪＧａｓｔｒｏｅｎｔｅｒｏｌ．２０１５Ｎｏｖ７；２１（４１）：１１６３６−１１６５３）。例えば、肝細胞癌腫（ＨＣＣ）患者における血漿ＤＮＡフラグメントのサイズ分布は、１００〜２２０ｂｐ長の範囲に広がっており、頻度数におけるピークは約１６６ｂｐであり、フラグメント中の最も高い腫瘍ＤＮＡ濃度は、１５０〜１８０ｂｐ長である（Ｊｉａｎｇｅｔａｌ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ１１２：Ｅ１３１７−Ｅ１３２５を参照）。

例示的な実施形態において、細胞片および血小板を遠心分離によって除去した後、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を、ＥＤＴＡ−２Ｎａ管を用いて血液から単離する。ＤＮＡを例えばＱＩＡａｍｐＤＮＡＭｉｎｉＫｉｔ（Ｑｉａｇｅｎ、ヒルデン、ドイツ）を用いて抽出するまで、血漿サンプルを−８０℃で保存してもよい（例えば、Ｈａｍａｋａｗａｅｔａｌ．，ＢｒＪＣａｎｃｅｒ．２０１５；１１２：３５２−３５６）。Ｈａｍａｋａｖａらは、全サンプルの抽出された無細胞ＤＮＡの濃度の中央値が、血漿１ｍｌ当たり４３．１ｎｇ（範囲９．５〜１３３８ｎｇ／ｍｌ）であり、変異体頻度範囲が０．００１〜７７．８％であり、中央値が０．９０％であることを報告した。

本説明の方法は、特定の実施形態において、サンプルから核酸ライブラリを作成し、増幅する工程を含む（すなわち、ライブラリ調製）。ライブラリ調製工程中のサンプルからの核酸は、付随したライゲーションアダプター（ライブラリタグまたはライゲーションアダプタータグ（ＬＴ）と呼ばれることが多い）を有していてもよく、ライゲーションアダプターは、ユニバーサルプライミング配列を含み、続いて、ユニバーサル増幅を含む。一実施形態において、このことは、フラグメント化の後に配列決定ライブラリを作成するように設計された標準的なプロトコルを用いて行われてもよい。一実施形態において、ＤＮＡサンプルは、平滑末端であってもよく、次いで、Ａがその３’末端に付加されていてもよい。Ｔオーバーハングを有するＹアダプターを付加し、ライゲーションしてもよい。いくつかの実施形態において、ＡまたはＴオーバーハング以外の他の粘着末端を使用してもよい。いくつかの実施形態において、他のアダプター、例えば、ループ状ライゲーションアダプターを付加してもよい。いくつかの実施形態において、アダプターは、ＰＣＲ増幅のために設計されたタグを有していてもよい。

本明細書で提供されるいくつかの実施形態は、ｃｔＤＮＡサンプルにおいてＳＮＶを検出することを含む。例示的な実施形態におけるこのような方法は、増幅工程および配列決定工程を含む（本明細書では「ｃｔＤＮＡＳＮＶ増幅／配列決定ワークフロー」と呼ばれることがある）。例示的な例では、ｃｔＤＮＡ増幅／配列決定ワークフローは、個体、例えば、癌を有することが疑われる個体からの血液のサンプルまたはそのフラクションから単離された核酸に対してマルチプレックス増幅反応を行うことによってアンプリコンのセットを作成することであって、アンプリコンのセットのそれぞれのアンプリコンが、一塩基バリアント遺伝子座のセットの少なくとも１つの一塩基バリアント遺伝子座、例えば、癌と関連することが知られているＳＮＶ遺伝子座に広がる、作成することと、アンプリコンのセットのそれぞれのアンプリコンの少なくとも１つのセグメントの配列を決定することであって、このセグメントが一塩基バリアント遺伝子座を含む、決定することと、を含んでいてもよい。この方法で、この例示的な方法は、サンプル中に存在する一塩基バリアントを決定する。

例示的なｃｔＤＮＡＳＮＶ増幅／配列決定ワークフローは、より詳細には、サンプルから作成された核酸ライブラリからのポリメラーゼ、ヌクレオチド三リン酸、核酸フラグメントと、一塩基バリアント遺伝子座からの有効な距離でそれぞれ結合するプライマーのセット、または一塩基バリアント遺伝子座を含む有効領域にそれぞれ広がるプライマー対のセットとを合わせることによって増幅反応混合物を形成することを含んでいてもよい。一塩基バリアント遺伝子座は、例示的な実施形態において、癌に関連することが知られているものである。次いで、増幅反応混合物を増幅条件に供して、好ましくは、癌と関連することが知られている、一塩基バリアント遺伝子座のセットの少なくとも１つの一塩基バリアント遺伝子座を含むアンプリコンのセットを作成すること、およびアンプリコンのセットのそれぞれのアンプリコンの少なくとも１つのセグメントの配列を決定することであって、セグメントが一塩基バリアント遺伝子座を含む、決定すること。

プライマーの結合の有効距離は、ＳＮＶ遺伝子座の１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、２５、３０、３５、４０、４５、５０、７５、１００、１２５または１５０塩基対以内であってもよい。一対のプライマーが広がる有効範囲は、典型的には、ＳＮＶを含み、典型的には１６０塩基対以下であり、１５０、１４０、１３０、１２５、１００、７５、５０または２５塩基対以下であってもよい。他の実施形態において、プライマー対が広がる有効範囲は、ＳＮＶ遺伝子座から範囲の下限で２０、２５、３０、４０、５０、６０、７０、７５、１００、１１０、１２０、１２５、１３０、１４０または１５０ヌクレオチド、範囲の上限で２５、３０、４０、５０、６０、７０、７５、１００、１１０、１２０、１２５、１３０、１４０、または１５０、１６０、１７０、１７５または２００である。

プライマーテールは、普遍的にタグ化されたライブラリからのフラグメント化されたＤＮＡの検出を改善することができる。ライブラリタグおよびプライマーテールが、相同配列を含有する場合、ハイブリダイゼーションを改善することができ（例えば、融点（Ｔｍ）を下げる）、プライマー標的配列の一部のみがサンプルＤＮＡプライマーフラグメント中にある場合、プライマーを伸長することができる。いくつかの実施形態において、１３個以上の標的特異性塩基対が使用されてもよい。いくつかの実施形態において、１０〜１２個の標的特異性塩基対が使用されてもよい。いくつかの実施形態において、８〜９個の標的特異性塩基対が使用されてもよい。いくつかの実施形態において、６〜７個の標的特異性塩基対が使用されてもよい。

一実施形態において、ライブラリは、サンプル中のＤＮＡフラグメントの末端に、またはサンプルから単離されたＤＮＡから作成されたＤＮＡフラグメントの末端にアダプターをライゲーションすることによって、上記のサンプルから作成される。次いで、フラグメントを、例えば、以下の例示的なプロトコルに従って、ＰＣＲを使用して増幅することができる。９５℃で２分間；１５×［９５℃で２０秒間、５５℃で２０秒間、６８℃で２０秒間］、６８℃で２分間、４℃で保持。

多くのキットおよび方法は、その後の増幅（例えば、クローン増幅）およびその後の配列決定のためのユニバーサルプライマー結合部位を含む核酸ライブラリの作成についての技術分野で既知である。アダプターのライゲーションを促進しやすくするために、ライブラリの調製および増幅は、末端修復およびアデニル化（すなわち、Ａテーリング）を含んでいてもよい。小さな核酸フラグメント（特に、循環遊離ＤＮＡ）からライブラリを調製するように特に適合されたキットは、本明細書で提供される方法を実施するのに有用な場合がある。例えば、ＢｉｏｏＳｃｉｅｎｔｉｆｉｃ（）から入手可能なＮＥＸＴｆｌｅｘＣｅｌｌＦｒｅｅキットまたはＮａｔｅｒａＬｉｂｒａｒｙＰｒｅｐＫｉｔ（Ｎａｔｅｒａ，Ｉｎｃ．Ｃａｒｌｏｓ，ＣＡから入手可能）。しかし、このようなキットは、典型的には、本明細書で提供される方法の増幅工程および配列決定工程のためにカスタマイズされたアダプターを含むように改変される。アダプターライゲーションは、ＡＧＩＬＥＮＴＳＵＲＥＳＥＬＥＣＴキット（Ａｇｉｌｅｎｔ、ＣＡ）中に見出されるライゲーションキットなどの市販のキットを用いて行うことができる。

次いで、サンプル、特に、本発明の方法のための循環遊離ＤＮＡサンプルから単離されたＤＮＡから作成した核酸ライブラリの標的領域を増幅させる。この増幅のために、一連のプライマーまたはプライマー対は、範囲の下限で５、１０、１５、２０、２５、５０、１００、１２５、１５０、２５０、５００、１０００、２５００、５０００、１０，０００、２０，０００、２５，０００または５０，０００プライマー、範囲の上限で１５、２０、２５、５０、１００、１２５、１５０、２５０、５００、１０００、２５００、５０００、１０，０００、２０，０００、２５，０００、５０，０００、６０，０００、７５，０００または１００，０００プライマーを含んでいてもよく、それぞれが、一連のプライマー結合部位の１つに結合する。

プライマー設計は、Ｐｒｉｍｅｒ３と共に作成されてもよい（ＵｎｔｅｒｇｒａｓｓｅｒＡ，ＣｕｔｃｕｔａｃｈｅＩ，ＫｏｒｅｓｓａａｒＴ，ＹｅＪ，ＦａｉｒｃｌｏｔｈＢＣ，ＲｅｍｍＭ，ＲｏｚｅｎＳＧ（２０１２）“Ｐｒｉｍｅｒ３−ｎｅｗｃａｐａｂｉｌｉｔｉｅｓａｎｄｉｎｔｅｒｆａｃｅｓ．”ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓｅａｒｃｈ４０（１５）：ｅ１１５およびＫｏｒｅｓｓａａｒＴ，ＲｅｍｍＭ（２００７）“ＥｎｈａｎｃｅｍｅｎｔｓａｎｄｍｏｄｉｆｉｃａｔｉｏｎｓｏｆｐｒｉｍｅｒｄｅｓｉｇｎｐｒｏｇｒａｍＰｒｉｍｅｒ３．”Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２３（１０）：１２８９−９１）ソースコードは、ｐｒｉｍｅｒ３．ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔで入手可能）。プライマー特異性は、ＢＬＡＳＴによって評価され、これを既存のプライマー設計パイプライン基準に追加してもよい。

プライマー特異性は、ｎｃｂｉ−ｂｌａｓｔ−２．２．２９＋パッケージからのＢＬＡＳＴｎプログラムを用いて決定することができる。タスクオプション「ｂｌａｓｔｎ−ｓｈｏｒｔ」を使用して、ｈｇ１９ヒトゲノムに対するプライマーをマッピングしてもよい。プライマー設計は、プライマーがゲノムに対して１００ヒット未満を有し、トップヒットが、そのゲノムの標的相補性プライマー結合領域であり、他のヒットよりも少なくとも２スコア高い場合に、「特異的」であると決定することができる（スコアは、ＢＬＡＳＴｎプログラムによって定義される）。このことは、そのゲノムに対して固有のヒットを有し、ゲノム全体に多くの他のヒットを有しないように行うことができる。

最終的に選択されたプライマーは、ＩＧＶ（ＪａｍｅｓＴ．Ｒｏｂｉｎｓｏｎ，ＨｅｌｇａＴｈｏｒｖａｌｄｓｄｏｔｔｉｒ，ＷｅｎｄｙＷｉｎｃｋｌｅｒ，ＭｉｔｃｈｅｌｌＧｕｔｔｍａｎ，ＥｒｉｃＳ．Ｌａｎｄｅｒ，ＧａｄＧｅｔｚ，ＪｉｌｌＰ．Ｍｅｓｉｒｏｖ．ＩｎｔｅｇｒａｔｉｖｅＧｅｎｏｍｉｃｓＶｉｅｗｅｒ．ＮａｔｕｒｅＢｉｏｔｅｃｈｎｏｌｏｇｙ２９、２４−２６（２０１１））およびＵＣＳＣブラウザ（ＫｅｎｔＷＪ，ＳｕｇｎｅｔＣＷ，ＦｕｒｅｙＴＳ，ＲｏｓｋｉｎＫＭ，ＰｒｉｎｇｌｅＴＨ，ＺａｈｌｅｒＡＭ，ＨａｕｓｓｌｅｒＤ．ＴｈｅｈｕｍａｎｇｅｎｏｍｅｂｒｏｗｓｅｒａｔＵＣＳＣ．ＧｅｎｏｍｅＲｅｓ．２００２Ｊｕｎ；１２（６）：９９６−１００６）で、検証のためのベッドファイルおよびカバレッジマップを用いて視覚化することができる。

本発明の方法は、特定の実施形態において、増幅反応混合物を形成することを含む。この反応混合物は、典型的には、サンプルから作成された核酸ライブラリからのポリメラーゼ、ヌクレオチド三リン酸、核酸フラグメントと、ＳＮＶを含む標的領域に特異的な順方向プライマーおよび逆方向プライマーのセットとを合わせることによって作成される。本明細書で提供される反応混合物は、例示的な実施形態において、それ自体が本発明の別個の態様を形成する。

本発明に有用な増幅反応混合物は、核酸増幅、特にＰＣＲ増幅に関する技術分野で既知の構成要素を含む。例えば、反応混合物は、典型的には、ヌクレオチド三リン酸、ポリメラーゼおよびマグネシウムを含む。本発明に有用なポリメラーゼは、増幅反応に使用可能な任意のポリメラーゼ、特に、ＰＣＲ反応に有用なものを含んでいてもよい。特定の実施形態において、ホットスタートＴａｑポリメラーゼは、特に有用である。本明細書で提供される方法を実施するのに有用な増幅反応混合物、例えば、ＡｍｐｌｉＴａｑＧｏｌｄマスターミックス（ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、カールスバッド、ＣＡ）は、市販されている。

ＰＣＲの増幅（例えば、温度サイクル）条件は、当該技術分野で周知である。本明細書で提供される方法は、標的核酸（例えば、ライブラリからの標的核酸）を増幅させる任意のＰＣＲサイクル条件を含んでいてもよい。非限定的な例示的なサイクル条件は、本明細書の実施例の章で提供される。

ＰＣＲを実施するときに可能な多くのワークフローが存在し、本明細書に開示する方法に典型的ないくつかのワークフローが本明細書で提供される。本明細書で概説される工程は、他の可能な工程を除外することを意味しておらず、本明細書に記載される工程のいずれかが本方法が適切に機能するのに必要であることを暗示するものでもない。多数のパラメータの変動または他の改変は、文献で既知であり、本発明の本質に影響を与えることなく行うことができる。

本明細書で提供される方法の特定の実施形態において、アンプリコン（例えば、アウタープライマー標的アンプリコン）の少なくとも一部、例示的な例では全配列が、決定される。アンプリコンの配列を決定する方法は、当該技術分野で既知である。当該技術分野で既知の配列決定方法のいずれか、例えば、サンガー配列決定は、このような配列の決定に使用することができる。例示的な実施形態において、高スループット次世代配列決定技術（本明細書では、超並列配列決定技術とも呼ばれる）、例えば、限定されないが、ＭＹＳＥＱ（ＩＬＬＵＭＩＮＡ）、ＨＩＳＥＱ（ＩＬＬＵＭＩＮＡ）、ＩＯＮＴＯＲＲＥＮＴ（ＬＩＦＥＴＥＣＨＮＯＬＯＧＩＥＳ）、ＧＥＮＯＭＥＡＮＡＬＹＺＥＲＩＬＸ（ＩＬＬＵＭＩＮＡ）、ＧＳＦＬＥＸ＋（ＲＯＣＨＥ４５４）で使用されるものを、本明細書で提供される方法によって作られるアンプリコンを配列決定するために使用することができる。

高スループット遺伝子シーケンサは、個体からの特有のサンプルを特定するためのバーコード化（すなわち、特徴的な核酸配列を用いたサンプルタグ化）の使用に合うように修正可能であり、それにより、ＤＮＡシーケンサの１回のランにおいて複数サンプルの同時分析を可能にする。ライブラリ調製（または目的の他の核酸調製）においてゲノムの所与の領域が配列決定される回数（リード数）は、目的のゲノム中のその配列のコピー数（またはｃＤＮＡを含有する調製の場合には発現レベル）に比例するだろう。増幅効率におけるバイアスは、このような定量的な決定において考慮されてもよい。

標的遺伝子例示的な実施形態における本発明の標的遺伝子は、癌関連遺伝子であり、多くの例示的な実施形態において、癌関連遺伝子である。癌関連遺伝子は、癌のリスクの変化または癌の予後の変化に関連する遺伝子を指す。癌を促進する例示的な癌関連遺伝子としては、癌遺伝子、細胞増殖、浸潤または転移を促進する遺伝子、アポトーシスを阻害する遺伝子、および血管新生促進遺伝子が挙げられる。癌を阻害する癌関連遺伝子としては、限定されないが、腫瘍抑制遺伝子、細胞増殖、浸潤または転移を阻害する遺伝子、アポトーシスを促進する遺伝子、および抗血管新生遺伝子が挙げられる。

倍数性状態を呼び出すための方法の一実施形態は、標的となる遺伝子または遺伝子座の領域の選択から始まる。既知の変異を有する領域を使用して、変異を増幅させ、検出するためのｍＰＣＲ−ＮＧＳのためのプライマーを開発する。

本明細書で提供される方法を使用して、実質的に任意の種類の変異、特に、癌に関連することが知られている変異を検出することができ、最も特定的には、本明細書で提供される方法は、癌に関連する変異、特にＳＮＶを対象とする。例示的なＳＮＶは、以下の遺伝子のうちの１つ以上であってもよい。ＥＧＦＲ、ＦＧＦＲ１、ＦＧＦＲ２、ＡＬＫ、ＭＥＴ、ＲＯＳ１、ＮＴＲＫ１、ＲＥＴ、ＨＥＲ２、ＤＤＲ２、ＰＤＧＦＲＡ、ＫＲＡＳ、ＮＦ１、ＢＲＡＦ、ＰＩＫ３ＣＡ、ＭＥＫ１、ＮＯＴＣＨ１、ＭＬＬ２、ＥＺＨ２、ＴＥＴ２、ＤＮＭＴ３Ａ、ＳＯＸ２、ＭＹＣ、ＫＥＡＰ１、ＣＤＫＮ２Ａ、ＮＲＧ１、ＴＰ５３、ＬＫＢ１およびＰＴＥＮ、これらは、種々の肺癌サンプルにおいて、変異しているか、またはコピー数が増加しているか、または他の遺伝子に融合しているか、およびこれらの組み合わせであることが特定されている（Ｎｏｎ−ｓｍａｌｌ−ｃｅｌｌｌｕｎｇｃａｎｃｅｒｓ：ａｈｅｔｅｒｏｇｅｎｅｏｕｓｓｅｔｏｆｄｉｓｅａｓｅｓ．Ｃｈｅｎｅｔａｌ．Ｎａｔ．Ｒｅｖ．Ｃａｎｃｅｒ．２０１４Ａｕｇ１４（８）：５３５−５５１）。別の例では、遺伝子のリストは、上に列挙されたものであり、ＳＮＶは、例えば、Ｃｈｅｎらの参考文献で報告されている。

他の例示的な多型または変異は、以下の遺伝子のうちの１つ以上の中にある。すなわち、ＴＰ５３、ＰＴＥＮ、ＰＩＫ３ＣＡ、ＡＰＣ、ＥＧＦＲ、ＮＲＡＳ、ＮＦ２、ＦＢＸＷ７、ＥＲＢＢｓ、ＡＴＡＤ５、ＫＲＡＳ、ＢＲＡＦ、ＶＥＧＦ、ＥＧＦＲ、ＨＥＲ２、ＡＬＫ、ｐ５３、ＢＲＣＡ、ＢＲＣＡ１、ＢＲＣＡ２、ＳＥＴＤ２、ＬＲＰ１Ｂ、ＰＢＲＭ、ＳＰＴＡ１、ＤＮＭＴ３Ａ、ＡＲＩＤ１Ａ、ＧＲＩＮ２Ａ、ＴＲＲＡＰ、ＳＴＡＧ２、ＥＰＨＡ３／５／７、ＰＯＬＥ、ＳＹＮＥ１、Ｃ２０ｏｒｆ８０、ＣＳＭＤ１、ＣＴＮＮＢ１、ＥＲＢＢ２。ＦＢＸＷ７、ＫＩＴ、ＭＵＣ４、ＡＴＭ、ＣＤＨ１、ＤＤＸ１１、ＤＤＸ１２、ＤＳＰＰ、ＥＰＰＫ１、ＦＡＭ１８６Ａ、ＧＮＡＳ、ＨＲＮＲ、ＫＲＴＡＰ４−１１、ＭＡＰ２Ｋ４、ＭＬＬ３、ＮＲＡＳ、ＲＢ１、ＳＭＡＤ４、ＴＴＮ、ＡＢＣＣ９、ＡＣＶＲ１Ｂ、ＡＤＡＭ２９、ＡＤＡＭＴＳ１９、ＡＧＡＰ１０、ＡＫＴ１、ＡＭＢＮ、ＡＭＰＤ２、ＡＮＫＲＤ３０Ａ、ＡＮＫＲＤ４０、ＡＰＯＢＲ、ＡＲ、ＢＩＲＣ６、ＢＭＰ２、ＢＲＡＴ１、ＢＴＮＬ８、Ｃ１２ｏｒｆ４、Ｃ１ＱＴＮＦ７、Ｃ２０ｏｒｆ１８６、ＣＡＰＲＩＮ２、ＣＢＷＤ１、ＣＣＤＣ３０、ＣＣＤＣ９３、ＣＤ５Ｌ、ＣＤＣ２７、ＣＤＣ４２ＢＰＡ、ＣＤＨ９、ＣＤＫＮ２Ａ、ＣＨＤ８、ＣＨＥＫ２、ＣＨＲＮＡ９、ＣＩＺ１、ＣＬＳＰＮ、ＣＮＴＮ６、ＣＯＬ１４Ａ１、ＣＲＥＢＢＰ、ＣＲＯＣＣ、ＣＴＳＦ、ＣＹＰ１Ａ２、ＤＣＬＫ１、ＤＨＤＤＳ、ＤＨＸ３２、ＤＫＫ２、ＤＬＥＣ１、ＤＮＡＨ１４、ＤＮＡＨ５、ＤＮＡＨ９、ＤＮＡＳＥ１Ｌ３、ＤＵＳＰ１６、ＤＹＮＣ２Ｈ１、ＥＣＴ２、ＥＦＨＢ、ＲＲＮ３Ｐ２、ＴＲＩＭ４９Ｂ、ＴＵＢＢ８Ｐ５、ＥＰＨＡ７、ＥＲＢＢ３、ＥＲＣＣ６、ＦＡＭ２１Ａ、ＦＡＭ２１Ｃ、ＦＣＧＢＰ、ＦＧＦＲ２、ＦＬＧ２、ＦＬＴ１、ＦＯＬＲ２、ＦＲＹＬ、ＦＳＣＢ、ＧＡＢ１、ＧＡＢＲＡ４、ＧＡＢＲＰ、ＧＨ２、ＧＯＬＧＡ６Ｌ１、ＧＰＨＢ５、ＧＰＲ３２、ＧＰＸ５、ＧＴＦ３Ｃ３、ＨＥＣＷ１、ＨＩＳＴ１Ｈ３Ｂ、ＨＬＡ−Ａ、ＨＲＡＳ、ＨＳ３ＳＴ１、ＨＳ６ＳＴ１、ＨＳＰＤ１、ＩＤＨ１、ＪＡＫ２、ＫＤＭ５Ｂ、ＫＩＡＡ０５２８、ＫＲＴ１５、ＫＲＴ３８、ＫＲＴＡＰ２１−１、ＫＲＴＡＰ４−５、ＫＲＴＡＰ４−７、ＫＲＴＡＰ５−４、ＫＲＴＡＰ５−５、ＬＡＭＡ４、ＬＡＴＳ１、ＬＭＦ１、ＬＰＡＲ４、ＬＰＰＲ４、ＬＲＲＦＩＰ１、ＬＵＭ、ＬＹＳＴ、ＭＡＰ２Ｋ１、ＭＡＲＣＨ１、ＭＡＲＣＯ、ＭＢ２１Ｄ２、ＭＥＧＦ１０、ＭＭＰ１６、ＭＯＲＣ１、ＭＲＥ１１Ａ、ＭＴＭＲ３、ＭＵＣ１２、ＭＵＣ１７、ＭＵＣ２、ＭＵＣ２０、ＮＢＰＦ１０、ＮＢＰＦ２０、ＮＥＫ１、ＮＦＥ２Ｌ２、ＮＬＲＰ４、ＮＯＴＣＨ２、ＮＲＫ、ＮＵＰ９３、ＯＢＳＣＮ、ＯＲ１１Ｈ１、ＯＲ２Ｂ１１、ＯＲ２Ｍ４、ＯＲ４Ｑ３、ＯＲ５Ｄ１３、ＯＲ８Ｉ２、ＯＸＳＭ、ＰＩＫ３Ｒ１、ＰＰＰ２Ｒ５Ｃ、ＰＲＡＭＥ、ＰＲＦ１、ＰＲＧ４、ＰＲＰＦ１９、ＰＴＨ２、ＰＴＰＲＣ、ＰＴＰＲＪ、ＲＡＣ１、ＲＡＤ５０、ＲＢＭ１２、ＲＧＰＤ３、ＲＧＳ２２、ＲＯＲ１、ＲＰ１１−６７１Ｍ２２．１、ＲＰ１３−９９６Ｆ３．４、ＲＰ１Ｌ１、ＲＳＢＮ１Ｌ、ＲＹＲ３、ＳＡＭＤ３、ＳＣＮ３Ａ、ＳＥＣ３１Ａ、ＳＦ１、ＳＦ３Ｂ１、ＳＬＣ２５Ａ２、ＳＬＣ４４Ａ１、ＳＬＣ４Ａ１１、ＳＭＡＤ２、ＳＰＴＡ１、ＳＴ６ＧＡＬ２、ＳＴＫ１１、ＳＺＴ２、ＴＡＦ１Ｌ、ＴＡＸ１ＢＰ１、ＴＢＰ、ＴＧＦＢＩ、ＴＩＦ１、ＴＭＥＭ１４Ｂ、ＴＭＥＭ７４、ＴＰＴＥ、ＴＲＡＰＰＣ８、ＴＲＰＳ１、ＴＸＮＤＣ６、ＵＳＰ３２、ＵＴＰ２０、ＶＡＳＮ、ＶＰＳ７２、ＷＡＳＨ３Ｐ、ＷＷＴＲ１、ＸＰＯ１、ＺＦＨＸ４、ＺＭＩＺ１、ＺＮＦ１６７、ＺＮＦ４３６、ＺＮＦ４９２、ＺＮＦ５９８、ＺＲＳＲ２、ＡＢＬ１、ＡＫＴ２、ＡＫＴ３、ＡＲＡＦ、ＡＲＦＲＰ１、ＡＲＩＤ２、ＡＳＸＬ１、ＡＴＲ、ＡＴＲＸ、ＡＵＲＫＡ、ＡＵＲＫＢ、ＡＸＬ、ＢＡＰ１、ＢＡＲＤ１、ＢＣＬ２、ＢＣＬ２Ｌ２、ＢＣＬ６、ＢＣＯＲ、ＢＣＯＲＬ１、ＢＬＭ、ＢＲＩＰ１、ＢＴＫ、ＣＡＲＤ１１、ＣＢＦＢ、ＣＢＬ、ＣＣＮＤ１、ＣＣＮＤ２、ＣＣＮＤ３、ＣＣＮＥ１、ＣＤ７９Ａ、ＣＤ７９Ｂ、ＣＤＣ７３、ＣＤＫ１２、ＣＤＫ４、ＣＤＫ６、ＣＤＫ８、ＣＤＫＮ１Ｂ、ＣＤＫＮ２Ｂ、ＣＤＫＮ２Ｃ、ＣＥＢＰＡ、ＣＨＥＫ１、ＣＩＣ、ＣＲＫＬ、ＣＲＬＦ２、ＣＳＦ１Ｒ、ＣＴＣＦ、ＣＴＮＮＡ１、ＤＡＸＸ、ＤＤＲ２、ＤＯＴ１Ｌ、ＥＭＳＹ（Ｃ１１ｏｒｆ３０）、ＥＰ３００、ＥＰＨＡ３、ＥＰＨＡ５、ＥＰＨＢ１、ＥＲＢＢ４、ＥＲＧ、ＥＳＲ１、ＥＺＨ２、ＦＡＭ１２３Ｂ（ＷＴＸ）、ＦＡＭ４６Ｃ、ＦＡＮＣＡ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＮＣＦ、ＦＡＮＣＧ、ＦＡＮＣＬ、ＦＧＦ１０、ＦＧＦ１４、ＦＧＦ１９、ＦＧＦ２３、ＦＧＦ３、ＦＧＦ４、ＦＧＦ６、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＦＧＦＲ４、ＦＬＴ３、ＦＬＴ４、ＦＯＸＬ２、ＧＡＴＡ１、ＧＡＴＡ２、ＧＡＴＡ３、ＧＩＤ４（Ｃ１７ｏｒｆ３９）、ＧＮＡ１１、ＧＮＡ１３、ＧＮＡＱ、ＧＮＡＳ、ＧＰＲ１２４、ＧＳＫ３Ｂ、ＨＧＦ、ＩＤＨ１、ＩＤＨ２、ＩＧＦ１Ｒ、ＩＫＢＫＥ、ＩＫＺＦ１、ＩＬ７Ｒ、ＩＮＨＢＡ、ＩＲＦ４、ＩＲＳ２、ＪＡＫ１、ＪＡＫ３、ＪＵＮ、ＫＡＴ６Ａ（ＭＹＳＴ３）、ＫＤＭ５Ａ、ＫＤＭ５Ｃ、ＫＤＭ６Ａ、ＫＤＲ、ＫＥＡＰ１、ＫＬＨＬ６、ＭＡＰ２Ｋ２、ＭＡＰ２Ｋ４、ＭＡＰ３Ｋ１、ＭＣＬ１、ＭＤＭ２、ＭＤＭ４、ＭＥＤ１２、ＭＥＦ２Ｂ、ＭＥＮ１、ＭＥＴ、ＭＩＴＦ、ＭＬＨ１、ＭＬＬ、ＭＬＬ２、ＭＰＬ、ＭＳＨ２、ＭＳＨ６、ＭＴＯＲ、ＭＵＴＹＨ、ＭＹＣ、ＭＹＣＬ１、ＭＹＣＮ、ＭＹＤ８８、ＮＦ１、ＮＦＫＢＩＡ、ＮＫＸ２−１、ＮＯＴＣＨ１、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ２、ＮＴＲＫ３、ＰＡＫ３、ＰＡＬＢ２、ＰＡＸ５、ＰＢＲＭ１、ＰＤＧＦＲＡ、ＰＤＧＦＲＢ、ＰＤＫ１、ＰＩＫ３ＣＧ、ＰＩＫ３Ｒ２、ＰＰＰ２Ｒ１Ａ、ＰＲＤＭ１、ＰＲＫＡＲ１Ａ、ＰＲＫＤＣ、ＰＴＣＨ１、ＰＴＰＮ１１、ＲＡＤ５１、ＲＡＦ１、ＲＡＲＡ、ＲＥＴ、ＲＩＣＴＯＲ、ＲＮＦ４３、ＲＰＴＯＲ、ＲＵＮＸ１、ＳＭＡＲＣＡ４、ＳＭＡＲＣＢ１、ＳＭＯ、ＳＯＣＳ１、ＳＯＸ１０、ＳＯＸ２、ＳＰＥＮ、ＳＰＯＰ、ＳＲＣ、ＳＴＡＴ４、ＳＵＦＵ、ＴＥＴ２、ＴＧＦＢＲ２、ＴＮＦＡＩＰ３、ＴＮＦＲＳＦ１４、ＴＯＰ１、ＴＰ５３、ＴＳＣ１、ＴＳＣ２、ＴＳＨＲ、ＶＨＬ、ＷＩＳＰ３、ＷＴ１、ＺＮＦ２１７、ＺＮＦ７０３、およびこれらの組み合わせ（Ｓｕｅｔａｌ．ＪＭｏｌＤｉａｇｎ２０１１，１３：７４−８４；ＤＯＩ：１０．１０１６／ｊ．ｊｍｏｌｄｘ．２０１０．１１．０１０、およびＡｂａａｎｅｔａｌ．“ＴｈｅＥｘｏｍｅｓｏｆｔｈｅＮＣＩ−６０Ｐａｎｅｌ：ＡＧｅｎｏｍｉｃＲｅｓｏｕｒｃｅｆｏｒＣａｎｃｅｒＢｉｏｌｏｇｙａｎｄＳｙｓｔｅｍｓＰｈａｒｍａｃｏｌｏｇｙ”，ＣａｎｃｅｒＲｅｓｅａｒｃｈ，Ｊｕｌｙ１５，２０１３（それぞれ参照によりその全体が本明細書に組み込まれる））。例示的な多型または変異は、以下のマイクロＲＮＡのうちの１つ以上にあり得る。すなわち、ｍｉＲ−１５ａ、ｍｉＲ−１６−１、ｍｉＲ−２３ａ、ｍｉＲ−２３ｂ、ｍｉＲ−２４−１、ｍｉＲ−２４−２、ｍｉＲ−２７ａ、ｍｉＲ−２７ｂ、ｍｉＲ−２９ｂ−２、ｍｉＲ−２９ｃ、ｍｉＲ−１４６、ｍｉＲ−１５５、ｍｉＲ−２２１、ｍｉＲ−２２２およびｍｉＲ−２２３（Ｃａｌｉｎｅｔａｌ．“ＡｍｉｃｒｏＲＮＡｓｉｇｎａｔｕｒｅａｓｓｏｃｉａｔｅｄｗｉｔｈｐｒｏｇｎｏｓｉｓａｎｄｐｒｏｇｒｅｓｓｉｏｎｉｎｃｈｒｏｎｉｃｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋｅｍｉａ．”ＮＥｎｇｌＪＭｅｄ３５３：１７９３−８０１，２００５（参照によりその全体が本明細書に組み込まれる））。

増幅（例えばＰＣＲ）反応混合物：
本説明の方法は、特定の実施形態において、増幅反応混合物を形成することを含む。この反応混合物は、典型的には、サンプルから作成された核酸ライブラリからのポリメラーゼ、ヌクレオチド三リン酸、核酸フラグメントと、一連の順方向の標的特異性アウタープライマーおよび第１鎖逆方向アウターユニバーサルプライマーとを合わせることによって形成される。別の例示的な実施形態は、順方向の標的特異性アウタープライマーの代わりに、順方向の標的特異性インナープライマーと、核酸ライブラリからの核酸フラグメントの代わりに、アウタープライマーを用いる第１のＰＣＲ反応からのアンプリコンとを含む反応混合物である。本明細書で提供される反応混合物は、例示的な実施形態において、それ自体が本発明の別個の態様を形成する。例示的な実施形態において、反応混合物は、ＰＣＲ反応混合物である。ＰＣＲ反応混合物は、典型的には、マグネシウムを含む。

いくつかの実施形態において、反応混合物は、エチレンジアミン四酢酸（ＥＤＴＡ）、マグネシウム、塩化テトラメチルアンモニウム（ＴＭＡＣ）、またはこれらの任意の組み合わせを含む。いくつかの実施形態において、ＴＭＡＣの濃度は、２０〜７０ｍＭ（境界値を含む）である。任意の特定の理論に束縛されることを意味しないが、ＴＭＡＣは、ＤＮＡに結合し、二本鎖を安定化し、プライマー特異性を増加させ、および／または異なるプライマーの融点を等しくすると考えられる。いくつかの実施形態において、ＴＭＡＣは、異なる標的に対する増幅産物の量の均一性を高める。いくつかの実施形態において、マグネシウム（例えば、塩化マグネシウム由来のマグネシウム）の濃度は、１〜８ｍＭである。

多数の標的のマルチプレックスＰＣＲに使用される多数のプライマーは、多くのマグネシウムをキレート化し得る（プライマー中の２個のリン酸基が、１個のマグネシウムをキレート化する）。例えば、プライマー由来のリン酸基の濃度が約９ｍＭであるように十分なプライマーを使用する場合、プライマーは、有効マグネシウム濃度を約４．５ｍＭまで減らし得る。いくつかの実施形態において、高濃度のマグネシウムがＰＣＲのエラー（例えば、非標的遺伝子座の増幅）を引き起こす可能性があるため、ＥＤＴＡを使用して、ポリメラーゼの補因子として利用可能なマグネシウムの量を減らす。いくつかの実施形態において、ＥＤＴＡの濃度は、利用可能なマグネシウムの量を１〜５ｍＭ（例えば、３〜５ｍＭ）まで減らす。

いくつかの実施形態において、ｐＨは、７．５〜８．５、例えば、７．５〜８、８〜８．３または８．３〜８．５（境界値を含む）である。いくつかの実施形態において、Ｔｒｉｓは、例えば、１０〜１００ｍＭ、例えば、１０〜２５ｍＭ、２５〜５０ｍＭ、５０〜７５ｍＭまたは２５〜７５ｍＭの濃度（境界値を含む）で使用される。いくつかの実施形態において、これらの濃度のいずれかのＴｒｉｓは、７．５〜８．５のｐＨで使用される。いくつかの実施形態において、ＫＣｌと（ＮＨ_４）_２ＳＯ_４の組み合わせ、例えば、５０〜１５０ｍＭのＫＣｌと１０〜９０ｍＭの（ＮＨ_４）_２ＳＯ_４（境界値を含む）が使用される。いくつかの実施形態において、ＫＣｌの濃度は、０〜３０ｍＭ、５０〜１００ｍＭまたは１００〜１５０ｍＭ（境界値を含む）である。いくつかの実施形態において、（ＮＨ４）２ＳＯ４の濃度は、１０〜５０ｍＭ、５０〜９０ｍＭ、１０〜２０ｍＭ、２０〜４０ｍＭ、４０〜６０ｍＭまたは６０〜８０ｍＭの（ＮＨ_４）_２ＳＯ_４（境界値を含む）である。いくつかの実施形態において、アンモニウム［ＮＨ_４ ^＋］濃度は、０〜１６０ｍＭ、例えば、０〜５０、５０〜１００または１００〜１６０ｍＭ（境界値を含む）である。いくつかの実施形態において、カリウム濃度とアンモニウム濃度の合計（［Ｋ^＋］＋［ＮＨ_４ ^＋］）は、０〜１６０ｍＭ、例えば、０〜２５、２５〜５０、５０〜１５０、５０〜７５、７５〜１００、１００〜１２５または１２５〜１６０ｍＭ（境界値を含む）である。［Ｋ^＋］＋［ＮＨ_４ ^＋］＝１２０ｍＭである例示的な緩衝液は、２０ｍＭのＫＣｌと５０ｍＭの（ＮＨ_４）_２ＳＯ_４である。いくつかの実施形態において、緩衝液は、２５〜７５ｍＭのＴｒｉｓ（ｐＨ７．２〜８）、０〜５０ｍＭのＫＣｌ、１０〜８０ｍＭの硫酸アンモニウムおよび３〜６ｍＭのマグネシウム（境界値を含む）を含む。いくつかの実施形態において、緩衝液は、２５〜７５ｍＭのＴｒｉｓ（ｐＨ７〜８．５）、３〜６ｍＭのＭｇＣｌ_２、１０〜５０ｍＭのＫＣｌおよび２０〜８０ｍＭの（ＮＨ_４）_２ＳＯ_４（境界値を含む）を含む。いくつかの実施形態において、１００〜２００単位／ｍＬのポリメラーゼが使用される。いくつかの実施形態において、１００ｍＭのＫＣｌ、５０ｍＭの（ＮＨ_４）_２ＳＯ_４、３ｍＭのＭｇＣｌ_２、７．５ｎＭのライブラリ中の各プライマー、５０ｍＭのＴＭＡＣおよびｐＨ８．１の最終体積２０ｕｌ中の７ｕｌのＤＮＡテンプレートが使用される。

いくつかの実施形態において、クラウディング剤、例えば、ポリエチレングリコール（ＰＥＧ、例えば、ＰＥＧ８，０００）またはグリセロールが使用される。いくつかの実施形態において、ＰＥＧ（例えばＰＥＧ８，０００）の量は、０．１〜２０％、例えば、０．５〜１５％、１〜１０％、２〜８％または４〜８％（境界値を含む）である。いくつかの実施形態において、グリセロールの量は、０．１〜２０％、例えば、０．５〜１５％、１〜１０％、２〜８％または４〜８％（境界値を含む）である。いくつかの実施形態において、クラウディング剤は、低ポリメラーゼ濃度および／またはより短いアニーリング時間のいずれかを使用することを可能にする。いくつかの実施形態において、クラウディング剤は、ＤＯＲの均一性を改善し、および／またはドロップアウト（検出されない対立遺伝子）を減らす。

いくつかの実施形態において、プルーフリーディング活性を有するポリメラーゼ、プルーフリーディング活性を有しない（または無視可能な）ポリメラーゼ、またはプルーフリーディング活性を有するポリメラーゼとプルーフリーディング活性を有しない（または無視可能な）ポリメラーゼの混合物が使用される。いくつかの実施形態において、ホットスタートポリメラーゼ、非ホットスタートポリメラーゼ、またはホットスタートポリメラーゼと非ホットスタートポリメラーゼの混合物が使用される。いくつかの実施形態において、ＨｏｔＳｔａｒＴａｑＤＮＡポリメラーゼが使用される（例えば、ＱＩＡＧＥＮカタログ番号２０３２０３を参照）。いくつかの実施形態において、ＡｍｐｌｉＴａｑＧｏｌｄ（登録商標）ＤＮＡポリメラーゼが使用される。いくつかの実施形態において、反応混合物中に過剰なテンプレートが存在する場合、かつ長い産物を増幅する場合に効率的なＰＣＲ増幅を提供する高忠実度ポリメラーゼであるＰｒｉｍｅＳＴＡＲＧＸＬＤＮＡポリメラーゼが使用される（ＴａｋａｒａＣｌｏｎｔｅｃｈ，ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡ）。いくつかの実施形態において、ＫＡＰＡＴａｑＤＮＡポリメラーゼまたはＫＡＰＡＴａｑＨｏｔＳｔａｒｔＤＮＡポリメラーゼが使用される。これらは、好熱菌Ｔｈｅｒｍｕｓａｑｕａｔｉｃｕｓの単一サブユニット野生型ＴａｑＤＮＡポリメラーゼに由来する。ＫＡＰＡＴａｑおよびＫＡＰＡＴａｑＨｏｔＳｔａｒｔＤＮＡＰｏｌｙｍｅｒａｓｅは、５’−３’ポリメラーゼ活性および５’−３’エキソヌクレアーゼ活性を有するが、３’から５’方向のエキソヌクレアーゼ（プルーフリーディング）活性は有しない（例えば、ＫＡＰＡＢＩＯＳＹＳＴＥＭＳカタログ番号ＢＫ１０００を参照）。いくつかの実施形態において、ＰｆｕＤＮＡポリメラーゼが使用される。このポリメラーゼは、超好熱性古細菌Ｐｙｒｏｃｏｃｃｕｓｆｕｒｉｏｓｕｓ由来の高温安定性ＤＮＡポリメラーゼである。この酵素は、５’→３’方向において、ヌクレオチドから二本鎖ＤＮＡへのテンプレート依存性重合を触媒する。ＰｆｕＤＮＡＰｏｌｙｍｅｒａｓｅは、３’→５’エキソヌクレアーゼ（プルーフリーディング）活性も示し、このポリメラーゼがヌクレオチド組み込みエラーを修正することを可能にする。このポリメラーゼは、５’→３’エキソヌクレアーゼ活性を有しない（例えば、ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃカタログ番号ＥＰ０５０１を参照）。いくつかの実施形態において、Ｋｌｅｎｔａｑ１が使用される。これは、ＴａｑＤＮＡポリメラーゼのＫｌｅｎｏｗフラグメント類似体であり、エキソヌクレアーゼ活性またはエンドヌクレアーゼ活性を有しない（例えば、ＤＮＡＰＯＬＹＭＥＲＡＳＥＴＥＣＨＮＯＬＯＧＹ，Ｉｎｃ、セントルイス、ミズーリ、カタログ番号１００を参照）。いくつかの実施形態において、ポリメラーゼは、ＰＨＵＳＩＯＮＤＮＡポリメラーゼ、例えば、ＰＨＵＳＩＯＮＨｉｇｈＦｉｄｅｌｉｔｙＤＮＡポリメラーゼ（Ｍ０５３０Ｓ、ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ，Ｉｎｃ．）またはＰＨＵＳＩＯＮＨｏｔＳｔａｒｔＦｌｅｘＤＮＡポリメラーゼ（Ｍ０５３５Ｓ、ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ，Ｉｎｃ．）である。いくつかの実施形態において、ポリメラーゼは、Ｑ５（登録商標）ＤＮＡポリメラーゼ、例えば、Ｑ５（登録商標）Ｈｉｇｈ−ＦｉｄｅｌｉｔｙＤＮＡＰｏｌｙｍｅｒａｓｅ（Ｍ０４９１Ｓ、ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ，Ｉｎｃ．）またはＱ５（登録商標）ＨｏｔＳｔａｒｔＨｉｇｈ−ＦｉｄｅｌｉｔｙＤＮＡＰｏｌｙｍｅｒａｓｅ（Ｍ０４９３Ｓ、ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ，Ｉｎｃ．）である。いくつかの実施形態において、ポリメラーゼは、Ｔ４ＤＮＡポリメラーゼ（Ｍ０２０３Ｓ、ＮｅｗＥｎｇｌａｎｄＢｉｏＬａｂｓ，Ｉｎｃ．）である。

いくつかの実施形態において、５〜６００単位／ｍＬ（反応体積１ｍＬ当たりの単位数）、例えば、５〜１００、１００〜２００、２００〜３００、３００〜４００、４００〜５００または５００〜６００単位／ｍＬ（境界値を含む）のポリメラーゼが使用される。

ＰＣＲ方法いくつかの実施形態において、ホットスタートＰＣＲは、ＰＣＲ熱サイクル前の重合を減らすか、または防止するために使用される。例示的なホットスタートＰＣＲ方法としては、ＤＮＡポリメラーゼの初期抑制、または反応混合物がより高温に達するまでの反応構成要素の反応の物理的な分離を含む。いくつかの実施形態において、マグネシウムの遅延放出が使用される。ＤＮＡポリメラーゼは、活性のためにマグネシウムイオンを必要とするため、マグネシウムは、化学化合物に結合することによって反応から化学的に分離され、高温でのみ溶液中に放出される。いくつかの実施形態において、阻害剤の非共有結合が使用される。この方法では、ペプチド、抗体またはアプタマーは、低温で酵素に非共有結合し、その活性を阻害する。高温でインキュベートした後、阻害剤が放出され、反応が開始する。いくつかの実施形態において、冷温感受性Ｔａｑポリメラーゼ、例えば、低温ではほとんど活性を有しない修飾ＤＮＡポリメラーゼが使用される。いくつかの実施形態において、化学修飾が使用される。この方法では、分子が、ＤＮＡポリメラーゼの活性部位にあるアミノ酸の側鎖に共有結合する。この分子は、反応混合物を高温でインキュベートすることによって、酵素から放出される。分子が放出されると、酵素が活性化される。

いくつかの実施形態において、核酸（例えば、ＲＮＡまたはＤＮＡサンプル）をテンプレートで組み立てるための量は、２０〜５，０００ｎｇ、例えば、２０〜２００、２００〜４００、４００〜６００、６００〜１，０００、１，０００〜１，５００または２，０００〜３，０００ｎｇ（境界値を含む）である。

いくつかの実施形態において、ＱＩＡＧＥＮＭｕｌｔｉｐｌｅｘＰＣＲＫｉｔが使用される（ＱＩＡＧＥＮカタログ番号２０６１４３）。１００×５０μｌのマルチプレックスＰＣＲ反応について、キットは、２×ＱＩＡＧＥＮＭｕｌｔｉｐｌｅｘＰＣＲＭａｓｔｅｒＭｉｘ（３ｍＭＭｇＣｌ２の最終濃度を提供する、３×０．８５ｍｌ）、５×Ｑ−Ｓｏｌｕｔｉｏｎ（１×２．０ｍｌ）およびＲＮａｓｅ−ＦｒｅｅＷａｔｅｒ（２×１．７ｍｌ）を含む。ＱＩＡＧＥＮＭｕｌｔｉｐｌｅｘＰＣＲＭａｓｔｅｒＭｉｘ（ＭＭ）は、ＫＣｌおよび（ＮＨ４）２ＳＯ４の組み合わせに加え、テンプレートでのプライマーの局所濃度を増加させるＰＣＲ添加剤ＦａｃｔｏｒＭＰを含む。ＦａｃｔｏｒＭＰは、特異的に結合したプライマーを安定化させ、ＨｏｔＳｔａｒＴａｑＤＮＡＰｏｌｙｍｅｒａｓｅによる効率的なプライマー伸長を可能にする。ＨｏｔＳｔａｒＴａｑＤＮＡＰｏｌｙｍｅｒａｓｅは、ＴａｑＤＮＡポリメラーゼの修飾された形態であり、周囲温度でポリメラーゼ活性を有しない。いくつかの実施形態において、ＨｏｔＳｔａｒＴａｑＤＮＡＰｏｌｙｍｅｒａｓｅは、任意の既存のサーマルサイクラープログラムに組み込むことが可能な、９５℃で１５分間のインキュベーションによって活性化する。

いくつかの実施形態において、１×ＱＩＡＧＥＮＭＭ最終濃度（推奨濃度）、７．５ｎＭのライブラリ中の各プライマー、５０ｍＭのＴＭＡＣおよび２０ｕｌの最終体積中の７ｕｌのＤＮＡテンプレートが使用される。いくつかの実施形態において、ＰＣＲ熱サイクル条件は、９５℃で１０分間（ホットスタート）、９６℃で３０秒間、６５℃で１５分間、７２℃で３０秒間を２０サイクル、その後７２℃で２分間（最終伸長）、次いで４℃で保持を含む。

いくつかの実施形態において、２×ＱＩＡＧＥＮＭＭ最終濃度（推奨濃度の２倍）、２ｎＭのライブラリ中の各プライマー、７０ｍＭのＴＭＡＣおよび２０ｕｌの全体積中の７ｕｌのＤＮＡテンプレートが使用される。いくつかの実施形態において、４ｍＭまでのＥＤＴＡも含まれる。いくつかの実施形態において、ＰＣＲ熱サイクル条件は、９５℃で１０分間（ホットスタート）、９６℃で３０秒間、６５℃で２０、２５、３０、４５、６０、１２０または１８０分間、任意選択で、７２℃で３０秒間を２５サイクル）、その後７２℃で２分間（最終伸長）、次いで４℃で保持を含む。

条件の別の例示的なセットは、セミネスティッドＰＣＲ手法を含む。第１のＰＣＲ反応は、２×ＱＩＡＧＥＮＭＭ最終濃度、１．８７５ｎＭのライブラリ中の各プライマー（順方向および逆方向のアウタープライマー）およびＤＮＡテンプレートを含む、２０ｕｌの反応体積を使用する。
熱サイクルパラメータは、９５℃で１０分間、９６℃で３０秒間、６５℃で１分間、５８℃で６分間、６０℃で８分間、６５℃で４分間および７２℃で３０秒間を２５サイクル、次いで７２℃で２分間、次いで４℃で保持を含む。次に、１：２００に希釈された、得られた産物２ｕｌを、第２のＰＣＲ反応のインプットとして使用する。この反応は、１×ＱＩＡＧＥＮＭＭ最終濃度、２０ｎＭの各インナー順方向プライマーおよび１ｕＭの逆方向プライマータグを含む、１０ｕｌの反応体積を使用する。熱サイクルパラメータは、９５℃で１０分間、９５℃で３０秒間、６５℃で１分間、６０℃で５分間、６５℃で５分間および７２℃で３０秒間を１５サイクル、次いで７２℃で２分間、次いで４℃で保持を含む。アニーリング温度は、任意選択で、本明細書で考察されるように、プライマーのいくつかまたは全ての融点より高くてもよい（その全体が本明細書に参考として組み込まれる、２０１５年１０月２０日に出願された米国特許出願第１４／９１８，５４４号を参照）。

融点（Ｔ_ｍ）は、オリゴヌクレオチド（例えばプライマー）およびその完全相補体のＤＮＡ二本鎖の半分（５０％）が解離し、一本鎖ＤＮＡになる温度である。アニーリング温度（Ｔ_Ａ）は、ＰＣＲプロトコルを実行する温度である。従来の方法について、この温度は、通常は、使用するプライマーの最も低いＴ_ｍより５℃低いため、全ての可能な二本鎖に近いものが形成される（その結果、実質的に全てのプライマー分子が、テンプレート核酸に結合する）。これは、高効率ではあるが、より低い温度では、より多くの非特異的反応が生じることが確実である。Ｔ_Ａが低すぎることの結果の１つは、内部の単一塩基ミスマッチまたは部分的アニーリングが許容され得るため、プライマーが真の標的以外の配列にアニーリングし得ることである。本発明のいくつかの実施形態において、Ｔ_ＡはＴ_ｍより高く、所与の瞬間に、標的のわずかな部分のみが、アニーリングされたプライマーを有する（例えば、約１〜５％のみ）。これらが伸長されると、プライマーおよび標的のアニーリングおよび解離の平衡から除去され（伸長は、Ｔ_ｍを７０℃より上まで迅速に増加させるため）、標的の新しい約１〜５％がプライマーを有する。したがって、アニーリングのために反応を長時間行うことによって、サイクルごとにコピーされる標的の約１００％を得ることができる。

種々の実施形態において、アニーリング温度は、非同一プライマーの少なくとも２５、５０、６０、７０、７５、８０、９０、９５または１００％の融点（例えば、経験的に測定されたか、または計算されたＴ_ｍ）よりも１、２、３、４、５、６、７、８、９、１０、１１、１２、１３℃から範囲の上限で２、３、４、５、６、７、８、９、１０、１１、１２、１３でまたは１５℃高い。種々の実施形態において、アニーリング温度は、非同一プライマーの少なくとも２５、５０、７５、１００、３００、５００、７５０、１，０００、２，０００、５，０００、７，５００、１０，０００、１５，０００、１９，０００、２０，０００、２５，０００、２７，０００、２８，０００、３０，０００、４０，０００、５０，０００、７５，０００、１００，０００、または全ての融点（例えば、経験的に測定されたか、または計算されたＴ_ｍ）よりも１〜１５℃（例えば、１〜１０、１〜５、１〜３、３〜５、５〜１０、５〜８、８〜１０、１０〜１２または１２〜１５℃（境界値を含む））高い。種々の実施形態において、アニーリング温度は、非同一プライマーの少なくとも２５％、５０％、６０％、７０％、７５％、８０％、９０％、９５％または全ての融点（例えば、経験的に測定されたか、または計算されたＴ_ｍ）よりも１〜１５℃（例えば、１〜１０、１〜５、１〜３、３〜５、３〜８、５〜１０、５〜８、８〜１０、１０〜１２または１２〜１５℃（境界値を含む））高く、アニーリング工程の長さ（ＰＣＲサイクル当たり）は、５〜１８０分間、例えば、１５〜１２０分間、１５〜６０分間、１５〜４５分間または２０〜６０分間（境界値を含む）である。

例示的なマルチプレックスＰＣＲ種々の実施形態において、長いアニーリング時間（本明細書で考察され、実施例１２に例示される通り）および／または低いプライマー濃度を使用する。実際に、特定の実施形態において、制限されたプライマー濃度および／または条件が使用される。種々の実施形態において、アニーリング工程の長さは、範囲の下限で１５、２０、２５、３０、３５、４０、４５または６０分間から、範囲の上限で２０、２５、３０、３５、４０、４５、６０、１２０または１８０分間である。種々の実施形態において、アニーリング工程の長さ（ＰＣＲサイクル当たり）は、３０〜１８０分間である。例えば、アニーリング工程は、３０〜６０分間であってもよく、各プライマーの濃度は、２０、１５、１０または５ｎＭ未満であってもよい。他の実施形態において、プライマー濃度は、範囲の下限で１、２、３、４、５、６、７、８、９、１０、１５、２０または２５ｎＭから、範囲の上限で２、３、４、５、６、７、８、９、１０、１５、２０、２５および５０ｎＭである。

高レベルの多重化では、溶液中の多量のプライマーに起因して、溶液が粘性になる場合がある。溶液が粘性すぎる場合、プライマー濃度を、プライマーがテンプレートＤＮＡに結合するのに依然として十分な量まで下げてもよい。種々の実施形態において、１，０００〜１００，０００種類の異なるプライマーが使用され、各プライマーの濃度は、２０ｎＭ未満、例えば１０ｎＭ未満または１〜１０ｎＭ（境界値を含む）である。

一般的に言えば、移植に関して、免疫系は、同種移植片を身体にとって異物として認識し、同種移植片を拒絶するための種々の免疫機構を活性化することができ、移植を拒絶する通常の免疫系応答を医学的に抑制することがしばしば必要である。したがって、従来の試験よりも感度が高く、より具体的な移植拒絶のための非侵襲的試験の必要性が存在する。本明細書に記載される方法およびシステムを使用して、この必要性に対処することができる。

例えば、いくつかの実施形態において、本開示は、拡張データを使用してニューラルネットワークを訓練するための方法であって、訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子位置のそれぞれの真の移植拒絶状態値を判定することと、それぞれの移植拒絶状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、ニューラルネットワークは、複数の重みによって少なくとも部分的に定義される、判定することと、を含む。本方法は、終了条件が満たされるまで、ニューラルネットワークを反復的に修正することをさらに含んでもよく得、修正することは、複数のケースを含むデータのバッチを判定することであって、各ケースは、複数の遺伝子位置に対応し、それぞれの遺伝子位置の１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、バッチの複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、バッチに合成ケースを含めて、拡張バッチを生成することと、合成ケースに基づいて、真の移植拒絶状態値を拡張することと、ニューラルネットワークを介してデータのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、ネットワーク出力に基づいて、複数の重みのうちの１つ以上を修正することと、を含む。

本明細書に開示されるいくつかの実施形態は、移植レシピエント内の移植拒絶の尤度を決定する方法を提供し、本方法は、ａ）移植レシピエントの血液サンプルからＤＮＡを抽出することと、ｂ）標的遺伝子座で抽出されたＤＮＡを濃縮することと、ｃ）標的遺伝子座を増幅することと、ｄ）移植ＤＮＡの量およびレシピエント血液サンプル内のレシピエントＤＮＡの量を測定することと、を含み、より多い量のｄｄ−ｃｆＤＮＡは、移植拒絶の尤度がより高いことを示す。本明細書に記載される特定のニューラルネットワークを使用して、移植を拒絶される尤度が高いか、拒絶される尤度が低いとして分類するか、またはある程度の粒度でその可能性を分類することができる。例えば、移植状態拒絶値は、ｄｄ−ｃｆＤＮＡの量、移植ＤＮＡの量、レシピエントＤＮＡの量、および／または移植の拒絶もしくは成功を含むことができる。この点での合成ケースは、移植状態拒絶値の「真」値が移植が拒絶されたケースを表す生成されたデータセット（例えば、ｄｄ−ｃｆＤＮＡの量を指定する）を含んでもよい。本明細書に記載の技術を使用して、ニューラルネットワークを訓練して、移植の成功の尤度を決定することができ、ニューラルネットワークを使用して、成功の尤度を決定または予測を呼び出すことができる。

ここでいくつかの例示的な実施態様を記載したが、前述が例示的であり、限定的ではなく、例として提示されたことが明らかである。特に、本明細書に提示される例の多くは、方法行為またはシステム要素の特定の組み合わせを伴うが、それら行為および要素は、同じ目的を達成するために他の方法で組み合わされてもよい。１つの実装態様に関連して議論される行為、要素、および特徴は、他の実装態様または実装態様における同様の役割から除外されることを意図していない。

本明細書で使用される語句および用語は、説明の目的のためのものであり、限定とみなされるべきではない。本明細書における「含む（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含有する（ｃｏｎｔａｉｎｉｎｇ）」、「伴う（ｉｎｖｏｌｖｉｎｇ）」、「によって特徴付けられる（ｃｈａｒａｃｔｅｒｉｚｅｄｂｙ）」、「ことにおいて特徴付けられる（ｃｈａｒａｃｔｅｒｉｚｅｄｉｎｔｈａｔ）」、およびそれらの変形例の使用は、その後に列挙される項目、それらの等価物、および追加の項目、ならびに排他的にその後に列挙される項目のみからなる代替の実施態様を包含することを意味する。一実施態様において、本明細書に記載されるシステムおよび方法は、記載される要素、行為、または構成要素のうちの１つ、複数の各組み合わせ、または全てからなる。

単数形で言及される本明細書におけるシステムおよび方法の実装態様、要素または行為への任意の言及はまた、複数のこれらの要素を含む実装態様を包含してもよく、本明細書における任意の実装態様、要素または行為への任意の複数形の言及もまた、単一の要素のみを含む実装態様を包含してもよい。単数形または複数形の言及は、現在開示されているシステムまたは方法、その構成要素、行為、または要素を単一または複数の構成に限定することを意図していない。任意の行為または要素が任意の情報、行為または要素に基づいていることへの言及は、行為または要素が少なくとも部分的に任意の情報、行為、または要素に基づく実装を含んでもよい。

本明細書に開示される任意の実施態様は、任意の他の実施態様と組み合わせられてもよく、「実施態様」、「いくつかの実施態様」、「１つの実施態様」などへの言及は、必ずしも相互排他的ではなく、その実施態様に関連して記載される特定の特性、構造、または特徴が、少なくとも１つの実施態様に含まれてもよいことを示すことが意図される。本明細書で使用されるそのような用語は、必ずしも全て同じ実施態様を指すわけではない。任意の実施態様は、本明細書に開示される態様および実施態様と一致する任意の方法で、包括的または排他的に、任意の他の実施態様と組み合わせられてもよい。

本明細書で使用され、別段定義されない場合、用語「実質的に」、「実質的な」、「およそ」、および「約」、ならびに数字（例えば、「〜１００」）に適用される記号「〜」は、小さな変動を記載および説明するために使用される。イベントまたは状況と併せて使用されるときに、用語は、イベントまたは状況が正確に発生するインスタンスと、イベントまたは状況が近似に発生するインスタンスとを包含することができる。例えば、数値と組み合わせて使用されるときに、用語は、±５％以下、±４％以下、±３％以下、±２％以下、±１％以下、±０．５％以下、±０．１％以下、または±０．０５％以下など、その数値の±１０％以下の変動範囲を包含することができる。

本明細書および特許請求の範囲において本明細書で使用される不定冠詞「ａ」および「ａｎ」は、明確に反対の指示がない限り、「少なくとも１つ」を意味すると理解されるべきである。”

「または」への言及は、「または」を使用して記載された任意の用語が、記載された用語のうちの単一、複数、および全てのいずれかを示し得るように、包括的であると解釈されてもよい。例えば、「「Ａ」および「Ｂ」の少なくとも１つ」への言及は、「Ａ」のみ、「Ｂ」のみ、ならびに「Ａ」および「Ｂ」の両方を含むことができる。「含む（ｃｏｍｐｒｉｓｉｎｇ）」または他のオープン用語と組み合わせて使用されるそのような言及は、追加の項目を含んでもよい。

図面、詳細な説明、または任意の特許請求の範囲の技術的特徴に参照符号が続く場合、参照符号は、図面、詳細な説明、および特許請求の範囲の理解性を高めるために含まれている。したがって、参照符号も、それらがないことも、任意の請求項の要素の範囲に対していかなる限定効果もない。

本明細書に記載されるシステムおよび方法は、その特徴から逸脱することなく、他の特定の形態で具体化されてもよい。前述の実施態様は、記載されるシステムおよび方法を限定するのではなく、例示的である。したがって、本明細書に記載されるシステムおよび方法の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示され、特許請求の範囲と等価の意味および範囲内に入る変更がその中に包含される。

Claims

胎児染色体の倍数性状態を検出するための方法であって、
胎児由来の無細胞ＤＮＡと母体由来の無細胞ＤＮＡとの混合物を含む妊婦の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルネットワークを介して伝播させることによって、前記胎児染色体の倍数性状態を呼び出すことと、を含む、方法。
癌の早期検出のための方法であって、
腫瘍由来の無細胞ＤＮＡと正常な組織由来の無細胞ＤＮＡとの混合物を含む癌を有することが疑われる対象の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
癌の再発または転移を検出するための方法であって、
腫瘍由来の無細胞ＤＮＡと正常な組織由来の無細胞ＤＮＡとの混合物を含む癌患者の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
移植拒絶を検出するための方法であって、
ドナー由来の無細胞ＤＮＡとレシピエント由来の無細胞ＤＮＡとの混合物を含む移植レシピエントの生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータをニューラルを介して伝播させることによって、前記移植レシピエントの移植拒絶状態を呼び出すことと、を含む、方法。
前記ニューラルネットワークが、それぞれの状態値を呼び出すための１つ以上の層を含み、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、請求項１〜４のいずれか一項に記載の方法。
前記ニューラルネットワークが、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、を含む、請求項１〜４のいずれか一項に記載の方法。
前記複数のＳＮＶ遺伝子座が、少なくとも１０、または少なくとも２０、または少なくとも５０、または少なくとも１００、または少なくとも２００、または少なくとも５００、または少なくとも１，０００、または少なくとも２，０００、または少なくとも５，０００、または少なくとも１０，０００のＳＮＶ遺伝子座を含む、請求項１〜４のいずれか一項に記載の方法。
前記増幅産物が、少なくとも２００、または少なくとも５００、または少なくとも１，０００、または少なくとも２，０００、または少なくとも５，０００、または少なくとも１０，０００、または少なくとも２０，０００、または少なくとも５０，０００、または少なくとも１００，０００のリード深度で配列決定される、請求項１〜４のいずれか一項に記載の方法。
出生前検査を実施する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを決定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースは、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
損失値に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、
妊婦から抽出された血漿を含む試験サンプルを選択することと、
前記試験サンプルについて、前記修正されたニューラルネットワークを介して前記試験サンプルについての遺伝子配列決定データまたは前記試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む、方法。
前記訓練サンプルが、遺伝子配列決定データを使用して表される血漿サンプルを含む、請求項９に記載の方法。
前記合成ケースが、前記複数のケースのうちの前記１つ以上のセグメントのホモログであるセグメントを含み、第２のニューラルネットワークを使用して前記ホモログを生成することをさらに含む、請求項９に記載の方法。
前記第２のニューラルネットワークが、敵対的生成ネットワークである、請求項１１に記載の方法。
前記敵対的生成ネットワークが、非位相性遺伝子型を生成するように訓練された生成ネットワークを含み、前記方法は、
前記非位相性遺伝子型を使用して統計を生成することと、
前記統計を使用して前記合成ケースを生成することと、を含む、請求項１２に記載の方法。
前記第２のネットワークが、オートエンコーダネットワークを含む、請求項９に記載の方法。
前記合成ケースを生成することが、前記複数のケースのうちの１つのケースについて染色体微小欠失をシミュレートすることを含む、請求項９に記載の方法。
前記試験サンプルが血漿サンプルを含み、前記血漿サンプルが胎児からの無細胞ＤＮＡ（ｃｆＤＮＡ）と宿主ＤＮＡとの混合物であり、前記ニューラルネットワークの重みが、前記ニューラルネットワークに、前記染色体微小欠失に対応する遺伝子領域について前記胎児からの遺伝物質の前記倍数性状態をより良く判定させるように修正される、請求項９に記載の方法。
前記宿主が妊婦であり、前記血漿サンプルが少なくとも前記妊婦の血漿サンプルであり、前記ニューラルネットワークを使用して、前記ニューラルネットワークを介して前記妊婦の血漿サンプルの配列決定データを渡すことによって、前記妊婦の前記胎児における特定の微小欠失の発生を予測することをさらに含む、請求項１６に記載の方法。
前記バッチに含まれる複数の前記ケースについて染色体微小欠失をシミュレートすることによって、前記合成ケースを含む複数の合成ケースを生成することをさらに含み、前記染色体微小欠失が、特定の遺伝子領域に関するものである、請求項１７に記載の方法。
着床前遺伝子スクリーニングを実施する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
損失値に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、
胚から試験サンプルを選択することと、
前記試験サンプルについて、前記修正されたニューラルネットワークを介して前記試験サンプルについての遺伝子配列決定データまたは前記試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む、方法。
前記試験サンプルが、胚サンプルと、母サンプルおよび父サンプルのうち少なくとも１つとを含み、母系対立遺伝子頻度および父系対立遺伝子頻度のうち少なくとも１つを指定する、請求項１９に記載の方法。
前記修正することが、前記ニューラルネットワークを介して前記データのバッチを伝播させる前に前記データのバッチを摂動することをさらに含む、請求項１９に記載の方法。
前記データのバッチを摂動することが、前記アレイリードにそれぞれのスカラーを乗算することによって、一塩基多型について複数のアレイリードを並べ替えることを含む、請求項２１に記載の方法。
前記終了条件が、前記１つ以上の損失値のうちの少なくともいくつかが所定の閾値以下であることに基づく、請求項１９に記載の方法。
前記訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することが、
対象の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の標的塩基を含む複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数の標的塩基のうちの１つ以上の配列決定リードを取得することと、を含む、請求項１９に記載の方法。
前記複数の標的塩基が、少なくとも１０、または少なくとも２０、または少なくとも５０、または少なくとも１００、または少なくとも２００、または少なくとも５００、または少なくとも１，０００のＳＮＶ遺伝子座を含む、請求項２４に記載の方法。
前記増幅産物が、少なくとも２００、または少なくとも５００、または少なくとも１，０００、または少なくとも２，０００、または少なくとも５，０００、または少なくとも１０，０００、または少なくとも２０，０００、または少なくとも５０，０００、または少なくとも１００，０００のリード深度で配列決定される、請求項２４に記載の方法。
拡張データを使用してニューラルネットワークを訓練する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、を含む、方法。
前記合成ケースを生成することが、
前記複数のケースの第１のケースの第１のセグメントの一部を選択することと、
前記複数のケースの第２のケースの第２のセグメントの一部を選択することと、
前記第１のセグメントの前記一部を前記第２のセグメントの前記一部に置き換えることと、を含む、請求項２７に記載の方法。
前記第２のセグメントが前記真の状態値に基づいて異数性を有すると判定することをさらに含み、前記第２のセグメントの前記一部を選択することが、前記第２のセグメントが異数性を有するとの前記判定に基づく、請求項２８に記載の方法。
前記遺伝子配列決定データまたは前記遺伝子アレイデータが、Ｃｙｔｏ１２ｂアレイまたは標的一塩基多型（ＳＮＰ）プールを含む、請求項２７に記載の方法。
前記遺伝子配列決定データが読み取りカウントの数を含む、請求項２７に記載の方法。
前記血漿サンプルが、宿主からの生殖細胞系および体細胞変異体を標的とする遺伝子データの混合物を表し、前記ニューラルネットワーク重みが、前記血漿中の癌性体細胞変異体の量をよりよく定量化するように修正される、請求項２７に記載の方法。
前記ニューラルネットワークを使用して、少なくとも１つのヒト宿主における癌の発生を予測することをさらに含む、請求項３２に記載の方法。
サブ染色体倍数性状態を呼び出すためのニューラルネットワークを訓練するためのシステムであって、
プロセッサと、
非一時的メモリに記憶されたプロセッサ実行可能命令と、を含み、前記プロセッサ実行可能命令は、前記プロセッサによって実行されるときに、前記プロセッサに、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは前記遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースは、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記複数のケースの第１のケースの第１のセグメントの一部を選択することと、
前記真の状態値に基づいて、異数性を有する前記複数のケースのうちの第２のケースの第２のセグメントを選択することと、
前記第２のセグメントの一部を選択することと、
前記第１のセグメントの前記一部を前記第２のセグメントの前記一部に置き換えて合成ケースを生成し、前記バッチに前記合成ケースを含めて拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、を含む、システム。
前記第１のセグメントの前記一部を選択することが、第１の連続部分を選択することを含み、前記第２のセグメントの前記一部を選択することが、第２の連続部分を選択することを含む、請求項３４に記載のシステム。
前記第１のセグメントの前記一部を選択することが、確率的プロセスを使用して前記第１のセグメントについての開始位置を選択することを含む、請求項３５に記載のシステム。
前記第２のセグメントの前記一部は、前記第１のセグメントと同じ開始位置を有するように選択される、請求項３６に記載のシステム。
ニューラルネットワークを使用して倍数性状態を呼び出す方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは遺伝子アレイデータに基づいて、複数の遺伝子セグメントのそれぞれの真の倍数性状態値を判定することであって、各遺伝子セグメントがそれぞれ、前記複数の遺伝子位置の少なくともいくつかを含む、判定することと、
それぞれの倍数性状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、前記複数の遺伝子セグメントのそれぞれの遺伝子セグメントに対応し、前記それぞれの遺伝子セグメントの１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの倍数性状態値を含むネットワーク出力を生成することと、
損失関数および前記真の倍数性状態値を使用して、前記１つ以上のそれぞれの倍数性状態値に基づいて、１つ以上の損失値を判定することと、
前記損失値に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、
試験サンプルについて、前記修正されたニューラルネットワークを介して前記試験サンプルについての遺伝子配列決定データまたは前記試験サンプルについての遺伝子アレイデータを伝播させることによって、標的遺伝子領域についての倍数性状態を呼び出すことと、を含む、方法。
前記複数の遺伝子位置が、第１の数の遺伝子位置であり、
前記複数のケースが、第２の数のケースであり、
前記ニューラルネットワークを介して前記データのバッチを伝播させることが、前記ニューラルネットワークを介してテンソルを伝播させることを含み、前記テンソルが、前記第１の数に対応する長さを有する第１の次元と、前記第２の数に対応する長さを有する第２の次元と、第３の数のデータチャネルに対応する長さを有する第３の次元とを有する、請求項３８に記載の方法。
前記訓練サンプルが、胚サンプル、母サンプル、および父サンプルと含み、
前記データチャネルが、少なくとも胚対立遺伝子頻度、母系対立遺伝子頻度、および父系対立遺伝子頻度を含む、請求項３９に記載の方法。
前記訓練サンプルが、血漿サンプルを含み、
前記データチャネルが、血漿対立遺伝子頻度を含む、請求項３９に記載の方法。
前記ネットワーク出力が、各データチャネルについてそれぞれの結果を含む複数の結果セットを含み、各結果セットは、前記複数の遺伝子位置の少なくともそれぞれの遺伝子位置に特異的である、請求項３９に記載の方法。
前記修正することが、前記ニューラルネットワークを介して前記データのバッチを伝播させる前に前記データのバッチを摂動することをさらに含む、請求項３８に記載の方法。
前記訓練サンプルが、血液、血清、血漿、尿、および生検サンプルから選択される、請求項３８に記載の方法。
前記複数の標的塩基が、前記ＴＣＧＡおよびＣＯＳＭＩＣデータセットにおいて特定されたＳＮＶ遺伝子座から選択される、請求項３８に記載の方法。
拡張データを使用してニューラルネットワークを訓練する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは前記遺伝子アレイデータに基づいて、複数の遺伝子位置のそれぞれの真の癌状態値を判定することと、
それぞれの癌状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、複数の遺伝子位置に対応し、前記それぞれの遺伝子位置の１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の癌状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの癌状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、を含む、方法。
拡張データを使用してニューラルネットワークを訓練する方法であって、
訓練サンプルについて、複数の遺伝子位置に関する遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記遺伝子配列決定データまたは前記遺伝子アレイデータに基づいて、複数の遺伝子位置のそれぞれの真の移植拒絶状態値を判定することと、
それぞれの移植拒絶状態値を呼び出すための１つ以上の層を含むニューラルネットワークを判定することであって、前記ニューラルネットワークが、複数の重みによって少なくとも部分的に定義される、判定することと、
終了条件が満たされるまで前記ニューラルネットワークを反復的に修正することであって、
複数のケースを含むデータのバッチを判定することであって、各ケースが、複数の遺伝子位置に対応し、前記それぞれの遺伝子位置の１つ以上の位置に関する対立遺伝子頻度を示すデータを含む、判定することと、
前記バッチの前記複数のケースのうちの１つ以上に基づいて、合成ケースを生成し、前記バッチに前記合成ケースを含めて、拡張バッチを生成することと、
前記合成ケースに基づいて、前記真の移植拒絶状態値を拡張することと、
前記ニューラルネットワークを介して前記データのバッチを伝播させて、各ケースに対する１つ以上のそれぞれの移植拒絶状態値を含むネットワーク出力を生成することと、
前記ネットワーク出力に基づいて、前記複数の重みのうちの１つ以上を修正することと、を含む、修正することと、を含む、方法。
請求項２７に記載の方法によって得られるニューラルネットワーク。
請求項４６に記載の方法によって得られるニューラルネットワーク。
請求項４７に記載の方法によって得られるニューラルネットワーク。
胎児染色体の倍数性状態を検出するための方法であって、
胎児由来の無細胞ＤＮＡと母体由来の無細胞ＤＮＡとの混合物を含む妊婦の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項４８に記載のニューラルネットワークを介して伝播させることによって、前記胎児染色体の倍数性状態を呼び出すことと、を含む、方法。
癌の早期検出のための方法であって、
腫瘍由来の無細胞ＤＮＡと正常な組織由来の無細胞ＤＮＡとの混合物を含む癌を有することが疑われる対象の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項４９に記載のニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
癌の再発または転移を検出するための方法であって、
腫瘍由来の無細胞ＤＮＡと正常な組織由来の無細胞ＤＮＡとの混合物を含む癌患者の生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項４９に記載のニューラルネットワークを介して伝播させることによって、前記対象の癌状態を呼び出すことと、を含む、方法。
移植拒絶を検出するための方法であって、
ドナー由来の無細胞ＤＮＡとレシピエント由来の無細胞ＤＮＡとの混合物を含む移植レシピエントの生体サンプルから無細胞ＤＮＡを単離することと、
前記単離された無細胞ＤＮＡから複数の一塩基バリアント（ＳＮＶ）遺伝子座を増幅することと、
増幅産物を配列決定して、前記複数のＳＮＶ遺伝子座の遺伝子配列決定データまたは遺伝子アレイデータを判定することと、
前記複数のＳＮＶ遺伝子座の前記配列決定データまたは遺伝子アレイデータを請求項５０に記載のニューラルネットワークを介して伝播させることによって、前記移植レシピエントの移植拒絶状態を呼び出すことと、を含む、方法。