JP2021534803A

JP2021534803A - 無細胞核酸試料におけるアレル不均衡を検出するための方法およびシステム

Info

Publication number: JP2021534803A
Application number: JP2021512247A
Authority: JP
Inventors: ジンジャオ，; スティーブンフェアクロー，; トレイシーナンス，; ジエイン，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2018-09-04
Filing date: 2019-09-04
Publication date: 2021-12-16
Also published as: EP3847276A2; WO2020096691A3; WO2020096691A2; US20200075124A1

Abstract

本明細書において、アレル不均衡試料と、コンタミネーションが生じた試料または第２のゲノムを含む試料との区別において直面する問題が認識される。コンタミネーションまたは第２のゲノムを含む試料からの無細胞核酸をアッセイする場合、そのような試料は、追加の人手による精査、または追加のシーケンシングランの実施を必要とすることがある。その結果、アレル不均衡試料と、コンタミネーションが生じた試料または第２ゲノム試料との識別に失敗すると、そのような試料を信頼性をもってアッセイするためのコストと所要時間が著しく増大しうる。

Description

相互参照
本出願は、２０１８年９月４日に出願された米国仮特許出願第６２／７２６，９２２号、および２０１９年２月２６日に出願された米国仮特許出願第６２／８１０，６２５号に基づく利益を主張し、これらの出願は、それぞれ参照によりその全体が本明細書に援用される。

背景
がんの対象（例えば、患者）において、アレル不均衡は、ヘテロ接合性の喪失によって引き起こされることがあり、また、アレル不均衡がない試料と比較して、対象からの無細胞核酸試料のアッセイにおいて、異なった変異アレル割合（ＭＡＦ）分布をもたらしうる。例えば、アレル不均衡がある試料は、ＭＡＦが非常に低い生殖系列バリアントを含みうる。例えばシーケンシングのための処置中などに、試料にコンタミネーションが生じた場合や、試料が、例えば移植片、輸血、または胎児から生じた（対象のゲノム以外の）第２のゲノムを含む場合にも、ＭＡＦが低い生殖系列バリアントが観察されることがある。

要旨
本明細書において、アレル不均衡試料と、コンタミネーションが生じた試料または第２のゲノムを含む試料との区別において直面する問題が認識される。コンタミネーションまたは第２のゲノムを含む試料からの無細胞核酸をアッセイする場合、そのような試料は、追加の人手による精査、または追加のシーケンシングランの実施を必要とすることがある。その結果、アレル不均衡試料と、コンタミネーションが生じた試料または第２ゲノム試料との識別に失敗すると、そのような試料を信頼性をもってアッセイするためのコストと所要時間が著しく増大しうる。本開示は、無細胞核酸試料におけるアレル不均衡またはコンタミネーションを識別する方法およびシステムを提供する。これらの方法およびシステムによれば、小さなバリアントおよびコピー数多型の定量的測定値を取得および解析することによって、アレル不均衡またはコンタミネーションを識別しうる。

一態様において、本開示は、対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、（ａ）前記試料からの複数の無細胞核酸分子をシーケンシングして、複数の配列リードを生成すること；（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有する）；（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を所定の基準に基づいて検出すること、を含む方法を提供する。

一態様において、本開示は、対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、（ａ）前記試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子をシーケンシングして、複数の配列リードを生成すること；（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有する）；（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を所定の基準に基づいて検出すること、を含む方法を提供する。

いくつかの実施形態において、前記（ｅ）における検出は、前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を検出すること（ここで、前記所定の基準は、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含む）を含む。

いくつかの実施形態において、本方法は、前記試料において前記アレル不均衡の非存在が検出された場合に、前記試料におけるコンタミネーションまたは第２のゲノムの存在または非存在を検出することをさらに含む。

いくつかの実施形態において、前記生殖系列バリアントのセットは、少なくとも約５０、少なくとも約１００、少なくとも約２００、少なくとも約５００、少なくとも約１，０００、少なくとも約２，０００、少なくとも約５，０００、少なくとも約１０，０００または約１０，０００を超える異なる生殖系列バリアントを含む。いくつかの実施形態において、前記遺伝子バリアントのセットは、一塩基バリアント（ＳＮＶ）、挿入または欠失（挿入欠失）、および融合からなる群から選択される遺伝子バリアントを含む。いくつかの実施形態において、前記試料は、血液、血漿、血清、尿、唾液、粘膜分泌物、喀痰、便、および涙からなる群から選択される体液試料である。いくつかの実施形態において、前記対象は、疾患または障害を有する。いくつかの実施形態において、前記疾患は、がんである。

いくつかの実施形態において、前記方法は、シーケンシングの前に、無細胞ＤＮＡ分子を増幅することをさらに含む。いくつかの実施形態において、前記方法は、シーケンシングの前に、遺伝子座のセットについて前記無細胞ＤＮＡ分子を選択的に富化することをさらに含む。いくつかの実施形態において、前記方法は、シーケンシングの前に、バーコードを含む１つまたはそれを超えるアダプターを、前記無細胞ＤＮＡ分子に結合させることをさらに含む。いくつかの実施形態において、前記１つまたはそれを超えるアダプターは、前記無細胞ＤＮＡ分子の両方の末端にランダムに結合される。いくつかの実施形態において、前記無細胞ＤＮＡ分子は、固有にバーコード化される。いくつかの実施形態において、前記無細胞ＤＮＡ分子は、非固有にバーコード化される。いくつかの実施形態において、各バーコードは、選択された領域からシーケンシングされた分子の多様性と組み合わせて、固有の無細胞ＤＮＡ分子の識別を可能にする、既定のまたはセミランダムなオリゴヌクレオチド配列を含む。いくつかの実施形態において、前記複数のゲノム領域は、ＣＯＳＭＩＣ、ＴＣＧＡ（ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ）、またはＥｘＡＣ（ＥｘｏｍｅＡｇｇｒｅｇａｔｉｏｎＣｏｎｓｏｒｔｉｕｍ）中に見いだされる遺伝子バリアントを含む。いくつかのケースにおいて、遺伝子バリアントは、臨床的に利用可能なバリアントの既定のセットに属していてもよい。例えば、そのようなバリアントは、対象の試料におけるそのバリアント存在が、その対象における疾患もしくは障害（例えば、がん）と関連すること、またはその対象における疾患もしくは障害（例えば、がん）を表すことが示されているバリアントの種々のデータベース中に見いだされうる。そのようなバリアントのデータベースとしては、例えば、ＣＯＳＭＩＣ（ＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ）、ＴＣＧＡ（ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ）、およびＥｘＡＣ（ＥｘｏｍｅＡｇｇｒｅｇａｔｉｏｎＣｏｎｓｏｒｔｉｕｍ）が挙げられ得る。いくつかの実施形態において、前記複数のゲノム領域は、ＢＲＣＡ１遺伝子バリアント（例えば、ＢＲＣＡ１Ｐ２０９Ｌ）を含む。そのようなカタログ化されたバリアントの既定のセットは、そのようなバリアントが医療判断（例えば、診断、予後、処置の選択、標的化処置、処置モニタリング、再発のモニタリングなど）と関連することから、さらなるバイオインフォマティクス解析用に選定されうる。そのような既定のセットは、パブリックデータベースおよび臨床文献からのアノテーション情報、ならびに、例えば、臨床試料（例えば、疾患または障害の存在または非存在が既知の患者コホートの臨床試料）の分析に基づいて決定されうる。

いくつかの実施形態において、前記複数の別々の範囲のＭＡＦ値は、約３％〜約４０％の第１の範囲、および約６０％〜約９７％の第２の範囲を含む。いくつかの実施形態において、前記（ｄ）の定量的測定値は、ＭＡＦ値の前記複数の別々の範囲の間にある、前記遺伝子バリアントの多数のセットを含む。いくつかの実施形態において、前記所定の基準は、前記（ｄ）の定量的測定値が所定の生殖系列バリアント閾値より大きいことを含む。いくつかの実施形態において、前記所定の生殖系列バリアント閾値は、約２１である。いくつかの実施形態において、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値は、前記試料全体の最大ＣＮＶレベル、前記試料全体の最小ＣＮＶレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される。いくつかの実施形態において、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値は、前記試料全体の最大ＣＮＶレベル、前記試料全体の最小ＣＮＶレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、２つまたはそれを超える定量的測定値を含む。いくつかの実施形態において、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値は、前記試料全体の最大ＣＮＶレベル、前記試料全体の最小ＣＮＶレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、３つまたはそれを超える定量的測定値を含む。いくつかの実施形態において、前記所定の基準は、以下の基準、すなわち、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、からなる群から選択される１つまたはそれを超える基準を含む。いくつかの実施形態において、前記所定の基準は、以下の基準、すなわち、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、からなる群から選択される２つまたはそれを超える基準を含む。いくつかの実施形態において、前記所定の基準は、以下の基準、すなわち、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、からなる群から選択される３つまたはそれを超える基準を含む。いくつかの実施形態において、前記所定の基準は、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、、という基準を含む。いくつかの実施形態において、前記所定の基準は、以下の閾値、すなわち、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、からなる群から選択される１つまたはそれを超える閾値を含む。いくつかの実施形態において、前記所定の基準は、以下の閾値、すなわち、最大ＣＮＶ閾値が約０．２０、約０．２１、または０．２２；最小ＣＮＶ閾値が約−０．１０、約−０．１１、約−０．１２、約−０．１３、約−０．１４、または約−０．１５；二倍体割合閾値が約０．５、約０．６、約０．７、約０．８、約０．９、約０．１０；およびコピー数平均閾値が約５、約６、約７、約８、約９、約１０、または約１５、からなる群から選択される２つまたはそれを超える閾値を含む。いくつかの実施形態において、前記所定の基準は、以下の閾値、すなわち、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、からなる群から選択される３つまたはそれを超える閾値を含む。いくつかの実施形態において、前記所定の基準は、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、という閾値を含む。

いくつかの実施形態において、前記方法は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の陽性的中率（ＰＰＶ）で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの存在を検出することをさらに含む。いくつかの実施形態において、前記方法は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の陰性的中率（ＮＰＶ）で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの非存在を検出することをさらに含む。いくつかの実施形態において、前記ＰＰＶおよび／またはＮＰＶは、コンタミネーション／アレル不均衡の状態が既知である試料の訓練セット（例えば、約１０個の試料、約２０個の試料、約３０個の試料、約４０個の試料、約５０個の試料、約１００個の試料、約１５０個の試料、約２００個の試料、または約２５０個の試料）からの試験データに基づいて決定される。

いくつかの実施形態において、前記方法は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の感度で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの存在を検出することをさらに含む。

いくつかの実施形態において、前記方法は、少なくとも約５０％、少なくとも約５５％、少なくとも約６０％、少なくとも約６５％、少なくとも約７０％、少なくとも約７５％、少なくとも約８０％、少なくとも約８５％、少なくとも約９０％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、または少なくとも約９９％の特異性で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの非存在を検出することをさらに含む。

いくつかの実施形態において、前記方法は、前記生殖系列バリアントを、（ｉ）前記ｃｆＤＮＡ分子からの核酸バリアントについて、総アレル数および変異アレル数を決定すること；（ｉｉ）前記ｃｆＤＮＡ分子からの前記核酸バリアントの関連変数を識別すること；（ｉｉｉ）前記核酸バリアントの前記関連変数についての定量値を決定すること；（ｉｖ）前記核酸バリアントのゲノム遺伝子座において予測される生殖系列変異アレル数についての統計モデルを生成すること；（ｖ）予測される生殖系列変異アレル数についての前記統計モデル、前記核酸バリアントの前記関連変数についての前記定量値、および前記核酸バリアントについての前記総アレル数および前記変異アレル数の少なくとも１つ、に少なくとも部分的に基づいて、前記核酸バリアントについてのＰ値（ｐｒｏｂａｂｉｌｉｔｙｖａｌｕｅ）を生成すること；および（ｖｉ）前記核酸バリアントを、（１）前記核酸バリアントについての前記ｐ値が所定の閾値より小さい場合に体細胞起源であるとして、または（２）前記核酸バリアントについての前記ｐ値が所定の閾値以上である場合に生殖系列起源であるとして分類すること、によって識別することをさらに含む。

いくつかの実施形態において、前記方法は、（ｃ）において所与のＭＡＦで存在するものとして識別された前記生殖系列バリアントのセットの少なくとも１つに基づいて、前記試料におけるアレル特異的喪失を検出することをさらに含む。いくつかの実施形態において、前記試料における前記アレル特異的喪失は、前記生殖系列バリアントのセットの前記少なくとも１つが、前記対象からの前記試料中に、５０％を下回るＭＡＦで存在することに基づいて検出される。いくつかの実施形態において、前記試料における前記アレル特異的喪失は、前記生殖系列バリアントのセットの前記少なくとも１つが、前記対象からの前記試料中、および追加の１つまたはそれを超える対象からの１つまたはそれを超える各試料中に、５０％を下回るＭＡＦで存在することに基づいて検出される。いくつかの実施形態において、前記生殖系列バリアントのセットの前記少なくとも１つは、ＣＯＳＭＩＣ、（ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ；ＴＧＣＡ）、またはＥｘＡＣ（ＥｘｏｍｅＡｇｇｒｅｇａｔｉｏｎＣｏｎｓｏｒｔｉｕｍ）中に見いだされる。いくつかの実施形態において、前記生殖系列バリアントのセットの前記少なくとも１つは、ＢＲＣＡ１遺伝子バリアントである。いくつかの実施形態において、前記ＢＲＣＡ１遺伝子バリアントは、ＢＲＣＡ１Ｐ２０９Ｌである。

別の態様において、本開示は、システムであって、少なくとも１つの電子プロセッサによって実行された場合に、少なくとも（ａ）対象の試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子に対応する、複数の配列リードを得ること；（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有する）；（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中のアレル不均衡の存在または非存在を所定の基準に基づいて検出すること、を実施する非一時的なコンピュータ実行可能命令を含むコンピュータ可読媒体を含むコントローラー、または前記コンピュータ可読媒体にアクセスすることができるコントローラーを含む、システムを提供する。

いくつかの実施形態において、前記（ｅ）における検出は、前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を検出すること（ここで、前記所定の基準は、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含む）をさらに含む。いくつかの実施形態において、前記システムは、前記コントローラーに作動可能に接続された核酸シーケンサー（ここで、前記核酸シーケンサーは、前記試料からの前記複数の無細胞ＤＮＡ分子を処理して、前記複数の配列リードを生成するように構成されている）をさらに含む。

いくつかの実施形態において、前記非一時的なコンピュータ実行可能命令は、少なくとも１つの電子プロセッサによって実行された場合に、前記試料の前記アレル不均衡の存在または非存在についての情報および／または前記試料の前記コンタミネーションもしくは第２のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成すること、をさらに実施する。いくつかの実施形態において、前記非一時的なコンピュータ実行可能命令は、少なくとも１つの電子プロセッサによって実行された場合に、前記レポートを第三者（例えば、前記試料の起源である前記対象、または医療従事者など）に伝えること、をさらに実施する。

一態様において、本開示は、対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、（ａ）前記試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子から生成された複数のシーケンシングリードに、コンピュータシステムによってアクセスすること；（ｂ）前記複数の配列リードの少なくとも一部を、前記コンピュータシステムによって参照配列にアラインして、複数のアラインした配列リードを生成すること；（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを、前記コンピュータシステムによって識別することによって、前記試料中の生殖系列バリアントのセットを識別すること（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有する）；（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を、前記コンピュータシステムによって決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を、前記コンピュータシステムによって、所定の基準に基づいて検出すること、を含む方法を提供する。

いくつかの実施形態において、前記（ｅ）における検出は、（ｆ）前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を、前記コンピュータシステムによって検出すること（ここで、前記所定の基準は、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含む）を含む。

いくつかの実施形態において、前記方法は、前記試料の前記アレル不均衡の前記存在または非存在についての情報および／または前記試料の前記コンタミネーションもしくは第２のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成すること、をさらに含む。いくつかの実施形態において、前記方法は、前記レポートを第三者（例えば、前記試料の起源である前記対象、または医療従事者など）に伝えること、をさらに含む。

本開示の別の態様は、非一時的なコンピュータ可読媒体であって、１つまたはそれを超えるコンピュータプロセッサによる実行の際に、上記方法または本明細書の他の場所に記載されている方法のいずれかを実行するマシン実行可能コードを含む、非一時的なコンピュータ可読媒体を提供する。

本開示の別の態様は、システムであって、１つまたはそれを超えるコンピュータプロセッサ、およびそれに接続されたコンピュータメモリー、を含むシステムを提供する。前記コンピュータメモリーは、前記１つまたはそれを超えるコンピュータプロセッサによる実行の際に、上記方法または本明細書の他の場所に記載されている方法のいずれかを実行する、マシン実行可能コードを含む。

本開示の追加の態様および利点は、以下の詳細な説明（ここで、前記詳細な説明には、本開示の例示的な実施形態だけが示され、かつ説明されている）から、当業者に容易に明らかとなるであろう。認識されるであろうように、本開示は、他の異なる実施形態が可能であり、そのいくつかの細部は種々の明白な点で変更することが可能であり、それらは全て本開示から逸脱するものではない。したがって、図面および説明は、本質的に例示とみなされるべきであり、限定とみなされるべきではない。

図１は、本明細書において提供される方法の例を示す。

図２は、無細胞ＤＮＡ試料におけるアレル不均衡またはコンタミネーションを検出するワークフローの例を示す。

図３は、本明細書において提供される方法を実行するようにプログラムされた、または別のやり方で実行するように構成された、コンピュータシステムを示すダイアグラムである。

定義
本開示の種々の実施形態が本明細書において示されかつ説明されているが、当業者は、そのような実施形態は例として示されているにすぎないことを理解するであろう。多数の変形、変更、および置換が、本開示を逸脱することなく、当業者によって見いだされうる。本明細書に記載の本開示の実施形態に対する種々の代替が採用されうることを理解すべきである。

アダプター：用語「アダプター」は、試料核酸分子のいずれかの末端または両方の末端に結合させるための、通常少なくとも部分的に二本鎖である短い核酸（例えば、長さが５００ヌクレオチド未満、１００ヌクレオチド未満、または５０ヌクレオチド未満）を意味する。アダプターは、両方の末端にアダプターが隣接配置された核酸分子の増幅を可能にするプライマー結合部位、および／またはシーケンシングプライマー結合部位（次世代シーケンシング（ＮＧＳ）のためのプライマー結合部位が含まれる）を含みうる。アダプターは、フローセル支持体に結合したオリゴヌクレオチドなど、捕捉プローブのための結合部位も含みうる。アダプターは、上述のように、タグも含みうる。タグは、好ましくは、核酸分子のアンプリコンおよびシーケンシングリードにタグが含まれるように、プライマーおよびシーケンシングプライマー結合部位に対して配置される。核酸分子の各末端に、同一の、または異なるアダプターを連結することができる。場合により、前記各末端に、タグが異なることを除いて同一のアダプターが連結されることがある。好ましいアダプターは、核酸分子に結合するために、一方の末端が平滑末端または突出末端であるＹ字型アダプターである（前記核酸分子もまた、平滑末端であるか、１つまたはそれを超える相補的ヌクレオチドが突出している）。別の好ましいアダプターは、同様に、分析しようとする核酸に結合するための平滑または突出末端を有する、ベル型アダプターである。

アレル不均衡：用語「アレル不均衡」は、一般に、遺伝子における（例えば、ヘテロ接合性の喪失の結果としての）２つのアレル間のＤＮＡレベルの相異を意味する。アレル不均衡は、遺伝子における２つのアレル間のＤＮＡレベルの比が約１ではない場合に生じうる。例えば、アレル不均衡は、遺伝子インプリンティングの結果として生じうる（遺伝子インプリンティングにおいては、エピジェネティクスおよび環境因子が所与の遺伝子における一方または両方のアレルの発現に影響しうる）。別の例として、シス作用性変異は、遺伝子におけるアレルのペアのうちの１つのアレルの制御に（例えば、プロモーターまたはエンハンサー領域（例えば、転写因子結合部位）の変化または３’ＵＴＲ領域への変化によって）影響しうる。

アレル不均衡候補：用語「アレル不均衡候補」は、一般に、アレル不均衡またはコンタミネーションの存在または非存在を検出するために（例えば、本開示の方法、システム、および媒体を用いて）分析されている試料を意味する。

無細胞核酸：語句「無細胞核酸」は、細胞に含まれていない、または別の方法で細胞に結合されていない核酸、言い換えれば、インタクトな細胞を除去した試料中に残存する核酸を意味しうる。無細胞核酸は、対象由来の体液（例えば、血液、尿、ＣＳＦなど）を起源とする全ての非封入核酸を指しうる。無細胞核酸としては、ＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）、およびそれらのハイブリッドがあげられ、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ結合ＲＮＡ（ｐｉＲＮＡ）、長い非コーディングＲＮＡ（長鎖ｎｃＲＮＡ）、またはこれらのいずれかのフラグメントが含まれる。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドでありうる。無細胞核酸は、分泌または細胞死プロセス（例えば、細胞のネクローシスおよびアポトーシス）を通じて体液中に放出されうる。無細胞核酸は、エクソソーム中に見いだされうる。いくつかの無細胞核酸は、がん細胞から体液中に放出されうる（例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ））。その他の無細胞核酸は、健常細胞から放出される。ｃｔＤＮＡは、非封入腫瘍由来断片化ＤＮＡでありうる。無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）は、母体血流中を自由に循環している胎児ＤＮＡである。無細胞核酸は、１つまたはそれを超えるエピジェネティックな修飾を有しうる。例えば、無細胞核酸は、アセチル化、５−メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、および／またはシトルリン化されうる。

コンタミネーション：用語「コンタミネーション」は、１つの試料への、別の試料による、任意の化学的またはデジタルなコンタミネーションを意味する。コンタミネーションは、多様な発生源、例えば、それらに限定されないが、（１）アッセイレベルのコンタミネーション、例えば、試料間の液体の物理的なキャリーオーバー（例えば、ピペッティング、サンプル調製装置またはシーケンサーによる自動化された液体ハンドリング、増幅された材料の取扱い）；デマルチプレクシングアーティファクト（例えば、ペアワイズハミング距離が乏しい試料インデックスを混同させるベースコールエラー；ペアワイズハミング距離が乏しい試料インデックスを混同させる挿入／欠失）；試薬の不純物（例えば、同一バッチ中で合成されたオリゴがあるレベルで欠落している試料インデックスオリゴ；（合成エラーのキャリーオーバーのいずれかを通じて）別の試料インデックスを含むオリゴによるコンタミネーションが生じた試料インデックスオリゴ）；または（２）第２のゲノムを含有する試料に起因しうる。

コピー数バリアント：本明細書で用いられる場合、「コピー数バリアント」、「ＣＮＶ」、または「コピー数多型」は、ゲノムのセクションが繰り返されており、前記ゲノムにおける繰り返し数が、検討されている集団内の個体間で異なり、個体の２つの条件または状態間で異なる（例えば、ＣＮＶは、ある個体において、治療前後で異なりうる）現象を意味する。

デオキシリボ核酸およびリボ核酸：用語「ＤＮＡ（デオキシリボ核酸）」は、糖部分の２’位に水素基を有する、天然または改変ヌクレオチドを意味する。ＤＮＡには、典型的には、４種類のヌクレオチド塩基、すなわちアデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）を含むヌクレオチド鎖が含まれる。本明細書で用いられる場合、「リボ核酸」または「ＲＮＡ」は、糖部分の２’位に水酸基を有する、天然または改変ヌクレオチドを意味する。ＲＮＡには、典型的には、４種類のヌクレオチド、すなわちＡ、ウラシル（Ｕ）、Ｇ、およびＣを含むヌクレオチドが含まれる。本明細書で用いられる場合、用語「ヌクレオチド」は、天然ヌクレオチドまたは改変ヌクレオチドを意味する。ある特定のヌクレオチドのペアは、相補的な様式で、互いに特異的に結合する（相補的塩基対合と呼ばれる）。ＤＮＡにおいて、アデニン（Ａ）はチミン（Ｔ）とペアになり、シトシン（Ｃ）はグアニン（Ｇ）とペアになる。ＲＮＡにおいて、アデニン（Ａ）はウラシル（Ｕ）とペアになり、シトシン（Ｃ）はグアニン（Ｇ）とペアになる。第１の核酸鎖が、前記第１の鎖に相補的なヌクレオチドからなる第２の核酸鎖に結合する場合、これらの２つの鎖が結合して二重鎖を形成する。

生殖系列バリアント：用語「生殖系列バリアント（単数または複数）」または「生殖系列変異（単数または複数）」は、互換的に用いられ、遺伝性の変異（すなわち、受胎後に生じる変異ではない）を意味する。生殖系列変異は、子孫に遺伝しうる唯一の変異であり得、子孫のあらゆる体細胞および生殖系列細胞に存在しうる。

ヘテロ接合性の喪失：用語「ヘテロ接合性の喪失」（ＬＯＨ）は、一般に、ある遺伝子座におけるアレルペアの一方のアレルが完全に失われているアレル不均衡の形態を意味する。ＬＯＨは、多くの遺伝機構によって、例えば物理的欠失、染色体不分離、有糸分裂不分離に続いて、残った染色体の倍加、有糸分裂組換え、および遺伝子変換が起こることによって生じうる。ＬＯＨは、遺伝子座における変異アレル割合またはマイナーアレル頻度の測定値に基づいて検出できる。ＬＯＨは、例えば、腫瘍抑制遺伝子が、前記腫瘍抑制遺伝子におけるアレルペアの一方のアレルが変異し、他方のアレルが失われるように不活性化される場合に生じうる。

マイナーアレル頻度：本明細書で用いられる場合、「マイナーアレル頻度」は、核酸の所与の集団（たとえば、対象から得られた試料）において生じるマイナーアレル（例えば、最も一般的なアレルではない）の頻度を意味する。マイナーアレル頻度が低い遺伝子バリアントは、典型的には、試料における存在頻度が相対的に低い。

変異アレル数：用語「変異アレル数」は、（例えば、試料から得られた、または試料由来の）複数の核酸分子中の、変異アレルまたは特定のゲノム遺伝子座におけるアレル変更を有している核酸分子数を意味する。

変異アレル割合：語句「変異アレル割合」、「変異ドーズ」、または「ＭＡＦ」は、所与の試料における、所与のゲノム位置にアレル変更または変異を有している核酸分子の割合を意味する。ＭＡＦは、一般に、割合またはパーセントで表される。例えば、ＭＡＦは、典型的には、所与の遺伝子座に存在する全体細胞バリアントまたはアレルの約０．５、０．１、０．０５、または０．０１未満（すなわち、約５０％、１０％、５％、または１％未満）である。

核酸シーケンシングデータ：本明細書で用いられる場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、「配列情報」、もしくは「断片配列」、または「核酸シーケンシングリード」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、またはフラグメント）におけるヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序を示す任意の情報またはデータを意味する。本教示は、利用可能なあらゆる種類の技術、プラットフォーム、またはテクノロジー（それらに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接的または間接的なヌクレオチド識別システム、パイロシーケンシング、イオンまたはｐＨに基づくシステム、および電子署名に基づくシステムが含まれる）を用いて得た配列情報を意図していることを理解すべきである。

核酸タグ：本明細書で用いられる場合、「核酸タグ」は、異なる試料に由来する核酸を識別するために用いられる（例えば、試料インデックスを示す）、または同じ試料中の種類の異なるもしくは異なるプロセシングを受けた異なる核酸分子を識別するために用いられる（例えば、分子バーコードを示す）、短い核酸（例えば、長さがｎヌクレオチド未満（ここで、ｎは、長さが約５００ヌクレオチド、約１００ヌクレオチド、約５０ヌクレオチド、または約１０ヌクレオチドである））を意味する。核酸タグは、所定の、既定の、非ランダムな、ランダムな、またはセミランダムなオリゴヌクレオチド配列を含む。このような核酸タグは、異なる核酸分子、または異なる核酸試料もしくはサブ試料をラベリングするために用いられうる。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖でありうる。核酸タグは、必要に応じて、等しい長さを有していてもよく、異なる長さを有していてもよい。核酸タグは、また、１つまたはそれを超える平滑末端を有する二本鎖分子を含んでいてもよく、５’もしくは３’一本鎖領域（例えば、オーバーハング）を含んでいてもよく、および／または所与の分子内の他の部位に１つまたはそれを超える他の一本鎖領域を含んでいてもよい。核酸タグは、その他の核酸（例えば、増幅および／またはシーケンシングしようとする試料核酸）の一方の末端または両方の末端に結合することができる。核酸タグは、所与の核酸の起源である試料、形態、またはプロセシングなどの情報を明らかにするためにデコードされうる。例えば、核酸タグは、異なる分子バーコードおよび／または試料インデックスを有する核酸を含む多数の試料の貯蔵および／または並列処理を可能にするために使用することもでき、前記核酸は、次いで、前記核酸タグを検出することによって（例えば、読み取ることによって）解析されている。核酸タグは、識別子（例えば、分子識別子、試料識別子）とも呼ばれる。加えて、または代わりに、核酸タグは、（例えば、同じ試料またはサブ試料における、異なる親分子の異なる分子同士またはアンプリコン同士を識別するための）分子識別子としても使用されうる。これには、例えば、所与の試料における異なる核酸分子を固有にタグ付けすること、またはそのような分子を非固有にタグ付けすることが含まれる。非固有タグ付け増幅の場合において、限られた数のタグ（すなわち、分子バーコード）を、異なる分子が、少なくとも１つの分子バーコードと組み合わせて、それらの内在性配列情報（例えば、選択された参照ゲノムにマッピングされる場所である開始および／または終止位置、配列の一方または両方の末端のサブ配列、および／または配列の長さ）に基づいて識別されうるように、各核酸分子をタグ付けするために使用してもよい。典型的には、任意の２分子が、同じ内在性配列情報（例えば、開始および／または終止位置、配列の一方または両方の末端のサブ配列、および／または長さ）を有し、かつ同じ分子バーコードを有する確率が低くなるように（例えば、約１０％未満、約５％未満、約１％未満、約０．１％未満、約０．０１％未満、約０．００１％未満、または０．０００１％未満の確率になるように）、十分な数の異なる分子バーコードが使用される。

ポリヌクレオチド：「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間の結合によって連結された（デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む）ヌクレオシドの線状ポリマーを意味する。典型的には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、数個のモノマー単位（例えば、３〜４個）から数百個のモノマー単位の範囲の大きさである。ポリヌクレオチドが文字の配列によって表現される場合（例えば、「ＡＴＧＣＣＴＧ」）は、別段の記載がない限り、そのヌクレオチドは常に、文字列の左から右に５’→３’の向きであり、「Ａ」はデオキシアデノシンを指し、「Ｃ」はデオキシシチジンを指し、「Ｇ」はデオキシグアノシンを指し、「Ｔ」はチミジンを指すことを理解されたい。文字Ａ、Ｃ、Ｇ、およびＴは、当該技術分野において標準的であるように、塩基自体、またはそれらの塩基を含むヌクレオシドもしくはヌクレオチドを示すために使用されうる。

参照配列：語句「参照配列」は、実験的に決定された配列と比較する目的で用いられる、既知の配列を意味する。例えば、既知の配列は、全ゲノム、染色体、またはそれらの任意の断片でありうる。参照は、典型的には、少なくとも２０、５０、１００、２００、２５０、３００、３５０、４００、４５０、５００、１０００、１００００、５００００、１０００００、またはそれを超えるヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続配列とアラインしていてもよく、またはゲノムもしくは染色体の異なる領域とアラインする不連続セグメントを含んでいてもよい。参照ヒトゲノムは、例えば、ｈＧ１９およびｈＧ３８を含む。

第２のゲノム：用語「第２のゲノム」は、対象内に存在するが、その対象のゲノムではないゲノムと関連する核酸配列を意味する。そのようなゲノムには、それらに限定されないが、移植片、ウイルス、治療に基づく核酸コンストラクト、輸血、胎児などに由来するゲノムが含まれる。

シーケンシング：本明細書で用いられる場合、用語「シーケンシング」または「シーケンサー」は、生体分子（例えば、ＤＮＡまたはＲＮＡなどの核酸）の配列を決定するために用いられる多くの技法のいずれかを意味する。例示的なシーケンシング方法としては、それらに限定されないが、ターゲットシーケンシング、単一分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスター媒介型シーケンシング、直接シーケンシング、ランダムショットガンシーケンシング、サンガーのジデオキシ終止シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシークエンシング、パイロシーケンシング、キャピラリー電気泳動、デュプレックスシーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列シグネチャシーケンシング、エマルジョンＰＣＲ、低変性温度における共増幅ＰＣＲ（ＣＯＬＤ−ＰＣＲ）、マルチプレックスＰＣＲ、可逆的色素ターミネーターによるシーケンシング、ペアエンドシーケンシング、ｎｅａｒ−ｔｅｒｍシーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、１分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、リバースターミネーターシーケンシング、ナノポアシーケンシング、４５４シーケンシング、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒシーケンシング、ＳＯＬｉＤ（商標）シーケンシング、ＭＳ−ＰＥＴシーケンシング、およびそれらの組み合わせがあげられる。いくつかの実施形態において、シーケンシングは、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから商業的に入手できる遺伝子アナライザーなどによって実施しうる。語句「次世代シーケンシング」または「ＮＧＳ」は、従来のサンガー法またはキャピラリー電気泳動に基づく手法と比較してスループットが向上した（例えば、一度に、数十万の比較的小さな配列リードを生成する能力を有する）シーケンシング技術を意味する。次世代シーケンシング技術のいくつかの例としては、それらに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシークエンシングがあげられる。

対象：用語「対象」は、動物、例えば哺乳動物の種（好ましくは、ヒト）または鳥類（例えば、トリ）の種、または他の生物（特に、二倍体の生物）を意味しうる。より具体的には、対象は、セキツイ動物、例えば、マウス、霊長類、サル、またはヒトなどの哺乳動物でありうる。動物には、家畜、競技動物、およびペットが含まれる。対象は、健康な個体、症状もしくは徴候を有するか、疾患もしくは疾患の傾向が疑われる個体、または治療が必要とするかもしくは治療を必要とすることが疑われる個体でありうる。
[発明を実施するための形態]

Ｉ．概要
がん患者において、アレル不均衡は、ヘテロ接合性の喪失によって引き起こされることがあり、また、アレル不均衡がない試料と比較して、対象からの無細胞核酸試料のアッセイにおいて、異なった変異アレル割合（ＭＡＦ）分布をもたらしうる。例えば、アレル不均衡がある試料は、ＭＡＦが非常に低い生殖系列バリアントを含みうる。例えばシーケンシングのための処置中などに、試料にコンタミネーションが生じた場合や、試料が、例えば移植片、輸血、または胎児から生じた（対象のゲノム以外の）第２のゲノムを含む場合にも、ＭＡＦが低い生殖系列バリアントが観察されることがある。したがって、アレル不均衡試料と、コンタミネーションが生じた試料または第２のゲノムを含む試料とを識別する場合に、問題に直面することがありうる。

コンタミネーションまたは第２のゲノムを含む試料からの無細胞核酸をアッセイする場合、そのような試料は、追加の人手による精査、または追加のシーケンシングランの実施を必要とすることがある。その結果、アレル不均衡試料と、コンタミネーションが生じた試料または第２ゲノム試料との識別に失敗すると、そのような試料を信頼性をもってアッセイするためのコストと所要時間が著しく増大しうる。本開示は、無細胞核酸試料におけるアレル不均衡またはコンタミネーションを識別する方法およびシステムを提供する。これらの方法およびシステムによれば、小さなバリアントおよびコピー数多型の定量的測定値を取得および解析することによって、アレル不均衡またはコンタミネーションを識別しうる。

本開示は、対象からの試料におけるアレル不均衡を検出するための方法およびシステムを提供する。一態様において、本開示は、対象からの試料におけるアレル不均衡を検出するための方法であって、（ａ）前記試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子をシーケンシングして、複数の配列リードを生成すること；（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有する）；（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡を所定の基準に基づいて検出すること、を含む方法を提供する。

いくつかの実施形態において、前記方法は、（ｆ）前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を検出すること（ここで、前記所定の基準は、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含む）、をさらに含む。

いくつかの実施形態において、前記方法は、前記試料においてアレル不均衡が検出されなかった場合に、前記試料におけるコンタミネーションを検出すること、をさらに含む。

図１は、本明細書において提供される方法１００の例を示す。方法１００は、（操作１０２におけるように）アレル不均衡またはコンタミネーションを検出しようとする試料からのＤＮＡ分子をシーケンシングして、配列リードを生成すること、含んでいてもよい。次に、方法１００は、（操作１０４におけるように）前記配列リードの少なくとも一部を参照配列にアラインして、アラインした配列リードを生成すること、を含んでいてもよい。次に、方法１００は、（操作１０６におけるように）前記アラインした配列リードの少なくとも一部について、前記試料中の生殖系列バリアントのセット、およびそれらの対応するＭＡＦ値を識別すること、を含んでいてもよく、または、ある特定の実施形態において、対応するマイナーアレル頻度値を識別すること、を含んでいてもよい。次に、方法１００は、（操作１０８におけるように）ＭＡＦ値の複数の別々の範囲の間にある、または、ある特定の実施形態において、マイナーアレル頻度値が別々の範囲内である、前記生殖系列バリアントの定量的測定値を決定すること、を含んでいてもよい。次に、方法１００は、（操作１１０におけるように）前記生殖系列バリアントを少なくとも前記定量的測定値に基づいてフィルタリングすることによって、前記試料中のアレル不均衡を所定の基準に基づいて検出すること、を含んでいてもよい。

本明細書において提供される方法およびシステムは、無細胞核酸分子（例えば、ＤＮＡまたはＲＮＡ分子）の分析において特に有用でありうる。いくつかのケースにおいて、無細胞核酸分子は、対象からの生体試料から抽出および単離してもよく、容易に入手しうる。生物学的試料には、それらに限定されないが、血液、血漿、血清、尿、唾液、粘膜分泌物、喀痰、便、および涙を含む群から選択される体液試料が含まれうる。無細胞核酸分子は、それらに限定されないが、イソプロパノール沈殿および／またはシリカに基づく精製を含む種々の方法を用いて抽出することができる。

生物学的試料は、多くの対象（例えば、疾患のない対象、がんまたはウイルスなどの疾患のリスクがある、疾患の症状を示している、または疾患を有している対象、または遺伝障害のリスクがある、遺伝障害の症状を示している、または遺伝障害を有している対象）から収集しうる。いくつかの実施形態において、前記疾患または障害は、免疫不全障害、血友病、サラセミア、鎌状赤血球症、血液疾患、慢性肉芽腫性障害、先天性失明、リソソーム蓄積症、筋ジストロフィー、がん、神経変性疾患、ウイルス感染、細菌感染、表皮水泡症、心疾患、脂肪代謝障害、および糖尿病からなる群から選択されるか、これらの組み合わせである。

無細胞核酸分子を取得または用意した後、その無細胞核酸分子に対して、シーケンシングのための核酸分子を調製するための、多数の異なるライブラリ調製手順の任意のものを行ってもよい。無細胞核酸分子は、シーケンシングの前に１つまたはそれを超える試薬（例えば、酵素、アダプター、タグ（例えば、バーコード）、プローブなど）で処理してもよい。タグ付けされた分子は、次いで、下流の用途、例えば、個々の分子を追跡しうるシークエンシング反応に使用しうる。

いくつかの実施形態において、前記方法は、シーケンシングの前に富化工程をさらに含んでいてもよく、それによって、タグ付けされた分子の領域が、選択的または非選択的に富化される。

無細胞核酸分子のシーケンシングデータを収集したら、その配列データに対して１つまたはそれを超えるバイオインフォマティクスプロセスを適用して、その無細胞核酸試料のアレル不均衡またはコンタミネーションを検出してもよい。

いくつかのケースにおいて、シークエンシング反応から生成された配列リードは、バイオインフォマティクス解析を実施するために、参照配列にアラインされうる。バイオインフォマティクス解析の種々の態様において、品質を確保するために、１つまたはそれを超える閾値が設定されうる。例えば、アライメント閾値は、相同性が高い配列リード（例えば、参照配列と配列リードとの間のミスマッチが１０以下）のみが参照配列にマッピングされるように設定されうる。いくつかのケースにおいて、例えば配列リードのクロマトグラムに基づいて、品質閾値に及ばない配列リードは取り除かれうる。いくつかのケースにおいて、所与の配列のコピー数または量は、その所与の配列にマッピングまたはアラインされる配列リードの数に基づいて定量されうる。いくつかのケースにおいて、配列の過剰出現は、全配列リード内で、異なる配列のコピー数または量を比較することによって決定しうる。

ある特定の実施形態において、試料は、同じ核酸のいずれか２つのコピーが、一方の末端または両方の末端に結合したアダプターに由来するアダプター分子バーコードまたはタグの同じの組み合わせを受け取る可能性を低く（例えば、約１％未満、約０．１％未満、約０．０１％未満、約０．００１％、または約０．０００１％未満）する十分な数のアダプターと接触させてもよい。このようなやり方でアダプターを使用することによって、ある参照配列にアライン（またはマッピング）された同じ開始および終止点を有し、かつバーコードの同一の組み合わせに結合している配列リードを、同じ元の分子から生成したリードのファミリーにグループ分けすることが可能になる。このようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を示しうる。

いくつかの実施形態において、平滑末端化およびアダプター結合によって改変された、ファミリーメンバーの配列をコンパイルして、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を導出しうる。言い換えると、試料中の核酸の特定の位置を占めているヌクレオチドは、ファミリーメンバー配列中の対応する位置を占めているヌクレオチドのコンセンサスであると決定しうる。コンセンサスヌクレオチドは、２つの非限定的な例示的な方法をあげると、投票または信頼スコアなどの方法によって決定しうる。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含みうる。ファミリーのメンバーが二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列は、全配列をコンパイルしてコンセンサスヌクレオチドまたはコンセンサス配列を導出する目的で、その相補配列に変換される。いくつかのファミリーは、単一のメンバー配列のみを含みうる。この場合において、この配列は、増幅前の試料中の核酸の配列として解釈されうる。あるいは、単一のメンバー配列のみを有するファミリーは、後続の分析から排除してもよい。

参照配列は、１つまたはそれを超える既知の配列、例えば、ある対象由来の既知の全ゲノム配列または部分ゲノム配列、ヒト対象の全ゲノム配列であってもよい。参照配列は、ｈＧ１９であってもよい。シーケンシングされた核酸は、試料中の核酸について直接決定した配列、または、上記のように、そのような核酸の増幅産物の配列のコンセンサスを表しうる。比較は、参照配列における目的の１つまたはそれを超える指定位置において行われうる。シーケンシングされた核酸のサブセットは、各配列が最大限にアラインされている場合、参照配列の指定位置に対応する位置を含めて識別されうる。そのようなサブセット内において、あるとすれば、どのシーケンシングされた核酸が指定位置におけるヌクレオチド変異を含むか、ならびに必要に応じて、あるとすれば、どのシーケンシングされた核酸が参照ヌクレオチド（すなわち、参照配列におけるものと同じもの）を含むか、を決定することができる。ヌクレオチドバリアントを含むサブセットにおけるシーケンシングされた核酸の数が閾値を超える場合、変異したヌクレオチドは、指定位置で呼ばれうる。閾値は、他の可能性もあるが、なかでも、単純な数字、例えば、少なくとも１、２、３、４、５、６、７、９、または１０個の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよく、または、比、例えば、少なくとも０．５、１、２、３、４、５、１０、１５、または２０の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよい。比較は、参照配列における目的とする任意の指定位置について繰り返してもよい。場合により、比較は、参照配列上の少なくとも２０、１００、２００、または３００個の連続した位置を占める指定位置、例えば、２０〜５００、または５０〜３００個の連続した位置について行われうる。

本開示は、本明細書において説明される方法を実行または実施するためのシステムも提供する。ある特定の態様において、システムは、（ａ）１つまたはそれを超える試料に由来するアダプターでタグ付けされたｃｆＤＮＡ分子から、信号として、シーケンシングリードを生成する核酸シーケンサー（ここで、前記アダプターは、前記ｃｆＤＮＡ分子からの開始および終止情報と一緒に、同じ元のｃｆＤＮＡ分子に由来する冗長な配列リードを識別するバーコードを含む）；および（ｂ）通信ネットワークを通じて前記核酸シーケンサーと通信するコンピュータ（ここで、前記コンピュータは、前記信号をコンピュータメモリー内に受け入れ、ここで前記コンピュータは、コンピュータプロセッサおよびコンピュータ可読媒体（前記コンピュータ可読媒体は、前記コンピュータプロセッサによって実行された場合に下記の方法を実行するマシン実行可能コードを含む））を含み、かつ、以下のことを含む方法、すなわち、ａ）前記試料に由来する複数の無細胞デオキシリボ核酸（ＤＮＡ）分子をシーケンシングして、複数の配列リードを生成すること；ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；ｃ）複数のゲノム領域のそれぞれについて、前記複数のアラインした配列リードから、前記試料の前記ゲノム領域の変異アレル割合（ＭＡＦ）を決定すること；ｄ）前記複数のゲノム領域のそれぞれについて、前記複数のアラインした配列リードから、前記ゲノム領域が生殖系列バリアントであるか否かを決定すること；ｅ）ＭＡＦ値の複数の別々の範囲の間にある前記複数のゲノム領域の、前記決定された生殖系列バリアントの定量的測定値を決定すること；およびｆ）前記決定された生殖系列バリアントの前記定量的測定値を含む所定の基準に基づいて、前記試料中のアレル不均衡を検出すること、を含む方法を実行する）、を含んでいてもよい。

いくつかの実施形態において、前記コンピュータプロセッサによって実行される前記方法は、前記配列リードをファミリー（各ファミリーは、同じバーコードを含み、かつ同じ開始および終止位置を有する、配列リードを含む）にグループ分けすることをさらに含み、それによって、各ファミリーは、同じ元のｃｆＤＮＡ分子に由来する、増幅された配列リードを含む。

いくつかの実施形態において、シーケンサーは、ＤＮＡシーケンサーである。いくつかの実施形態において、シーケンサーは、次世代シーケンシングなど、ハイスループットシーケンシングを行うように設計されている。いくつかの実施形態において、前記システムは、シーケンサー内に、アダプターでタグ付けされたｃｆＤＮＡ分子を含む。いくつかの実施形態において、前記アダプターでタグ付けされたｃｆＤＮＡ分子は、１つの対象または複数の対象に由来する。いくつかの実施形態において、前記試料に由来する前記ｃｆＤＮＡ分子は、固有または非固有のバーコードを有する。
ＩＩ．方法およびシステムの一般的な特徴
Ａ．試料

試料は、対象から単離された任意の生物学的試料でありうる。試料としては、体組織、全血、血小板、血清、血漿、便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）もしくは白血球（ｌｅｕｃｏｃｙｔｅ）、内皮細胞、組織生検（例えば、判明している固形腫瘍または疑わしい固形腫瘍からの生検材料）、脳脊髄液、滑液、リンパ液、腹水、間質液または細胞外液（例えば、細胞間隙液）、歯肉滲出液、歯肉溝滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿が挙げられ得る。試料は、好ましくは体液、特に血液およびその分画、ならびに尿である。そのような試料には、腫瘍から流出した核酸が含まれる。核酸としては、ＤＮＡおよびＲＮＡをあげることができ、二本鎖形態および一本鎖形態でありうる。試料は、対象から単離されたままの形態であってもよく、細胞などの成分を除去もしくは添加するため、１つの成分を他の成分と比べて富化するため、または１つの形態の核酸を他の形態に（例えば、ＲＮＡをＤＮＡに、または一本鎖核酸を二本鎖核酸に）変換するために、さらなる処理が施されていてもよい。よって、例えば、分析のための体液は、無細胞核酸、例えば無細胞ＤＮＡ（ｃｆＤＮＡ）を含有する、血漿または血清である。

いくつかの実施形態において、対象から採取される体液の試料体積は、シーケンシングされる領域の所望のリード深度に依存する。例示的な体積は、約０．４〜４０ｍｌ、約５〜２０ｍｌ、約１０〜２０ｍｌである。例えば、体積は、約０．５ｍｌ、約１ｍｌ、約５ｍｌ、約１０ｍｌ、約２０ｍｌ、約３０ｍｌ、約４０ｍｌ、またはそれを超える体積（ミリリットル）でありうる。サンプリングされた血漿の体積は、典型的には、約５ｍｌ〜約２０ｍｌの間である。

試料は、種々の量の核酸を含みうる。典型的には、所与の試料中の核酸の量は、多様なゲノム等価物の量と等しい。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００（１０^４）のハプロイドヒトゲノム等価物を含みうるが、ｃｆＤＮＡの場合には、約２０００億（２×１０^１１）の個々のポリヌクレオチド分子を含みうる。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００のハプロイドヒトゲノム等価物を含みうるが、ｃｆＤＮＡの場合には、約６０００億の個々の分子を含みうる。

いくつかの実施形態において、試料は、異なる起源に由来する核酸、例えば、細胞に由来する核酸および無細胞起源（例えば、血液試料など）に由来する核酸を含みうる。典型的には、試料は、変異を有する核酸を含む。例えば、試料は、生殖系列変異および／または体細胞変異を有するＤＮＡを含んでいてもよい。典型的には、試料は、がん関連変異（例えば、がん関連体細胞変異）を有するＤＮＡを含む。

増幅前の試料中の無細胞核酸の例示的な量は、典型的には、約１フェムトグラム（ｆｇ）〜約１マイクログラム（μｇ）、例えば、約１ピコグラム（ｐｇ）〜約２００ナノグラム（ｎｇ）、約１ｎｇ〜約１００ｎｇ、約１０ｎｇ〜約１０００ｎｇの範囲である。いくつかの実施形態において、試料は、最大約６００ｎｇ、最大約５００ｎｇ、最大約４００ｎｇ、最大約３００ｎｇ、最大約２００ｎｇ、最大約１００ｎｇ、最大約５０ｎｇ、または最大約２０ｎｇの無細胞核酸分子を含む。必要に応じて、この量は、少なくとも約１ｆｇ、少なくとも約１０ｆｇ、少なくとも約１００ｆｇ、少なくとも約１ｐｇ、少なくとも約１０ｐｇ、少なくとも約１００ｐｇ、少なくとも約１ｎｇ、少なくとも約１０ｎｇ、少なくとも約１００ｎｇ、少なくとも約１５０ｎｇ、または少なくとも約２００ｎｇの無細胞核酸分子である。ある特定の実施形態において、この量は、最大約１ｆｇ、約１０ｆｇ、約１００ｆｇ、約１ｐｇ、約１０ｐｇ、約１００ｐｇ、約１ｎｇ、約１０ｎｇ、約１００ｎｇ、約１５０ｎｇ、または約２００ｎｇの無細胞核酸分子である。いくつかの実施形態において、方法には、試料から、約１ｆｇ〜約２００ｎｇの間の無細胞核酸分子を得ることが含まれる。

無細胞核酸は、典型的には、約１００ヌクレオチドの長さ〜約５００ヌクレオチドの長さの間のサイズ分布を有し、試料中の分子の約９０％が約１１０ヌクレオチドの長さ〜約２３０ヌクレオチドの長さであり、最頻値が約１６８ヌクレオチドの長さであり、約２４０〜約４４０ヌクレオチドの長さの範囲内に第２のマイナーピークを有する。ある特定の実施形態において、無細胞核酸は、約１６０〜約１８０ヌクレオチドの長さ、約３２０〜約３６０ヌクレオチドの長さ、または約４４０〜約４８０ヌクレオチドの長さである。

いくつかの実施形態において、無細胞核酸は、溶液中に見られるような無細胞核酸をインタクトな細胞および体液のその他の不溶性成分から分離する分割ステップによって、体液から分離される。いくつかのこれらの実施形態において、分割には、遠心分離または濾過などの技術が含まれる。あるいは、体液中の細胞を溶解し、無細胞核酸と細胞核酸を一緒に処理する。一般に、バッファーの添加および洗浄ステップの後に、無細胞核酸を、例えば、アルコールで沈殿させる。ある特定の実施形態において、混入物または塩を除去するために、追加の精製ステップ、例えば、シリカベースカラムが用いられる。例示的な手順のある特定の側面、例えば収率を最適化するために、例えば、非特異的なバルクキャリアー核酸を、反応全体にわたり、必要に応じて添加してもよい。そのような処理の後、試料は、典型的には、二本鎖ＤＮＡ、一本鎖ＤＮＡ、および／または一本鎖ＲＮＡを含む、種々の形態の核酸を含んでいる。必要に応じて、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡは、以後のプロセシングおよび分析ステップに含められるように、二本鎖形態に変換される。
Ｂ．核酸タグ

いくつかの実施形態において、（ポリヌクレオチドの試料からの）核酸分子は、試料インデックスおよび／または分子バーコード（一般に「タグ」と呼ばれる）でタグ付けされていてもよい。タグは、他の方法もあるが、なかでも、化学合成、ライゲーション（例えば、平滑末端ライゲーションまたは付着末端ライゲーション）、またはオーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によって、アダプターに組み込まれるか、または別の方法で結合されうる。そのようなアダプターは、最終的に標的核酸分子に結合されてもよい。他の実施形態において、通常の核酸増幅方法を用いて試料インデックスを核酸分子に導入するために、一般に、増幅サイクル（例えば、ＰＣＲ増幅）の１回またはそれを超える繰り返しが適用される。増幅は、１つまたはそれを超える反応混合物（例えば、アレイになった複数のマイクロウェル）において行ってもよい。分子バーコードおよび／または試料インデックスは、同時に導入してもよく、任意の連続的な順序で導入してもよい。いくつかの実施形態において、分子バーコードおよび／または試料インデックスは、配列捕捉ステップ実施の前および／または後に導入される。いくつかの実施形態において、分子バーコードのみが、プローブ捕捉前に導入され、試料インデックスは、配列捕捉ステップ実施後に導入される。いくつかの実施形態において、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップ実施前に導入される。いくつかの実施形態において、試料インデックスは、配列捕捉ステップ実施後に導入される。いくつかの実施形態において、分子バーコードは、試料中の核酸分子（例えば、ｃｆＤＮＡ分子）に、アダプターを通じてライゲーション（例えば、平滑末端ライゲーションまたは付着末端ライゲーション）によって組み込まれる。いくつかの実施形態において、試料インデックスは、試料中の核酸分子（例えば、ｃｆＤＮＡ分子）に、オーバーラップ伸長ポリメラーゼ連鎖反応（ＰＣＲ）によって組み込まれる。典型的には、配列捕捉プロトコルには、標的核酸配列（例えば、ゲノム領域のコード配列）に相補的な一本鎖核酸分子を導入することが含まれ、そのような領域の変異はがんタイプに関連する。

いくつかの実施形態において、タグは、試料核酸分子の一方の末端または両方の末端に位置しうる。いくつかの実施形態において、タグは、所定の、ランダムな、またはセミランダムな配列オリゴヌクレオチドである。いくつかの実施形態において、タグは、長さが約５００未満、２００未満、１００未満、５０未満、２０未満、１０、９、８、７、６、５、４、３、２、または１ヌクレオチドである。タグは、試料核酸に、ランダムに、または非ランダムに結合されうる。

いくつかの実施形態において、各試料は、試料インデックスまたは試料インデックスの組み合わせで、固有にタグ付けされる。いくつかの実施形態において、試料またはサブ試料の各核酸分子は、分子バーコードまたは分子バーコードの組み合わせで、固有にタグ付けされる。他の実施形態において、複数の分子バーコードを、互いに必ずしも固有ではないように（例えば、非固有分子バーコード）使用してもよい。これらの実施形態において、分子バーコードは、一般に、個々の分子に、分子バーコードと配列の組み合わせが結合して、個別に追跡しうる固有配列を生成するように、（例えば、ライゲーションによって）結合される。非固有にタグ付けされた分子バーコードを、内在性配列情報（例えば、試料中の元の核酸分子の配列に対応する最初の（開始）および／または終わりの（終止）箇所、一方または両方の末端における配列リードのサブ配列、配列リードの長さ、および／または試料中の元の核酸分子の長さ）と組み合わせて検出することによって、典型的には、特定の分子に固有の識別情報を割り当てることが可能になる。個々の配列リードの長さ、または塩基対の数もまた、所与の分子に固有の識別情報を割り当てるために、必要に応じて使用される。本明細書において説明したように、固有の識別情報が割り当てられている核酸の一本鎖に由来するフラグメントは、これによって、親鎖および／または相補鎖由来のフラグメントのその後の識別を可能にしうる。

いくつかの実施形態において、分子バーコードは、識別子のセット（例えば、固有または非固有分子バーコードの組み合わせ）の予期された比率で、試料中の分子に導入される。１つの例示的な様式では、標的分子の両方の末端にライゲートされる、約２〜約１，０００，０００個の異なる分子バーコード、約５〜約１５０個の異なる分子バーコード、または約２０〜約５０個の異なる分子バーコードが用いられる。代わりに、約２５〜約１，０００，０００個の異なる分子バーコードを用いてもよい。例えば、２０〜５０個の分子バーコードと、２０〜５０個の分子バーコードを、標的分子の両方の末端が、２０〜５０個の異なる分子バーコードの１つでタグ付けされるように用いてもよい。このような数の識別子は、典型的には、同じ開始および終止点を有する異なる分子に、異なる組み合わせの識別子が付けられる可能性を高く（例えば、少なくとも９４％、９９．５％、９９．９９％、または９９．９９９％）するために十分である。いくつかの実施形態において、分子の約８０％、約９０％、約９５％、または約９９％が、同じ組み合わせの分子バーコードを有する。

いくつかの実施形態において、反応における固有または非固有分子バーコードの割り当ては、例えば、米国特許出願第２００１００５３５１９号、米国特許出願第２００３０１５２４９０号、および米国特許出願第２０１１０１６００７８号ならびに米国特許第６，５８２，９０８号、米国特許第７，５３７，８９８号、米国特許第９，５９８，７３１号、および米国特許第９，９０２，９９２号（これらは、それぞれ参照によりその全体が本明細書に援用される）に記載された方法およびシステムを用いて実施される。あるいは、いくつかの実施形態において、試料の異なる核酸分子は、内在性配列情報（例えば、開始および／または終止位置、配列の一方または両方の末端のサブ配列、および／または長さ）のみを用いて識別されうる。
Ｃ．核酸増幅

アダプターが隣接する試料核酸は、典型的には、増幅しようとするＤＮＡ分子に隣接しているアダプター中のプライマー結合部位に結合する核酸プライマーを用いて、ＰＣＲおよび他の増幅方法によって増幅される。いくつかの実施形態において、増幅方法は、温度サイクルによる伸長、変性、およびアニーリングのサイクルを含むか、例えば転写増幅の場合のように、等温であってもよい。必要に応じて利用される他の例示的な増幅方法としては、他のアプローチもあるが、なかでも、リガーゼ連鎖反応、鎖置換増幅（ｓｔｒａｎｄｄｉｓｐｌａｃｅｍｅｎｔａｍｐｌｉｆｉｃａｔｉｏｎ）法、核酸配列に基づく増幅、および自己持続性配列に基づく複製があげられる。

分子バーコードおよび／または試料インデックスを、通常の核酸増幅方法を用いて核酸分子に導入するために、一般に、増幅サイクルの１回またはそれを超える繰り返しが適用される。増幅は、典型的には、１つまたはそれを超える反応混合物において行われる。分子バーコードおよび試料インデックスは、必要に応じて、同時に、または任意の連続的な順序で導入される。他の実施形態において、分子バーコードおよび試料インデックスは、配列捕捉ステップ実施の前および／または後に導入される。いくつかの実施形態において、分子バーコードのみが、プローブ捕捉前に導入され、試料インデックスは、配列捕捉ステップ実施後に導入される。ある特定の実施形態において、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップ実施前に導入される。いくつかの実施形態において、試料インデックスは、配列捕捉ステップ実施後に導入される。典型的には、配列捕捉プロトコルには、標的核酸配列（例えば、ゲノム領域のコード配列）に相補的な一本鎖核酸分子を導入することが含まれ、そのような領域の変異はがんタイプに関連する。典型的には、増幅反応によって、約２００ヌクレオチド（ｎｔ）〜約７００ｎｔ、２５０ｎｔ〜約３５０ｎｔ、または約３２０ｎｔ〜約５５０ｎｔの範囲の大きさの、分子バーコードおよび試料インデックスを含む、複数の非固有または固有にタグ付けされた核酸アンプリコンが生成する。いくつかの実施形態において、アンプリコンの大きさは、約３００ｎｔである。いくつかの実施形態において、アンプリコンの大きさは、約５００ｎｔである。
Ｄ．核酸の富化

いくつかの実施形態において、配列は、核酸をシーケンシングする前に富化される。富化は、必要に応じて、特定の標的領域について、または非特異的に行われる（「標的配列」）。いくつかの実施形態において、目的の標的領域は、差別的タイリングおよび捕捉スキームを用いて、１つまたはそれを超えるベイトセットのパネルについて選択された核酸捕捉プローブ（「ベイト」）によって富化してもよい。差別的タイリングおよび捕捉スキームにおいて、一般に、異なる相対濃度のベイトセットを用いて、そのベイトに関連するゲノム領域全体にわたって（例えば、異なる「分解能」で）差別的にタイリングし、一連の拘束（例えば、シーケンシング負荷、各ベイトの利用などのシーケンサー拘束）を加え、下流シーケンシングの所望の段階において標的核酸を捕捉する。これらの目的の標的ゲノム領域は、必要に応じて、核酸構築物の天然または合成ヌクレオチド配列を含む。いくつかの実施形態において、目的の１つまたはそれを超える領域に対するプローブの付いたビオチン標識ビーズを、標的配列を捕捉するために使用することができ、続いて、必要に応じて、目的の領域について富化するために、これらの領域を増幅する。

配列捕捉は、典型的には、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を含む。ある特定の実施形態において、プローブセット戦略は、目的の領域全体にわたってプローブをタイリングすることを含む。そのようなプローブは、例えば、約６０〜約１２０ヌクレオチドの長さでありうる。セットの深度は、約２倍（×）、３×、４×、５×、６×、８×、９×、１０×、１５×、２０×、５０×、または５０×超でありうる。一般に、配列捕捉の有効性は、一部は、プローブの配列に相補的（または、ほぼ相補的）な標的分子中の配列の長さに依存する。
Ｅ．核酸シーケンシング

事前に増幅された、または増幅されていない（必要に応じてアダプターが隣接配置された）試料核酸は、一般に、シーケンシングにかけられる。シーケンシング方法、または必要に応じて利用される商業的に利用可能なシーケンシングフォーマットとしては、例えば、サンガーシーケンシング、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、１分子シーケンシング、ナノポアに基づくシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシークエンシング、ＲＮＡ−Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング（ＮＧＳ）、合成による単一分子シーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列シーケンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、Ｍａｘｉｍ−Ｇｉｌｂｅｒｔシーケンシング、プライマーウォーキング、ＰａｃＢｉｏを使用したシーケンシング、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームがあげられる。シーケンシング反応は、種々の試料処理ユニット中で行うことができ、そのようなユニットとしては、マルチレーン、マルチチャンネル、マルチウェル、または実質的に同時に多数の試料セットを処理する他の手段が挙げられ得る。試料処理ユニットは、多数のランを同時に処理することを可能にするために、多数の試料チャンバーも含みうる。

シーケンシング反応は、がんまたは他の疾患のマーカーを含むことが知られている、１つまたはそれを超える核酸フラグメントタイプまたは領域に対して行ってもよい。シーケンシング反応は、また、試料中に存在する任意の核酸フラグメントに対して行ってもよい。シーケンシング反応は、ゲノムの少なくとも約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％に対して行ってもよい。他のケースにおいて、シーケンシング反応は、ゲノムの約５％未満、１０％未満、１５％未満、２０％未満、２５％未満、３０％未満、４０％未満、５０％未満、６０％未満、７０％未満、８０％未満、９０％未満、９５％未満、９９％未満、９９．９％未満、または１００％未満に対して行ってもよい。

同時シーケンシング反応は、マルチプレックスシーケンシング技術を用いて行ってもよい。いくつかの実施形態において、無細胞ポリヌクレオチドは、少なくとも約１０００回、２０００回、３０００回、４０００回、５０００回、６０００回、７０００回、８０００回、９０００回、１００００回、５００００回、または１００，０００回のシーケンシング反応でシーケンシングされる。他の実施形態において、無細胞ポリヌクレオチドは、約１０００回未満、２０００回未満、３０００回未満、４０００回未満、５０００回未満、６０００回未満、７０００回未満、８０００回未満、９０００回未満、１００００回未満、５００００回未満、または１００，０００回未満のシーケンシング反応でシーケンシングされる。シーケンシング反応は、典型的には、連続的または同時に行われる。その後のデータ分析は、一般的には、シーケンシング反応の全てまたは一部について行われる。いくつかの実施形態において、データ分析は、少なくとも約１０００回、２０００回、３０００回、４０００回、５０００回、６０００回、７０００回、８０００回、９０００回、１００００回、５００００回、または１００，０００回のシーケンシング反応について行われる。他の実施形態において、データ分析は、約１０００回未満、２０００回未満、３０００回未満、４０００回未満、５０００回未満、６０００回未満、７０００回未満、８０００回未満、９０００回未満、１００００回未満、５００００回未満、または１００，０００回未満のシーケンシング反応について行われてもよい。例示的なリード深度は、遺伝子座（塩基位置）につき、約１０００〜約５００００リードである。

いくつかの実施形態において、シーケンシングのために、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸に酵素的に平滑末端を形成することによって、核酸集団を調製する。これらの実施形態において、核酸集団は、典型的には、ヌクレオチド（例えば、Ａ、Ｃ、Ｇ、およびＴまたはＵ）（これらは、容易に組み込まれた形態、例えば複数のヌクレオシド三リン酸（ｄＮＴＰ）の形態で存在しうる）存在下で５’−３’ＤＮＡポリメラーゼ活性および３’−５’エキソヌクレアーゼ活性を有する酵素で処理される。例示的な酵素または、必要に応じて用いられる触媒フラグメントとしては、クレノウ大型断片およびＴ４ポリメラーゼがあげられる。５’オーバーハングにおいて、前記の酵素は、典型的には、反対側の鎖にある引っ込んだ３’末端を、５’末端と同じ長さになるまで伸長させ、平滑末端を生成する。３’オーバーハングにおいて、前記の酵素は、一般に、３’末端から、反対側の鎖の５’末端まで、または場合によりそれを超えて消化する。この消化が反対側の鎖の５’末端を超えて進行した場合、このギャップは、５’オーバーハングのために用いたものと同じポリメラーゼ活性を有する酵素によって埋められうる。二本鎖核酸における平滑末端の形成によって、例えば、アダプターの結合およびその後の増幅が促進される。

いくつかの実施形態において、核酸集団には、さらなる処理、例えば、一本鎖核酸の二本鎖への変換、および／またはＲＮＡのＤＮＡへの変換が行われる。これらの形態の核酸もまた、必要に応じてアダプターに結合され、増幅される。

事前に増幅し、または増幅せずに、上記の平滑末端形成プロセスにかけられた核酸、および、必要に応じて、試料中の他の核酸をシーケンシングして、シーケンシングされた核酸を生成させてもよい。シーケンシングされた核酸は、核酸の配列（すなわち、配列情報）、または配列が決定された核酸のいずれも意味しうる。シーケンシングは、試料中の個々の核酸分子の増幅産物のコンセンサス配列から、直接的または間接的に試料中の個々の核酸分子の配列データを生じさせるように実施しうる。

いくつかの実施形態において、試料中の一本鎖オーバーハングを有する二本鎖核酸は、平滑末端形成の後、分子バーコードを含むアダプターに両方の末端で結合され、シーケンシングによって核酸配列ならびにアダプターによって導入された分子バーコードを決定する。平滑末端ＤＮＡ分子は、必要に応じて、少なくとも部分的に二本鎖であるアダプター（例えば、Ｙ字型またはベル型アダプター）の平滑末端にライゲートされる。あるいは、試料核酸およびアダプターの平滑末端を（例えば、付着末端ライゲーションのために）相補的ヌクレオチドが突出して、ライゲーションを促進してもよい。

核酸試料は、典型的には、同じ核酸のいずれか２つのコピーが、両方の末端に結合したアダプターから、アダプターバーコード（すなわち、分子バーコード）の同じ組み合わせを受け取る可能性を低くする十分な数のアダプターと接触させる。このようなやり方でアダプターを使用することによって、参照核酸上の同じ開始および終止点を有し、分子バーコードの同じ組み合わせに連結された核酸配列のファミリーを識別することが可能になる。このようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を示す。平滑末端形成およびアダプター結合によって改変された、ファミリーメンバーの配列をコンパイルして、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を導出しうる。言い換えると、試料中の核酸の特定の位置を占めているヌクレオチドは、ファミリーメンバー配列中の対応する位置を占めているヌクレオチドのコンセンサスであると決定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含みうる。ファミリーのメンバーが二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列は、全配列をコンパイルしてコンセンサスヌクレオチドまたはコンセンサス配列を導出する目的で、その相補配列に変換される。いくつかのファミリーは、単一のメンバー配列のみを含む。この場合において、この配列は、増幅前の試料中の核酸の配列として解釈されうる。あるいは、単一のメンバー配列のみを有するファミリーは、後続の分析から排除してもよい。

シーケンシングされた核酸中のヌクレオチド変異は、シーケンシングされた核酸を参照配列と比較することによって決定しうる。参照配列は、多くの場合、既知の配列、例えば、対象由来の既知の全ゲノム配列または部分ゲノム配列（例えば、ヒト対象の全ゲノム配列）である。参照配列は、例えば、ｈＧ１９またはｈＧ３８であってもよい。シーケンシングされた核酸は、試料中の核酸について直接決定した配列、または、上記のように、そのような核酸の増幅産物の配列のコンセンサスを表しうる。比較は、参照配列における目的の１つまたはそれを超える指定位置において行われうる。シーケンシングされた核酸のサブセットは、各配列が最大限にアラインされている場合、参照配列の指定位置に対応する位置を含めて識別されうる。そのようなサブセット内において、あるとすれば、どのシーケンシングされた核酸が指定位置におけるヌクレオチド変異を含むか、ならびに必要に応じて、あるとすれば、どのシーケンシングされた核酸が参照ヌクレオチド（すなわち、参照配列におけるものと同じもの）を含むか、を決定することができる。ヌクレオチドバリアントを含むサブセットにおけるシーケンシングされた核酸の数が選択された閾値を超える場合、変異したヌクレオチドは、指定位置で呼ばれうる。閾値は、他の可能性もあるが、なかでも、単純な数字、例えば、少なくとも１、２、３、４、５、６、７、９、または１０個の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよく、または、比、例えば、少なくとも０．５、１、２、３、４、５、１０、１５、または２０の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよい。比較は、参照配列における目的とする任意の指定位置について繰り返してもよい。場合により、比較は、参照配列上の少なくとも約２０、１００、２００、または３００個の連続した位置を占める指定位置、例えば、約２０〜５００、または約５０〜３００個の連続した位置について行われうる。

本明細書において説明されるフォーマットおよび適用を含む、核酸シーケンシングに関するさらなる詳細は、例えば、Ｌｅｖｙら、ＡｎｎｕａｌＲｅｖｉｅｗｏｆＧｅｎｏｍｉｃｓａｎｄＨｕｍａｎＧｅｎｅｔｉｃｓ，１７：９５−１１５（２０１６）、Ｌｉｕら、Ｊ．ｏｆＢｉｏｍｅｄｉｃｉｎｅａｎｄＢｉｏｔｅｃｈｎｏｌｏｇｙ，Ｖｏｌｕｍｅ２０１２，ＡｒｔｉｃｌｅＩＤ２５１３６４：１−１１（２０１２）、Ｖｏｅｌｋｅｒｄｉｎｇら、ＣｌｉｎｉｃａｌＣｈｅｍ．，５５：６４１−６５８（２００９）、ＭａｃＬｅａｎら、ＮａｔｕｒｅＲｅｖ．Ｍｉｃｒｏｂｉｏｌ．，７：２８７−２９６（２００９）、Ａｓｔｉｅｒら、ＪＡｍＣｈｅｍＳｏｃ．，１２８（５）：１７０５−１０（２００６）、米国特許第６，２１０，８９１号、米国特許第６，２５８，５６８号、米国特許第６，８３３，２４６号、米国特許第７，１１５，４００号、米国特許第６，９６９，４８８号、米国特許第５，９１２，１４８号、米国特許第６，１３０，０７３号、米国特許第７，１６９，５６０号、米国特許第７，２８２，３３７号、米国特許第７，４８２，１２０号、米国特許第７，５０１，２４５号、米国特許第６，８１８，３９５号、米国特許第６，９１１，３４５号、米国特許第７，５０１，２４５号、米国特許第７，３２９，４９２号、米国特許第７，１７０，０５０号、米国特許第７，３０２，１４６号、米国特許第７，３１３，３０８号、および米国特許第７，４７６，５０３号（これらは、それぞれ参照によりその全体が援用される）にも提示されている。
Ｆ．分析

本開示の実施形態に記載のシーケンシングは、複数のリードを生成する。本発明のリードは、一般に、約１５０塩基未満の長さ、または約９０塩基未満の長さのヌクレオチドデータの配列を含む。ある特定の実施形態において、リードは、約８０〜約９０塩基、例えば約８５塩基の長さである。いくつかの実施形態において、本発明の方法は、非常に短いリード、すなわち約５０または約３０塩基未満の長さのリードに適用される。配列リードデータは、配列データならびにメタ情報を含み得る。配列リードデータは、任意の適切なファイルフォーマット、例えばＶＣＦファイル、ＦＡＳＴＡファイル、またはＦＡＳＴＱファイルを含むファイルフォーマットで保存しうる。

ＦＡＳＴＡは、元々は、配列データベースを検索するためのコンピュータプログラムであり、ＦＡＳＴＡという名称は、標準ファイルフォーマットを意味するようになっている。ＰｅａｒｓｏｎおよびＬｉｐｍａｎ、１９８８、Ｉｍｐｒｏｖｅｄｔｏｏｌｓｆｏｒｂｉｏｌｏｇｉｃａｌｓｅｑｕｅｎｃｅｃｏｍｐａｒｉｓｏｎ，ＰＮＡＳ８５：２４４４−２４４８を参照のこと。ＦＡＳＴＡ形式の配列は、１行の説明で始まり、配列データの行が続く。説明行は、第１行目の、より大きい（「＞」）の記号によって配列データと区別される。この「＞」記号に続く語は配列の識別子であり、この行の残りは説明である（いずれも必要に応じて記載される）。記号「＞」と識別子の最初の文字との間には、スペースを入れないことになっている。テキストの全ての行は、８０文字未満とすることが推奨されている。「＞」で始まる別の行が現れたらその配列は終了し、これは別な配列の始まりを示す。

ＦＡＳＴＱ形式は、生物学的配列（通常はヌクレオチド配列）と、それに対応する品質スコアの両方を保存するための、テキストベースのフォーマットである。ＦＡＳＴＱ形式はＦＡＳＴＡ形式に似ているが、配列データに続いて品質スコアを含んでいる。配列文字と品質スコアの両方とも、簡潔にするために、１文字のＡＳＣＩＩ文字で記号化されている。ＦＡＳＴＱ形式は、例えば、Ｃｏｃｋら（「ＴｈｅＳａｎｇｅｒＦＡＳＴＱｆｉｌｅｆｏｒｍａｔｆｏｒｓｅｑｕｅｎｃｅｓｗｉｔｈｑｕａｌｉｔｙｓｃｏｒｅｓ，ａｎｄｔｈｅＳｏｌｅｘａ／ＩｌｌｕｍｉｎａＦＡＳＴＱｖａｒｉａｎｔｓ」、ＮｕｃｌｅｉｃａｃｉｄｓＲｅｓ３８（６）：１７６７−１７７１，２００９）（これは、参照によりその全体が本明細書に援用される）に記載されているように、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒなどのハイスループットシーケンシング装置の出力を保存するためのデファクトスタンダードである。

ＦＡＳＴＡおよびＦＡＳＴＱファイルに関して、メタ情報には、説明行が含まれるが、配列データ行は含まれない。いくつかの実施形態において、ＦＡＳＴＱファイルに関して、メタ情報には品質スコアが含まれる。ＦＡＳＴＡおよびＦＡＳＴＱファイルに関して、配列データは、説明行の後に始まり、典型的には、必要に応じて「−」が付けられたＩＵＰＡＣアンビギュイティコード（ａｍｂｉｇｕｉｔｙｃｏｄｅ）のいくつかのサブセットを用いて示される。好ましい実施形態において、配列データには、文字Ａ、Ｔ、Ｃ、Ｇ、およびＮが用いられ、（例えば、ギャップまたはウラシルを示すために）必要に応じて「−」または、必要に応じてＵが含まれるであろう。

いくつかの実施形態において、少なくとも１つのマスター配列リードファイルおよび出力ファイルが、（例えば、ＡＳＣＩＩ；ＩＳＯ／ＩＥＣ６４６；ＥＢＣＤＩＣ；ＵＴＦ−８；またはＵＴＦ−１６などのエンコードを用いて）プレーンテキストファイルとして保存される。本発明で提供されるコンピュータシステムは、プレーンテキストファイルを開くことができるテキストエディタプログラムを含んでいてもよい。テキストエディタプログラムは、テキストファイル（例えば、プレーンテキストファイル）の内容をコンピュータスクリーンに表示することができ、人間がそのテキストを（例えば、モニター、キーボード、およびマウスを用いて）編集することを可能にするコンピュータプログラムを意味しうる。例示的なテキストエディタとしては、限定するものではないが、ＭｉｃｒｏｓｏｆｔＷｏｒｄ、ｅｍａｃｓ、ｐｉｃｏ、ｖｉ、ＢＢＥｄｉｔ、およびＴｅｘｔＷｒａｎｇｌｅｒがあげられる。好ましくは、テキストエディタプログラムは、プレーンテキストファイルをコンピュータスクリーンに表示させ、メタ情報および配列リードを人間が読めるフォーマットで（例えば、バイナリコード化されているのではなく、人間が筆記に用いるような英数字文字を用いて）示すことができる。

ＦＡＳＴＡまたはＦＡＳＴＱファイルを参照して方法を論じてきたが、本発明の方法およびシステムは、任意の適切な配列ファイルフォーマット（例えば、ＶａｒｉａｎｔＣａｌｌＦｏｒｍａｔ（ＶＣＦ）フォーマットのファイルが含まれる）を圧縮するために使用しうる。典型的なＶＣＦファイルは、ヘッダーセクションおよびデータセクションを含むであろう。ヘッダーは、メタ情報行の任意の数字を含み、各行は、文字「＃＃」で始まり、「＃」一文字で始まるフィールド定義行がタブで区切られている。フィールド定義行は、８つの必須の列を指定し、ボディーセクションには、フィールド定義行で定義された列を構成するデータの行が含まれる。ＶＣＦ形式は、Ｄａｎｅｃｅｋら（「ＴｈｅｖａｒｉａｎｔｃａｌｌｆｏｒｍａｔａｎｄＶＣＦｔｏｏｌｓ」、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２７（１５）：２１５６−２１５８，２０１１）（これは、参照によりその全体が本明細書に援用される）によって説明されている。ヘッダーセクションは、圧縮ファイルに書き込まれるメタ情報として扱われてもよく、データセクションは、前記の行として取り扱われてもよく、各行は、ユニークである場合のみ、マスターファイル中に保存されるであろう。

本発明のある特定の実施形態は、配列リードのアセンブリを提供する。アライメントによるアセンブリにおいて、例えば、リードは、互いにアラインされるか、または参照にアラインされる。各リードにアラインし、次いで参照ゲノムにアラインすることによって、全てのリードは、互いの関係において位置づけされ、アセンブリを作り出す。加えて、配列リードの参照配列に対するアライメントまたはマッピングは、配列リード内のバリアント配列を識別するためにも使用しうる。バリアント配列の識別は、本明細書に記載されている方法およびシステムと組み合わせて、疾患もしくは状態の診断もしくは予後をさらに補助するために、または処置の判断のガイドのために使用しうる。

いくつかの実施形態において、これらのステップのいずれかまたは全てが自動化される。あるいは、本発明の方法は、全体的または部分的に、１つまたはそれを超える専用のプログラムに組み入れられ、例えば、それぞれが、必要に応じてＣ＋＋などのコンパイル言語で記述され、次いでコンパイルされ、バイナリとして供給される。本発明の方法は、全体的または部分的に、既存の配列解析プラットフォーム内にモジュールとして実装されてもよく、または既存の配列解析プラットフォーム内で機能的に実行することで実装されてもよい。ある特定の実施形態において、本発明の方法は、１つの開始キュー（例えば、人間の動作、別のコンピュータプログラム、またはマシンに起因する、トリガーとなる１つまたは組み合わせのイベント）に応答して自動的に全てが実行される、多数のステップを含む。よって、本発明は、任意の前記ステップ、または前記ステップの任意の組み合わせが、キューに応答して自動的に起こる方法を提供する。「自動的に」とは、一般に、人間の入力、影響、または相互作用が介在しない（すなわち、最初の、または前の、キューとなる人間の動作のみに応答する）ことを意味する。

システムは、種々の出力形式も包含し、正確で敏感な対象核酸の解釈を含む。検索の出力は、コンピュータファイルのフォーマットで提供されうる。ある特定の実施形態において、出力は、ＦＡＳＴＡファイル、ＦＡＳＴＱファイル、またはＶＣＦファイルである。出力は、参照ゲノムの配列にアラインした核酸の配列などの配列データを含むテキストファイルまたはＸＭＬファイルを生成するために処理されてもよい。他の実施形態において、処理は、参照ゲノムと比較した、対象核酸における１つまたはそれを超える変異を説明する座標またはストリングを含む出力をもたらす。配列のアライメントとしては、ＳｉｍｐｌｅＵｎＧａｐｐｅｄＡｌｉｇｎｍｅｎｔＲｅｐｏｒｔ（ＳＵＧＡＲ）、ＶｅｒｂｏｓｅＵｓｅｆｕｌＬａｂｅｌｅｄＧａｐｐｅｄＡｌｉｇｎｍｅｎｔＲｅｐｏｒｔ（ＶＵＬＧＡＲ）、およびＣｏｍｐａｃｔＩｄｉｏｓｙｎｃｒａｔｉｃＧａｐｐｅｄＡｌｉｇｎｍｅｎｔＲｅｐｏｒｔ（ＣＩＧＡＲ）（Ｎｉｎｇら、ＧｅｎｏｍｅＲｅｓｅａｒｃｈ１１（１０）：１７２５−９，２００１（これらは、参照によりその全体が本明細書に援用される）が挙げられ得る。これらのストリングは、例えば、欧州バイオインフォマティクス研究所（ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ）（Ｈｉｎｘｔｏｎ、ＵＫ）によるＥｘｏｎｅｒａｔｅ配列アライメントソフトウェア中に実装される。

いくつかの実施形態において、ＣＩＧＡＲ列を含む配列アライメント（例えば、配列アライメントマップ（ＳＡＭ）またはバイナリアライメントマップ（ＢＡＭ）ファイルなど）が生成される（ＳＡＭ形式は、例えば、Ｌｉら、「ＴｈｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ／ＭａｐｆｏｒｍａｔａｎｄＳＡＭｔｏｏｌｓ」、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２５（１６）：２０７８−９，２００９（これは、参照によりその全体が本明細書に援用される）によって説明されている）。いくつかの実施形態において、ＣＩＧＡＲは、１行ごとに１つ、ギャップトアライメント（ｇａｐｐｅｄａｌｉｇｎｍｅｎｔ）を表示する、または含む。ＣＩＧＡＲは、ＣＩＧＡＲ列として報告される、圧縮されペアワイズアライメントフォーマットである。ＣＩＧＡＲ列は、長い（例えば、ゲノムの）ペアワイズアライメントを表示するために有用である。ＣＩＧＡＲ列は、リードの参照ゲノム配列に対するアライメントを表示するために、ＳＡＭ形式で用いられる。

ＣＩＧＡＲ列は、確立されたモチーフのあとに続く。各文字の前に数字を付し、イベントの塩基数を示す。使用される文字としては、Ｍ、Ｉ、Ｄ、Ｎ、およびＳ（Ｍ＝マッチ；Ｉ＝挿入；Ｄ＝欠失；Ｎ＝ギャップ；Ｓ＝置換）が挙げられ得る。ＣＩＧＡＲ列は、マッチ／ミスマッチおよび欠失（またはギャップ）の配列を記述する。例えば、ＣＩＧＡＲ列２ＭＤ３Ｍ２Ｄ２Ｍは、２マッチ、１欠失（数字の１は、スペースを節約するために省略される）、３マッチ、２欠失、および２マッチを含むアライメントを意味するであろう。

いくつかの実施形態において、本明細書に開示されているシステムおよび方法の結果は、レポートを生成するための入力として使用される。レポートは、紙または電子的フォーマットでありうる。例えば、本明細書に開示されている方法またはシステムによって決定された試料のアレル不均衡状態についての情報は、そのようなレポートに表示されうる。代わりに、または加えて、本明細書に開示されている方法またはシステムによって決定されるような、試料中のコンタミネーションの存在または非存在についての情報は、このようなレポートに表示されうる。本明細書に開示されている方法またはシステムは、そのようなレポートを第三者（例えば、前記試料の起源である対象、または医療従事者）に伝達するステップをさらに含んでいてもよい。

本明細書に開示されている方法の種々のステップ、または本明細書に開示されているシステムによって実行される種々のステップは、同じまたは異なる時間に、同じまたは異なる地理的位置（例えば、国）で、および／または同じまたは異なる人によって実行されうる。

本方法は、異なる時点における治療的核酸コンストラクトの相対量によって、処置の有効性を決定またはモニタリングするためにも使用しうる。

図３は、本明細書で提供される方法を実行するように、プログラムまたは他の方法で構成されたコンピュータシステム３０１を示す。

コンピュータシステム３０１は、生物学的配列、保存、および分子的な表現型を用いてニューラルネットワークを訓練するためのアーキテクチャを実行するように、プログラムまたは他の方法で構成されていてもよい。コンピュータシステム３０１は、例えば、（ａ）前記試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子をシーケンシングして、複数の配列リードを生成すること；（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別すること（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有する）；（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡を所定の基準に基づいて検出すること、などの、本開示の種々の態様を制御することができる。コンピュータシステム３０１は、ユーザーの電子デバイスであってもよく、または電子デバイスから離れて配置されたコンピュータシステムであってもよい。前記電子デバイスは、モバイル電子デバイスであってもよい。

コンピュータシステム３０１は、中央処理装置（ＣＰＵ、または、本明細書において、「プロセッサ」および「コンピュータプロセッサ」）３０５を含み、これはシングルコアもしくはマルチコアプロセッサ、または並列処理のための複数のプロセッサであってもよい。コンピュータシステム３０１は、メモリーまたは記憶域３１０（例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー）、電子記憶ユニット３１５（例えば、ハードディスク）、１つまたはそれを超える他のシステムと通信するための通信インターフェース３２０（例えば、ネットワークアダプター）、および周辺デバイス３２５（例えば、キャッシュ、他のメモリー、データ記憶および／または電子ディスプレイアダプターなど）も含む。メモリー３１０、記憶ユニット３１５、インターフェース３２０、および周辺デバイス３２５は、コミュニケーションバス（実線）（例えば、マザーボードなど）を通じて、ＣＰＵ３０５と通信している。記憶ユニット３１５は、データを記憶するためのデータ記憶ユニット（またはデータリポジトリ）でありうる。コンピュータシステム３０１は、通信インターフェース３２０の助けによりコンピュータネットワーク（「ネットワーク」）３３０に動作できるように接続されていてもよい。ネットワーク３３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび／もしくはエクストラネットでありうる。ネットワーク３３０は、いくつかのケースにおいて、遠距離通信および／またはデータネットワークである。ネットワーク３３０は、１つまたはそれを超えるコンピュータサーバーを含んでいてもよく、それによってクラウドコンピューティングなどの分散型コンピューティングが可能になりうる。ネットワーク３３０は、いくつかのケースにおいて、コンピュータシステム３０１の助けにより、Ｐ２Ｐ（ｐｅｅｒ−ｔｏ−ｐｅｅｒ）ネットワークを実現することができ、これによってコンピュータシステム３０１に接続されたデバイスを、クライアントまたはサーバーとして動作させることが可能になりうる。

ＣＰＵ３０５は、マシン可読命令（これは、プログラムまたはソフトウェアに組み込まれうる）のシーケンスを実行することができる。命令は、記憶域、例えばメモリー３１０に記憶されうる。命令は、ＣＰＵ３０５に向けられてもよく、これが、次に本開示の方法を実行するように、ＣＰＵ３０５をプログラムまたは他の方法で構成してもよい。ＣＰＵ３０５によって実行される動作の例としては、フェッチ、デコード、実行、およびライトバックがあげられる。

ＣＰＵ３０５は、回路（例えば、集積回路）の一部でありうる。システム３０１の１つまたはそれを超える他の構成要素が、回路に含まれていてもよい。いくつかのケースにおいて、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶ユニット３１５は、ファイル（例えば、ドライバ、ライブラリ、および保存されたプログラム）を記憶することができる。記憶ユニット３１５は、ユーザーのデータ（例えば、ユーザーのプリファレンスおよびユーザーのプログラム）を記憶することができる。コンピュータシステム３０１は、いくつかのケースにおいて、コンピュータシステム３０１の外部の（例えば、イントラネットまたはインターネットを通じてコンピュータシステム３０１と通信しているリモートサーバーに置かれた）、１つまたはそれを超える追加のデータ記憶ユニットを含んでいてもよい。

コンピュータシステム３０１は、ネットワーク３３０を通じて１つまたはそれを超えるリモートコンピュータシステムと通信することができる。例えば、コンピュータシステム３０１は、ユーザーのリモートコンピュータシステムと通信することができる。リモートコンピュータシステムの例としては、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートホン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、アンドロイド（登録商標）対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、またはＰＤＡ（パーソナルデジタルアシスタント）があげられる。ユーザーは、ネットワーク３３０を通じてコンピュータシステム３０１にアクセスすることができる。

本明細書で説明した方法は、コンピュータシステム３０１の電子的記憶域に（例えば、メモリー３１０または電子記憶ユニット３１５に）記憶されたマシン（例えば、コンピュータプロセッサ）実行可能コードによって実行されうる。マシン実行可能またはマシン可読コードは、ソフトウェアの形態で提供されうる。使用中、コードは、プロセッサ３０５によって実行されうる。いくつかのケースにおいて、コードは、記憶ユニット３１５から読み出され、プロセッサ３０５がすぐにアクセスできるように、メモリー３１０に格納される。いくつかの状況において、電子記憶ユニット３１５を排除し、マシン実行可能命令をメモリー３１０に格納してもよい。

コードは、事前にコンパイルして、コードの実行に適合されたプロセッサを有するマシンで使用するために構成してもよく、または実行時間中にコンパイルしてもよい。コードは、事前にコンパイルされる様式または実行中にコンパイルされる様式でコードを実行できるように選択されうる、プログラミング言語で供給してもよい。

本明細書において提供されるシステムおよび方法の態様、例えばコンピュータシステム３０１は、プログラミングに組み込まれうる。このテクノロジーの種々の態様は、典型的には、ある種のマシン可読媒体に保持される、または組み込まれる、マシン（またはプロセッサ）実行可能コードおよび／または関連するデータの形態の、「製品」または「製造物品」であると考えてもよい。マシン実行可能コードは、メモリー（例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー）、またはハードディスクなどの電子的記憶ユニットに記憶されうる。「記憶」型の媒体は、コンピュータ、プロセッサなど、またはそれらの関連モジュールの、いずれかまたは全ての有体メモリー（例えば、種々の半導体メモリー、テープドライブ、ディスクドライブなど）を含んでもよく、これらは、ソフトウェアプログラミンの任意の時点において、非一時的な記憶を提供しうる。ソフトウェアの全てまたは一部は、時により、インターネットまたは他の種々の遠距離通信ネットワークを通じて通信してもよい。そのような通信は、例えば、ソフトウェアを、１つのコンピュータまたはプロセッサから別のものに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームに、ロードすることを可能にしうる。よって、ソフトウェア要素を保持しうる別の種類の媒体としては、光波、電波、または電磁波（例えば、有線および光地上線ネットワーク通して、ならびに種々の無線リンクによって、ローカルデバイス間の物理的インターフェース同士で用いられる）があげられる。このような波を運ぶ物理的要素（例えば、有線またはワイヤレスリンク、光学リンクなど）もまた、ソフトウェアを保持する媒体と考えられうる。本明細書で用いられる場合、非一時的な有形「記憶」媒体に特に限定されない限り、コンピュータまたはマシン「可読媒体」などの用語は、命令を実行のためのプロセッサに提供することに関わるあらゆる媒体を意味する。

よって、マシン可読媒体（例えばコンピュータ実行可能なコード）は、それらに限定されないが、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含む、多くの形態をとることができる。不揮発性記憶媒体は、例えば、光学または磁気ディスク（例えば、任意のコンピュータなどにおける記憶装置のいずれか）を含み、例えば、図面に示されるデータベースなどを構築するために使用しうる。揮発性記憶媒体としては、このようなコンピュータプラットフォームのメインメモリーなどのダイナミックメモリーがあげられる。有体通信媒体としては、同軸ケーブル；銅線および光ファイバー（コンピュータシステム内のバスを構成する線を含む）があげられる。搬送波伝送媒体は、電気もしくは電磁気シグナル、または音波もしくは光波の形態（例えば、無線周波数（ＲＦ）および赤外線（ＩＲ）データ通信の際に生成されるもの）であってもよい。よって、コンピュータ可読媒体の通常の形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体；ＣＤ−ＲＯＭ、ＤＶＤもしくはＤＶＤ−ＲＯＭ、任意の他の光学媒体；パンチカード紙テープ、穴のパターンを有する任意の他の物理的記憶媒体；ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）−ＥＰＲＯＭ、任意の他のメモリーチップまたはカートリッジ；データまたは命令を運ぶ搬送波；そのような搬送波を運ぶケーブルまたはリンク；またはコンピュータがプログラムコードおよび／またはデータを読み出すことができる任意の他の媒体があげられる。このような形態のコンピュータ可読媒体の多くは、１つまたはそれを超える命令の１つまたはそれを超えるシーケンスを、実行のためのプロセッサに運ぶことに関係しうる。

コンピュータシステム３０１は、ユーザーインターフェース（ＵＩ）３４０を含む電子ディスプレイ３３５を含んでいてもよく、ユーザーインターフェース（ＵＩ）３４０を含む電子ディスプレイ３３５と通信していてもよい。ＵＩの例としては、限定するものではないが、例えば、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブベースユーザーインターフェースがあげられる。

本開示の方法およびシステムは、１つまたはそれを超えるアルゴリズムとして実施されうる。アルゴリズムは、中央処理装置３０５による実行の際に、ソフトウェアとして実施されてもよい。アルゴリズムによって、例えば、（ａ）シーケンサーからの複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成し；（ｂ）前記複数のアラインした配列リードの少なくとも一部について、試料中に変異アレル割合（ＭＡＦ）またはマイナーアレル頻度で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別し（ここで、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦまたはマイナーアレル頻度値を有する）；（ｃ）（ｂ）において識別された、ＭＡＦまたはマイナーアレル頻度値が複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定し；および（ｄ）少なくとも（ｃ）の前記定量的測定値に基づいて（ｂ）において識別された前記生殖系列バリアントのセットをフィルタリングすることによって、所定の基準に基づいて前記試料中の前記アレル不均衡を検出する、ことが可能である。

上記の説明は、特定の実施形態に関して説明してきたが、これらの特定の実施形態は例示にすぎず、限定的なものではない。実施例で例証される概念は、他の実施例および実施態様にもあてはまりうる。

実施例１：アレル不均衡がある試料とコンタミネーションがある試料の識別
通常の無細胞ＤＮＡ分析方法を用いて試料をアッセイする場合、体細胞ＭＡＦの範囲内のＭＡＦ（約１５％未満であろう）で存在する２つを超える生殖系列バリアントを有するどのような試料も、その試料が「コンタミネーションがありうる」状態であるか否かを評価するために、人手による精査を必要とする。このようなアプローチでは、このような生殖系列バリアントを複数含む種々の試料、例えば、（１）アッセイレベルのコンタミネーションを含む試料、（２）（例えば、移植片、輸血、または胎児由来の）第２のゲノムを含む試料、および（３）ヘテロ接合性の喪失（ＬｏＨ）の結果アレル不均衡を示している試料、に印をつける。さらに、試料を通常のｃｆＤＮＡアッセイ方法によって分析した場合、このようなケースの試料を識別することができない。例えば、第２のゲノムを含む試料と、ＬｏＨの結果アレル不均衡を示している試料は、どちらも、誤ってアッセイレベルのコンタミネーションを含む試料とみなされ、それにより、確認目的の試料アッセイを繰り返すことが必要になるであろう。したがって、このアプローチでは、コンタミネーション試料をオーバーコール（ｏｖｅｒｃａｌｌ）し、その結果、実際にはコンタミネーションではなくアレル不均衡を有する試料を再アッセイすることが必要となるために、アッセイ所要時間が増加し、コストも増大するおそれがある。

コピー数多型または変更がない試料のケースでは、体細胞バリアントは、腫瘍源から直接測定してもよい。しかしながら、コピー数多型または変更が試料中に存在する場合、そのような多型がＬｏＨを引き起こす生殖系列バリアントを含んでいる場合には、ＭＡＦ測定が歪められ（例えば、ＭＡＦ測定はシフトし、５０％ずれることがありうる）、それにより、偽陽性のコンタミネーション評価および試料の再アッセイ分析を誘発しうる。そのようなアレル不均衡は、ＬｏＨ（これはコピー数に関係がある）またはＣＮ−ＬｏＨ（ｃｏｐｙ−ｎｅｕｔｒａｌＬｏＨ）（例えば、染色体情報が一定に保たれるような、２つの染色体腕間の遺伝子交換に起因する）から生じた、ＣＮＶを有する患者で見られうる。例えば、そのようなＬｏＨ（これは、遺伝子がそのアレルを失うこと（例えば、遺伝子機能を失うこと）を示す）の検出は、処置の選択、モニタリング、および評価のために、重要な意味を有しうる。

本開示の方法およびシステムを用いて、無細胞ＤＮＡ分子を含有する試料がアッセイされ、その結果が、アレル不均衡を有する試料とコンタミネーションを有する試料を識別するための決定木を用いて分析される。図２は、無細胞ＤＮＡ試料におけるアレル不均衡またはコンタミネーションの存在または非存在を検出するためのワークフロー２００の例を示す。ワークフロー２００は、（操作２０２におけるように）ＭＡＦ値の複数の別々の範囲の間にある、試料の無細胞ＤＮＡ分子についての前記生殖系列バリアントの定量的測定値を決定することを含みうる。次に、ワークフロー２００は、（操作２０４におけるように）その試料レベルにおける、ｍａｘ＿ＣＮＶ（前記試料全体で測定した全遺伝子の最大ＣＮＶレベル）、ｍｉｎ＿ＣＮＶ（前記試料全体で測定した全遺伝子の最小ＣＮＶレベル）、またはｆｒａｃ＿ｄｉｐｌｏｉｄ（二倍体遺伝子割合）の値を決定することを含みうる。次に、ワークフロー２００は、（操作２０６におけるように）第１の基準が満たされているか否か、例えば生殖系列バリアントの測定値、およびｍａｘ＿ＣＮＶ、ｍｉｎ＿ＣＮＶ、またはｆｒａｃ＿ｄｉｐｌｏｉｄの値が、ある特定の基準を満たすか否か、を決定することを含みうる。もし操作２０６における判断が「ｙｅｓ」（すなわち、第１の基準がポジティブ）であれば、ワークフローは操作２０８に進み、代わりに、もし操作２０６における判断が「ｎｏ」（すなわち、第１の基準がネガティブ）であれば、ワークフローは操作２１２に進む。次に、ワークフロー２００は、（操作２０８におけるように）第２の基準が満たされているか否か、例えば、アレル不均衡候補（例えば、アレル不均衡またはコンタミネーションの存在または非存在を検出するために分析されているｃｆＤＮＡ試料）が、低ＭＡＦ基準を満たす生殖系列バリアントを有しているか否か、を決定することを含みうる。もし操作２０８における判断が「ｙｅｓ」（すなわち、第２の基準がポジティブ）であれば、ワークフローは操作２１０に進み、代わりに、もし操作２０８における判断が「ｎｏ」（すなわち、第２の基準がネガティブ）であれば、ワークフローは操作２１２に進む。次に、ワークフロー２００は、例えば、（操作２１０におけるように）試料がアレル不均衡を有するという出力または表示を生成することを含みうる。あるいは、ワークフロー２００は、（操作２１２におけるように）試料がコンタミネーション（例えば、アッセイレベルのコンタミネーションまたは第２のゲノムによるコンタミネーション）を有するという出力または表示を生成することを含みうる。

いくつかの実施形態において、決定木における全ての基準が適用される。決定木における第１の基準は、コンタミネーションの可能性がある試料を識別するために適用される。決定木における第２の基準は、複数の別々の範囲（例えば、ウィンドウ）のＭＡＦ値（約３％〜約４０％ＭＡＦおよび約６０％〜約９７％ＭＡＦが含まれる）のいずれかの範囲内にある生殖系列バリアントの数を評価するために適用される。もし前記の数が大きく、かつコピー数による裏づけもあれば、そのような試料は、アレル不均衡を有する可能性がある。決定木における第３の基準は、非常に多数のコピー数変更によって約３％より少ないＭＡＦを有する生殖系列バリアントが生じうるという、極端なケースを検出するために適用される。

２０，０００個を超える臨床試料の第１のセットを、７３遺伝子無細胞ＤＮＡ（ｃｆＤＮＡ）次世代シーケンシング（ＮＧＳ）パネル（ＧｕａｒｄａｎｔＨｅａｌｔｈ、レッドウッドシティー、ＣＡ）を用いて処理する。この第１のセットから、２２４個の試料（これらは、人手によって再アッセイし、アレル不均衡試料とコンタミネーション試料を識別済みである）の訓練セットを選ぶ。例えば、もし人手による再アッセイによって、所与の試料に、もはやコンタミネーションがありうるという印がないという結果が得られたら、第１のアッセイ（ラン）は、本当にコンタミネーションがあるらしいと識別されうる。加えて、何人かの患者にコンタクトして、第２のゲノムの状態（例えば、移植片、輸血、または胎児）が確認される。２２４個の試料の訓練セットのそれぞれについてのコンタミネーションの状態は、人手によって精査される。この第１のセットから、２，３００個の試料の試験セットを選び、そのうち３７個の試料には、もともと、コンタミネーションがありうるという印がつけられていた。

いくつかの実施形態において、無細胞ＤＮＡアッセイは、複数の遺伝子バリアント（生殖系列バリアントおよび体細胞バリアントが含まれる）を生じさせる。これらの複数の遺伝子バリアントのうち、所与の遺伝子バリアントの生殖系列または体細胞状態を、検討中の候補バリアントの近傍に位置するコモン生殖系列ＳＮＰｓについてのＭＡＦ値の平均および分散を推定するベータ二項分布モデルを用いて決定（例えば、識別）してもよい。本明細書に開示されている方法および関連する態様の実行モデルに用いるために必要に応じて適合されるベータ二項分布に関するさらなる詳細は、例えば、２０１８年９月２０日に出願された国際特許出願第ＰＣＴ／ＵＳ２０１８／０５２０８７号（これは、参照によりその全体が本明細書に援用される）にも記載されている。

まず、コンタミネーションがありうる試料を識別するために、第１の基準を適用して、所与の試料が、変異アレル割合（ＭＡＦ）１５％未満で、２つを超えるコモン生殖系列一塩基多型（ＳＮＰｓ）を有するか否かを評価する。もしこの第１の基準が満たされれば、第２の基準を適用して、試料が、（ａ）複数の別々の範囲（例えば、ウィンドウ）のＭＡＦ値（約３％〜約４０％ＭＡＦおよび約６０％〜約９７％ＭＡＦが含まれる）のいずれかの範囲内に２１個を超える生殖系列バリアントを有し、および（ｂ）試料中のこれらの別々の範囲内の遺伝子が、０．２２より大きい最大ＣＮＶレベル、−０．１４より小さい最小ＣＮＶレベル、または０．７より小さい二倍体遺伝子割合（例えば、二倍体割合）を有するか否かを評価する。前述の閾値は、多数の試料（例えば、約５０個の試料、約１００個の試料、約１５０個の試料、約２００個の試料、約２５０個の試料）（ここで、これらの試料のコンタミネーション／アレル不均衡状態は既知であり、および／またはこれらの範囲は最大の精度をもたらす）の訓練データセットを用いて決定してもよい。

第２の基準は、（例えば、アレル不均衡またはヘテロ接合性の喪失から生じた）コピー数を示す定量的測定値を含みうる。コピー数を示す定量的測定値は、ゲノム破壊の測定値の総計（例えば、コピー数変化の総計の推定値）（例えば、ＣＮＶ、または二倍体割合で表されうる）；染色体または染色体腕によるビニング（ｂｉｎｎｉｎｇ）によって得られる定量的測定値；またはゲノム全体にわたって破壊を観察すること、各破壊における歪みの相対量を測定すること、およびそのような測定値から、同じ染色体上の別の遺伝子が（例えば、ＣＮ−ＬｏＨ（ｃｏｐｙ−ｎｅｕｔｒａｌＬｏＨ）の結果として）同程度に変更されうる可能性を予測すること、によって得られる定量的測定値、を含みうる。第２の基準は、コピー数変更が、生殖系列バリアントを、より広いＭＡＦウィンドウ（例えば、約３％〜約４０％または約６０％〜約９７％）に移動させうる証拠があるか否かを評価する。

もしこの第２の基準が満たされれば、第３の基準を用いて、試料が、（ａ）約３％より小さいＭＡＦを有する生殖系列バリアントを有さない、または（ｂ）約３％より小さいＭＡＦを有し、同じ生殖系列バリアントにおいてコピー数平均の絶対値が約１０より大きい（例えば、コピー数平均が約１０より大きい、または約−１０より小さい）生殖系列バリアントを有する、のいずれであるかを評価する。第３の基準は、非常に多数のコピー数変更によって、約３％より小さいＭＡＦを有する生殖系列バリアントが生じうるという極端なケースが起こるか否かを評価する。もし第３の基準が満たされれば、試料は、アレル不均衡を有するもの（例えば、アレル不均衡試料）と識別される。もし第３の基準が満たされなければ、試料は、コンタミネーションを有するもの（例えば、本当にコンタミネーションがある試料）と識別される。

コンタミネーションがある試料（例えば、アレル不均衡がない試料）を検出するための方法の性能を、（少なくとも２０，０００個の異なる試料のより大きいセットから選択した）２２４個の試料の訓練データセット（表１）、および少なくとも２，３００個の異なる試料の試験データセット（表２）について、以下に示す。

表１

表２

アレル不均衡を有する試料とコンタミネーションを有する試料を識別するために本明細書に開示されている方法を適用することによって、真のコンタミネーションを有する試料の検出において、１００％という完全な感度を維持しつつ、無細胞ＤＮＡアッセイのオーバーコール率が２０％低下する。

リキッドバイオプシーアッセイが（例えば、シーケンシング深度およびコモンＳＮＰｓのパネルにおいて）変化した場合、（例えば、アレル不均衡を有する試料とコンタミネーションを有する試料を識別するための判断木の１つまたはそれを超える基準の適用のための）妥当な閾値のセットを得るために、本開示の方法およびシステムを、必要に応じて再訓練してもよい。
実施例２：無細胞ＤＮＡ（ｃｆＤＮＡ）におけるアレル特異的なヘテロ接合性の喪失（ＬｏＨ）の検出

ヘテロ接合性の喪失（ＬｏＨ）は、腫瘍生物学における一般的な特徴であり、相同組換え修復（ＨｏｍｏｌｏｇｏｕｓＲｅｃｏｍｂｉｎａｔｉｏｎＲｅｐａｉｒ）（ＨＲＲ）の欠陥によって頻繁に起こる可能性があり、結果としてＬｏＨとして顕在化する片親性欠失をもたらす。推進力がなければ、アレル喪失の起こりやすさは等しく、したがって、集団において、所与のアレルの保持および喪失の割合は等しいであろうが、アレル特異的喪失（または保持）は起こりうる。

７０，０００個を超える全血試料のセットを、進行した固形腫瘍を有する患者から取得し、７３遺伝子無細胞ＤＮＡ（ｃｆＤＮＡ）次世代シーケンシング（ＮＧＳ）パネル（ＧｕａｒｄａｎｔＨｅａｌｔｈ、レッドウッドシティー、ＣＡ）を用いてアッセイした。本明細書に開示されている方法を実施することによって、得られたｃｔＤＮＡデータ（観測アレル頻度およびコピー数多型を含む）を、腫瘍関連バリアントのデータベースを用いて分析し、アレル特異的喪失を識別した。

データベースの解析によって、ＬｏＨは、個別の試料中で、保持アレルの観測変異アレル割合（ＭＡＦ）が観測アレル頻度の５０％を上回り、喪失アレルの観測変異アレル割合（ＭＡＦ）が５０％を下回る、アレル不均衡として顕在化することが多いことが明らかになった。この不均衡は、アレル頻度が相対的な測定値であるために、１つのアレルが喪失することで残ったアレルが相対的に多数となり、残ったアレルの量が比例して増加するために起こる。ポピュレーション解析によって、大部分のアレルの喪失は無差別であるが、ある特定のアレルは、保持または喪失の傾向が強いことが明らかになった。

一例として、分析した９０，０００個を超える全血試料のセットのうち、このセットの１つまたはそれを超える個別の試料中でＢＲＣＡ１遺伝子の５６個のバリアントが観察されたが、各バリアントについて、所与のバリアントを有する個々の試料全てにおいて、所与のバリアントについて測定されたＭＡＦは５０％未満であり、これはアレル特異的喪失の可能性を示唆している。例えば、ＢＲＣＡ１Ｐ２０９Ｌバリアントは、この９０，０００個を超える全血試料のセットの９個の個別の試料中で観察され、この９個の個別の試料のそれぞれについて測定されたＢＲＣＡ１Ｐ２０９ＬバリアントのＭＡＦは、５０％未満であった。ｃｔＤＮＡデータからのアレル特異的喪失の検出は、基礎となる腫瘍生物学、および処置過程の間の腫瘍進化もたらす選択圧への洞察を提供する。

本明細書において、本発明の好ましい態様を示し、説明してきたが、それらの実施形態は例として示されているにすぎないことが、当業者には明白であろう。本明細書中に示されている特定の例によって本発明が限定されることは意図されていない。前述の明細書を参照して本発明を説明してきたが、本明細書における実施形態の説明および例証は、限定する意味で解釈されることを意図していない。多数の変形、変更、および置換が、本発明を逸脱することなく、当業者によって直ちに見いだされるであろう。さらに、本発明の全ての態様は、本明細書に示されている特定の描写、構成、または相対的比率に限定されず、それらは様々な条件および変数に依存することが理解されるであろう。本発明の実施において、本明細書に記載されている本発明の実施形態に対する種々の代替が採用されうることを理解すべきである。よって、そのようなあらゆる代替物、変更物、変形物、または等価物もまた本発明に包含されることが意図されている。以下の特許請求の範囲が本発明の範囲を規定し、その特許請求の範囲内の方法および構造ならびにそれらの等価物が、特許請求の範囲に包含されることが意図されている。

Claims

対象からの試料におけるアレル不均衡の存在または非存在を検出するための方法であって、
（ａ）前記試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子をシーケンシングして、複数の配列リードを生成すること；
（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；
（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別することであって、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有すること；
（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および
（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を所定の基準に基づいて検出すること
を含む、方法。
（ｅ）における検出が、前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を検出することを含み、前記所定の基準が、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含む、請求項１に記載の方法。
前記試料において前記アレル不均衡の非存在が検出された場合に、前記試料におけるコンタミネーションまたは第２のゲノムの存在または非存在を検出することをさらに含む、請求項１または２に記載の方法。
前記生殖系列バリアントのセットが、少なくとも約１，０００個の異なる生殖系列バリアントを含む、請求項１〜３のいずれか１項に記載の方法。
前記遺伝子バリアントのセットが、一塩基バリアント（ＳＮＶ）、挿入または欠失（挿入欠失）、および融合からなる群から選択される遺伝子バリアントを含む、請求項１〜４のいずれか１項に記載の方法。
前記試料が、血液、血漿、血清、尿、唾液、粘膜分泌物、喀痰、便、および涙からなる群から選択される体液試料である、請求項１〜５のいずれか１項に記載の方法。
前記対象が、疾患または障害を有する、請求項１〜６のいずれか１項に記載の方法。
前記疾患が、がんである、請求項７に記載の方法。
シーケンシングの前に、前記無細胞ＤＮＡ分子を増幅することをさらに含む、請求項１〜８のいずれか１項に記載の方法。
シーケンシングの前に、遺伝子座のセットについて、前記無細胞ＤＮＡ分子、または前記増幅された無細胞ＤＮＡ分子を選択的に富化することをさらに含む、請求項１〜９のいずれか１項に記載の方法。
シーケンシングの前に、分子バーコードを含む１つまたはそれを超えるアダプターを、前記無細胞ＤＮＡ分子に結合させることをさらに含む、請求項１〜１０のいずれか１項に記載の方法。
前記１つまたはそれを超えるアダプターが、前記無細胞ＤＮＡ分子の両方の末端にランダムに結合される、請求項１１に記載の方法。
前記無細胞ＤＮＡ分子が、分子バーコードで固有にバーコード化される、請求項１１に記載の方法。
前記無細胞ＤＮＡ分子が、分子バーコードで非固有にバーコード化される、請求項１１に記載の方法。
各分子バーコードが、選択された領域からシーケンシングされた分子の多様性と組み合わせて、固有の無細胞ＤＮＡ分子の識別を可能にする、既定のまたはセミランダムなオリゴヌクレオチド配列を含む、請求項１１に記載の方法。
前記複数のゲノム領域が、ＣＯＳＭＩＣ、ＴＣＧＡ（ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ）、またはＥｘＡＣ（ＥｘｏｍｅＡｇｇｒｅｇａｔｉｏｎＣｏｎｓｏｒｔｉｕｍ）中に見いだされる遺伝子バリアントを含む、請求項１〜１５のいずれか１項に記載の方法。
前記複数の別々の範囲のＭＡＦ値が、約３％〜約４０％の第１の範囲、および約６０％〜約９７％の第２の範囲を含む、請求項１〜１６のいずれか１項に記載の方法。
前記（ｄ）の定量的測定値が、ＭＡＦ値の複数の別々の範囲の間にある、前記遺伝子バリアントの多数のセットを含む、請求項１７に記載の方法。
前記所定の基準が、前記（ｄ）の定量的測定値が所定の生殖系列バリアント閾値より大きいことを含む、請求項１８に記載の方法。
前記所定の生殖系列バリアント閾値が、約２１である、請求項１９に記載の方法。
前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値が、前記試料全体の最大ＣＮＶレベル、前記試料全体の最小ＣＮＶレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、請求項２、または１７〜２０のいずれか１項に記載の方法。
前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値が、前記試料全体の最大ＣＮＶレベル、前記試料全体の最小ＣＮＶレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、２つまたはそれを超える定量的測定値を含む、請求項２１に記載の方法。
前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値が、前記試料全体の最大ＣＮＶレベル、前記試料全体の最小ＣＮＶレベル、二倍体遺伝子割合、およびコピー数平均からなる群から選択される、３つまたはそれを超える定量的測定値を含む、請求項２２に記載の方法。
前記所定の基準が、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、からなる群から選択される１つまたはそれを超える基準を含む、請求項２１〜２３のいずれか１項に記載の方法。
前記所定の基準が、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、からなる群から選択される２つまたはそれを超える基準を含む、請求項２４に記載の方法。
前記所定の基準が、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、からなる群から選択される３つまたはそれを超える基準を含む、請求項２５に記載の方法。
前記所定の基準が、前記試料全体の最大ＣＮＶレベルが所定の最大ＣＮＶ閾値より大きい、前記試料全体の最小ＣＮＶレベルが所定の最小ＣＮＶ閾値より小さい、二倍体遺伝子割合が所定の二倍体割合閾値より小さい、および同じ生殖系列バリアントにおけるコピー数平均の絶対値が所定のコピー数平均閾値より大きく、前記同じ生殖系列バリアントのＭＡＦは、約３％より小さい、という基準を含む、請求項２６に記載の方法。
前記所定の基準が、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、からなる群から選択される１つまたはそれを超える閾値を含む、請求項２４〜２７のいずれか１項に記載の方法。
前記所定の基準が、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、からなる群から選択される２つまたはそれを超える閾値を含む、請求項２８に記載の方法。
前記所定の基準が、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、からなる群から選択される３つまたはそれを超える閾値を含む、請求項２９に記載の方法。
前記所定の基準が、最大ＣＮＶ閾値が約０．２２、最小ＣＮＶ閾値が約−０．１４、二倍体割合閾値が約０．７、およびコピー数平均閾値が約１０、という閾値を含む、請求項３０に記載の方法。
少なくとも約６０％の陽性的中率（ＰＰＶ）で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの存在を検出することをさらに含む、請求項３に記載の方法。
少なくとも約９０％の陰性的中率（ＮＰＶ）で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの非存在を検出することさらに含む、請求項３に記載の方法。
少なくとも約９０％の感度で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの存在を検出することをさらに含む、請求項３に記載の方法。
少なくとも約９９％の感度で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの存在を検出することをさらに含む、請求項３４に記載の方法。
少なくとも約３５％の特異性で、前記試料中の前記コンタミネーションまたは前記第２のゲノムの非存在を検出することさらに含む、請求項３に記載の方法。
前記生殖系列バリアントを、
（ｉ）前記ｃｆＤＮＡ分子から核酸バリアントについて、総アレル数および変異アレル数を決定すること；
（ｉｉ）前記ｃｆＤＮＡ分子からの前記核酸バリアントの関連変数を識別すること；
（ｉｉｉ）前記核酸バリアントの前記関連変数についての定量値を決定すること；
（ｉｖ）前記核酸バリアントのゲノム遺伝子座において予測される生殖系列変異アレル数についての統計モデルを生成すること；
（ｖ）予測される生殖系列変異アレル数についての前記統計モデル、前記核酸バリアントの前記関連変数についての前記定量値、および前記核酸バリアントについての前記総アレル数および前記変異アレル数の少なくとも１つ、に少なくとも部分的に基づいて、前記核酸バリアントについてのＰ値（ｐｒｏｂａｂｉｌｉｔｙｖａｌｕｅ）を生成すること；および
（ｖｉ）前記核酸バリアントを、（１）前記核酸バリアントについての前記ｐ値が所定の閾値より小さい場合に体細胞起源であるとして、または（２）前記核酸バリアントについての前記ｐ値が所定の閾値以上である場合に生殖系列起源であるとして分類すること
によって識別することをさらに含む、請求項１〜３６のいずれか１項に記載の方法。
（ｃ）において所与のＭＡＦで存在するものとして識別された前記生殖系列バリアントのセットの少なくとも１つに基づいて、前記試料におけるアレル特異的喪失を検出することをさらに含む、請求項１〜３７のいずれか１項に記載の方法。
前記生殖系列バリアントのセットの前記少なくとも１つが、前記対象からの前記試料中に、５０％を下回るＭＡＦで存在することに基づいて、前記試料における前記アレル特異的喪失が検出される、請求項３８に記載の方法。
前記生殖系列バリアントのセットの前記少なくとも１つが、前記対象からの前記試料中、および追加の１つまたはそれを超える対象からの１つまたはそれを超える各試料中に、５０％を下回るＭＡＦで存在することに基づいて、前記試料における前記アレル特異的喪失が検出される、請求項３９に記載の方法。
前記生殖系列バリアントのセットの前記少なくとも１つが、ＣＯＳＭＩＣ、ＴＣＧＡ（ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ）、またはＥｘＡＣ（ＥｘｏｍｅＡｇｇｒｅｇａｔｉｏｎＣｏｎｓｏｒｔｉｕｍ）中に見いだされる、請求項３８〜４０のいずれか１項に記載の方法。
前記生殖系列バリアントのセットの前記少なくとも１つが、ＢＲＣＡ１遺伝子バリアントである、請求項４１に記載の方法。
前記ＢＲＣＡ１遺伝子バリアントが、ＢＲＣＡ１Ｐ２０９Ｌである、請求項４２に記載の方法。
前記方法の少なくとも一部が、コンピュータシステムによって実行される、請求項１〜４３のいずれか１項に記載の方法。
システムであって、少なくとも１つの電子プロセッサによって実行された場合に、少なくとも
（ａ）対象の試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子に対応する、複数の配列リードを得ること；
（ｂ）前記複数の配列リードの少なくとも一部を参照配列にアラインして、複数のアラインした配列リードを生成すること；
（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを識別することによって、前記試料中の生殖系列バリアントのセットを識別し、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有すること；
（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を決定すること；および（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中のアレル不均衡の存在または非存在を所定の基準に基づいて検出すること
を実施する非一時的なコンピュータ実行可能命令を含むコンピュータ可読媒体を含むコントローラー、または前記コンピュータ可読媒体にアクセスすることができるコントローラーを含む、システム。
（ｅ）における検出が、前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を検出することを含み、前記所定の基準が、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含む、請求項４５に記載のシステム。
前記コントローラーに作動可能に接続された核酸シーケンサーをさらに含み、前記核酸シーケンサーが、前記試料からの前記複数の無細胞ＤＮＡ分子を処理して、前記複数の配列リードを生成するように構成されている、請求項４５または４６に記載のシステム。
前記非一時的なコンピュータ実行可能命令が、少なくとも１つの電子プロセッサによって実行された場合に、前記試料の前記アレル不均衡の存在または非存在についての情報および／または前記試料の前記コンタミネーションもしくは第２のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成すること、をさらに実施する、請求項４５〜４７のいずれか１項に記載のシステム。
前記非一時的なコンピュータ実行可能命令が、少なくとも１つの電子プロセッサによって実行された場合に、前記レポートを第三者（例えば、前記試料の起源である前記対象、または医療従事者など）に伝えること、をさらに実施する、請求項４８に記載のシステム。
対象からの試料中のアレル不均衡の存在または非存在を検出するための方法であって、
（ａ）前記試料からの複数の無細胞デオキシリボ核酸（ＤＮＡ）分子から生成された複数のシーケンシングリードに、コンピュータシステムによってアクセスすること；
（ｂ）前記複数の配列リードの少なくとも一部を、前記コンピュータシステムによって参照配列にアラインして、複数のアラインした配列リードを生成すること；
（ｃ）前記複数のアラインした配列リードの少なくとも一部について、前記試料中に変異アレル割合（ＭＡＦ）で存在する生殖系列バリアントを、前記コンピュータシステムによって識別することによって、前記試料中の生殖系列バリアントのセットを識別し、前記生殖系列バリアントのセット中の個々の生殖系列バリアントは、対応するＭＡＦ値を有すること；
（ｄ）（ｃ）において識別された、ＭＡＦ値の複数の別々の範囲の間にある、前記生殖系列バリアントのセットの定量的測定値を、前記コンピュータシステムによって決定すること；および
（ｅ）（ｃ）において識別された前記生殖系列バリアントのセットを、少なくとも前記（ｄ）の定量的測定値に基づいてフィルタリングすることによって、前記試料中の前記アレル不均衡の存在または非存在を、前記コンピュータシステムによって、所定の基準に基づいて検出すること
を含む、方法。
前記（ｅ）における検出が、前記複数のアラインした配列リードから、コピー数多型（ＣＮＶ）または二倍体遺伝子を示す１つまたはそれを超える定量的測定値を、前記コンピュータシステムによって検出することであって、前記所定の基準は、前記ＣＮＶまたは前記二倍体遺伝子を示す前記１つまたはそれを超える定量的測定値を含むこと、を含む、請求項５０に記載の方法。
前記試料の前記アレル不均衡の前記存在または非存在についての情報および／または前記試料の前記コンタミネーションもしくは第２のゲノムの存在または非存在についての情報を必要に応じて含むレポートを生成することをさらに含む、請求項１〜４４または５０〜５１のいずれか１項に記載のシステム。
前記レポートを、前記試料の起源である前記対象、または医療従事者などのような第三者に伝えることをさらに含む、請求項５２に記載の方法。