JP2020103298A

JP2020103298A - まれな変異およびコピー数多型を検出するためのシステムおよび方法

Info

Publication number: JP2020103298A
Application number: JP2020024495A
Authority: JP
Inventors: タラサズアミルアリ; Talasaz Amirali; エルトーキーヘルミー; Eltoukhy Helmy
Original assignee: Guardant Health Inc
Current assignee: Guardant Health Inc
Priority date: 2012-09-04
Filing date: 2020-02-17
Publication date: 2020-07-09
Anticipated expiration: 2033-09-04
Also published as: US20190177802A1; US20220042104A1; SG10202000486VA; US20210130912A1; KR20240007774A; EP3842551B1; KR102028375B1; US10947600B2; JP2022169566A; GB2533006A; EP2893040B1; IL269097B2; GB2533006B; US10793916B2; US11319597B2; US20220205051A1; US20180327862A1; US10041127B2; KR20210013317A; KR20190112843A

Abstract

【課題】まれな変異およびコピー数多型を検出するためのシステムおよび方法を提供すること。【解決手段】本開示は、無細胞ポリヌクレオチドにおける稀な変異およびコピー数多型を検出するためのシステムおよび方法を提供する。概して、本システムおよび方法は、サンプル調製または体液からの無細胞ポリヌクレオチド配列の抽出および単離；それに続く、当該分野で公知の手法による無細胞ポリヌクレオチドの配列決定；および参照と比較して、稀な変異およびコピー数多型を検出するバイオインフォマティクスツールの適用を含む。本システムおよび方法は、稀な変異の検出、コピー数多型プロファイリングまたは疾患の一般的な遺伝子プロファイリングを助ける際にさらなる参照として使用される、種々の稀な変異または種々の疾患のコピー数多型プロファイルのデータベースまたはコレクションも含み得る。【選択図】なし

Description

相互参照
本願は、２０１２年９月４日出願の米国仮特許出願第６１／６９６，７３４号、２０１２年９月２１日出願の米国仮特許出願第６１／７０４，４００号、２０１３年３月１５日出願の米国仮特許出願第６１／７９３，９９７号、および、２０１３年７月１３日出願の米国仮特許出願第６１／８４５，９８７号に対する優先権を主張し、それらの各々は、本明細書で参照によって全ての目的のために全体的に援用される。

発明の背景
ポリヌクレオチドの検出および定量は、分子生物学および診断学などの医学的応用にとって重要である。遺伝子検査は、いくつかの診断方法にとって特に有用である。例えば、稀な遺伝子変化（例えば、配列バリアント）またはエピジェネティックマーカーの変化によって引き起こされる障害（例えば、がんおよび部分異数性または完全異数性）が、検出され得るか、またはより正確には、ＤＮＡ配列情報を用いて特徴付けられ得る。

がんなどの遺伝性疾患の早期の検出およびモニタリングは、しばしば有用であり、その疾患の処置または管理の成功に必要である。１つのアプローチは、種々のタイプの体液に見られ得るポリヌクレオチドの集団である無細胞核酸に由来するサンプルのモニタリングを含み得る。場合によっては、疾患は、遺伝子の異常（例えば、１つ以上の核酸配列のコピー数多型（ｃｏｐｙｎｕｍｂｅｒｖａｒｉａｔｉｏｎ）および／または配列変異の変化）または他のある特定の稀な遺伝子変化の発生の検出に基づいて特徴付けられ得るかまたは検出され得る。無細胞ＤＮＡ（「ｃｆＤＮＡ」）は、数十年間にわたって当該分野で知られており、特定の疾患に関連する遺伝子の異常を含み得る。配列決定法および核酸を操作する手法が改善されてきたにもかかわらず、疾患を検出およびモニターするために無細胞ＤＮＡを使用するための改善された方法およびシステムが当該分野において必要とされている。

発明の要旨
本開示は、コピー数多型を検出するための方法を提供し、その方法は、ａ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、必要に応じて、ユニークなバーコードに付着される、工程；ｂ）指定の閾値を満たさないリードを除外する工程；ｃ）工程（ａ）から得られた配列リードを参照配列に対してマッピングする工程；ｄ）参照配列の予め定義された２つ以上の領域におけるマッピングされたリードを定量／カウントする工程；ｅ）（ｉ）予め定義された領域におけるリードの数を互いに対しておよび／または予め定義された領域におけるユニークなバーコードの数を互いに対して正規化する工程；および（ｉｉ）工程（ｉ）において得られた正規化された数を、コントロールサンプルから得られた正規化された数と比較する工程によって、予め定義された領域の１つ以上におけるコピー数多型を決定する工程を含む。

本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、ａ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；ｂ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；ｃ）指定の閾値を満たさないリードを除外する工程；ｄ）配列決定工程に由来する配列リードを参照配列上にマッピングする工程；ｅ）マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；ｆ）マッピング可能な各塩基位置に対して、（ａ）参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；ｇ）マッピング可能な各塩基位置に対して上記比または分散の頻度を正規化し、潜在的な稀なバリアントまたは変異を決定する工程；ｈ）潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む。

さらに、本開示は、被験体における異常な状態の不均一性を特徴付ける方法も提供し、その方法は、その被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、その遺伝的プロファイルは、コピー数多型および／または他の稀な変異（例えば、遺伝子変化）の解析からもたらされる複数のデータを含む。

いくつかの実施形態において、被験体において同定された稀な各バリアントの保有率（ｐｒｅｖａｌｅｎｃｅ）／濃度は、同時に報告および定量される。他の実施形態では、被験体における稀なバリアントの保有率／濃度に関する信頼スコアが、報告される。

いくつかの実施形態において、細胞外ポリヌクレオチドは、ＤＮＡを含む。他の実施形態において、細胞外ポリヌクレオチドは、ＲＮＡを含む。ポリヌクレオチドは、フラグメントであり得るか、または単離後に断片化され得る。さらに、本開示は、循環核酸の単離および抽出のための方法を提供する。

いくつかの実施形態において、細胞外ポリヌクレオチドは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択され得る身体サンプルから単離される。

いくつかの実施形態において、本開示の方法は、前記身体サンプル中にコピー数多型または他の稀な遺伝子変化（例えば、配列バリアント）を有する配列のパーセントを決定する工程も含む。

いくつかの実施形態において、前記身体サンプル中にコピー数多型を有する配列のパーセントは、所定の閾値より多いまたは少ないポリヌクレオチドの量を有する予め定義された領域のパーセンテージを計算することによって決定される。

いくつかの実施形態において、変異、稀な変異、単一ヌクレオチドバリアント、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択され得る異常な状態を有すると疑われる被験体から体液を採取する。

いくつかの実施形態において、被験体は、妊婦であり得、その妊婦における異常な状態は、単一ヌクレオチドバリアント、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される胎児の異常であり得る。

いくつかの実施形態において、上記方法は、配列決定前に、１つ以上のバーコードを細胞外ポリヌクレオチドまたはそのフラグメントに付着する工程を含み得、それらのバーコードは、ユニークである。他の実施形態において、配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着されるバーコードは、ユニークでない。

いくつかの実施形態において、本開示の方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程を含み得る。他の実施形態において、本開示の方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程を含む。他の実施形態において、本開示の方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を非選択的に富化する工程を含む。

また、本開示の方法は、任意の増幅する工程または富化工程の前に、細胞外ポリヌクレオチドまたはそのフラグメントに１つ以上のバーコードを付着させる工程を含む。

いくつかの実施形態において、バーコードは、選ばれた領域から配列決定された分子の多様性と組み合わせて、ユニークな分子の同定を可能にする、ランダムな配列または固定されたもしくはセミランダムなセットのオリゴヌクレオチドをさらに含み得、少なくとも３、５、１０、１５、２０、２５、３０、３５、４０、４５または５０ｍｅｒの塩基対の長さであり得る、ポリヌクレオチドである。

いくつかの実施形態において、細胞外ポリヌクレオチドまたはそのフラグメントは、増幅され得る。いくつかの実施形態において、増幅は、グローバル増幅または全ゲノム増幅を含む。

いくつかの実施形態において、ユニークな同一性（ｕｎｉｑｕｅｉｄｅｎｔｉｔｙ）の配列リードは、その配列リードの始めの（開始）領域および終わりの（終止）領域における配列情報、ならびに配列リードの長さに基づいて検出され得る。他の実施形態において、ユニークな同一性の配列分子は、その配列リードの始めの（開始）領域および終わりの（終止）領域における配列情報、その配列リードの長さ、ならびにバーコードの付着に基づいて検出される。

いくつかの実施形態において、増幅は、選択的増幅、非選択的増幅、抑制増幅（ｓｕｐｐｒｅｓｓｉｏｎａｍｐｌｉｆｉｃａｔｉｏｎ）またはサブトラクションによる富化（ｓｕｂｔｒａｃｔｉｖｅｅｎｒｉｃｈｍｅｎｔ）を含む。

いくつかの実施形態において、本開示の方法は、リードを定量する、または列挙する前に、さらなる解析からリードのサブセットを除去する工程を含む。

いくつかの実施形態において、上記方法は、閾値未満、例えば、９０％、９９％、９９．９％もしくは９９．９９％未満の精度スコアもしくは品質スコア、および／または閾値未満、例えば、９０％、９９％、９９．９％もしくは９９．９９％未満のマッピングスコアを有するリードを除外する工程を含み得る。他の実施形態において、本開示の方法は、指定の閾値より低い品質スコアを有するリードを選別する工程を含む。

いくつかの実施形態において、予め定義された領域は、均一なまたは実質的に均一なサイズであり、約１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂまたは１００ｋｂのサイズである。いくつかの実施形態において、少なくとも５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、２０，０００または５０，０００個の領域が、解析される。

いくつかの実施形態において、遺伝的バリアント、稀な変異またはコピー数多型は、遺伝子融合、遺伝子重複、遺伝子欠失、遺伝子転座、マイクロサテライト領域、遺伝子フラグメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する。他の実施形態において、遺伝的バリアント、稀な変異またはコピー数多型は、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する。いくつかの実施形態において、バリアントは、ヌクレオチドバリアント、一塩基置換もしくは小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断であり、約１、２、３、４、５、６、７、８、９、１０、１５または２０ヌクレオチド長である。

いくつかの実施形態において、上記方法は、個々のリードのバーコードまたはユニークな特性を用いて、マッピングされたリードの数量を訂正する／正規化する／調整する工程を含む。

いくつかの実施形態において、リードを列挙する工程は、予め定義された領域の各々におけるユニークなバーコードを列挙し、配列決定された予め定義された領域の少なくとも１つのサブセットにわたってそれらの数を正規化することによって行われる。いくつかの実施形態において、同じ被験体由来の、次の時間間隔におけるサンプルが、解析され、前のサンプルの結果と比較される。本開示の方法は、バーコードが付着された細胞外ポリヌクレオチドを増幅した後に、部分的なコピー数多型の頻度、ヘテロ接合性の喪失、遺伝子発現の解析、エピジェネティックな解析および／または過剰メチル化の解析を測定する工程をさらに含み得る。

いくつかの実施形態において、コピー数多型および稀な変異の解析は、１０，０００を超える配列決定反応を行うこと；少なくとも１０，０００個の異なるリードを同時に配列決定すること；または少なくとも１０，０００個の異なるリードに対するデータ解析をゲノムにわたって行うことを含む、多重配列決定を用いて、被験体から得られた無細胞のまたは実質的に無細胞のサンプルにおいて測定される。上記方法は、少なくとも１０，０００個の異なるリードに対するデータ解析をゲノムにわたって行うことを含む多重配列決定を含み得る。上記方法は、ユニークに同定可能な配列決定されたリードを列挙する工程をさらに含み得る。

いくつかの実施形態において、本開示の方法は、隠れマルコフ、動的計画法、サポートベクターマシン、ベイジアンネットワーク、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリングまたはニューラルネットワーク法のうちの１つ以上を使用して行われる正規化および検出を含む。

いくつかの実施形態において、本開示の方法は、疾患の進行をモニターする工程、残存する疾患をモニターする工程、治療をモニターする工程、状態を診断する工程、状態を予後診断する工程、または発見されたバリアントに基づいて治療を選択する工程を含む。

いくつかの実施形態において、治療は、最新のサンプル解析に基づいて改変される。また、本開示の方法は、腫瘍、感染または他の組織異常の遺伝的プロファイルを推論する工程を含む。いくつかの実施形態において、腫瘍の成長、寛解もしくは進展、感染または他の組織異常が、モニターされる。いくつかの実施形態において、被験体の免疫系が、単一の場合においてまたは経時的に解析およびモニターされる。

いくつかの実施形態において、本開示の方法は、同定されたバリアントを引き起こすと疑われる組織異常の位置を特定するためのイメージング検査（例えば、ＣＴ、ＰＥＴ−ＣＴ、ＭＲＩ、Ｘ線、超音波）を通じて追跡されるバリアントの同定を含む。

いくつかの実施形態において、本開示の方法は、同じ患者由来の組織または腫瘍のバイオプシーから得られる遺伝子データの使用を含む。いくつかの実施形態において、腫瘍、感染または他の組織異常の系統発生が、推論される。

いくつかの実施形態において、本開示の方法は、信頼度の低い領域を、集団に基づいてコールしないこと（ｐｏｐｕｌａｔｉｏｎ−ｂａｓｅｄｎｏ−ｃａｌｌｉｎｇ）および同定することを行う工程を含む。いくつかの実施形態において、配列カバー率（ｓｅｑｕｅｎｃｅｃｏｖｅｒａｇｅ）についての測定データを得る工程は、ゲノムのすべての位置において配列カバー率の深さ（ｓｅｑｕｅｎｃｅｃｏｖｅｒａｇｅｄｅｐｔｈ）を計測する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、ウィンドウ平均カバー率を計算する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、ライブラリー構築および配列決定プロセスにおけるＧＣバイアスを説明するための調整を行う工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、バイアスを相殺するために、個々のマッピングに関連するさらなる重み付け因子（ｗｅｉｇｈｔｉｎｇｆａｃｔｏｒ）に基づいて調整を行う工程を含む。

いくつかの実施形態において、本開示の方法は、病的な細胞起源に由来する細胞外ポリヌクレオチドを含む。いくつかの実施形態において、細胞外ポリヌクレオチドは、健常な細胞起源に由来する。

本開示は、以下の工程：ゲノム内の予め定義された領域を選択する工程；その予め定義された領域内の配列リードの数を列挙する工程；その予め定義された領域にわたる配列リードの数を正規化する工程；およびその予め定義された領域内のコピー数多型のパーセントを決定する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。いくつかの実施形態において、ゲノムの全体またはゲノムの少なくとも１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％もしくは９０％が、解析される。いくつかの実施形態において、コンピュータ可読媒体は、血漿または血清中のがんＤＮＡまたはがんＲＮＡのパーセントに関するデータをエンドユーザーに提供する。

いくつかの実施形態において、多型（ｐｏｌｙｍｏｒｐｈｉｓｍｓ）または原因バリアント（ｃａｕｓａｌｖａｒｉａｎｔｓ）などの遺伝的変異の量が、解析される。いくつかの実施形態において、遺伝子変化の有無が、検出される。

本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、ａ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；ｂ）指定の閾値を満たさないリードを除外する工程；ｃ）配列決定工程に由来する配列リードを参照配列上にマッピングする工程；ｄ）マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；ｅ）マッピング可能な各塩基位置に対して、（ａ）参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；ｆ）マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程；およびｇ）各領域に対して得られた数を比較する工程を含む。

本開示は、ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ．そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；ｃ．そのセットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；およびｄ．そのセットの配列決定リードを折りたたむ（ｃｏｌｌａｐｓｉｎｇ）ことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。ある特定の実施形態において、その方法は、ｅ．タグ化された親分子の各セットについて、コンセンサス配列のセットを解析する工程をさらに含む。

いくつかの実施形態において、セット内の各ポリヌクレオチドは、参照配列にマッピング可能である。

いくつかの実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、異なる参照配列にマッピング可能である。

いくつかの実施形態において、上記方法は、開始の最初の遺伝物質をタグ化された親ポリヌクレオチドに変換する工程をさらに含む。

いくつかの実施形態において、開始の最初の遺伝物質は、１００ｎｇ以下のポリヌクレオチドを含む。

いくつかの実施形態において、上記方法は、変換前に、開始の最初の遺伝物質を制限する（ｂｏｔｔｌｅｎｅｃｋｉｎｇ）工程を含む。

いくつかの実施形態において、上記方法は、開始の最初の遺伝物質を、少なくとも１０％、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも８０％または少なくとも９０％の変換効率で、タグ化された親ポリヌクレオチドに変換する工程を含む。

いくつかの実施形態において、変換工程は、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ（ｍｏｌｅｃｕｌａｒｉｎｖｅｒｓｉｏｎｐｒｏｂｅｓ）、ＰＣＲ、ライゲーションベースのＰＣＲ、一本鎖ライゲーションおよび一本鎖環状化のうちのいずれかを含む。

いくつかの実施形態において、開始の最初の遺伝物質は、無細胞核酸である。

いくつかの実施形態において、複数の参照配列は、同じゲノムに由来する。

いくつかの実施形態において、セット内のタグ化された親ポリヌクレオチドの各々は、ユニークにタグ化される。

いくつかの実施形態において、タグは、ユニークではない。

いくつかの実施形態において、コンセンサス配列の生成は、タグからの情報ならびに／または配列リードの始めの（開始）領域の配列情報、配列リードの終わりの（終止）領域の配列情報および配列リードの長さのうちの少なくとも１つに基づく。

いくつかの実施形態において、上記方法は、上記セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドの少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％または少なくとも９９．９９％の各々の少なくとも１つの子孫に対する配列リードを生成するのに十分な、上記セットの増幅された子孫ポリヌクレオチドのサブセットを配列決定する工程を含む。

いくつかの実施形態において、少なくとも１つの子孫は、複数の子孫、例えば、少なくとも２つ、少なくとも５つまたは少なくとも１０個の子孫である。

いくつかの実施形態において、配列リードのセット内の配列リードの数は、タグ化された親ポリヌクレオチドのセット内のタグ化されたユニークな親ポリヌクレオチドの数より多い。

いくつかの実施形態において、上記セットの配列決定された増幅された子孫ポリヌクレオチドのサブセットは、使用される配列決定プラットフォームの１塩基あたりの配列決定エラー率のパーセンテージと同じパーセンテージで、タグ化された親ポリヌクレオチドのセット内に表示される任意のヌクレオチド配列が、コンセンサス配列のセットの中に表示される少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％または少なくとも９９．９９％の確率を有するのに十分なサイズである。

いくつかの実施形態において、上記方法は、（ｉ）タグ化された親ポリヌクレオチドに変換される開始の最初の遺伝物質からの配列の選択的増幅；（ｉｉ）タグ化された親ポリヌクレオチドの選択的増幅；（ｉｉｉ）増幅された子孫ポリヌクレオチドの選択的配列捕捉；または（ｉｖ）開始の最初の遺伝物質の選択的配列捕捉によって、１つ以上の選択された参照配列に位置するポリヌクレオチドについて、上記セットの増幅された子孫ポリヌクレオチドを富化する工程を含む。

いくつかの実施形態において、解析する工程は、コンセンサス配列のセットからもたらされた尺度（例えば、数）を、コントロールサンプル由来のコンセンサス配列のセットからもたらされた尺度に対して正規化する工程を含む。

いくつかの実施形態において、解析する工程は、変異、稀な変異、単一ヌクレオチドバリアント、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染またはがんを検出する工程を含む。

いくつかの実施形態において、ポリヌクレオチドは、ＤＮＡ、ＲＮＡ、それら２つの組み合わせまたはＤＮＡ＋ＲＮＡ由来ｃＤＮＡを含む。

いくつかの実施形態において、ポリヌクレオチドのある特定のサブセットは、最初のセットのポリヌクレオチドまたは増幅されたポリヌクレオチドから、塩基対を単位とするポリヌクレオチド長について選択されるかまたはそれに基づいて富化される。

いくつかの実施形態において、解析は、感染および／またはがんなどの個体内の異常または疾患の検出およびモニタリングをさらに含む。

いくつかの実施形態において、上記方法は、免疫レパートリーのプロファイリングと組み合わせて行われる。

いくつかの実施形態において、ポリヌクレオチドは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群から抽出される（ａｒｅｅｘｔｒａｃｔ）。

いくつかの実施形態において、折りたたむ工程は、タグ化された親ポリヌクレオチドまたは増幅された子孫ポリヌクレオチドのセンス鎖もしくはアンチセンス鎖に存在するエラー、ニックまたは損傷を検出することおよび／または訂正することを含む。

本開示は、開始の最初の遺伝物質中の遺伝的変異を、少なくとも５％、少なくとも１％、少なくとも０．５％、少なくとも０．１％または少なくとも０．０５％の感度で検出する工程を含む方法も提供する。いくつかの実施形態において、開始の最初の遺伝物質は、１００ｎｇ未満の量の核酸で提供され、その遺伝的変異は、コピー数多型／ヘテロ接合性変異であり、検出する工程は、染色体より小さい解像度（ｓｕｂ−ｃｈｒｏｍｏｓｏｍａｌｒｅｓｏｌｕｔｉｏｎ）；例えば、少なくとも１００メガベースの解像度、少なくとも１０メガベースの解像度、少なくとも１メガベースの解像度、少なくとも１００キロベースの解像度、少なくとも１０キロベースの解像度または少なくとも１キロベースの解像度で行われる。別の実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、異なる参照配列にマッピング可能である。別の実施形態において、参照配列は、腫瘍マーカーの遺伝子座であり、解析する工程は、コンセンサス配列のセット内に腫瘍マーカーを検出する工程を含む。別の実施形態において、腫瘍マーカーは、増幅する工程において導入されるエラー率より低い頻度で、コンセンサス配列のセットに存在する。別の実施形態において、少なくとも１つのセットは、複数のセットであり、参照配列は、複数の参照配列を含み、その各々は、腫瘍マーカーの遺伝子座である。別の実施形態において、解析する工程は、親ポリヌクレオチドの少なくとも２つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。別の実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程を含む。別の実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程および親ポリヌクレオチドの少なくとも２つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。別の実施形態において、折りたたむ工程は、ｉ．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程；およびｉｉ．ファミリー内の配列リードに基づいてコンセンサス配列を決定する工程を含む。

本開示は、以下の工程：ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ．そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；ｃ．そのセットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；およびｄ．そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程、および必要に応じてｅ．コンセンサス配列のセットを、タグ化された親分子の各セットについて解析する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ．そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；ｃ．そのセットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；ｄ．そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；およびｅ．そのコンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む方法も提供する。１つの実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。別の実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程であって、各セットは、１つ以上のゲノムにおける異なる参照配列に位置する、工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｉ．第１ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成する工程；ｉｉ．そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成する工程；ｉｉｉ．１．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することによって配列リードを折りたたむ工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程を含む方法も提供する。１つの実施形態において、折りたたむ工程は、２．各ファミリー内の配列リードの定量的尺度を決定する工程をさらに含む。別の実施形態において、上記方法は、ｂ．ユニークなファミリーの定量的尺度を決定する工程；ならびにｃ．（１）ユニークなファミリーの定量的尺度および（２）各グループ内の配列リードの定量的尺度に基づいて、そのセット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに含む（ａを含むａ）を含む）。別の実施形態において、推論する工程は、統計的モデルまたは確率的モデルを使用して行われる。別の実施形態において、少なくとも１つのセットは、複数のセットである。別の実施形態において、上記方法は、２つのセットの間の増幅バイアスまたは表示バイアス（ｒｅｐｒｅｓｅｎｔａｔｉｏｎａｌｂｉａｓ）について訂正する工程をさらに含む。別の実施形態において、上記方法は、コントロールまたはコントロールサンプルのセットを使用することにより、２つのセットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む。別の実施形態において、上記方法は、セット間のコピー数多型を決定する工程をさらに含む。別の実施形態において、上記方法は、ｄ．ファミリーの間の多型の形態の定量的尺度を決定する工程；およびｅ．多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに含む（ａ、ｂ、ｃを含む）。別の実施形態において、多型の形態には、置換、挿入、欠失、逆位、マイクロサテライトの変化、トランスバージョン、転座、融合、メチル化、過剰メチル化、ヒドロキシメチル化（ｈｙｒｄｒｏｘｙｍｅｔｈｙｌａｔｉｏｎ）、アセチル化、エピジェネティックなバリアント、制御関連（ｒｅｇｕｌａｔｏｒｙ−ａｓｓｏｃｉａｔｅｄ）バリアントまたはタンパク質結合部位が含まれるがこれらに限定されない。上記セットが共通のサンプルに由来する別の実施形態において、上記方法は、ａ．複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに含む。別の実施形態において、各セット内のポリヌクレオチドの元の数が、さらに推論される。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、ポリヌクレオチドを含むサンプル中のコピー数多型を決定する方法も提供し、その方法は、ａ．少なくとも２つのセットの第１ポリヌクレオチドを提供する工程であって、各セットは、ゲノム内の異なる参照配列に位置し、第１ポリヌクレオチドの各セットに対して；ｉ．ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；ｉｉ．そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；ｉｉｉ．増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第１ポリヌクレオチドから増幅され；ｉｖ．そのセット内のファミリーの定量的尺度を推論する、工程；ｂ．各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、ポリヌクレオチドのサンプル中の配列コールの頻度を推論する方法も提供し、その方法は、ａ．少なくとも１つのセットの第１ポリヌクレオチドを提供する工程であって、各セットは、１つ以上のゲノムにおける異なる参照配列に位置し、第１ポリヌクレオチドの各セットに対して；ｉ．第１ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；ｉｉ．そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；ｉｉｉ．その配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；ｂ．第１ポリヌクレオチドの各セットに対して、第１ポリヌクレオチドのセットにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、ｉ．各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程；およびｉｉ．各ファミリーに割り当てられた１つ以上のコールの信頼スコアを考慮に入れて、１つ以上のコールの頻度を推定する工程を含む工程を含む。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を通信する方法も提供し、その方法は、ａ．少なくとも１つの個々のポリヌクレオチド分子を提供する工程；ｂ．その少なくとも１つの個々のポリヌクレオチド分子における配列情報を符号化することにより、信号を生成する工程；ｃ．その信号の少なくとも一部をチャネルに通すことにより、少なくとも１つの個々のポリヌクレオチド分子に関するヌクレオチド配列情報を含む受信信号を生成する工程（その受信信号は、ノイズおよび／または歪みを含む）；ｄ．受信信号を復号することにより、少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程（復号は、メッセージ内のノイズおよび／または歪みを減少させる）；およびｅ．そのメッセージをレシピエントに提供する工程を含む。１つの実施形態において、ノイズは、誤ったヌクレオチドコールを含む。別の実施形態において、歪みは、他の個々のポリヌクレオチド分子と比べて、個々のポリヌクレオチド分子の不均一な増幅を含む。別の実施形態において、歪みは、増幅バイアスまたは配列決定バイアスに起因する。別の実施形態において、少なくとも１つの個々のポリヌクレオチド分子は、複数の個々のポリヌクレオチド分子であり、復号する工程は、その複数の中の各分子に関するメッセージを生成する。別の実施形態において、符号化する工程は、必要に応じてタグ化された少なくとも個々のポリヌクレオチド分子を増幅する工程を含み、その信号は、増幅された分子のコレクションを含む。別の実施形態において、チャネルは、ポリヌクレオチド配列分析装置を構成し、受信信号は、少なくとも１つの個々のポリヌクレオチド分子から増幅された複数のポリヌクレオチドの配列リードを含む。別の実施形態において、復号する工程は、少なくとも１つの個々のポリヌクレオチド分子の各々から増幅された増幅分子の配列リードをグループ化する工程を含む。別の実施形態において、復号する工程は、生成された配列信号を選別する確率的方法または統計学的方法からなる。本開示は、前述の方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。

別の実施形態において、ポリヌクレオチドは、腫瘍ゲノムＤＮＡまたはＲＮＡに由来する。別の実施形態において、ポリヌクレオチドは、無細胞ポリヌクレオチド、エキソソームポリヌクレオチド、細菌ポリヌクレオチドまたはウイルスポリヌクレオチドに由来する。別の実施形態では、影響される分子経路の検出および／または関連付けをさらに含む。別の実施形態では、個体の健康状態または疾患状態の連続モニタリングをさらに含む。別の実施形態では、個体内の疾患に関連するゲノムの系統発生が、推論される。別の実施形態では、疾患の診断、モニタリングまたは処置をさらに含む。別の実施形態では、処置レジメンは、検出された多型の形態またはＣＮＶまたは関連する経路に基づいて選択されるかまたは改変される。別の実施形態において、処置は、併用療法を含む。

本開示は、以下の工程：ゲノム内の予め定義された領域を選択する工程；配列リードにアクセスし、予め定義された領域における配列リードの数を列挙する工程；予め定義された領域にわたって配列リードの数を正規化する工程；および予め定義された領域におけるコピー数多型のパーセントを決定する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程；ｂ．指定の閾値を満たさないリードを除外する工程；ｃ．配列決定工程に由来する配列リードを参照配列上にマッピングする工程；ｄ．マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；ｅ．マッピング可能な各塩基位置に対して、（ａ）参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；ｆ．マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程；およびｇ．潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ｂ．そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ｂ．そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；ｃ．そのコンセンサス配列の中から、品質閾値を満たさないものを除外する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ならびにｉ．１．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること（各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される）および必要に応じて、２．各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。ある特定の実施形態において、実行可能なコードは、ｂ．ユニークなファミリーの定量的尺度を決定する工程；ｃ．（１）ユニークなファミリーの定量的尺度および（２）各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。ある特定の実施形態において、実行可能なコードは、ｄ．ファミリーの間の多型の形態の定量的尺度を決定する工程；およびｅ．多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第１ポリヌクレオチドから増幅される、工程；ｂ．そのセット内のファミリーの定量的尺度を推論する工程；ｃ．各セット内のファミリーの定量的尺度を比較することによってコピー数多型を決定する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；ｂ．第１ポリヌクレオチドの各セットに対して、第１ポリヌクレオチドのセットにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、ｃ．各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、そのファミリーのメンバーの間のコールの頻度を考慮に入れている、工程；およびｄ．各ファミリーに割り当てられた１つ以上のコールの信頼スコアを考慮に入れて、１つ以上のコールの頻度を推定する工程を含む、工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．少なくとも１つの個々のポリヌクレオチド分子由来の符号化された配列情報を含む受信信号を含むデータファイルにアクセスするデータにアクセスする工程（その受信信号は、ノイズおよび／または歪みを含む）；ｂ．受信信号を復号することにより、少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程（復号は、そのメッセージ内の個々の各ポリヌクレオチドに関するノイズおよび／または歪みを減少させる）；およびｃ．その少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージをコンピュータファイルに書き込む工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ならびにｂ．ｉ．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること（各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される）およびｉｉ．必要に応じて、各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。ある特定の実施形態において、実行可能なコードは、ｃ．ユニークなファミリーの定量的尺度を決定する工程；ｄ．（１）ユニークなファミリーの定量的尺度および（２）各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。ある特定の実施形態において、実行可能なコードは、ｅ．ファミリーの間の多型の形態の定量的尺度を決定する工程；およびｆ．多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。ある特定の実施形態において、実行可能なコードは、ｅ．複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに行う。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ｂ．増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第１ポリヌクレオチドから増幅される、工程；ｃ．そのセット内のファミリーの定量的尺度を推論する工程；ｄ．各セット内のファミリーの定量的尺度を比較することによってコピー数多型を決定する工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、以下の工程：ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；およびｂ．第１ポリヌクレオチドの各セットに対して、そのセットの第１ポリヌクレオチドにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、ｉ．各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程；およびｉｉ．各ファミリーに割り当てられた１つ以上のコールの信頼スコアを考慮に入れて、１つ以上のコールの頻度を推定する工程を含む、工程を行うように設定された実行可能なコードを含む一時的でない有形の形態のコンピュータ可読媒体も提供する。

本開示は、ａ．１００〜１００，０００個の半数体ヒトゲノム等価物の無細胞ＤＮＡ（ｃｆＤＮＡ）ポリヌクレオチドを含むサンプルを提供する工程；およびｂ．そのポリヌクレオチドを２〜１，０００，０００個のユニークな識別子でタグ化する工程を含む方法も提供する。ある特定の実施形態において、ユニークな識別子の数は、少なくとも３、少なくとも５、少なくとも１０、少なくとも１５または少なくとも２５および多くとも１００、多くとも１０００または多くとも１０，０００である。ある特定の実施形態において、ユニークな識別子の数は、多くとも１００、多くとも１０００、多くとも１０，０００、多くとも１００，０００である。

本開示は、ａ．複数のヒト半数体ゲノム等価物の断片化されたポリヌクレオチドを含むサンプルを提供する工程；ｂ．ｚを決定する工程（ｚは、ゲノム内の任意の位置から開始する２つ組のポリヌクレオチドの期待数の中心傾向の尺度（例えば、平均値、中央値または最頻値）であり、２つ組のポリヌクレオチドは、同じ開始位置および終止位置を有する）；およびｃ．サンプル中のポリヌクレオチドをｎ個のユニークな識別子でタグ化する工程（ｎは、２〜１００，０００^＊ｚ、２〜１０，０００^＊ｚ、２〜１，０００^＊ｚまたは２〜１００^＊ｚである）を含む方法も提供する。

本開示は、ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ．そのセット内のタグ化された親ポリヌクレオチドの各々に対して複数の配列リードを生成することにより、配列決定リードのセットを生成する工程；およびｃ．そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。

本開示は、コピー数多型を検出するための方法を提供し、その方法は、ａ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；ｂ）指定の閾値を満たさないリードを除外する工程；ｃ）工程（ａ）から得られた配列リードを、リードを除外した後に、参照配列に対してマッピングする工程；ｄ）参照配列の予め定義された２つ以上の領域におけるマッピングされたリードを定量するかまたは列挙する工程；ならびにｅ）（ｉｉ）予め定義された領域におけるリードの数を互いに対しておよび／または予め定義された領域におけるユニークな配列リードの数を互いに対して正規化し；（ｉｉ）工程（ｉ）において得られた正規化された数を、コントロールサンプルから得られた正規化された数と比較することによって、予め定義された領域の１つ以上におけるコピー数多型を決定する工程を含む。

本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、ａ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；ｂ）領域において多重配列決定を行うか、または富化が行われない場合、全ゲノム配列決定を行う、工程；ｃ）指定の閾値を満たさないリードを除外する工程；ｄ）配列決定工程に由来する配列リードを参照配列上にマッピングする工程；ｅ）マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；ｆ）マッピング可能な各塩基位置に対して、（ａ）参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；ｇ）マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは変異を決定する工程；およびｈ）潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を含む。

本開示は、被験体における異常な状態の不均一性を特徴付ける方法も提供し、その方法は、その被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、その遺伝的プロファイルは、コピー数多型および稀な変異の解析からもたらされる複数のデータを含む。

いくつかの実施形態において、被験体において同定された稀な各バリアントの保有率／濃度は、同時に報告および定量される。いくつかの実施形態において、被験体における稀なバリアントの保有率／濃度に関する信頼スコアが、報告される。

いくつかの実施形態において、細胞外ポリヌクレオチドは、ＤＮＡを含む。いくつかの実施形態において、細胞外ポリヌクレオチドは、ＲＮＡを含む。

いくつかの実施形態において、上記方法は、身体サンプルから細胞外ポリヌクレオチドを単離する工程をさらに含む。いくつかの実施形態において、その単離工程は、循環核酸の単離および抽出のための方法を含む。いくつかの実施形態において、上記方法は、前記単離された細胞外ポリヌクレオチドを断片化する工程をさらに含む。いくつかの実施形態において、身体サンプルは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択される。

いくつかの実施形態において、上記方法は、前記身体サンプル中にコピー数多型または稀な変異もしくはバリアントを有する配列のパーセントを決定する工程をさらに含む。いくつかの実施形態において、その決定工程は、所定の閾値より多いまたは少ないポリヌクレオチドの量を有する予め定義された領域のパーセンテージを計算する工程を含む。

いくつかの実施形態において、被験体は、異常な状態を有すると疑われる。いくつかの実施形態において、その異常な状態は、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される。

いくつかの実施形態において、被験体は、妊婦である。いくつかの実施形態において、コピー数多型または稀な変異または遺伝的バリアントは、胎児の異常を示す。いくつかの実施形態において、その胎児の異常は、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される。

いくつかの実施形態において、上記方法は、配列決定前に、細胞外ポリヌクレオチドまたはそのフラグメントに１つ以上のバーコードを付着させる工程をさらに含む。いくつかの実施形態において、配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードは、ユニークである。いくつかの実施形態において、配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードは、ユニークでない。

いくつかの実施形態において、上記方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程をさらに含む。いくつかの実施形態において、上記方法は、配列決定前に被験体のゲノムまたはトランスクリプトームから領域を非選択的に富化する工程をさらに含む。

いくつかの実施形態において、上記方法は、任意の増幅する工程または富化工程の前に、細胞外ポリヌクレオチドまたはそのフラグメントに１つ以上のバーコードを付着させる工程をさらに含む。いくつかの実施形態において、バーコードは、ポリヌクレオチドである。いくつかの実施形態において、バーコードは、ランダムな配列を含む。いくつかの実施形態において、バーコードは、選ばれた領域から配列決定された分子の多様性と組み合わせて、ユニークな分子の同定を可能にする、固定されたまたはセミランダムなセットのオリゴヌクレオチドを含む。いくつかの実施形態において、バーコードは、少なくとも３、５、１０、１５、２０、２５、３０、３５、４０、４５または５０ｍｅｒ塩基対長であるオリゴヌクレオチドを含む。

いくつかの実施形態において、上記方法は、細胞外ポリヌクレオチドまたはそのフラグメントを増幅する工程をさらに含む。いくつかの実施形態において、増幅は、グローバル増幅または全ゲノム増幅を含む。いくつかの実施形態において、増幅は、選択的増幅を含む。いくつかの実施形態において、増幅は、非選択的増幅を含む。いくつかの実施形態において、抑制増幅またはサブトラクションによる富化が、行われる。

いくつかの実施形態において、ユニークな同一性の配列リードは、配列リードの始めの（開始）領域および終わりの（終止）領域における配列情報ならびに配列リードの長さに基づいて検出される。いくつかの実施形態において、ユニークな同一性の配列分子は、配列リードの始めの（開始）領域および終わりの（終止）領域における配列情報、配列リードの長さならびにバーコードの付着に基づいて検出される。

いくつかの実施形態において、上記方法は、リードを定量する、または列挙する前に、さらなる解析からリードのサブセットを除去する工程をさらに含む。いくつかの実施形態において、除去工程は、閾値未満、例えば、９０％、９９％、９９．９％もしくは９９．９９％未満の精度スコアもしくは品質スコア、および／または閾値未満、例えば、９０％、９９％、９９．９％もしくは９９．９９％未満のマッピングスコアを有するリードを除外する工程を含む。いくつかの実施形態において、上記方法は、指定の閾値より低い品質スコアを有するリードを選別する工程をさらに含む。

いくつかの実施形態において、予め定義された領域は、均一なまたは実質的に均一なサイズである。いくつかの実施形態において、予め定義された領域は、少なくとも約１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂまたは１００ｋｂのサイズである。

いくつかの実施形態において、少なくとも５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、２０，０００または５０，０００個の領域が、解析される。

いくつかの実施形態において、上記バリアントは、遺伝子融合、遺伝子重複、遺伝子欠失、遺伝子転座、マイクロサテライト領域、遺伝子フラグメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に現れる。いくつかの実施形態において、上記バリアントは、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に現れる。いくつかの実施形態において、上記バリアントは、１、２、３、４、５、６、７、８、９、１０、１５または２０ヌクレオチド長のヌクレオチドバリアント、一塩基置換、小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断である。

いくつかの実施形態において、上記方法は、個々のリードのバーコードまたはユニークな特性を用いて、マッピングされたリードの数量を訂正する／正規化する／調整する工程をさらに含む。いくつかの実施形態において、リードを列挙する工程は、予め定義された領域の各々におけるユニークなバーコードを列挙し、配列決定された予め定義された領域の少なくとも１つのサブセットにわたってそれらの数を正規化することによって行われる。

いくつかの実施形態において、同じ被験体由来の次の時間間隔におけるサンプルが、解析され、前のサンプルの結果と比較される。いくつかの実施形態において、上記方法は、バーコードが付着された細胞外ポリヌクレオチドを増幅する工程をさらに含む。いくつかの実施形態において、上記方法は、部分的なコピー数多型の頻度を決定する工程、ヘテロ接合性の喪失を測定する工程、遺伝子発現の解析を行う工程、エピジェネティックな解析を行う工程、および／または過剰メチル化の解析を行う工程をさらに含む。

本開示は、多重配列決定を用いて、被験体から得られた無細胞のまたは実質的に無細胞のサンプルにおいて、コピー数多型を決定するかまたは稀な変異の解析を行う工程を含む方法も提供する。

いくつかの実施形態において、多重配列決定は、１０，０００を超える配列決定反応を行うことを含む。いくつかの実施形態において、多重配列決定は、少なくとも１０，０００個の異なるリードを同時に配列決定することを含む。いくつかの実施形態において、多重配列決定は、少なくとも１０，０００個の異なるリードに対するデータ解析をゲノムにわたって行うことを含む。いくつかの実施形態において、正規化および検出は、隠れマルコフ、動的計画法、サポートベクターマシン、ベイジアンモデリングもしくは確率モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリングまたはニューラルネットワーク法のうちの１つ以上を使用して行われる。いくつかの実施形態において、上記方法は、疾患の進行をモニターする工程、残存する疾患をモニターする工程、治療をモニターする工程、状態を診断する工程、状態を予後診断する工程、または被験体に対して発見されたバリアントに基づいて治療を選択する工程をさらに含む。いくつかの実施形態において、治療は、最新のサンプル解析に基づいて改変される。いくつかの実施形態において、腫瘍、感染または他の組織異常の遺伝的プロファイルが、推論される。

いくつかの実施形態において、腫瘍の成長、寛解もしくは進展、感染または他の組織異常が、モニターされる。いくつかの実施形態において、被験体の免疫系に関係する配列が、単一の場合においてまたは経時的に解析およびモニターされる。いくつかの実施形態において、バリアントの同定は、同定されたバリアントを引き起こすと疑われる組織異常の位置を特定するためのイメージング検査（例えば、ＣＴ、ＰＥＴ−ＣＴ、ＭＲＩ、Ｘ線、超音波）を通じて追跡される。いくつかの実施形態において、上記解析は、同じ患者由来の組織または腫瘍のバイオプシーから得られる遺伝子データの使用をさらに含む。いくつかの実施形態において、腫瘍、感染または他の組織異常の系統発生が、推論される。いくつかの実施形態において、上記方法は、信頼度の低い領域を、集団に基づいてコールしないことおよび同定することを行う工程をさらに含む。いくつかの実施形態において、配列カバー率についての測定データを得る工程は、ゲノムのすべての位置において配列カバー率の深さを計測する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、ウィンドウ平均カバー率を計算する工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスを訂正する工程は、ライブラリー構築および配列決定プロセスにおけるＧＣバイアスを説明するための調整を行う工程を含む。いくつかの実施形態において、配列カバー率についての測定データのバイアスについて訂正する工程は、バイアスを相殺するために、個々のマッピングに関連するさらなる重み付け因子に基づいて調整を行う工程を含む。

いくつかの実施形態において、細胞外ポリヌクレオチドは、病的な細胞起源に由来する。いくつかの実施形態において、細胞外ポリヌクレオチドは、健常な細胞起源に由来する。

本開示は、以下の工程：ゲノム内の予め定義された領域を選択する工程；その予め定義された領域内の配列リードの数を列挙する工程；その予め定義された領域にわたる配列リードの数を正規化する工程；およびその予め定義された領域内のコピー数多型のパーセントを決定する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。

いくつかの実施形態において、ゲノムの全体またはゲノムの少なくとも８５％が、解析される。いくつかの実施形態において、コンピュータ可読媒体は、血漿または血清中のがんＤＮＡまたはがんＲＮＡのパーセントに関するデータをエンドユーザーに提供する。いくつかの実施形態において、同定されたコピー数バリアントは、サンプル中の不均一性に起因して、分数（すなわち、非整数レベル）である。いくつかの実施形態において、選択された領域の富化が、行われる。いくつかの実施形態において、コピー数多型の情報は、本明細書中に記載される方法に基づいて同時に抽出される。いくつかの実施形態において、上記方法は、ポリヌクレオチドを妨げて（ｂｏｔｔｌｅｎｅｃｋｉｎｇ）、サンプル中のポリヌクレオチドの、開始の最初のコピー数または多様性を制限する、最初の工程を含む。

本開示は、被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法も提供し、その方法は、ａ）被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、その細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；ｂ）指定の品質閾値を満たさないリードを除外する工程；ｃ）配列決定工程に由来する配列リードを参照配列上にマッピングする工程；ｄ）マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；ｅ）マッピング可能な各塩基位置に対して、（ａ）参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；ｆ）マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程；およびｇ）潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を含む。

本開示は、ａ）少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ）そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；ｃ）そのセットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；およびｄ）そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。

いくつかの実施形態において、あるセット内の各ポリヌクレオチドは、参照配列にマッピング可能である。いくつかの実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、参照配列中の異なるマッピング可能な位置にマッピング可能である。いくつかの実施形態において、上記方法は、ｅ）タグ化された親分子の各セットについて、そのセットのコンセンサス配列を別々にまたは組み合わせて解析する工程をさらに含む。いくつかの実施形態において、上記方法は、開始の最初の遺伝物質を、タグ化された親ポリヌクレオチドに変換する工程をさらに含む。いくつかの実施形態において、開始の最初の遺伝物質は、１００ｎｇ以下のポリヌクレオチドを含む。いくつかの実施形態において、上記方法は、変換前に、開始の最初の遺伝物質を制限する工程を含む。いくつかの実施形態において、上記方法は、開始の最初の遺伝物質を、タグ化された親ポリヌクレオチドに、少なくとも１０％、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも８０％または少なくとも９０％の変換効率で変換する工程を含む。いくつかの実施形態において、変換工程は、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ、ＰＣＲ、ライゲーションベースのＰＣＲ、一本鎖ライゲーションおよび一本鎖環状化のいずれかを含む。いくつかの実施形態において、開始の最初の遺伝物質は、無細胞核酸である。いくつかの実施形態において、複数のセットは、同じゲノム由来の参照配列内の異なるマッピング可能な位置に位置する。

いくつかの実施形態において、セット内のタグ化された親ポリヌクレオチドの各々は、ユニークにタグ化される。いくつかの実施形態において、親ポリヌクレオチドの各セットは、参照配列内の位置にマッピング可能であり、各セット内のポリヌクレオチドは、ユニークにタグ化されない。いくつかの実施形態において、コンセンサス配列の生成は、タグからの情報ならびに／または（ｉ）配列リードの始めの（開始）領域における配列情報、（ｉｉ）配列リードの終わりの（終止）領域および（ｉｉｉ）配列リードの長さのうちの少なくとも１つに基づく。

いくつかの実施形態において、上記方法は、上記セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドの少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％または少なくとも９９．９９％の各々の少なくとも１つの子孫に対する配列リードを生成するのに十分な、上記セットの増幅された子孫ポリヌクレオチドのサブセットを配列決定する工程を含む。いくつかの実施形態において、少なくとも１つの子孫は、複数の子孫、例えば、少なくとも２つ、少なくとも５つまたは少なくとも１０個の子孫である。いくつかの実施形態において、配列リードのセット内の配列リードの数は、タグ化された親ポリヌクレオチドのセット内のタグ化されたユニークな親ポリヌクレオチドの数よりも多い。いくつかの実施形態において、上記セットの配列決定された増幅された子孫ポリヌクレオチドのサブセットは、使用される配列決定プラットフォームの１塩基あたりの配列決定エラー率のパーセンテージと同じパーセンテージで、タグ化された親ポリヌクレオチドのセット内に表示される任意のヌクレオチド配列が、コンセンサス配列のセットの中に表示される少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％または少なくとも９９．９９％の確率を有するのに十分なサイズである。

いくつかの実施形態において、上記方法は、（ｉ）タグ化された親ポリヌクレオチドに変換される開始の最初の遺伝物質からの配列の選択的増幅；（ｉｉ）タグ化された親ポリヌクレオチドの選択的増幅；（ｉｉｉ）増幅された子孫ポリヌクレオチドの選択的配列捕捉；または（ｉｖ）開始の最初の遺伝物質の選択的配列捕捉によって、参照配列中の１つ以上の選択されたマッピング可能な位置に位置するポリヌクレオチドについて、増幅された子孫ポリヌクレオチドのセットを富化する工程を含む。

いくつかの実施形態において、解析する工程は、コンセンサス配列のセットからもたらされた尺度（例えば、数）を、コントロールサンプル由来のコンセンサス配列のセットからもたらされた尺度に対して正規化する工程を含む。いくつかの実施形態において、解析する工程は、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染またはがんを検出する工程を含む。

いくつかの実施形態において、ポリヌクレオチドは、ＤＮＡ、ＲＮＡ、それら２つの組み合わせまたはＤＮＡ＋ＲＮＡ由来ｃＤＮＡを含む。いくつかの実施形態において、ポリヌクレオチドのある特定のサブセットは、最初のセットのポリヌクレオチドまたは増幅されたポリヌクレオチドから、塩基対を単位とするポリヌクレオチド長について選択されるかまたはそれに基づいて富化される。いくつかの実施形態において、解析は、感染および／またはがんなどの個体内の異常または疾患の検出およびモニタリングをさらに含む。いくつかの実施形態において、上記方法は、免疫レパートリーのプロファイリングと組み合わせて行われる。いくつかの実施形態において、ポリヌクレオチドは、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択されるサンプルから抽出される。いくつかの実施形態において、折りたたむ工程は、タグ化された親ポリヌクレオチドまたは増幅された子孫ポリヌクレオチドのセンス鎖もしくはアンチセンス鎖に存在するエラー、ニックまたは損傷を検出することおよび／または訂正することを含む。

本開示は、ユニークにタグ化されない開始の最初の遺伝物質中の遺伝的変異を、少なくとも５％、少なくとも１％、少なくとも０．５％、少なくとも０．１％または少なくとも０．０５％の感度で検出する工程を含む方法も提供する。

いくつかの実施形態において、開始の最初の遺伝物質は、１００ｎｇ未満の量の核酸で提供され、遺伝的変異は、コピー数多型／ヘテロ接合性変異であり、検出する工程は、染色体より小さい解像度；例えば、少なくとも１００メガベースの解像度、少なくとも１０メガベースの解像度、少なくとも１メガベースの解像度、少なくとも１００キロベースの解像度、少なくとも１０キロベースの解像度または少なくとも１キロベースの解像度で行われる。いくつかの実施形態において、上記方法は、タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、参照配列中の異なるマッピング可能な位置にマッピング可能である。いくつかの実施形態において、参照配列中のマッピング可能な位置は、腫瘍マーカーの遺伝子座であり、解析する工程は、上記セットのコンセンサス配列内に腫瘍マーカーを検出する工程を含む。

いくつかの実施形態において、腫瘍マーカーは、増幅する工程において導入されるエラー率より低い頻度で、コンセンサス配列のセットに存在する。いくつかの実施形態において、少なくとも１つのセットは、複数のセットであり、参照配列のマッピング可能な位置は、参照配列中の複数のマッピング可能な位置を含み、そのマッピング可能な位置の各々は、腫瘍マーカーの遺伝子座である。いくつかの実施形態において、解析する工程は、親ポリヌクレオチドの少なくとも２つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。いくつかの実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程を含む。

いくつかの実施形態において、解析する工程は、参照配列と比べて配列変異の存在を検出する工程および親ポリヌクレオチドの少なくとも２つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む。いくつかの実施形態において、折りたたむ工程は、（ｉ）増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程；および（ｉｉ）ファミリー内の配列リードに基づいてコンセンサス配列を決定する工程を含む。

本開示は、以下の工程：ａ）少なくとも１つのセットのタグ化された親ポリヌクレオチドを受け取る工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ）そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；ｃ）そのセットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；ｄ）そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程、および必要に応じて、ｅ）コンセンサス配列のセットを、タグ化された親分子の各セットについて解析する工程を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも１０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも２０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも３０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも４０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも５０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも６０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも７０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも８０％が、配列決定される。

本開示は、個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも９０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも１０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも２０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも３０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも４０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも５０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも６０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも７０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも８０％が、配列決定される。

本開示は、個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法も提供し、その検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、個体のゲノムの少なくとも９０％が、配列決定される。

いくつかの実施形態において、遺伝子変化は、コピー数多型または１つ以上の稀な変異である。いくつかの実施形態において、遺伝的変異は、１つ以上の原因バリアントおよび１つ以上の多型を含む。いくつかの実施形態において、個体における遺伝子変化および／または遺伝的変異の量は、公知の疾患を有する１つ以上の個体における遺伝子変化および／または遺伝的変異の量と比較され得る。いくつかの実施形態において、個体における遺伝子変化および／または遺伝的変異の量は、疾患を有しない１つ以上の個体における遺伝子変化および／または遺伝的変異の量と比較され得る。いくつかの実施形態において、無細胞核酸は、ＤＮＡである。いくつかの実施形態において、無細胞核酸は、ＲＮＡである。いくつかの実施形態において、無細胞核酸は、ＤＮＡおよびＲＮＡである。いくつかの実施形態において、疾患は、がんまたは前がん状態である。いくつかの実施形態において、上記方法は、疾患の診断または処置をさらに含む。

本開示は、ａ）少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ）そのセット内のタグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；ｃ）そのセットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；ｄ）そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；およびｅ）コンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む方法も提供する。

いくつかの実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。いくつかの実施形態において、品質閾値は、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する。

本開示は、本明細書中に記載される方法を行うためのコンピュータ可読媒体を備えるシステムも提供する。

本開示は、ａ）少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程であって、各セットは、１つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、タグ化された親ポリヌクレオチドの各セットに対して；ｉ）第１ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；ｉｉ）そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；ｉｉｉ）（１）増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することによって、配列リードを折りたたむ工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程を含む方法も提供する。

いくつかの実施形態において、折りたたむ工程は、各ファミリー内の配列リードの定量的尺度を決定する工程をさらに含む。いくつかの実施形態において、上記方法は、ａ）ユニークなファミリーの定量的尺度を決定する工程；およびｂ）（１）ユニークなファミリーの定量的尺度および（２）各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに含む。いくつかの実施形態において、推論する工程は、統計的モデルまたは確率的モデルを使用して行われる。いくつかの実施形態において、少なくとも１つのセットは、複数のセットである。いくつかの実施形態において、上記方法は、２つのセットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む。いくつかの実施形態において、上記方法は、コントロールまたはコントロールサンプルのセットを使用することにより、２つのセットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む。いくつかの実施形態において、上記方法は、セット間のコピー数多型を決定する工程をさらに含む。

いくつかの実施形態において、上記方法は、ｄ）ファミリーの間の多型の形態の定量的尺度を決定する工程；およびｅ）多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに含む。いくつかの実施形態において、多型の形態には、置換、挿入、欠失、逆位、マイクロサテライトの変化、トランスバージョン、転座、融合、メチル化、過剰メチル化、ヒドロキシメチル化、アセチル化、エピジェネティックなバリアント、制御関連バリアントまたはタンパク質結合部位が含まれるがこれらに限定されない。

いくつかの実施形態において、上記セットは、共通のサンプルに由来し、上記方法は、ｄ）参照配列中の複数のマッピング可能な位置の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに含む。いくつかの実施形態において、各セット内のポリヌクレオチドの元の数が、さらに推論される。いくつかの実施形態において、各セット内のタグ化された親ポリヌクレオチドの少なくとも１つのサブセットは、ユニークにタグ化されない。

本開示は、ポリヌクレオチドを含むサンプル中のコピー数多型を決定する方法も提供し、その方法は、ａ）少なくとも２つのセットの第１ポリヌクレオチドを提供する工程であって、各セットは、ゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第１ポリヌクレオチドの各セットに対して；（ｉ）ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；（ｉｉ）そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；（ｉｉｉ）増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第１ポリヌクレオチドから増幅され；（ｉｖ）そのセット内のファミリーの定量的尺度を推論する、工程；およびｂ）各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。

本開示は、ポリヌクレオチドのサンプル中の配列コールの頻度を推論する方法も提供し、その方法は、ａ）少なくとも１つのセットの第１ポリヌクレオチドを提供する工程であって、各セットは、１つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第１ポリヌクレオチドの各セットに対して；（ｉ）第１ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；（ｉｉ）そのセットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；（ｉｉｉ）その配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；ｂ）第１ポリヌクレオチドの各セットに対して、そのセットの第１ポリヌクレオチドにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、（ｉ）各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程；および（ｉｉ）各ファミリーに割り当てられた１つ以上のコールの信頼スコアを考慮に入れて、１つ以上のコールの頻度を推定する工程を含む、工程を含む。

本開示は、少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を通信する方法も提供し、その方法は、ａ）少なくとも１つの個々のポリヌクレオチド分子を提供する工程；ｂ）その少なくとも１つの個々のポリヌクレオチド分子における配列情報を符号化することにより、信号を生成する工程；ｃ）その信号の少なくとも一部をチャネルに通すことにより、少なくとも１つの個々のポリヌクレオチド分子に関するヌクレオチド配列情報を含む受信信号を生成する工程（その受信信号は、ノイズおよび／または歪みを含む）；ｄ）受信信号を復号することにより、少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程（復号は、メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび／または歪みを減少させる）；およびｅ）その少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージをレシピエントに提供する工程を含む。

いくつかの実施形態において、ノイズは、誤ったヌクレオチドコールを含む。いくつかの実施形態において、歪みは、他の個々のポリヌクレオチド分子と比べて、個々のポリヌクレオチド分子の不均一な増幅を含む。いくつかの実施形態において、歪みは、増幅バイアスまたは配列決定バイアスに起因する。いくつかの実施形態において、少なくとも１つの個々のポリヌクレオチド分子は、複数の個々のポリヌクレオチド分子であり、復号する工程は、その複数の中の各分子に関するメッセージを生成する。いくつかの実施形態において、符号化する工程は、必要に応じてタグ化された少なくとも１つの個々のポリヌクレオチド分子を増幅する工程を含み、信号は、増幅された分子のコレクションを含む。いくつかの実施形態において、チャネルは、ポリヌクレオチド配列分析装置を構成し、受信信号は、少なくとも１つの個々のポリヌクレオチド分子から増幅された複数のポリヌクレオチドの配列リードを含む。いくつかの実施形態において、復号する工程は、少なくとも１つの個々のポリヌクレオチド分子の各々から増幅された増幅分子の配列リードをグループ化する工程を含む。いくつかの実施形態において、復号する工程は、生成された配列信号を選別する確率的方法または統計学的方法からなる。

いくつかの実施形態において、ポリヌクレオチドは、腫瘍ゲノムＤＮＡまたはＲＮＡに由来する。いくつかの実施形態において、ポリヌクレオチドは、無細胞ポリヌクレオチド、エキソソームポリヌクレオチド、細菌ポリヌクレオチドまたはウイルスポリヌクレオチドに由来する。本明細書中の任意の方法のいくつかの実施形態において、その方法は、影響される分子経路の検出および／または関連付けをさらに含む。本明細書中の任意の方法のいくつかの実施形態において、その方法は、個体の健康状態または疾患状態の連続モニタリングをさらに含む。いくつかの実施形態において、個体内の疾患に関連するゲノムの系統発生が、推論される。いくつかの実施形態において、本明細書中に記載される方法のいずれかは、疾患の診断、モニタリングまたは処置をさらに含む。いくつかの実施形態において、処置レジメンは、検出された多型の形態またはＣＮＶまたは関連する経路に基づいて選択されるかまたは改変される。いくつかの実施形態において、処置は、併用療法を含む。いくつかの実施形態において、診断は、放射線撮影法、例えば、ＣＴ−Ｓｃａｎ、ＰＥＴ−ＣＴ、ＭＲＩ、超音波、マイクロバブルを用いる超音波などを使用して、疾患の位置を特定する工程をさらに含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ゲノム内の予め定義された領域を選択する工程；配列リードにアクセスし、予め定義された領域における配列リードの数を列挙する工程；予め定義された領域にわたって配列リードの数を正規化する工程；および予め定義された領域におけるコピー数多型のパーセントを決定する工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、複数の配列決定リードを含むデータファイルにアクセスする工程；指定の閾値を満たさないリードを除外する工程；配列決定工程に由来する配列リードを参照配列上にマッピングする工程；マッピング可能な各塩基位置において参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；マッピング可能な各塩基位置に対して、（ａ）参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；マッピング可能な各塩基位置に対してその比または分散の頻度を正規化し、潜在的な稀なバリアントまたは他の遺伝子変化を決定する工程；および潜在的な稀なバリアントまたは変異を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；およびｂ）そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ｂ）そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；およびｃ）コンセンサス配列の中から、品質閾値を満たさないものを除外する工程を含む。

コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ならびにｉ）（１）増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること（各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される）および必要に応じて（２）各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を含む。

いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、ｂ）ユニークなファミリーの定量的尺度を決定する工程；ならびにｃ）（１）ユニークなファミリーの定量的尺度および（２）各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。

いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、ｄ）ファミリーの間の多型の形態の定量的尺度を決定する工程；およびｅ）多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、そのセット内の同じ第１ポリヌクレオチドから増幅される、工程；ｂ）そのセット内のファミリーの定量的尺度を推論する工程；およびｃ）各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；ｂ）第１ポリヌクレオチドの各セットに対して、第１ポリヌクレオチドのセットにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、ｃ）各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、ファミリーのメンバーの間のコールの頻度を考慮に入れている、工程；およびｄ）各ファミリーに割り当てられた１つ以上のコールの信頼スコアを考慮に入れて、１つ以上のコールの頻度を推定する、工程を含む、工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）少なくとも１つの個々のポリヌクレオチド分子由来の符号化された配列情報を含む受信信号を含むデータファイルにアクセスする工程（その受信信号は、ノイズおよび／または歪みを含む）；ｂ）受信信号を復号することにより、少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程（復号は、メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび／または歪みを減少させる）；およびｃ）少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージをコンピュータファイルに書き込む工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ならびにｂ）（ｉ）増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化すること（各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される）；および（ｉｉ）必要に応じて、各ファミリー内の配列リードの定量的尺度を決定することによって配列リードを折りたたむ工程を含む。

いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、ｄ）ユニークなファミリーの定量的尺度を決定する工程；ｅ）（１）ユニークなファミリーの定量的尺度および（２）各グループ内の配列リードの定量的尺度に基づいて、セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程をさらに行う。

いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、ｅ）ファミリーの間の多型の形態の定量的尺度を決定する工程；およびｆ）多型の形態の決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程をさらに行う。

いくつかの実施形態において、コンピュータプロセッサによって実行されるとき、実行可能なコードは、ｅ）複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数のセットに対してコピー数多型を推論する工程をさらに行う。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、ａ）複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ｂ）増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、そのセット内の同じ第１ポリヌクレオチドから増幅される、工程；ｃ）そのセット内のファミリーの定量的尺度を推論する工程；ｄ）各セット内のファミリーの定量的尺度を比較することによって、コピー数多型を決定する工程を含む。

本開示は、コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体も提供し、その方法は、複数の配列決定リードを含むデータファイルにアクセスする工程であって、その配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、その配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；および第１ポリヌクレオチドの各セットに対して、そのセットの第１ポリヌクレオチドにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、（ｉ）各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、その信頼スコアは、そのファミリーのメンバーの間のコールの頻度を考慮に入れている、工程；および（ｉｉ）各ファミリーに割り当てられた１つ以上のコールの信頼スコアを考慮に入れて、１つ以上のコールの頻度を推定する工程を含む工程を含む。

本開示は、１００〜１００，０００個のヒト半数体ゲノム等価物のｃｆＤＮＡポリヌクレオチドを含む組成物も提供し、そのポリヌクレオチドは、２〜１，０００，０００個のユニークな識別子でタグ化される。

いくつかの実施形態において、組成物は、１０００〜５０，０００個の半数体ヒトゲノム等価物のｃｆＤＮＡポリヌクレオチドを含み、そのポリヌクレオチドは、２〜１，０００個のユニークな識別子でタグ化される。いくつかの実施形態において、ユニークな識別子は、ヌクレオチドバーコードを含む。本開示は、ａ）１００〜１００，０００個の半数体ヒトゲノム等価物のｃｆＤＮＡポリヌクレオチドを含むサンプルを提供する工程；およびｂ）そのポリヌクレオチドを２〜１，０００，０００個のユニークな識別子でタグ化する工程を含む方法も提供する。

本開示は、ａ）複数のヒト半数体ゲノム等価物の断片化されたポリヌクレオチドを含むサンプルを提供する工程；ｂ）ｚを決定する工程（ｚは、そのゲノム内の任意の位置から開始する２つ組のポリヌクレオチドの期待数の中心傾向の尺度（例えば、平均値、中央値または最頻値）であり、２つ組のポリヌクレオチドは、同じ開始位置および終止位置を有する）；およびｃ）サンプル中のポリヌクレオチドをｎ個のユニークな識別子でタグ化する工程（ｎは、２〜１００，０００^＊ｚ、２〜１０，０００^＊ｚ、２〜１，０００^＊ｚまたは２〜１００^＊ｚである）を含む方法も提供する。本開示は、ａ）少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；ｂ）そのセット内のタグ化された親ポリヌクレオチドの各々に対して複数の配列リードを生成することにより、配列決定リードのセットを生成する工程；およびｃ）そのセットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、そのセットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程を含む方法も提供する。

本開示は、本明細書中に記載されるような機械実行可能コードを含むコンピュータ可読媒体を備えるシステムも提供する。本開示は、コンピュータプロセッサによって実行されるとき、本明細書中に記載されるような方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステムも提供する。

本開示のさらなる態様および利点は、以下の詳細な説明（ここで、本開示の単なる例証的な実施形態が示され、記載される）から、当業者に容易に明らかになるだろう。理解されるように、本開示は、他の実施形態および異なる実施形態が可能であり、そのいくつかの詳細は、すべてが本開示から逸脱せずに、様々な明らかな点において改変が可能である。したがって、図面および明細書は、例証的な性質であると見なされるべきであって、限定的と見なされるべきでない。
特定の実施形態において、例えば、以下が提供される。
（項目１）
コピー数多型を検出するための方法であって、該方法は、
ａ．被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、該細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；
ｂ．指定の閾値を満たさないリードを除外する工程；
ｃ．工程（ａ）から得られた配列リードを、リードを除外した後に、参照配列に対してマッピングする工程；
ｄ．該参照配列の予め定義された２つ以上の領域におけるマッピングされたリードを定量するかまたは列挙する工程；および
ｅ．
ｉ．該予め定義された領域におけるリードの数を互いに対しておよび／または該予め定義された領域におけるユニークな配列リードの数を互いに対して正規化する工程；
ｉｉ．工程（ｉ）において得られた正規化された数を、コントロールサンプルから得られた正規化された数と比較する工程
によって、該予め定義された領域の１つ以上におけるコピー数多型を決定する工程
を含む、方法。
（項目２）
被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法であって、該方法は、
ａ．被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、該細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；
ｂ．領域において多重配列決定を行うか、または富化が行われない場合、全ゲノム配列決定を行う、工程；
ｃ．指定の閾値を満たさないリードを除外する工程；
ｄ．該配列決定工程に由来する配列リードを参照配列上にマッピングする工程；
ｅ．マッピング可能な各塩基位置において該参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；
ｆ．マッピング可能な各塩基位置に対して、（ａ）該参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；
ｇ．マッピング可能な各塩基位置に対して該比または分散の頻度を正規化し、潜在的な稀なバリアント（複数可）または変異（複数可）を決定する工程；および
ｈ．潜在的な稀なバリアント（複数可）または変異（複数可）を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む、方法。
（項目３）
被験体における異常な状態の不均一性を特徴付ける方法であって、該方法は、該被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、該遺伝的プロファイルは、コピー数多型および稀な変異の解析からもたらされる複数のデータを含む、方法。
（項目４）
前記被験体において同定された稀な各バリアントの保有率／濃度が、同時に報告および定量される、項目１、２または３に記載の方法。
（項目５）
前記被験体における稀なバリアントの保有率／濃度に関する信頼スコアが、報告される、項目１、２または３に記載の方法。
（項目６）
前記細胞外ポリヌクレオチドが、ＤＮＡを含む、項目１、２または３に記載の方法。
（項目７）
前記細胞外ポリヌクレオチドが、ＲＮＡを含む、項目１、２または３に記載の方法。
（項目８）
前記身体サンプルから細胞外ポリヌクレオチドを単離する工程をさらに含む、項目１、２または３に記載の方法。
（項目９）
前記単離する工程が、循環核酸の単離および抽出のための方法を含む、項目１、２または３に記載の方法。
（項目１０）
単離された前記細胞外ポリヌクレオチドを断片化する工程をさらに含む、項目１、２または３に記載の方法。
（項目１１）
前記身体サンプルが、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択される、項目８に記載の方法。
（項目１２）
前記身体サンプル中にコピー数多型または稀な変異もしくはバリアントを有する配列のパーセントを決定する工程をさらに含む、項目１、２または３に記載の方法。
（項目１３）
前記決定する工程が、所定の閾値より多いまたは少ないポリヌクレオチドの量を有する予め定義された領域のパーセンテージを計算する工程を含む、項目１２に記載の方法。
（項目１４）
前記被験体が、異常な状態を有すると疑われる、項目１、２または３に記載の方法。
（項目１５）
前記異常な状態が、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される、項目１４に記載の方法。
（項目１６）
前記被験体が、妊婦である、項目１、２または３に記載の方法。
（項目１７）
前記コピー数多型または稀な変異または遺伝的バリアントが、胎児の異常を示す、項目１または２に記載の方法。
（項目１８）
前記胎児の異常が、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんからなる群より選択される、項目１７に記載の方法。
（項目１９）
配列決定前に、前記細胞外ポリヌクレオチドまたはそのフラグメントに１つ以上のバーコードを付着させる工程をさらに含む、項目１、２または３に記載の方法。
（項目２０）
配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードが、ユニークである、項目１９に記載の方法。
（項目２１）
配列決定前に細胞外ポリヌクレオチドまたはそのフラグメントに付着される各バーコードが、ユニークでない、項目１９に記載の方法。
（項目２２）
配列決定前に前記被験体のゲノムまたはトランスクリプトームから領域を選択的に富化する工程をさらに含む、項目１、２または３に記載の方法。
（項目２３）
配列決定前に前記被験体のゲノムまたはトランスクリプトームから領域を非選択的に富化する工程をさらに含む、項目１、２または３に記載の方法。
（項目２４）
任意の増幅工程または富化工程の前に、前記細胞外ポリヌクレオチドまたはそのフラグメントに１つ以上のバーコードを付着させる工程をさらに含む、項目１、２または３に記載の方法。
（項目２５）
前記バーコードが、ポリヌクレオチドである、項目１９に記載の方法。
（項目２６）
前記バーコードが、ランダムな配列を含む、項目１９に記載の方法。
（項目２７）
前記バーコードが、選ばれた領域から配列決定された分子の多様性と組み合わせて、ユニークな分子の同定を可能にする、固定されたまたはセミランダムなセットのオリゴヌクレオチドを含む、項目１９に記載の方法。
（項目２８）
前記バーコードが、少なくとも３、５、１０、１５、２０、２５、３０、３５、４０、４５または５０ｍｅｒの塩基対の長さであるオリゴヌクレオチドを含む、項目１９に記載の方法。
（項目２９）
前記細胞外ポリヌクレオチドまたはそのフラグメントを増幅する工程をさらに含む、項目１、２または３に記載の方法。
（項目３０）
前記増幅が、グローバル増幅または全ゲノム増幅を含む、項目２９に記載の方法。
（項目３１）
ユニークな同一性の配列リードが、該配列リードの始めの（開始）領域および終わりの（終止）領域における配列情報ならびに該配列リードの長さに基づいて検出される、項目１、２または３に記載の方法。
（項目３２）
ユニークな同一性の配列分子が、前記配列リードの始めの（開始）領域および終わりの（終止）領域における配列情報、該配列リードの長さならびにバーコードの付着に基づいて検出される、項目３１に記載の方法。
（項目３３）
前記増幅が、選択的増幅を含む、項目３０に記載の方法。
（項目３４）
前記増幅が、非選択的増幅を含む、項目３３に記載の方法。
（項目３５）
抑制増幅またはサブトラクションによる富化が、行われる、項目１、２または３に記載の方法。
（項目３６）
前記リードのサブセットを、リードを定量するかまたは列挙する前に、さらなる解析から除去する工程をさらに含む、項目１、２または３に記載の方法。
（項目３７）
除去する工程が、閾値未満、例えば、９０％、９９％、９９．９％もしくは９９．９９％未満の精度スコアもしくは品質スコア、および／または閾値未満、例えば、９０％、９９％、９９．９％もしくは９９．９９％未満のマッピングスコアを有するリードを除外する工程を含む、項目３６に記載の方法。
（項目３８）
指定の閾値より低い品質スコアを有するリードを選別する工程をさらに含む、項目１、２または３に記載の方法。
（項目３９）
前記予め定義された領域が、均一なまたは実質的に均一なサイズである、項目１に記載の方法。
（項目４０）
前記予め定義された領域が、少なくとも約１０ｋｂ、２０ｋｂ、３０ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂまたは１００ｋｂのサイズである、項目３９に記載の方法。
（項目４１）
少なくとも５０、１００、２００、５００、１０００、２０００、５０００、１０，０００、２０，０００または５０，０００個の領域が、解析される、項目１、２または３に記載の方法。
（項目４２）
前記バリアントが、遺伝子融合、遺伝子重複、遺伝子欠失、遺伝子転座、マイクロサテライト領域、遺伝子フラグメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する、項目１、２または３に記載の方法。
（項目４３）
前記バリアントが、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメントまたはそれらの組み合わせからなる群より選択されるゲノムの領域に存在する、項目１、２または３に記載の方法。
（項目４４）
前記バリアントが、１、２、３、４、５、６、７、８、９、１０、１５または２０ヌクレオチド長のヌクレオチドバリアント、一塩基置換、小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断である、項目２に記載の方法。
（項目４５）
個々のリードの前記バーコードまたはユニークな特性を用いて、マッピングされたリードの数量を訂正する／正規化する／調整する工程をさらに含む、項目１、２または３に記載の方法。
（項目４６）
前記リードを列挙する工程が、前記予め定義された領域の各々におけるユニークなバーコードを列挙し、配列決定された予め定義された領域の少なくとも１つのサブセットにわたってそれらの数を正規化することによって行われる、項目１または２に記載の方法。
（項目４７）
同じ前記被験体由来の、次の時間間隔におけるサンプルが、解析され、前のサンプルの結果と比較される、項目１、２または３に記載の方法。
（項目４８）
前記方法が、前記バーコードが付着された細胞外ポリヌクレオチドを増幅する工程をさらに含む、項目４５に記載の方法。
（項目４９）
部分的なコピー数多型の頻度を決定する工程、ヘテロ接合性の喪失を測定する工程、遺伝子発現の解析を行う工程、エピジェネティックな解析を行う工程、および／または過剰メチル化の解析を行う工程をさらに含む、項目１、２または３に記載の方法。
（項目５０）
多重配列決定を用いて、被験体から得られた無細胞のまたは実質的に無細胞のサンプルにおいて、コピー数多型を決定するかまたは稀な変異の解析を行う工程を含む、方法。
（項目５１）
前記多重配列決定が、１０，０００を超える配列決定反応を行うことを含む、項目５０に記載の方法。
（項目５２）
前記多重配列決定が、少なくとも１０，０００個の異なるリードを同時に配列決定することを含む、項目５０に記載の方法。
（項目５３）
前記多重配列決定が、少なくとも１０，０００個の異なるリードに対するデータ解析を前記ゲノムにわたって行うことを含む、項目５０に記載の方法。
（項目５４）
前記正規化することおよび検出が、隠れマルコフ、動的計画法、サポートベクターマシン、ベイジアンモデリングもしくは確率モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリングまたはニューラルネットワーク法のうちの１つ以上を使用して行われる、項目１または２に記載の方法。
（項目５５）
疾患の進行をモニターする工程、残存する疾患をモニターする工程、治療をモニターする工程、状態を診断する工程、状態を予後診断する工程、または前記被験体に対して発見されたバリアントに基づいて治療を選択する工程をさらに含む、項目１、２または３に記載の方法。
（項目５６）
治療が、最新のサンプル解析に基づいて改変される、項目５５に記載の方法。
（項目５７）
腫瘍、感染または他の組織異常の遺伝的プロファイルが、推論される、項目１、２または３に記載の方法。
（項目５８）
腫瘍の成長、寛解もしくは進展、感染または他の組織異常が、モニターされる、項目１、２または３に記載の方法。
（項目５９）
前記被験体の免疫系に関係する配列が、単一の場合においてまたは経時的に解析およびモニターされる、項目１、２または３に記載の方法。
（項目６０）
バリアントの同定が、該同定されたバリアントを引き起こすと疑われる組織異常の位置を特定するためのイメージング検査（例えば、ＣＴ、ＰＥＴ−ＣＴ、ＭＲＩ、Ｘ線、超音波）を通じて追跡される、項目１、２または３に記載の方法。
（項目６１）
前記解析が、同じ患者由来の組織または腫瘍のバイオプシーから得られる遺伝子データの使用をさらに含む、項目１、２または３に記載の方法。
（項目６２）
腫瘍、感染または他の組織異常の系統発生が、推論される、項目１、２または３に記載の方法。
（項目６３）
前記方法が、信頼度の低い領域を、集団に基づいてコールしないことおよび同定することを行う工程をさらに含む、項目１または２に記載の方法。
（項目６４）
配列カバー率についての測定データを得る工程が、前記ゲノムのすべての位置において配列カバー率の深さを計測する工程を含む、項目１または２に記載の方法。
（項目６５）
前記配列カバー率についての前記測定データのバイアスについて訂正する工程が、ウィンドウ平均カバー率を計算する工程を含む、項目６４に記載の方法。
（項目６６）
前記配列カバー率についての前記測定データのバイアスについて訂正する工程が、ライブラリー構築および配列決定プロセスにおけるＧＣバイアスを説明する調整を行う工程を含む、項目６４に記載の方法。
（項目６７）
前記配列カバー率についての前記測定データのバイアスについて訂正する工程が、バイアスを相殺するために、個々のマッピングに関連するさらなる重み付け因子に基づいて調整を行う工程を含む、項目６４に記載の方法。
（項目６８）
細胞外ポリヌクレオチドが、病的な細胞起源に由来する、項目１、２または３に記載の方法。
（項目６９）
細胞外ポリヌクレオチドが、健常な細胞起源に由来する、項目１、２または３に記載の方法。
（項目７０）
以下の工程：ゲノム内の予め定義された領域を選択する工程；該予め定義された領域内の配列リードの数を列挙する工程；該予め定義された領域にわたる配列リードの該数を正規化する工程；および該予め定義された領域内のコピー数多型のパーセントを決定する工程を行うためのコンピュータ可読媒体を備えるシステム。
（項目７１）
前記ゲノムの全体または該ゲノムの少なくとも８５％が、解析される、項目７０に記載のシステム。
（項目７２）
前記コンピュータ可読媒体が、血漿または血清中のがんＤＮＡまたはがんＲＮＡのパーセントに関するデータをエンドユーザーに提供する、項目７０に記載のシステム。
（項目７３）
同定された前記コピー数多型が、前記サンプル中の不均一性に起因して、分数（すなわち、非整数レベル）である、項目１に記載の方法。
（項目７４）
選択された領域の富化が、行われる、項目１に記載の方法。
（項目７５）
コピー数多型の情報が、項目１、６４、６５、６６および６７に記載された方法に基づいて同時に抽出される、項目１に記載の方法。
（項目７６）
ポリヌクレオチドを妨げて、前記サンプル中のポリヌクレオチドの開始の最初のコピー数または多様性を制限する最初の工程とともに使用される、項目１または２に記載の方法。（項目７７）
被験体から得られた無細胞のまたは実質的に無細胞のサンプル中の稀な変異を検出するための方法であって、該方法は、
ａ．被験体の身体サンプル由来の細胞外ポリヌクレオチドを配列決定する工程であって、該細胞外ポリヌクレオチドの各々は、複数の配列決定リードを生成する、工程；
ｂ．指定の品質閾値を満たさないリードを除外する工程；
ｃ．該配列決定する工程に由来する配列リードを参照配列上にマッピングする工程；
ｄ．マッピング可能な各塩基位置において該参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；
ｅ．マッピング可能な各塩基位置に対して、（ａ）該参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；
ｆ．マッピング可能な各塩基位置に対して該比または分散の頻度を正規化し、潜在的な稀なバリアント（複数可）または他の遺伝子変化（複数可）を決定する工程；および
ｇ．潜在的な稀なバリアント（複数可）または変異（複数可）を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む、方法。
（項目７８）
ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；
ｂ．該セット内の該タグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；
ｃ．該セットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；および
ｄ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程
を含む、方法。
（項目７９）
あるセット内の各ポリヌクレオチドが、参照配列にマッピング可能である、項目７８に記載の方法。
（項目８０）
タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、前記参照配列中の異なるマッピング可能な位置にマッピング可能である、項目７８に記載の方法。
（項目８１）
ｅ．前記セットのコンセンサス配列を、タグ化された親分子の各セットについて、別々にまたは組み合わせて解析する工程をさらに含む、項目７８に記載の方法。
（項目８２）
開始の最初の遺伝物質を、前記タグ化された親ポリヌクレオチドに変換する工程をさらに含む、項目７８に記載の方法。
（項目８３）
前記開始の最初の遺伝物質が、１００ｎｇ以下のポリヌクレオチドを含む、項目８２に記載の方法。
（項目８４）
変換前に、前記開始の最初の遺伝物質を妨害する工程を含む、項目８２に記載の方法。
（項目８５）
前記開始の最初の遺伝物質を、タグ化された親ポリヌクレオチドに、少なくとも１０％、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも８０％または少なくとも９０％の変換効率で変換する工程を含む、項目８２に記載の方法。
（項目８６）
変換する工程が、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ、ＰＣＲ、ライゲーションベースのＰＣＲ、一本鎖ライゲーションおよび一本鎖環状化のいずれかを含む、項目８２に記載の方法。
（項目８７）
前記開始の最初の遺伝物質が、無細胞核酸である、項目８２に記載の方法。
（項目８８）
複数の前記セットが、同じ前記ゲノム由来の参照配列内の異なるマッピング可能な位置にマッピングする、項目７９に記載の方法。
（項目８９）
前記セット内のタグ化された親ポリヌクレオチドの各々が、ユニークにタグ化される、項目７８に記載の方法。
（項目９０）
親ポリヌクレオチドの各セットが、参照配列内の位置にマッピング可能であり、各セット内の該ポリヌクレオチドが、ユニークにタグ化されない、項目７８に記載の方法。
（項目９１）
コンセンサス配列の生成が、前記タグからの情報ならびに／または（ｉ）前記配列リードの始めの（開始）領域における配列情報、（ｉｉ）該配列リードの終わりの（終止）領域および（ｉｉｉ）該配列リードの長さのうちの少なくとも１つに基づく、項目７８に記載の方法。
（項目９２）
前記セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドの少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％または少なくとも９９．９９％の各々の少なくとも１つの子孫に対する配列リードを生成するのに十分な、前記セットの増幅された子孫ポリヌクレオチドのサブセットを配列決定する工程を含む、項目７８に記載の方法。
（項目９３）
前記少なくとも１つの子孫が、複数の子孫、例えば、少なくとも２つ、少なくとも５つまたは少なくとも１０個の子孫である、項目９２に記載の方法。
（項目９４）
配列リードの前記セット内の配列リードの数が、タグ化された親ポリヌクレオチドの前記セット内のタグ化されたユニークな親ポリヌクレオチドの数よりも多い、項目７８に記載の方法。
（項目９５）
配列決定された前記セットの増幅された子孫ポリヌクレオチドの前記サブセットが、使用される配列決定プラットフォームの１塩基あたりの配列決定エラー率のパーセンテージと同じパーセンテージで、タグ化された親ポリヌクレオチドの前記セット内に表示される任意のヌクレオチド配列が、コンセンサス配列の前記セットの中に表示される少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、少なくとも９８％、少なくとも９９％、少なくとも９９．９％または少なくとも９９．９９％の確率を有するのに十分なサイズである、項目７８に記載の方法。（項目９６）
（ｉ）タグ化された親ポリヌクレオチドに変換される開始の最初の遺伝物質からの配列の選択的増幅；（ｉｉ）タグ化された親ポリヌクレオチドの選択的増幅；（ｉｉｉ）増幅された子孫ポリヌクレオチドの選択的配列捕捉；または（ｉｖ）開始の最初の遺伝物質の選択的配列捕捉によって、参照配列中の１つ以上の選択されたマッピング可能な位置に位置するポリヌクレオチドについて、前記セットの増幅された子孫ポリヌクレオチドを富化する工程を含む、項目７８に記載の方法。
（項目９７）
解析する工程が、コンセンサス配列のセットからもたらされた尺度（例えば、数）を、コントロールサンプル由来のコンセンサス配列のセットからもたらされた尺度に対して正規化する工程を含む、項目８１に記載の方法。
（項目９８）
解析する工程が、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染またはがんを検出する工程を含む、項目８１に記載の方法。
（項目９９）
前記ポリヌクレオチドが、ＤＮＡ、ＲＮＡ、それら２つの組み合わせまたはＤＮＡ＋ＲＮＡ由来ｃＤＮＡを含む、項目７８に記載の方法。
（項目１００）
ポリヌクレオチドのある特定のサブセットが、前記最初のセットのポリヌクレオチドまたは前記増幅されたポリヌクレオチドから、塩基対を単位とするポリヌクレオチド長について選択されるかまたはそれに基づいて富化される、項目８２に記載の方法。
（項目１０１）
解析が、感染および／またはがんなどの個体内の異常または疾患の検出およびモニタリングをさらに含む、項目８２に記載の方法。
（項目１０２）
免疫レパートリーのプロファイリングと組み合わせて行われる、項目１０１に記載の方法。
（項目１０３）
前記ポリヌクレオチドが、血液、血漿、血清、尿、唾液、粘膜排出物、痰、便および涙からなる群より選択されるサンプルから抽出される、項目７８に記載の方法。
（項目１０４）
折りたたむ工程が、前記タグ化された親ポリヌクレオチドまたは増幅された子孫ポリヌクレオチドのセンス鎖もしくはアンチセンス鎖に存在するエラー、ニックまたは損傷を検出することおよび／または訂正することを含む、項目７８に記載の方法。
（項目１０５）
ユニークにタグ化されない開始の最初の遺伝物質中の遺伝的変異を、少なくとも５％、少なくとも１％、少なくとも０．５％、少なくとも０．１％または少なくとも０．０５％の感度で検出する工程を含む、方法。
（項目１０６）
前記開始の最初の遺伝物質が、１００ｎｇ未満の量の核酸で提供され、前記遺伝的変異が、コピー数多型／ヘテロ接合性変異であり、検出する工程が、染色体より小さい解像度；例えば、少なくとも１００メガベースの解像度、少なくとも１０メガベースの解像度、少なくとも１メガベースの解像度、少なくとも１００キロベースの解像度、少なくとも１０キロベースの解像度または少なくとも１キロベースの解像度で行われる、項目１０５に記載の方法。
（項目１０７）
タグ化された親ポリヌクレオチドの複数のセットを提供する工程を含み、各セットは、参照配列中の異なるマッピング可能な位置にマッピング可能である、項目８１に記載の方法。
（項目１０８）
前記参照配列中の前記マッピング可能な位置が、腫瘍マーカーの遺伝子座であり、解析する工程が、前記セットのコンセンサス配列内に該腫瘍マーカーを検出する工程を含む、項目１０７に記載の方法。
（項目１０９）
前記腫瘍マーカーが、前記増幅する工程において導入されるエラー率より低い頻度で、前記セットのコンセンサス配列に存在する、項目１０８に記載の方法。
（項目１１０）
前記少なくとも１つのセットが、複数のセットであり、前記参照配列の前記マッピング可能な位置が、該参照配列中の複数のマッピング可能な位置を含み、そのマッピング可能な位置の各々は、腫瘍マーカーの遺伝子座である、項目１０７に記載の方法。
（項目１１１）
解析する工程が、親ポリヌクレオチドの少なくとも２つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む、項目１０７に記載の方法。
（項目１１２）
解析する工程が、前記参照配列と比べて配列変異の存在を検出する工程を含む、項目１０７に記載の方法。
（項目１１３）
解析する工程が、前記参照配列と比べて配列変異の存在を検出する工程および親ポリヌクレオチドの少なくとも２つのセットの間にコンセンサス配列のコピー数多型を検出する工程を含む、項目１０７に記載の方法。
（項目１１４）
折りたたむ工程が、
ｉ．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程；および
ｉｉ．ファミリー内の配列リードに基づいてコンセンサス配列を決定する工程
を含む、項目７８に記載の方法。
（項目１１５）
以下の工程：
ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを受け取る工程、およびタグ化された親ポリヌクレオチドの各セットに対して；
ｂ．該セット内の該タグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；
ｃ．該セットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；
ｄ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程、および必要に応じて
ｅ．コンセンサス配列の該セットを、タグ化された親分子の各セットについて解析する工程
を行うためのコンピュータ可読媒体を備えるシステム。
（項目１１６）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも１０％が、配列決定される、方法。
（項目１１７）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも２０％が、配列決定される、方法。
（項目１１８）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも３０％が、配列決定される、方法。
（項目１１９）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも４０％が、配列決定される、方法。
（項目１２０）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも５０％が、配列決定される、方法。
（項目１２１）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも６０％が、配列決定される、方法。
（項目１２２）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも７０％が、配列決定される、方法。
（項目１２３）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも８０％が、配列決定される、方法。
（項目１２４）
個体における遺伝子変化の有無または遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも９０％が、配列決定される、方法。
（項目１２５）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも１０％が、配列決定される、方法。
（項目１２６）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも２０％が、配列決定される、方法。
（項目１２７）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも３０％が、配列決定される、方法。
（項目１２８）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも４０％が、配列決定される、方法。
（項目１２９）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも５０％が、配列決定される、方法。
（項目１３０）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも６０％が、配列決定される、方法。
（項目１３１）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも７０％が、配列決定される、方法。
（項目１３２）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも８０％が、配列決定される、方法。
（項目１３３）
個体における遺伝子変化の有無および遺伝的変異の量を検出する工程を含む方法であって、該検出する工程は、無細胞核酸の配列決定の助けを借りて行われ、該個体のゲノムの少なくとも９０％が、配列決定される、方法。
（項目１３４）
前記遺伝子変化が、コピー数多型または１つ以上の稀な変異である、項目１１６〜１３３に記載の方法。
（項目１３５）
前記遺伝的変異が、１つ以上の原因バリアントおよび１つ以上の多型を含む、項目１１６〜１３３に記載の方法。
（項目１３６）
前記個体における前記遺伝子変化および／または遺伝的変異の量が、公知の疾患を有する１つ以上の個体における遺伝子変化および／または遺伝的変異の量と比較され得る、項目１１６〜１３３に記載の方法。
（項目１３７）
前記個体における前記遺伝子変化および／または遺伝的変異の量が、疾患を有しない１つ以上の個体における遺伝子変化および／または遺伝的変異の量と比較され得る、項目１１６〜１３３に記載の方法。
（項目１３８）
前記無細胞核酸が、ＤＮＡである、項目１１６〜１３３に記載の方法。
（項目１３９）
前記無細胞核酸が、ＲＮＡである、項目１１６〜１３３に記載の方法。
（項目１４０）
前記無細胞核酸が、ＤＮＡおよびＲＮＡである、項目１１６〜１３３に記載の方法。
（項目１４１）
前記疾患が、がんまたは前がん状態である、項目１３６に記載の方法。
（項目１４２）
前記方法が、疾患の診断または処置をさらに含む、項目１１６〜１３３に記載の方法。
（項目１４３）
ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；
ｂ．該セット内の該タグ化された親ポリヌクレオチドを増幅することにより、対応するセットの増幅された子孫ポリヌクレオチドを生成する工程；
ｃ．該セットの増幅された子孫ポリヌクレオチドのサブセット（適切なサブセットを含む）を配列決定することにより、配列決定リードのセットを生成する工程；
ｄ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；および
ｅ．該コンセンサス配列の中から、品質閾値を満たさないものを除外する工程
を含む、方法。
（項目１４４）
前記品質閾値が、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する、項目１４３に記載の方法。
（項目１４５）
前記品質閾値が、コンセンサス配列に折りたたまれた増幅された子孫ポリヌクレオチド由来の配列リードの数を考慮する、項目１４３に記載の方法。
（項目１４６）
項目１４３〜１４５のいずれかに記載の方法を行うためのコンピュータ可読媒体を備える、システム。
（項目１４７）
ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程
を含む方法であって、各セットは、１つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、タグ化された親ポリヌクレオチドの各セットに対して；
ｉ．第１ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；
ｉｉ．該セットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；
ｉｉｉ．
１．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することによって、該配列リードを折りたたみ、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、
方法。
（項目１４８）
折りたたむ工程が、
２．各ファミリー内の配列リードの定量的尺度を決定すること
をさらに含む、項目１４７に記載の方法。
（項目１４９）
ｂ．ユニークなファミリーの定量的尺度を決定する工程；ならびに
ｃ．（１）ユニークなファミリーの該定量的尺度および（２）各グループ内の配列リードの該定量的尺度に基づいて、前記セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程
をさらに含む、項目１４８に記載の方法。
（項目１５０）
推論する工程が、統計的モデルまたは確率的モデルを使用して行われる、項目１４９に記載の方法。
（項目１５１）
少なくとも１つの前記セットが、複数のセットである、項目１４９に記載の方法。
（項目１５２）
２つの前記セットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む、項目１５１に記載の方法。
（項目１５３）
コントロールまたはコントロールサンプルのセットを使用することにより、２つの前記セットの間の増幅バイアスまたは表示バイアスについて訂正する工程をさらに含む、項目１５２に記載の方法。
（項目１５４）
前記セット間のコピー数多型を決定する工程をさらに含む、項目１５１に記載の方法。
（項目１５５）
ｄ．前記ファミリーの間の多型の形態の定量的尺度を決定する工程；および
ｅ．多型の形態の該決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程
をさらに含む、項目１４９に記載の方法。
（項目１５６）
多型の形態には、置換、挿入、欠失、逆位、マイクロサテライトの変化、トランスバージョン、転座、融合、メチル化、過剰メチル化、ヒドロキシメチル化、アセチル化、エピジェネティックなバリアント、制御関連バリアントまたはタンパク質結合部位が含まれるがこれらに限定されない、項目１５５に記載の方法。
（項目１５７）
前記セットが、共通のサンプルに由来し、前記方法が、
ｄ．参照配列中の複数のマッピング可能な位置の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数の該セットに対してコピー数多型を推論する工程
をさらに含む、項目１４９に記載の方法。
（項目１５８）
各セット内のポリヌクレオチドの元の数が、さらに推論される、項目１５７に記載の方法。
（項目１５９）
各セット内の前記タグ化された親ポリヌクレオチドの少なくとも１つのサブセットが、ユニークにタグ化されない、項目１４７に記載の方法。
（項目１６０）
コンピュータプロセッサによって実行されるとき、項目１４７〜１５８のいずれか１項に記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
（項目１６１）
ポリヌクレオチドを含むサンプル中のコピー数多型を決定する方法であって、該方法は、ａ．少なくとも２つのセットの第１ポリヌクレオチドを提供する工程であって、各セットは、ゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第１ポリヌクレオチドの各セットに対して；
ｉ．該ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；
ｉｉ．該セットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；
ｉｉｉ．増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、該セット内の同じ第１ポリヌクレオチドから増幅され；
ｉｖ．該セット内のファミリーの定量的尺度を推論する、
工程；および
ｂ．各セット内のファミリーの該定量的尺度を比較することによって、コピー数多型を決定する工程
を含む、方法。
（項目１６２）
コンピュータプロセッサによって実行されるとき、項目１６１に記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
（項目１６３）
ポリヌクレオチドのサンプル中の配列コールの頻度を推論する方法であって、該方法は、ａ．少なくとも１つのセットの第１ポリヌクレオチドを提供する工程であって、各セットは、１つ以上のゲノム内の参照配列中の異なるマッピング可能な位置に位置し、第１ポリヌクレオチドの各セットに対して；
ｉ．該第１ポリヌクレオチドを増幅することにより、増幅されたポリヌクレオチドのセットを生成し；
ｉｉ．該セットの増幅されたポリヌクレオチドのサブセットを配列決定することにより、配列決定リードのセットを生成し；
ｉｉｉ．該配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、
工程；
ｂ．第１ポリヌクレオチドの各セットに対して、該セットの第１ポリヌクレオチドにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、
ｉ．各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、該信頼スコアは、該ファミリーのメンバーの間の該コールの頻度を考慮に入れている、工程；および
ｉｉ．各ファミリーに割り当てられた１つ以上の該コールの該信頼スコアを考慮に入れて、１つ以上の該コールの頻度を推定する工程
を含む、工程
を含む、方法。
（項目１６４）
コンピュータプロセッサによって実行されるとき、項目１６３に記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
（項目１６５）
少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を通信する方法であって、該方法は、
ａ．少なくとも１つの個々のポリヌクレオチド分子を提供する工程；
ｂ．該少なくとも１つの個々のポリヌクレオチド分子における配列情報を符号化することにより、信号を生成する工程；
ｃ．該信号の少なくとも一部をチャネルに通すことにより、該少なくとも１つの個々のポリヌクレオチド分子に関するヌクレオチド配列情報を含む受信信号を生成する工程であって、該受信信号は、ノイズおよび／または歪みを含む、工程；
ｄ．該受信信号を復号することにより、該少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程であって、復号する工程は、該メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび／または歪みを減少させる、工程；および
ｅ．該少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含む該メッセージをレシピエントに提供する工程
を含む、方法。
（項目１６６）
前記ノイズが、誤ったヌクレオチドコールを含む、項目１６５に記載の方法。
（項目１６７）
歪みが、他の個々のポリヌクレオチド分子と比べて、前記個々のポリヌクレオチド分子の不均一な増幅を含む、項目１６５に記載の方法。
（項目１６８）
歪みが、増幅バイアスまたは配列決定バイアスに起因する、項目１６７に記載の方法。
（項目１６９）
前記少なくとも１つの個々のポリヌクレオチド分子が、複数の個々のポリヌクレオチド分子であり、復号する工程が、該複数の中の各分子に関するメッセージを生成する、項目１６５に記載の方法。
（項目１７０）
符号化する工程が、必要に応じてタグ化された前記少なくとも１つの個々のポリヌクレオチド分子を増幅する工程を含み、前記信号は、増幅された分子のコレクションを含む、項目１６５に記載の方法。
（項目１７１）
前記チャネルが、ポリヌクレオチド配列分析装置を構成し、前記受信信号が、前記少なくとも１つの個々のポリヌクレオチド分子から増幅された複数のポリヌクレオチドの配列リードを含む、項目１６５に記載の方法。
（項目１７２）
復号する工程が、前記少なくとも１つの個々のポリヌクレオチド分子の各々から増幅された増幅分子の配列リードをグループ化する工程を含む、項目１６５に記載の方法。
（項目１７３）
前記復号する工程が、生成された配列信号を選別する確率的方法または統計学的方法からなる、項目１６９に記載の方法。
（項目１７４）
コンピュータプロセッサによって実行されるとき、項目１６５〜１７３のいずれかに記載の方法を実行する機械実行可能コードを含むコンピュータ可読媒体を備えるシステム。
（項目１７５）
前記ポリヌクレオチドが、腫瘍ゲノムＤＮＡまたはＲＮＡに由来する、項目１４３〜１４５、１４７〜１５９および１６１のいずれかに記載の方法。
（項目１７６）
前記ポリヌクレオチドが、無細胞ポリヌクレオチド、エキソソームポリヌクレオチド、細菌ポリヌクレオチドまたはウイルスポリヌクレオチドに由来する、項目１４３〜１７５のいずれかに記載の方法。
（項目１７７）
影響される分子経路の検出および／または関連付けをさらに含む、項目１〜３または１４３〜１７５のいずれかに記載の方法。
（項目１７８）
個体の健康状態または疾患状態の連続モニタリングをさらに含む、項目１〜３または１４３〜１７５のいずれかに記載の方法。
（項目１７９）
個体内の疾患に関連するゲノムの系統発生が、推論される、項目１〜３または１４３〜１７５のいずれかに記載の方法。
（項目１８０）
疾患の診断、モニタリングまたは処置をさらに含む、項目１〜３または１４３〜１７５のいずれかに記載の方法。
（項目１８１）
処置レジメンが、検出された多型の形態またはＣＮＶまたは関連する経路に基づいて選択されるかまたは改変される、項目１８０。
（項目１８２）
前記処置が、併用療法を含む、項目１８０または１８１。
（項目１８３）
前記診断が、放射線撮影法、例えば、ＣＴ−Ｓｃａｎ、ＰＥＴ−ＣＴ、ＭＲＩ、超音波、マイクロバブルを用いる超音波などを使用して、前記疾患の位置を特定する工程をさらに含む、項目１７９。
（項目１８４）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ゲノム内の予め定義された領域を選択する工程；
配列リードにアクセスし、該予め定義された領域における配列リードの数を列挙する工程；
該予め定義された領域にわたって配列リードの該数を正規化する工程；および
該予め定義された領域におけるコピー数多型のパーセントを決定する工程
を含む、コンピュータ可読媒体。
（項目１８５）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程；
ｂ．指定の閾値を満たさないリードを除外する工程；
ｃ．配列決定することに由来する配列リードを参照配列上にマッピングする工程；
ｄ．マッピング可能な各塩基位置において該参照配列のバリアントと整列するマッピングされた配列リードのサブセットを同定する工程；
ｅ．マッピング可能な各塩基位置に対して、（ａ）該参照配列と比べてバリアントを含むマッピングされた配列リードの数と（ｂ）マッピング可能な各塩基位置に対する配列リードの総数との比を計算する工程；
ｆ．マッピング可能な各塩基位置に対して該比または分散の頻度を正規化し、潜在的な稀なバリアント（複数可）または他の遺伝子変化（複数可）を決定する工程；および
ｇ．潜在的な稀なバリアント（複数可）または変異（複数可）を含む領域の各々に対して得られた数を、参照サンプルから同様に得られた数と比較する工程
を含む、コンピュータ可読媒体。
（項目１８６）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；および
ｂ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程
を含む、コンピュータ可読媒体。
（項目１８７）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；
ｂ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；および
ｃ．該コンセンサス配列の中から、品質閾値を満たさないものを除外する工程
を含む、コンピュータ可読媒体。
（項目１８８）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能なコードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；ならびに
ｉ．
１．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化することであって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、こと、および必要に応じて、
２．各ファミリー内の配列リードの定量的尺度を決定すること
によって該配列リードを折りたたむ工程
を含む、コンピュータ可読媒体。
（項目１８９）
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
ｂ．ユニークなファミリーの定量的尺度を決定する工程；
ｃ．（１）ユニークなファミリーの該定量的尺度および（２）各グループ内の配列リードの該定量的尺度に基づいて、前記セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程
をさらに行う、項目１８８に記載のコンピュータ可読媒体。
（項目１９０）
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
ｄ．前記ファミリーの間の多型の形態の定量的尺度を決定する工程；および
ｅ．多型の形態の該決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程
をさらに行う、項目１８９に記載のコンピュータ可読媒体。
（項目１９１）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化し、各ファミリーは、該セット内の同じ第１ポリヌクレオチドから増幅される、工程；
ｂ．該セット内のファミリーの定量的尺度を推論する工程；
ｃ．各セット内のファミリーの該定量的尺度を比較することによって、コピー数多型を決定する工程
を含む、コンピュータ可読媒体。
（項目１９２）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、該配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；
ｂ．第１ポリヌクレオチドの各セットに対して、該セットの第１ポリヌクレオチドにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、
ｃ．各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、該信頼スコアは、該ファミリーのメンバーの間の該コールの頻度を考慮に入れている、工程；および
ｄ．各ファミリーに割り当てられた１つ以上の該コールの該信頼スコアを考慮に入れて、１つ以上の該コールの頻度を推定する工程
を含む、工程
を含む、コンピュータ可読媒体。
（項目１９３）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．少なくとも１つの個々のポリヌクレオチド分子由来の符号化された配列情報を含む受信信号を含むデータファイルにアクセスする工程であって、該受信信号は、ノイズおよび／または歪みを含む、工程；
ｂ．該受信信号を復号することにより、該少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含むメッセージを生成する工程であって、復号する工程は、該メッセージ内の個々の各ポリヌクレオチドに関するノイズおよび／または歪みを減少させる、工程；および
ｃ．該少なくとも１つの個々のポリヌクレオチド分子に関する配列情報を含む該メッセージをコンピュータファイルに書き込む工程
を含む、コンピュータ可読媒体。
（項目１９４）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；
ｂ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程；および
ｃ．該コンセンサス配列の中から、品質閾値を満たさないものを除外する工程
を含む、コンピュータ可読媒体。
（項目１９５）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；および
ｂ．
ｉ．増幅された子孫ポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、同じタグ化された親ポリヌクレオチドから増幅される、工程、および
ｉｉ．必要に応じて、各ファミリー内の配列リードの定量的尺度を決定する工程
によって該配列リードを折りたたむ工程
を含む、コンピュータ可読媒体。
（項目１９６）
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
ｃ．ユニークなファミリーの定量的尺度を決定する工程；
ｄ．（１）ユニークなファミリーの該定量的尺度および（２）各グループ内の配列リードの該定量的尺度に基づいて、前記セット内のタグ化されたユニークな親ポリヌクレオチドの尺度を推論する工程
をさらに行う、項目１９５に記載のコンピュータ可読媒体。
（項目１９７）
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
ｅ．前記ファミリーの間の多型の形態の定量的尺度を決定する工程；および
ｆ．多型の形態の該決定された定量的尺度に基づいて、推論されるタグ化されたユニークな親ポリヌクレオチドの数における多型の形態の定量的尺度を推論する工程
をさらに行う、項目１９６に記載のコンピュータ可読媒体。
（項目１９８）
コンピュータプロセッサによって実行されるとき、前記実行可能なコードが、
ｅ．複数の参照配列の各々に位置する、各セット内のタグ化された親ポリヌクレオチドの推論される数の比較に基づいて、複数の該セットに対してコピー数多型を推論する工程
をさらに行う、項目１９６に記載のコンピュータ可読媒体。
（項目１９９）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来する、工程；
ｂ．増幅されたポリヌクレオチドから配列決定された配列リードをファミリーにグループ化する工程であって、各ファミリーは、該セット内の同じ第１ポリヌクレオチドから増幅される、工程；
ｃ．該セット内のファミリーの定量的尺度を推論する工程；および
ｄ．各セット内のファミリーの該定量的尺度を比較することによって、コピー数多型を決定する工程
を含む、コンピュータ可読媒体。
（項目２００）
コンピュータプロセッサによって実行されるとき、ある方法を実行する一時的でない機械実行可能コードを含むコンピュータ可読媒体であって、該方法は、
ａ．複数の配列決定リードを含むデータファイルにアクセスする工程であって、該配列リードは、少なくとも１つのセットのタグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドのセットに由来し、該配列リードをファミリーにグループ化し、各ファミリーは、同じ第１ポリヌクレオチドから増幅された増幅ポリヌクレオチドの配列リードを含む、工程；および
ｂ．第１ポリヌクレオチドの各セットに対して、該セットの第１ポリヌクレオチドにおける１つ以上の塩基に対するコール頻度を推論する工程であって、推論する工程は、
ｉ．各ファミリーに対して、複数のコールの各々に対して信頼スコアを割り当てる工程であって、該信頼スコアは、該ファミリーのメンバーの間の該コールの頻度を考慮に入れている、工程；および
ｉｉ．各ファミリーに割り当てられた１つ以上の該コールの該信頼スコアを考慮に入れて、１つ以上の該コールの頻度を推定する工程
を含む、工程
を含む、コンピュータ可読媒体。
（項目２０１）
１００〜１００，０００個のヒト半数体ゲノム等価物のｃｆＤＮＡポリヌクレオチドを含む組成物であって、該ポリヌクレオチドは、２〜１，０００，０００個のユニークな識別子でタグ化される、組成物。
（項目２０２）
１０００〜５０，０００個の半数体ヒトゲノム等価物のｃｆＤＮＡポリヌクレオチドを含み、該ポリヌクレオチドは、２〜１，０００個のユニークな識別子でタグ化される、項目２０１に記載の組成物。
（項目２０３）
前記ユニークな識別子が、ヌクレオチドバーコードを含む、項目２０１に記載の組成物。（項目２０４）
ａ．１００〜１００，０００個の半数体ヒトゲノム等価物のｃｆＤＮＡポリヌクレオチドを含むサンプルを提供する工程；および
ｂ．該ポリヌクレオチドを２〜１，０００，０００個のユニークな識別子でタグ化する工程
を含む、方法。
（項目２０５）
ａ．複数のヒト半数体ゲノム等価物の断片化されたポリヌクレオチドを含むサンプルを提供する工程；
ｂ．ｚを決定する工程であって、ｚは、該ゲノム内の任意の位置から開始する２つ組のポリヌクレオチドの期待数の中心傾向の尺度（例えば、平均値、中央値または最頻値）であり、２つ組のポリヌクレオチドは、同じ開始位置および終止位置を有する、工程；およびｃ．サンプル中のポリヌクレオチドをｎ個のユニークな識別子でタグ化する工程であって、ｎは、２〜１００，０００^＊ｚ、２〜１０，０００^＊ｚ、２〜１，０００^＊ｚまたは２〜１００^＊ｚである、工程
を含む、方法。
（項目２０６）
ａ．少なくとも１つのセットのタグ化された親ポリヌクレオチドを提供する工程、およびタグ化された親ポリヌクレオチドの各セットに対して；
ｂ．該セット内のタグ化された親ポリヌクレオチドの各々に対して複数の配列リードを生成することにより、配列決定リードのセットを生成する工程；および
ｃ．該セットの配列決定リードを折りたたむことにより、コンセンサス配列のセットを生成する工程であって、各コンセンサス配列は、該セットのタグ化された親ポリヌクレオチドの中のユニークなポリヌクレオチドに対応する、工程
を含む、方法。
参照による援用

本明細書で言及されるすべての刊行物、特許および特許出願は、各個別の刊行物、特許または特許出願が、具体的かつ個別に参照により援用されると示されているかのように同程度に、参照により本明細書中に援用される。

本開示のシステムおよび方法の新規特徴は、添付の請求項に詳細に説明されている。本開示の特徴および利点のよりよい理解が、例証的な実施形態を説明している以下の詳細な説明（本開示のシステムおよび方法の原理が利用されている）および添付の図面を参照することにより得られるだろう：

図１は、単一のサンプルを使用してコピー数多型を検出する方法のフローチャート図である。

図２は、対のサンプルを使用してコピー数多型を検出する方法のフローチャート図である。

図３は、稀な変異（例えば、単一ヌクレオチドバリアント）を検出する方法のフローチャート図である。

図４Ａは、正常な非がん性の被験体から生成された、グラフによるコピー数多型の検出レポートである。

図４Ｂは、前立腺がんを有する被験体から生成された、グラフによるコピー数多型の検出レポートである。

図４Ｃは、前立腺がんを有する被験体のコピー数多型解析から生成されたレポートのインターネットで可能なアクセスの模式図である。

図５Ａは、前立腺がんが寛解している被験体から生成された、グラフによるコピー数多型の検出レポートである。

図５Ｂは、前立腺再発がんを有する被験体から生成された、グラフによるコピー数多型の検出レポートである。

図６Ａは、ＭＥＴおよびＴＰ５３の野生型コピーと変異体コピーの両方を含むＤＮＡサンプルを使用した様々な混合実験から生成された、グラフによる検出レポート（例えば、単一ヌクレオチドバリアントに対する）である。

図６Ｂは、検出結果の対数グラフの図である（例えば、単一ヌクレオチドバリアント）。パーセントがん測定値の実測値対期待値が、ＭＥＴ、ＨＲＡＳおよびＴＰ５３の野生型コピーと変異体コピーの両方を含むＤＮＡサンプルを使用した様々な混合実験に対して示されている。

図７Ａは、参照（コントロール）と比較した、前立腺がんを有する被験体における２つの遺伝子、ＰＩＫ３ＣＡおよびＴＰ５３における２つ（例えば、単一ヌクレオチドバリアント）のパーセンテージのグラフによるレポートである。

図７Ｂは、前立腺がんを有する被験体の（例えば、単一ヌクレオチドバリアント）解析から生成されたレポートのインターネットで可能なアクセスの模式図である。

図８は、遺伝物質を解析する方法のフローチャート図である。

図９は、タグ化された親ポリヌクレオチドのセットにおける情報の表示をノイズおよび／または歪みが少ない状態で生成する配列リードのセットにおける情報を復号する方法のフローチャート図である。

図１０は、配列リードのセットからのＣＮＶの決定における歪みを減少させる方法のフローチャート図である。

図１１は、配列リードのセットからタグ化された親ポリヌクレオチド集団中のある遺伝子座における塩基または塩基の配列の頻度を推定する方法のフローチャート図である。

図１２は、配列情報を通信する方法を示している。

図１３は、標準的な配列決定法およびデジタル配列決定ワークフローを使用した０．３％ＬＮＣａＰｃｆＤＮＡ滴定において７０ｋｂのパネル全体にわたって検出されたマイナーな対立遺伝子頻度を示している。標準的な「アナログな」配列決定法（図１３Ａ）は、Ｑ３０フィルタリングにもかかわらず、ＰＣＲエラーおよび配列決定エラーに起因して、極めて大きいノイズの中に真陽性の稀なバリアントのすべてをマスクしてしまう。デジタル配列決定法（図１３Ｂ）は、すべてのＰＣＲノイズおよび配列決定ノイズを排除することから、偽陽性でない真の変異を明らかにする：緑色の丸は、正常なｃｆＤＮＡにおけるＳＮＰポイントであり、赤色の丸は、検出されたＬＮＣａＰ変異である。

図１４：ＬＮＣａｐｃｆＤＮＡの滴定を示している。

図１５は、本開示の様々な方法を実行するようにプログラムされたまたは別途設定された、コンピュータシステムを示している。

発明の詳細な説明
Ｉ．全体的な概要
本開示は、無細胞ポリヌクレオチド中の稀な変異（例えば、単一または複数個のヌクレオチド変異）およびコピー数多型を検出するためのシステムおよび方法を提供する。概して、本システムおよび方法は、サンプル調製または体液からの無細胞ポリヌクレオチド配列の抽出および単離；それに続く、当該分野で公知の手法による無細胞ポリヌクレオチドの配列決定；ならびに参照と比較して、稀な変異およびコピー数多型を検出するバイオインフォマティクスツールの適用を含む。本システムおよび方法は、稀な変異の検出（例えば、単一ヌクレオチド変異のプロファイリング）、コピー数多型のプロファイリングまたは疾患の一般的な遺伝子プロファイリングを助ける際にさらなる参照として使用される、種々の稀な変異または種々の疾患のコピー数多型プロファイルのデータベースまたはコレクションも含み得る。

本システムおよび方法は、無細胞ＤＮＡの解析において、特に有用であり得る。場合によっては、無細胞ＤＮＡは、血液などの容易に入手可能な体液から抽出され、単離される。例えば、無細胞ＤＮＡは、イソプロパノール沈殿および／またはシリカベースの精製を含むがこれらに限定されない当該分野で公知の種々の方法を用いて抽出され得る。無細胞ＤＮＡは、任意の数の被験体（例えば、がんを有しない被験体、がんのリスクがある被験体または（例えば、他の手段を通じて）がんを有すると判明している被験体）から抽出され得る。

単離／抽出工程の後、いくつかの異なる配列決定作業のいずれかが、無細胞ポリヌクレオチドサンプルに対して行われ得る。サンプルは、配列決定前に、１つ以上の試薬（例えば、酵素、ユニークな識別子（例えば、バーコード）、プローブなど）を用いて処理され得る。場合によっては、サンプルが、バーコードなどのユニークな識別子で処理される場合、そのサンプルまたはサンプルのフラグメントは、個々にまたはサブグループとして、ユニークな識別子でタグ化され得る。次いで、タグ化されたサンプルは、個々の分子の親分子を突き止め得る配列決定反応などの下流の適用において使用され得る。

無細胞ポリヌクレオチド配列のシーケンシングデータが収集された後、その配列データに１つ以上のバイオインフォマティクスプロセスを適用することにより、遺伝子の特徴または異常（例えば、コピー数多型、稀な変異（例えば、単一または複数個のヌクレオチド変異）、またはメチル化プロファイルを含むがこれに限定されないエピジェネティックマーカーの変化）が検出され得る。コピー数多型の解析が望まれる場合、配列データは、１）参照ゲノムとアラインメントされ得；２）選別されて、マッピングされ得；３）配列のウィンドウまたはビンに分割され得；４）カバー率リードが、各ウィンドウに対してカウントされ得；５）次いで、確率論的または統計的モデリングアルゴリズムを使用して、カバー率リードが正規化され得；６）そのゲノム内の様々な位置における別個のコピー数の状態を反映する出力ファイルが生成され得る。稀な変異の解析が望まれる他の場合では、配列データは、１）参照ゲノムとアラインメントされ得；２）選別されて、マッピングされ得；３）その特定の塩基に対するカバー率リードに基づいて、バリアント塩基の頻度が計算され得；４）確率論的、統計的または確率的モデリングアルゴリズムを使用して、バリアント塩基の頻度が正規化され得；５）そのゲノム内の様々な位置における変異の状態を反映する出力ファイルが生成され得る。

核酸の配列決定、核酸の定量、配列決定の最適化、遺伝子発現の検出、遺伝子発現の定量、ゲノムのプロファイリング、がんのプロファイリングまたは発現されたマーカーの解析を含むがこれらに限定されない、種々の異なる反応および／作業が、本明細書中に開示されるシステムおよび方法において行われ得る。さらに、本システムおよび方法は、数多くの医学的用途を有する。例えば、それは、様々な遺伝性疾患および非遺伝性疾患ならびにがんを含む障害の同定、検出、診断、処置、病期分類またはリスク予測のために使用され得る。それは、前記遺伝性疾患および非遺伝性疾患の種々の処置に対する被験体の応答を評価するため、または疾患の進行および予後に関する情報を提供するために使用され得る。

ポリヌクレオチドの配列決定は、コミュニケーション理論の問題と比較され得る。最初の個々のポリヌクレオチドまたはポリヌクレオチドの集合は、元のメッセージと考えられる。タグ化および／または増幅は、その元のメッセージを信号に符号化すると考えられ得る。配列決定は、コミュニケーションチャネルと考えられ得る。配列分析装置のアウトプット、例えば、配列リードは、受信信号と考えられ得る。バイオインフォマティクス処理は、受信信号を復号することにより、送信されるメッセージ、例えば、ヌクレオチド配列を生成する受信機と考えられ得る。受信信号は、ノイズおよび歪みなどのアーチファクトを含み得る。ノイズは、信号への望まれないランダムな付加と考えられ得る。歪みは、信号または信号の一部の振幅の変化と考えられ得る。

ポリヌクレオチドを複製および／または解読する際のエラーによって、ノイズが導入され得る。例えば、配列決定プロセスでは、まず、単一のポリヌクレオチドが、増幅に供され得る。増幅により、エラーが導入され得、その結果、増幅されたポリヌクレオチドのサブセットは、特定の遺伝子座に元の塩基と同じでない塩基をその遺伝子座に含み得る。また、解読プロセスにおいて、任意の特定の遺伝子座における塩基は、誤って解読され得る。結果として、配列リードのコレクションには、ある遺伝子座に、ある特定のパーセンテージの元の塩基と同じでない塩基コールが含まれ得る。代表的な配列決定技術において、このエラー率は、１桁、例えば、２％〜３％であり得る。すべてが同じ配列を有すると推定される分子のコレクションが配列決定されるとき、このノイズは、元の塩基を高い信頼度で同定できるほど十分に小さい。

しかしながら、親ポリヌクレオチドのコレクションが、特定の遺伝子座に配列バリアントを有するポリヌクレオチドのサブセットを含む場合、ノイズは、重大な問題であり得る。これは、例えば、無細胞ＤＮＡが、生殖細胞系列ＤＮＡだけでなく別の起源由来のＤＮＡ（例えば、胎児のＤＮＡまたはがん細胞由来のＤＮＡ）も含む場合であり得る。この場合、配列バリアントを有する分子の頻度が、配列決定プロセスによって導入されるエラーの頻度と同じ範囲内である場合、真の配列バリアントは、ノイズと識別可能でない可能性がある。これは、例えば、サンプル中の配列バリアントの検出を干渉し得る。

歪みは、親集団内の分子によって同じ頻度で生成される信号強度の差、例えば、配列リードの総数として、配列決定プロセスにおいて表われ得る。歪みは、例えば、増幅バイアス、ＧＣバイアスまたは配列決定バイアスによって、導入され得る。これは、サンプル中のコピー数多型の検出を干渉し得る。ＧＣバイアスは、配列の解読において、ＧＣ含有量が多いまたは少ない領域の不均一な表示をもたらす。

本発明は、ポリヌクレオチド配列決定プロセスにおいて配列決定のアーチファクト（例えば、ノイズおよび／または歪み）を減少させる方法を提供する。元の個々の分子に由来する配列リードをファミリーにグループ化することにより、単一の個々の分子または分子の集合からノイズおよび／または歪みが減少し得る。単一分子に関しては、リードをファミリーにグループ化することにより、例えば、多くの配列リードが、実際には、多くの異なる分子ではなく単一分子であることを指摘することによって、歪みが減少する。配列リードをコンセンサス配列に折りたたむことは、１つの分子からの受信メッセージにおけるノイズを減少させる１つの方法である。受信周波数を変換する確率的関数を使用することが、別の方法である。分子の集合に関しては、リードをファミリーにグループ化し、それらのファミリーの定量的尺度を決定することにより、例えば、複数の異なる遺伝子座の各々における分子の数量の歪みが減少する。また、種々のファミリーの配列リードをコンセンサス配列に折りたたむことにより、増幅エラーおよび／または配列決定エラーによって導入されるエラーが排除される。また、ファミリー情報に由来する確率に基づいて塩基コールの頻度を決定することによってもまた、分子の集合から、受信メッセージにおけるノイズが減少する。

配列決定プロセスからノイズおよび／または歪みを減少させる方法は、公知である。これらには、例えば、配列を選別すること、例えば、配列が品質閾値を満たすことを要求すること、またはＧＣバイアスを減少させることが含まれる。そのような方法は、代表的には、配列分析装置のアウトプットである配列リードのコレクションに対して行われ、ファミリー構造（単一の元の親分子に由来する配列のサブコレクション）に関係なく配列リード毎に行われ得る。本発明のある特定の方法は、配列リードのファミリー内のノイズおよび／または歪みを減少させることによって、すなわち、単一の親ポリヌクレオチド分子に由来するファミリーにグループ化された配列リードに対して作用することによって、ノイズおよび歪みを減少させる。ファミリーレベルでの信号アーチファクトの減少は、配列リード毎のレベルでまたは配列分析装置のアウトプットに対して全体として行われるアーチファクトの減少よりも、有意に少ないノイズおよび歪みを、提供される最終メッセージにもたらし得る。

本開示はさらに、最初の遺伝物質のサンプル中の遺伝的変異を高感度で検出するための方法およびシステムを提供する。本方法は、以下のツールの一方または両方を使用することを含む：第１に、最初の遺伝物質のサンプル中の個々のポリヌクレオチドが、すぐに配列決定できるサンプル中に表される確率を上げるために、最初の遺伝物質のサンプル中の個々のポリヌクレオチドを、すぐに配列決定できるタグ化された親ポリヌクレオチドに効率的に変換すること。これにより、その最初のサンプル中により多くのポリヌクレオチドに関する配列情報が生成され得る。第２に、タグ化された親ポリヌクレオチドから増幅された子孫ポリヌクレオチドの高速サンプリングによる、タグ化された親ポリヌクレオチドに対するコンセンサス配列の高収率生成、およびタグ化された親ポリヌクレオチドの配列を代表するコンセンサス配列への、生成された配列リードの折りたたみ。これにより、増幅バイアスおよび／または配列決定エラーによって導入されるノイズが減少し得、検出の感度が高まり得る。折りたたみは、増幅された分子のリードまたは単一分子の複数個のリードから生成された、複数の配列リードに対して行われる。

配列決定方法は、代表的には、サンプル調製、調製されたサンプル中のポリヌクレオチドを配列決定することにより配列リードを得ること、およびそれらの配列リードのバイオインフォマティクス操作により、そのサンプルに関する定量的および／または定性的な遺伝情報を得ることを含む。サンプル調製は、代表的には、サンプル中のポリヌクレオチドを、使用される配列決定プラットフォームと適合する形態に変換することを含む。この変換は、ポリヌクレオチドのタグ化を含み得る。本発明のある特定の実施形態において、タグは、ポリヌクレオチド配列タグを含む。配列決定において使用される変換方法は、１００％効率的でない可能性がある。例えば、サンプル中のポリヌクレオチドを約１〜５％の変換効率で変換すること、すなわち、サンプル中のポリヌクレオチドの約１〜５％が、タグ化されたポリヌクレオチドに変換されることも珍しくない。タグ化された分子に変換されないポリヌクレオチドは、配列決定用のタグ化されたライブラリー中に表われない。したがって、最初の遺伝物質に低頻度で表れる遺伝的バリアントを有するポリヌクレオチドは、タグ化されたライブラリー中に表れない可能性があり、ゆえに、配列決定または検出されない可能性がある。変換効率を高めることによって、最初の遺伝物質中の稀なポリヌクレオチドが、タグ化されたライブラリー中に表われ、その結果として、配列決定によって検出される確率が高まる。また、今までの大抵のプロトコルは、ライブラリー調製の低変換効率の問題に直接対処するのではなく、インプット材料として１マイクログラムを超えるＤＮＡを要求する。しかしながら、インプットサンプル材料が限定的であるとき、または低提示のポリヌクレオチドの検出が望まれるとき、高い変換効率によって、サンプルが効率的に配列決定され得るおよび／またはそのようなポリヌクレオチドが適切に検出され得る。

本開示は、最初のポリヌクレオチドを、少なくとも１０％、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも８０％または少なくとも９０％の変換効率で、タグ化されたポリヌクレオチドに変換する方法を提供する。本方法は、例えば、平滑末端ライゲーション、粘着末端ライゲーション、分子反転プローブ、ＰＣＲ、ライゲーションベースのＰＣＲ、多重ＰＣＲ、一本鎖ライゲーションおよび一本鎖環状化のいずれかを使用することを含む。本方法は、最初の遺伝物質の量を限定する工程も含み得る。例えば、最初の遺伝物質の量は、１μｇ未満、１００ｎｇ未満または１０ｎｇ未満であり得る。これらの方法は、本明細書中でさらに詳細に記載される。

タグ化されたライブラリー中のポリヌクレオチドに関する正確な定量的および定性的な情報を得ることにより、最初の遺伝物質のより高感度の特徴付けがもたらされ得る。代表的には、タグ化されたライブラリー中のポリヌクレオチドを増幅し、得られた増幅分子を配列決定する。使用される配列決定プラットフォームの処理能力に応じて、増幅されたライブラリー中の分子のサブセットだけが、配列リードを生成する。ゆえに、例えば、配列決定のためにサンプリングされた増幅分子の数は、タグ化されたライブラリー中のユニークなポリヌクレオチドのわずか約５０％であり得る。また、増幅は、タグ化されたライブラリーのある特定の配列またはある特定のメンバーを優先してまたはそれらに対抗して偏り得る。これは、タグ化されたライブラリー中の配列の定量的測定を歪め得る。また、配列決定プラットフォームは、配列決定する際にエラーを導入し得る。例えば、配列は、０．５〜１％という１塩基あたりのエラー率を有し得る。増幅バイアスおよび配列決定エラーは、最終的な配列決定産物にノイズを導入する。このノイズは、検出感度を低下させ得る。例えば、タグ化された集団内の頻度が配列決定エラー率より低い配列バリアントは、ノイズと間違われ得る。配列のリードを、集団内の実際の数よりも多いまたは少ない量で提供することによってもまた、増幅バイアスは、コピー数多型の実測値を歪め得る。あるいは、単一のポリヌクレオチド由来の複数の配列リードは、増幅なしで生成され得る。これは、例えば、ナノポア法を用いて行われ得る。

本開示は、タグ化されたプール中のユニークなポリヌクレオチドを正確に検出および解読する方法を提供する。ある特定の実施形態において、本開示は、増幅されて配列決定されるとき、または複数回配列決定されることにより複数の配列リードが生成されるとき、子孫ポリヌクレオチドをユニークなタグの親ポリヌクレオチド分子にさかのぼるかまたは折りたたむことを可能にする情報を提供する、配列タグ化されたポリヌクレオチドを提供する。増幅された子孫ポリヌクレオチドのファミリーを折りたたむことは、元のユニークな親分子に関する情報を提供することによって、増幅バイアスを減少させる。折りたたみは、配列決定データから子孫分子の変異体配列を排除することによって、配列決定エラーも減少させる。

タグ化されたライブラリー中のユニークなポリヌクレオチドの検出および解読は、２つのストラテジーを伴い得る。１つのストラテジーでは、タグ化された親ポリヌクレオチドのセット内の、タグ化されたユニークな親ポリヌクレオチドが高いパーセンテージであるために、タグ化されたユニークな親ポリヌクレオチドから生成されたファミリー内に少なくとも１つの増幅された子孫ポリヌクレオチドに対して生成される配列リードが存在するように、増幅された子孫ポリヌクレオチドプールの十分に大きなサブセットを配列決定する。第２のストラテジーでは、増幅された子孫ポリヌクレオチドセットを、ユニークな親ポリヌクレオチドに由来するファミリーの複数個の子孫メンバーから配列リードを生成するレベルで配列決定するためにサンプリングする。あるファミリーの複数個の子孫メンバー由来の配列リードの生成によって、コンセンサス親配列への配列の折りたたみが可能になる。

したがって、例えば、タグ化された親ポリヌクレオチドのセット内のタグ化されたユニークな親ポリヌクレオチドの数に等しい増幅された子孫ポリヌクレオチドのセットからいくつかの増幅された子孫ポリヌクレオチドをサンプリングすることによって（特に、その数が、少なくとも１０，０００であるとき）、統計的に、そのセット内のタグ化された親ポリヌクレオチドの約６８％の子孫の少なくとも１つに対して配列リードが生成され、元のセットの中のタグ化されたユニークな親ポリヌクレオチドの約４０％は、少なくとも２つの子孫配列リードによって表示され得る。ある特定の実施形態において、増幅された子孫ポリヌクレオチドセットは、各ファミリーに対して平均５〜１０個の配列リードが生成されるように、十分にサンプリングされる。タグ化されたユニークな親ポリヌクレオチドの数より１０倍多い分子の増幅された子孫セットからのサンプリングは、統計的に、そのファミリーの９９．９９５％に関する配列情報を生成し得る（ファミリー全体の９９．９５％が、複数の配列リードによってカバーされ得る）。コンセンサス配列は、名目上の１塩基あたりの配列決定エラー率から、おそらくそれより多数桁小さい率までエラー率を劇的に低下させるように、各ファミリー内の子孫ポリヌクレオチドから構築され得る。例えば、配列分析装置が、１％というランダムな１塩基あたりのエラー率を有し、かつ選択されたファミリーが、１０個のリードを有する場合、これらの１０個のリードから構築されたコンセンサス配列は、０．０００１％未満のエラー率を有するだろう。したがって、配列決定される増幅された子孫のサンプリングサイズは、サンプル中に、使用される配列決定プラットフォームの割合に対して名目上の１塩基あたりの配列決定エラー率以下の頻度を有し、少なくとも１つのリードによって表される少なくとも９９％の確率を有する配列を保証するように選択され得る。

別の実施形態において、増幅された子孫ポリヌクレオチドのセットは、使用される配列決定プラットフォームの１塩基あたりの配列決定エラー率とほぼ同じ頻度で、タグ化された親ポリヌクレオチドのセットに表示される配列が、少なくとも１つの配列リード、好ましくは、複数の配列リードによってカバーされる、高い確率、例えば、少なくとも９０％をもたらすレベルまでサンプリングされる。ゆえに、例えば、配列決定プラットフォームが、ある配列において０．２％という１塩基あたりのエラー率を有するか、または配列のセットが、タグ化された親ポリヌクレオチドのセットにおいて約０．２％という頻度で表示される場合、配列決定された増幅された子孫プール中のポリヌクレオチドの数は、タグ化された親ポリヌクレオチドのセット内のユニークな分子の数の約Ｘ倍であり得る。

これらの方法は、記載されるノイズを減少させる方法のいずれかと組み合わされ得る。例えば、コンセンサス配列を生成するために使用される配列のプールに含めるための配列リードに条件付けること（ｑｕａｌｉｆｙｉｎｇ）を含む。

この情報は、ここで、定性的解析と定量的解析の両方のために使用され得る。例えば、定量的解析の場合、参照配列に位置するタグ化された親分子の量の尺度、例えば、カウントが、決定される。この尺度は、異なるゲノム領域に位置するタグ化された親分子の尺度と比較され得る。すなわち、ヒトゲノムなどの参照配列中の第１の部位またはマッピング可能な位置に位置するタグ化された親分子の量が、参照配列中の第２の部位またはマッピング可能な位置に位置するタグ化された親分子の尺度と比較され得る。この比較により、例えば、各領域に位置する親分子の相対量が明らかにされ得る。そして、これにより、特定の領域に位置する分子に対するコピー数多型の指摘が提供される。例えば、第１の参照配列に位置するポリヌクレオチドの尺度が、第２の参照配列に位置するポリヌクレオチドの尺度より大きい場合、これは、その親集団、および伸長によって元のサンプルが、異数性を示す細胞由来のポリヌクレオチドを含んでいたことを示唆し得る。これらの尺度は、様々なバイアスを排除するためにコントロールサンプルに対して正規化され得る。定量的尺度としては、例えば、数、カウント、頻度（相対的なものであるか、推論されるものであるか、または絶対的なものであるかを問わない）が挙げられ得る。

参照ゲノムは、目的の任意の種のゲノムを含み得る。参照として有用なヒトゲノム配列は、ｈｇ１９アセンブリまたは任意の以前のもしくは入手可能なｈｇアセンブリを含み得る。そのような配列は、ｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ｉｎｄｅｘ．ｈｔｍｌで利用可能なゲノムブラウザ（ｂｒｏｗｅｒ）を使用して、問い合わせすることができる。他の種のゲノムとしては、例えば、ＰａｎＴｒｏ２（チンパンジー）およびｍｍ９（マウス）が挙げられる。

定性的な解析の場合、参照配列に位置するタグ化されたポリヌクレオチドのセット由来の配列が、バリアント配列について解析され得、タグ化された親ポリヌクレオチドの集団内のそれらの頻度が、計測され得る。
ＩＩ．サンプル調製
Ａ．ポリヌクレオチドの単離および抽出

本開示のシステムおよび方法は、無細胞ポリヌクレオチドの操作、調製、同定および／または定量において多種多様の用途を有し得る。ポリヌクレオチドの例としては、ＤＮＡ、ＲＮＡ、アンプリコン、ｃＤＮＡ、ｄｓＤＮＡ、ｓｓＤＮＡ、プラスミドＤＮＡ、コスミドＤＮＡ、高分子量（ＭＷ）ＤＮＡ、染色体ＤＮＡ、ゲノムＤＮＡ、ウイルスＤＮＡ、細菌ＤＮＡ、ｍｔＤＮＡ（ミトコンドリアＤＮＡ）、ｍＲＮＡ、ｒＲＮＡ、ｔＲＮＡ、ｎＲＮＡ、ｓｉＲＮＡ、ｓｎＲＮＡ、ｓｎｏＲＮＡ、ｓｃａＲＮＡ、マイクロＲＮＡ、ｄｓＲＮＡ、リボザイム、リボスイッチおよびウイルスＲＮＡ（例えば、レトロウイルスＲＮＡ）が挙げられるがこれらに限定されない。

無細胞ポリヌクレオチドは、ヒト、哺乳動物、非ヒト哺乳動物、類人猿、サル、チンパンジー、爬虫類、両生類または鳥類の起源を含む種々の起源に由来し得る。また、サンプルは、血液、血清、血漿、硝子液、痰、尿、涙、汗、唾液、精液、粘膜排出物、粘液、髄液、羊水、リンパ液などを含むがこれらに限定されない、無細胞配列を含む種々の動物体液から抽出され得る。無細胞ポリヌクレオチドは、胎児起源であり得るか（妊娠中の被験体から採取された体液を介して）、または被験体自身の組織に由来し得る。

無細胞ポリヌクレオチドの単離および抽出は、種々の手法を使用した体液の収集を通じて行われ得る。場合によっては、収集は、注射器を使用した被験体からの体液の吸引を含み得る。他の場合では、収集は、ピペット操作または回収容器への体液の直接の収集を含み得る。

体液を収集した後、無細胞ポリヌクレオチドは、当該分野で公知の種々の手法を使用して単離および抽出され得る。場合によっては、無細胞ＤＮＡは、ＱｉａｇｅｎＱｉａｍｐ（登録商標）ＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄＫｉｔプロトコルなどの商業的に入手可能なキットを使用して単離、抽出および調製され得る。他の例では、ＱｉａｇｅｎＱｕｂｉｔ（商標）ｄｓＤＮＡＨＳＡｓｓａｙキットプロトコル、Ａｇｉｌｅｎｔ（商標）ＤＮＡ１０００キットまたはＴｒｕＳｅｑ（商標）ＳｅｑｕｅｎｃｉｎｇＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎ；Ｌｏｗ−Ｔｈｒｏｕｇｈｐｕｔ（ＬＴ）プロトコルが、使用され得る。

概して、無細胞ポリヌクレオチドは、無細胞ＤＮＡが、溶液中に見られるとき、細胞および体液の他の不溶性成分から分離される分割工程を通じて体液から抽出および単離される。分割には、遠心分離または濾過などの手法が含まれ得るが、これらに限定されない。他の場合では、細胞は、最初に無細胞ＤＮＡから分割されず、溶解される。この例では、インタクトな細胞のゲノムＤＮＡが、選択的沈殿によって分割される。ＤＮＡを含む無細胞ポリヌクレオチドは、可溶性のままであり得、不溶性のゲノムＤＮＡから分離され得、抽出され得る。概して、緩衝液の添加および種々のキットに特異的な他の洗浄工程の後、ＤＮＡは、イソプロパノール沈殿を用いて沈殿され得る。夾雑物または塩を除去するためにシリカベースのカラムなどのさらなるクリーンアップ工程が使用され得る。一般的な工程は、特定の用途のために最適化され得る。例えば、非特異的なバルクキャリアポリヌクレオチドが、収率などのその手順のある特定の態様を最適化するために、反応全体にわたって加えられ得る。

無細胞ＤＮＡの単離および精製は、ＳｉｇｍａＡｌｄｒｉｃｈ、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｐｒｏｍｅｇａ、Ａｆｆｙｍｅｔｒｉｘ、ＩＢＩなどのような会社によって提供される市販のキットおよびプロトコルの使用を含むがこれらに限定されない任意の手段を使用して達成され得る。キットおよびプロトコルは、商業的に入手可能でない可能性もある。

単離の後、場合によっては、無細胞ポリヌクレオチドは、配列決定前に、１つ以上のさらなる材料、例えば、１つ以上の試薬（例えば、リガーゼ、プロテアーゼ、ポリメラーゼ）と予め混合される。

変換効率を高める１つの方法は、一本鎖ＤＮＡに対する最適な反応性について操作されたリガーゼ（例えば、ＴｈｅｒｍｏＰｈａｇｅｓｓＤＮＡリガーゼ誘導体）を使用することを含む。そのようなリガーゼは、不良な効率を有し得るおよび／または中間のクリーンアップ工程に起因して損失を蓄積し得る、末端修復およびＡ−テーリングの、ライブラリー調製における従来の工程を迂回し、センスまたはアンチセンスのいずれかの開始ポリヌクレオチドが、適切にタグ化されたポリヌクレオチドに変換される確率を２倍にする。それは、代表的な末端修復反応によって十分に平滑末端化されない可能性があるオーバーハングを有し得る二本鎖ポリヌクレオチドも変換する。このｓｓＤＮＡ反応に対する最適な反応条件は：１×反応緩衝液（５０ｍＭＭＯＰＳ（ｐＨ７．５）、１ｍＭＤＴＴ、５ｍＭＭｇＣｌ２、１０ｍＭＫＣｌ）である。５０ｍＭＡＴＰと、２５ｍｇ／ｍｌ
ＢＳＡ、２．５ｍＭＭｎＣｌ２、２００ｐｍｏｌ８５ｎｔｓｓＤＮＡオリゴマーおよび５ＵｓｓＤＮＡリガーゼを６５℃で１時間インキュベートした。ＰＣＲを使用するその後の増幅は、さらに、タグ化された一本鎖ライブラリーを二本鎖ライブラリーに変換し得、２０％を軽く超える全体的な変換効率をもたらし得る。変換率を例えば１０％超に上げる他の方法は、例えば、以下のうちのいずれかを単独でまたは組み合わせて含む：アニーリングに最適化された分子逆位プローブ、十分に制御されたポリヌクレオチドサイズ範囲での平滑末端ライゲーション、粘着末端ライゲーション、または融合プライマーの使用ありもしくはなしでの前もっての多重増幅工程。
Ｂ．無細胞ポリヌクレオチドの分子バーコード化

本開示のシステムおよび方法は、特定のポリヌクレオチドのその後の同定および起源を可能にするために、無細胞ポリヌクレオチドをタグ化することまたは追跡することも可能にし得る。この特徴は、プールされた反応または多重反応を使用し、測定または解析を複数個のサンプルの平均として提供するだけの他の方法と対照的である。ここで、個々のポリヌクレオチドまたはポリヌクレオチドのサブグループに識別子を割り当てることにより、ユニークな同一性を個々の配列または配列のフラグメントに割り当てることが可能になり得る。これは、個々のサンプルからのデータの取得を可能にし得、サンプルの平均に限定されない。

いくつかの例において、核酸または一本鎖に由来する他の分子は、共通のタグまたは識別子を共有し得、ゆえに後で、その鎖に由来すると同定され得る。同様に、一本鎖の核酸由来のフラグメントのすべてが、同じ識別子またはタグでタグ化され得ることにより、後に、その親鎖由来のフラグメントの同定が可能になり得る。他の場合では、バーコード、またはそれに付着された配列と組み合されたバーコードをカウントし得る発現を定量するために、遺伝子発現産物（例えば、ｍＲＮＡ）がタグ化され得る。なおも他の場合において、本システムおよび方法は、ＰＣＲ増幅のコントロールとして使用され得る。そのような場合、ＰＣＲ反応からの複数個の増幅産物が、同じタグまたは識別子でタグ化され得る。その産物が、後に配列決定されて、配列の差異を示す場合、同じ識別子を有する産物の間の差異は、ＰＣＲエラーに起因し得る。

さらに、リード自体に対する配列データの特徴に基づいて個々の配列が同定され得る。例えば、個々の配列決定リードの始め（開始）および終わり（終止）の部分におけるユニークな配列データの検出は、単独でまたは各配列リードのユニークな配列の塩基対の長さ、すなわち数と組み合わせて、使用されることにより、個々の分子にユニークな同一性が割り当てられ得る。それにより、ユニークな同一性が割り当てられた一本鎖の核酸由来のフラグメントは、親鎖由来のフラグメントをその後同定することを可能にし得る。これは、多様性を限定するために、開始の最初の遺伝物質の制限とともに使用され得る。

さらに、個々の配列決定リードの始め（開始）および終わり（終止）の部分におけるユニークな配列データおよび配列決定リード長を使用することは、単独で、またはバーコードの使用と組み合わせて、使用され得る。場合によっては、バーコードは、本明細書中に記載されるようにユニークであり得る。他の場合では、バーコード自体は、ユニークでない可能性がある。この場合、個々の配列決定リードの始め（開始）および終わり（終止）の部分における配列データならびに配列決定リード長と組み合わせて、ユニークでないバーコードを使用することにより、個々の配列にユニークな同一性を割り当てることが可能になり得る。同様に、それにより、ユニークな同一性が割り当てられた一本鎖の核酸由来のフラグメントは、親鎖由来のフラグメントをその後同定することを可能にし得る。

概して、本明細書中に提供される方法およびシステムは、下流の適用である配列決定反応のための無細胞ポリヌクレオチド配列の調製にとって有用である。しばしば、配列決定方法は、古典的なサンガー配列決定法である。配列決定方法としては、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ−Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇｂｙＳｙｎｔｈｅｓｉｓ（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、超並列シーケンシング、Ｃｌｏｎａｌ
ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、マクサム・ギルバート・シーケンシング、プライマーウォーキングおよび当該分野で公知の他の任意の配列決定方法が挙げられ得るが、これらに限定されない。
Ｃ．無細胞ポリヌクレオチド配列へのバーコードの割り当て

本明細書中に開示されるシステムおよび方法は、無細胞ポリヌクレオチドへのユニークなもしくはユニークでない識別子または分子バーコードの割り当てを含む用途において使用され得る。しばしば、識別子は、ポリヌクレオチドをタグ化するために使用されるバーコードオリゴヌクレオチドである；しかし、場合によっては、異なるユニークな識別子が使用される。例えば、場合によっては、ユニークな識別子は、ハイブリダイゼーションプローブである。他の場合では、ユニークな識別子は、色素であり、その場合、付着は、被検体分子の中への色素のインターカレーション（例えば、ＤＮＡまたはＲＮＡの中へのインターカレーション）または色素で標識されたプローブへの結合を含み得る。なおも他の場合では、ユニークな識別子は、核酸オリゴヌクレオチドであり得、その場合、ポリヌクレオチド配列への付着は、オリゴヌクレオチドとその配列との間のライゲーション反応またはＰＣＲによる組み込みを含み得る。他の場合では、その反応は、被検体への直接的な、または同位体で標識されたプローブによる、金属同位体の付加を含み得る。概して、本開示の反応におけるユニークなもしくはユニークでない識別子または分子バーコードの割り当ては、例えば、米国特許出願２００１００５３５１９、２００３０１５２４９０、２０１１０１６００７８および米国特許第６，５８２，９０８号に記載されている方法およびシステムに従い得る。

しばしば、本方法は、ライゲーション反応を含むがこれに限定されない酵素反応によって核酸被検体にオリゴヌクレオチドバーコードを付着する工程を含む。例えば、リガーゼ酵素は、断片化されたＤＮＡ（例えば、高分子量ＤＮＡ）にＤＮＡバーコードを共有結合的に付着し得る。バーコードの付着の後、それらの分子は、配列決定反応に供され得る。

しかしながら、他の反応も同様に使用され得る。例えば、バーコード配列を含むオリゴヌクレオチドプライマーが、ＤＮＡ鋳型被検体の増幅反応（例えば、ＰＣＲ、ｑＰＣＲ、逆転写酵素ＰＣＲ、デジタルＰＣＲなど）において使用され得、それにより、タグ化された被検体が生成され得る。個々の無細胞ポリヌクレオチド配列へのバーコードの割り当ての後、分子のプールが、配列決定され得る。

場合によっては、無細胞ポリヌクレオチド配列のグローバル増幅のためにＰＣＲが使用され得る。これは、まず、種々の分子にライゲートされ得るアダプター配列を使用した後、ユニバーサルプライマーを使用するＰＣＲ増幅を含み得る。配列決定のためのＰＣＲは、Ｎｕｇｅｎ（ＷＧＡキット）、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ａｆｆｙｍｅｔｒｉｘ、Ｐｒｏｍｅｇａ、Ｑｉａｇｅｎなどによって提供される市販のキットの使用を含むがこれらに限定されない任意の手段を使用して行われ得る。他の場合では、無細胞ポリヌクレオチド分子の集団内のある特定の標的分子だけが、増幅され得る。特異的プライマーは、アダプターライゲーションと併用して、下流の配列決定のために、ある特定の標的を選択的に増幅するために使用され得る。

ユニークな識別子（例えば、オリゴヌクレオチドバーコード、抗体、プローブなど）は、ランダムにまたは非ランダムに無細胞ポリヌクレオチド配列に導入され得る。場合によっては、それらは、ユニークな識別子の期待される比で、マイクロウェルに導入される。例えば、ユニークな識別子は、１ゲノムサンプルあたり約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００個を超えるユニークな識別子がロードされる（ｌｏａｄｅｄ）ように、ロードされ得る。場合によっては、ユニークな識別子は、１ゲノムサンプルあたり約２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００個未満のユニークな識別子がロードされるように、ロードされ得る。場合によっては、１ゲノムサンプルあたりにロードされるユニークな識別子の平均数は、１ゲノムサンプルあたり約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００個のユニークな識別子より少ないまたは多い。

場合によっては、ユニークな識別子は、種々の長さであり得、各バーコードは、少なくとも約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００塩基対である。他の場合では、バーコードは、１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００塩基対未満を含み得る。

場合によっては、ユニークな識別子は、所定のまたはランダムなもしくはセミランダムな配列オリゴヌクレオチドであり得る。他の場合では、バーコードが、複数の中で互いに必ずしもユニークでないように、複数のバーコードが使用され得る。この例では、バーコードと配列との組み合わせがライゲートされて個々に追跡され得るユニークな配列が作り出されるように、そのバーコードは、個々の分子にライゲートされ得る。ユニークでないバーコードの検出は、本明細書中に記載されるように、配列リードの始め（開始）および終わり（終止）の部分の配列データと組み合わせて、特定の分子へのユニークな同一性の割り当てを可能にし得る。個々の配列リードの長さ、つまり塩基対の数もまた、そのような分子にユニークな同一性を割り当てるために使用され得る。本明細書中に記載されるように、それにより、ユニークな同一性を割り当てられた一本鎖の核酸由来のフラグメントは、親鎖由来のフラグメントをその後同定することを可能にし得る。このように、サンプル中のポリヌクレオチドは、ユニークにまたは実質的にユニークにタグ化され得る。

ユニークな識別子は、ＲＮＡまたはＤＮＡ分子を含むがこれらに限定されない広範囲の被検体をタグ化するために使用され得る。例えば、ユニークな識別子（例えば、バーコードオリゴヌクレオチド）は、核酸鎖全体または核酸のフラグメント（例えば、断片化されたゲノムＤＮＡ、断片化されたＲＮＡ）に付着され得る。ユニークな識別子（例えば、オリゴヌクレオチド）は、遺伝子発現産物、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、ＲＮＡ、ｍＲＮＡなどにも結合し得る。

多くの応用法において、個々の無細胞ポリヌクレオチド配列の各々に、異なるユニークな識別子（例えば、オリゴヌクレオチドバーコード）を与えるか否かを決定することが重要であり得る。本システムおよび方法に導入されるユニークな識別子の集団が、有意に多様でない場合、おそらく、異なる被検体が同一の識別子でタグ化され得る。本明細書中に開示されるシステムおよび方法は、同じ識別子でタグ化された無細胞ポリヌクレオチド配列の検出を可能にし得る。場合によっては、参照配列が、解析される無細胞ポリヌクレオチド配列の集団とともに含められ得る。参照配列は、例えば、公知の配列および公知の数量を有する核酸であり得る。ユニークな識別子が、オリゴヌクレオチドバーコードであり、被検体が、核酸である場合、タグ化された被検体は、その後、配列決定され、定量され得る。これらの方法は、１つ以上のフラグメントおよび／または被検体が、同一のバーコードを割り当てられている可能性があることを示唆し得る。

本明細書中に開示される方法は、被検体にバーコードを割り当てるために必要な試薬を使用する工程を含み得る。ライゲーション反応の場合、リガーゼ酵素、緩衝剤、アダプターオリゴヌクレオチド、複数のユニークな識別子ＤＮＡバーコードなどを含むがこれらに限定されない試薬が、本システムおよび方法にロードされ得る。富化の場合、複数のＰＣＲプライマー、ユニークな同定配列を含むオリゴヌクレオチド、すなわちバーコード配列、ＤＮＡポリメラーゼ、ＤＮＴＰおよび緩衝剤などを含むがこれらに限定されない試薬が、配列決定に向けた調製において使用され得る。

概して、本開示の方法およびシステムは、分子または被検体をカウントするために分子バーコードを使用する米国特許第７，５３７，８９７号の方法を使用し得る。

複数のゲノム由来の断片化されたゲノムＤＮＡ、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を含むサンプルにおいて、異なるゲノム由来の２つ以上のポリヌクレオチドが同じ開始位置および終止位置を有する可能性はいくらかある（「２つ組」または「同起源」）。任意の位置で始まる２つ組の推定数は、サンプル中の半数体ゲノム等価物の数およびフラグメントサイズの分布の関数である。例えば、ｃｆＤＮＡは、約１６０ヌクレオチドにフラグメントのピークを有し、このピークにおけるフラグメントのほとんどが、約１４０ヌクレオチド〜１８０ヌクレオチドの範囲である。したがって、約３０億塩基のゲノム（例えば、ヒトゲノム）由来のｃｆＤＮＡは、ほぼ２０００万（２×１０^７）個のポリヌクレオチドフラグメントを含み得る。約３０ｎｇのＤＮＡのサンプルは、約１０，０００個の半数体ヒトゲノム等価物を含み得る。（同様に、約１００ｎｇのＤＮＡのサンプルは、約３０，０００個の半数体ヒトゲノム等価物を含み得る。）そのようなＤＮＡの約１０，０００（１０^４）個の半数体ゲノム等価物を含むサンプルは、約２０００億（２×１０^１１）個の個々のポリヌクレオチド分子を有し得る。ヒトＤＮＡの約１０，０００個の半数体ゲノム等価物のサンプル中に、任意の所与の位置で始まる約３つの２つ組のポリヌクレオチドが存在することが、経験的に明らかにされている。したがって、そのようなコレクションは、約６×１０^１０〜８×１０^１０（約６００億〜８００億、例えば、約７００億（７×１０^１０））個の異なって配列決定されるポリヌクレオチド分子という多様性を含み得る。

分子が正しく同定される確率は、ゲノム等価物の最初の数、配列決定された分子の長さの分布、配列の均一性およびタグの数に依存する。タグの数が１に等しいとき、それは、ユニークなタグを有しないまたはタグ化していないに等しい。下記の表は、上記のような代表的な無細胞のサイズ分布を仮定して、分子をユニークとして正しく同定する確率を列挙している。

この場合、ゲノムＤＮＡを配列決定する際、どの配列リードがどの親分子に由来するかを判定することは可能でない可能性がある。２つの２つ組分子、すなわち、同じ開始位置および終止位置を有する分子が、異なるユニークな識別子を有するという可能性があり、配列リードは、特定の親分子にさかのぼることができるように、親分子を十分な数のユニークな識別子（例えば、タグの数）でタグ化することによって、この問題は減少し得る。この問題に対する１つのアプローチは、サンプル中のすべてまたはほぼすべての異なる親分子をユニークにタグ化することである。しかしながら、半数体遺伝子等価物の数およびサンプル中のフラグメントサイズの分布に応じて、これは、数十億個の異なるユニークな識別子を必要とし得る。

この方法は、煩雑かつ高価であり得る。本発明は、断片化されたゲノムＤＮＡのサンプル中のポリヌクレオチドの集団が、ｎ個の異なるユニークな識別子でタグ化される、方法および組成物を提供し、ｎは、少なくとも２かつ１００，０００^＊ｚ以下であり、ｚは、同じ開始位置および終止位置を有する２つ組分子の期待数の中心傾向の尺度（例えば、平均値、中央値、最頻値）である。ある特定の実施形態において、ｎは、２^＊ｚ、３^＊ｚ、４^＊ｚ、５^＊ｚ、６^＊ｚ、７^＊ｚ、８^＊ｚ、９^＊ｚ、１０^＊ｚ、１１^＊ｚ、１２^＊ｚ、１３^＊ｚ、１４^＊ｚ、１５^＊ｚ、１６^＊ｚ、１７^＊ｚ、１８^＊ｚ、１９^＊ｚまたは２０^＊ｚのうちの少なくともいずれかである（例えば、下限）。他の実施形態において、ｎは、１００，０００^＊ｚ、１０，０００^＊ｚ、１０００^＊ｚまたは１００^＊ｚより大きくない（例えば、上限）。したがって、ｎは、これらの下限と上限の任意の組み合わせの間の範囲であり得る。ある特定の実施形態において、ｎは、５^＊ｚ〜１５^＊ｚ、８^＊ｚ〜１２^＊ｚまたは約１０^＊ｚである。例えば、半数体ヒトゲノム等価物は、約３ピコグラムのＤＮＡを有する。約１マイクログラムのＤＮＡのサンプルは、約３００，０００個の半数体ヒトゲノム等価物を含む。数字ｎは、１５〜４５、２４〜３６または約３０であり得る。２つ組または同起源のポリヌクレオチドの少なくともいくつかが、ユニークな識別子を有する、すなわち、異なるタグを有する限り、配列決定の改善が達成され得る。しかしながら、ある特定の実施形態において、使用されるタグの数は、任意の１つの位置で始まる２つ組の分子のすべてがユニークな識別子を有する確率が少なくとも９５％存在するように、選択される。例えば、約１０，０００個の半数体ヒトゲノム等価物のｃｆＤＮＡを含むサンプルが、約３６個のユニークな識別子でタグ化され得る。そのユニークな識別子は、６つのユニークなＤＮＡバーコードを含み得る。ポリヌクレオチドの両端に付着されるとき、３６個の可能性のあるユニークな識別子が生成される。そのような方法でタグ化されるサンプルは、約１０ｎｇから約１００ｎｇ、約１μｇ、約１０μｇのいずれかまでの範囲の断片化されたポリヌクレオチド、例えば、ゲノムＤＮＡ、例えば、ｃｆＤＮＡを含むサンプルであり得る。

したがって、本発明は、タグ化されたポリヌクレオチドの組成物も提供する。そのポリヌクレオチドは、断片化されたＤＮＡ、例えば、ｃｆＤＮＡを含み得る。ゲノム内のマッピング可能な塩基位置に位置する組成物中のポリヌクレオチドのセットは、ユニークにタグ化されない可能性があり、すなわち、異なる識別子の数が、少なくとも少なくとも２であり得、かつマッピング可能な塩基位置に位置するポリヌクレオチドの数より少ない可能性がある。約１０ｎｇ〜約１０μｇ（例えば、約１０ｎｇ〜１μｇ、約１０ｎｇ〜１００ｎｇ、約１００ｎｇ〜１０μｇ、約１００ｎｇ〜１μｇ、約１μｇ〜１０μｇのいずれか）の組成物は、２、５、１０、５０または１００のいずれかから１００、１０００、１０，０００または１００，０００のいずれかまでの異なる識別子を有し得る。例えば、５〜１００個の異なる識別子が、そのような組成物中のポリヌクレオチドをタグ化するために使用され得る。
ＩＩＩ．核酸配列決定プラットフォーム

体液から無細胞ポリヌクレオチドを抽出および単離した後、無細胞配列は、配列決定され得る。しばしば、配列決定方法は、古典的なサンガー配列決定法である。配列決定方法としては、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ−Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、ＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇｂｙＳｙｎｔｈｅｓｉｓ（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、超並列シーケンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、マクサム・ギルバート・シーケンシング、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔまたはナノポアプラットフォームを使用するシーケンシング、および当該分野で公知の他の任意の配列決定方法が挙げられ得るが、これらに限定されない。

場合によっては、本明細書中に記載されるような様々なタイプの配列決定反応は、種々のサンプル処理ユニットを含み得る。サンプル処理ユニットとしては、複数個のレーン、複数個のチャネル、複数個のウェルまたは複数個のサンプルセットを実質的に同時に処理する他の手段が挙げられ得るがこれらに限定されない。さらに、サンプル処理ユニットは、複数のランを同時に処理することを可能にする複数個のサンプルチャンバーを備え得る。

いくつかの例において、同時の配列決定反応は、多重配列決定を用いて行われ得る。場合によっては、無細胞ポリヌクレオチドは、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００個の配列決定反応によって配列決定され得る。他の場合では、無細胞ポリヌクレオチドは、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００個未満の配列決定反応によって配列決定され得る。配列決定反応は、順次または同時に行われ得る。その後のデータ解析は、配列決定反応の全部または一部に対して行われ得る。場合によっては、データ解析は、少なくとも１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００個の配列決定反応に対して行われ得る。他の場合では、データ解析は、１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、１００，０００個未満の配列決定反応に対して行われ得る。

他の例では、配列決定反応の数は、種々の量のゲノムに対してカバー率を提供し得る。場合によっては、ゲノムの配列カバー率は、少なくとも５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％であり得る。他の場合では、ゲノムの配列カバー率は、５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％未満であり得る。

いくつかの例において、配列決定は、種々の異なるタイプの核酸を含み得る無細胞ポリヌクレオチドに対して行われ得る。核酸は、ポリヌクレオチドまたはオリゴヌクレオチドであり得る。核酸としては、ＤＮＡもしくはＲＮＡ、一本鎖もしくは二本鎖またはＲＮＡ／ｃＤＮＡ対が挙げられるが、これらに限定されない。
ＩＶ．ポリヌクレオチド解析ストラテジー

図８は、最初の遺伝物質のサンプル中のポリヌクレオチドを解析するためのストラテジーを示している流れ図８００である。工程８０２では、最初の遺伝物質を含むサンプルを提供する。そのサンプルは、標的核酸を少ない存在量で含み得る。例えば、２０％以下、１０％以下、５％以下、１％以下、０．５％以下または０．１％以下の、遺伝的変異を含む少なくとも１つの他のゲノム、例えば、がんゲノムもしくは胎児ゲノムまたは別の種のゲノム由来の核酸も含むサンプル中において、正常または野生型ゲノム（例えば、生殖細胞系列ゲノム）由来の核酸が、優勢であり得る。そのサンプルは、例えば、無細胞核酸または核酸を含む細胞を含み得る。最初の遺伝物質は、１００ｎｇ以下の核酸を構成し得る。これは、配列決定または遺伝子解析プロセスによる元のポリヌクレオチドの適切なオーバーサンプリングに寄与し得る。あるいは、サンプルは、人工的に上限が課される（ｃａｐｐｅｄ）かまたは制限されることにより、核酸の量を１００ｎｇ以下に減少され得るか、または目的の配列だけを解析するために選択的に富化され得る。サンプルは、参照配列中の１つ以上の選択された各部位に位置する分子の配列リードを選択的に生成するように改変され得る。１００ｎｇの核酸のサンプルは、約３０，０００個のヒト半数体ゲノム等価物、すなわち、合計でヒトゲノムの３０，０００倍のカバー率を提供する分子を含み得る。

工程８０４では、最初の遺伝物質を、タグ化された親ポリヌクレオチドのセットに変換する。タグ化は、配列決定されたタグを、最初の遺伝物質中の分子に付着することを含み得る。配列決定されたタグは、参照配列中の同じ部位に位置するユニークなポリヌクレオチドのすべてが、ユニークな同定タグを有するように、選択され得る。変換は、高効率で、例えば、少なくとも５０％で行われ得る。

工程８０６では、タグ化された親ポリヌクレオチドのセットを増幅することにより、増幅された子孫ポリヌクレオチドのセットを生成する。増幅は、例えば、１，０００倍であり得る。

工程８０８では、増幅された子孫ポリヌクレオチドのセットを、配列決定のためにサンプリングする。そのサンプリング率は、生成された配列リードが、（１）タグ化された親ポリヌクレオチドのセット内のユニークな分子の目標数をカバーし、かつ（２）目標カバー率の倍率（例えば、親ポリヌクレオチドの５〜１０倍のカバー率）で、タグ化された親ポリヌクレオチドのセット内のユニークな分子をカバーするように、選択される。

工程８１０では、配列リードのセットを折りたたむことにより、タグ化されたユニークな親ポリヌクレオチドに対応するコンセンサス配列のセットを生成する。配列リードは、解析に含めるために条件付けられ得る。例えば、品質管理スコアを満たさない配列リードは、プールから除去され得る。配列リードは、特定のユニークな親分子に由来する子孫分子のリードに相当するファミリーに分別され得る。例えば、増幅された子孫ポリヌクレオチドのファミリーは、単一の親ポリヌクレオチドに由来する増幅された分子を構成し得る。あるファミリーの中の子孫の配列を比較することによって、元の親ポリヌクレオチドのコンセンサス配列が、推定され得る。これは、タグ化されたプール中のユニークな親ポリヌクレオチドに相当するコンセンサス配列のセットを生成する。

工程８１２では、本明細書中に記載される任意の解析方法を用いて、コンセンサス配列のセットを解析する。例えば、特定の参照配列の部位に位置するコンセンサス配列を解析することにより、遺伝的変異の事実が検出され得る。特定の参照配列に位置するコンセンサス配列が、計測され、コントロールサンプルに対して正規化され得る。参照配列に位置する分子の尺度は、ゲノムにわたって比較されることにより、コピー数が変動しているかまたはヘテロ接合性が失われているゲノム内の領域が同定され得る。

図９は、配列リードのコレクションによって表された信号から情報を抽出するより一般的な方法を示している流れ図である。この方法では、増幅された子孫ポリヌクレオチドを配列決定した後、それらの配列リードを、ユニークな同一性の分子から増幅された分子のファミリーにグループ化する（９１０）。このグループ化は、その配列中の情報を解釈する方法のための起点であり得、それにより、タグ化された親ポリヌクレオチドの内容が、より高い忠実度で、例えば、より少ないノイズおよび／または歪みで決定される。

配列リードのコレクションの解析により、配列リードを生成した親ポリヌクレオチド集団に関して推論することが可能になる。配列決定は、通常、全体的な増幅された全ポリヌクレオチドの一部のサブセットだけを解読することを含むので、そのような推論は、有用であり得る。ゆえに、すべての親ポリヌクレオチドが、配列リードのコレクション中の少なくとも１つの配列リードによって表されることを確実にすることはできない。

そのような１つの推論結果は、元のプール中のユニークな親ポリヌクレオチドの数である。そのような推論は、配列リードがグループ化され得るユニークなファミリーの数および各ファミリー内の配列リードの数に基づいて行われ得る。この場合、ファミリーとは、元の親ポリヌクレオチドにさかのぼることができる配列リードのコレクションのことを指す。その推論は、周知の統計学的方法を用いて行われ得る。例えば、グループ化により、多くのファミリー（各々が１つまたは数個の子孫によって代表される）が生成される場合、元の集団は、配列決定されなかったより多くのユニークな親ポリヌクレオチドを含んだと推論することができる。他方、グループ化により、ほんの数個のファミリー（各ファミリーは多くの子孫によって代表される）しか生成されない場合、その親集団内のユニークなポリヌクレオチドのほとんどが、少なくとも１つの配列リードグループによってそのファミリーに表わされると推論することができる。

別のそのような推論結果は、ポリヌクレオチドの元のプール中の特定の遺伝子座における塩基または塩基の配列の頻度である。そのような推論は、配列リードがグループ化され得るユニークなファミリーの数および各ファミリー内の配列リードの数に基づいて行われ得る。配列リードのファミリー内の遺伝子座における塩基コールを解析するとき、信頼スコアが、各特定の塩基コールまたは配列に割り当てられる。次いで、複数のファミリー内の各塩基コールに対する信頼スコアを考慮して、その遺伝子座における各塩基または配列の頻度が、決定される。
Ｖ．コピー数多型の検出
Ａ．単一サンプルを使用したコピー数多型の検出

図１は、単一の被験体におけるコピー数多型を検出するためのストラテジーを示している流れ図１００である。本明細書中に示されるように、コピー数多型の検出方法は、以下のとおり実行され得る。工程１０２において無細胞ポリヌクレオチドを抽出および単離した後、単一のユニークなサンプルが、工程１０４において、当該分野で公知の核酸配列決定プラットフォームによって配列決定され得る。この工程により、複数のゲノムフラグメント配列リードが生成される。場合によっては、これらの配列リードは、バーコード情報を含み得る。他の例では、バーコードは、使用されない。配列決定した後、リードに品質スコアを割り当てる。品質スコアは、それらのリードが、閾値に基づいて、その後の解析において有用であり得ることを示唆するリードの表示であり得る。場合によっては、いくつかのリードは、その後のマッピング工程を行うのに十分な品質または長さでない。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％の品質スコアを有する配列決定リードは、データから除外され得る。他の場合では、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満の品質スコアを割り当てられた配列決定リードが、データセットから除外され得る。工程１０６では、規定の品質スコア閾値を満たすゲノムフラグメントリードを、参照ゲノム、すなわち、コピー数多型を含まないと知られている鋳型配列にマッピングする。マッピングアラインメントの後、配列リードにマッピングスコアを割り当てる。マッピングスコアは、各位置がユニークにマッピング可能であるかまたはそうでないかを示唆する参照配列にマッピングし戻される表示またはリードであり得る。ある場合において、リードは、コピー数多型の解析と無関係の配列であり得る。例えば、いくつかの配列リードは、夾雑物ポリヌクレオチドを起源とし得る。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％のマッピングスコアを有する配列決定リードは、データセットから除外され得る。他の場合では、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満のマッピングスコアを割り当てられた配列決定リードが、データセットから除外され得る。

データの選別およびマッピングの後、複数の配列リードは、染色体領域のカバー率をもたらす。工程１０８において、これらの染色体領域は、可変の長さのウィンドウまたはビンに分割され得る。ウィンドウまたはビンは、少なくとも５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂまたは１０００ｋｂであり得る。ウィンドウまたはビンは、最大５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂまたは１０００ｋｂの塩基も有し得る。ウィンドウまたはビンは、約５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂまたは１０００ｋｂでもあり得る。

工程１１０におけるカバー率の正規化に向けて、ほぼ同じ数のマッピング可能な塩基を含むように、各ウィンドウまたはビンを選択する。場合によっては、ある染色体領域内の各ウィンドウまたはビンは、正確な数のマッピング可能な塩基を含み得る。他の場合では、各ウィンドウまたはビンは、異なる数のマッピング可能な塩基を含み得る。さらに、各ウィンドウまたはビンは、隣接するウィンドウまたはビンと重複しない可能性がある。他の場合では、ウィンドウまたはビンは、別の隣接するウィンドウまたはビンと重複し得る。場合によっては、ウィンドウまたはビンは、少なくとも１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐまたは１０００ｂｐ重複し得る。他の場合では、ウィンドウまたはビンは、最大１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐまたは１０００ｂｐ重複し得る。場合によっては、ウィンドウまたはビンは、約１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐまたは１０００ｂｐ重複し得る。

場合によっては、ウィンドウ領域の各々は、ほぼ同じ数のユニークにマッピング可能な塩基を含むような大きさにされ得る。ウィンドウ領域を構成する各塩基のマッピング可能性が決定され、それを用いることにより、各ファイルに対する参照にマッピングし戻される参照からのリードの表示を含むマッピング可能性ファイルが生成される。そのマッピング可能性ファイルは、各位置ごとに１列を含み、それにより、各位置がユニークにマッピング可能であるかまたはそうでないかが示唆される。

さらに、配列決定し難いかまたは実質的に高いＧＣバイアスを含むとゲノム全体にわたって知られている予め定義されたウィンドウが、データセットから除外され得る。例えば、染色体のセントロメア（すなわち、セントロメアＤＮＡ）付近にあると知られる領域は、偽陽性の結果をもたらし得る高度に反復性の配列を含むと知られている。これらの領域は、除外され得る。異常に高い濃度の他の高度に反復性の配列（例えば、マイクロサテライトＤＮＡ）を含む領域などのゲノムの他の領域も、データセットから除外され得る。

解析されるウィンドウの数もまた、変動し得る。場合によっては、少なくとも１０、２０、３０、４０、５０、１００、２００、５００、１０００、２０００、５，０００、１０，０００、２０，０００、５０，０００または１００，０００個のウィンドウが、解析される。他の場合では、解析されるウィンドウ（ｗｉｄｏｗｓ）の数は、最大１０、２０、３０、４０、５０、１００、２００、５００、１０００、２０００、５，０００、１０，０００、２０，０００、５０，０００または１００，０００個のウィンドウが、解析される。

無細胞ポリヌクレオチド配列に由来する例示的なゲノムの場合、次の工程は、各ウィンドウ領域に対するリードカバー率を決定する工程を含む。これは、バーコードを有するまたはバーコードを有しないリードを用いて行われ得る。バーコードを有しない場合、先のマッピング工程は、種々の塩基位置のカバー率を提供し得る。十分なマッピングスコアおよび品質スコアを有し、選別されない染色体ウィンドウに含まれる配列リードが、カウントされ得る。カバー率リードの数は、マッピング可能な各位置あたりのスコアを割り当てられ得る。バーコードを含む場合、同じバーコード、物理的特性またはそれら２つの組み合わせを有するすべての配列が、サンプル親分子に由来するので、それらのすべてが、１つのリードに折りたたまれ得る。この工程は、増幅を含む工程などの前述の工程のいずれかの間に導入されている可能性があるバイアスを減少させる。例えば、１つの分子が、１０倍増幅されるが、別の分子が、１０００倍増幅される場合、各分子は、折りたたまれた後に１回表示されるだけであり、それによって、不均一な増幅の影響が打ち消される。ユニークなバーコードを有するリードだけが、マッピング可能な各位置に対してカウントされ得、割り当てられたスコアに影響し得る。

コンセンサス配列は、当該分野で公知の任意の方法によって配列リードのファミリーから生成され得る。そのような方法としては、例えば、デジタル通信理論、情報理論またはバイオインフォマティクスから得られるコンセンサス配列を構築する線形法または非線形法（例えば、投票、平均化、統計的、最大事後もしくは最尤検出、動的計画法、ベイジアン、隠れマルコフまたはサポートベクターマシン法など）が挙げられる。

配列リードカバー率が決定された後、各ウィンドウ領域に対する正規化された核酸配列リードカバー率を別個のコピー数の状態に変換するために、確率論的モデリングアルゴリズムが適用される。場合によっては、このアルゴリズムは、以下のうちの１つ以上を含み得る：隠れマルコフモデル、動的計画法、サポートベクターマシン、ベイジアンネットワーク、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング法およびニューラルネットワーク。

工程１１２では、各ウィンドウ領域の別個のコピー数の状態を利用することにより、染色体領域におけるコピー数多型が同定され得る。場合によっては、同じコピー数を有する隣接するウィンドウ領域のすべてが、１つのセグメントにマージされることにより、コピー数多型の状態の有無が報告され得る。場合によっては、様々なウィンドウを他のセグメントとマージする前に、それらを選別し得る。

工程１１４では、コピー数多型は、ゲノム内の様々な位置、およびそれぞれの各位置におけるコピー数多型の対応する増加または減少または維持を示すグラフとして報告され得る。さらに、コピー数多型を使用することにより、無細胞ポリヌクレオチドサンプル中に病的な材料（またはコピー数多型を有する核酸）がどれだけ存在するかを指摘するパーセンテージスコアが報告され得る。

コピー数多型を決定する１つの方法を図１０に示す。その方法では、配列リードを、単一の親ポリヌクレオチドから生成されたファミリーにグループ化した後（１０１０）、例えば、複数の異なる参照配列の各部位に位置するファミリーの数を決定することによって、それらのファミリーを定量する。ＣＮＶは、複数の異なる遺伝子座の各々におけるファミリーの定量的尺度を比較することによって直接、決定され得る（１０１６ｂ）。あるいは、ファミリーの定量的尺度と、例えば、上で論じたような、各ファミリーにおけるファミリーメンバーの定量的尺度との両方を使用して、タグ化された親ポリヌクレオチドの集団内のファミリーの定量的尺度が推論され得る。次いで、複数の遺伝子座における数量の推論された尺度を比較することによって、ＣＮＶが決定され得る。他の実施形態では、ＧＣバイアスなどのような配列決定プロセス中の表示バイアスに対する正規化の後に元の数量の同様の推論が行われ得るハイブリッドアプローチが取られ得る。
Ｂ．対のサンプルを使用するコピー数多型の検出

対のサンプルのコピー数多型の検出は、その工程およびパラメータの多くを本明細書中に記載される単一サンプルアプローチと共有する。しかしながら、コピー数多型検出の図２の２００に表されているように、対のサンプルの使用は、配列カバー率とゲノムの予測されるマッピング可能性との比較ではなく、配列カバー率とコントロールサンプルとの比較を必要とする。このアプローチは、ウィンドウにわたる正規化に役立ち得る。

図２は、対の被験体におけるコピー数多型を検出するためのストラテジーを示している流れ図２００である。本明細書中に示されるように、コピー数多型の検出方法は、以下のとおり実行され得る。工程２０４では、工程２０２におけるサンプルの抽出および単離の後、単一のユニークなサンプルが、当該分野で公知の核酸配列決定プラットフォームによって配列決定され得る。この工程により、複数のゲノムフラグメント配列リードが生成される。さらに、サンプルまたはコントロールサンプルを別の被験体から採取する。場合によっては、コントロール被験体は、疾患を有していないと判明している被験体であり得る一方で、他方の被験体は、特定の疾患を有し得るか、またはそのリスクがあり得る。場合によっては、これらの配列リードは、バーコード情報を含み得る。他の例では、バーコードは、使用されない。配列決定した後、リードに品質スコアを割り当てる。場合によっては、いくつかのリードは、その後のマッピング工程を行うのに十分な品質または長さでない。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％の品質スコアを有する配列決定リードは、データセットから除外され得る。他の場合では、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満の品質スコアを割り当てられた配列決定リードが、データセットから除外され得る。工程２０６では、規定の品質スコア閾値を満たすゲノムフラグメントリードを、参照ゲノム、すなわち、コピー数多型を含まないと判明している鋳型配列にマッピングする。マッピングアラインメントの後、配列リードにマッピングスコアを割り当てる。ある場合において、リードは、コピー数多型の解析と無関係の配列であり得る。例えば、いくつかの配列リードは、夾雑物ポリヌクレオチドを起源とし得る。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％のマッピングスコアを有する配列決定リードは、データセットから除外され得る。他の場合では、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満のマッピングスコアを割り当てられた配列決定リードが、データセットから除外され得る。

データの選別およびマッピングの後、複数の配列リードは、試験被験体およびコントロール被験体の各々に対して染色体領域のカバー率をもたらす。工程２０８では、これらの染色体領域は、可変の長さのウィンドウまたはビンに分割され得る。ウィンドウまたはビンは、少なくとも５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂまたは１０００ｋｂであり得る。ウィンドウまたはビンは、５ｋｂ、１０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、５０ｋｂ、６０ｋｂ、７５ｋｂ、１００ｋｂ、１５０ｋｂ、２００ｋｂ、５００ｋｂまたは１０００ｋｂ未満でもあり得る。

工程２１０におけるカバー率の正規化に向けて、試験被験体およびコントロール被験体の各々に対してほぼ同じ数のマッピング可能な塩基を含むように、各ウィンドウまたはビンを選択する。場合によっては、ある染色体領域内の各ウィンドウまたはビンは、正確な数のマッピング可能な塩基を含み得る。他の場合では、各ウィンドウまたはビンは、異なる数のマッピング可能な塩基を含み得る。さらに、各ウィンドウまたはビンは、隣接するウィンドウまたはビンと重複しない可能性がある。他の場合では、ウィンドウまたはビンは、別の隣接するウィンドウまたはビンと重複し得る。場合によっては、ウィンドウまたはビンは、少なくとも１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐまたは１０００ｂｐ重複し得る。他の場合では、ウィンドウまたはビンは、１ｂｐ、２ｂｐ、３ｂｐ、４ｂｐ、５ｂｐ、１０ｂｐ、２０ｂｐ、２５ｂｐ、５０ｂｐ、１００ｂｐ、２００ｂｐ、２５０ｂｐ、５００ｂｐまたは１０００ｂｐ未満だけ重複し得る。

場合によっては、ウィンドウ領域の各々は、試験被験体およびコントロール被験体の各々に対してほぼ同じ数のユニークにマッピング可能な塩基を含むような大きさにされ得る。ウィンドウ領域を構成する各塩基のマッピング可能性が決定され、それを用いることにより、各ファイルに対する参照にマッピングし戻される参照からのリードの表示を含むマッピング可能性ファイルが生成される。そのマッピング可能性ファイルは、各位置ごとに１列を含み、それにより、各位置がユニークにマッピング可能であるかまたはそうでないかが示唆される。

さらに、配列決定し難いかまたは実質的に高いＧＣバイアスを含むとゲノム全体にわたって知られている予め定義されたウィンドウが、データセットから除外される。例えば、染色体のセントロメア（すなわち、セントロメアＤＮＡ）付近にあると知られる領域は、偽陽性の結果をもたらし得る高度に反復性の配列を含むと知られている。これらの領域は、選別され得る。異常に高い濃度の他の高度に反復性の配列（例えば、マイクロサテライトＤＮＡ）を含む領域などのゲノムの他の領域も、データセットから除外され得る。

解析されるウィンドウの数もまた、変動し得る。場合によっては、少なくとも１０、２０、３０、４０、５０、１００、２００、５００、１０００、２０００、５，０００、１０，０００、２０，０００、５０，０００または１００，０００個のウィンドウが、解析される。他の場合では、１０、２０、３０、４０、５０、１００、２００、５００、１０００、２０００、５，０００、１０，０００、２０，０００、５０，０００または１００，０００個未満のウィンドウが、解析される。

無細胞ポリヌクレオチド配列に由来する例示的なゲノムの場合、次の工程は、試験被験体およびコントロール被験体の各々に対する各ウィンドウ領域に対するリードカバー率を決定する工程を含む。これは、バーコードを有するまたはバーコードを有しないリードを用いて行われ得る。バーコードを有しない場合、先の（ｐｅｒｖｉｏｕｓ）マッピング工程は、種々の塩基位置のカバー率を提供し得る。十分なマッピングスコアおよび品質スコアを有し、選別されない染色体ウィンドウに含まれる配列リードが、カウントされ得る。カバー率リードの数は、マッピング可能な各位置あたりのスコアを割り当てられ得る。バーコードを含む場合、同じバーコードを有するすべての配列が、サンプル親分子に由来するので、それらのすべてが、１つのリードに折りたたまれ得る。この工程は、増幅を含む工程などの前述の工程のいずれかにおいて導入されている可能性があるバイアスを減少させる。ユニークなバーコードを有するリードだけが、マッピング可能な各位置に対してカウントされ得、割り当てられたスコアに影響し得る。このため、バイアスの量を最も少なくするために最適化された様式でバーコードライゲーション工程を行うことが重要である。

各ウィンドウに対する核酸リードカバー率を決定する際、各ウィンドウのカバー率は、そのサンプルの平均カバー率によって正規化され得る。そのようなアプローチを使用するとき、試験被験体とコントロールの両方を同様の条件下で配列決定することが望ましいことがある。次いで、各ウィンドウに対するリードカバー率は、同様のウィンドウにわたる比として表現され得る。

試験被験体の各ウィンドウに対する核酸リードカバー率比は、試験サンプルの各ウィンドウ領域のリードカバー率をコントロールサンプル（ｃｏｎｔｒｏｌａｍｐｌｅ）の対応するウィンドウ領域のリードカバー率で除算することによって、決定され得る。

配列リードカバー率比が決定された後、確率論的モデリングアルゴリズムを適用することにより、各ウィンドウ領域に対する正規化された比が別個のコピー数の状態に変換される。場合によっては、このアルゴリズムは、隠れマルコフモデルを含み得る。他の場合では、確率論的モデルは、動的計画法、サポートベクターマシン、ベイジアンモデリング、確率的モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング法またはニューラルネットワークを含み得る。

工程２１２では、各ウィンドウ領域の別個のコピー数の状態を利用することにより、染色体領域におけるコピー数多型が同定され得る。場合によっては、同じコピー数を有する隣接するウィンドウ領域のすべてが、１つのセグメントにマージされることにより、コピー数多型の状態の有無が報告され得る。場合によっては、様々なウィンドウが他のセグメントとマージされる前に、それらは選別され得る。

工程２１４では、コピー数多型は、ゲノム内の様々な位置、およびそれぞれの各位置におけるコピー数多型の対応する増加または減少または維持を示すグラフとして報告され得る。さらに、コピー数多型を使用することにより、無細胞ポリヌクレオチドサンプル中に病的な材料がどれだけ存在するかを示唆するパーセンテージスコアが報告され得る。
ＶＩ．稀な変異の検出

稀な変異の検出は、両方のコピー数多型アプローチと類似の特徴を共有する。しかしながら、図３の３００に表されているように、稀な変異の検出は、配列カバー率とゲノムの相対的なマッピング可能性との比較ではなく、配列カバー率とコントロールサンプルまたは参照配列との比較を使用する。このアプローチは、ウィンドウにわたる正規化に役立ち得る。

通常、稀な変異の検出は、工程３０２において精製および単離されたゲノムまたはトランスクリプトームの選択的に富化された領域に対して行われ得る。本明細書中に記載されるとき、遺伝子、癌遺伝子、腫瘍抑制遺伝子、プロモーター、制御配列エレメント、非コード領域、ｍｉＲＮＡ、ｓｎＲＮＡなどを含み得るがこれらに限定されない特定の領域が、無細胞ポリヌクレオチドの全集団から選択的に増幅され得る。これは、本明細書中に記載されるように行われ得る。１つの例において、多重配列決定が、個々のポリヌクレオチド配列に対するバーコードラベル有りまたは無しで使用され得る。他の例では、配列決定は、当該分野で公知の任意の核酸配列決定プラットフォームを使用して行われ得る。工程３０４におけるように、この工程により、複数のゲノムフラグメント配列リードが生成される。さらに、参照配列を、別の被験体から採取されたコントロールサンプルから得る。場合によっては、コントロール被験体は、公知の遺伝子の異常または疾患を有していないと判明している被験体であり得る。場合によっては、これらの配列リードは、バーコード情報を含み得る。他の例では、バーコードは、使用されない。配列決定した後、リードに品質スコアを割り当てる。品質スコアは、それらのリードが、閾値に基づいて、その後の解析において有用であり得ることを示唆するリードの表示であり得る。場合によっては、いくつかのリードは、その後のマッピング工程を行うのに十分な品質または長さでない。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％の品質スコアを有する配列決定リードは、データセットから除外され得る。他の場合では、少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％のスコアが付けられた品質スコアを割り当てられた配列決定リードが、データセットから除外され得る。工程３０６では、規定の品質スコア閾値を満たすゲノムフラグメントリードを、参照ゲノム、すなわち、稀な変異を含まないと判明している参照配列にマッピングする。マッピングアラインメントの後、配列リードにマッピングスコアを割り当てる。マッピングスコアは、各位置がユニークにマッピング可能であるかまたはそうでないかを示唆する参照配列にマッピングし戻される表示またはリードであり得る。ある場合において、リードは、稀な変異の解析と無関係の配列であり得る。例えば、いくつかの配列リードは、夾雑物ポリヌクレオチドを起源とし得る。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％のマッピングスコアを有する配列決定リードは、データセットから除外され得る。他の場合では、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満のマッピングスコアを割り当てられた配列決定リードが、データセットから除外され得る。

マッピング可能な各塩基に対して、マッピング可能性に対する最小閾値を満たさない塩基、すなわち低品質塩基は、参照配列に見られるような対応する塩基によって置き換えられ得る。

データの選別およびマッピングの後、被験体から得られた配列リードと参照配列との間に見られるバリアント塩基が、解析される。

無細胞ポリヌクレオチド配列に由来する例示的なゲノムの場合、次の工程は、マッピング可能な各塩基位置に対するリードカバー率を決定する工程を含む。これは、バーコードを有するリードまたはバーコードを有しないリードを使用して行われ得る。バーコードを有しない場合、先のマッピング工程は、異なる塩基位置のカバー率を提供し得る。十分なマッピングスコアおよび品質スコアを有する配列リードが、カウントされ得る。カバー率リードの数は、マッピング可能な各位置ごとにスコアを割り当てられ得る。バーコードを含む場合、同じバーコードを有するすべての配列が、サンプル親分子に由来するので、それらのすべてが、１つのコンセンサスリードに折りたたまれ得る。各塩基に対する配列が、その特定の部位に対して最も支配的なヌクレオチドリードとアラインメントされる。また、ユニークな分子の数を各位置においてカウントすることにより、各位置において同時の定量を得ることができる。この工程は、増幅を伴う工程などの前述の工程のいずれかの間に導入されている可能性があるバイアスを減少させる。ユニークなバーコードを有するリードだけが、マッピング可能な各位置に対してカウントされ得、割り当てられたスコアに影響し得る。

いったん、リードカバー率が確かめられ得、各リードにおけるコントロール配列に対するバリアント塩基が同定されたら、リードの総数で除算された、バリアントを含むリードの数として、バリアント塩基の頻度が計算され得る。これは、ゲノム内のマッピング可能な各位置に対する比として表現され得る。

各塩基位置に対して、４種のヌクレオチド、シトシン、グアニン、チミン、アデニンのすべての頻度が、参照配列と比較して解析される。確率論的または統計的モデリングアルゴリズムを適用することにより、各マッピング可能な位置に対する正規化された比が変換されて、各塩基バリアントに対する頻度の状態が反映される。場合によっては、このアルゴリズムは、以下のうちの１つ以上を含み得る：隠れマルコフモデル、動的計画法、サポートベクターマシン、ベイジアンモデリングもしくは確率モデリング、トレリス復号、ビタビ復号、期待値最大化、カルマンフィルタリング法およびニューラルネットワーク。

工程３１２では、各塩基位置の別個の稀な変異の状態を利用することにより、参照配列のベースラインと比べて分散の頻度が高い塩基バリアントを同定することができる。場合によっては、ベースラインは、少なくとも０．０００１％、０．００１％、０．０１％、０．１％、１．０％、２．０％、３．０％、４．０％、５．０％、１０％または２５％の頻度であり得る。他の場合、ベースラインは、少なくとも０．０００１％、０．００１％、０．０１％、０．１％、１．０％、２．０％、３．０％、４．０％、５．０％、１０％または２５％の頻度であり得る。場合によっては、塩基バリアントまたは変異を有する隣接する塩基位置のすべてが、１つのセグメントにマージされることにより、稀な変異の有無が報告され得る。場合によっては、様々な位置が、他のセグメントとマージされる前に選別され得る。

各塩基位置に対する分散の頻度を計算した後、被験体に由来する配列中の特定の位置に対して、参照配列と比べて最も大きい偏差を有するバリアントを稀な変異と同定する。場合によっては、稀な変異は、がん変異であり得る。他の場合では、稀な変異は、疾患状態と相関し得る。

稀な変異またはバリアントは、一塩基置換もしくは小インデル、トランスバージョン、転座、逆位、欠失、切断または遺伝子切断を含むがこれらに限定されない遺伝子の異常を含み得る。場合によっては、稀な変異は、多くとも１、２、３、４、５、６、７、８、９、１０、１５または２０ヌクレオチド長であり得る。他の場合、稀な変異は、少なくとも１、２、３、４、５、６、７、８、９、１０、１５または２０ヌクレオチド長であり得る。

工程３１４において、変異の有無は、ゲノム内の様々な位置、およびそれぞれの各位置における変異の頻度の対応する増加または減少または維持を示す、グラフの形態で反映され得る。さらに、稀な変異を使用することにより、無細胞ポリヌクレオチドサンプル中に病的な材料がどれだけ存在するかを指摘するパーセンテージスコアが報告され得る。非疾患参照配列中の報告された位置における代表的な分散の公知の統計量を考慮すると、信頼スコアは、検出される各変異を伴い得る。変異はまた、被験体内の存在量順にランク付けされ得るか、または臨床的に実用的な重要度によってランク付けされ得る。

図１１は、集団ポリヌクレオチド中の特定の遺伝子座における塩基または塩基の配列の頻度を推論する方法を示している。配列リードを、元のタグ化されたポリヌクレオチドから生成されたファミリーにグループ化する（１１１０）。各ファミリーに対して、その遺伝子座における１つ以上の塩基の各々に、信頼スコアを割り当てる。その信頼スコアは、いくつかの公知の統計学的方法のいずれかによって割り当てられ得、ある塩基がそのファミリーに属する配列リードの中に現れる頻度に少なくとも部分的に基づき得る（１１１２）。例えば、信頼スコアは、塩基が配列リードの中に現れる頻度であり得る。別の例として、各ファミリーに対して、単一ファミリーにおける特定の塩基の出現頻度に基づいて最大尤度または最大事後の決定が行われ得るように、隠れマルコフモデルが構築され得る。このモデルの一部として、特定の決定に対するエラーの確率および得られた信頼スコアが、同様にアウトプットされ得る。次いで、元の集団における塩基の頻度が、ファミリー間の信頼スコアに基づいて割り当てられ得る（１１１４）。
ＶＩＩ．応用法
Ａ．がんの早期検出

数多くのがんが、本明細書中に記載される方法およびシステムを使用して検出され得る。がん細胞は、ほとんどの細胞と同様に、古い細胞が死滅して新しい細胞に置き換わるターンオーバーの速度によって特徴付けられ得る。通常、所与の被験体において脈管構造と接触している死細胞は、ＤＮＡまたはＤＮＡのフラグメントを血流中に放出し得る。これは、その疾患の様々なステージのがん細胞にも当てはまる。がん細胞は、その疾患のステージに依存して、コピー数多型ならびに稀な変異などの様々な遺伝子の異常によっても特徴付けられ得る。この現象は、本明細書中に記載される方法およびシステムを使用して、がん個体の有無を検出するために使用され得る。

例えば、がんのリスクがある被験体由来の血液が、本明細書中に記載されるように採取され、調製されることにより、無細胞ポリヌクレオチドの集団が生成され得る。１つの例において、これは、無細胞ＤＮＡであり得る。本開示のシステムおよび方法は、存在するある特定のがんに存在し得る稀な変異またはコピー数多型を検出するために使用され得る。本方法は、疾患の徴候または他の特徴が存在しないにもかかわらず、体内のがん性細胞の存在の検出を助け得る。

検出され得るがんのタイプおよび数としては、血液のがん、脳腫瘍、肺がん、皮膚がん、鼻のがん、咽喉がん、肝臓がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍、不均一な腫瘍、均一な（ｈｏｍｏｇｅｎｏｕｓ）腫瘍などが挙げられ得るがこれらに限定されない。

がんの早期の検出において、稀な変異の検出またはコピー数多型の検出を含む、本明細書中に記載される任意のシステムまたは方法は、がんを検出するために使用され得る。これらのシステムおよび方法は、がんを引き起こし得るかまたはがんに起因し得る任意の数の遺伝子の異常を検出するために使用され得る。これらとしては、変異、稀な変異、インデル、コピー数多型、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、ＤＮＡ損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんが挙げられ得るがこれらに限定されない。

さらに、本明細書中に記載されるシステムおよび方法は、ある特定のがんを特徴付けるのを助けるためにも使用され得る。本開示のシステムおよび方法から生成される遺伝子データは、専門家が、特定の形態のがんをよりうまく特徴付けるのを助けることを可能にし得る。多くの場合、がんは、組成と病期分類の両方において不均一である。遺伝的プロファイルデータは、特定のサブタイプのがんの診断または処置において重要であり得るその特定のサブタイプの特徴付けを可能にし得る。この情報はまた、特定のタイプのがんの予後に関する手掛かりを被験体または専門家に提供し得る。
Ｂ．がんのモニタリングおよび予後診断

本明細書中に提供されるシステムおよび方法は、特定の被験体におけるすでに判明しているがんまたは他の疾患をモニターするために使用され得る。これは、被験体または専門家が、処置の選択肢を疾患の進行に合わせて適合させるのを可能にし得る。この例では、本明細書中に記載されるシステムおよび方法は、特定の被験体の疾患の経過の遺伝的プロファイルを構築するために使用され得る。場合によっては、がんは、進行し、より高悪性度かつ遺伝的に不安定になり得る。他の例では、がんは、良性、不活性、休眠または寛解のままであり得る。本開示のシステムおよび方法は、疾患の進行、寛解または再発の判定において有用であり得る。

また、本明細書中に記載されるシステムおよび方法は、特定の処置の選択肢の有効性の判定において有用であり得る。１つの例において、より多くのがんが死滅し、ＤＮＡを脱落し得るようにその処置が奏功する場合、奏功する処置の選択肢は、被験体の血液中で検出されるコピー数多型または稀な変異の量を実際に増加させ得る。他の例では、これは、生じない場合もある。別の例では、おそらく、ある特定の処置の選択肢は、長い時間にわたって、がんの遺伝的プロファイルと相関し得る。この相関関係は、治療を選択する際に有用であり得る。さらに、がんが、処置後に寛解であるとみとめられる場合、本明細書中に記載されるシステムおよび方法は、残存する疾患または疾患の再発をモニターする際に有用であり得る。

例えば、閾値レベルを起点としてある範囲内の頻度で生じる変異が、被験体、例えば、患者由来のサンプル中のＤＮＡから決定され得る。それらの変異は、例えば、がん関連の変異であり得る。その頻度は、例えば、少なくとも０．１％、少なくとも１％または少なくとも５％〜１００％の範囲であり得る。サンプルは、例えば、無細胞ＤＮＡまたは腫瘍サンプルであり得る。処置の進め方は、例えば、それらの頻度を含む上記頻度の範囲内で生じる変異のいずれかまたはすべてに基づいて指示され得る。サンプルは、その後の任意の時点において被験体から採取され得る。元の範囲内の頻度または異なる範囲内の頻度で生じる変異が、決定され得る。処置の進め方は、その後の測定値に基づいて調整され得る。
Ｃ．他の疾患または疾患状態の早期の検出およびモニタリング

本明細書中に記載される方法およびシステムは、がんだけに関連する稀な変異およびコピー数多型の検出に限定されない可能性がある。様々な他の疾患および感染が、早期の検出およびモニタリングに適し得る他のタイプの状態をもたらし得る。例えば、ある特定の場合において、遺伝的障害または感染症は、被験体内にある特定の遺伝子モザイク現象を引き起こし得る。この遺伝子モザイク現象は、観察され得るコピー数多型および稀な変異を引き起こし得る。別の例では、本開示のシステムおよび方法は、体内の免疫細胞のゲノムをモニターするためにも使用され得る。Ｂ細胞などの免疫細胞は、ある特定の疾患が存在すると、急速にクローン増殖を起こし得る。クローン増殖は、コピー数多型の検出を使用してモニターされ得、ある特定の免疫状態が、モニターされ得る。この例では、コピー数多型の解析は、長い時間にわたって行われることにより、どのようにして特定の疾患が進行し得るのかというプロファイルが生成され得る。

また、本開示のシステムおよび方法は、細菌またはウイルスなどの病原体によって引き起こされ得るような全身感染症自体をモニターするためにも使用され得る。コピー数多型または稀な変異の検出は、どのようにして病原体の集団が感染の経過中に変化しているのかを決定するために使用され得る。これは、ウイルスが、感染の経過中に、生活環の状態を変化させ得るおよび／またはより毒性の高い形態に変異し得る、ＨＩＶ／ＡＩＤｓまたは肝炎の感染症などの慢性感染症において特に重要であり得る。

本開示のシステムおよび方法が使用され得るなおも別の例は、移植被験体のモニタリングである。一般に、移植組織は、移植されると、身体によってある特定の程度の拒絶を起こす。本開示の方法は、免疫細胞が、移植された組織を破壊しようとするときの宿主の身体の拒絶活性を決定するためまたはプロファイルするために使用され得る。これは、移植された組織の状態をモニターする際ならびに拒絶の処置または予防の進め方を変更する際に有用であり得る。

また、本開示の方法は、被験体における異常な状態の不均一性を特徴付けるために使用され得、その方法は、その被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成する工程を含み、その遺伝的プロファイルは、コピー数多型および稀な変異の解析からもたらされた複数のデータを含む。場合によっては、がんを含むがこれに限定されない疾患が、不均一であり得る。疾患の細胞は、同一でない可能性がある。がんの例では、いくつかの腫瘍は、異なるタイプの腫瘍細胞を含むことが知られており、いくつかの細胞は、そのがんの異なるステージである。他の例では、不均一性は、複数個の病巣を含み得る。また、がんの例では、おそらく１つ以上の病巣が原発部位から広がった転移の結果である複数個の腫瘍病巣が存在し得る。

本開示の方法は、不均一な疾患における異なる細胞に由来する遺伝情報の要約であるフィンガープリントまたはデータセットを生成するためまたはプロファイルするために使用され得る。このデータセットは、コピー数多型および稀な変異の解析結果を単独でまたは組み合わせて含み得る。
Ｄ．胎児起源の他の疾患または疾患状態の早期の検出およびモニタリング

さらに、本開示のシステムおよび方法は、胎児起源のがんまたは他の疾患を診断、予後診断、モニターまたは観察するために使用され得る。すなわち、これらの方法は、そのＤＮＡおよび他のポリヌクレオチドが母体の分子と同時に循環している可能性があるまだ生まれていない被験体におけるがんまたは他の疾患を診断、予後診断、モニターまたは観察するために、妊娠中の被験体において使用され得る。
ＶＩＩＩ．用語

本明細書中で使用される用語は、特定の実施形態だけを説明する目的であって、本開示のシステムおよび方法を限定すると意図されていない。本明細書中で使用されるとき、単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が明らかに別のことを示していない限り、複数形も含むと意図されている。また、用語「含む（ｉｎｃｌｕｄｉｎｇ）」、「含む（ｉｎｃｌｕｄｅｓ）」、「有する（ｈａｖｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｗｉｔｈ）」またはそれらの変化形が、詳細な説明および／または請求項で使用される限りにおいて、そのような用語は、用語「含む（ｃｏｍｐｒｉｓｉｎｇ）」と類似の様式で包含的であると意図されている。

本開示のシステムおよび方法のいくつかの態様は、例証のための例示の応用法に照らして上に記載されている。数多くの具体的な詳細、関係性および方法は、システムおよび方法の十分な理解を提供するために示されていることが理解されるべきである。しかしながら、関連する分野の当業者は、システムおよび方法が、その具体的な詳細の１つ以上を用いずにまたは他の方法とともに、実施され得ることを容易に認識するだろう。いくつかの行為は、異なる順序でおよび／または他の行為もしくは事象と同時に行われ得るので、本開示は、行為または事象の例証された順序によって限定されない。また、例証されたすべての行為または事象が、本開示に係る方法を実行するために必要とされるわけではない。

範囲は、「約」１つの特定の値からおよび／または「約」別の特定の値までとして本明細書中で表現され得る。そのような範囲が表現されるとき、別の実施形態は、一方の特定の値からおよび／または他方の特定の値までを含む。同様に、値が、先行詞「約」を使用することによって近似値として表現されるとき、その特定の値が、別の実施形態を形成することが理解されるだろう。それらの各範囲の終点が、他方の終点に関して、かつ他方の終点とは独立して、重要であることがさらに理解されるだろう。本明細書中で使用される用語「約」は、特定の使用法の文脈内で述べられた数値から１５％＋または−である範囲のことを指す。例えば、約１０は、８．５〜１１．５の範囲を含み得る。
コンピュータシステム

本開示の方法は、コンピュータシステムを使用して、またはその助けを借りて、実行され得る。図１５は、本開示の方法を実行するようにプログラムされたまたは別途設定されたコンピュータシステム１５０１を示している。コンピュータシステム１５０１は、サンプル調製、配列決定および／または解析の様々な態様を制御し得る。いくつかの例において、コンピュータシステム１５０１は、サンプル調製、および核酸の配列決定を含むサンプル解析を行うように設定される。

コンピュータシステム１５０１は、シングルコアもしくはマルチコアプロセッサまたは並列処理のための複数のプロセッサであり得る、中央処理装置（ＣＰＵ、本明細書中で「プロセッサ」および「コンピュータプロセッサ」とも）１５０５を備える。コンピュータシステム１５０１は、メモリーまたは記憶域１５１０（例えば、ランダムアクセスメモリー、読み出し専用メモリー、フラッシュメモリー）、電子的記憶装置１５１５（例えば、ハードディスク）、１つ以上の他のシステムと通信するための通信用インターフェース１５２０（例えば、ネットワークアダプター）および周辺機器１５２５（例えば、キャッシュ、他のメモリー、データストレージおよび／または電子ディスプレーアダプター）も備える。メモリー１５１０、記憶装置１５１５、インターフェース１５２０および周辺機器１５２５は、マザーボードなどのコミュニケーションバス（実線）を介してＣＰＵ１５０５と通信している。記憶装置１５１５は、データを格納するためのデータストレージ装置（またはデータリポジトリ）であり得る。コンピュータシステム１５０１は、通信用インターフェース１５２０の助けを借りてコンピュータネットワーク（「ネットワーク」）１５３０に動作可能なように連結され得る。ネットワーク１５３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信しているイントラネットおよび／もしくはエクストラネットであり得る。場合によっては、ネットワーク１５３０は、テレコミュニケーションおよび／またはデータネットワークである。ネットワーク１５３０は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る１つ以上のコンピュータサーバーを備え得る。ネットワーク１５３０は、場合によってはコンピュータシステム１５０１の助けを借りて、コンピュータシステム１５０１に連結されたデバイスがクライアントまたはサーバーとして動作することを可能にし得るピアツーピアネットワークを実行し得る。

ＣＰＵ１５０５は、プログラムまたはソフトウェアに組み入れられ得る一連の機械可読命令を実行し得る。それらの命令は、メモリー１５１０などの記憶域に格納され得る。ＣＰＵ１５０５によって行われる演算の例としては、フェッチ、デコード、実行およびライトバックが挙げられ得る。

記憶装置１５１５は、ファイル（例えば、ドライバー、ライブラリーおよび保存されたプログラム）を格納し得る。記憶装置１５１５は、ユーザーによって生成されたプログラムおよび記録されたセッション、ならびにそれらのプログラムに関連するアウトプットを格納し得る。記憶装置１５１５は、ユーザーデータ、例えば、ユーザーの好みおよびユーザープログラムを格納し得る。コンピュータシステム１５０１は、場合によっては、コンピュータシステム１５０１の外側の１つ以上のさらなるデータストレージ装置（例えば、イントラネットまたはインターネットを通じてコンピュータシステム１５０１と通信しているリモートサーバー上に位置する）を備え得る。

コンピュータシステム１５０１は、ネットワーク１５３０を通じて１つ以上のリモートコンピュータシステムと通信し得る。例えば、コンピュータシステム１５０１は、ユーザー（例えば、オペレーター）のリモートコンピュータシステムと通信し得る。リモートコンピュータシステムの例としては、パーソナルコンピュータ（例えば、携帯型ＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））または携帯情報端末が挙げられる。ユーザーは、ネットワーク１５３０を介してコンピュータシステム１５０１にアクセスし得る。

本明細書中に記載されるような方法は、コンピュータシステム１５０１の電子的記憶場所（例えば、メモリー１５１０または電子的記憶装置１５１５）上に格納された機械（例えば、コンピュータプロセッサ）実行コードによって実行され得る。その機械実行コードまたは機械可読コードは、ソフトウェアの形態で提供され得る。使用中に、そのコードは、プロセッサ１５０５によって実行され得る。場合によっては、そのコードは、記憶装置１５１５から検索されて、プロセッサ１５０５によって、いつでもアクセスできるようにメモリー１５１０上に格納され得る。時として、電子的記憶装置１５１５は、妨げられ得、機械が実行可能な命令が、メモリー１５１０上に格納される。

そのコードは、事前コンパイルされ、そのコードを実行するように適合されたプロセッサを有する機械で使用するために構成され得るか、または実行時間中にコンパイルされ得る。そのコードは、そのコードが、事前コンパイルされたまたは事後コンパイルされた（ａｓ−ｃｏｍｐｉｌｅｄ）様式で実行するのを可能にするように選択され得るプログラミング言語で供給され得る。

コンピュータシステム１５０１などの本明細書中に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化され得る。その技術の様々な態様は、代表的には、あるタイプの機械可読媒体において持ち運ばれるかまたは具体化される、機械（またはプロセッサ）が実行可能なコードおよび／または関連するデータの形態の「製品」または「製造品」と考えられ得る。機械実行可能コードは、電子的記憶装置、そのようなメモリー（例えば、読み出し専用メモリー、ランダムアクセスメモリー、フラッシュメモリー）またはハードディスクに格納され得る。「ストレージ」タイプの媒体には、ソフトウェアプログラミングのために任意の時点において一時的でないストレージを提供し得る、コンピュータ、プロセッサなどの有形メモリーまたはそれらの関連するモジュール（例えば、様々な半導体メモリー、テープドライブ、ディスクドライブなど）のいずれかまたはすべてが含まれ得る。ソフトウェアの全部または一部は、時折、インターネットまたは様々な他のテレコミュニケーションネットワークを介して通信され得る。そのような通信は、例えば、１つのコンピュータまたはプロセッサから別のものへの、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームへの、ソフトウェアのローディングを可能にし得る。したがって、ソフトウェアエレメントを有し得る別のタイプの媒体には、有線ネットワークおよび光学的な陸線ネットワークを介するならびに様々なエアリンク（ａｉｒ−ｌｉｎｋ）による、光波、電波および電磁波（例えば、ローカルデバイス間の物理的インターフェースにわたって使用されるもの）が含まれる。そのような波を運ぶ物理的エレメント（例えば、有線または無線リンク、光リンクなど）もまた、ソフトウェアを有する媒体と見なされ得る。本明細書中で使用されるとき、一時的でない有形の「記憶」媒体に限定されない限り、コンピュータまたは機械「可読媒体」などの用語は、実行用のプロセッサへの命令の提供に関与する任意の媒体のことを指す。

ゆえに、コンピュータが実行可能なコードなどの機械可読媒体は、有形記憶媒体、搬送波媒体または物理的伝送媒体を含むがこれらに限定されない多くの形態をとり得る。不揮発性記憶媒体としては、例えば、光学ディスクまたは磁気ディスク（例えば、図面に示されている、データベースなどを実装するために使用され得るような、任意のコンピュータにおける任意の記憶デバイスなど）が挙げられる。揮発性記憶媒体としては、ダイナミックメモリー（例えば、そのようなコンピュータプラットフォームのメインメモリー）が挙げられる。有形伝送媒体としては、同軸ケーブル；コンピュータシステム内のバスを含むワイヤーを含む、銅線および光ファイバーが挙げられる。搬送波伝送媒体は、電気信号もしくは電磁信号または音波もしくは光波の形態（例えば、高周波（ＲＦ）および赤外（ＩＲ）データ通信中に生成されるもの）をとり得る。ゆえに、コンピュータ可読媒体の通常の形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤもしくはＤＶＤ−ＲＯＭ、他の任意の光学媒体、パンチカード紙テープ、穴のパターンを有する他の任意の物理的記録媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、他の任意のメモリーチップもしくはカートリッジ、データまたは命令を運ぶ搬送波、そのような搬送波を運ぶケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み出し得る他の任意の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、１つ以上の命令の１つ以上の連続を実行用のプロセッサに運ぶ際に必要とされ得る。

コンピュータシステム１５０１は、例えば、サンプル解析の１つ以上の結果を提供するためのユーザーインターフェース（ＵＩ）を備える電子ディスプレーを備え得るかまたは電子ディスプレーと通信し得る。ＵＩの例としては、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブベースユーザーインターフェースが挙げられるがこれらに限定されない。

実施例１−前立腺がんの予後診断および処置
血液サンプルを前立腺がんの被験体から採取する。予め、腫瘍学者は、その被験体がステージＩＩの前立腺がんを有することを明らかにしており、処置を推奨している。最初の診断後の６ヶ月毎に、無細胞ＤＮＡを抽出し、単離し、配列決定し、解析する。

ＱｉａｇｅｎＱｕｂｉｔキットプロトコルを使用して、血液から無細胞ＤＮＡを抽出し、単離する。収量を上げるために、キャリアＤＮＡを加える。ＰＣＲおよびユニバーサルプライマーを使用して、ＤＮＡを増幅する。ＩｌｌｕｍｉｎａＭｉＳｅｑパーソナル配列分析装置を使用する超並列シーケンシングアプローチを用いて、１０ｎｇのＤＮＡを配列決定する。無細胞ＤＮＡを配列決定することにより、被験体のゲノムの９０％がカバーされる。

配列データをアセンブルし、コピー数多型について解析する。配列リードをマッピングし、健常個体（コントロール）と比較する。配列リードの数に基づいて、染色体領域を５０ｋｂの非重複領域に分ける。配列リードを互いに比較し、マッピング可能な各位置について比を求める。

隠れマルコフモデルを適用して、コピー数を各ウィンドウに対する別個の状態に変換する。

レポートが生成され、マッピングゲノム位置およびコピー数多型が、図４Ａ（健常個体について）に、がんを有する被験体については図４Ｂに示している。

既知の結果を有する被験体の他のプロファイルと比較したこれらのレポートは、この特定のがんが、高悪性度であり、処置に抵抗性であることを示唆する。無細胞腫瘍量は、２１％である。この被験体を１８ヶ月間モニターする。１８ヶ月目に、コピー数多型のプロファイルは、無細胞腫瘍量が２１％から３０％に劇的に増加し始める。他の前立腺がんの被験体の遺伝的プロファイルとの比較を行う。このコピー数多型の増加は、前立腺がんがステージＩＩからステージＩＩＩに進行していることを示唆することが明らかにされている。指示されたような元の処置レジメンは、もはやそのがんを処置していない。新たな処置が指示される。

また、これらのレポートは、インターネットを介して電子的に送信され、アクセスされる。配列データの解析は、被験体の所在地以外の場所で行われる。レポートは、生成されて、被験体の所在地に送信される。インターネット対応のコンピュータを介して、被験体は、自身の腫瘍量を反映しているレポートにアクセスする（図４Ｃ）。
実施例２−前立腺がんの寛解および再発。

血液サンプルを前立腺がん生存者から採取する。その被験体は、以前に、多数回の化学療法および放射線照射を受けている。試験時の被験体は、がんに関する徴候または健康問題を表していなかった。標準的なスキャンおよびアッセイは、その被験体にがんが無いことを明らかにする。

ＱｉａｇｅｎＴｒｕＳｅｑキットプロトコルを使用して、血液から無細胞ＤＮＡを抽出し、単離する。収量を上げるために、キャリアＤＮＡを加える。ＰＣＲおよびユニバーサルプライマーを使用して、ＤＮＡを増幅する。ＩｌｌｕｍｉｎａＭｉＳｅｑパーソナル配列分析装置を使用する超並列シーケンシングアプローチを用いて、１０ｎｇのＤＮＡを配列決定する。ライゲーション法を使用して、個々の分子に１２ｍｅｒのバーコードを付加する。

配列データをアセンブルし、コピー数多型について解析する。配列リードをマッピングし、健常個体（コントロール）と比較する。配列リードの数に基づいて、染色体領域を４０ｋｂの非重複領域に分ける。配列リードを互いに比較し、マッピング可能な各位置について比を求める。

増幅からのバイアスを正規化するのを助けるために、ユニークでないバーコード化された配列を単一のリードに折りたたむ。

レポートが生成され、がんが寛解中の被験体については図５Ａおよびがんが再発中の被験体については図５Ｂに、マッピングゲノム位置およびコピー数多型が示されている。

既知の結果を有する被験体の他のプロファイルと比較したこのレポートは、１８ヶ月目において、コピー数多型に対する稀な変異の解析が、５％の無細胞腫瘍量で検出されることを示唆する。腫瘍学者は、再度、処置を指示する。
実施例３−甲状腺がんおよび処置

被験体は、ステージＩＶの甲状腺がんを有することが判明しており、Ｉ−１３１による放射線治療を含む標準的な処置を受ける。ＣＴスキャンは、その放射線治療ががん性の塊を破壊しているか否かに関して不確かである。最後の放射線照射のセッションの前後に、血液を採取する。

ＱｉａｇｅｎＱｕｂｉｔキットプロトコルを使用して、血液から無細胞ＤＮＡを抽出し、単離する。収量を上げるために、非特異的なバルクＤＮＡのサンプルをサンプル調製反応物に加える。

この甲状腺がんでは、ＢＲＡＦ遺伝子が６００位のアミノ酸において変異され得ることが知られている。その遺伝子に特異的なプライマーを使用して、無細胞ＤＮＡの集団からＢＲＡＦＤＮＡを選択的に増幅する。リードをカウントするためのコントロールとして、２０ｍｅｒのバーコードを親分子に付加する。

ＩｌｌｕｍｉｎａＭｉＳｅｑパーソナル配列分析装置を使用する超並列シーケンシングアプローチを用いて、１０ｎｇのＤＮＡを配列決定する。

配列データをアセンブルし、コピー数多型の検出について解析する。配列リードをマッピングし、健常個体（コントロール）と比較する。バーコード配列をカウントすることによって決定される配列リードの数に基づいて、染色体領域を５０ｋｂの非重複領域に分ける。配列リードを互いに比較し、マッピング可能な各位置について比を求める。

マッピングゲノム位置およびコピー数多型であるレポートが生成される。

処置の前後に生成されたレポートを比較する。腫瘍細胞量のパーセンテージは、放射線照射セッションの後、３０％から６０％に急増する。腫瘍量の急増は、処置の結果として、正常組織に対するがん組織のネクローシスの増加であると判断される。腫瘍学者は、被験体が指示された処置を続けることを推奨する。
実施例４−稀な変異の検出の感度

ＤＮＡの集団内に存在する稀な変異の検出範囲を決定するために、混合実験を行う。ＤＮＡの配列（いくつかは、野生型のコピー数の遺伝子ＴＰ５３、ＨＲＡＳおよびＭＥＴを含み、いくつかは、それらの同じ遺伝子に稀な変異を有するコピーを含む）を異なる比で混合する。変異体ＤＮＡと野生型ＤＮＡとの比またはパーセンテージが、１００％から０．０１％までの範囲になるように、ＤＮＡ混合物を調製する。

ＩｌｌｕｍｉｎａＭｉＳｅｑパーソナル配列分析装置を使用する超並列シーケンシングアプローチを用いて、各混合実験に対して１０ｎｇのＤＮＡを配列決定する。

配列データをアセンブルし、稀な変異の検出について解析する。配列リードをマッピングし、参照配列（コントロール）と比較する。配列リードの数に基づいて、マッピング可能な各位置に対する分散の頻度を求める。

隠れマルコフモデルを適用して、マッピング可能な各位置に対する分散の頻度を塩基位置に対する別個の状態に変換する。

マッピングゲノム塩基位置、および参照配列によって決定されるベースラインより上の稀な変異の検出パーセンテージである、レポートが生成される（図６Ａ）。

０．１％から１００％までの範囲の様々な混合実験の結果は、対数目盛のグラフに示され、稀な変異を有するＤＮＡの計測されたパーセンテージは、稀な変異を有するＤＮＡの実際のパーセンテージの関数としてグラフ化される（図６Ｂ）。３つの遺伝子、ＴＰ５３、ＨＲＡＳおよびＭＥＴが表されている。計測された稀な変異集団と予想される稀な変異集団との間に、強い線形相関が見られる。さらに、変異していないＤＮＡの集団中の稀な変異を有する約０．１％のＤＮＡのより低い感度閾値は、これらの実験を用いて見出される（図６Ｂ）。
実施例５−前立腺がん被験体における稀な変異の検出

被験体は、初期の前立腺がんを有すると考えられる。他の臨床検査は、不確かな結果を提供する。その被験体から血液を採取し、無細胞ＤＮＡを抽出し、単離し、調製し、配列決定する。

様々な癌遺伝子および腫瘍抑制遺伝子のパネルを、遺伝子特異的プライマーを使用するＴａｑＭａｎ（著作権）ＰＣＲキット（Ｉｎｖｉｔｒｏｇｅｎ）を使用する選択的増幅のために選択する。増幅されるＤＮＡ領域は、ＰＩＫ３ＣＡおよびＴＰ５３遺伝子を含むＤＮＡを含む。

配列データをアセンブルし、稀な変異の検出について解析する。配列リードをマッピングし、参照配列（コントロール）と比較する。配列リードの数に基づいて、マッピング可能な各位置に対する分散の頻度を求めた。

隠れマルコフモデルを適用して、マッピング可能な各位置に対する分散の頻度を各塩基位置に対する別個の状態に変換する。

マッピングゲノム塩基位置、および参照配列によって決定されるベースラインより上の稀な変異の検出パーセンテージである、レポートが生成される（図７Ａ）。稀な変異は、２つの遺伝子、それぞれＰＩＫ３ＣＡおよびＴＰ５３において５％の出現率で見られ、その被験体が初期のがんを有することを示唆する。処置を開始する。

また、これらのレポートは、インターネットを介して電子的に送信され、アクセスされる。配列データの解析は、被験体の所在地以外の場所で行われる。レポートは、生成されて、被験体の所在地に送信される。インターネット対応のコンピュータを介して、被験体は、自身の腫瘍量を反映しているレポートにアクセスする（図７Ｂ）。
実施例６−直腸結腸がんの被験体における稀な変異の検出

被験体は、中期の直腸結腸がんを有すると考えられる。他の臨床検査は、不確かな結果を提供する。その被験体から血液を採取し、無細胞ＤＮＡを抽出する。

単一のチューブの血漿から抽出された１０ｎｇの無細胞遺伝物質を使用する。最初の遺伝物質を、タグ化された親ポリヌクレオチドのセットに変換する。このタグ化には、配列決定のために必要なタグ、ならびに子孫分子の親核酸をさかのぼるためのユニークでない識別子を付着することが含まれた。この変換は、上に記載したような最適化されたライゲーション反応によって行われ、ライゲーション後の分子のサイズプロファイルを調べることによって、変換収率が確かめられる。変換収率は、両端にタグがライゲートされた開始の最初の分子のパーセンテージとして計測される。このアプローチを用いる変換は、高効率で、例えば、少なくとも５０％で行われる。

タグ化されたライブラリーをＰＣＲ増幅し、直腸結腸がんに最も関連する遺伝子（例えば、ＫＲＡＳ、ＡＰＣ、ＴＰ５３など）について富化し、得られたＤＮＡを、ＩｌｌｕｍｉｎａＭｉＳｅｑパーソナル配列分析装置を使用する超並列シーケンシングアプローチを用いて配列決定する。

配列データをアセンブルし、稀な変異の検出について解析する。配列リードを、親分子に属するファミリーグループに折りたたみ（ならびに折りたたむ際にエラーを訂正し）、参照配列（コントロール）を用いてマッピングする。配列リードの数に基づいて、マッピング可能な各位置について、稀な変異（置換、挿入、欠失など）およびコピー数多型およびヘテロ接合性（適切なとき）の頻度を求める。

マッピングゲノム塩基位置、および参照配列によって決定されるベースラインより上の稀な変異の検出パーセンテージである、レポートが生成される。稀な変異は、２つの遺伝子、それぞれＫＲＡＳおよびＦＢＸＷ７において０．３〜０．４％の出現率で見られ、その被験体にがんが残存していることを示唆する。処置を開始する。

さらに、これらのレポートは、インターネットを介して電子的に送信され、アクセスされる。配列データの解析は、被験体の所在地以外の場所で行われる。レポートは、生成されて、被験体の所在地に送信される。インターネット対応のコンピュータを介して、被験体は、自身の腫瘍量を反映しているレポートにアクセスする。

実施例７−デジタル配列決定技術

腫瘍から脱落した核酸の濃度は、代表的には、現在の次世代シーケンシング技術が、そのような信号を散発的にしかまたは末期的に高腫瘍量を有する患者においてしか検出できない程度に低い。主な理由は、そのような技術が、循環ＤＮＡにおけるがんに関連する新規の遺伝子変化を確実に検出するのに必要なオーダーより高いオーダーであり得るエラー率およびバイアスに悩まされていることである。新しい配列決定技術であるデジタル配列決定技術（ＤＳＴ）がここに示され、それは、生殖細胞系列フラグメントの間の腫瘍由来の稀な核酸を検出および定量する感度および特異性を少なくとも１〜２桁高める。

ＤＳＴの構造は、現代の通信路によって引き起こされる高いノイズおよび歪みの抑制に努める最新式のデジタル通信システムによって着想され、デジタル情報を非常に高いデータ速度で完全に伝送することができる。同様に、現在の次世代ワークフローは、極めて高いノイズおよび歪み（サンプル調製、ＰＣＲベースの増幅および配列決定に起因する）に悩まされる。デジタル配列決定は、これらのプロセスによってもたらされるエラーおよび歪みを排除することができ、稀なバリアントのすべて（ＣＮＶを含む）の完璧に近い表示をもたらすことができる。

高多様性ライブラリーの調製

非効率的なライブラリー変換に起因して、抽出された循環ＤＮＡフラグメントの大部分が失われる従来のシーケンシングライブラリー調製プロトコルとは異なって、本発明者らのデジタル配列決定技術のワークフローは、出発分子の大多数の変換および配列決定を可能にする。１０ｍＬチューブ全体の血液中には、体細胞変異した分子はほんの少数しか存在しない可能性があるので、これは、稀なバリアントの検出にとって非常に重要である。開発された効率的な分子生物学変換プロセスは、稀なバリアントの検出に対して最も高い可能性のある感度を可能にする。

包括的な実用的な癌遺伝子パネル

ＤＳＴプラットフォームに基づいて設計されたワークフローは、順応性があり、標的化された領域が、単一のエキソンほど小さいかまたはエクソーム全体（または全ゲノムさえ）ほど大きい可能性があるとき、高度に調整可能である。標準的なパネルは、１５個の実用的ながん関連遺伝子のエキソンの全塩基およびさらなる３６個の腫瘍（ｏｎｃｏ）−／腫瘍（ｔｕｍｏｒ）−抑制遺伝子の「ホット」エキソン（例えば、ＣＯＳＭＩＣにおいて少なくとも１つまたはそれ以上の報告された体細胞変異を含むエキソン）のカバー度からなる。

実施例８：分析的研究

本発明者らの技術の性能を研究するために、分析用サンプルにおいてその感度を評価した。本発明者らは、様々な量のＬＮＣａＰがん細胞株ＤＮＡを正常なｃｆＤＮＡのバックグラウンドに加え、０．１％の感度に至るまで体細胞変異の検出に成功することができた（図１３を参照のこと）。

前臨床試験

マウスでのヒト異種移植片モデルにおける循環ＤＮＡと腫瘍ｇＤＮＡとの一致を調査した。７匹のＣＴＣ陰性マウス（各々が、２つの異なるヒト乳がん腫瘍のうちの１つを有する）では、腫瘍ｇＤＮＡにおいて検出されるすべての体細胞変異は、ＤＳＴを使用して、マウス血中ｃｆＤＮＡにおいても検出されたことから、非侵襲性の腫瘍の遺伝的プロファイリングに対するｃｆＤＮＡの有用性がさらに確証された。

パイロット臨床研究

腫瘍バイオプシー対循環ＤＮＡの体細胞変異の相関関係

種々のがんタイプにわたるヒトサンプルにおいて、パイロット研究を開始した。循環無細胞ＤＮＡに由来する腫瘍変異プロファイルと、マッチする腫瘍バイオプシーサンプルに由来する腫瘍変異プロファイルとの一致性を調査した。１４人の患者にわたる直腸結腸がんとメラノーマがんの両方において腫瘍の体細胞変異プロファイルとｃｆＤＮＡの体細胞変異プロファイルとの間に９３％超の一致が見られた（表１）。

特定の実施態様を例証し、記載してきたが、それらに対して様々な改変を行うことができ、それらの改変が本明細書中で企図されることが、前述から理解されるべきである。本発明は、本明細書内に提供された特定の例に限定されないことも意図されている。上述の明細書に照らして本発明を記載してきたが、本明細書中の好ましい実施形態の説明および例証は、限定の意味で解釈されるように意味されていない。また、本発明のすべての態様が、種々の条件および可変事項に依存する、本明細書中に示される特定の描写、配置または相対的比率に限定されないことが理解されるものとする。本発明の実施形態の形態および詳細の様々な改変が、当業者に明らかになるだろう。ゆえに、本発明は、そのような任意の改変、バリエーションおよび等価物も包含するものとすることが企図される。

Claims

本願図面に記載の発明。