JP2022505050A - プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬 - Google Patents

プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬 Download PDF

Info

Publication number
JP2022505050A
JP2022505050A JP2021520946A JP2021520946A JP2022505050A JP 2022505050 A JP2022505050 A JP 2022505050A JP 2021520946 A JP2021520946 A JP 2021520946A JP 2021520946 A JP2021520946 A JP 2021520946A JP 2022505050 A JP2022505050 A JP 2022505050A
Authority
JP
Japan
Prior art keywords
sequence
sample
dna
samples
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021520946A
Other languages
English (en)
Other versions
JPWO2020081743A5 (ja
Inventor
ソーク,ジェシー・ジェイ
ダナハー,パトリック
バレンタイン,チャールズ・クリントン・ザ・サード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Twinstrand Biosciences Inc
Original Assignee
Twinstrand Biosciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Twinstrand Biosciences Inc filed Critical Twinstrand Biosciences Inc
Publication of JP2022505050A publication Critical patent/JP2022505050A/ja
Publication of JPWO2020081743A5 publication Critical patent/JPWO2020081743A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Abstract

プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および関連試薬が、本明細書に開示される。本技術の実施形態の一部は、多数の試料(例えば、核酸試料、患者試料、組織試料、血液試料など)の効率的な遺伝子型決定および関連する用途のために、デュプレックス配列決定を利用することを対象とする。本技術の様々な態様は、前臨床および臨床の疾患評価の両方において、比較的まれなバリアントが求められている多数の試料をスクリーニングすること、ならびにその他において、多くの用途を有する。

Description

関連出願の相互参照
本出願は、2018年10月16日に出願された米国仮特許出願第62/746,543号に対する優先権およびその利益を主張し、その開示は、その全体が参照により組み込まれる。
次世代DNA配列決定(NGS)は、単一のシーケンサーのランで数兆個のDNA塩基を配列決定することを可能にする。配列決定のヌクレオチドスループットは、過去10年間で大幅に増加しているが、NGSの大容量を利用するために数百または数千個の試料を一緒に多重化するための、費用対効果の高い技術が遅れている。試料あたりの配列決定の必要性が大きないくつかの用途の場合(例えば、全哺乳類ゲノムまたはエクソーム)、適度の多重化容量で十分である。試料あたりの配列決定の必要性が小さい試料の場合(例えば、サイズが数千または数万の塩基対のパネル)、配列決定自体によってではなく、かかる多数の試料を調製し、各々を固有のインデックス配列で個別に標識し、次いで多重化配列決定のためにプールするコストおよび労力によって、シーケンサーランを満たすコストが高くなる。例えば、比較的小さい標的遺伝子パネル内の希少な遺伝性バリアントの集団配列決定を伴う用途では、数百または数千の並列ライブラリ調製物は、負担であり、高額であり、しばしば律速となる。
本発明の技術は、概して、プーリングを介して複数の試料を効率的に遺伝子型決定するための方法および関連試薬に関する。特に、本技術の一部の実施形態は、多数の試料(例えば、核酸試料、患者試料、組織試料、血液試料、血漿試料、血清試料、スワブ試料、スクレイプ試料、細胞培養試料、微生物試料など)の効率的な遺伝子型決定および関連する用途のために、デュプレックス配列決定を利用することを対象とする。例えば、本技術の様々な実施形態は、プールされた核酸試料(例えば、患者DNA試料)に対してデュプレックス配列決定方法を行い、効率的(例えば、費用効率的、時間効率的)な様式で、かつ高い精度および感度で、ゲノムの全てまたは標的部分を同時に配列決定することを含む。かかる実施形態は、適度のまたは多数の元のプールされた試料のプールからのバリアントアレル(variant allele)(すなわち、SNV、MNV、SNP、MNP、INDEL、変異、構造バリアント、コピー数バリアント、逆位、再編成などの遺伝的バリアント)のスクリーニング、ならびにバリアントアレルを有する個々の試料の特定を可能にする。この技術の様々な態様は、前臨床および臨床の疾患評価の両方、比較的まれなバリアントが求められている大量の試料数のスクリーニング、ならびにその他において、多くの用途を有する。
一部の実施形態では、本開示は、プールを介して複数の生体試料を遺伝子型決定するための方法を提供し、複数の生体試料または生体試料の核酸誘導体を、固有の組み合わせのサブプールにプールするステップであって、各生体試料が標的二本鎖DNA分子を含む、プールするステップと、サブプール内の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成するステップと、を含む。特定の実施形態では、エラー修正配列リードを生成することは、アダプタ分子を複数の標的二本鎖DNA分子にライゲーションして、複数のアダプタ-DNA分子を生成するステップと、複数のアダプタ-DNA分子の各々について、アダプタ-DNA分子の元の第1の鎖のコピーのセットおよびアダプタ-DNA分子の元の第2の鎖のコピーのセットを生成するステップと、元の第1の鎖の配列および元の第2の鎖の配列の1つ以上のコピーを配列決定して、第1の鎖の配列および第2の鎖の配列を提供するステップと、第1の鎖の配列と第2の鎖の配列とを比較して、第1の鎖の配列と第2の鎖の配列との間の1つ以上の対応関係を特定するステップと、を含む。一実施形態では、方法は、エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の混合物中に存在する核酸のドナー源を特定することをさらに含む。例えば、本方法は、エラー修正配列リードからの1つ以上のバリアントアレルの存在を特定することと、バリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、バリアントアレルを含有する元の生体試料を決定することと、を含むことができる。
別の実施形態では、本技術は、遺伝的バリアントについて生物源をスクリーニングするための方法を提供し、生物源に由来する複数の生体試料を、固有の組み合わせのサブプールにアリコートすることを含み、各生体試料は、標的二本鎖DNA分子を含み、各生体試料は、2つ以上のサブプールにアリコートされる。本方法は、サブプール中の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することと、エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することと、バリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、バリアントアレルを含有する生物源を決定することと、をさらに含む。
一実施形態では、サブプール内の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することが、配列決定の前に、1つ以上の標的ゲノム領域を選択的に富化することをさらに含むことができる。一部の実施形態では、1つ以上の標的ゲノム領域は、疾患原因変異を保有することが知られている遺伝子を含む。一実施形態では、疾患原因変異は、機能喪失変異、機能獲得変異、または優性阻害変異であるか、またはこれらを含む。別の実施形態では、1つ以上の標的ゲノム領域は、疾患または障害に関連することが知られている遺伝子座を含む。一実施形態では、疾患または障害は、希少な遺伝性障害である。一実施形態では、疾患または障害は、単一遺伝子障害である。別の実施形態では、疾患または障害は、2つ以上の遺伝子における変異を伴う複合障害である。一実施形態では、疾患または障害は、常染色体劣性変異に関連する。別の実施形態では、疾患または障害は、常染色体優性変異と関連する。
一部の実施形態では、1つ以上の標的ゲノム領域は、癌ドライバー、癌原遺伝子、腫瘍抑制遺伝子、および/または癌遺伝子を含む。例として、癌ドライバーは、ABL、ACC、BCR、BLCA、BRCA、CESC、CHOL、COAD、DLBC、DNMT3A、EGFR、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PI3K、PIK3CA、PRAD、PTEN、RAS、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、TP53、UCEC、UCS、および/またはUVMを含む。別の実施形態では、1つ以上の標的ゲノム領域は、希少な自己免疫性、代謝性または神経性の遺伝性障害または疾患に関連する遺伝子を含む。
一部の実施形態では、希少な遺伝性障害または疾患は、フェニルケトン尿症(PKU)、嚢胞性線維症、鎌状赤血球貧血、白皮症、ハンチントン病、筋強直性ジストロフィー1型、高コレステロール血症、神経線維腫症、多発性嚢胞腎疾患1および2、血友病A、筋ジストロフィー(デュシェンヌ型)、低リン血症性くる病、レット症候群、テイ・サックス病、ウィルソン病、および/または精子形成不全であるか、またはそれらを含む。
別の実施形態では、1つ以上の標的ゲノム領域は、肥満の希少な遺伝性障害に関連する遺伝子座を含む。一部の実施形態では、肥満の希少な遺伝性障害は、プロオピオメラノコルチン(POMC)欠乏性肥満、アルストレム症候群、レプチン受容体(LEPR)欠乏性肥満、プラダー・ウィリー症候群(PWS)、バルデー・ビードル症候群(BBS)、および高影響ヘテロ接合性肥満であるか、またはこれらを含む。
一実施形態では、エラー修正配列リードからの1つ以上のバリアントアレルの存在を特定することは、エラー修正配列を、参照ゲノムDNA配列と比較することを含む。一実施形態では、参照ゲノムDNA配列は、ヒト参照ゲノムDNA配列である。
一部の実施形態では、本明細書に開示される方法は、各サブプールの複数の標的二本鎖DNA分子の中の1つ以上のバリアントの頻度を決定することをさらに含むことができる。一実施形態では、方法は、バリアントアレルを含む生体試料の生物源ドナーが、バリアントアレルについてヘテロ接合性であるかまたはホモ接合性であるかを決定することをさらに含むことができる。
一部の実施形態では、標的二本鎖DNA分子は、ヒトから採取された血液から抽出される。別の実施形態では、標的二本鎖DNA分子は、組織試料(例えば、生検試料など)から抽出される。
本技術の特定の態様は、複数の生体試料の遺伝子型を決定するための方法を対象とし、複数の生体試料を複数のサブプールにアリコートするステップであって、各生体試料は標的二本鎖DNA断片を含み、2つの生体試料は同じ組み合わせのサブプールにアリコートされない、アリコートするステップと、生の配列決定データからデュプレックス配列決定データを生成するステップであって、生の配列決定データは、標的二本鎖DNA断片を含む複数のサブプールされた生体試料から生成され、標的二本鎖DNA断片は、1つ以上の遺伝的バリアントを含有する、生成するステップと、1つ以上の遺伝的バリアントを含有する固有の組み合わせのサブプールを特定することによって、サブプールされた生体試料中に存在する1つ以上の遺伝的バリアントのドナー源を特定するステップと、を含む。
一部の実施形態では、本方法は、(例えば、各サブプールについて)(a)アリコートされた生体試料から配列決定ライブラリを調製することであって、配列ライブラリを調製することが、非対称アダプタ分子をサブプール中の複数の標的二本鎖DNA断片にライゲーションして、複数のアダプタ-DNA分子を生成することを含む、配列決定ライブラリを調製することと、(b)アダプタ-DNA分子の第1の鎖および第2の鎖を配列決定して、各アダプタ-DNA分子について第1の鎖の配列リードおよび第2の鎖の配列リードを提供することと、(c)各アダプタ-DNA分子について、第1の鎖の配列リードと第2の鎖の配列リードとを比較して、第1の鎖の配列リードと第2の鎖の配列リードとの間の1つ以上の対応関係を特定して、サブプール中の複数の標的二本鎖のDNA分子の各々についてエラー修正配列リードを提供することと、をさらに含む。
一実施形態では、本方法は、ステップ(b)の配列決定の前に、サブプールからのアダプタ-DNA分子を組み合わせることをさらに含む。一実施形態では、アダプタ分子は、インデックス配列を有する。一実施形態では、各サブプールは、固有のインデックス配列を使用してタグ付けされる。一実施形態では、固有の組み合わせのサブプールを特定することは、各遺伝的バリアントに関連付けられるインデックス配列を特定することを含む。
一部の実施形態では、本方法は、各遺伝的バリアントと関連付けられたインデックス配列を、各生体試料がアリコートされたサブプールの組み合わせと相互参照して、ドナー源を特定することをさらに含む。
一部の実施形態では、サブプールの数は、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、42、45、47、50、52、55、57、60、62、65、67、または70個のサブプールであるか、またはそれを含む。他の実施形態では、サブプールの数は、約15~約40個のサブプール、約30~約50個のサブプール、約35~約55個のサブプール、約40~約60個のサブプール、または60個超のサブプールであるか、またはそれらを含む。
別の実施形態では、本開示は、患者の集団の中から希少なバリアントアレルを有する患者を特定するための方法を提供する。本方法は、(a)集団中の各患者からの生体試料を、固有の組み合わせのサブプールされた試料に分離するステップであって、各生体試料は核酸断片を含む、分離するステップと、(b)インデックスバーコードを各サブプールされた試料中の複数の核酸断片に結合して、複数のインデックス化サブプールされた試料を生成するステップと、(c)インデックス化サブプールされた試料を組み合わせて、バーコード化核酸分子のプールされたセットを提供するステップと、(d)バーコード化核酸分子のプールされたセットを配列決定するステップと、(e)複数のバーコード化核酸分子についてエラー修正配列リードを提供するステップと、(f)インデックスバーコードに基づいて、エラー修正配列リードをサブプールされた試料にグループ化するステップと、(g)各サブプールされた試料中のエラー修正配列リードから希少なバリアントアレルの存在を特定するステップと、(h)希少なバリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、希少なバリアントアレルを含有する患者を特定するステップと、を含む。
一部の実施形態では、本方法は、ステップ(a)~(h)の前に、患者の集団中の希少なバリアントアレルの保因者の存在について、患者の集団からの患者DNAの混合物をスクリーニングすることであって、スクリーニングすることが、集団中の各患者からの生体試料を1つ以上のプールされた試料に混合することであって、プールされた試料の数の各々が、サブプールされた試料の数より少ない、混合することと、1つ以上のプールされた試料からの複数の標的DNA分子を配列決定して、生の配列決定データを生成することと、生の配列決定データからデュプレックス配列決定データを生成することと、デュプレックス配列決定データから1つ以上のプールされた試料中の希少なバリアントアレルの存在を特定することによって、患者の集団が、希少なバリアントアレルの保因者を含むかどうかを決定することと、を含む。一実施形態では、プールされた試料の数は、1である。別の実施形態では、プールされた試料の数は、1を超え、ステップ(a)~(h)は、希少なバリアントアレルの特定された存在を含むプールされた試料中に表される患者の集団の中から希少なバリアントアレルを有する患者を特定することを含む。
一実施形態では、本開示は、希少なバリアントアレルについて患者DNA試料をスクリーニングするための方法を提供し、本方法は、プールされたDNA試料の固有のサブセットに各患者DNA試料をアリコートすることであって、プールされたDNA試料の数が、患者DNA試料の数未満であり、プールされたDNA試料の固有のサブセットが、各特定の患者DNA試料について固有の試料識別子を含む、アリコートすることと、各プールされたDNA試料から1つ以上の標的DNA分子を配列決定することと、標的DNA分子について高精度のコンセンサス配列を生成することと、高精度のコンセンサス配列から希少なバリアントアレルの存在を特定することと、希少なバリアントアレルを含むプールされたDNA試料の固有のサブセットを特定して、希少なバリアントアレルに関連する固有の試料識別子を決定することと、固有の試料識別子によって希少なバリアントアレルを含有する患者DNA試料を特定することと、を含む。一実施形態では、患者DNA試料は、健常な組織、腫瘍、および/または患者由来の血液試料から抽出された二本鎖DNA分子を含む。
本開示の他の態様は、複数の試料を効率的に遺伝子型決定するための、計算システムなどのシステムを対象とする。一実施形態では、システムは、配列決定データおよび遺伝子型データに関連する情報を送信するためのコンピュータネットワークであって、情報が、生の配列決定データ、デュプレックス配列決定データ、サブプールされた試料の混合物情報、個々の試料情報、および遺伝子型情のうちの1つ以上を含む、コンピュータネットワークと、1つ以上のユーザ計算デバイスと関連付けられ、かつコンピュータネットワークと通信するクライアントコンピュータと、複数の遺伝子型プロファイルおよびユーザ結果記録を記憶するためのコンピュータネットワークに接続されたデータベースと、コンピュータネットワークと通信し、かつデュプレックス配列決定データを生成するためにクライアントコンピュータからの生の配列決定データおよび要求を受信し、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化し、個々の鎖からの代表的な配列を互いに比較して、デュプレックス配列決定データを生成するように構成された、デュプレックス配列決定モジュールと、コンピュータネットワークと通信し、かつバリアントアレルを特定し、存在する各バリアントアレルについてサブプールの特定を決定し、各サブプール内のバリアントアレルの相対的存在量を計算し、遺伝子型データを生成するように構成された、遺伝子型モジュールと、を含む。
一実施形態では、遺伝子型プロファイルは、既知の疾患関連変異を含む。別の実施形態では、遺伝子型プロファイルは、1つ以上のゲノム遺伝子座で経験的に導かれた患者遺伝子型を含む。
本開示は、非一時的コンピュータ可読記憶媒体の実施形態をさらに提供する。一実施形態では、非一時的コンピュータ可読記録媒体は、1つ以上のプロセッサによって実行されると、本明細書に記載の方法のうちのいずれか1つの方法を行う命令を含む。一実施形態では、非一時的コンピュータ可読記憶媒体は、バリアントアレルを含むサブプールの組み合わせを元の試料の混合パターンと相関させて、供給源の集団の中からバリアントアレルの元の供給源を特定するための命令をさらに含む。
一実施形態では、本開示は、複数の試料を効率的に遺伝子型決定するために本明細書に記載の方法のうちのいずれか1つを行うためのコンピュータシステムを提供する。一実施形態では、システムは、プロセッサ、メモリ、データベース、およびプロセッサのための命令を含む非一時的コンピュータ可読記憶媒体を有する少なくとも1つのコンピュータを含み、当該プロセッサは、本明細書に記載の方法を含む操作を行うために当該命令を実行するように構成されている。
別の実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、そのコンテンツが、少なくとも1つのコンピュータに、複数のサブプールされた試料混合物中の二本鎖核酸分子についてのデュプレックス配列決定データを提供するための方法を行わせる。一実施形態では、本方法は、ユーザ計算デバイスから生の配列データを受信することと、サブプールされた試料混合物中の複数の核酸分子に由来する複数の生の配列リードを含むサブプール特有のデータセットを作成することと、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化することであって、グループ化することが、共有された単一分子識別子配列に基づく、配列リードをグループ化することと、元の二本鎖の核酸分子からの第1の鎖の配列リードと第2の鎖の配列リードとを比較して、第1の鎖の配列リードと第2の鎖の配列リードとの間の1つ以上の対応関係を特定することと、サブプールされた試料の混合物中の二本鎖核酸分子のデュプレックス配列決定データを提供することと、各サブプールされた試料の混合物中の個々の二本鎖核酸分子内に存在する1つ以上の遺伝的バリアントを特定することと、1つ以上の遺伝的バリアントを含む固有の組み合わせのサブプールされた試料混合物を分離することによって、サブプールされた試料混合物中に存在する1つ以上の遺伝的バリアントの元の生物源を決定することと、を含む。一実施形態では、本方法は、比較された第1の配列リードと第2の配列リードとの間の非相補的なヌクレオチド位置を特定することをさらに含み、本方法は、非相補的な位置において、プロセスエラーを特定し、排除し、または考慮しないことをさらに含む。
一実施形態では、元の生物源を決定するステップは、ルックアップテーブルを使用して、特定の遺伝的バリアントについて固有の組み合わせのサブプールされた試料混合物の各々において、核酸アリコートを有する元の生物源を特定することを含む。
別の実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、そのコンテンツが、少なくとも1つのコンピュータに、サブプールされた核酸混合物中に存在するバリアントアレルを検出し、特定し、定量して、バリアントアレルのドナー生物源を決定するための方法を行わせる。一実施形態では、本方法は、特定のバリアントアレルを含むサブプールされた核酸混合物の組み合わせを特定することと、各サブプールされた核酸混合物内の特定のバリアントアレルの総数を合計することと、ルックアップテーブルを使用して、特定のバリアントアレルを含むサブプールされた核酸混合物の各々において核酸アリコートを有するドナー生物源を特定することと、を含む。一実施形態では、本方法は、ドナー生物源が、各サブプールされた核酸混合物内の特定のバリアントアレルの総数に基づいて、特定のバリアントアレルに対してヘテロ接合性であるかまたはホモ接合性であるかを決定することをさらに含む。
一実施形態では、任意のサブプールされた核酸混合物が、2つ以上のドナー生物源からの特定のバリアントアレルを含む場合、本方法は、単一ヌクレオチド多型(SNP)を有する2つ以上のドナー生物源間を区別することをさらに含み、SNPは、特定のバリアントアレルのバリアント配列にゲノム上近接し、SNPは、バリアント配列と完全な不均衡ではない。別の実施形態では、各サブプールされた核酸混合物内の特定のバリアントアレルの総数は、特定のバリアントアレルのドナー生物源がいくつ存在するのかを知らせることができる。
さらなる実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、そのコンテンツは、少なくとも1つのコンピュータに、患者集団の中からバリアントアレルを有する患者を特定するための方法を行わせる。一実施形態では、本方法は、混合物中の個々のDNA分子内に存在するバリアントアレルを特定することと、特定されたバリアントアレルを含むサブプールの組み合わせを特定することであって、サブプールの組み合わせが複数のサブプールのサブセットである、サブプールの組み合わせを特定することと、どの患者が特定されたバリアントアレルを含むサブプールの組み合わせにDNA分子を寄与したかを決定することによって、バリアントアレルを有する患者の集団の中から患者を特定することと、を含む。一実施形態では、患者を特定するステップは、ルックアップテーブルを使用して、患者DNA試料をサブプールの組み合わせと相関させることを含む。
本開示の多くの態様は、以下の図面を参照することによって、より良く理解することができる。図面の構成要素は、必ずしも縮尺どおりではない。むしろ、本開示の原理を明確に例示することを重視する。
[図1A]本技術の一部の実施形態に使用するための核酸アダプタ分子、および本技術の実施形態に従う二本鎖核酸断片へのアダプタ分子のライゲーションから得られる二本鎖アダプタ核酸複合体を示す。[図1Bおよび1C]本技術の実施形態に従う、様々なデュプレックス配列決定方法のステップの概念図である。 本技術の実施形態に従う、多数の試料の効率的な遺伝子型決定のための方法のフロー図である。 本技術の実施形態に従う、試料プールスキームのためのコストおよび性能のメトリックを示すプロットである。 パネルA~Dは、プーリングのスキーム(パネルA)、プーリングスキームから生成されたルックアップテーブル(パネルB)、サブプールインデックス化スキームから生成されたルックアップテーブル(パネルC)、ならびに本技術の一実施形態に従う、識別された遺伝的バリアントを有する患者を識別するためにルックアップテーブル(パネルBおよびC)と共に使用することができるバリアントアレル(パネルD)を含有するサブプールの識別を示す。 本技術の一実施形態に従う、複数の試料の効率的な遺伝子型決定のために本明細書に開示される方法および/または試薬と共に使用するためのネットワークコンピュータシステムの概略図である。 本技術の一実施形態に従う本技術の一実施形態に従う、デュプレックス配列決定のコンセンサス配列データを提供するためのルーチンを示すフロー図である。 本技術の一実施形態に従う、バリアントアレルの元の寄与源を特定するために、核酸混合物中に存在するバリアントアレルを検出し、特定し、定量するためのルーチンを示すフロー図である。
本発明の技術は、概して、プーリングを介して多数の試料を効率的に遺伝子型決定するための方法および関連試薬に関する。特に、本技術の一部の実施形態は、多数の試料(例えば、核酸試料、患者試料、組織試料、血液試料、血漿試料、血清試料、スワブ試料、スクレイプ試料、細胞培養試料、微生物試料など)の効率的な遺伝子型決定および関連する用途のために、デュプレックス配列決定を利用することを対象とする。例えば、本技術の様々な実施形態は、プールされた核酸試料(例えば、患者DNA試料)に対してデュプレックス配列決定方法を行い、効率的(例えば、費用効率的、時間効率的)な様式で、かつ高い精度および感度で、ゲノムの全てまたは標的部分を同時に配列決定することを含む。本明細書に提示される一部の実施形態は、バリアントアレルを有する個々の試料の特定を特定することができるように、プールされた試料のサブセットの組み合わせを使用して、固有の試料識別子として、バリアントアレルについての生物源(例えば、患者)の遺伝子型決定および/またはスクリーニングを可能にする。本明細書に提示される一部の実施形態は、人工供給源(例えば、合成オリゴヌクレオチド、遺伝子編集試料、作製された細胞集団、作製されたウイルス試料など)の効率的な遺伝子型決定および/またはスクリーニングを可能にする。本技術の様々な態様は、前臨床および臨床の疾患評価の両方において、比較的珍しいバリアントが独立した試料のより大きな集団内で求められている多くの試料数をスクリーニングし、患者に早期介入療法を提供するなど、多くの用途を有する。本技術の様々な態様はまた、生物学的研究、生物学的製造、個々の生物(すなわち、ヒト、動物、植物、真菌)、微生物集団、ウイルス集団、細菌集団、原生動物集団(コロニーなど)のハイスループットスクリーニング、および他の遺伝学の分野における多くの用途を有する。
本技術のいくつかの実施形態の具体的な詳細について、図1A~図7を参照しながら、以下に記載する。実施形態は、例えば、試料をプールする/混合するための方法、および供給源の特定、ならびにかかる方法で使用するための関連試薬を含むことができる。本技術の一部の実施形態は、プールされた試料中のバリアントアレルおよびバリアントアレル頻度(VAF)の存在をスクリーニングするために、デュプレックス配列決定を利用することを対象とする。本技術の他の実施形態は、各試料の個々の標識を必要とすることなく、高いレベルの信頼性で元の供給源の特定を維持することができる一方で、多数の(一般に、10を超える)試料(例えば、核酸試料、患者試料、組織試料、血液試料など)の効率的な遺伝子型決定のために、デュプレックス配列決定を利用することを対象とする。本技術のさらなる実施形態は、バリアントアレルを有する多数のプールされた試料の中から1つ以上の寄与試料を特定することを対象とする(例えば、バリアントアレルを含有する遺伝物質の供給源を特定する)。さらなる実施形態では、本技術は、大きな集団、または一部の実施形態では、特定の患者集団などの集団の中で、希少な疾患関連アレルまたは他の形質関連アレルの保因者を経済的かつ確実に特定するためのデュプレックス配列決定を対象とする。
実施形態の多くは、デュプレックス配列決定に関して本明細書に記載されるが、本明細書に記載されるものに加えて、エラー修正配列決定リードを生成することが可能な他の配列決定モダリティは、本技術の範囲内である。例えば、一本鎖コンセンサス配列決定および/または一本鎖および二重鎖コンセンサス配列決定の組み合わせの多くの実施形態が企図される。かかる技術の非包括的なリストは、Salk et.al.(2018),Enhancing the accuracy of next-generation sequencing for detecting rare and subclonal mutations,Nat Rev Genet,19,269-285 (PMID 29576615)、およびSalk,J.J.and Kennedy,S.R.,2019,Next-Generation Genotoxicology:Using Modern Sequencing Technologies to Assess Somatic Mutagenesis and Cancer Risk,Environ Mol Mutagen.,(PMID 31595553)に記載または引用されており、両者は、参照によりそれらの全体が本明細書に援用される。これに加えて、本技術の他の実施形態は、本明細書に記載されるものとは異なる構成、構成要素または手順を有していてもよい。したがって、当業者は、本技術が、追加の要素を有する他の実施形態を含んでいてもよく、かつ本技術が、図1A~図7を参照しながら以下に示され、記載される特徴の一部を含まない他の実施形態を含んでいてもよいことを、理解するであろう。
I.特定の定義
本開示がより容易に理解されるために、まず、特定の用語を以下に定義する。以下の用語および他の用語についてのさらなる定義は、本明細書全体を通して記載される。
本出願では、文脈から別段明確でない限り、「1つの(a)」という用語は、「少なくとも1つ」を意味すると理解され得る。本出願で使用される場合、「または」という用語は、「および/または」を意味すると理解され得る。本出願では、「~を含む(comprising)」および「~を含む(including)」という用語は、それ自体によって示されるか、あるいは1つ以上のさらなる構成要素またはステップと共に示されるかにかかわらず、項目化された構成要素またはステップを包含すると理解され得る。範囲が本明細書で提示される場合、その両端が含まれる。本出願で使用される場合、「~を含む(comprise)」という用語およびこの用語の変形語、例えば、「~を含む(comprising)」および「~を含む(comprises)」は、他の付加物、構成要素、整数またはステップを除外することを意図しない。
約:「約」という用語は、ある値を参照して本明細書で使用される場合、参照される値の文脈で、類似する値を指す。一般に、その文脈に精通している当業者は、その文脈で、「約」に包含される適切な程度の分散を理解するであろう。例えば、一部の実施形態では、「約」という用語は、参照される値の25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、またはそれ未満内の範囲の値を包含し得る。1桁の整数値の分散について、正方向または負方向のいずれかにおける1個の数値のステップが、その値の25%を超える場合、「約」は、正方向または負方向のいずれかにおいて少なくとも1、2、3、4または5の整数値を含むことが当業者によって一般的に受け入れられており、状況に応じて0を超えても超えなくてもよい。この非限定的な例は、当業者にとって明らかであろう一部の状況において、3セントが約5セントとみなされ得るという仮説である。
アレル本明細書で使用される場合、「アレル」という用語は、特定の遺伝子座の2つ以上の既存の遺伝的バリアントのうちの1つを指す。
類似体:本明細書で使用される場合、「類似体」という用語は、1つ以上の特定の構造特徴、要素、構成要素または部分が参照物質と共通する物質(substance)を指す。典型的には、「類似体」は、参照物質と有意な構造類似性を示すが(例えば、コアまたはコンセンサス構造が共通する)、特定の別個の様式では違いもある。一部の実施形態では、類似体は、参照物質から、例えば、参照物質の化学操作によって、生成可能な物質である。一部の実施形態では、類似体は、参照物質を生成する合成プロセスと実質的に類似した合成プロセス(例えば、複数のステップが共通する)の遂行を通して生成可能な物質である。一部の実施形態では、類似体は、参照物質を生成するために使用されるものとは異なる合成プロセスの遂行を通して生成されるか、または生成され得る。
本明細書で使用される場合、動物界の任意のメンバーを指す。一部の実施形態では、「動物」とは、いずれかの性別の、および発生の任意の段階の、ヒトを指す。一部の実施形態では、「動物」とは、発生の任意の段階の非ヒト動物を指す。特定の実施形態では、非ヒト動物は、哺乳動物(例えば、げっ歯類、マウス、ラット、ウサギ、サル、イヌ、ネコ、ヒツジ、ウシ、霊長類、および/またはブタ)である。一部の実施形態では、動物としては、限定されないが、哺乳類、鳥類、爬虫類、両生類、魚類、昆虫、および/または寄生虫が挙げられる。一部の実施形態では、動物は、トランスジェニック動物、遺伝子操作動物、および/またはクローンであってもよい。
生体試料:本明細書で使用される場合、「生体試料」または「試料」という用語は、典型的には、本明細書に記載されるように、1つ以上の目的の生物源(例えば、組織または生物または細胞培養物)から得られるか、あるいは目的の生物源に由来する試料を指す。一部の実施形態では、目的の供給源は、動物またはヒトなどの生物を含む。他の実施形態では、目的の供給源は、細菌、ウイルス、原生動物または真菌などの微生物を含む。さらなる実施形態では、目的の供給源は、合成組織、生物、細胞培養物、核酸または他の物質であってもよい。さらにさらなる実施形態では、目的の供給源は、植物系生物であってもよい。さらに別の実施形態では、試料は、例えば、水試料、土壌試料、考古学試料、または非生物源から収集された他の試料などの環境試料であってもよい。他の実施形態では、試料は、多生物試料(例えば、混合生物試料)であってもよい。なおさらなる実施形態では、試料は、細胞混合物または組織混合物を含んでいてもよい。他の実施形態では、試料は、マルチキメラ生物または組織、移植組織またはマルチキメラ細胞培養物に由来してもよい。さらなる実施形態では、試料は、胎児DNAを含み得る。さらに他の実施形態では、試料は、犯罪現場または他の法執行の調査(例えば、加害者、被害者、または行方不明者を特定するためなどの法医学的ケースで)から収集され得る。他の実施形態では、試料は、戦争またはテロ調査または歴史的研究(例えば、犠牲者または行方不明者を特定するために)から収集されてもよい。他の実施形態では、試料は、考古学的研究から収集されてもよい。一部の実施形態では、生体試料は、生体組織または生物流体であるか、あるいはそれを含む。一部の実施形態では、生体試料は、単離されたDNAまたは他の核酸であってもよく、あるいは骨髄、血液、血球、幹細胞、腹水、組織試料、生検試料、または穿刺吸引試料、細胞を含有する体液、遊離浮遊核酸、タンパク質に結合した核酸、リボタンパク質に結合した核酸、痰、唾液、尿、脳脊髄液、腹腔液、胸水、糞便、リンパ液、婦人科系体液、皮膚スワブ、膣スワブ、パップスメア、口腔スワブ、鼻スワブ、導管洗浄または気管支肺泡洗浄などの洗液または洗浄液、膣液、吸引物、擦過物、骨髄標本、組織生検標本、胎児組織または体液、外科標本、糞便、他の体液、分泌液、および/または排泄物、ならびに/あるいはこれらからの細胞などを含んでいてもよい。一部の実施形態では、生体試料は、個体から得られた細胞であるか、またはこれらを含む。一部の実施形態では、得られる細胞は、試料が得られる個体由来の細胞であるか、またはこれらを含む。一部の実施形態では、細胞小器官または小胞あるいはエクソソームなどの細胞誘導体。特定の実施形態では、生体試料は、対象から得られる液体生検である。一部の実施形態では、試料は、任意の適切な手段によって目的の供給源から直接得られる「一次試料」である。例えば、一部の実施形態では、一次生体試料は、生検(例えば、穿刺吸引または組織生検)、手術、体液(例えば、血液(または血漿もしくは血清)、リンパ液、糞便など)の採取などからなる群から選択される方法によって得られる。一部の実施形態では、文脈から明らかになるように、「試料」という用語は、一次試料を処理することによって(例えば、その1つ以上の構成要素を除去することによって、かつ/または1つ以上の薬剤をそれに加えることによって)得られる調製物を指す。例えば、半透過性膜を使用して濾過すること。かかる「処理された試料」は、例えば、試料から抽出されるか、あるいは一次試料を、mRNAの増幅もしくは逆転写、特定の構成要素の単離および/または精製などの技術に供することによって得られる、核酸またはタンパク質を含んでいてもよい。
癌疾患:一実施形態では、疾患または障害は、一般的に、転移し得る異常な細胞の調節障害性の増殖を特徴とするものとして、当業者によく知られている「癌疾患」である。本技術の1つ以上の態様を使用して検出可能な癌疾患は、非限定的な例として、中でも、前立腺癌(すなわち、腺癌、小細胞)、卵巣癌(例えば、卵巣腺癌、漿液性癌または胚性癌腫、卵黄嚢腫瘍、奇形腫)、肝臓癌(例えば、HCCまたは肝細胞腫、血管肉腫)、形質細胞腫瘍(例えば、多発性骨髄腫、形質細胞性白血病、形質細胞腫、アミロイドーシス、ワルデンストレーム高ガンマグロブリン血症)、大腸癌(例えば、結腸腺癌、結腸粘液腺癌、カルチノイド、リンパ腫および直腸腺癌、直腸扁平上皮癌)、白血病(例えば、急性骨髄性白血病、急性リンパ性白血病、慢性骨髄性白血病、慢性リンパ性白血病、急性骨髄芽球性白血病、急性前骨髄球性白血病、急性骨髄単球性白血病、急性単球性白血病、急性赤白血病および慢性白血病、T細胞白血病、セザリー症候群、全身性肥満細胞症、有毛細胞白血病、慢性骨髄性白血病の急性転化)、骨髄異形成症候群、リンパ腫(例えば、びまん性大細胞型B細胞リンパ腫、皮膚T細胞リンパ腫、末梢性T細胞リンパ腫、ホジキンリンパ腫、非ホジキンリンパ腫、濾胞性リンパ腫、マントル細胞リンパ腫、MALTリンパ腫、辺縁帯細胞リンパ腫、リヒタートランスフォーメーション、ダブルヒットリンパ腫、移植関連リンパ腫、CNSリンパ腫、節外性リンパ腫、HIV関連リンパ腫、有毛細胞白血病、異型有毛細胞白血病、風土病性リンパ腫、バーキットリンパ腫、移植関連リンパ増殖性腫瘍およびリンパ球性リンパ腫など)、子宮頸癌(扁平上皮子宮頸癌、明細胞癌、HPV関連癌腫、子宮頸部肉腫など)、食道癌(食道扁平上皮細胞癌、腺癌、特定のグレードのバレット食道、食道腺癌)、黒色腫(皮膚黒色腫、ブドウ膜黒色腫、四肢末端部黒色腫、無色素性黒色腫など)、CNS腫瘍(例えば、乏突起膠腫、星状細胞腫、多形神経膠芽腫、髄膜腫、シュワン腫、頭蓋咽頭腫など)、膵臓癌(例えば、腺癌、腺扁平上皮癌、印環細胞癌、肝様癌、コロイド癌腫、島細胞癌、膵神経内分泌癌など)、消化管間質腫瘍、肉腫(例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、血管肉腫、内皮腫肉腫、リンパ管肉腫、リンパ管内皮腫肉腫、平滑筋肉腫、ユーイング肉腫および横紋筋肉腫、紡錘細胞腫瘍など)、乳癌(例えば、炎症性癌、大葉性癌、乳管癌など)、ER陽性癌、HER-2陽性癌、膀胱癌(膀胱扁平上皮癌、膀胱小細胞癌、尿路上皮癌など)、頭頸部癌(例えば、頭頸部扁平上皮癌、HPV関連扁平上皮細胞癌、鼻咽頭癌など)、肺癌(例えば、非小細胞肺癌、大細胞癌、気管支原性肺癌、扁平上皮細胞癌、小細胞肺癌など)、転移性癌、口腔癌、子宮癌(平滑筋肉腫、平滑筋腫など)、精巣癌(例えば、セミノーマ、非セミノーマおよび胚性癌腫、卵黄嚢腫瘍など)、皮膚癌(例えば、扁平上皮細胞癌および基底細胞癌、メルケル細胞癌、黒色腫、T細胞リンパ腫など)、甲状腺癌(例えば、乳頭癌、髄様癌、甲状腺未分化癌など)、胃癌(stomach cancer)、上皮内癌、骨癌、胆道癌、眼癌、喉頭癌、腎臓癌(例えば、腎細胞癌、ウイルムス腫瘍など)、胃癌(gastric cancer)、芽細胞腫(例えば、腎芽細胞腫、髄芽細胞腫、血管芽細胞腫、神経芽細胞腫、網膜芽細胞腫など)、骨髄増殖性腫瘍(真性赤血球増加症、本態性血小板血症、骨髄線維症など)、脊索腫、滑膜腫、中皮腫、腺癌、汗腺癌、脂腺癌、嚢胞腺癌、胆管癌、絨毛癌、上皮癌、上衣腫、松果体腫、聴神経腫、シュワン腫、髄膜腫、下垂体腺腫、神経鞘腫、小腸の癌、褐色細胞腫、小細胞肺癌、腹膜中皮腫、副甲状腺機能亢進性腺腫、副腎癌、原発不明癌、内分泌系の癌、陰茎の癌、尿道の癌、皮膚または眼内の黒色腫、婦人科腫瘍、小児の固形腫瘍、または中枢神経系の腫瘍、原発性縦隔胚細胞腫瘍、未確定の潜在能を有するクローン性造血、くすぶり型多発性骨髄腫、意義不明の単クローン性免疫グロブリン血症、単クローン性B細胞リンパ球増加症、低グレードの癌、クローナルフィールド欠損(clonal field defects)、前癌性腫瘍(preneoplastic neoplasms)、尿管癌、自己免疫関連癌(すなわち、潰瘍性結腸炎、原発性硬化性胆管炎、セリアック病)、遺伝性素因と関連する癌(すなわち、BRCA1、BRCA2、TP53、PTEN、ATMなどでの遺伝子欠陥を有するもの)、および様々な遺伝的症候群、例えば、MEN1、MEN2トリソミー21など)、および子宮内で化学物質に曝露されたときに生じるもの(すなわち、ジエチルスチルベストロール[DES]に曝露した女性の女性子孫における明細胞癌)、を含む。
保因者:本明細書で使用される場合、「保因者(carrier)」は、目的のバリアントアレル(例えば、遺伝的バリアント、変異、多型などを有するアレル)を有する対象を指す。体細胞中の両方のアレル(すなわち、母方由来および父方由来)が遺伝的バリアントを含有する場合、ヒト対象または他の二倍体生物は、ホモ接合性保因者として特定され得るか、または1つのアレルのみが遺伝的バリアントを含む場合(例えば、2つのアレルが同じ配列を有しない場合)、ヘテロ接合性保因者として特定され得る。ヒト対象または他の二倍体生物は、複合ヘテロ接合体として特定することができ、2つのアレルは各々、参照配列のものとは異なり、さらに互いに異なる遺伝的バリアントを有する。一部の実施形態では、特定のバリアントの機能的結果(すなわち、劣性)に応じて、「保因者」という用語は、ヘテロ接合状態のみを指すのにより一般的に使用されてもよく、ホモ接合体は、1つのアレルのみとは対照的に、「罹患している」または「疾患を有する」または「形質を有する」と称される。他の実施形態(優性遺伝性疾患など)では、ヘテロ接合性の対象は、保因者として説明されるのとは対照的に、より一般的には、「罹患している」または「疾患を有する」または「形質を有する」と呼ばれ得る。当業者は、この用語の一般的な使用または受け入れられている科学的または臨床的な使用は、状況によって異なる場合があり、もっぱら上記の定義に限定されないことを認識するであろう。非二倍体生物の場合、異数性、ヘテロ接合性の喪失、および1つのアレルのエピジェネティックサイレンシングまたは活性化(すなわち、X染色体不活性化(lyonization))、ならびに他の固有の生物学的状況は、用語の異なる用法の潜在的な基礎として当業者によって認識されるであろう。
決定:本明細書に記載の多くの方法論は、「決定する」ステップを含む。当業者は、本明細書を読むと、かかる「決定する」ことが、例えば本明細書に明示的に言及される特定の技術を含め、当業者が利用可能な様々な技術のいずれかの使用を通して利用され得るか、または達成され得ることを理解するだろう。一部の実施形態では、決定することは、物理的な試料の操作を伴う。一部の実施形態では、決定することは、例えば、関連する分析を行うように適合されたコンピュータまたは他の処理ユニットを利用した、データまたは情報の検討および/または操作を伴う。一部の実施形態では、決定することは、供給源から関連情報および/または資料を受信することを伴う。一部の実施形態では、決定することは、試料またはエンティティの1つ以上の特徴を、比較可能な参照データベース、または、試験中のゲノムの他の場所の参照試料または参照領域の特徴と比較することを伴う。
デュプレックス配列決定(DS):本明細書で使用される場合、「デュプレックス配列決定(Duplex Sequencing、DS)」は、その最も広い意味で、個々のDNA分子、最も一般的には、二本鎖核酸分子の両方の鎖からの配列を比較することによって卓越した精度を達成する、タグに基づくエラー修正方法を指す。
発現:本明細書で使用される場合、核酸配列の「発現」は、以下の事象のうちの1つ以上を指す:(1)DNA配列からのRNAテンプレートの産生(例えば、転写による)、(2)RNA転写物のプロセシング(例えば、スプライシング、編集、5’キャップ形成および/または3’末端形成による)、(3)RNAのポリペプチドもしくはタンパク質への翻訳、および/または(4)ポリペプチドもしくはタンパク質の翻訳後修飾。
遺伝子:本明細書で使用される場合、「遺伝子」という用語は、産物(例えば、RNA産物および/またはポリペプチド産物)をコードする染色体中のDNA配列を指す。一部の実施形態では、遺伝子は、コード配列(すなわち、特定の生成物をコードする配列)を含み、一部の実施形態では、遺伝子は、非コード配列を含む。一部の特定の実施形態では、遺伝子は、コード配列(例えば、エクソン性)配列および非コード(例えば、イントロン性)配列の両方を含んでもよい。一部の実施形態では、遺伝子は、例えば、遺伝子発現の1つ以上の様相(例えば、細胞型特異的発現、誘導性発現など)を制御し得るか、またはそれに影響を与え得る1つ以上の調節要素を含んでいてもよい。
相同性:本明細書で使用される場合、「相同性(homology)」という用語は、高分子間、例えば、核酸分子(例えば、DNA分子および/またはRNA分子)間、の全体的な関連性を指す。一部の実施形態では、ポリマー分子は、それらの配列が、少なくとも80%、85%、90%、95%、または99%同一である場合、互いに「相同」であると見なされる。当業者に理解されるように、異なる配列においてどの残基が互いに「対応する(correspond)」かを考慮する場合、ある配列の指定された長さのギャップを別の配列に対して許容することを含め、それらの相同性の程度を決定するために配列の比較を可能にする様々なアルゴリズムが利用可能である。2つの核酸配列間の相同性パーセントの計算は、例えば、最適な比較目的のために2つの配列を整列させることによって行うことができる(例えば、最適な整列のために第1の核酸配列および第2の核酸配列の一方または両方にギャップを導入することができ、比較目的のために非対応配列を無視することができる)。特定の実施形態では、比較目的のために整列された配列の長さは、参照配列の長さの少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、または実質的に100%である。次いで、対応するヌクレオチド位置で、ヌクレオチドを比較する。第1の配列における位置が、第2の配列における対応する位置と同じヌクレオチドによって占有される場合、分子は、その位置において同一であり、第1の配列における位置が、第2の配列における対応する位置と類似のヌクレオチドによって占有される場合、分子は、その位置において類似する。2つの配列間の相同性パーセントは、ギャップの数、および2つの配列の最適な整列のために導入する必要がある各ギャップの長さを考慮して、配列によって共有される同一および類似の位置の数の関数である。2つのヌクレオチド配列間の相同性パーセントを決定するのに有用なアルゴリズムおよびコンピュータプログラムは、当該技術分野で周知である。一部の実施形態では、「相同性」は、2つの異なるコード配列間で産生されるポリペプチドの関連性の程度、または2つ以上の核酸配列によってコードされるタンパク質もしくはリボザイムもしくはアプタマーの構造的な関連性の程度を指してもよく、当業者によって理解されるであろう。
変異:本明細書で使用される場合、「変異(mutation)」という用語は、核酸の配列または構造の変化を指す。ポリヌクレオチド配列に対する変異は、複雑な複数ヌクレオチド変化の中でも、試料中の点変異(例えば、単一塩基変異、SNP、SNV)、複数ヌクレオチドの変異(MNP、MNV)、ヌクレオチドの欠失、配列再編成、ヌクレオチドの挿入およびDNA配列の重複、逆位を含み得る。変異は、相補的な塩基の変化(すなわち、真の変異)として、または一方の鎖にはあるが、他方の鎖にはない変異(すなわち、ヘテロ二重鎖)として、二重鎖(duplex)DNA分子の両方の鎖上で起きてもよく、修復されるか、破壊されるか、または誤って修復されるか/真の二本鎖変異へと変換されるかのいずれかの可能性を有する。変異は、同じまたは関連する供給源および/または個体もしくは別の個体または試料からの対照試料と比較した変化を表し得る。変異は、参照配列に対する変化を表し得る。
非癌性疾患:別の実施形態では、疾患または障害は、ゲノムの変異または損傷によって引き起こされる、またはそれが寄与する非癌性疾患である。非限定的な例として、本技術の1つ以上の態様を使用して検出可能なかかる非癌型の疾患または障害には、多くの他の多因子遺伝性障害(例えば、環境要因によってより容易に誘発される傾向)の中で、特定の形態の遺伝性代謝障害、嚢胞性線維症、ヘモグロビン異常症、筋ジストロフィー、地中海貧血症、ポルフィリン症、肥大型心筋症、ならびに糖尿病、自己免疫疾患または障害、不妊症、神経変性、心血管疾患、アルツハイマー病/認知症、肥満、心臓病、高血圧、関節炎、精神疾患、他の神経障害が含まれる。当業者に経験されるように、一部の非癌性疾患は、既知の関連する遺伝的成分を有しない。
核酸:本明細書で使用される場合、その最も広い意味で、オリゴヌクレオチド鎖に組み込まれているか、または組み込まれ得る任意の化合物および/または物質を指す。一部の実施形態では、核酸は、ホスホジエステル結合を介してオリゴヌクレオチド鎖に組み込まれているか、または組み込まれ得る化合物および/または物質である。文脈から明らかになるように、一部の実施形態では、「核酸」は、個々の核酸残基(例えば、ヌクレオチドおよび/またはヌクレオシド)を指し、一部の実施形態では、「核酸」は、個々の核酸残基を含むオリゴヌクレオチド鎖を指す。一部の実施形態では、「核酸」は、RNAであるか、またはRNAを含み、一部の実施形態では、「核酸」は、DNAであるか、またはDNAを含む。一部の実施形態では、核酸は、1つ以上の天然核酸残基であるか、1つ以上の天然核酸残基を含むか、または1つ以上の天然核酸残基からなる。一部の実施形態では、核酸は、1つ以上の核酸類似体であるか、1つ以上の核酸類似体を含むか、または1つ以上の核酸類似体からなる。一部の実施形態では、核酸類似体は、ホスホジエステル骨格を利用しない点において核酸と異なる。例えば、一部の実施形態では、核酸は、1つ以上の「ペプチド核酸」であるか、1つ以上の「ペプチド核酸」を含むか、または1つ以上の「ペプチド核酸」からなり、骨格内のホスホジエステル結合の代わりにペプチド結合を有し、当該技術分野で既知であり、本技術の範囲内であると見なされる。代替的または追加的に、一部の実施形態では、核酸は、ホスホジエステル結合ではなく、1つ以上のホスホロチオエート結合および/または5’-N-ホスホラミダイト結合を有する。一部の実施形態では、核酸は、1つ以上の天然ヌクレオシド(例えば、アデノシン、チミジン、グアノシン、シチジン、ウリジン、デオキシアデノシン、デオキシチミジン、デオキシグアノシンおよびデオキシシチジン)であるか、1つ以上の天然ヌクレオシドを含むか、または1つ以上の天然ヌクレオシドからなる。一部の実施形態では、核酸は、1つ以上のヌクレオシド類似体(例えば、2-アミノアデノシン、2-チオチミジン、イノシン、ピロロ-ピリミジン、3-メチルアデノシン、5-メチルシチジン、C-5プロピニルシチジン、C-5プロピニルウリジン、2-アミノアデノシン、C5-ブロモウリジン、C5-フルオロウリジン、C5-ヨードウリジン、C5-プロピニルウリジン、C5-プロピニルシチジン、C5-メチルシチジン、2-アミノアデノシン、7-デアザアデノシン、7-デアザグアノシン、8-オキソアデノシン、8-オキソグアノシン、0(6)-メチルグアニン、2-チオシチジン、メチル化塩基、インターカレーションされた塩基、およびこれらの組み合わせ)であるか、1つ以上のヌクレオシド類似体を含むか、または1つ以上のヌクレオシド類似体からなる。一部の実施形態では、核酸は、天然核酸中の糖類と比較して、1つ以上の修飾された糖類(例えば、2’-フルオロリボース、リボース、2’-デオキシリボース、アラビノースおよびヘキソース)を含む。一部の実施形態では、核酸は、RNAまたはタンパク質などの機能的遺伝子産物をコードするヌクレオチド配列を有する。一部の実施形態では、核酸は、1つ以上のイントロンを含む。一部の実施形態では、核酸は、天然源からの単離、相補的テンプレートに基づく重合による酵素合成(インビボまたはインビトロで)、組換え細胞または系における複製および化学合成のうちの1つ以上によって調製される。一部の実施形態では、核酸は、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、またはそれを超える残基長である。一部の実施形態では、核酸は、部分的または完全に一本鎖であり、一部の実施形態では、核酸は、部分的または完全に二本鎖である。一部の実施形態では、核酸は、二次構造を有する分枝鎖であってもよい。一部の実施形態では、核酸は、ポリペプチドをコードするか、またはポリペプチドをコードする配列の相補である少なくとも1つの要素を含むヌクレオチド配列を有する。一部の実施形態では、核酸は、酵素活性を有する。一部の実施形態では、核酸は、例えば、リボ核酸タンパク質複合体またはトランスファーRNAにおいて、機械的な機能を果たす。
ポリヌクレオチド損傷:本明細書で使用される場合、「ポリヌクレオチド損傷」または「核酸損傷」という用語は、対象のデオキシリボ核酸(DNA)配列に対する損傷(「DNA損傷」)またはリボ核酸(RNA)配列に対する損傷(「RNA損傷」)を指し、薬剤またはプロセスによって、直接的もしくは間接的に引き起こされる(例えば、代謝物、または損傷性もしくは変異原性であるプロセスの誘発)。損傷した核酸は、対象における疾患または障害の発症を引き起こす場合がある。ポリヌクレオチド損傷は、細胞におけるDNAの化学的および/または物理的な修飾をさらに含んでいてもよい。一部の実施形態では、損傷は、非限定的な例として、酸化、アルキル化、脱アミノ化、メチル化、加水分解、ヒドロキシル化、ニッキング、鎖内架橋、鎖間架橋、平滑末端鎖切断、付着末端二本鎖切断、リン酸化、脱リン酸化、SUMO化、グリコシル化、脱グリコシル化、プトレシニル化、カルボキシル化、ハロゲン化、ホルミル化、一本鎖ギャップ、熱からの損傷、乾燥からの損傷、UV曝露からの損傷、γ線からの損傷、X線からの損傷、電離放射線からの損傷、非電離放射線からの損傷、重粒子放射線からの損傷、核崩壊からの損傷、ベータ放射線からの損傷、アルファ放射線からの損傷、中性子放射線からの損傷、陽子放射線からの損傷、反物質からの損傷、宇宙放射線からの損傷、高pHからの損傷、低pHからの損傷、活性酸化種からの損傷、フリーラジカルからの損傷、過酸化物からの損傷、次亜塩素酸塩からの損傷、ホルマリンまたはホルムアルデヒドなどの組織固定からの損傷、反応性鉄からの損傷、低イオン状態からの損傷、高イオン状態からの損傷、無緩衝状態からの損傷、ヌクレアーゼからの損傷、環境曝露からの損傷、火災からの損傷、機械的ストレスからの損傷、酵素分解からの損傷、微生物からの損傷、調製の機械的剪断からの損傷、調製の酵素断片化からの損傷、インビボで自然発生した損傷、核酸抽出中に発生した損傷、配列決定ライブラリ調製中に発生した損傷、ポリメラーゼによって導入された損傷、核酸修復中に導入された損傷、核酸の末端テーリング中に発生した損傷、核酸ライゲーション中に発生した損傷、配列決定中に発生した損傷、DNAの機械的取り扱いから発生した損傷、ナノポアを通過中に発生した損傷、生物における老化の一部として発生した損傷、個体の化学物質曝露の結果として発生した損傷、変異原によって生じた損傷、発癌物質によって生じた損傷、染色体切断物質によって発生した損傷、酸素曝露によるインビボでの炎症性損傷から生じた損傷、1つ以上の鎖切断による損傷、のうちの少なくとも1つ、およびこれらの任意の組み合わせであるか、またはこれらを含む。
参照:本明細書で使用される場合、「参照」という用語は、比較が行われる標準または対照を指す。例えば、一部の実施形態では、目的の、薬剤、動物、個体、集団、試料、配列または値が、ある場所に存在し得るかまたは電子手段を介して遠隔的にアクセスし得る物理的またはコンピュータのデータベースにおいて、参照または対照の、薬剤、動物、個体、集団、試料、配列または値、もしくはこれらの代表と、比較される。一実施形態では、参照は、参照ゲノムまたは参照ゲノムアセンブリである。一部の実施形態では、参照または対照は、目的の試験もしくは決定と実質的に同時に試験され、かつ/または決定される。一部の実施形態では、参照または対照は、歴史的な参照または対照であり、任意選択的に、有形媒体で具現化される。典型的には、当業者に理解されるように、参照または対照は、評価されるものと同等の条件もしくは状況下で決定されるか、または特徴付けられる。当業者は、特定の可能な参照もしくは対照に対する信頼および/または比較を正当化するのに十分な類似性がいつ存在するかを理解するだろう。「参照試料」は、試験対象とは異なり、比較される試料と同じ方法で単離される対象からの試料を指す。参照試料の対象は、試験対象とは遺伝的に同一であってもよく、または異なっていてもよい。
単一分子識別子(SMI):本明細書で使用される場合、「単一分子識別子(single molecule identifier)」または「SMI」という用語(特に、「タグ」、「バーコード」、「分子バーコード」、「固有分子識別子」すなわち「UMI」と呼ばれてもよい)は、より大きな異種の分子集団の間で個々の分子を実質的に区別することが可能な任意の物質(例えば、ヌクレオチド配列、核酸分子特徴)を指す。一部の実施形態では、SMIは、外因的に適用されるSMIであってもよいか、または外因的に適用されるSMIを含んでいてもよい。一部の実施形態では、外因的に適用されるSMIは、縮重または半縮重した配列であってもよいか、または縮重または半縮重プライマー配列を含んでいてもよい。一部の実施形態では、実質的に縮重したSMIは、ランダムな固有分子識別子(R-UMI)として知られている場合がある。一部の実施形態では、SMIは、既知のコードのプール内からのコード(例えば、核酸配列)を含んでいてもよい。一部の実施形態では、所定のSMIコードは、定義された固有分子識別子(D-UMI)として知られている。一部の実施形態では、SMIは、内因性SMIであってもよいか、または内因性SMIを含んでいてもよい。一部の実施形態では、内因性SMIは、標的配列の特定の剪断点、標的配列を含む個々の分子の末端に関連する特徴、または個々の分子の一端にあるか、個々の分子の一端に隣接するか、もしくは個々の分子の一端から既知の距離内の特定の配列に関連する情報であってもよいか、またはこれらの情報を含んでいてもよい。一部の実施形態では、SMIは、核酸分子に対する無作為または半無作為な損傷、化学修飾、酵素修飾、または他の修飾に起因する、核酸分子における配列バリエーションに関連するものであってもよい。一部の実施形態では、修飾は、メチルシトシンの脱アミノ化であってもよい。一部の実施形態では、修飾は、核酸ニックの部位を伴っていてもよい。一部の実施形態では、SMIは、外因性の要素と内因性の要素の両方を含んでいてもよい。一部の実施形態では、SMIは、物理的に隣接するSMI要素を含んでいてもよい。一部の実施形態では、SMI要素は、分子内で空間的に明確に異なってもよい。一部の実施形態では、SMIは、非核酸であってもよい。一部の実施形態では、SMIは、2つ以上の異なる種類のSMI情報を含んでいてもよい。SMIの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
鎖定義要素(SDE):本明細書で使用される場合、「鎖定義要素」または「SDE」という用語は、二本鎖核酸物質の特定の鎖の識別を可能にし、したがって、他の/相補鎖からの区別を可能にする任意の物質(例えば、配列決定または他の核酸照合の後に、標的二本鎖核酸から得られる2つの一本鎖核酸の各々の増幅産物を、実質的に互いに区別可能にする任意の物質)を指す。一部の実施形態では、SDEは、アダプタ配列中の実質的に非相補的な配列の1つ以上のセグメントであってもよいか、またはこのセグメントを含んでいてもよい。特定の実施形態では、アダプタ配列中の実質的に非相補的な配列のセグメントは、Y字型または「ループ」形状を含むアダプタ分子によって提供されてもよい。他の実施形態では、アダプタ配列中の実質的に非相補的な配列のセグメントは、アダプタ配列中の隣接する相補的な配列の中央に、対になっていない「バブル」を形成してもよい。他の実施形態では、SDEは、核酸修飾を包含してもよい。一部の実施形態では、SDEは、対になった鎖の、物理的に分離した反応コンパートメントへの、物理的な分離を含んでいてもよい。一部の実施形態では、SDEは、化学修飾を含んでもよい。一部の実施形態では、SDEは、修飾された核酸であってもよい。一部の実施形態では、SDEは、核酸分子に対する無作為または半無作為な損傷、化学修飾、酵素修飾、または他の修飾に起因する、核酸分子における配列バリエーションに関連するものであってもよい。一部の実施形態では、修飾は、メチルシトシンの脱アミノ化であってもよい。一部の実施形態では、修飾は、核酸ニックの部位を伴っていてもよい。SDEの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
対象:本明細書で使用される場合、「対象」という用語は、生物、典型的には、哺乳動物、例えば、ヒト(一部の実施形態では、出生前のヒト形態を含む)、非ヒト動物(例えば、哺乳動物および非哺乳動物、限定されないが、非ヒト霊長類、マウス、ラット、ハムスター、カワウソ、ヌー、ウマ、羊、イヌ、ウシ、ブタ、ニワトリ、両生類、爬虫類、海洋生物、他のモデル生物、例えば、虫、ハエ、ゼブラフィッシュなど)、およびトランスジェニック動物(例えば、トランスジェニックげっ歯類)などを指す。一部の実施形態では、対象は、関連する疾患、障害、状態に罹患している。一部の実施形態では、対象は、ある疾患、障害または状態にかかりやすい。一部の実施形態では、対象は、ある疾患、障害または状態の、1つ以上の症状または特徴を示す。一部の実施形態では、対象は、ある疾患、障害または状態の、症状または特徴を何ら示さない。一部の実施形態では、対象は、ある疾患、障害もしくは状態になりやすさ、またはある疾患、障害もしくは状態のリスクに特徴的な1つ以上の特徴を有する。一部の実施形態では、対象は、診断および/または治療が実施されるか、および/または実施された個体である。さらに他の実施形態では、対象は、任意の生きた生物源または他の核酸物質、例えば、生物、細胞および/または組織、インビボ試験用のものなど、例えば、真菌、原生動物、細菌、古細菌、ウイルス、培養物中の単離された細胞、意図的に(例えば、幹細胞移植、臓器移植)または非意図的に(すなわち、胎児または母体のマイクロキメリズム)または単離された核酸もしくはオルガネラ(すなわち、ミトコンドリア、葉緑体、遊離ウイルスゲノム、遊離プラスミド、アプタマー、リボザイム、または核酸の誘導体または前駆体(すなわち、オリゴヌクレオチド、ジヌクレオチド三リン酸など)を指す。さらなる実施形態では、対象は、任意の生きたまたはかつて生きていた生物源、あるいは法医学的な調査または適用で得られた他の核酸物質を指す。
実質的に:本明細書で使用される場合、「実質的に」という用語は、目的の特徴または性質の全体もしくはほぼ全体の程度または度合いを示す定性的な状態を指す。生物学の当業者は、生物学的現象および化学的現象が、完全に終了すること、および/または完全に終了することに向けて進むこと、または絶対的な結果を達成するか、または回避することは、もしあるとしてもまれであることを理解するだろう。したがって、「実質的に」という用語は、多くの生物学的現象および化学的現象に内在する潜在的に完全に終了することはないことを捕捉するために本明細書で使用される。
バリアント:本明細書で使用される場合、「バリアント(variant)」という用語は、参照エンティティと有意な構造同一性を示すが、参照エンティティと比較して、1つ以上の化学部分の存在またはレベルが、参照エンティティと構造的に異なるエンティティを指す。核酸のコンテキストにおいて、バリアント核酸は、線形または三次元空間中の別の核酸に対して、指定された位置を有する複数のヌクレオチド残基からなる特徴的な配列要素を有し得る。例えば、バリアントポリヌクレオチド(例えば、DNA)は、核酸配列の1つ以上の差異の結果として、参照ポリヌクレオチドと異なる場合がある。一部の実施形態では、バリアントポリヌクレオチド配列は、別の配列(例えば、試料中の参照配列または他のポリヌクレオチド(例えば、DNA)配列)に対する挿入、欠失、置換または変異を含む。
バリアント頻度:本明細書で使用される場合、「バリアント頻度」という用語は、集団における特定の遺伝子座での遺伝的バリアントの相対的な頻度を指し、集団の割合またはパーセンテージとして表される。
バリアントアレル頻度本明細書で使用される場合、「バリアントアレル頻度」という用語は、集団中の特定の遺伝子座でのアレル(遺伝子または他の配列のバリアント)の相対頻度を指す(例えば、そのアレルを担持する集団中のすべての染色体の割合)。
II.デュプレックス配列決定方法ならびに関連するアダプタおよび試薬の選択された実施形態
デュプレックス配列決定は、二本鎖核酸分子からエラー修正DNA配列を生成するための方法であり、元々、国際特許公開第WO2013/142389号および米国特許第9,752,188号および第WO2017/100441号、Schmittら、PNAS、2012[1]、Kennedyら、PLOS Genetics、2013[2]、Kennedyら、Nature Protocols、2014[3]、およびSchmittら、Nature Methods、2015[4]に記載された。上述の特許、特許出願および刊行物は各々、それらの全体が参照により本明細書に組み込まれる。図1A~図1Cに示されるように、本技術の特定の態様では、デュプレックス配列決定を使用して、個々のDNA分子の両方の鎖を独立して配列決定することができ、その結果、大規模並列配列決定(MPS)(一般的に次世代配列決定(NGS)としても知られる)中に、誘導体配列リードを、同じ二本鎖核酸親分子に由来するものとして認識することができるだけではなく、配列決定後に区別可能なエンティティとして互いに区別できるようになる。次いで、各鎖から得られる配列リードを、二本鎖コンセンサス配列(DCS)として知られる元の二本鎖核酸分子のエラー修正配列を得る目的のために比較する。デュプレックス配列決定のプロセスは、元の二本鎖核酸分子の両方の鎖が、DCSを形成するために使用される生成された配列決定データ中に表されることを、明示的に確認することを可能にする。
特定の実施形態では、DSを組み込む方法は、1つ以上の配列決定アダプタを、第1の鎖の標的核酸配列と第2の鎖の標的核酸配列とを含む標的二本鎖核酸分子にライゲーションして、二本鎖標的核酸複合体を生成することを含んでいてもよい(例えば、図1A)。
様々な実施形態では、得られる標的核酸複合体は、少なくとも1つのSMI配列を含んでいてもよく、外因的に適用される縮重または半縮重配列(例えば、図1Aに示されるランダム化された二重鎖タグ、図1Aで、αおよびβとして特定された配列)、標的二本鎖核酸分子の特定の剪断点に関連する内因的な情報、またはこれらの組み合わせを伴っていてもよい。SMIは、標的核酸分子を、いずれか単独で、またはそれらがライゲーションされた核酸断片の要素を区別することと組み合わせて、配列決定される集団の中の複数の他の分子から実質的に区別可能にすることができる。SMI要素の実質的に区別可能な特徴は、二本鎖核酸分子を形成する各々の一本鎖によって独立して保有されてもよく、各々の鎖の誘導体増幅産物が、配列決定後に同じ元の実質的に固有の二本鎖核酸分子に由来するものであると認識され得る。他の実施形態では、SMIは、さらなる情報を含んでいてもよく、かつ/または上に引用した刊行物に記載されるものなど、機能性を区別するかかる分子が有用である他の方法において使用されてもよい。別の実施形態では、SMI要素は、アダプタライゲーションの後に組み込まれてもよい。一部の実施形態では、SMIは、本質的に二本鎖である。他の実施形態では、SMIは、本質的に一本鎖である(例えば、SMIは、アダプタの一本鎖部分上にあってもよい)。他の実施形態では、SMIは、本質的に一本鎖と二本鎖の組み合わせである。
一部の実施形態では、各二本鎖標的核酸配列複合体は、さらに、標的二本鎖核酸分子を形成する2つの一本鎖核酸の増幅産物を、配列決定後に互いに実質的に区別可能にする要素(例えば、SDE)を含んでいてもよい。一実施形態では、SDEは、配列決定アダプタ内に含まれる非対称プライマー部位を含んでいてもよいか、または他の配置において、配列非対称を、プライマー配列内ではなくアダプタ分子内に導入してもよく、その結果、第1の鎖の標的核酸配列複合体と第2の鎖の標的核酸配列複合体のヌクレオチド配列の少なくとも一部が、増幅および配列決定の後に互いに異なっている。他の実施形態では、SMIは、標準的(canonical)ヌクレオチド配列A、T、C、GまたはUとは異なるが、2つの増幅され配列決定された分子における少なくとも1つの標準的ヌクレオチド配列の差に変換される、2つの鎖間の別の生化学的非対称を含んでいてもよい。さらに別の実施形態では、SDEは、増幅前に2つの鎖を物理的に分離する手段であってもよく、その結果、第1の鎖の標的核酸配列および第2の鎖の標的核酸配列からの誘導体増幅産物は、これら2つの配列間の区別を維持する目的のために、互いに実質的に物理的に単離された状態を維持する。上述の第1の鎖と第2の鎖とを区別することを可能にするSDE機能を提供するための他のかかる配置および方法論、例えば、上に引用した刊行物に記載されるもの、または記載した機能目的を果たす他の方法を利用してもよい。
少なくとも1つのSMIと少なくとも1つのSDEとを含む二本鎖標的核酸複合体を生成した後、またはこれらの要素の片方または両方がその後に導入される場合に、複合体は、DNA増幅(例えばPCRを用いる)またはDNA増幅の任意の他の生化学的方法(例えば、ローリングサークル増幅、複数置換増幅、等温増幅、ブリッジ増幅または表面結合増幅)が行われてもよく、その結果、第1の鎖の標的核酸配列の1つ以上のコピーおよび第2の鎖の標的核酸配列の1つ以上のコピーが産生される(例えば、図1B)。次いで、第1の鎖標的核酸分子の1つ以上の増幅コピーおよび第2の標的核酸分子の1つ以上の増幅コピーに、好ましくは、「次世代の」大規模並列DNA配列決定プラットフォームを用いて、DNA配列決定を行う(例えば、図1B)。
元の二本鎖標的核酸分子に由来する第1の鎖の標的核酸分子および第2の鎖の標的核酸分子のいずれかから生成される配列リードは、関連する実質的に固有なSMIを共有していることに基づいて特定され、SDEによって逆鎖の標的核酸分子から区別されてもよい。一部の実施形態では、SMIは、数学に基づくエラー修正コード(例えば、ハミングコード)に基づく配列であってもよく、それにより、特定の増幅エラー、配列決定エラーまたはSMI合成エラーは、元のデュプレックス(例えば、二本鎖核酸分子)の相補鎖に対してSMI配列の配列を関連付ける目的のために許容され得る。例えば、二本鎖外因性SMIで、SMIが標準的DNA塩基の完全に縮重した配列の15塩基対を含む場合、推定で4の15乗=1,073,741,824のSMIバリアントが、完全に縮重したSMIの集団中に存在する。2つのSMIが、10,000個のサンプリングされたSMIの集団からのSMI配列内で1個のヌクレオチドのみが異なる配列決定データのリードから回収される場合、これが偶然に発生する確率を数学的に計算することができ、この単一塩基対の違いが、上述のタイプのエラーの1つを反映していることがより確からしいかどうかの決定を行い、そのSMI配列が、実際に同じ元の二重鎖分子に由来していたことを決定することができる。SMIが少なくとも部分的に外因的に適用される配列であり、その配列バリアントが互いに完全に縮重したものではなく、少なくとも部分的には既知の配列である一部の実施形態では、その既知の配列の同一性は、一部の実施形態では、上述のタイプの1つ以上のエラーが、ある既知のSMI配列の同一性を別のSMI配列の同一性へと変換しないように設計することができ、その結果、あるSMIが別のSMIであると誤って解釈されてしまう確率は減少する。一部の実施形態では、このSMI設計戦略は、ハミング符号手法またはその誘導体を含む。特定されたら、第1の鎖の標的核酸分子から作られる1つ以上の配列リードを、第2の鎖の標的核酸分子から作られる1つ以上の配列リードと比較して、エラー修正標的核酸分子配列を生成する(例えば、図1C)。例えば、第1の鎖標的核酸配列と第2の鎖標的核酸配列の両方からの塩基が一致するヌクレオチド位置は、真の配列であるとみなされ、一方、この2つの鎖間で一致しないヌクレオチド位置は、技術的なエラーの可能性がある部位と認識され、この部位は、考慮に入れられないか、除外されるか、修正されるか、または別の状況で識別されてもよい。このようにして、元の二本鎖標的核酸分子のエラー修正配列を生成することができる(図1Cに示される)。一部の実施形態では、第1の鎖の標的核酸分子および第2の鎖の標的核酸分子から生成される各々の配列決定リードを別個にグループ化した後、第1の鎖および第2の鎖各々について一本鎖コンセンサス配列を生成することができる。次いで、第1の鎖の標的核酸分子および第2の鎖の標的核酸分子に由来する一本鎖コンセンサス配列を比較して、エラー修正標的核酸分子配列を生成することができる(例えば、図1C)。
代わりに、一部の実施形態では、この2本の鎖間の配列が一致しない部位は、元の二本鎖標的核酸分子において、生物学的に由来するミスマッチの可能性がある部位として認識することができる。代わりに、一部の実施形態では、この2本の鎖間の配列が一致しない部位は、元の二本鎖標的核酸分子において、DNA合成に由来するミスマッチの可能性がある部位として認識することができる。代わりに、一部の実施形態では、この2本の鎖間の配列が一致しない部位は、損傷を受けたか、あるいは修飾されたヌクレオチド塩基が、片方または両方の鎖に存在し、酵素プロセス(例えば、DNAポリメラーゼ、DNAグリコシラーゼまたは別の核酸修飾酵素または化学プロセス)によってミスマッチに変換された可能性がある部位として認識することができる。一部の実施形態では、この後者の知見を使用して、酵素プロセスまたは化学的処置の前の核酸損傷またはヌクレオチド修飾の存在を推測することができる。
一部の実施形態では、本技術の態様に従い、本明細書に記載するデュプレックス配列決定ステップから生成される配列決定リードをさらにフィルタリングして、DNA損傷分子(例えば、貯蔵、運搬中に、組織または血液の抽出中または抽出後に、ライブライリー調製中または調製後に損傷したなど)からの配列決定リードを除外することができる。例えば、DNA修復酵素、例えば、ウラシル-DNAグリコシラーゼ(UDG)、ホルムアミドピリミジンDNAグリコシラーゼ(FPG)および8-オキソグアニンDNAグリコシラーゼ(OGG1)を利用して、DNA損傷(例えば、インビトロでのDNA損傷またはインビボでの損傷)を除外するか、または修正することができる。これらのDNA修復酵素は、例えば、DNAから損傷した塩基を除去するグリコシラーゼである。例えば、UDGは、(シトシンの自発的な加水分解によって生じる)シトシンの脱アミノ化から得られるウラシルを除去し、FPGは、8-オキソ-グアニン(例えば、活性酸素種から得られる一般的なDNA損傷)を除去する。FPGは、リアーゼ活性も有し、脱塩基部位に1塩基ギャップを生成することができる。かかる脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、一般的に、その後にPCRによって増幅することができない。したがって、かかるDNA損傷修復/除外酵素の使用は、真の変異を有していないが、配列決定および二重鎖配列(duplex sequence)分析の後に別の状況でエラーとして検出されない可能性がある損傷DNAを効果的に除外することができる。損傷した塩基によるエラーは、デュプレックス配列決定によって多くは修正することができるが、まれに、相補的エラーが、両方の鎖上の同じ位置に起こることが理論的にあり得るため、エラーを増やす損傷を減少させることによって、アーチファクトの確率を減少させることができる。さらに、ライブラリ調製中、配列決定されるDNAの特定の断片は、その供給源から、または処理ステップ(例えば、機械的なDNA剪断)から一本鎖であってもよい。これらの領域は、典型的には、当該技術分野で知られる「末端修復」ステップ中に二本鎖DNAに変換され、DNAポリメラーゼおよびヌクレオシド基質が、DNA試料に添加されて、5’陥凹末端を延長する。コピーされるDNAの一本鎖部分におけるDNA損傷の変異誘発性部位(すなわち、DNA二重鎖の片方または両方の末端にある一本鎖5’オーバーハングまたは内部の一本鎖ニックまたはギャップ)は、末端平滑化反応中にエラーを生じる場合があり、一本鎖変異、合成エラーまたは核酸損傷部位を二本鎖形態にして、最終的な二重鎖コンセンサス配列において真の変異であると誤って解釈される場合があり、真の変異が元の二本鎖核酸分子内に実際には存在しなかった場合に、存在したと誤って解釈される場合がある。この状況は、「偽の二重鎖」と呼ばれ、かかる損傷を破壊/修復する酵素の使用によって減少させることができ、または防ぐことができる。他の実施形態では、この発生は、元の二重鎖分子の一本鎖部分が生成するのを破壊するか、または防ぐための戦略の使用を通して低減、または除外することができる(例えば、ニックまたはギャップが残る可能性がある機械的剪断または特定の他の酵素ではなく、元の二本鎖核酸物質を断片化するために使用される特定の酵素の使用)。他の実施形態では、元の二本鎖核酸の一本鎖部分を除外するためのプロセス(例えば、S1ヌクレアーゼまたはマングビーンヌクレアーゼなどの一本鎖特異的ヌクレアーゼ)の使用を、同様の目的で利用することができる。
さらなる実施形態では、本明細書に記載のデュプレックス配列決定ステップから生成される配列決定リードをさらにフィルタリングして、偽二重鎖のアーチファクトに最もなりやすいリードの末端をトリミングすることによって、偽の変異を除外することができる。例えば、DNA断片化は、二本鎖分子の末端に一本鎖部分を生成することができる。これらの一本鎖部分は、末端修復中に末端平滑化されてもよい(例えば、ポリメラーゼによって)。一部の例では、ポリメラーゼは、これらの末端修復した領域においてコピーの誤りを起こし、「偽の二重鎖分子」の生成を引き起こす。ライブラリ調製のこれらのアーチファクトは、配列決定されたときに真の変異であると誤って見えてしまう場合がある。これらの末端修復機構の結果としてのエラーは、より高いリスクを有する領域で生じる可能性がある変異を除外するために配列決定リードの末端をトリミングすることによって、配列決定後の分析から除外することができるか、または減少させることができ、それにより、偽の変異の数を減少させることができる。一実施形態では、配列決定リードのかかるトリミングは、自動的に達成することができる(例えば、通常の処理ステップ)。別の実施形態では、変異頻度は、断片末端領域について評価することができ、変異の閾値レベルが断片末端領域で観察される場合、DNA断片の二本鎖コンセンサス配列リードを生成する前に、配列決定リードのトリミングを行ってもよい。
具体例として、一部の実施形態では、本明細書では、二本鎖標的核酸物質のエラー修正配列リードを生成する方法が提供され、二本鎖標的核酸物質を、少なくとも1つのアダプタ配列にライゲーションして、アダプタ-標的核酸物質複合体を形成するステップを含み、ここで、少なくとも1つのアダプタ配列は、(a)二本鎖標的核酸物質の各分子を固有に標識する縮重または半縮重した単一分子識別子(SMI)配列と、(b)アダプタ-標的核酸物質複合体の各鎖が、その相補鎖に対して明確に特定可能なヌクレオチド配列を有するように、アダプタ-標的核酸物質複合体の第1の鎖をタグ付けする第1のヌクレオチドアダプタ配列、およびアダプタ-標的核酸物質複合体の第2の鎖をタグ付けする第1のヌクレオチド配列と少なくとも部分的に相補的な第2のヌクレオチドアダプタ配列と、を含む。次に、本方法は、アダプタ-標的核酸物質複合体の各鎖を増幅して、複数の第1の鎖のアダプタ-標的核酸複合体アンプリコン、および複数の第2の鎖のアダプタ-標的核酸複合体アンプリコンを生成するステップを含んでいてもよい。本方法は、さらに、その第1の鎖および第2の鎖の両方を増幅して、第1の核酸産物および第2の核酸産物を提供するステップを含んでいてもよい。本方法はまた、第1の核酸産物および第2の核酸産物の各々を配列決定して、複数の第1の鎖の配列リードおよび複数の第2の鎖の配列リードを生成するステップと、少なくとも1つの第1の鎖の配列リードおよび少なくとも1つの第2の鎖の配列リードの存在を確認するステップと、を含んでいてもよい。本方法は、さらに、少なくとも1つの第1の鎖の配列リードと少なくとも1つの第2の鎖の配列リードとを比較することと、一致しないヌクレオチド位置を考慮しないことによって、二本鎖標的核酸物質のエラー修正配列リードを生成すること、または代わりに、比較された第1の鎖の配列リードと第2の鎖の配列リードが非相補的な1つ以上のヌクレオチド位置を有する、比較された第1の鎖の配列リードと第2の鎖の配列リードを除去することとを含んでいてもよい。
さらなる具体例として、一部の実施形態では、本明細書では、試料からDNAバリアントを特定する方法が提供され、核酸物質(例えば、二本鎖標的DNA分子)の両方の鎖を、少なくとも1つの非対称アダプタ分子にライゲーションして、二本鎖標的DNA分子の第1の鎖(例えば、上鎖)に関連付けられた第1のヌクレオチド配列と、二本鎖標的DNA分子の第2の鎖(例えば、下鎖)に関連付けられた第1のヌクレオチド配列に少なくとも部分的に非相補的な第2のヌクレオチド配列と、を有するアダプタ-標的核酸物質複合体を形成するステップと、アダプタ-標的核酸物質の各鎖を増幅するステップとを含み、各々の鎖において、増幅されたアダプタ-標的核酸産物の別個でしかも関連したセットを生成する。本方法は、さらに、複数の第1の鎖のアダプタ-標的核酸産物および複数の第2の鎖のアダプタ-標的核酸産物の各々を配列決定するステップと、アダプタ-標的核酸物質複合体の各鎖からの少なくとも1つの増幅された配列リードの存在を確認するステップと、第1の鎖から得られた少なくとも1つの増幅された配列リードと、第2の鎖から得られた少なくとも1つの増幅された配列リードとを比較して、核酸物質(例えば、二本鎖標的DNA分子)の両方の鎖の配列が一致しているヌクレオチド塩基のみを有する核酸物質(例えば、二本鎖標的DNA分子)のコンセンサス配列リードを形成するステップと、を含むことができ、その結果、コンセンサス配列リード中の特定の位置で生じるバリアント(例えば、参照配列と比較して)が、真のDNAバリアントとして特定される。
一部の実施形態では、本明細書では、二本鎖核酸物質から高精度のコンセンサス配列を生成する方法が提供され、個々の二重鎖DNA分子をアダプタ分子でタグ付けして、タグ付けDNA物質を形成するステップであって、各アダプタ分子は、(a)二重鎖DNA分子を固有に標識する縮重または半縮重した単一分子識別子(SMI)、および(b)各々のタグ付けDNA分子について、タグ付けDNA物質内の各々の個々のDNA分子の元の下鎖から、元の上鎖を区別する第1および第2の非相補的ヌクレオチドアダプタ配列、を含む、タグ付けDNA物質を形成するステップと、タグ付けDNA分子の元の上鎖の複製のセットおよびタグ付けDNA分子の元の下鎖の複製のセットを生成して、増幅されたDNA物質を形成するステップと、を含む。本方法は、さらに、元の上鎖の重複からの第1の一本鎖コンセンサス配列(SSCS)および元の下鎖の重複からの第2の一本鎖コンセンサス配列(SSCS)を作成するステップと、元の上鎖の第1のSSCSと、元の下鎖の第2のSSCSとを比較するステップと、元の上鎖の第1のSSCSおよび元の下鎖の第2のSSCSの両方の配列が相補的であるヌクレオチド塩基のみを有する高度に正確なコンセンサス配列を生成するステップとを含んでいてもよい。
さらなる実施形態では、本明細書では、二本鎖標的DNA分子を含む複数のプールされた試料から、DNAの変異および/またはバリアントを検出および/または定量する方法が提供され、本方法は、各二本鎖標的DNA分子の両方の鎖を少なくとも1つの非対称アダプタ分子にライゲーションして、複数のアダプタ-標的DNA複合体を形成するステップであって、各アダプタ-標的DNA複合体は、二本鎖標的DNA分子の第1の鎖と関連付けられた第1のヌクレオチド配列と、二本鎖標的DNA分子の第2の鎖と関連付けられた第1のヌクレオチドに少なくとも部分的に非相補的な第2のヌクレオチド配列とを有する、ステップと、各々のアダプタ標的DNA複合体について、アダプタ標的DNA複合体の各鎖を増幅するステップとを含み、その結果、それぞれの鎖において、増幅されたアダプタ標的DNAアンプリコンの別個でしかも関連するセットが生成される。本方法は、さらに、複数の第1の鎖のアダプタ-標的DNAアンプリコンおよび複数の第2の鎖のアダプタ-標的DNAアンプリコンの各々を配列決定するステップと、アダプタ-標的DNA複合体の各鎖から少なくとも1つの配列リードの存在を確認するステップと、第1の鎖から得られた少なくとも1つの配列リードと第2の鎖から得られた少なくとも1つの配列リードとを比較して、二本鎖DNA分子の一方の鎖の配列リードが、二本鎖DNA分子の他方の鎖の配列リードと一致していない(例えば、非相補的な)ヌクレオチド塩基を検出および/または定量するステップと、を含んでいてもよく、その結果、DNA損傷の部位を検出および/または定量することができる。一部の実施形態では、本方法は、さらに、第1の鎖アダプタ-標的DNAアンプリコンからの第1の一本鎖コンセンサス配列(SSCS)および第2の鎖アダプタ-標的DNAアンプリコンからの第2の一本鎖コンセンサス配列(SSCS)を作成するステップと、元の第1の鎖の第1のSSCSと、元の第2の鎖の第2のSSCSとを比較するステップと、第1のSSCSの配列と第2のSSCSの配列が非相補性であるヌクレオチド塩基を識別して、試料中の二本鎖標的DNA分子と関連付けられたDNA損傷を検出および/または定量するステップとを含んでいてもよい。
単一分子識別子配列(SMI)
様々な実施形態に従い、提供される方法および組成物は、核酸物質の各鎖上に1つ以上のSMI配列を含む。SMIは、二本鎖核酸分子から得られる各々の一本鎖によって独立して担持されていてもよく、その結果、各鎖の誘導体増幅産物が、配列決定後に同じ元の実質的に固有の二本鎖核酸分子に由来するものとして認識され得る。一部の実施形態では、SMIは、さらなる情報を含んでいてもよく、かつ/または当業者が認識するように、機能性を区別するかかる分子が有用である他の方法において使用されてもよい。一部の実施形態では、SMI要素は、核酸物質にアダプタ配列をライゲーションする前、実質的に同時、または後に組み込まれてもよい。
一部の実施形態では、SMI配列は、少なくとも1つの縮重または半縮重した核酸を含んでいてもよい。他の実施形態では、SMI配列は、縮重していなくてもよい。一部の実施形態では、SMI配列は、定義されたヌクレオチド配列であってもよい。一部の実施形態では、SMIは、核酸分子の断片末端(例えば、ライゲーションされた核酸物質の無作為に、または半無作為に剪断された末端)またはその近傍と関連付けられた配列であってもよい。一部の実施形態では、外因性配列は、例えば、単一のDNA分子を互いに区別することが可能なSMI配列を得るために、ライゲーションされた核酸物質(例えば、DNA)の無作為に、または半無作為に剪断された末端に対応する配列と組み合わせて考慮されてもよい。一部の実施形態では、SMI配列は、二本鎖核酸分子にライゲーションされるアダプタ配列の一部である。特定の実施形態では、SMI配列を含むアダプタ配列は、二本鎖核酸分子の各鎖が、アダプタ配列にライゲーションする後にSMIを含むような、二本鎖である。別の実施形態では、SMI配列は、二本鎖核酸分子にライゲーションする前または後に一本鎖であり、相補的SMI配列は、その逆鎖をDNAポリメラーゼを用いて伸長して、相補的二本鎖SMI配列を得ることによって生成されてもよい。他の実施形態では、SMI配列は、アダプタの一本鎖部分にある(例えば、Y字型を有するアダプタのアーム)。かかる実施形態では、SMIは、二本鎖核酸分子の元の鎖に由来する配列リードのファミリーのグループ化を容易にすることができ、一部の例では、二本鎖核酸分子の元の第1の鎖と第2の鎖との間の関係を付与することができる(例えば、SMIの全てまたは一部は、ルックアップテーブルを介して関連付けられる)。複数の実施形態では、第1の鎖および第2の鎖が異なるSMIで標識される場合、2つの元の鎖からの配列リードは、1つ以上の内因性SMI(例えば、核酸分子の断片末端または断片末端付近と関連付けられる配列などの断片特異的な特徴)を使用して関連付けられてもよく、または2つの元の鎖によって共有されるさらなる分子タグ(例えば、アダプタの二本鎖部分中のバーコード)の使用によって関連付けられてもよいか、またはこれらの組み合わせであってもよい。一部の実施形態では、各SMI配列は、約1~約30核酸(例えば、1、2、3、4、5、8、10、12、14、16、18、20、またはそれ以上の縮重または半縮重した核酸)を含んでいてもよい。
一部の実施形態では、SMIは、核酸物質およびアダプタ配列の片方または両方にライゲーション可能である。一部の実施形態では、SMIは、核酸物質のT-オーバーハング、A-オーバーハング、CG-オーバーハング、脱ヒドロキシル化塩基および平滑末端のうちの少なくとも1つにライゲーションされてもよい。
一部の実施形態では、SMIの配列は、単一の核酸分子を互いに区別することが可能なSMI配列を得るために、例えば、核酸物質(例えば、ライゲーションされた核酸物質)の無作為または半無作為に剪断された末端に対応する配列と組み合わせて(またはこれに従って)考慮されてもよい。
一部の実施形態では、少なくとも1つのSMIは、例えば、剪断点自体を使用して、または剪断点のすぐに隣接した核酸物質中の所定の数のヌクレオチド[例えば、剪断点から2、3、4、5、6、7、8、9、10ヌクレオチド]を使用して、内因性SMIであってもよい(例えば、剪断点に関連するSMI(例えば、断片末端))。一部の実施形態では、少なくとも1つのSMIは、外因性SMI(例えば、標的核酸物質にはみられない配列を含むSMI)であってもよい。
一部の実施形態では、SMIは、画像化部分(例えば、蛍光または別の光学的に検出可能な部分)であってもよいか、または画像化部分を含んでいてもよい。一部の実施形態では、かかるSMIは、増幅ステップを必要とすることなく、検出および/または定量を可能にする。
一部の実施形態では、SMI要素は、アダプタ-標的核酸複合体上の異なる位置に位置する2つ以上の別個のSMI要素を含んでいてもよい。
SMIの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
鎖定義要素(SDE)
一部の実施形態では、二本鎖核酸物質の各鎖は、さらに、標的二本鎖核酸物質を形成する2つの一本鎖核酸の増幅産物を、配列決定後に実質的に互いに区別可能にする要素を含んでいてもよい。一部の実施形態では、SDEは、配列決定アダプタ内に含まれる非対称プライマー部位であってもよいか、またはこの部位を含んでいてもよく、あるいは他の配置において、配列非対称性を、プライマー配列内ではなくアダプタ配列内に導入してもよく、その結果、第1の鎖の標的核酸配列複合体と標的核酸配列複合体の第2の鎖のヌクレオチド配列における少なくとも一つの位置が、増幅および配列決定の後で互いに異なっている。他の実施形態では、SDEは、標準的ヌクレオチド配列A、T、C、GまたはUとは異なるが、2つの増幅され配列決定された分子において少なくとも1つの標準的ヌクレオチド配列の差に変換される、2つの鎖間の別の生化学的非対称性を含んでいてもよい。さらに別の実施形態では、SDEは、増幅前に2つの鎖を物理的に分離する手段であってもよいか、またはこの手段を含んでいてもよく、その結果、第1の鎖の標的核酸配列および第2の鎖の標的核酸配列からの誘導体増幅産物は、2つの誘導体増幅産物間の区別を維持する目的で、互いに実質的に物理的に分離された状態を維持する。第1の鎖と第2の鎖を区別することを可能にするSDE機能を提供するための他のかかる配置または方法論が利用されてもよい。
一部の実施形態では、SDEは、ループ(例えば、ヘアピンループ)を形成することが可能であってもよい。一部の実施形態では、ループは、少なくとも1つのエンドヌクレアーゼ認識部位を含んでいてもよい。一部の実施形態では、標的核酸複合体は、ループ内の切断事象を容易にするエンドヌクレアーゼ認識部位を含んでいてもよい。一部の実施形態では、ループは、非標準的(non-canonical)ヌクレオチド配列を含んでいてもよい。一部の実施形態では、含まれる非標準的ヌクレオチドは、鎖切断を容易にする1つ以上の酵素によって認識されてもよい。一部の実施形態では、含まれる非標準的ヌクレオチドは、ループ中の鎖切断を容易にする1つ以上の化学プロセスによって標的とされてもよい。一部の実施形態では、ループは、ループ中の鎖切断を容易にする1つ以上の酵素プロセス、化学プロセスまたは物理プロセスによって標的とされ得る、修飾された核酸リンカーを含んでいてもよい。一部の実施形態では、この修飾されたリンカーは、光開裂性リンカーである。
様々な他の分子ツールが、SMIおよびSDEとして機能し得る。剪断点およびDNAに基づくタグ以外に、対になった鎖を物理的に近接した状態に維持する単分子コンパートメント化方法、または他の非核酸タグ付け方法は、鎖に関連する機能を果たし得る。同様に、アダプタ鎖を物理的に分離し得る様式でのアダプタ鎖の非対称化学標識は、SDEの役割を果たすことができる。近年記載されたデュプレックス配列決定の変形例は、亜硫酸水素変換を使用して、シトシンのメチル化の形態で天然に存在する鎖の非対称性を、2つの鎖を区別する配列の違いへと変換する。この実施態様は、検出され得る変異のタイプに制限があるが、天然の非対称を利用するこの概念は、修飾ヌクレオチドを直接的に検出することができる配列決定技術を出現させるという観点で注目すべきものである。SDEの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
アダプタおよびアダプタ配列
様々な配置で、SMI(例えば、分子バーコード)、SDE、プライマー部位、フローセル配列および/または他の特徴を含むアダプタ分子は、本明細書に開示される実施形態の多くと共に使用することが企図される。一部の実施形態では、提供されるアダプタは、以下の特性のうちの少なくとも1つを有するPCRプライマー(例えば、プライマー部位)に対して相補的または少なくとも部分的に相補的な1つ以上の配列であってもよく、またはこの配列を含んでいてもよい:(1)高い標的特異性がある、(2)多重化が可能である、(3)強力かつバイアスが最小限の増幅を示す。
一部の実施形態では、アダプタ分子は、「Y」字型、「U」字型、「ヘアピン」型であってもよく、バブル(例えば、非相補配列の一部)、または他の特徴を有し得る。他の実施形態では、アダプタ分子は、「Y」字型、「U」字型、「ヘアピン」型、またはバブルを含み得る。特定のアダプタは、修飾ヌクレオチドまたは非標準的ヌクレオチド、制限部位、またはインビトロで構造もしくは機能を操作するための他の特徴を含んでいてもよい。アダプタ分子は、末端を有する様々な核酸物質にライゲーションしてもよい。例えば、アダプタ分子は、T-オーバーハング、A-オーバーハング、CG-オーバーハング、複数ヌクレオチドオーバーハング、脱ヒドロキシル化塩基、核酸物質の平滑末端、および標的の5’が脱リン酸化されているかまたはその他の従来のライゲーションから遮断されている分子の末端、にライゲーションするのに適したものであってもよい。他の実施形態では、アダプタ分子は、ライゲーション部位の5’鎖に脱リン酸化または他のライゲーションを防ぐ修飾を含んでいてもよい。後者の2つの実施形態では、かかる戦略は、ライブラリ断片またはアダプタ分子の二量体化を防ぐのに有用な場合がある。
アダプタ配列は、一本鎖の配列、二本鎖の配列、相補的な配列、非相補的な配列、部分的に相補的な配列、非対称配列、プライマーに結合する配列、フローセル配列、ライゲーション配列またはアダプタ分子によって提供される他の配列を意味し得る。特定の実施形態では、アダプタ配列は、オリゴヌクレオチドに相補的な配列によって増幅するために使用される配列を意味し得る。
一部の実施形態では、提供される方法および組成物は、少なくとも1つのアダプタ配列(例えば、核酸物質の5’末端および3’末端の各々に1つの、2つのアダプタ配列)を含む。一部の実施形態では、提供される方法および組成物は、2つ以上のアダプタ配列(例えば、3、4、5、6、7、8、9、10個、またはそれ以上)を含んでいてもよい。一部の実施形態では、アダプタ配列の少なくとも2つは、互いに(例えば、配列によって)異なる。一部の実施形態では、各アダプタ配列は、アダプタ配列が互いに(例えば、配列によって)異なる。一部の実施形態では、少なくとも1つのアダプタ配列は、少なくとも1つの他のアダプタ配列の少なくとも一部に対して少なくとも部分的に非相補的である(例えば、少なくとも1つのヌクレオチドによって非相補的である)。
一部の実施形態では、アダプタ配列は、少なくとも1つの非標準的ヌクレオチドを含む。一部の実施形態では、非標準的ヌクレオチドは、脱塩基部位、ウラシル、テトラヒドロフラン、8-オキソ-7,8-ジヒドロ-2’デオキシアデノシン(8-オキソ-A)、8-オキソ-7,8-ジヒドロ-2’-デオキシグアノシン(8-オキソ-G)、デオキシイノシン、5’ニトロインドール、5-ヒドロキシメチル-2’-デオキシシチジン、イソ-シトシン、5’-メチル-イソシトシン、もしくはイソグアノシン、メチル化ヌクレオチド、RNAヌクレオチド、リボースヌクレオチド、8-オキソ-グアニン、光開裂性リンカー、ビオチン化ヌクレオチド、デスチオビオチンヌクレオチド、チオール修飾ヌクレオチド、アクリダイト修飾ヌクレオチド、イソ-dC、イソdG、2’-O-メチルヌクレオチド、イノシンヌクレオチド、ロック核酸、ペプチド核酸、5メチルdC、5-ブロモデオキシウリジン、2,6-ジアミノプリン、2-アミノプリンヌクレオチド、脱塩基ヌクレオチド、5-ニトロインドールヌクレオチド、アデニル化ヌクレオチド、アジドヌクレオチド、ジゴキシゲニンヌクレオチド、I-リンカー、5’ヘキシニル修飾ヌクレオチド、5-オクタジイニルdU、光開裂性スペーサー、非光開裂性スペーサー、クリックケミストリー適合性修飾ヌクレオチド、およびこれらの任意の組み合わせから選択される。
一部の実施形態では、アダプタ配列は、磁気特性を有する部分(すなわち、磁気部分)を含む。一部の実施形態では、この磁気特性は、常磁性である。アダプタ配列が磁気部分を含む(例えば、磁気部分を含むアダプタ配列にライゲーションされた核酸物質)一部の実施形態では、磁場が適用される場合、磁気部分を含むアダプタ配列は、磁気部分を含まないアダプタ配列(例えば、磁気部分を含まないアダプタ配列にライゲーションされた核酸物質)から実質的に分離される。
一部の実施形態では、少なくとも1つのアダプタ配列は、SMIに対して5’に位置する。一部の実施形態では、少なくとも1つのアダプタ配列は、SMIに対して3’に位置する。
一部の実施形態では、アダプタ配列は、1つ以上のリンカードメインを介して、SMIおよび核酸物質のうちの少なくとも1つに連結されてもよい。一部の実施形態では、リンカードメインは、ヌクレオチドで構成されていてもよい。一部の実施形態では、リンカードメインは、少なくとも1つの修飾ヌクレオチドまたは非ヌクレオチド分子(例えば、本開示の他箇所に記載されるもの)を含んでいてもよい。一部の実施形態では、リンカードメインは、ループであっても、またはループを含んでいてもよい。
一部の実施形態では、二本鎖核酸物質の各鎖の片方または両方の末端上のアダプタ配列は、さらに、SDEを提供する1つ以上の要素を含んでいてもよい。一部の実施形態では、SDEは、アダプタ配列内に含まれる非対称プライマー部位であってもよいか、またはこの部位を含んでいてもよい。
一部の実施形態では、アダプタ配列は、少なくとも1つのSDE、および少なくとも1つのライゲーションドメイン(すなわち、少なくとも1つのリガーゼの活性に修正可能なドメイン、例えば、リガーゼの活性を通して核酸物質にライゲーションするのに好適なドメイン)であってもよいか、またはこれらを含んでいてもよい。一部の実施形態では、5’から3’まで、アダプタ配列は、プライマー結合部位、SDEおよびライゲーションドメインであってもよいか、またはこれらを含んでいてもよい。
デュプレックス配列決定アダプタを合成するための様々な方法は、例えば、米国特許第9,752,188号、国際特許公開第WO2017/100441号および国際特許公開第PCT/US18/59908号(2018年11月8日に出願された)に既に記載されており、これらは全て、それらの全体が参照により本明細書に援用される。
プライマー
一部の実施形態では、以下の特性:(1)高い標的特異性がある、(2)多重化が可能である、(3)強力かつバイアスが最小の増幅を示す、のうちの少なくとも1つを有する1つ以上のPCRプライマーが、本技術の態様に従う様々な実施形態における使用が企図される。以前の研究および商業製品の多くは、従来のPCR-CEについて、これらの基準のいくつかを満たすプライマー混合物を設計している。しかしながら、これらのプライマー混合物は、MPSと共に使用するのに常に適しているわけではないことを注記しておく。実際に、高度に多重化されたプライマー混合物を開発することは、挑戦的なことであり、時間がかかるプロセスであり得る。好都合に、IlluminaおよびPromegaの両者は、様々な標準的および非標準的なSTRおよびSNP遺伝子座の強力で効率的な増幅を示すIlluminaプラットフォームのための多重互換性プライマー混合物を近年開発した。これらのキットは、PCRを使用して、配列決定前にその標的領域を増幅するため、ペアエンド配列決定データにおける各リードの5’末端は、DNAを増幅するために使用されるPCRプライマーの5’末端に対応する。一部の実施形態では、提供される方法および組成物は、均一な増幅を確実にするように設計されたプライマーを含み、これは、様々な反応濃度、融解温度、および二次構造とプライマー内/プライマー間の相互作用を最小限にすること、を伴っていてもよい。MPSアプリケーション用の高度に多重化されたプライマーの最適化について、多くの技術が記載されてきた。特に、これらの技術は、当該技術分野で十分に記載されているように、しばしばampliseq法として知られている。
増幅
提供される方法および組成物は、様々な実施形態では、核酸物質(またはその一部、例えば、特定の標的領域または遺伝子座)を増幅し、増幅された核酸物質(例えば、アンプリコン産物のいくつかのメンバー)を形成する、少なくとも1つの増幅ステップを利用するか、または使用する。
一部の実施形態では、核酸物質を増幅することは、SMI配列が少なくとも部分的に維持されるように、第1のアダプタ配列中に存在する配列に少なくとも部分的に相補的な少なくとも1つの一本鎖オリゴヌクレオチドを使用して、元の二本鎖核酸物質からの第1の核酸鎖および第2の核酸鎖の各々に由来する核酸物質を増幅するステップを含む。増幅ステップは、さらに、第2の一本鎖オリゴヌクレオチドを使用して、目的の各鎖を増幅することを含み、かかる第2の一本鎖オリゴヌクレオチドは、(a)目的の標的配列に少なくとも部分的に相補的であってもよいか、または(b)少なくとも1つの一本鎖オリゴヌクレオチドと第2の一本鎖オリゴヌクレオチドが、核酸物質を効果的に増幅するように配向される様式で、第2のアダプタ配列中に存在する配列に少なくとも部分的に相補的であってもよい。
一部の実施形態では、試料中の核酸物質を増幅することは、「チューブ」(例えば、PCRチューブ)内で、エマルジョン液滴、マイクロチャンバ、および上に記載の他の例または他の既知の容器内で、核酸物質を増幅することを含んでいてもよい。
一部の実施形態では、少なくとも1つの増幅するステップは、少なくとも1つの非標準的ヌクレオチドであるか、またはそれを含む少なくとも1つのプライマーを含む。一部の実施形態では、非標準的ヌクレオチドは、ウラシル、メチル化ヌクレオチド、RNAヌクレオチド、リボースヌクレオチド、8-オキソ-グアニン、ビオチン化ヌクレオチド、ロックド核酸、ペプチド核酸、高Tm核酸バリアント、アレルを区別する核酸バリアント、本明細書の他箇所に記載の任意の他のヌクレオチドもしくはリンカーバリアント、またはこれらの任意の組み合わせから選択される。
任意の用途に適した増幅反応が、一部の実施形態に適合することが企図されるが、具体例として、一部の実施形態では、増幅ステップは、ポリメラーゼ連鎖反応(PCR)、ローリングサークル増幅(RCA)、多置換増幅(MDA)、等温増幅、エマルジョン内のポロニー増幅、表面、ビーズの表面、またはヒドロゲル内でのブリッジ増幅、およびこれらの任意の組み合わせ、であってもよいか、またはこれらを含んでいてもよい。
一部の実施形態では、核酸物質を増幅することは、核酸物質の各鎖の5’末端および3’末端上のアダプタ配列の領域に少なくとも部分的に相補的な一本鎖ヌクレオチドの使用を含む。一部の実施形態では、核酸物質を増幅することは、目的の標的領域または標的配列(例えば、ゲノム配列、ミトコンドリア配列、プラスミド配列、合成的に生成された標的核酸など)に少なくとも部分的に相補的な少なくとも1つの一本鎖オリゴヌクレオチドと、アダプタ配列のある領域(例えば、プライマー部位)に少なくとも部分的に相補的な一本鎖オリゴヌクレオチドと、の使用を含む。
一般に、安定した増幅(例えば、PCR増幅)は、反応条件に大きく依存し得る。マルチプレックスPCRは、例えば、緩衝液の組成、一価または二価カチオンの濃度、洗剤濃度、クラウディング剤(すなわち、PEG、グリセロールなど)の濃度、プライマー濃度、プライマーTm、プライマー設計、プライマーGC含有量、プライマー修飾ヌクレオチド特性およびサイクリング条件(すなわち、温度および伸長時間、ならびに温度変化速度)に対して感受性な場合がある。緩衝液の条件の最適化は、困難かつ時間がかかるプロセスである場合がある。一部の実施形態では、増幅反応は、既に知られている増幅プロトコルに従って、緩衝液、プライマープール濃度、およびPCR条件、のうちの少なくとも1つを使用してもよい。一部の実施形態では、新しい増幅プロトコルが作成されてもよく、かつ/または増幅反応の最適化が使用されてもよい。具体例として、一部の実施形態では、PCR最適化キット、例えば、Promega(登録商標)のPCR最適化キットを使用してもよく、このキットは、様々なPCR増幅(例えば、マルチプレックス、リアルタイム、GCリッチおよび阻害剤耐性増幅)に部分的に最適化された、いくつかの予め配合された緩衝液を含む。これらの予め配合された緩衝液は、様々なMg2+濃度およびプライマー濃度、ならびにプライマープール比で迅速に補充することができる。これに加え、一部の実施形態では、様々なサイクリング条件(例えば、サーマルサイクリング)が、評価および/または使用されてもよい。特定の実施形態が、特定の所望の用途に適切であるかどうかを評価する際に、他の側面の中でも、特異性、ヘテロ接合性遺伝子座についてのアレルカバレッジ比、遺伝子座間のバランスおよび深度、のうちの1つ以上を評価してもよい。増幅成功の測定は、産物のDNA配列決定、ゲルまたはキャピラリー電気泳動またはHPLCまたは他のサイズ分離方法と、その後の断片の視覚化による産物の評価、二本鎖核酸結合色素または蛍光プローブを使用する融解曲線分析、質量分析法または当該技術分野で知られている他の方法を含んでいてもよい。
様々な実施形態に従って、様々な因子のいずれかが、特定の増幅ステップの長さ(例えば、PCR反応中のサイクル数など)に影響を与えることがある。例えば、一部の実施形態では、提供される核酸物質は、品質が劣っているか、さもなければ最適ではない場合がある(例えば、分解および/または汚染されている)。かかる場合、より長い増幅ステップが役に立つことがあり、所望の産物が許容される程度に増幅されることを確実にすることができる。一部の実施形態では、増幅ステップは、各々の出発DNA分子から平均で3~10個の配列決定されたPCRコピーを提供し得るが、他の実施形態では、第1の鎖および第2の鎖の各々の単一コピーだけが必要とされる。特定の理論に縛られることを望むものではないが、多すぎるまたは少なすぎるPCRコピーは、アッセイ効率を低下させ、最終的には深度が低下する可能性がある。一般に、増幅(例えば、PCR)反応に使用される核酸(例えば、DNA)断片の数は、同じSMI/バーコード配列を共有するリードの数を規定し得る、主要な調節可能な変数である。
核酸物質
種類
様々な実施形態に従って、様々な核酸物質のうちいずれかを使用してもよい。一部の実施形態では、核酸物質は、標準的糖-リン酸骨格内のポリヌクレオチドに対する少なくとも1つの修飾を含んでいてもよい。一部の実施形態では、核酸物質は、核酸物質中の任意の塩基内に少なくとも1つの修飾を含んでいてもよい。例えば、非限定的な例として、一部の実施形態では、核酸物質は、二本鎖DNA、一本鎖DNA、二本鎖RNA、一本鎖RNA、ペプチド核酸(PNA)、ロック核酸(LNA)のうちの少なくとも1つであるか、またはこれらを含む。
修飾
様々な実施形態に従って、核酸物質は、特定の提供される方法または組成物が使用される用途に応じて、任意の特定のステップの前に、実質的に同時に、またはその後に、1つ以上の修飾を受けてもよい。
一部の実施形態では、修飾は、核酸物質の少なくとも一部の修復であってもよいか、またはそれを含んでいてもよい。核酸修復の任意の用途に適した方法が、一部の実施形態に適合すると企図されるものの、特定の例示的な方法および組成物を以下および実施例に記載する。
非限定的な例として、一部の実施形態では、DNA修復酵素、例えば、ウラシル-DNAグリコシラーゼ(UDG)、ホルムアミドピリミジンDNAグリコシラーゼ(FPG)および8-オキソグアニンDNAグリコシラーゼ(OGG1)を利用して、DNA損傷(例えば、インビトロでのDNA損傷)を修正することができる。上述のように、これらのDNA修復酵素は、例えば、DNAから損傷した塩基を除去するグリコシラーゼである。例えば、UDGは、(シトシンの自発的な加水分解によって生じる)シトシン脱アミノ化から得られるウラシルを除去し、FPGは、8-オキソ-グアニン(例えば、活性酸素種から得られる共通のDNA病変)を除去する。FPGは、リアーゼ活性も有し、脱塩基部位に1塩基ギャップを生成することができる。かかる脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、その後にPCRによって増幅することができない。したがって、かかるDNA損傷修復酵素の使用は、真の変異を有していないが、配列決定および二重鎖配列分析の後に別の状況でエラーとして検出されない可能性がある損傷DNAを効果的に除去することができる。
上述のように、さらなる実施形態では、本明細書に記載の処理ステップから生成される配列決定リードをさらにフィルタリングして、アーチファクトに最もなりやすいリードの末端をトリミングすることによって、偽の変異を除外することができる。例えば、DNA断片化は、二本鎖分子の末端に一本鎖部分を生成することができる。これらの一本鎖部分は、末端修復中に末端平滑化されてもよい(例えばKlenowによって)。一部の例では、ポリメラーゼは、これらの末端修復した領域においてコピーの誤りを起こし、「偽の二重鎖分子」の生成を引き起こす。これらのアーチファクトは、配列決定されたときに真の変異であると見えてしまう場合がある。これらの末端修復機構の結果としてのエラーは、生じる可能性がある変異を除外するために配列決定リードの末端をトリミングすることによって、配列決定後の分析から除外することができ、それにより、偽の変異の数を減らすことができる。一部の実施形態では、配列決定リードのかかるトリミングは、自動的に達成することができる(例えば、通常の処理ステップ)。一部の実施形態では、変異頻度は、断片末端領域について評価することができ、変異の閾値レベルが断片末端領域で観察される場合、DNA断片の二本鎖コンセンサス配列リードを生成する前に、配列決定リードのトリミングを行うことができる。
デュプレックス配列決定の鎖比較技術によって提供される高度なエラー修正は、標準的な次世代配列決定方法と比較して、二本鎖核酸分子の配列決定エラーを数桁程度減少させる。このエラーの減少は、ほぼ全てのタイプの配列において、配列決定の精度を向上させるが、特にエラーが起こりやすいことが当該技術分野で周知である生化学的に困難な配列に対して、特によく適している場合がある。かかる種類の配列の非限定的な一例は、ヘテロポリマーまたは他のマイクロサテライト/ショートタンデムリピートである。デュプレックス配列決定のエラー修正から利益を得るエラーが起こりやすい配列の別の非限定的な例は、例えば、加熱、放射線、機械的応力、または1つ以上のヌクレオチドポリメラーゼによる複製中にエラーを起こしやすい化学付加物を生成し、また分子の末端で、またはニックおよびギャップとして一本鎖DNAを生成する様々な化学曝露によって損傷を受けた分子である。さらなる実施形態では、デュプレックス配列決定は、二本鎖核酸分子の集団の中で少数の配列バリアントを正確に検出するために使用することができる。本出願の非限定的な一例は、多数のDNA分子の中から、少数のバリアントDNA分子を検出することである(例えば、遺伝性の疾患または障害を表すバリアントアレル)。例えば、多くの患者試料は、希少な遺伝性疾患と相関するまたはその原因となるバリアントアレルについてスクリーニングされ得る。デュプレックス配列決定による希少なバリアントの検出のための別の非限定的な用途は、関連する遺伝性疾患の後期症状を提示し得る、および/またはかかる遺伝的バリアントアレルを子孫に渡すことができる遺伝的バリアントアレルの保因者の早期検出である。デュプレックス配列決定のさらなる非限定的な用途は、大規模な患者集団において、バリアントアレル頻度を決定することである。デュプレックス配列決定の別の非限定的な用途は、費用効果的な様式で疾患原因または疾患相関的な遺伝的バリアントの存在を評価するための複数の生体試料を遺伝子型決定することである。
III.プーリングを介して多数の試料を遺伝子型決定するための方法の選択された実施形態
多くの希少な遺伝性疾患は、症状が生じた後にのみ個体で検出され、治療を遅らせ、取り返しのつかない危害をもたらす可能性がある。1つ以上の遺伝子におけるホモ接合性またはヘテロ接合性バリアントを有するこれらの患者の特定のサブセットに利益をもたらし得る既存のまたは開発されるべき薬物は、集団のかかるサブセットが特定され得る場合、早期に(例えば、症状の発症前に)投与され得る。したがって、大集団の中で希少な疾患アレルの保因者を特定する問題は、早期介入のための患者のスクリーニング、ならびに新規のバイオマーカー/候補の創薬に関連する。加えて、希少な疾患アレルの保因者の特定を使用することで、かかる疾患アレルを子孫に受け渡すことに関連するリスクについて、患者および医療提供者に通知することができる(例えば、遺伝子カウンセリング等の目的のために)。
従来のNGSに基づく配列決定方法を使用して、希少な遺伝的バリアントをスクリーニングすることは、各試料を個別に調製すること、およびかかる試料を配列決定することに関連する高い金銭的コストをもたらす。例えば、各試料は、多重配列決定のために試料をプールする前に、個別にインデックスバーコード化されなければならない。したがって、ライブラリ調製および各試料の配列決定のコストは、試料の数と共に直線的に上昇することから、多数のスクリーニングは(例えば、患者集団、人種集団など)、費用対効果の低いツールになる。しかしながら、本技術に従う実施形態では、試料調製のコストは、試料の数と共に直線的に上昇しない。
本開示は、次世代DNA配列決定を使用して多数の核酸試料をスクリーニングし、遺伝子型決定するための方法、および各試料について配列決定データを区別するための多重化ツールを本明細書に開示する。一実施形態では、方法は、元の核酸試料の未インデックス化混合物を配列決定することによって、複数の試料の中から比較的まれに発生するバリアントを特定することができる。
一部の実施形態では、提供される方法は、試料を、調製および配列決定され得るサブプールされる試料混合物にプールすることを介して、複数の生体試料を遺伝子型決定するために有用である。一部の実施形態では、提供される方法は、遺伝的バリアントについて生物源をスクリーニングするために有用である。一部の実施形態では、遺伝的バリアントは、希少な疾患に関連している。一部の実施形態では、提供される方法は、対象の集団の中から希少なバリアントアレルを有する対象を特定するために有用である。一部の実施形態では、提供される方法は、希少なバリアントアレルについて患者DNA試料をスクリーニングするために有用である。
一実施形態では、本技術の態様に従う、複数の生体試料を遺伝子型決定するための方法は、概して、複数の生体試料を固有の組み合わせのサブプールにプールするステップを含み、各生体試料は、標的二本鎖DNA分子を含む。一実施形態では、生体試料のうちの1つ以上は、異なる対象に由来し得る。二本鎖DNA分子は、対象に由来する試料(例えば、組織試料、血液試料など)から抽出することができる。一部の実施形態では、二本鎖DNA分子は、非細胞DNA、例えば、無細胞DNAまたは対象由来のエクソソームもしくは他の細胞外小胞からのDNA、から単離することができる。一部の実施形態では、人工供給源(例えば、合成オリゴヌクレオチド、遺伝子編集試料、作製された細胞集団、作製されたウイルス試料、情報保管を提供する合成ヌクレオチドなど)の遺伝子型決定および/またはスクリーニングも企図される。
一部の実施形態では、提供される方法は、サブプール中の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することを含む。特定の実施例では、エラー修正配列リードは、デュプレックス配列決定を使用して生成され得る。一部の実施形態では、提供される方法は、エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することと、バリアントアレルを含む元の生体試料を決定することと、を含む。一部の実施形態では、バリアントアレル(例えば、プーリング前)を含有する元の生体試料は、バリアントアレルを含有する固有の組み合わせのサブプールを特定することによって決定することができる。
NGSのデジタル性質を使用して、本技術の態様は、サブクローン混合物を分離することができる。例えば、10人の対象から精製されたDNAの比較的均等な部分を組み合わせ、1人の対象が、他の9人の個体がそうでない特定の遺伝子についてヘテロ接合変異を保有し、これを十分な深度(すなわち、冗長なゲノムコピーの数)まで配列決定した場合、この遺伝子の分子コピーの1/2*10=1/20=5%において、このバリアントが見出されると予想されるであろう。この例では、10人の対象のDNAを一緒に混合し、単一の配列決定ライブラリを調製し、この混合物を遺伝子型決定して、1つの試料の存在を推測することが可能であろう。この例では、各々から混合された個体の数および入力されたDNAが分っているため、バリアントアレルの割合自体が、変異を保有する個体の数を示す。核酸混合物を分離するための方法の例は、国際特許出願第PCT/US2019/032755号に記載されており、その全体が本明細書に援用される。
バリアントアレルを有する対象が事前に知られていない例では、本技術の態様は、試料を試料の固有の組み合わせのサブプールにプールすることによって、複数の生体試料(例えば、多数の試料、複数の対象からの試料など)をスクリーニングおよび/または遺伝子型決定する方法を提供する。例えば、個々の生体試料(例えば、元の供給源/対象/患者に由来する核酸試料など)は、複数のサブプールされた試料混合物にアリコートまたは細分され得る(例えば、均等にまたは不均等に)。特定の実施形態では、各個々の生体試料は、2つの個々の生体試料が、サブプールされた試料混合物の同じ組み合わせにアリコートされないように、固有の組み合わせのサブプールされた試料混合物にアリコートされる。したがって、一部の実施形態では、固有の組み合わせのサブプールされた試料混合物は、固有の試料識別子として機能し得る。一実施形態では、各個々の生体試料に由来する核酸分子は、個々の生体試料をアリコートする前に、外因性のインデックスバーコードでタグ付けする必要はない。一実施形態では、サブプールされた試料混合物は、各特定のサブプールされた試料混合物中の核酸分子に由来する配列リードが、他のサブプールされた試料混合物中の核酸分子に由来する配列リードと区別され得るように、インデックスバーコードでタグ付けされる。実施形態では、個々の生体試料の数は、サブプールされた試料混合物の数を上回る。
一部の実施形態では、個々の生体試料の異なる組み合わせを含有する複数のサブプールされた試料混合物は、バリアントアレル(例えば、遺伝子変異、疾患関連アレルなど)の存在について、デュプレックス配列決定を介して分析することができる。サブプールされた試料混合物の特定の組み合わせにおける特定のバリアントアレルを明らかにする配列決定リードは、寄与者の推論を可能にする。
多数の試料を効率的に遺伝子型決定するための方法の一実施形態を図2に示す。図2に示されるように、および方法200の第1のステップでは、多数の患者試料が、より少数のプールされるDNA試料にプールされる(ブロック202)。このステップでは、各個々の核酸(例えば、DNA)試料は、DNAプールの小さい固有のサブセット、例えば、30個の利用可能なプールのうちの4個にアリコートされる。各個々の試料がアリコートされるプールの固有のサブセットは、その試料(例えば、特定の患者試料)についての固有の試料識別子(例えば、「バーコード」)を形成する。方法200はまた、関連するゲノム領域(例えば、配列決定調査領域)にわたってすべての試料プールをデュプレックス配列決定でアッセイすることを含む(ステップ204)。患者がバリアントアレル(例えば、疾患に関連するアレルまたは変異)を有する場合、そのアレルは配列決定され、その試料の固有のプールのサブセット(例えば、割り当てられた固有の試料識別子によって特定される)のプールの各々で生成された配列リードに表される。方法200は、一致する固有の試料識別子を照会することによって、バリアントアレル寄与試料を分離することをさらに含む(ステップ206)。
別の実施形態では、本明細書に記載の方法は、サブプールされた試料混合物(例えば、本明細書では「サブプール」とも称される)中に存在する各バリアントアレルのバリアントアレル頻度(VAF)を提供し、これを使用して、個々の対象が、特定の遺伝的バリアント(例えば、疾患関連変異)についてホモ接合性であるかまたはヘテロ接合性であるかを決定することができる。非限定的な一例では、10個の試料を5つの定義されたサブプールにアリコートし、各サブプールが各々5つのアリコートされた試料を有し、各プールへの寄与者が異なる場合、固有の組み合わせのサブプール内の各サブプールにおける1/5×1/2=10%のVAFの存在は、スクリーニングされた個々の対象の集団内のヘテロ接合変異体の個々の対象の存在を示すであろう。特定の遺伝的バリアントが10%のVAFを有していると特定された固有の組み合わせのサブプールは、特定の個々の対象を推測するために、固有の試料識別子(例えば、サブプールされた試料混合ステップ中に確立されたアリコートのパターン)として使用される。見出されたバリアントアレル/変異を有するサブプール(例えば、プレートウェル、チューブ、混合容器など)のパターンが、変異を有する可能性のある個体の数を、正確に1人または10人のサブセットに絞り込むことができるように、様々な混合スキームが適用され得ることは、当業者には明らかであろう。
一部の実施形態では、生成されるサブプールの数および各サブプールに表される個々の生体試料の数は、回収されない変異または偽の変異に起因するエラーが、この変異に寄与する個体を不可逆的に不明瞭にしないように、それらのパターン間に「編集距離」を作成することが可能である(すなわち、パターンはいくつかのエラーを許容する)。同様に、所与のバリアントがプールされたいくつかの試料中に存在し、所与のサブプールがこれらの複数からの寄与を有する場合、所与のバリアントの希少性が低下するにつれて、この確率はより高くなり、区別がより困難になり得る。かかる「編集距離」アプローチは、ここでもさらに有用になる。
エラー修正配列リードを生成することによって、本明細書に提示される実施形態は、標準NGSに関連付けられた約1%のエラー率を伴う課題を克服する。例えば、100人以上の個体の混合物中の低頻度(例えば、希少な)バリアントアレルは、標準的なNGS配列決定を使用した場合、生じた人工的な変異によって不明瞭になり、シグナルを歪める(例えば、エラーノイズによって真のバリアントアレルの検出が不明瞭になる)。本明細書および他箇所に記載されるように、デュプレックス配列決定などの高精度配列決定リードを提供する方法は、これらのエラーを低減または排除して、数百または数千個の試料の混合を可能にし、依然として高い感度および特異性を有する元となる供給源を確信的に検出することができる。
個々の試料中にバーコード化核酸分子を個別にインデックス化することなく、固有の試料識別子を提供するためのサブプーリングのアプローチを含む様々な実施形態は、コスト節約の閾値(例えば、10、20、30など)を下回るいくつかの試料をスクリーニングおよび/または遺伝子型決定する場合、より最小限のコスト節約を有し得るが、数百または数千の試料をスクリーニングおよび/または遺伝子型決定する場合、サブプールされた試料混合物の実際のライブラリ調製に関連するコスト節約および時間節約は劇的に増加するであろう。表1は、関連する性能特性と共に、様々な固有の試料識別子(すなわち、プールの「バーコード」スキーム)を示す。
Figure 2022505050000001
例えば、生成されたサブプールされた試料混合物の数が増加するにつれて(表1、第2の列)、一意的に特定され得る個々の生体試料の数(各試料を4つのサブプールにアリコートする場合)が非線形に増加する(第3の列を参照)。サブプールあたりの平均試料数が200未満である場合、サブプールの数を15から約40に増やすと、試料調製物/試料の数(第6の列を参照)が急速に減少する。各個々の試料の配列決定のコストは、調製および配列決定される試料の数と直線的にスケールするため、サブプールされた試料混合物のスキームを使用する場合、試料あたりの配列決定ライブラリ調製および配列決定に関連するコストは低下する。別の言い方をすれば、本技術に従う実施形態では、試料調製物のコストは、個々の試料の数の増加と共に直線的には増加しない。
図3は、本技術の一実施形態に従う、試料プーリングのスキームのためのコストおよび性能のメトリックを示すプロットである。非限定的な例として、図3は、固有の試料識別子間で少なくとも2の編集距離を必要としながら、4つのサブプールを各個々の試料に割り当てるプーリングスキームを示す(例えば、少なくとも2つのプールは、各試料サブプールの組み合わせ間で異なる)。試料が割り当てられるいくつかのサブプールに加えて、様々な編集距離を使用することができることを理解されたい(例えば、試料識別子またはコードの長さを変えること)。
一例として、ハミングコードまたは任意の他の公開または未公開のエラー修正コードを使用して、十分な編集距離を有する固有の試料識別子を決定することができる。一部の実施形態では、互いに少なくとも2の「編集距離」を有する固有の試料識別子。例えば、少なくとも2つのサブプールに、誤って特定された遺伝子型が存在して、不正確な試料を特定の遺伝的バリアントの保因者のものとして呼び出すこと、または2つの個体の試料のうちのどれが保因者のものであるのかを区別することができないことがあるはずである。別の実施形態では、わずか1または2よりも多い編集距離を使用することもできる。
さらなる実施形態では、試料を異なる数のプールに割り当てて、固有の試料識別子間にさらなる区別を提供することができる。表1に例示される特定の実施例では、および任意の所与のサブプールを配列決定用に2回以上調製する必要を回避するために、一実施形態では、平均200試料/プールを有し得る。図3に示すように、より多くのサブプールを追加すると、単一の研究で調査可能な試料の数は大幅に増加するが、試料あたりの試料調製のコストは、約40プールまでに急激に減少する。したがって、一部の実施形態では、サブプールされた試料混合物(すなわち、サブプール)の数は、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、42、45、47、50、52、55、57、60、62、65、67、70、またはそれ以上であり得る。例えば、サブプールされた試料混合物の数は、15~約40、約30~約50、約35~約55、約40~約60、または60超であり得る。
一部の実施形態では、遺伝的バリアントについて生物源をスクリーニングするための方法が提供される。特定の実施例では、個々の対象(例えば患者)の大きな集団をスクリーニングして、その集団の任意のメンバーがある疾患または障害に関連する1つ以上の遺伝的バリアントの保因者であるかどうかを決定するために有用である。一実施形態では、本方法は、生物源に由来する複数の生体試料を、固有の組み合わせのサブプールにアリコートすることを含むステップを提供し、各生体試料は、標的二本鎖DNA分子を含む。一実施形態では、各生体試料は、2つ以上のサブプールにアリコートされ、その結果、固有の組み合わせのサブプールにより、試料識別子が提供される。一実施形態では、本方法は、サブプール中の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成するステップと、エラー修正配列リードから1つ以上のバリアントアレルの存在を特定するステップと、バリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、バリアントアレルを含有する生物源を決定するステップと、を提供する。
一部の実施形態では、各サブプールされた試料混合物内の標的二本鎖核酸分子の集団の高精度の配列決定リードを生成する方法が提供される。かかる方法は、各サブプールされた試料混合物内の1つ以上の標的二本鎖核酸分子をデュプレックス配列決定することと、標的二本鎖DNA分子について高精度のコンセンサス配列を生成することと、を含む。一部の実施形態では、標的二本鎖核酸分子は、疾患または障害(例えば、癌、非癌疾患、希少な遺伝性疾患など)に関連する標的ゲノム領域または遺伝子座を含む。一部の実施形態では、提供される方法は、標的ゲノム遺伝子座の配列を含む1つ以上のエラー修正配列リードを、参照配列と比較することをさらに含む。
一部の実施形態では、複数の二本鎖DNA分子の各々についてのエラー修正配列リードの生成は、配列決定の前に1つ以上の標的ゲノム領域を選択的に富化して、複数の富化されたアダプタ-DNA分子を提供することをさらに含む。一部の実施形態では、提供される方法は、サブプールされた試料混合物内の二本鎖DNA分子(例えば、遺伝的バリアントを有する対象に由来する、および/またはそれから抽出された二本鎖DNA分子)の中から1つ以上の遺伝的バリアントを特定するために有用である。一部の実施形態では、提供される方法は、サブプールされた試料混合物内の二本鎖DNA分子の中から1つ以上の遺伝的バリアントを特定するステップを含む。
一部の実施形態では、デュプレックス配列決定方法によって分析される1つ以上の標的ゲノム領域は、ゲノムの標的ゲノム遺伝子座であるか、またはそれを含む。一部の実施形態では、提供される方法は、1つ以上のエラー修正配列リードが、標的ゲノム遺伝子座に希少なまたは疾患関連の遺伝的バリアントを含むかどうかを決定するステップを含む。したがって、提供される方法は、目的の特定の遺伝的バリアントの保因者について、対象の集団を評価またはスクリーニングするのに有用であり得る。例えば、1つ以上の標的ゲノム領域は、疾患原因変異を有することが知られている遺伝子を含む。一部の実施形態では、疾患原因変異は、機能喪失変異、機能獲得変異、または優性阻害変異であるか、それらを含む。別の実施形態では、1つ以上の標的ゲノム領域は、疾患または障害に関連することが知られている遺伝子座を含む。一実施形態では、疾患または障害は、希少な遺伝性障害である。一実施形態では、疾患または障害は、単一遺伝子障害である(例えば、変異が、単一の遺伝子に見出される)。別の実施形態では、疾患または障害は、2つ以上の遺伝子における変異を伴う複合障害である。一実施形態では、疾患または障害は、常染色体劣性変異に関連する。別の実施形態では、疾患または障害は、常染色体優性変異と関連する。
一部の実施形態では、対象(例えば、数百または数千の対象)の集団を効率的にスクリーニングするための方法が、本明細書に提供される。一部の実施形態では、提供される方法は、標的ゲノム遺伝子座の配列を含むエラー修正配列リードの中の遺伝的バリアントの頻度を決定するステップを含む。一部の実施形態では、遺伝的バリアントの保因者が、遺伝的バリアントについてホモ接合であるかまたはヘテロ接合であるかを決定するための方法が、本明細書に提供される。一部の実施形態では、集団の中の遺伝的バリアントの頻度、例えば、表された集団における特定の遺伝的バリアントの保因者の頻度、を決定するための方法が、本明細書に提供される。
一部の実施形態では、提供される方法は、1つ以上の標的ゲノム遺伝子座からの配列を含む二本鎖DNA分子に由来する第1の鎖の配列リードと第2の鎖の配列リードとの間の1つ以上の対応関係を分析することと、その対応関係を参照ゲノム配列と比較することと、1つ以上の標的ゲノム遺伝子座を含む複数の二本鎖DNA分子の中の1つ以上のバリアントの頻度を決定することと、を含む。一部の実施形態では、1つ以上の標的ゲノム遺伝子座(例えば、1、2、3、4、5、6、7、8、9、10個、またはそれ以上)の遺伝的バリアントを遺伝子型決定および/またはスクリーニングするための方法が、本明細書に提供される。
一部の実施形態では、標的ゲノム遺伝子座は、腫瘍抑制遺伝子、癌遺伝子、癌原遺伝子、および/または癌ドライバーであるか、それらを含む。一部の実施形態では、癌ドライバーは、Cancer Gene Census(CGC)またはCOSMICデータベース(癌に因果関係のある遺伝子)からの既知の癌ドライバーである。一部の実施形態では、癌ドライバー遺伝子は、ABL、ACC、BCR、BLCA、BRCA、CESC、CHOL、COAD、DLBC、DNMT3A、EGFR、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PI3K、PIK3CA、PRAD、PTEN、RAS、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、TP53、UCEC、UCS、および/またはUVM、であるか、またはこれらを含む。一部の実施形態では、バリアントが、分子の集団中の複数の富化されたタグ付けDNA分子の中の1つ以上の癌ドライバーにおいて検出される場合、本方法は、複数の富化されたタグ付けDNA分子の中のバリアントのバリアント頻度を決定するステップをさらに含んでもよい。
一部の実施形態では、標的ゲノム領域は、希少な遺伝性障害または疾患に関連する既知の遺伝子もしくは遺伝子座であるか、またはそれを含む。一部の実施形態では、希少な遺伝性障害または疾患についてヒト患者をスクリーニングするための方法が提供される。希少な遺伝性障害または疾患のいくつかの非限定的な例としては、フェニルケトン尿症(PKU)、嚢胞性線維症、鎌状赤血球貧血、いくつかの形態の白皮症、ハンチントン病、筋強直性ジストロフィー1型、家族性高コレステロール血症、神経線維腫症、多発性嚢胞腎疾患1および2、血友病AおよびB、筋ジストロフィー(デュシェンヌ型)、低リン血症性くる病、レット症候群、テイ・サックス病、ウィルソン病、ウェルナー症候群、致死性家族性不眠症、ならびに/または精子形成不全の遺伝的形態が挙げられる。一部の実施形態では、希少な遺伝性障害または疾患ならびに関連する標的ゲノム遺伝子座は、https://www.omim.orgおよびhttps://www.ncbi.nlm.nih.gov/clinvar/に見出されるものであるか、またはこれらを含み、これらは、参照により本明細書に援用される。
一実施形態では、標的ゲノム領域は、肥満の希少な遺伝性障害と関連するゲノム遺伝子座であるか、またはそれを含む。例えば、肥満の希少な遺伝性障害は、プロオピオメラノコルチン(POMC)欠乏性肥満、アルストレム症候群、レプチン受容体(LEPR)欠乏性肥満、プラダー・ウィリー症候群(PWS)、バルデー・ビードル症候群(BBS)、および高影響ヘテロ接合性肥満であるか、またはこれらを含む。
別の実施形態では、本明細書に提供される方法は、非ヒト(例えば、非動物)試料のハイスループットスクリーニングに有用であり得る。一実施形態では、本明細書で使用される方法は、植物(例えば、遺伝子編集された植物細胞、植物ハイブリッド、デザイナー植物種)に由来する試料のスクリーニングに有用であり得る。別の実施形態では、変異誘発植物細胞は、所望の遺伝子修飾について迅速かつ効率的にスクリーニングすることができる。
別の実施形態では、遺伝的バリアントが、個々の生体試料(例えば、2、3、4、5、またはそれ以上の保因者)の間で2回以上生じることが予想されるのに十分一般的である場合、バリアントを含む異なるハプロタイプを、同じ配列決定リード上の他のバリアントから一意的に特定することができる。この実施形態では、遺伝的バリアントは、(a)ゲノム上で、一塩基多型(SNP)の近位にあり、かつ(b)SNPと完全な連鎖不均衡ではないであろう。したがって、2つの個体が同じ疾患アレルを共有するが、近位SNPについてそれらの遺伝子型が異なる場合、それらは、一意的に特定され得る。例えば、疾患バリアントおよびSNPの両方にまたがる任意の配列決定リードを使用して、バリアントの2つの事例を区別することができる。
リスクがあるアレルが、研究内の複数の生体試料において生じることが予想されるのに十分一般的であるさらなる実施形態では、サブプール中のバリアントアレルのバリアント頻度を使用して、サブプール中にいくつの試料がバリアントアレルを有するかを推定することができ、それによって、いくつかのプール中で重複する複数の保因者の逆重畳を可能にする。
一部の実施形態では、より少ないサブプールを作成することができ、かつ/またはより複雑でない固有の試料識別子(例えば、プールの「バーコード」)を使用することができる。特定の実施例では、多くの個々の試料は、同じ固有の試料識別子(例えば、「一意的ではない」特定可能な/標識された識別子)を割り当てることができる。試料のデュプレックス配列決定後、疾患アレル保因者は、一意的に特定されないが、個々の配列決定スキーム(例えば、サンガー配列決定、NGSなど)で調べることができる、元の試料の短いリストに保因者を効率的に絞り込むことができる。したがって、一部の実施形態では、かかる方法は、後続の配列決定アッセイで求められるために、非常に大きな試料集団を、より合理的な数の試料に効果的かつ効率的に絞り込むことができる。
一部の実施形態では、試料または試料のグループに逆多重化インデックスを付け加えることは、サブプーリングのプロセスの前に使用することができ、同じ試料識別子を有するが依然として互いに区別可能な試料をプールすることを可能にする。
一実施形態では、任意の特定の疾患アレルがプール中に存在していたかどうかを特定するために、多数の試料(例えば、数百、数千など)を単一のプール中で配列決定することができる。一実施形態では、かかるステップは、試料のサブプールを配列決定する前に取ることができる。例えば、「単一プール」の実施形態は、次いで、本明細書の他の実施形態に記載されるより高価な(例えば、コスト、時間など)研究を実行するためのゲーティング機構として使用され得る。特に、単一プールの研究が、研究集団において発見されるリスクのあるアレル保因者が存在することを示す場合にのみ、サブプーリングスタディを実行することを選択してもよい。
またさらなる実施形態では、各試料がより多くのプールにアリコートされ、各プールがより低い深度で配列決定される場合、配列決定コストを低減することができる。より低い深度で配列決定する場合、いくつかのバリアントアレルは、それが存在するプール中で配列決定されなくてもよい。しかしながら、各試料が、配列決定の前により多くの数のサブプール中に表される場合、特定されるバリアントアレルは、依然として、元の寄与試料に特定され得る。例えば、各試料を8つのサブプールにアリコートすることができ、各サブプールは、バリアントが約30%の時間に検出されないことが予想されるように深度まで配列決定される。この実施例では、編集距離が4である一意の試料識別子を使用して、ほとんどのバリアントを単一の元の試料に関連付けることができる。一部の実施形態では、各元の試料は、1、2、3、4、5、6、7、8、9、10、またはそれ以上のサブプールにアリコートすることができる。
試薬を用いたキット
本技術の態様は、さらに、デュプレックス配列決定方法の様々な態様を実施するためのキットを包含する(本明細書では「DSキット」とも呼ばれる)。一部の実施形態では、キットは、核酸抽出、核酸ライブラリ調製、増幅(例えば、PCRによる)および配列決定について、本明細書に開示される方法または方法ステップのうちの1つ以上を実施するための説明書と共に、様々な試薬を含んでいてもよい。一実施形態では、キットは、配列決定データ(例えば、生の配列決定データ、配列決定リードなど)を分析するためのコンピュータプログラム製品(例えば、コンピュータ上で実行するためのコード化されたアルゴリズム、1つ以上のアルゴリズムを実行するためのクラウドベースのサーバへのアクセスコード)をさらに含み、本技術の態様に従って、例えば、試料に関連するバリアントアレル、変異などを決定する。キットには、DNA標準、ならびに陽性および陰性対照の他の形態が含まれ得る。
一部の実施形態では、DSキットは、試料調製(例えば、DNA抽出、DNA断片化)、核酸ライブラリ調製、増幅および配列決定の様々な態様を行うのに好適な試薬または試薬の組み合わせを含んでいてもよい。例えば、DSキットは、任意選択的に、1つ以上のDNA抽出試薬(例えば、緩衝液、カラムなど)および/または組織抽出試薬を含んでいてもよい。任意選択的に、DSキットは、さらに、例えば、物理的手段(例えば、音響剪断または超音波処理を容易にするための管、ネブライザユニットなど)または酵素的手段(例えば、無作為または半無作為のゲノム剪断のための酵素および適切な反応酵素)によって、二本鎖DNAを断片化するための1つ以上の試薬またはツールを含んでいてもよい。例えば、キットは、標的の消化のために、酵素(例えば、制限エンドヌクレアーゼ、CRISPR/CasエンドヌクレアーゼおよびRNAガイド、ならびに/または他のエンドヌクレアーゼ)、二本鎖フラグメンターゼカクテル、DNAの断片を主に二本鎖にするため、および/または一本鎖DNAを破壊するための一本鎖DNase酵素(例えば、マングビーンヌクレアーゼ、S1ヌクレアーゼ)のうちの1つ以上を含む二本鎖DNAを酵素的に断片化するためのDNA断片化試薬と、かかる酵素反応を容易にするための適切な緩衝液および溶液とを含んでいてもよい。
一実施形態では、DSキットは、デュプレックス配列決定プロセスのステップを行うのに好適な試料から核酸配列ライブラリを調製して、試料中の二本鎖核酸分子のエラー修正(例えば、高精度の)配列を生成するためのプライマーおよびアダプタを含む。例えば、キットは、単一分子識別子(SMI)配列を含むアダプタ分子の少なくとも1つのプール、またはユーザがこれを作成するためのツール(例えば、一本鎖オリゴヌクレオチド)を含んでいてもよい。一部の実施形態では、アダプタ分子のプールは、試料中の複数の核酸分子が、アダプタ分子の結合後に、実質的に固有に標識され得るように、いずれか単独でまたはライゲーションされる断片の固有の特徴と組み合わせて、好適な数の実質的に固有のSMI配列を含む。当業者は、分子タグ化において、「好適な」数のSMI配列を伴うものが、様々な特定の因子(入力DNA、DNA断片化の種類、断片の平均サイズ、ゲノム内で配列決定される配列の複雑性対反復性など)に応じて、数桁程度変化することを理解するだろう。任意選択的に、アダプタ分子は、さらに、1つ以上のPCRプライマー結合部位、1つ以上の配列決定プライマー結合部位、または両方を含む。別の実施形態では、DSキットは、SMI配列またはバーコードを含むアダプタ分子を含まないが、その代わりに、従来のアダプタ分子(例えば、Y字型の配列決定アダプタなど)を含み、様々な方法ステップは、分子配列リードを関連付けるために、内因性SMIを利用してもよい。一部の実施形態では、アダプタ分子は、インデックスアダプタであり、および/またはインデックス配列を含む。他の実施形態では、インデックスは、キットに供給されるプライマーを使用して、PCRによる「尾部付加(tailing in)」を通して、特定の試料に付加される。
一実施形態では、DSキットは、非相補領域および/またはいくつかの他の鎖定義要素(SDE)を各々有するアダプタ分子のセット、またはユーザがこれを生成するためのツール(例えば、一本鎖オリゴヌクレオチド)を含む。別の実施形態では、キットは、アダプタ分子の少なくとも1つのセットを含み、アダプタ分子の少なくともサブセットが、それぞれ、少なくとも1つのSMIと少なくとも1つのSDEとを含むか、またはこれらを生成するためのツールを含む。デュプレックス配列決定プロセスステップを行うのに好適な試料から核酸配列決定ライブラリを調製するためのプライマーおよびアダプタのさらなる特徴が、上に記載され、米国特許第9,752,188号、国際特許公開第WO2017/100441号および国際特許出願第PCT/US18/59908号(2018年11月8日出願)に開示され、これらは全て、それらの全体が参照により本明細書に援用される。
これに加えて、キットは、さらに、例えば、Qubit蛍光光度計(Thermo Fisher Scientific,Waltham,MAから入手可能)と共に使用するためのSYBR(商標)greenはたはSYBR(商標)gold(Thermo Fisher Scientific,Waltham,MAから入手可能)など、あるいは好適な蛍光分光計またはリアルタイムPCR機もしくはデジタルドロップレットPCR機で使用するためのPicoGreen(商標)色素(Thermo Fisher Scientific,Waltham,MAから入手可能)などのDNA結合色素などのDNA定量材料を含んでいてもよい。他のプラットフォームでのDNA定量に適した他の試薬も企図される。さらなる実施形態は、核酸サイズ選択試薬(例えば、Solid Phase Reversible Immobilization(SPRI)磁気ビーズ、ゲル、カラム)、ベイト/プレイハイブリダイゼーションを用いた標的DNA捕捉のためのカラム、qPCR試薬(例えば、コピー数決定のための)、および/またはデジタルドロップレットPCR試薬のうちの1つ以上を含むキットを含む。一部の実施形態では、キットは、任意選択的に、ライブラリ調製酵素(リガーゼ、ポリメラーゼ、エンドヌクレアーゼ、例えば、RNAインテロゲーションのための逆転写酵素)、dNTP、緩衝液、捕捉試薬(例えば、ビーズ、表面、コーティングされた管、カラムなど)、インデックスプライマー、増幅プライマー(PCRプライマー)および配列決定プライマーのうちの1つ以上を含んでいてもよい。一部の実施形態では、キットは、エラーを起こしやすいDNAポリメラーゼおよび/または高忠実度DNAポリメラーゼなどのDNA損傷の種類を評価するための試薬を含んでいてもよい。特定の条件(例えば、高GCリッチゲノム/標的)におけるPCRまたはライゲーション反応のために、さらなる添加剤および試薬が企図される。
一実施形態では、キットは、さらに、試薬、例えば、ポリメラーゼ連鎖反応(PCR)プロセスを妨害するDNA配列のエラーを修復するDNAエラー修正酵素を含む(疾患を引き起こす変異の修復と対比して)。非限定的な例として、酵素は、以下の、単機能性ウラシル-DNAグリコシラーゼ(hSMUG1)、ウラシル-DNAグリコシラーゼ(UDG)、N-グリコシラーゼ/AP-リアーゼNEIL1タンパク質(hNEIL1)、ホルムアミドピリミジンDNAグリコシラーゼ(FPG)、8-オキソグアニンDNAグリコシラーゼ(OGG1)、ヒト脱プリン/脱ピリミジンエンドヌクレアーゼ(APE1)、エンドヌクレアーゼIII(EndoIII)、エンドヌクレアーゼIV(EndoIV)、エンドヌクレアーゼV(EndoV)、エンドヌクレアーゼVIII(EndoVIII)、T7エンドヌクレアーゼI(T7EndoI)、T4ピリミジン二量体グリコシラーゼ(T4PDG)、ヒト一本鎖選択的ヒトアルキルデニンDNAグリコシラーゼ(hAAG)などのうちの1つ以上を含み、これらを利用して、DNA損傷(例えば、インビトロまたはインビボでのDNA損傷)を修正することができる。これらのDNA修復酵素のいくつかは、例えば、DNAから損傷した塩基を除去するグリコシラーゼである。例えば、UDGは、(シトシンの自発的な加水分解によって生じる)シトシン脱アミノ化から得られるウラシルを除去し、FPGは、8-オキソ-グアニン(例えば、活性酸素種から得られる共通のDNA病変)を除去する。FPGは、リアーゼ活性も有し、脱塩基部位に1塩基ギャップを生成することができる。かかる脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、その後にPCRによって増幅することができない。したがって、かかるDNA損傷修復酵素および/またはここに列挙され、当該技術分野で既知の他のものを使用して、真の変異を有していないがそれ以外はエラーとして検出されない可能性がある損傷DNAを、効果的に除去することができる。
キットは、さらに、適切な対照、例えば、DNA増幅対照、核酸(テンプレート)定量対照、配列決定対照、類似の生物源(例えば、健常な対象)に由来する核酸分子を含んでいてもよい。一部の実施形態では、キットは、細胞の対照集団を含んでいてもよい。したがって、キットは、対照を提供する好適な試薬(試験化合物、核酸、対照配列決定ライブラリなど)を含むことができ、希少な遺伝的バリアント(例えば、試料調製ステップに添加するか、または含めることができる疾患関連バリアント/変異を含む核酸分子)を含む試料について、プロトコルの確実性を決定する期待されるデュプレックス配列決定の結果を与える。一部の実施形態では、キットは、参照配列情報を含んでいてもよい。一部の実施形態では、キットは、細胞の集団中または無細胞DNA試料中の1つ以上のDNAバリアントを特定するのに有用な配列情報を含んでいてもよい。一実施形態では、キットは、試料を運搬するための容器、試料を安定化するための保管材料、試料を凍結するための材料、対象試料中のDNAバリアントを検出するための分析用の細胞試料など、を含む。別の実施形態では、キットは、核酸汚染対照標準(例えば、試験生物または対象生物とは異なる生物におけるゲノム領域に対して親和性を有するハイブリダイゼーション捕捉プローブ)を含んでいてもよい。
キットは、さらに、PCRおよび配列決定緩衝液、希釈剤、対象試料抽出ツール(例えば、シリンジ、スワブなど)を含む、商業およびユーザの観点から望ましい材料を含む1つ以上の他の容器と、使用説明書を含む添付文書とを含んでいてもよい。これに加えて、ラベルが、上に記載のような使用のための指示書と共に、容器上に提供されてもよく、かつ/あるいはこの指示書および/または他の情報が、キットに含まれる添付書類、および/またはそれに提供されるウェブサイトアドレスを介して含まれていてもよい。キットは、例えば、試料管、プレートシーラー、マイクロ遠心分離管開口具、ラベル、磁気粒子分離器、フォームインサート、アイスパック、ドライアイスパック、断熱材など、実験器具も含んでいてもよい。
キットは、さらに、電子計算デバイス(例えば、ラップトップ/デスクトップコンピュータ、タブレットなど)にインストール可能な、またはネットワーク(例えば、リモートサーバ)を介してアクセス可能なコンピュータプログラム製品を含んでいてもよく、計算デバイスまたはリモートサーバは、デュプレックス配列決定分析ステップを含む操作を行うための命令を実行するように構成された1つ以上のプロセッサを備える。例えば、プロセッサは、生の配列決定リードまたは未分析配列決定リードを処理して、デュプレックス配列決定データを生成するための命令を実行するように構成されていてもよい。さらなる実施形態では、コンピュータプログラム製品は、対象または試料の記録(例えば、特定の対象または試料もしくは試料群に関する情報)と、DNAの標的化領域に関する経験的に導き出された情報と、を含むデータベースを含んでいてもよい。コンピュータプログラム製品は、コンピュータ上で実行されるとき、本明細書に開示される方法のステップを行う、非一時的コンピュータ可読媒体に具現化される(例えば、図4~6を参照)。
キットは、さらに、データ(例えば、配列決定データ、レポート、他のデータ)をアップロードし、ダウンロードするためのリモートサーバ(クラウドベースのサーバを含む)にアクセスするための命令および/またはアクセスコード/パスワードなど、またはローカルデバイスにインストールされるソフトウェアを含んでいてもよい。全ての計算作業は、リモートサーバで行われ、インターネット接続などを介してユーザ/キットユーザによってアクセスされてもよい。
検出および治療の方法
多くの希少な遺伝性疾患または障害は、症状が生じた後にのみ検出され、これは晩年になるか、または取り返しのつかない危害が生じた後にのみ生じ得るが、希少なアレル(genetic allele)の存在についての個々の遺伝子検査は高額であり、一般に実用的ではない。しかしながら、本技術は、早期介入が可能となるように、疾患を引き起こす変異を検出し、アレルの保因者を特定する方法を提供する。例えば、疾患関連遺伝的バリアントを有する患者で、かかる疾患を発症するリスクがある患者は、疾患の発症を予防または遅延するために、疾患の重症度を低減するために、および/または疾患に関連するいくつかの症状を低減するために、予防的および/または治療的に処置することができる。他の実施形態では、疾患関連バリアントの保因者であるより高いリスクにある対象(例えば、リスクのある民族のメンバー、疾患の家族歴)をスクリーニングすることができ、また、必要に応じて生殖カウンセリングを提供することもできる。
一部の実施形態では、対象が疾患関連バリアントアレルの保因者である場合、対象は、遺伝毒性の疾患または障害の発症のリスクが著しく増加している(対象が劣性形質の疾患に関連するバリアントアレルのヘテロ接合性の保因者でない限り)。次いで、対象は、疾患または障害を治療するのに好適な薬剤または他の療法で予防的に治療される。追加的に、または代替的に、対象は、対象が疾患または障害の初期段階を発症したかどうかを検出するために、順次、診断検査(例えば、血液検査、さらなる遺伝子型決定など)および/または画像診断(例えば、CAT、MRI、PET、超音波、血清バイオマーカー検査など)および/または好適な医学的フォローアップ検査を受ける。非限定的な例として、ウィルソン病(例えば、ATP7B遺伝子の変異、銅輸送において役割を果たすP型ATPase)に関して、対象は、患者の身体状態を評価するために必要に応じて、血液検査、尿検査、肝臓超音波検査、および肝臓生検を受けるように指示される可能性が高い。ウィルソン病は治療可能であり、症候前のホモ接合性の患者は、予防的に治療されるべきである。例えば、確認された患者は、臓器が損傷する前に、重金属毒用の薬物を用いて典型的なスケジュールに入ることができる。
多くの遺伝性疾患および障害について、予防的治療(すなわち、発症のリスクを予防または低減する)を提供する方法、および/または障害の重症度を低減する方法は、熟練した臨床医によく知られた治療プロトコルを含み、その疾患または障害に合わせて調整されるであろう。
IV.実験例
以下の節は、デュプレックス配列決定および関連試薬を使用したプーリングを介して多数の試料を遺伝子型決定するための方法の一部の限定的な実施例を提供する。
実施例1
患者DNA試料をプールし、試料を効率的に遺伝子型決定して、遺伝的バリアントを有する患者を特定するための方法が、この実施例1に記載される。[図4]パネルA~Dは、本技術の一実施形態に従う、プーリングスキーム(パネルA)、プーリングスキームから生成されたルックアップテーブル(パネルB)、サブプールのインデックス化スキームから生成されたルックアップテーブル(パネルC)、およびルックアップテーブル(パネルBおよびC)と共に使用して、特定された遺伝的バリアントを有する患者を特定することができるバリアントアレルを含むサブプールの特定を示す。
図4のパネルAを参照すると、患者集団の各患者から抽出された生体試料は、サブプール(例えば、患者のサブセットからプールされた試料混合物)の固有のまたは実質的に固有の組み合わせにアリコートされる。パネルAに示される非限定的な例では、患者試料を4つのサブプールの各々にアリコートする。例示的な目的で、試料の分布パターンが、患者1、4、12、および15(P、P、P12、P15)についてのみ示されている。加えて、番号付けられた15人の患者および番号付けられた8つのサブプールのみが図示されているが、当業者は、患者試料の数が、示されている数(例えば、患者「P」が図示されている)よりも多くても、少なくてもよいことを理解するであろう。同様に、当業者は、サブプールの数が、パネルAに示されている数よりも多くても、少なくてもよいことを理解するであろう(例えば、サブプール「N」が示されている)。各試料がサブプールの固有のまたは実質的に固有の組み合わせにアリコートされるようにプーリングパターンを確立したら、パネルBに示されるように、パターンを、ルックアップテーブルに記録することができる。この実施形態では、サブプールの組み合わせは、固有の試料識別子として機能する。例えば、患者1(P)の固有の試料識別子は1-2-3-4であり、一方、患者4(P)に割り当てられた固有の試料識別子は1-3-5-6である。図示された例では、患者試料は、固有の試料識別子間の編集距離が少なくとも2のサブプールにアリコートされる(例えば、少なくとも2つのプールが、各試料のサブプールの組み合わせ間で異なる)。
サブプールが集まると、配列決定ライブラリ調製ステップが実行される。一実施形態では、インデックス配列は、特定のサブプールに由来するDNA分子から生成されるすべての配列リードが、後で分析のためにグループ化され得るように、アダプタタグ化二本鎖DNA分子に付加される。例えば、図4のパネルCに示すように、ルックアップテーブルを生成して、そのサブプール識別番号(例えば、1、2、3、4など)を、使用された特定のインデックス配列と相関させることができる。これらのインデックス配列は、例示目的で、AAA、BBB、CCCなどとして特定される。当業者は、インデックスバーコードの割り当てを特定するルックアップテーブルが、使用された実際のヌクレオチド配列、またはインデックス配列のセットのうちのどれがサブプールに割り当てられたのかを特定するための他のコードを含み得ることを理解するであろう。
サブプールされた試料混合物をインデックス化した後、サブプールを一緒に組み合わせ、組み合わされた混合物中のアダプタタグ付きDNA分子を配列決定することができる。一実施形態では、デュプレックス配列決定を使用して、バリアントアレルを特定することができるように、高精度のDNA配列リードを提供することができる。配列リードがエラー修正されると、それらは、ルックアップテーブル(パネルC)を使用して、インデックス配列(例えば、AAA、BBB、CCCなど)を認識することによって、元のサブプールの割り当てに従ってグループ化することができる。
図4に例証されるように、およびこの非限定的な例では、バリアントアレル(「バリアント1」)がサブプール1、3、5、6に特定された。パネルAのルックアップテーブルを参照すると、患者4(P)は、サブプール1、3、5、および6の組み合わせでDNA試料を有する唯一の患者として特定される。この例では、患者4(P)は、バリアント1の保因者として特定される。
実施例2
一例では、薬物は、疾患に関連する3つの遺伝子(遺伝子A、遺伝子B、遺伝子C)のうちの1つにおける機能の喪失を有する患者を救済することが知られている。機能の喪失は、典型的には、遺伝子についての個体の母方アレルおよび父方アレルの両方で生じる機能喪失バリアントの結果として生じる。加えて、機能喪失バリアントは、これらの遺伝子全体を通していくつもの部位で発生する。
薬物から治療的に利益を受けるであろう個体の亜集団を特定するために、1,985個の患者試料のバイオバンクを、遺伝子A、B、およびCに対応する標的ゲノム遺伝子座における既知の機能喪失変異についてスクリーニングする。標的疾患バリアントがゲノムの数キロ塩基にまたがる可能性があるため、変異体アレルについてのPCRスクリーニングは、効果的なスクリーニングツールではない。NGSは、3つ全ての疾患関連遺伝子にわたってバリアントを検出することができるが、次世代配列決定のために1,985個の試料を個別に調製するコストは非常に高い。
一例では、プロトコルは次のとおりである:
バイオバンク試料DNAが集められる40の「サブプール」を作成する。
2つの試料が互いに2つを超えるサブプールを共有しないように、1,985個の試料の各々を4つの固有の組み合わせのサブプールにアリコートする。
得られた40個のサブプールは、各々平均で約200試料のアリコートを含む。
ヘテロ接合性疾患アレルを有する集団中の未知の患者の場合、かかるアレルは、その患者の試料がアリコートされた任意の特定のサブプールの1/400の存在量で存在するであろう。
患者が遺伝子に複合ヘテロ接合性の機能喪失変異を有している場合、すなわち、遺伝子の2つの異なるバリアントについてヘテロ接合性である場合、これらのバリアントの各々は、その患者の試料がアリコートされたサブプールに1/400の存在量で存在するであろう。
従来のNGSは、約1%のエラー率を有しており、試料中のかかる低い存在量のバリアントを検出可能にするには高すぎる(例えば、1/400の存在量を有するバリアントは、配列決定エラーと区別がつかないであろう。エラー修正配列決定方法を使用して、1/400などの低い存在量のバリアントを検出する。一実施形態では、エラー修正配列決定方法は、デュプレックス配列決定である。別の実施形態では、他のコンセンサス配列決定方法(例えば、一本鎖コンセンサス配列決定)は、低い存在量のバリアントを検出することができる。
一例では、デュプレックス配列を使用して、1,985個の患者試料が40個のサブプールの間で分配されるように、40個のサブプールの各々を調査し、それによって、40個の配列決定ライブラリ(各サブプールされた試料混合物につき1つ)のみを調製する必要がある。
希少なアレルを有する各患者は、そのDNAが一意的にアリコートされた4つのサブプール中の遺伝的バリアントを特定することによって、特定することができる。
各試料が一意的にアリコートされる4つのサブプールは、他のすべての固有の試料識別子から区別可能な固有の試料識別子として機能する。特定の実施例では、各試料は、少なくとも2つのプールで異なる固有の試料識別子を有し得る。この設計は、様々なエラーに対して頑強である。例えば、希少なバリアントが1つのサブプールで検出されない場合、試料が誤って追加のサブプールにアリコートされている場合、試料が誤って1つの間違ったサブプールにアリコートされている場合、またはバリアントを含むDNA分子が特定のサブプールでの配列データを提供し損なう場合、試料は依然として一意的に特定可能であり得る。
この実施例の結果は、個体が2つの異なる疾患アレルを有する場合、複合ヘテロ接合性疾患の保因者を特定することができる。これらのアレルの各々は、固有の試料識別子に基づいて、個体に関連付けることができる。疾患アレルは、互いにシスまたはトランスのいずれかに当てはまり得るが、アレルがトランスで生じる可能性が高く、複合ヘテロ接合体を特定し、フォローアップの確証的な配列決定に好適であり得る。
さらに、結果は、多数の試料からのホモ接合性疾患アレルの保因者を特定することができる。例えば、個体が疾患アレルの2つのコピーを有している場合、アレルは、患者の固有の試料識別子(例えば、固有のサブプールセット)に存在すると共に、ヘテロ接合性バリアントのアレル頻度の2倍で存在する。したがって、患者試料がアリコートされたサブプールが、ヘテロ接合性バリアントの予想されるアレル頻度のおよそ2倍を示す場合、その患者は、推定のホモ接合性の保因者として特定することができ、確証的な配列決定が指示される。
V.遺伝子型の複合混合物を逆重畳するためのシステムおよび計算環境の実施形態
好適な計算環境
以下の考察は、本開示の態様が実装され得る好適な計算環境の一般的な説明を提供する。必要とされるわけではないが、本開示の態様および実施形態は、汎用コンピュータ(例えば、サーバまたはパーソナルコンピュータ)によって実行されるルーチンなどのコンピュータで実行可能な命令の一般的な観点で記載される。当業者であれば、本開示を、インターネット家電、携帯機器、ウェアラブルコンピュータ、セルラーホンまたは携帯電話、マルチプロセッサシステム、マルチプロセッサを使用した家電またはプログラム可能な家電、セットトップボックス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成を用いて実施することができることを理解するだろう。本開示は、以下に詳細に説明するコンピュータで1つ以上の実行可能な命令を実行するように具体的にプログラミングされ、構成されているか、または構築された特殊用途のコンピュータまたはデータプロセッサで具現化されてもよい。実際に、「コンピュータ」という用語は、本明細書で一般的に使用される場合、上述のデバイスのいずれかだけではなく、任意のデータプロセッサを指す。
本開示は、分散計算環境でも実施可能であり、タスクまたはモジュールは、リモート処理デバイスによって行われ、これらは、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)またはインターネットなどの通信ネットワークを介して接続している。分散計算環境において、プログラムモジュールまたはサブルーチンは、ローカルメモリ記憶デバイスおよびリモートメモリ記憶デバイスの両方に配置されてもよい。以下に記載される本開示の態様は、チップ(例えば、EEPROMチップ)中のファームウェアに格納されているか、またはインターネットまたは他のネットワーク(無線ネットワークを含む)によって電子的に分散される磁気および光学的に読み取り可能かつ除去可能なコンピュータディスクを含め、コンピュータ可読媒体に格納されるか、または分散されてもよい。当業者は、本開示の一部が、サーバコンピュータに存在していてもよく、一方、対応する部分がクライアントコンピュータに存在していてもよいことを理解するだろう。本開示の態様に特有のデータ構造およびデータの伝送も、本開示の範囲内に包含される。
コンピュータの実施形態(例えば、パーソナルコンピュータまたはワークステーション)は、1つ以上のユーザ入力デバイスおよびデータ格納デバイスに接続された1つ以上のプロセッサを含んでいてもよい。コンピュータは、少なくとも1つの出力デバイス(例えば、表示デバイス)および1つ以上の任意選択的なさらなる出力デバイス(例えば、プリンタ、プロッタ、スピーカ、触覚または嗅覚による出力デバイスなど)にも接続されてもよい。コンピュータは、例えば、任意要素のネットワーク接続、無線送受信機、またはこれら両方によって、外部のコンピュータに接続していてもよい。
様々な入力デバイスは、キーボードおよび/またはポインティングデバイス(例えば、マウス)を含んでいてもよい。マイクロホン、ジョイスティック、ペン、タッチスクリーン、スキャナ、デジタルカメラ、ビデオカメラ、など、他の入力デバイスが可能である。さらなる入力デバイスは、シーケンサー(例えば、超並列シーケンサー)、蛍光顕微鏡および他の実験機器などを含んでいてもよい。好適なデータ記憶デバイスは、コンピュータによってアクセス可能なデータを記憶することができる任意の種類のコンピュータ可読媒体、例えば、磁気ハードドライブおよびフロッピーディスクドライブ、光学ディスクドライブ、磁気カセット、テープドライブ、フラッシュメモリカード、デジタルビデオディスク(DVD)、ベルヌーイカートリッジ、RAM、ROM、スマートカードなどを含んでいてもよい。実際に、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)またはインターネットなどのネットワークに対する接続ポートまたはノードを含め、コンピュータ可読命令およびデータを記憶または送信するための任意の媒体を使用してもよい。
本開示の態様は、様々な他の計算環境で実施され得る。例えば、ネットワークインターフェースを備える分散計算環境は、システムに1つ以上のユーザコンピュータを含んでもよく、それらは、インターネットのワールドワイドウェブ部分内のウェブサイトを含めて、コンピュータにアクセスおよびインターネットとのデータ交換を可能にするブラウザプログラムモジュールを含んでいてもよい。ユーザコンピュータは、他のプログラムモジュール(例えば、オペレーティングシステム)、1つ以上のアプリケーションプログラム(例えば、ワードプロセシングまたはスプレッドシートアプリケーション)などを含んでいてもよい。コンピュータは、様々な種類のアプリケーションを実行するようにプログラミング可能な汎用デバイスであってもよいか、あるいはコンピュータは、特定の機能または機能群に最適化されるか、または限定される専用デバイスであってもよい。より重要なことに、ネットワークブラウザで示されるが、以下に詳細に記載されるように、ユーザにグラフィカルユーザインターフェースを提供するための任意のアプリケーションプログラムを使用してもよい。ウェブブラウザおよびウェブインターフェースの使用は、本明細書でよく知られている例としてのみ使用される。
インターネットまたはワールドワイドウェブ(「ウェブ」)に接続した少なくとも1つのサーバコンピュータは、本明細書で記載する電子メッセージ(例えば、ウェブページ、データストリーム、音声信号および電子画像)を受信し、ルーティングし、格納するための機能の多くまたは全てを実行することができる。インターネットが示されているが、イントラネットなどのプライベートネットワークが、いくつかの用途では実際に好ましい場合がある。ネットワークは、クライアントサーバアーキテクチャを有していてもよく、このとき、コンピュータは、他のクライアントコンピュータにサービスを提供するための専用コンピュータであるか、またはピアツーピアなどの他のアーキテクチャを有していてもよく、このとき、1つ以上のコンピュータは、サーバおよびクライアントとして同時に機能する。サーバコンピュータに接続するデータベースまたは複数のデータベースは、ユーザコンピュータ間で交換されるウェブページおよびコンテンツの多くを格納することができる。データベースを含むサーバコンピュータは、システムに対する悪意のある攻撃を阻止し、それに格納されるメッセージおよびデータの完全性を維持するためのセキュリティ対策(例えば、ファイアウォールシステム、セキュアソケットレイヤ(SSL)、パスワード保護スキーム、暗号化など)を採用していてもよい。
好適なサーバコンピュータは、特に、サーバエンジン、ウェブページ管理要素、コンテンツ管理要素およびデータベース管理要素を含んでいてもよい。サーバエンジンは、基本的な処理と、オペレーションシステムレベルタスクを実行する。ウェブページ管理要素は、ウェブページの作成および表示またはルーティングを処理する。ユーザは、これに関連付けられたURLを用い、サーバコンピュータにアクセスしてもよい。コンテンツ管理要素は、本明細書に記載する実施形態の機能の大部分を処理する。データベース管理要素は、データベースに関する格納および検索タスク、データベースへのクエリ、データベースの読み込み書き出し機能、および動画、グラフィックおよび音響信号などのデータの格納を含む。
本明細書に記載される機能ユニットの多くは、それらの実装独立性をより特定的に強調するために、モジュールと分類されている。例えば、モジュールは、様々な種類のプロセッサによる実行のためのソフトウェアで実装され得る。実行可能コードの識別されたモジュールは、例えば、コンピュータ命令の1つ以上の物理ブロックまたは論理ブロックを含み、この1つ以上の物理ブロックまたは論理ブロックは、例えば、オブジェクト、手順または機能として整理され得る。コンピュータ命令の特定されたブロックは、物理的に一緒に配置される必要はないが、異なる位置に格納される異なる命令を含んでいてもよく、論理的に共に結合された場合、モジュールを含み、そのモジュールの指定された目的を達成する。
モジュールはまた、カスタムVLSI回路またはゲートアレイ、論理チップなどの既製品の半導体、トランジスタまたは他の別個の要素を含むハードウェア回路として実装されてもよい。モジュールはまた、現場でプログラム可能なゲートアレイ(field programmable gate array)、プログラム可能なアレイロジック、プログラム可能なロジックデバイスなどのプログラム可能なハードウェアデバイスにも実装され得る。
実行可能コードのモジュールは、単一の命令、または多くの命令であってもよく、異なるプログラムの中で、いくつかのメモリデバイスにわたって、いくつかの異なるコードセグメントに分散されてもよい。同様に、操作データは、本明細書ではモジュール内で特定され、示されてもよく、任意の好適な形態で具現化され、任意の好適な種類のデータ構造で具現化されてもよい。操作データは、単一のデータセットとして収集されてもよいか、または異なる記憶デバイスにわたって含む異なる位置に分散されてもよく、システムまたはネットワークに対する単なる電子信号として少なくとも部分的に存在していてもよい。
複数の試料を効率的に遺伝子型決定するためのシステム
本発明は、さらに、核酸混合物を含む生体試料を処理し、有線または無線のネットワークを介して配列決定データをサーバに送信して、試料のエラー修正配列リード(例えば、デュプレックス配列リード、デュプレックスコンセンサス配列など)、遺伝子型の特定、個々の/起因性の遺伝子型の定量などを決定するシステム(例えば、ネットワーク型コンピュータシステム、ハイスループット自動化システムなど)を含む。
以下にさらに詳細に説明するように、また、図5に示される実施形態に関して、複数の試料を効率的に遺伝子型決定するためのコンピュータ化システムは、(1)サーバと(例えば、リモートサーバ、またはローカルに格納されたサーバ)(2)配列決定データを生成および/または送信することが可能な複数のユーザ電子計算デバイスと、(3)任意選択的に、既知の遺伝子型および関連情報(任意選択的)を含むデータベースと、(4)電子計算デバイス、データベース、およびサーバとの間の電子通信を送信するための有線または無線のネットワークと、を備える。このサーバは、さらに、(a)遺伝子型プロファイル(例えば、バリアントアレルのプロファイル)、患者の識別、経験的に導き出された疾患関連変異および関連情報の記録を記憶するデータベースと、(b)メモリに通信可能に接続された1つまたは複数のプロセッサと、プロセッサのための命令を含む1つ以上の非一時的コンピュータ可読記憶デバイスまたは媒体と、を備え、当該プロセッサは、図6~7に記載の1つ以上のステップを含む操作を行うための当該命令を実行するように構成されている。
一実施形態では、本技術は、命令を含む非一時的コンピュータ可読記憶媒体をさらに含み、命令は、1つ以上のプロセッサによって実行されると、サブプールされた試料混合物中の1つ以上のバリアントアレルの存在、サブプールされた試料混合物中の各特定されたバリアントアレルの定量、サブプールされた試料混合物中に誰の遺伝物質が存在するのかデータベースからの対象/個体の同一性、複数の不明な遺伝子型のサブプールされた試料混合物を逆重畳することなどを決定するための方法を行う。特定の実施形態では、本方法は、図6~7に記載の1つ以上のステップを含んでいてもよい。
本技術のさらなる態様は、サブプールされた試料混合物中の1つ以上のバリアントアレルの存在、サブプールされた試料混合物中の各特定されたバリアントアレルの定量、サブプールされた試料混合物中に誰の遺伝物質が存在するのかデータベースからの対象/個体の同一性、複数の不明な遺伝子型のサブプールされた試料混合物を逆重畳することなどを決定するためのコンピュータ化された方法を対象とする。特定の実施形態では、本方法は、図6~7に記載の1つ以上のステップを含んでいてもよい。
図5は、複数の生体試料を効率的に遺伝子型決定するための、本明細書に開示される方法と共に使用するためのコンピュータシステム500(コンピュータプログラム製品550がそれにインストールされている)のブロック図である。図5は、様々な計算システム要素を示しているが、当業者に既知の他のまたは異なる構成要素(例えば上に記載のもの)が、本開示の態様が実装され得る好適な計算環境を提供し得ることが企図される。図6は、本技術の一実施形態に従う、デュプレックス配列決定のコンセンサス配列データを提供するためのルーチンを示すフロー図である。図7は、サブプールされた試料混合物中に存在するバリアントアレルを特定し、および/または定量し、バリアントアレルを有する対象/個体を特定するための様々なルーチンを示すフロー図である。本技術の態様に従って、図7に関して記載される方法は、例えば、サブプールされた試料混合物中に存在する遺伝子型、バリアントアレルを含むサブプールされた試料混合物内で表される独立した生物源の同一性、および集団内の既知の遺伝子型およびVAFのデータセットとの試料データの比較から導き出される情報を含む、試料データを提供することができる。
図5に示されるように、コンピュータシステム500は、複数のユーザ計算デバイス502、504と、有線または無線のネットワーク510と、複数の試料中に存在するバリアントアレルを分析し、バリアントアレルに寄与する個々の試料を特定する(例えば、サブプールされた試料混合物から固有の試料識別子を分離して、複数の試料の中からバリアントアレルの寄与者を特定する)ためのプロセッサを含むサーバ(「DupSeq(商標)」サーバ)540と、を含み得る。複数の実施形態では、ユーザ計算デバイス502、504を使用して、配列決定データを生成および/または送信することができる。一実施形態では、計算デバイス502、504のユーザは、遺伝物質の複数の生物源を効率的に遺伝子型決定するための生体試料のデュプレックス配列決定方法のステップ(例えば、かかるソースをバリアント疾患アレルについてスクリーニングするための)など、本技術の他の態様を行うユーザであってもよい。一実施例では、計算デバイス502、504のユーザは、本技術の一実施形態に従って、試薬および/またはアダプタを含むキット(1、2)を用いた特定のデュプレックス配列決定方法のステップを行って、生体試料を調査する。
図示されるように、各ユーザ計算デバイス502、504は、少なくとも1つの中央処理ユニット506と、メモリ507と、ユーザおよびネットワークのインターフェース508と、を含む。一実施形態では、ユーザデバイス502、504は、デスクトップ、ラップトップ、またはタブレットコンピュータを含む。
2つのユーザ計算デバイス502、504が示されているが、任意の数のユーザ計算デバイスがシステム500の他の構成要素に含まれていてもよいか、または接続されていてもよいことが企図される。これに加え、計算デバイス502、504はまた、試料を増幅し、配列決定するためのユーザ(1)およびユーザ(2)によって使用される複数のデバイスおよびソフトウェアの代表であってもよい。例えば、計算デバイスは、配列決定機(例えば、Illumina HiSeq(商標)、Ion Torrent(商標)PGM、ABI SOLiD(商標)シーケンサー、PacBio RS、Helicos Heliscope(商標)など)、リアルタイムPCR機(例えば、ABI 7900、Fluidigm BioMark(商標)など)、マイクロアレイ機器など、であってもよい。
上に記載の構成要素に加えて、システム500は、さらに、遺伝子型プロファイル、患者同一性、疾患関連変異、および関連情報を記憶するためのデータベース530を備えてもよい。例えば、サーバ540によってアクセス可能なデータベース530は、疾患関連変異、集団ベースの遺伝情報、および疾患関連バリアントアレル(例えば、試料プーリングパターンの情報)を有する試料の患者識別を分離するためのサブプーリングの参照チャートの記録または収集物を含んでもよい。特定の実施例では、データベース530は、遺伝子型プロファイル532を含む第三者のデータベース(例えば、既知の疾患関連変異、1つ以上のゲノム遺伝子座における患者の遺伝子型)であってもよい。例えば、疾患関連ゲノム遺伝子座の核酸配列を含む様々な遺伝子研究データベースを、特定の用途に関して照会することができる。別の実施形態では、このデータベースは、サーバ540とは別個にホスティングされた自立型データベース530(プライベート、またはプライベートではないもの)であってもよく、またはデータベースは、サーバ540(経験的に導かれた遺伝子型プロファイル572を含むデータベース570など)上にホスティングされていてもよい。一部の実施形態では、システム500を使用して新しい遺伝子型プロファイルを生成するため、システム500および関連する方法(例えば、本明細書に記載の方法、および、例えば、図6~7に記載の方法)の使用から生成されたデータをデータベース530および/または570にアップロードすることができ、そうすることで、追加の遺伝子型プロファイル532、572を将来の比較活動のために生成することができる。
サーバ540は、ユーザ計算デバイス502、504からの配列決定データ(例えば、生の配列決定ファイル)および関連情報を、ネットワーク510を介して受信し、計算し、分析するように構成されていてもよい。試料特有の生の配列決定データは、デバイス502、504にインストールされているか、もしくはネットワーク510を介してサーバ540からアクセス可能なコンピュータプログラム製品/モジュール(配列モジュール505)を使用して、または当該技術分野で周知である他の配列決定ソフトウェアを使用して、ローカルに計算されてもよい。次いで、生の配列データは、ネットワーク510を介してサーバ540に送信されてもよく、ユーザ結果574は、データベース570に記憶されてもよい。サーバ540は、データベース570から生の配列決定データを受信するように構成され、また、例えば、本明細書に開示されるデュプレックス配列決定技術を使用してエラー修正二本鎖の配列リードを計算的に生成するように構成された、プログラム製品/モジュール「DSモジュール」512も含む。DSモジュール512は、サーバ540上に示されているが、当業者は、DSモジュール512が、代替的にデバイス502、504、または別のサーバ(図示せず)上にホスティングされ得ることを認識するであろう。
サーバ540は、少なくとも1つの中央処理ユニット(CPU)560、ユーザおよびネットワークインターフェース562(またはサーバに接続されたインターフェースを有するサーバ専用コンピューティングデバイス)、既知および未知の生物源の遺伝子型プロファイル572を記憶するための複数のコンピュータファイル/記録を有する上記のようなデータベース570、および試験された試料についての結果を記憶するためのファイル/記録574(例えば、生のシーケンスデータ、デュプレックス配列決定データ、バリアントアレル分析、個々の試料特定など)を含み得る。本技術の態様に従って、サーバ540は、コンピュータメモリ511をさらに含み、それに記憶された遺伝子型コンピュータプログラム製品(遺伝子型モジュール)550を有する。
コンピュータプログラム製品/モジュール550は、非一時的コンピュータ可読媒体に具現化され、コンピュータ(例えば、サーバ540)上で実行されると、ゲノムバリアント(例えば、希少なバリアント)を検出し、複数の供給源の中からゲノムバリアントの個々の供給源を効率的に特定し、サブプールされた試料混合物を個々の遺伝子型に分離し、かつ/またはサブプールされた試料混合物の中のVAFを定量するための、本明細書に開示される方法のステップを行う。本開示の別の態様は、コンピュータプログラム製品/モジュール550を含み、非一時的コンピュータ使用可能媒体を備え、それに具現化されたコンピュータ可読プログラムコードまたは命令を有し、プロセッサが遺伝子型分析(例えば、バリアントアレルの計算、特定されたバリアントアレルの定量、寄与する生物源への混合物の分離、遺伝子型の比較レポートなど)を実行することを可能にする。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置にロードされて、マシンを生成してもよく、その結果、コンピュータまたは他のプログラム可能な装置で実行する命令が、本明細書に記載の機能またはステップを実装する手段を生成する。これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能な装置に特定の様式で機能させるように命令し得るコンピュータ可読メモリまたは媒体に格納されてもよく、その結果、コンピュータ可読メモリまたは媒体に格納される命令は、分析を実施する命令手段を含む製造物品を生成する。また、コンピュータプログラムの命令を、コンピュータまたは他のプログラム可能な装置にロードして、コンピュータまたは他のプログラム可能な装置で行われる一連の操作ステップに、コンピュータに実装されるプロセスを生成させてもよく、その結果、コンピュータまたは他のプログラム可能な装置で実行する命令は、上に記載の機能またはステップを実装するためのステップを提供する。
さらに、コンピュータプログラム製品/モジュール550は、任意の好適な言語および/またはブラウザに実装されてもよい。例えば、Python、Java、Scala、C言語で実装されてもよく、好ましくは、オブジェクト指向高レベルプログラミング言語、例えば、Visual Basic、SmallTalk、C++などを用いて実装されてもよい。アプリケーションは、Windows(商標)98、Windows(商標)2000、Windows(商標)NTなどを含むMicrosoft Windows(商標)環境などの環境に適するように書かれていてもよい。これに加え、アプリケーションは、Macintosh(商標)、SUN(商標)、UNIXまたはLINUX環境のために書かれていてもよい。これに加え、機能ステップは、ユニバーサルプログラミング言語またはプラットフォームに依存しないプログラミング言語を使用して実装されてもよい。かかるマルチプラットフォームプログラミング言語の例として、限定されないが、ハイパーテキストマークアップランゲージ(HTML)、JAVA(商標)、JavaScript(商標)、フラッシュプログラミング言語、コモンゲートウェイインターフェース/ストラクチャードクエリーランゲージ(CGI/SQL)、プラクティカルエクストラクションレポートランゲージ(PERL)、AppleScript(商標)および他のシステムスクリプト言語、プログラミングランゲージ/ストラクチャードクエリーランゲージ(PL/SQL)などが挙げられる。Java(商標)またはJavaScript(商標)に対応するブラウザ、例えば、HotJava(商標)、Microsoft(商標)Explorer(商標)またはFirefox(商標)を使用してもよい。アクティブコンテンツウェブページが使用される場合、Java(商標)アプレットまたはActive(商標)コントロールまたは他のアクティブコントロール技術を含んでいてもよい。
システムは、多くのルーチンを呼び出す。ルーチンのいくつかが本明細書に記載されるが、当業者は、システムが実行することができる他のルーチンを特定することができる。さらに、本明細書に記載されるルーチンは、様々な様式で変更することができる。例として、図示されたロジックの順序は、並べ替えてもよく、サブステップを並列で行ってもよく、図示されたロジックを省略してもよく、他のロジックを含んでもよい、など。
図6は、試料(例えば、サブプールされた混合物からの試料)中の二本鎖核酸分子についてのデュプレックス配列決定データを提供するためのルーチン600を示すフロー図である。ルーチン600は、計算デバイス(例えば、クライアントコンピュータまたはコンピュータネットワークに接続するサーバコンピュータ)によって呼び出されてもよい。一実施形態では、計算デバイスは、配列データ生成部および/または配列モジュールを含む。一例として、計算デバイスは、操作者が計算デバイスと通信するユーザインターフェースに接続した後、ルーチン600を呼び出してもよい。
ルーチン600は、ブロック602で開始し、配列モジュールは、ユーザ計算デバイスから生の配列データを受信し(ブロック604)、サブプール中の複数の核酸分子に由来する複数の生の配列リードを含むサブプール特有のデータセットを生成する(ブロック606)。一部の実施形態では、サーバは、後で処理するために、データベースにサブプール特有のデータセットを記憶することができる。次に、DSモジュールは、サブプール特有のデータセット中の生の配列データからデュプレックスコンセンサス配列決定データを生成するための要求を受信する(ブロック608)。DSモジュールは、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ分けし(例えば、SMI配列に基づいて)、個々の鎖からの代表的な配列を互いに比較する(ブロック610)。一実施形態では、代表的な配列は、各々の元の核酸分子からの1つまたは1つより多い配列リードであってもよい。別の実施形態では、代表的な配列は、代表的な鎖内の整列およびエラー修正から生成される一本鎖コンセンサス配列(SSCS)であってもよい。かかる実施形態では、第1の鎖からのSSCSを、第2の鎖からのSSCSと比較することができる。
ブロック612で、DSモジュールは、比較された代表的な鎖間で相補性を有するヌクレオチド位置を特定する。例えば、DSモジュールは、比較された(例えば、整列された)配列リードに沿って、ヌクレオチド塩基コールが一致するヌクレオチド位置を特定する。さらに、DSモジュールは、比較された代表的な鎖間で相補性を有さない位置を特定する(ブロック614)。したがって、DSモジュールは、比較された(例えば、整列された)配列リードに沿って、ヌクレオチド塩基コールが一致しないヌクレオチド位置を特定することができる。
次に、DSモジュールは、サブプールされた試料混合物中の二本鎖核酸分子についてのデュプレックス配列決定データを提供することができる(ブロック616)。かかるデータは、処理された配列リード各々について、二重鎖コンセンサス配列の形態であってもよい。二重鎖コンセンサス配列は、一実施形態では、元の核酸分子の各鎖からの代表的な配列が一致しているヌクレオチド位置のみを含んでいてもよい。したがって、一実施形態では、一致しない位置は、二重鎖コンセンサス配列がエラー修正された高精度の配列リードであるように、除外するか、または考慮しなくてもよい。別の実施形態では、デュプレックス配列決定データは、一致しないヌクレオチド位置をさらに分析することができるように(例えば、DNA損傷を評価することができる場合に)、一致しないヌクレオチド位置に対するレポート情報を含んでいてもよい。ルーチン600は、次いで、ブロック618に続き、そこで終了してもよい。
図7は、核酸混合物中に存在するバリアントアレルを検出し、特定し、定量化して、バリアントアレルの元の寄与源を特定するためのルーチン700を示すフロー図である。ルーチンは、図5の計算デバイスによって呼び出すことができる。ルーチン700は、ブロック702で開始し、遺伝子型モジュールは、図6からのデュプレックス配列決定データ(例えば、ブロック616の後)を分析して、個々のDNA分子内に存在するバリアントアレルを特定し(ブロック704)、存在する各バリアントアレルのサブプールの特定を決定し(ブロック706)、各サブプール内の各バリアントアレルの総数を合計する(ブロック708)。次に、遺伝子型モジュールは、バリアントアレルを含むサブプールの組み合わせを元の試料の混合パターンと相関させて、供給源の集団の中からバリアントアレルの元のソースを特定する(ブロック710)。したがって、サブプールされた試料混合物のバリアントアレルの分析は、核酸混合物に寄与する元の生物源に関する情報を提供することができる。
次に、遺伝子型モジュールは、データベース中のサブプール特有または試料特有のデータセットに記憶され得る遺伝子型データを提供することができる(ブロック712)。ルーチン700は、次いで、ブロック714に続き、そこで終了してもよい。
VI.さらなる実施例
1.プーリングを介して複数の生体試料を遺伝子型決定するための方法であって、
複数の生体試料を固有の組み合わせのサブプールにプールすることであって、各生体試料が標的二本鎖DNA分子を含む、プールすることと、
複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することと、
エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することと、
バリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、バリアントアレルを含有する元の生体試料を決定することと、を含む、方法。
2.遺伝的バリアントについて生物源をスクリーニングするための方法であって、
生物源に由来する複数の生体試料を固有の組み合わせのサブプールにアリコートすることであって、各生体試料は標的二本鎖DNA分子を含み、各生体試料は2つ以上のサブプールにアリコートされる、アリコートすることと、
複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することと、
エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することと、
バリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、バリアントアレルを含有する生物源を決定することと、を含む、方法。
3.エラー修正配列リードを生成することが、
複数の標的二本鎖DNA分子にアダプタ分子をライゲーションして、複数のアダプタ-DNA分子を生成することと、
複数のアダプタ-DNA分子の各々について、アダプタ-DNA分子の元の第1の鎖のコピーのセット、およびアダプタ-DNA分子の元の第2の鎖のコピーのセットを生成することと、
元の第1の鎖および第2の鎖の1つ以上のコピーを配列決定して、第1の鎖の配列および第2の鎖の配列を提供することと、
第1の鎖の配列と第2の鎖の配列とを比較して、第1の鎖の配列と第2の鎖の配列との間の1つ以上の対応関係を特定することと、を含む、事例1または事例2に記載の方法。
4.サブプール中の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することが、配列決定の前に、1つ以上の標的ゲノム領域を選択的に富化することをさらに含む、事例1~3のいずれか一項に記載の方法。
5.1つ以上の標的ゲノム領域が、疾患原因変異を有することが知られている遺伝子を含む、事例4に記載の方法。
6.疾患原因変異が、機能喪失変異、機能獲得変異、または優性阻害変異であるか、またはそれを含む、事例5に記載の方法。
7.1つ以上の標的ゲノム領域が、疾患または障害に関連することが知られている遺伝子座を含む、事例1~4のいずれか一項に記載の方法。
8.疾患または障害が、希少な遺伝性障害である、事例7に記載の方法。
9.疾患または障害が、単一遺伝子障害または2つ以上の遺伝子における変異を伴う複合障害である、事例7または事例8に記載の方法。
10.疾患または障害が、常染色体劣性変異に関連する、事例7~9のいずれか一項に記載の方法。
11.疾患または障害が、常染色体優性変異に関連する、事例7~9のいずれか一項に記載の方法。
12.エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することが、エラー修正配列を、参照ゲノムDNA配列と比較することを含む、事例1~11のいずれか一項に記載の方法。
13.各サブプールの複数の標的二本鎖DNA分子の中から1つ以上のバリアントの頻度を決定することをさらに含む、事例1~12のいずれか一項に記載の方法。
14.バリアントアレルを含む生体試料の生物源ドナーが、バリアントアレルについてヘテロ接合性であるかまたはホモ接合性であるかを決定することをさらに含む、事例13に記載の方法。
15.1つ以上の標的ゲノム領域が、癌ドライバー、癌原遺伝子、腫瘍抑制遺伝子、および/または癌遺伝子を含む、事例4~14に記載の方法。
16.癌ドライバーが、ABL、ACC、BCR、BLCA、BRCA、CESC、CHOL、COAD、DLBC、DNMT3A、EGFR、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PI3K、PIK3CA、PRAD、PTEN、RAS、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、TP53、UCEC、UCS、および/またはUVMを含む、事例15に記載の方法。
17.1つ以上の標的ゲノム領域が、希少な自己免疫性、代謝性または神経性の遺伝性障害または疾患に関連する遺伝子を含む、事例4に記載の方法。
18.希少な遺伝性障害または疾患が、フェニルケトン尿症(PKU)、嚢胞性線維症、鎌状赤血球貧血、白皮症、ハンチントン病、筋強直性ジストロフィー1型、高コレステロール血症、神経線維腫症、多発性嚢胞腎疾患1および2、血友病A、筋ジストロフィー(デュシェンヌ型)、低リン血症性くる病、レット症候群、テイ・サックス病、ウィルソン病、および/または精子形成不全を含む、事例8に記載の方法。
19.1つ以上の標的ゲノム領域が、肥満の希少な遺伝性障害に関連する遺伝子座を含む、事例4に記載の方法。
20.肥満の希少な遺伝性障害が、プロオピオメラノコルチン(POMC)欠乏性肥満、アルストレム症候群、レプチン受容体(LEPR)欠乏性肥満、プラダー・ウィリー症候群(PWS)、バルデー・ビードル症候群(BBS)、および高影響ヘテロ接合性肥満であるか、またはそれらを含む、事例19に記載の方法。
21.標的二本鎖DNA分子が、ヒトから採取された採血から抽出される、事例1~20のいずれか一項に記載の方法。
22.複数の生体試料を遺伝子型決定するための方法であって、
複数の生体試料を複数のサブプールにアリコートすることであって、各生体試料が、標的二本鎖DNA断片を含み、2つの生体試料が、同じ組み合わせのサブプールにアリコートされない、アリコートすることと、
生の配列決定データからデュプレックス配列決定データを生成することであって、生の配列決定データが、標的二本鎖DNA断片を含む複数のサブプールされた生体試料から生成され、標的二本鎖DNA断片が、1つ以上の遺伝的バリアントを含有する、生成することと、
1つ以上の遺伝的バリアントを含有する固有の組み合わせのサブプールを特定することによって、サブプールされた生体試料中に存在する1つ以上の遺伝的バリアントのドナーソースを特定することと、を含む、方法。
23.各サブプールについて、方法が、
(a)アリコートされた生体試料から配列決定ライブラリを調製することであって、配列ライブラリを調製することが、サブプール中の複数の標的二本鎖DNA断片に非対称アダプタ分子をライゲーションして、複数のアダプタ-DNA分子を生成することを含む、配列決定ライブラリを調製することと、
(b)アダプタ-DNA分子の第1の鎖および第2の鎖を配列決定して、各アダプタ-DNA分子について第1の鎖の配列リードおよび第2の鎖の配列リードを提供することと、
(c)各アダプタ-DNA分子について、第1の鎖の配列リードと第2の鎖の配列リードとを比較して、第1の鎖の配列リードと第2の鎖の配列リードとの間の1つ以上の対応関係を特定して、サブプール中の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを提供することと、をさらに含む、事例22に記載の方法。
24.ステップ(b)における配列決定の前に、方法が、サブプールからのアダプタ-DNA分子を組み合わせることをさらに含む、事例23に記載の方法。
25.アダプタ分子が、インデックス配列を有し、
各サブプールが、固有のインデックス配列を使用してタグ付けされ、
固有の組み合わせのサブプールを特定することが、各遺伝的バリアントと関連付けられたインデックス配列を特定することを含む、事例23または事例24に記載の方法。
26.各遺伝的バリアントと関連付けられたインデックス配列を、各生体試料がアリコートされたサブプールの組み合わせと相互参照して、ドナー源を特定することをさらに含む、例25に記載の方法。
27.サブプール中の複数の標的二本鎖DNA分子の各々ついてエラー修正配列リードを生成することが、配列決定の前に1つ以上の標的ゲノム遺伝子座を選択的に富化して、複数の富化されたアダプタ-DNA分子を提供することをとさらに含む、事例22~26のいずれか一項に記載の方法。
28.サブプールの数が、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、42、45、47、50、52、55、57、60、62、65、67、または70個のサブプールであるか、またはそれらを含む、事例1~27のいずれか一項に記載の方法。
29.サブプールの数が、約15~約40個のサブプール、約30~約50個のサブプール、約35~約55個のサブプール、約40~約60個のサブプール、または60個超のサブプールであるか、またはそれらを含む、事例1~27のいずれか一項に記載の方法。
30.患者の集団の中から希少なバリアントアレルを有する患者を特定するための方法であって、方法が、
(a)集団内の各患者からの生体試料を固有の組み合わせのサブプールされた試料に分離することであって、各生体試料が核酸断片を含む、分離することと、
(b)インデックスバーコードを各サブプールされた試料中の複数の核酸断片に結合して、複数のインデックス化サブプールされた試料を生成することと、
(c)インデックス化サブプールされた試料を組み合わせて、バーコード化核酸分子のプールされたセットを提供することと、
(d)バーコード化核酸分子のプールされたセットを配列決定することと、
(e)複数のバーコード化核酸分子についてエラー修正配列リードを提供することと、
(f)インデックスバーコードに基づいて、エラー修正配列リードをサブプールされた試料にグループ化することと、
(g)各サブプールされた試料中のエラー修正配列リードから、希少なバリアントアレルの存在を特定することと、
(h)希少なバリアントアレルを含有する固有の組み合わせのサブプールを特定することによって、希少なバリアントアレルを含有する患者を特定することと、を含む、方法。
31.ステップ(a)~(h)の前に、方法が、
患者の集団からの患者DNAの混合物を、患者の集団中の希少なバリアントアレルの保因者の存在についてスクリーニングすることを含み、スクリーニングすることが、
集団中の各患者からの生体試料を1つ以上のプールされた試料に混合することであって、プールされた試料の数が各々、サブプールされた試料の数よりも少ない、混合することと、
1つ以上のプールされた試料から複数の標的DNA分子を配列決定して、生の配列決定データを生成することと、
生の配列決定データからデュプレックス配列決定データを生成することと、
デュプレックス配列決定データから1つ以上のプールされた試料中の希少なバリアントアレルの存在を特定することによって、患者の集団が希少なバリアントアレルの保因者を含むかどうかを決定することと、を含む、事例30に記載の方法。
32.プールされた試料の数が、1である、事例31に記載の方法。
33.プールされた試料の数が1を超え、ステップ(a)~(h)が、希少なバリアントアレルの特定された存在を有するプールされた試料に表される患者の集団の中から希少なバリアントアレルを有する患者を特定することを含む、事例31に記載の方法。
34.希少なバリアントアレルについて患者DNA試料をスクリーニングするための方法であって、方法が、
各患者DNA試料を固有のサブセットのプールされたDNA試料にアリコートすることであって、プールされたDNA試料の数が患者DNA試料の数よりも少なく、固有のサブセットのプールされたDNA試料が各特定の患者DNA試料の固有の試料識別子を含む、アリコートすることと、
各プールされたDNA試料から1つ以上の標的DNA分子を配列決定することと、
標的DNA分子について高精度のコンセンサス配列を生成することと、
高精度のコンセンサス配列から希少なバリアントアレルの存在を特定することと、
希少なバリアントアレルを含むプールされたDNA試料の固有のサブセットを特定して、希少なバリアントアレルに関連付けられた固有の試料識別子を決定することと、
固有の試料識別子によって、希少なバリアントアレルを含有する患者DNA試料を特定することと、を含む、方法。
35.患者DNA試料が、患者由来の健常組織、腫瘍、および/または血液試料から抽出された二本鎖DNA分子を含む、事例34に記載の方法。
36.複数の試料を効率的に遺伝子型決定するためのシステムであって、
配列決定データおよび遺伝子型データに関連する情報を送信するためのコンピュータネットワークであって、情報が、生の配列決定データ、デュプレックス配列決定データ、サブプールされた試料混合物の情報、個体試料の情報、および遺伝子型情報、のうちの1つ以上を含む、コンピュータネットワークと、
1つ以上のユーザ計算デバイスと関連付けられ、かつコンピュータネットワークと通信するクライアントコンピュータと、
複数の遺伝子型プロファイルおよびユーザ結果の記録を記憶するために、コンピュータネットワークに接続されたデータベースと、
コンピュータネットワークと通信し、かつデュプレックス配列決定データを生成するためにクライアントコンピュータから、生の配列決定データおよび要求を受信し、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化し、個々の鎖からの代表的な配列を互いに比較して、デュプレックス配列決定データを生成するように構成された、デュプレックス配列決定モジュールと、
コンピュータネットワークと通信し、かつバリアントアレルを特定し、存在する各バリアントアレルのサブプールの特定を決定し、各サブプール内のバリアントアレルの相対的存在量を計算して、遺伝子型データを生成するように構成された、遺伝子型モジュールと、を含む、システム。
37.遺伝子型プロファイルが、既知の疾患関連変異を含む、事例36に記載のシステム。
38.遺伝子型プロファイルが、1つ以上のゲノム遺伝子座に経験的に導かれた患者遺伝子型を含む、事例36に記載のシステム。
39.1つ以上のプロセッサによって実行されると、事例1~35のいずれか一つに記載の方法を行う命令を含む、非一時的コンピュータ可読記録媒体。
40.バリアントアレルを含むサブプールの組み合わせを元の試料混合パターンに相関させて、供給源の集団の中からバリアントアレルの元の供給源を特定するための説明書をさらに含む、事例39に記載の非一時的コンピュータ可読記憶媒体。
41.複数の試料を効率的に遺伝子型決定するために事例1~35のいずれか一項に記載の方法を行うためのコンピュータシステムであって、システムが、プロセッサ、メモリ、データベース、およびプロセッサのための命令を含む非一時的コンピュータ可読記憶媒体を有する少なくとも1つのコンピュータを含み、当該プロセッサが、事例1~35のいずれか一項に記載の方法を含む操作を行うために当該命令を実行するように構成されている、コンピュータシステム。
42.非一時的コンピュータ可読媒体であって、そのコンテンツが、少なくとも1つのコンピュータに、複数のサブプールされた試料混合物中の二本鎖核酸分子についてのデュプレックス配列決定データを提供するための方法を行わせ、方法が、
ユーザ計算デバイスから生の配列データを受信することと、
サブプールされた試料混合物中の複数の核酸分子に由来する複数の生の配列リードを含むサブプール特有のデータセットを作成することと、
元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化することであって、グループ化が、共有される単一分子識別子配列に基づく、グループ化することと、
元の二本鎖核酸分子からの第1の鎖の配列リードと第2の鎖の配列リードとを比較して、第1の鎖の配列リードと第2の鎖の配列リードとの間の1つ以上の対応関係を特定することと、
サブプールされた試料混合物中の二本鎖核酸分子についてのデュプレックス配列決定データを提供することと、
各サブプールされた試料混合物中の個々の二本鎖核酸分子内に存在する1つ以上の遺伝的バリアントを特定することと、
1つ以上の遺伝的バリアントを含む固有の組み合わせサのブプールされた試料混合物を分離することによって、サブプールされた試料混合物中に存在する1つ以上の遺伝的バリアントの元の生物源を決定することとを含む、非一時的コンピュータ可読媒体。
43.比較された第1の配列リードと第2の配列リードとの間の非相補のヌクレオチド位置を特定することをさらに含み、当該方法が、非相補の位置において、プロセスエラーを特定すること、除外すること、または考慮しないこと、をさらに含む、事例42に記載のコンピュータ可読媒体。
44.元の生物源を決定することが、特定の遺伝的バリアントについての固有の組み合わせのサブプールされた試料混合物の各々において、核酸アリコートを有する元の生物源を特定するためにルックアップテーブルを使用することを含む、事例42または事例43に記載のコンピュータ可読媒体。
45.非一時的コンピュータ可読媒体であって、そのコンテンツが、少なくとも1つのコンピュータに、サブプールされた核酸混合物中に存在するバリアントアレルを検出し、特定し、定量して、バリアントアレルのドナー生物源を決定するための方法を行わせ、当該方法が、
特定のバリアントアレルを含むサブプールされた核酸混合物の組み合わせを特定することと、
各サブプールされた核酸混合物内の特定のバリアントアレルの総数を合計することと、
ルックアップテーブルを使用して、特定のバリアントアレルを含むサブプールされた核酸混合物の各々に核酸アリコートを有するドナー生物源を特定することと、を含む、非一時的コンピュータ可読媒体。
46.各サブプールされた核酸混合物内の特定のバリアントアレルの総数に基づいて、ドナー生物源が、特定のバリアントアレルについてヘテロ接合性であるかまたはホモ接合性であるかを決定することをさらに含む、事例45に記載のコンピュータ可読媒体。
47.任意のサブプールされた核酸混合物が、2つ以上のドナー生物源からの特定のバリアントアレルを含む場合、当該方法が、単一のヌクレオチド多型(SNPを有する2つ以上のドナー生物源間を区別することをさらに含み、SNPが、特定のバリアントアレルのバリアント配列にゲノム上近接し、SNPが、バリアント配列と完全に不均衡ではない、事例45または事例46に記載のコンピュータ可読媒体。
48.各サブプールされた核酸混合物内の特定のバリアントアレルの総数が、特定のバリアントアレルのドナー生物源がいくつ存在するのかを知らせることができる、事例45~47のいずれか一項に記載のコンピュータ可読媒体。
49.非一時的コンピュータ可読媒体であって、そのコンテンツが、少なくとも1つのコンピュータに、患者集団の中からバリアントアレルを有する患者を特定するための方法を行わせ、当該方法が、
混合物中の個々のDNA分子内に存在するバリアントアレルを特定することと、
特定されたバリアントアレルを含むサブプールの組み合わせを特定することであって、サブプールの組み合わせが複数のサブプールのサブセットである、サブプールの組み合わせを特定することと、
特定されたバリアントアレルを含むサブプールの組み合わせにどの患者がDNA分子を寄与したのかを決定することによって、バリアントアレルを有する患者の集団の中から患者を特定することと、を含む、非一時的コンピュータ可読媒体。
50.患者を特定するステップが、患者DNA試料をサブプールの組み合わせと相関させるルックアップテーブルを使用することを含む、事例49に記載のコンピュータ可読媒体。
VII.結論
本技術の実施形態の上述の詳細な説明は、網羅的であること、または本技術を上述の正確な形態に限定することを意図するものではない。本技術の具体的な実施形態および実施例は、例示的な目的のために上に記載されているが、関連技術分野の当業者が認識するように、本技術の範囲内で様々な等価な修正が可能である。例えば、ステップは所与の順序で提示されているが、代替的な実施形態は、異なる順序でステップを行ってもよい。本明細書に記載の様々な実施形態を組み合わせて、さらなる実施形態を提供することもできる。本明細書に引用される全ての参考文献は、本明細書に完全に記載されるかのように、参照により援用される。
上の記載から、本技術の特定の実施形態は、例示のために本明細書に記載されているが、本技術の実施形態の説明を不必要に曖昧にすることを回避するために既知の構造および機能は詳細には記載または示されていないことを理解されたい。文脈が許容する場合、単数または複数の用語は、それぞれ複数または単数の用語も含み得る。
さらに、「または」という単語が、2つ以上の項目のリストに関して他の項目から排他される単一の項目のみを意味するように明示的に限定されない限り、かかるリストにおける「または」の使用は、(a)そのリスト内の任意の単一の項目、(b)そのリスト内の全ての項目、または(c)そのリスト内の項目の任意の組み合わせを含むと解釈される。加えて、「~を含む(comprising)」という用語は、少なくとも列挙された特徴を含むことを意味するように、全体を通して使用され、同じ特徴の任意のより多い数および/または追加のタイプの他の特徴が排除されない。特定の実施形態は例示のために本明細書には記載されているが、本技術から逸脱することなく様々な変更が行われ得ることも理解されたい。さらに、本技術の特定の実施形態と関連付けられた利点は、それらの実施形態の文脈で説明されているが、他の実施形態も、かかる利点を示してもよく、全ての実施形態が必ずしも本技術の範囲内に収まるような利点を示す必要はない。したがって、本開示および関連技術は、本明細書に明示的に示されていないまたは記載されない他の実施形態を包含することができる。

Claims (35)

  1. プーリングを介して複数の生体試料を遺伝子型決定するための方法であって、
    前記複数の生体試料を固有の組み合わせのサブプールにプールすることであって、各生体試料が標的二本鎖DNA分子を含む、プールすることと、
    前記サブプール中の複数の前記標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することと、
    前記エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することと、
    前記バリアントアレルを含有する前記固有の組み合わせのサブプールを特定することによって、前記バリアントアレルを含有する元の生体試料を決定することと、を含む、方法。
  2. 遺伝的バリアントについて生物源をスクリーニングするための方法であって、
    前記生物源に由来する複数の生体試料を固有の組み合わせのサブプールにアリコートすることであって、各生体試料が標的二本鎖DNA分子を含み、各生体試料が2つ以上のサブプールにアリコートされる、アリコートすることと、
    前記サブプール中の複数の前記標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することと、
    前記エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することと、
    前記バリアントアレルを含有する前記固有の組み合わせのサブプールを特定することによって、前記バリアントアレルを含有する前記生物源を決定することと、を含む、方法。
  3. エラー修正配列リードを生成することが、
    複数の標的二本鎖DNA分子にアダプタ分子をライゲーションして、複数のアダプタ-DNA分子を生成することと、
    複数のアダプタ-DNA分子の各々について、アダプタ-DNA分子の元の第1の鎖のコピーのセット、およびアダプタ-DNA分子の元の第2の鎖のコピーのセットを生成することと、
    前記元の第1の鎖および第2の鎖の1つ以上のコピーを配列決定して、第1の鎖の配列および第2の鎖の配列を提供することと、
    前記第1の鎖の配列と前記第2の鎖の配列とを比較して、前記第1の鎖の配列と第2の鎖の配列との間の1つ以上の対応関係を特定することと、を含む、請求項1または請求項2に記載の方法。
  4. 前記サブプール中の複数の前記標的二本鎖DNA分子の各々についてエラー修正配列リードを生成することが、配列決定の前に、1つ以上の標的ゲノム領域を選択的に富化することをさらに含む、請求項1~3のいずれか1項に記載の方法。
  5. 前記1つ以上の標的ゲノム領域が、疾患原因変異を有することが知られている遺伝子を含む、請求項4に記載の方法。
  6. 疾患原因変異が、機能喪失変異、機能獲得変異、または優性阻害変異であるか、またはそれらを含む、請求項5に記載の方法。
  7. 前記1つ以上の標的ゲノム領域が、疾患または障害に関連することが知られている遺伝子座を含む、請求項1~4のいずれか一項に記載の方法。
  8. 前記疾患または障害が、希少な遺伝性障害である、請求項7に記載の方法。
  9. 前記疾患または障害が、単一遺伝子障害または2つ以上の遺伝子における変異を伴う複合障害である、請求項7または請求項8に記載の方法。
  10. 前記疾患または障害が、常染色体劣性変異と関連する、請求項7~9のいずれか一項に記載の方法。
  11. 前記疾患または障害が、常染色体優性変異と関連する、請求項7~9のいずれか一項に記載の方法。
  12. 前記エラー修正配列リードから1つ以上のバリアントアレルの存在を特定することが、前記エラー修正配列を参照ゲノムDNA配列と比較することを含む、請求項1~11のいずれか一項に記載の方法。
  13. 各サブプール中の前記複数の標的二本鎖DNA分子の中の前記1つ以上のバリアントの頻度を決定することをさらに含む、請求項1~12のいずれか一項に記載の方法。
  14. 前記バリアントアレルを含む前記生体試料の生物源ドナーが、前記バリアントアレルについてヘテロ接合性であるかまたはホモ接合性であるかを決定することをさらに含む、請求項13に記載の方法。
  15. 前記1つ以上の標的ゲノム領域が、癌ドライバー、癌原遺伝子、腫瘍抑制遺伝子、および/または癌遺伝子を含む、請求項4~14に記載の方法。
  16. 前記癌ドライバーが、ABL、ACC、BCR、BLCA、BRCA、CESC、CHOL、COAD、DLBC、DNMT3A、EGFR、ESCA、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、MESO、OV、PAAD、PCPG、PI3K、PIK3CA、PRAD、PTEN、RAS、READ、SARC、SKCM、STAD、TGCT、THCA、THYM、TP53、UCEC、UCS、および/またはUVMを含む、請求項15に記載の方法。
  17. 前記1つ以上の標的ゲノム領域が、希少な自己免疫性、代謝性または神経性の遺伝性障害または疾患に関連する遺伝子を含む、請求項4に記載の方法。
  18. 前記希少な遺伝性障害または疾患が、フェニルケトン尿症(PKU)、嚢胞性線維症、鎌状赤血球貧血、白皮症、ハンチントン病、筋強直性ジストロフィー1型、高コレステロール血症、神経線維腫症、多発性嚢胞腎疾患1および2、血友病A、筋ジストロフィー(デュシェンヌ型)、低リン血症性くる病、レット症候群、テイ・サックス病、ウィルソン病、および/または精子形成不全を含む、請求項8に記載の方法。
  19. 前記1つ以上の標的ゲノム領域が、肥満の希少な遺伝性障害に関連する遺伝子座を含む、請求項4に記載の方法。
  20. 前記肥満の前記希少な遺伝性障害が、プロオピオメラノコルチン(POMC)欠乏性肥満、アルストレム症候群、レプチン受容体(LEPR)欠乏性肥満、プラダー・ウィリー症候群(PWS)、バルデー・ビードル症候群(BBS)、および高影響ヘテロ接合性肥満であるか、またはそれらを含む、請求項19に記載の方法。
  21. 前記標的二本鎖DNA分子が、ヒトから採取された採血から抽出される、請求項1~20のいずれか一項に記載の方法。
  22. 複数の生体試料を遺伝子型決定するための方法であって、
    前記複数の生体試料を複数のサブプールにアリコートすることであって、各生体試料が、標的二本鎖DNA断片を含み、2つの生体試料が、同じ組み合わせのサブプールにアリコートされない、アリコートすることと、
    生の配列決定データからデュプレックス配列決定データを生成することであって、前記生の配列決定データが、前記標的二本鎖DNA断片を含む前記複数のサブプールされた生体試料から生成され、前記標的二本鎖DNA断片が、1つ以上の遺伝的バリアントを含有する、生成することと、
    前記1つ以上の遺伝的バリアントを含有する固有の組み合わせのサブプールを特定することによって、前記サブプールされた生体試料中に存在する前記1つ以上の遺伝的バリアントのドナー源を特定することと、を含む、方法。
  23. 各サブプールについて、前記方法が、
    (a)前記アリコートされた生体試料から配列決定ライブラリを調製することであって、前記配列ライブラリを調製することが、前記サブプール中の前記複数の標的二本鎖DNA断片に非対称アダプタ分子をライゲーションして、複数のアダプタ-DNA分子を生成することを含む、配列決定ライブラリを調製することと、
    (b)前記アダプタ-DNA分子の第1の鎖および第2の鎖を配列決定して、各アダプタ-DNA分子について第1の鎖の配列リードおよび第2の鎖の配列リードを提供することと、
    (c)各アダプタ-DNA分子について、前記第1の鎖の配列リードと前記第2の鎖の配列リードとを比較して、前記第1の鎖の配列リードと前記第2の鎖の配列リードとの間の1つ以上の対応関係を特定して、前記サブプール中の複数の前記標的二本鎖DNA分子の各々についてエラー修正配列リードを提供することと、をさらに含む、請求項22に記載の方法。
  24. ステップ(b)における配列決定の前に、前記方法が、前記サブプールからの前記アダプタ-DNA分子を組み合わせることをさらに含む、請求項23に記載の方法。
  25. 前記アダプタ分子が、インデックス配列を有し、
    各サブプールが、固有のインデックス配列を使用してタグ付けされ、
    前記固有の組み合わせのサブプールを特定することが、各遺伝的バリアントと関連付けられた前記インデックス配列を特定することを含む、請求項23または請求項24に記載の方法。
  26. 各遺伝的バリアントと関連付けられた前記インデックス配列を、各生体試料がアリコートされた前記組み合わせのサブプールと相互参照して、ドナー源を特定することをさらに含む、請求項25に記載の方法。
  27. 前記サブプール中の複数の前記標的二本鎖DNA分子の各々ついてエラー修正配列リードを生成することが、配列決定の前に1つ以上の標的ゲノム遺伝子座を選択的に富化して、複数の富化されたアダプタ-DNA分子を提供することをとさらに含む、請求項22~26のいずれか一項に記載の方法。
  28. サブプールの数が、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、42、45、47、50、52、55、57、60、62、65、67、または70個のサブプールであるか、またはそれらを含む、請求項1~27のいずれか一項に記載の方法。
  29. サブプールの数が、約15~約40個のサブプール、約30~約50個のサブプール、約35~約55個のサブプール、約40~約60個のサブプール、または60個超のサブプールであるか、またはそれらを含む、請求項1~27のいずれか一項に記載の方法。
  30. 患者の集団の中から希少なバリアントアレルを有する患者を特定するための方法であって、前記方法が、
    (a)前記集団内の各患者からの生体試料を固有の組み合わせのサブプールされた試料に分離することであって、各生体試料が核酸断片を含む、分離することと、
    (b)インデックスバーコードを各サブプールされた試料中の複数の前記核酸断片に結合して、複数のインデックス化サブプールされた試料を生成することと、
    (c)前記インデックス化サブプールされた試料を組み合わせて、バーコード化核酸分子のプールされたセットを提供することと、
    (d)バーコード化核酸分子の前記プールされたセットを配列決定することと、
    (e)複数のバーコード化核酸分子についてエラー修正配列リードを提供することと、
    (f)前記インデックスバーコードに基づいて、エラー修正配列リードをサブプールされた試料にグループ化することと、
    (g)各サブプールされた試料中の前記エラー修正配列リードから、前記希少なバリアントアレルの存在を特定することと、
    (h)前記希少なバリアントアレルを含有する前記固有の組み合わせのサブプールを特定することによって、前記希少なバリアントアレルを含有する前記患者を特定することと、を含む、方法。
  31. ステップ(a)~(h)の前に、前記方法が、
    前記患者の集団からの患者DNAの混合物を、前記患者の集団中の希少なバリアントアレルの保因者の存在についてスクリーニングすることを含み、スクリーニングすることが、
    集団中の各患者からの生体試料を1つ以上のプールされた試料に混合することであって、プールされた試料の数が各々、サブプールされた試料の数よりも少ない、混合することと、
    前記1つ以上のプールされた試料から複数の標的DNA分子を配列決定して、生の配列決定データを生成することと、
    前記生の配列決定データからデュプレックス配列決定データを生成することと、
    前記デュプレックス配列決定データから前記1つ以上のプールされた試料中の前記希少なバリアントアレルの存在を特定することによって、前記患者の集団が前記希少なバリアントアレルの保因者を含むかどうかを決定することと、を含む、請求項30に記載の方法。
  32. 前記プールされた試料の数が、1である、請求項31に記載の方法。
  33. 前記プールされた試料の数が1を超え、ステップ(a)~(h)が、前記希少なバリアントアレルの特定された存在を有するプールされた試料中に表される患者の集団の中から、前記希少なバリアントアレルを有する患者を特定することを含む、請求項31に記載の方法。
  34. 希少なバリアントアレルについて患者DNA試料をスクリーニングするための方法であって、前記方法が、
    各患者DNA試料を固有のサブセットのプールされたDNA試料にアリコートすることであって、前記プールされたDNA試料の数が患者DNA試料の数よりも少なく、前記固有のサブセットのプールされたDNA試料が、各特定の患者DNA試料の固有の試料識別子を含む、アリコートすることと、
    各プールされたDNA試料から1つ以上の標的DNA分子を配列決定することと、
    前記標的DNA分子について高精度のコンセンサス配列を生成することと、
    前記高精度のコンセンサス配列から希少なバリアントアレルの存在を特定することと、
    前記希少なバリアントアレルを含む固有のサブセットのプールされたDNA試料を特定して、前記希少なバリアントアレルと関連付けられた前記固有の試料識別子を決定することと、
    前記固有の試料識別子によって、前記希少なバリアントアレルを含有する前記患者DNA試料を特定することと、を含む、方法。
  35. 前記患者DNA試料が、前記患者由来の健常組織、腫瘍、および/または血液試料から抽出された二本鎖DNA分子を含む、請求項34に記載の方法。
JP2021520946A 2018-10-16 2019-10-16 プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬 Pending JP2022505050A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862746543P 2018-10-16 2018-10-16
US62/746,543 2018-10-16
PCT/US2019/056618 WO2020081743A1 (en) 2018-10-16 2019-10-16 Methods and reagents for efficient genotyping of large numbers of samples via pooling

Publications (2)

Publication Number Publication Date
JP2022505050A true JP2022505050A (ja) 2022-01-14
JPWO2020081743A5 JPWO2020081743A5 (ja) 2022-10-21

Family

ID=70284356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520946A Pending JP2022505050A (ja) 2018-10-16 2019-10-16 プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬

Country Status (9)

Country Link
US (1) US20220119876A1 (ja)
EP (1) EP3867397A4 (ja)
JP (1) JP2022505050A (ja)
CN (1) CN113439125A (ja)
AU (1) AU2019362855A1 (ja)
CA (1) CA3115819A1 (ja)
IL (1) IL282321A (ja)
SG (1) SG11202103783XA (ja)
WO (1) WO2020081743A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10844428B2 (en) 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
EP3889962A1 (en) 2017-01-18 2021-10-06 Illumina, Inc. Methods and systems for generation and error-correction of unique molecular index sets with heterogeneous molecular lengths
CA3060369A1 (en) 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
CA3062174A1 (en) 2017-05-08 2018-11-15 Illumina, Inc. Universal short adapters for indexing of polynucleotide samples
US11447818B2 (en) 2017-09-15 2022-09-20 Illumina, Inc. Universal short adapters with variable length non-random unique molecular identifiers
WO2023272672A1 (zh) * 2021-07-01 2023-01-05 北京市肿瘤防治研究所 混合样本肿瘤易感基因胚系突变快速筛查装置及应用
WO2024005455A1 (ko) * 2022-06-28 2024-01-04 주식회사 씨젠 자동 샘플 풀링 시스템 및 이를 이용한 샘플 풀링 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013142389A1 (en) * 2012-03-20 2013-09-26 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102329876B (zh) * 2011-10-14 2014-04-02 深圳华大基因科技有限公司 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法
US10262755B2 (en) * 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
CN105420351A (zh) * 2015-10-16 2016-03-23 深圳华大基因研究院 确定个体基因突变的方法和系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013142389A1 (en) * 2012-03-20 2013-09-26 University Of Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ANAND, S. ET AL., SCIENCE REPORTS, vol. Vol. 6: 33735, JPN6023041096, 2016, ISSN: 0005165544 *

Also Published As

Publication number Publication date
EP3867397A4 (en) 2022-07-13
WO2020081743A1 (en) 2020-04-23
AU2019362855A1 (en) 2021-05-20
CN113439125A (zh) 2021-09-24
CA3115819A1 (en) 2020-04-23
SG11202103783XA (en) 2021-05-28
EP3867397A1 (en) 2021-08-25
US20220119876A1 (en) 2022-04-21
IL282321A (en) 2021-05-31

Similar Documents

Publication Publication Date Title
US20230295686A1 (en) Methods for targeted nucleic acid sequence enrichment with applications to error corrected nucleic acid sequencing
Newman et al. Integrated digital error suppression for improved detection of circulating tumor DNA
US11845985B2 (en) Methods and reagents for characterizing genomic editing, clonal expansion, and associated applications
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
JP2021524736A (ja) 核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途
AU2013326406B2 (en) High-throughput genotyping by sequencing low amounts of genetic material
CN111357054A (zh) 用于区分体细胞变异和种系变异的方法和系统
Butz et al. Brief summary of the most important molecular genetic methods (PCR, qPCR, microarray, next-generation sequencing, etc.)
US20200232010A1 (en) Methods, compositions, and systems for improving recovery of nucleic acid molecules
US20200071754A1 (en) Methods and systems for detecting contamination between samples
Frio High-Throughput Technologies: DNA and RNA sequencing strategies and potential
Kehl et al. Review of Molecular Technologies for Investigating Canine Cancer
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
WO2024015869A2 (en) Systems and methods for variant detection in cells
Udayaraja Personal diagnostics using DNA-sequencing
Stachler Basic Techniques in Molecular Pathology

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221013

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20231218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240403