JP2018509928A - 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法 - Google Patents

環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法 Download PDF

Info

Publication number
JP2018509928A
JP2018509928A JP2017551708A JP2017551708A JP2018509928A JP 2018509928 A JP2018509928 A JP 2018509928A JP 2017551708 A JP2017551708 A JP 2017551708A JP 2017551708 A JP2017551708 A JP 2017551708A JP 2018509928 A JP2018509928 A JP 2018509928A
Authority
JP
Japan
Prior art keywords
sequencing
fragments
sequence
genomic
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017551708A
Other languages
English (en)
Inventor
ルアン,イジュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jackson Laboratory
Original Assignee
Jackson Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jackson Laboratory filed Critical Jackson Laboratory
Publication of JP2018509928A publication Critical patent/JP2018509928A/ja
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/30Characterised by physical treatment
    • C12Q2523/301Sonication
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/30Characterised by physical treatment
    • C12Q2523/303Applying a physical force on a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Abstract

本発明は、本明細書において、単一のアッセイにおいて、一塩基多型(SNP);小さい挿入または欠失(インデル);タンデム塩基突然変異(TBM);コピー数変異(CNV);構造変異(SV);およびその組み合わせを含む、広範囲のゲノム変異の検出を可能にする包括的ゲノム分析のための方法および系を提供する。該方法は、場合によってトランスポザーゼでのタグメント化(tagmentation)によって、連結されたタグ配列とともにゲノムDNA断片を環状化し、ショットガン断片化によって断片化し、そしてメイトペア断片およびショットガン断片両方を配列決定し、そしてショットガンおよびメイトペア断片両方に基づいて、ゲノム変異を決定する工程を使用する。本発明を用いて、例えば自閉症スペクトラム障害(ASD)、癌、アルツハイマー病、および他の神経学的障害などの疾患および状態における、根底の複雑なゲノム欠陥を分析することも可能である。【選択図】なし

Description

関連出願に対する言及
本国際特許出願は、2015年4月2日出願の米国仮特許出願第62/142,088号の出願日の優先権を請求し、その全内容は、本明細書に援用される。
遺伝子変異は、ヒト集団において、単一ヌクレオチド置換から大規模な構造変異までのすべてのレベルで起こることが知られる。ゲノム変異の多くは、多様なヒト特質の正常な表現型変異に相当するが、ある変異は疾患に関連する。しかし、疾患関連遺伝子変異の検出および特徴付けは、技術的に困難なものであり、特に自閉症を含む複雑な疾患においては困難であった。
自閉症スペクトラム障害(ASD)は、コミュニケーションおよび社会的相互作用における困難または欠陥によって特徴付けられる神経発生学的疾患である。CDCによれば、ASD診断率は、2000年の小児およそ150人に1人から、2014年の68人に1人まで、急激に上昇している。診断基準は、行動および障害の重症度を含め、広い範囲の症状を含み、そして患者はしばしば、他の神経精神学的障害、例えばてんかんの診断も受ける。最近まで、ASDのほぼすべての症例に関して、根底にある疾患経路は不明であった。
最近の研究は、ASDおよび関連障害が、巨大染色体改変または単一ヌクレオチド変異体(SNV)のいずれかの形を取る、デノボまたは稀な遺伝子変異と関連しうることを示してきている(CarterおよびScherer, Clin. Gen., 83:399-407, 2013; Jiangら, Am. J. Hum. Gen., 93:249-263, 2013; Pintoら, Am. J. Hum. Gen. 94:677-694, 2014; Rostiら, Dev. Med. and Child Neurol., 56:12-18, 2014)。現在の診断ツールには、患者DNAにおけるコピー数変異(CNV)、染色体欠失および重複を同定するアレイ比較ゲノムハイブリダイゼーション(aCGH)が含まれる。より最近、ASDに関連する約50の異なる遺伝子において、特定の単一ヌクレオチド変異(SNV)および小さい挿入および欠失(インデル)を同定するためのアッセイが開発されてきている(遺伝子パネル試験)。
しかし、aCGHおよび遺伝子パネル試験は、異なる、そして適合しない技術(例えばDNAハイブリダイゼーション対DNA配列決定)を別個に用いて実行する必要がある。さらに、現存する遺伝子パネル試験は、特定の遺伝子および関心対象の疾患または状態(例えばASD)の間の既知のまたは潜在的な関連によって制限され、そして必ずしも関心対象の疾患または状態に対する既知のまたはまだ知られていない関連を持つすべての関連遺伝子において、こうした小さい突然変異を同定可能な、包括的でそしてバイアスがないアプローチには相当しない。
例えば、ASDおよび大頭症の小児は、PTEN遺伝子に突然変異を宿しうることが最近発見された。PTENにおける突然変異はまた、甲状腺、乳房および皮膚を含む多様なタイプの癌のリスクの劇的な増加も導く。したがって、PTENにおいて突然変異を所持すると同定された小児は、小児期初期に始まる癌スクリーニングを必要とし、これは、腫瘍の迅速な同定が、予後の改善に必須であるためである。他の自閉症リスク遺伝子、例えばPOLGにおける突然変異は、バルプロ酸などの薬剤による毒性に関するリスクに影響を及ぼす。実際、リスクがあるものの同定は、この集団において、不都合な反応を最小限にするために非常に重要である。
さらに、さらにより多くの遺伝子が、ASDに関連付けられてきているが、現在提供される遺伝子配列決定パネルには、いまだに取り込まれていない。例えば、KCNQ2における突然変異(Jiangら、2013)は自閉症と関連付けられ、そして最終的には、将来の個別化治療の1つのターゲットとして働く可能性があることが示されたばかりであり、このことは、Kv7チャネルオープナーが最終的に、自閉症の将来の個別化治療の1つのターゲットとして働く可能性があることを示唆する(RundfeldtおよびNetzer、2000)。しかし、この遺伝子は、現在利用可能ないかなる遺伝子パネル試験上にもない。
ハイスループットDNA配列決定技術の最近の進歩は、ASDおよび他の患者に関する全ゲノム分析に適応可能である。ありうる戦略は、全ゲノムショットガンまたはエクソーム配列決定を行って、すべてのSNPを同定し、そして長鎖断片対形成端タグ配列決定を行って、患者ゲノムのすべてのSVを同定することである。これらのアプローチの組み合わせは、すべての遺伝子変異を同定可能であろう。しかし、これは多数の実験および分析パイプラインを伴い、これは時間および供給源を消費するであろう。
理想的な戦略は、1つの患者試料から単一のDNAライブラリーを構築し、そして1つのデータ分析パイプラインにおいて、単一の配列決定実行を行って、遺伝子SNPコール(現在遺伝子パネル配列決定によって行われる)、CNV(現在aCGHによって行われる)およびSV(現在巨大断片PET配列決定によって行われる)同定を行うことであろう。
CarterおよびScherer, Clin. Gen., 83:399-407, 2013 Jiangら, Am. J. Hum. Gen., 93:249-263, 2013 Pintoら, Am. J. Hum. Gen. 94:677-694, 2014 Rostiら, Dev. Med. and Child Neurol., 56:12-18, 2014 RundfeldtおよびNetzer、2000
したがって、aCGHまたは配列決定によってCNVを同定する能力と、限定されたターゲティング化配列決定プラットホームの能力を、より効率的で(時間的にもコスト的にも)、そして包括的である、単一のアッセイに組み合わせた新規技術は、ASD分子診断の新規標準治療になりうる。
本明細書記載の本発明の方法および試薬は、単一アッセイにおいて、宿主ゲノム(限定されるわけではないが、ヒトASD患者を含む)における広範囲のゲノム変異の検出を可能にする、全ゲノム分析技術を提供する。
本発明の方法は、SNV、マイクロインデル、CNV、および他の大規模ゲノム構造変異(SV)、例えば反転、タンデム複製、トランスバージョンおよび転位置を含む、小さいおよび大きいゲノム変異を、すべて1つの一体化されたアッセイにおいて同定する。これらの大きいゲノム構造変異は、aCGHまたはターゲティング化配列決定パネルによっては同定不能であるが、これらは、労働集約的なさらに他の古典的細胞遺伝学的バンディング技術によって検出可能である可能性もある。
本明細書記載の本発明の臨床的有用性は、伝統的aCGHおよび遺伝子パネル試験を置換し、そしてASD、癌、および任意の多くの遺伝性遺伝子障害などの遺伝的疾患の分子診断のための新規標準治療の出現を促進する潜在能力を有する。さらに、本発明の方法は、患者ならびに翻訳研究に対する有用性を有するであろう、はるかにより豊富なデータセットを生じる。
例えば、本発明の方法を用いて得られる臨床的および遺伝的データを用いて、リスクがある小児を同定し、臨床転帰を予測し、そしてASDおよび癌などの疾患および状態に対する新規療法措置を開発することも可能である。臨床的患者データ、ならびに本発明の方法から生じるデータはまた、電子および/またはオンラインデータベース中に保存可能であり、これらは、関連する臨床および遺伝子情報の、併合された、包括的で検索可能なレポジトリーとして働きうる。こうしたデータベースには、さらに、限定されるわけではないが、人口統計情報、患者および家族歴、併存症の存在、および異形性の特徴を含む関連する身体所見等を含む、患者のベースライン情報が含まれることも可能である。マイクロアレイおよび任意の他の遺伝的または代謝試験データの結果をまた、機能的および行動的評価、ならびに入手可能/適用可能であるならば、MRIおよびEEGの結果とともに、データベースに付加することも可能である。ユニークな患者識別子を、マッチング基準として用いて、外部分析の結果を研究データベース内に含めることを可能にすることも可能である。
データベースのデータ管理は、HIPAA遵守登録データベース、ならびに試料および関連品質管理(QC)データを追跡するClarity LIMS(Genologics、ブリティッシュコロンビア州バンクーバー)、ならびに自動化バイオインフォマティクスワークフローを立ち上げる能力によって容易になりうる。
したがって、1つの側面において、本発明は、生物のゲノムにおいて、ゲノム変異を検出するための方法であって:(1)生物のゲノムDNAを断片化して、複数のゲノムDNA断片を生成し;(2)ゲノムDNA断片の末端にタグ配列をタグ付けし;(3)平滑端分子内連結を促進する条件下で、ゲノムDNA断片のタグ化末端を連結して、連結されたタグ配列を含む、複数の環状化ゲノムDNA断片を生成し;(4)ショットガン断片化によって、複数の環状ゲノムDNA断片を断片化して:(a)隣接ゲノムDNAが隣接した、連結されたタグ配列を各々含む、複数のメイトペア(MP)断片;および、(b)複数のショットガン(SG)断片を生成し;(5)MP断片およびSG断片の配列を決定し;そして(6)SG断片の配列およびMP断片の配列の両方に基づいて、生物ゲノムにおける前記ゲノム変異を同定する工程を含む、前記方法を提供する。
特定の態様において、ゲノム変異は:一塩基多型(SNP);小さい挿入または欠失(インデル);タンデム塩基突然変異(TBM);コピー数変異(CNV);構造変異(SV);およびその組み合わせの1またはそれより多くを含む。
特定の態様において、工程(1)および(2)を同時に行う。
特定の態様において、工程(1)および(2)をトランスポゾン仲介性タグメント化(tagmentation)によって達成する。例えば、トランスポゾン仲介性タグメント化をTn5トランスポザーゼによって行う。
特定の態様において、複数のゲノムDNA断片を工程(3)の前にサイズ選択する。特定の態様において、約4〜10kb、または約6〜8kbのゲノムDNA断片をサイズ選択する。
特定の態様において、工程(4)〜(6)の前に、DNAエキソヌクレアーゼ消化によって、非環状化または直鎖ゲノムDNA断片を除去する。
特定の態様において、MP断片およびSG断片の配列を、別個にまたは同時に決定する。
特定の態様において、SG断片は、約400bp、450bp、または500bpの平均サイズを有する。特定の態様において、MP断片は、約400bp、450bp、または500bpの平均サイズを有する。
特定の態様において、MP断片およびSG断片を、工程(5)の前に互いに単離する。
特定の態様において、MP断片およびSG断片を、工程(5)の前に互いに単離しない。
特定の態様において、工程(3)の前に、ゲノムDNA断片のタグ化端を修復して、平滑端連結を促進する。
特定の態様において、工程(6)が、生物のゲノム配列に対して、隣接ゲノムDNAの配列およびショットガン断片の配列をマッピングする工程を含む。
特定の態様において、ゲノムDNAの配列を、ハイスループット配列決定によって決定する。例えば、ハイスループット配列決定を:単一分子リアルタイム配列決定;イオン半導体(イオン流)配列決定;ピロ配列決定(454);合成による配列決定(Illumina);連結による配列決定(SOLiD配列決定);ポロニー配列決定;超並列シグネチャー配列決定(MPSS);DNAナノボール配列決定;単一分子ナノ孔配列決定装置;およびHeliscope単一分子配列決定からなる群より選択することも可能である。
特定の態様において、ハイスループット配列決定は、隣接ゲノムDNAおよび/またはショットガン断片に関して、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍またはそれより多いカバレッジを生じる。
特定の態様において、生物は、ヒト、非ヒト霊長類、哺乳動物、齧歯類(ラット、マウス、ハムスター、ウサギ)、家畜動物(ウシ、ブタ、ウマ、ヒツジ、ヤギ)、鳥類(ニワトリ)、爬虫類、両生類(ゼノパス属(Xenopus))、魚類(ゼブラフィッシュ(Danio rerio)、フグ(Puffer fish))、昆虫(ショウジョウバエ属(Drosophila)、蚊)、線虫、寄生虫、真菌(酵母、例えばS.セレビシエ(S. cerevisae)またはS.ポンベ(S. pombe))、植物、細菌、またはウイルスである。
特定の態様において、生物は:自閉症(自閉症スペクトラム障害(ASD))、癌、または遺伝性疾患からなる群より選択される疾患または状態を有するヒトである。
本明細書記載のいかなる態様も、実施例セクションにしか記載されないもの、または本発明の1つの側面のもとにしかないものを含めて、特に放棄されるかまたは別の意味で不適切でない限り、任意の1またはそれより多い他の態様と組み合わせることも可能である。
図1Aおよび1Bは、本発明の方法を用いて、SNPおよび小さいインデルを検出した代表的な結果を示す。 図1Aおよび1Bは、本発明の方法を用いて、SNPおよび小さいインデルを検出した代表的な結果を示す。 図2は、本発明の方法を用いて、患者試料P46107において、ホモ接合性欠失(CNV)を検出した代表的な結果を示す。 図3は、本発明の方法を用いて、患者試料P46107において、ヘテロ接合性欠失(CNV)を検出した代表的な結果を示す。 図4は、本発明の方法を用いて、反転および染色体内直接順方向挿入(どちらもSV)の検出を例示する模式図を示す。 図5は、本発明の方法を用いて、MP配列データのみにより、反転(SV)を検出した代表的な結果を示す。 図6は、本発明の方法を用いて、染色体内転位置(SV)を検出した代表的な結果を示す。 図7は、本発明の方法を用いて、染色体間転位置(SV)を検出した代表的な結果を示す。 図8は、染色体17上の複雑な領域におけるSVの検出を示す。 図8は、染色体17上の複雑な領域におけるSVの検出を示す。 図8は、染色体17上の複雑な領域におけるSVの検出を示す。
1.概説
本明細書に記載する本発明は、ユニークに生成されたゲノムDNAライブラリーを配列決定することを通じて、患者由来の1つのDNA試料から、すべてのタイプの遺伝子変異を同定する、迅速でそして効率的な手段を提供する。
したがって、1つの側面において、本発明は、生物のゲノムにおいて、ゲノム変異を検出するための方法であって:(1)生物のゲノムDNAを断片化して、複数のゲノムDNA断片を生成し;(2)ゲノムDNA断片の末端にタグ配列をタグ付けし;(3)平滑端分子内連結を促進する条件下で、ゲノムDNA断片のタグ化末端を連結して、連結されたタグ配列を含む、複数の環状化ゲノムDNA断片を生成し;(4)ショットガン断片化によって、複数の環状化ゲノムDNA断片を断片化して:(a)隣接ゲノムDNAが隣接した、連結されたタグ配列を各々含む、複数のメイトペア(MP)断片;および、(b)複数のショットガン(SG)断片を生成し;(5)MP断片およびSG断片の配列を決定し;そして(6)SG断片の配列およびMP断片の配列の両方に基づいて、生物ゲノムにおける前記ゲノム変異を同定する工程を含む、前記方法を提供する。
上に引用する工程は、上に列挙する正確な順序で実行する必要はないことに注目されたい。その代わり、例えば、工程(1)および(2)を、1つの工程において、同時に実行することも可能である。
本発明の方法を用いて、任意の生物、好ましくは、完全なまたは実質的に完全なゲノム配列を持つものにおいて、遺伝子変異を検出することが可能であり、これには、多数の古細菌または真正細菌、原生生物、真菌(例えばS.セレビシエまたはS.ポンベ)、植物、動物ゲノムが含まれる。例えば、ヒト、マウスならびに多くの他の哺乳動物および非哺乳動物種のゲノム配列が、現在、パブリックドメインにおいて容易に入手可能である。例えば、Venterら, “The Sequence of the Human Genome,” Science, 291(5507):1304-1351, 2001を参照されたい。他の限定されない既知のゲノムには、多くの非ヒト霊長類、哺乳動物、齧歯類(ラット、マウス、ハムスター、ウサギ)、家畜動物(ウシ、ブタ、ウマ、ヒツジ、ヤギ)、鳥類(ニワトリ)、爬虫類、両生類(ゼノパス属)、魚類(ゼブラフィッシュ、フグ)、昆虫(ショウジョウバエ属、蚊)、線虫、寄生虫、真菌(酵母、例えばS.セレビシエまたはS.ポンベ)、多様な植物、ウイルス(宿主ゲノム内に組み込まれているものなど)等のものが含まれる。
特定の態様において、生物は:自閉症(自閉症スペクトラム障害(ASD))、癌、アルツハイマー病、他の神経学的障害、あるいは遺伝性疾患または状態からなる群より選択される疾患または状態を有するヒトである。
本発明の方法を用いて、限定されるわけではないが:一塩基多型(SNP);小さい挿入または欠失(インデル);タンデム塩基突然変異(TBM);コピー数変異(CNV);構造変異(SV);またはその組み合わせを含む、多数のタイプの遺伝子変異を検出することも可能である。これらの遺伝子変異は、伝統的に、異なる技術の1より多いタイプを用いて同定される必要があり、ほぼ一定して、患者由来の多数の試料、または異なる検出法の何回かの実行を支持するために十分な大量の試料を必要とする。
本明細書において、一塩基多型(SNP)は、ゲノム(または他の共有される配列)中の単一ヌクレオチド、A、T、C、またはGが、生物学的種のメンバーまたは対形成染色体の間で異なる、集団内で一般的に生じるDNA配列変異を指す。
特定の態様において、SNPは、遺伝子の非コード領域(例えば転写エンハンサー、サプレッサー、プロモーター)中にある。別の態様において、SNPは、遺伝子のコード領域(例えばオープンリーディングフレーム)中にある。さらに別の態様において、SNPは、2つの隣接遺伝子間の遺伝子間領域中にある。特定の態様において、SNPはエクソン中にある。特定の態様において、SNPはイントロン中にある。特定の態様において、SNPはコード領域中にあり、そしてコードされるアミノ酸を変化させないサイレント突然変異に相当する(同義SNP)。関連する態様において、SNPはコード領域中にあり、そしてミスセンスまたはナンセンス突然変異と関連する(非同義SNP)。特定の態様において、SNPは、種の選択された集団(例えばヒトの特定の人種、民族群、宗教または信仰群、あるいは特定の地理的位置に限局された集団)中で起こる。特定の態様において、SNPは、特定の疾患または状態(例えば鎌形細胞貧血、βサラセミア、アルツハイマー病、癌、下顎骨異形成、早老症候群、または嚢胞性線維症)に関連付けられるか、あるいは疾患または状態に関する高いリスク要因の指標である。特定の態様において、SNPは、異なる薬剤の代謝と関連付けられる。特定の態様において、SNPは、タンパク質コード領域中にはなく、そして遺伝子スプライシング、転写因子結合、メッセンジャーRNA分解、または非コードRNA(ncRNA)の配列に影響を及ぼす。SNPは、影響を受ける遺伝子の上流または下流であってもよい。特定の態様において、SNPは、2対立遺伝子性(biallelic)である。特定の態様において、SNPは、3またはそれより多いアレル変異を有する多対立遺伝子性(multi-allelic)である。特定の態様において、SNPは、NCBIのdbSNP(2014年10月には、1億1200万を超えるヒトSNP)に列挙されるSNPのいずれか1つである。特定の態様において、SNPは、所定の集団(例えば全ヒト集団、国内または地理的位置内のヒト集団、あるいは人種、民族群等)の50%、40%、30%、20%、10%、5%、2%、1%、0.5%、0.2%、0.1%、0.05%、0.01%で生じる。
本明細書において、インデルは、生物のDNA中の塩基の挿入および/または欠失、特にわずか数塩基(例えば1、2、3、4、5、6、7、8、9、10、20、25、30、35、40、45、50等)の挿入および/または欠失を指す。特定の態様において、インデルはコード領域中のフレームシフト突然変異を生じない。特定の態様において、インデルは、フレームシフト突然変異または未成熟停止コドンを生成するか、あるいは天然停止コドンを除去する。
本明細書において、タンデム塩基突然変異(TBM)は、隣接するヌクレオチドでの置換、例えば2つの隣接するヌクレオチドでの置換、または3つの隣接するヌクレオチドでの置換等を指す。
本明細書において、コピー数変異(CNV)は、DNAの1またはそれより多いセクションのコピー数の、異常なまたは特定の遺伝子に関しては正常な変異を有する細胞を生じる、ゲノムのDNA中の構造変異の形を指す。CNVは、通常、特定の染色体上で、欠失されている(通常の数より少ない)または複製されている/多数倍にされている(例えば2の通常のコピー数より多い)ゲノムの比較的広い領域に対応する。特定の態様において、CNVは、遺伝子のコピー数を増加させる。別の態様において、CNVは、遺伝子のコピー数を減少させる。特定の態様において、CNVに関与するゲノム領域は、少なくとも約1kb、2kb、5kb、10kb、20kb、50kb、100kb、200kb、500kb、750kb、1mb、2mb、5mbまたはそれより多い。特定の態様において、CNVは、遺伝される遺伝子欠陥である。別の態様において、CNVは個体においてデノボ生成される。特定の態様において、CNVは、蛍光in situハイブリダイゼーション(FISH)、比較ゲノムハイブリダイゼーション、アレイ比較ゲノムハイブリダイゼーション(aCGH)などの細胞遺伝学的技術によって、そしてSNPアレイでの実質的な核型決定によって、検出可能である。特定の態様において、CNVは単一遺伝子に影響を及ぼす。別の態様において、CNVは2またはそれより多い遺伝子に影響を及ぼす。特定の態様において、CNVは、疾患または状態(例えば癌、例えばNSCL癌、SLE、関節リウマチ、炎症性自己免疫障害、自閉症、統合失調症、または特発性学習障害)に対する感受性または耐性と関連付けられてきている。
本明細書において、構造変異(SV、またはゲノム構造変異)は、生物の染色体構造の変異を指す。広い意味では、SVは、1つの種のゲノムにおける多くの種類の変異からなり、そして通常、顕微鏡的および超顕微鏡的タイプ、例えば欠失、複製(例えばタンデム複製)、コピー数変異体、挿入(例えば新規配列挿入および可動要素挿入(MEI))、反転、非対反転、および転位置(例えば孤立型対平衡転位置)を含む。特定の態様において、SVにはCNVは含まれず、またはSVはコピー数中立である。特定の態様において、SVには、反転、挿入(例えば染色体間直接挿入;染色体間反転挿入;染色体内直接順方向挿入;染色体内直接逆方向挿入;染色体内反転順方向挿入;染色体内反転逆方向挿入)、転位置、染色体再編成、環状染色体等、またはその組み合わせ(例えば欠失に加えて染色体内直接順方向挿入;欠失に加えて染色体内反転順方向挿入)が含まれる。
特定の態様において、SVは、約1kb〜3Mbの配列長に影響を及ぼし、これはSNPより大きく、そして染色体異常より小さい。構造変異の定義が、頻度または表現型的影響に関しては何も暗示しないことに注目されたい。特定の態様において、構造変異は、遺伝的疾患または状態に関連する。他の態様において、構造変異は、いかなる既知の遺伝的疾患または状態とも関連付けられていない。特定の態様において、SVは、光学顕微鏡で検出可能な顕微鏡的SV、例えば異数性、マーカー染色体、巨大再編成、および染色体数の変異である。特定の態様において、SVは、反転、潜在性転位置、またはセグメント片親性二倍体(UPD)である。特定の態様において、SVは、ゲノムまたはバイオインフォマティクスデータベースに列挙される。
特定の態様において、ゲノム変異は、反復配列が豊富な領域中にあるか、その近傍にあるか、または該領域を含む。
特定の態様において、ターゲットDNAは、細胞または生物の全ゲノムを含むかまたは全ゲノムからなる。いくつかの態様において、ターゲットDNAは、環境試料中に存在する多数の生物(例えば同じ種の多数の生物、または生物の代表的なコレクション)由来のゲノムおよび/または二本鎖cDNAを含むかまたはこれらからなる。いくつかの態様において、ターゲットDNAは、生物の特定の組織または臓器(例えば疾患または障害に罹患したもの)由来のゲノムおよび/または二本鎖cDNAを含むかまたはこれらからなる。
特定の態様において、方法の工程(1)および(2)は、別個に実行可能である。例えば、多くの伝統的な技術のいずれかを用いて、工程(1)において、ゲノムDNAを断片化することも可能である。1つの態様において、物理的手段、例えば超音波剪断、超音波処理、または水力学的剪断によって、DNA断片化を達成することも可能である。次いで、任意の望ましいタグ配列を、断片の末端に連結することも可能である。場合によって、まずDNAポリメラーゼおよび/またはエキソヌクレアーゼを用いて、断片の末端を修復して、平滑端連結に適した平滑端を生成することも可能である。
本明細書において、「タグ」または「タグ配列」は、連結された核酸断片にアドレス付けする手段を提供する、非ターゲット核酸、一般的にはDNAを指す。例えば、いくつかの態様において、タグは、タグが付着したDNAの同定、認識および/または分子的または生化学的操作を可能にするヌクレオチド配列を含む(例えばオリゴヌクレオチド、例えばDNAポリメラーゼによる伸長のためのプライマー、あるいは捕捉のためまたは連結反応のためのオリゴヌクレオチドをアニーリングさせる部位を提供することによって)。DNA分子にタグを連結させるプロセスは、本明細書において、ときに、「タグ化」と称され、そしてタグ化を経るかまたはタグを含有するDNAは、「タグ化された」と称される(例えば「タグ化されたDNA」)。
超音波剪断および超音波処理は、DNAを剪断するために用いられる主な物理的方法であり、そして商業的に入手可能な装置を用いて実行可能である。例えば、COVARIS(登録商標)装置(マサチューセッツ州ウォバーン)は、DNAを100bp〜5kbサイズ範囲に断片化可能な超音波デバイスである。Covarisはまた、対象のメイトペアライブラリーのため、試料を6〜20kbにプロセシングするために使用可能なチューブ(gTube)も製造する。BIORUPTOR(登録商標)(ニュージャージー州デンビル)は、クロマチンおよびDNAを剪断して、最長長さ1kbのゲノム断片を産生するために適した超音波デバイスである。Digilab(マサチューセッツ州マールボロ)のHydroshearは、水力学的力を用いてDNAを剪断する。ネブライザー(Life Tech、ニューヨーク州グランドアイランド)を用いて、圧縮空気を用い、液体を微粒化させて、DNAを数秒で100bp〜3kb断片に剪断することも可能である。
特定の態様において、ゲノムDNA断片化を、酵素的手段、例えばDNアーゼまたは他の制限エンドヌクレアーゼまたは非特異的ヌクレアーゼによって、あるいはトランスポザーゼによって、達成する。DNAを小片に剪断する酵素的方法には、DNアーゼI、マルトース結合タンパク質(MBP)−T7エンドIおよび非特異的ヌクレアーゼ、ビブリオ・バルニフィカス(Vibrio vulnificus)(Vvn)の組み合わせ、NEB(マサチューセッツ州イプスウィッチ)のフラグメンターゼおよびNexteraタグメント化技術(Illumina、カリフォルニア州サンディエゴ)が含まれる。非特異的ヌクレアーゼおよびT7エンドの組み合わせは、相乗的に作用して、非特異的ニックおよびカウンター・ニックを産生し、ニック部位から8ヌクレオチドまたはそれ未満を解離させる断片を生成する。
一方、タグメント化は、トランスポザーゼを用い、断片化すると同時に、トランスポゾン端、またはトランスファーされる鎖(例えばタグ配列またはアダプター)を含むトランスポゾン端組成物を、dsDNA、例えばゲノムDNA上に挿入し、こうして、方法の工程(1)および(2)を単一工程で同時に実行する。例えば、WO2010−048605A1(全内容が本明細書に援用される)を参照されたい。
本明細書において、「トランスポザーゼ」は、トランスポゾン端含有組成物(例えばトランスポゾン、トランスポゾン端、トランスポゾン端組成物)を含む機能的複合体を形成し、そしてトランスポゾン端含有組成物の、in vitro転位反応中でともにインキュベーションされている二本鎖ターゲットDNA内への挿入または転位を触媒することが可能な酵素である。
「トランスポゾン端」は、in vitro転位反応において機能性であるトランスポザーゼまたはインテグラーゼ酵素と複合体を形成するために必要なヌクレオチド配列(「トランスポゾン端配列」)のみを示す二本鎖DNAを指す。トランスポゾン端は、トランスポゾン端を認識しそして結合するトランスポザーゼまたはインテグラーゼと、「複合体」または「シナプス複合体」または「トランスポソーム複合体」または「トランスポソーム組成物」を形成し、そしてこの複合体は、トランスポゾン端を、in vitro転位反応中でともにインキュベーションされているターゲットDNA内に、挿入するかまたは転位させることが可能である。トランスポゾン端は、「トランスファーされるトランスポゾン端配列」または「トランスファー鎖」および「トランスファーされないトランスポゾン端配列」または「非トランスファー鎖」からなる2つの相補配列を示す。例えば、in vitro転位反応において活性である、高反応性Tn5トランスポザーゼ(例えばEZ−Tn5TMトランスポザーゼ、EPICENTRE Biotechnologies、米国ウィスコンシン州マディソン)と複合体を形成する1つのトランスポゾン端は、「トランスファーされるトランスポゾン端配列」(本明細書に援用されるWO2010048605の配列番号1を参照されたい)を示すトランスファー鎖、および「トランスファーされないトランスポゾン端配列」(例えば、本明細書に援用されるWO2010048605の配列番号2を参照されたい)を示す非トランスファー鎖を含む。
トランスファー鎖の3’端は、in vitro転位反応において、ターゲットDNAに連結されるかまたはトランスファーされる。トランスファーされるトランスポゾン端配列に相補的であるトランスポゾン端配列を示す非トランスファー鎖は、in vitro転位反応において、ターゲットDNAに連結されず、またトランスファーされない。
いくつかの態様において、トランスファー鎖および非トランスファー鎖は共有連結される。例えば、いくつかの態様において、トランスファーおよび非トランスファー鎖配列は、例えばヘアピン立体配置において、単一オリゴヌクレオチド上に提供される。こうしたものとして、非トランスファー鎖の未結合端は、転位反応によって、直接ターゲットDNAに連結されることはないが、非トランスファー鎖は、間接的にDNA断片に付着するようになり、これは、非トランスファー鎖が、ヘアピン構造のループによって、トランスファー鎖に連結されているためである。
「トランスポゾン端組成物」は、トランスポゾン端(すなわちトランスポザーゼとともに作用して、転位反応を経ることが可能な最少二本鎖DNAセグメント)を、場合によって、トランスファーされるトランスポゾン端配列の5’および/またはトランスファーされないトランスポゾン端配列の3’の、さらなる単数または複数の配列とともに含む組成物を意味する。例えば、タグに付着したトランスポゾン端は、「トランスポゾン端組成物」である。いくつかの態様において、トランスポゾン端組成物は、「トランスファーされるトランスポゾン端オリゴヌクレオチド」または「トランスファー鎖」、および「トランスファーされない鎖端オリゴヌクレオチド」または「非トランスファー鎖」からなる2つのトランスポゾン端オリゴヌクレオチドを含むかまたはこれらからなり、これらは組み合わせて、トランスポゾン端の配列を示し、そしてこの中で、一方または両方の鎖はさらなる配列を含む。
用語「トランスファーされるトランスポゾン端オリゴヌクレオチド」および「トランスファー鎖」は交換可能に用いられ、そして「トランスポゾン端」および「トランスポゾン端組成物」両方のトランスファーされる部分を指し、すなわちトランスポゾン端がタグまたは他の部分に付着しているかどうかとは関わりがない。同様に、用語「トランスファーされないトランスポゾン端オリゴヌクレオチド」および「非トランスファー鎖」は、交換可能に用いられ、そして「トランスポゾン端」および「トランスポゾン端組成物」の両方の非トランスファー部分を指す。
いくつかの態様において、トランスポソームは、Tn5トランスポザーゼ、MuAトランスポザーゼ、Sleeping Beautyトランスポザーゼ、Marinerトランスポザーゼ、Tn7トランスポザーゼ、Tn10トランスポザーゼ、Ty1トランスポザーゼ、およびTn552トランスポザーゼより選択されるトランスポザーゼの野生型または高反応性突然変異体、および転位反応において活性である複合体をトランスポザーゼがともに形成するトランスポゾン端の複合体である。
いくつかの態様において、トランスポザーゼは、Muトランスポゾン端を含むトランスポゾン端を利用する、Muトランスポザーゼである(例えばHYPERMUTM MuAトランスポザーゼ、EPICENTRE Biotechnologies、ウィスコンシン州マディソン)。いくつかの態様において、トランスファー鎖の3’部分は、Muトランスポゾン端由来の配列を含み、そしてここで、トランスファー端の5’部分は、Muトランスポゾン由来ではない。
いくつかの態様において、トランスポザーゼは、Tn5トランスポゾン端を含むトランスポゾン端を利用する、Tn5トランスポザーゼである(例えば野生型または突然変異体Tn5トランスポザーゼ、例えばEZ−Tn5TMトランスポザーゼ、EPICENTRE Biotechnologies、ウィスコンシン州マディソン)。いくつかの態様において、トランスファー鎖の3’部分は、Tn5トランスポゾン端由来の配列を含み、そしてここで、トランスファー鎖の5’部分は、Tn5トランスポゾン由来ではない。
タグメント化は、ターゲットdsDNA(例えばゲノムDNA)が断片化されて複数のターゲットdsDNA断片、および複数のターゲットdsDNA断片各々の5’端に連結されたトランスポゾン端のトランスファー鎖またはトランスポゾン端組成物を生成するように、トランスポソームがランダムで小さい未結合DNA鎖(トランスポゾン端または5’部分にタグドメインを有するトランスファーされる鎖を含むトランスポゾン端組成物)を挿入し、そして複数の5’タグ化ターゲットDNA断片を産生する事実を利用する修飾転位反応である。特定の態様において、方法は、5’タグ化ターゲットDNA断片と、核酸修飾酵素を、3’タグが5’タグ化ターゲットDNA断片の3’端に連結されて、二タグ化ターゲットDNA断片を生じるような条件下で、インキュベーションする工程をさらに含んでもよい。方法は、いかなる特定の核酸修飾酵素の使用にも限定されない。例えば、核酸修飾酵素は、ポリメラーゼ、ヌクレアーゼ、リガーゼ等を含むことも可能である。いくつかの態様において、核酸修飾酵素は、DNAポリメラーゼを含み、そして3’タグは、5’タグ化ターゲットDNA断片の3’の伸長によって形成される。
言い換えると、タグメント化は、ターゲットdsDNAを有効に断片化する一方、同時に、例えばPCRプライマー部位、配列決定プライマー部位、および/またはタグ化ゲノムDNAの単離または精製を容易にしうる他の部分を含むことも可能な、タグ/アダプター/リンカー配列を付加する。
いくつかの態様において、タグ配列は、制限部位ドメイン、捕捉タグドメイン、配列決定タグドメイン、増幅タグドメイン、検出タグドメイン、アドレスタグドメイン、および/または転写プロモータードメインの1またはそれより多くを含む。
本明細書において、「捕捉タグドメイン」または「捕捉タグ」は、タグドメインが連結されたDNA断片の捕捉を容易にする目的のための配列を示すタグドメインを意味する(例えば、ビーズまたは他の表面上に、タグ化DNA断片を捕捉するためのアニーリング部位またはアフィニティタグを提供するため、例えばここで、タグドメイン配列のアニーリング部位は、表面上にある特定の配列、例えばビーズ上またはマイクロチップまたはマイクロアレイ上の、あるいは配列決定ビーズ上のプローブにアニーリングすることによって、捕捉を可能にする)。いくつかの態様において、捕捉タグドメインは、アフィニティ結合分子を含むかまたは該分子からなる化学基または部分に連結された、トランスファー鎖の5’部分を含む(例えばここで、トランスファー鎖の5’部分は、第一のアフィニティ結合分子、例えばビオチン、ストレプトアビジン、抗原、または抗原に結合する抗体であって、第一のアフィニティ結合分子と特異的結合対を形成する第二のアフィニティ結合分子が付着した表面上へのタグ化DNA断片の捕捉を可能にする、前記抗体に連結される)。
例えば、トランスポソームによって用いられるタグ配列は、ストレプトアビジンビーズを用いてタグ化ゲノム断片を単離可能であるように、ビオチン化連結アダプターを含むことも可能である。
本明細書において、「配列決定タグドメイン」または「配列決定タグ」は、タグが連結されたDNA断片の配列決定を容易にする目的のための配列を示すタグドメインを意味する(例えば、合成による配列決定のためのプライミング部位を提供するか、または連結による配列決定のためのアニーリング部位を提供するか、またはハイブリダイゼーションによる配列決定のためのアニーリング部位を提供する)。
いくつかの態様において、配列決定タグドメインは、Roche 454Aおよび454B配列決定タグ、ILLUMINATM SOLEXATM配列決定タグ、Applied BiosystemsのSOLIDTM配列決定タグ、Pacific BiosciencesのSMRTTM配列決定タグ、Pollonator Polony配列決定タグ、またはComplete Genomics配列決定タグより選択される配列決定タグを含むかまたはこれらからなる。
本明細書において、「増幅タグドメイン」は、前記タグが付加されている核酸の増幅を容易にする目的のための配列を示すタグドメインを意味する。例えば、いくつかの態様において、増幅タグドメインは、DNAポリメラーゼを用いた核酸増幅反応(例えばPCR増幅反応または鎖置換増幅反応、またはローリングサークル増幅反応)のためのプライミング部位、または核酸増幅反応(例えば連結連鎖反応)においてテンプレート依存性リガーゼを用いたプローブの連結のための連結テンプレートを提供する。
いくつかの態様において、方法は、1またはそれより多いタグ化ターゲットDNA断片および/または二タグ化ターゲットDNA断片を増幅する工程をさらに含む。いくつかの態様において、増幅は、PCR増幅反応、鎖置換増幅反応、ローリングサークル増幅反応、リガーゼ連鎖反応、転写仲介増幅反応、またはループ仲介増幅反応の1またはそれより多くの使用を含む。特定の態様において、増幅は、DNA断片ライブラリーのタグ化ターゲットDNA断片またはDNA断片ライブラリーの二タグ化ターゲットDNA断片を非選択的に増幅する工程を含む。
本明細書において、「アドレスタグドメイン」または「アドレスタグ」は、特定の試料の同定を可能にする配列を示すタグドメインを意味する(例えばトランスファー鎖は、各試料に関して異なる配列を示す異なるアドレスタグドメインを有する)。
各々、PCR/配列決定部位を含む2つの小さい未結合DNA端の一方を所持する2つのトランスポソームを等モル比で混合してもよい。すなわち、いくつかの態様において、方法は、ターゲットDNAを、第一のトランスポザーゼおよび第一のトランスポゾン端オリゴヌクレオチド、ならびに第二のトランスポザーゼおよび第二のトランスポゾン端オリゴヌクレオチドの両方と、同じ反応混合物中で同時にインキュベーションする工程を含む。いくつかの他の態様において、ターゲットDNAを第一のトランスポザーゼおよび第一のトランスポゾン端オリゴヌクレオチドとまずインキュベーションし、そして次いで、反応由来の産物を、第二のトランスポザーゼおよび第二のトランスポゾン端オリゴヌクレオチドとインキュベーションすることによって、方法を連続的に行う。方法を連続的に行う態様のいくつかにおいて、ターゲットDNAと第一のトランスポザーゼおよび第一のトランスポゾン端オリゴヌクレオチドの反応由来の産物を、第二のトランスポザーゼおよび第二のトランスポゾン端オリゴヌクレオチドでの産物とインキュベーションする前に、精製する。
いくつかの態様において、断片またはライブラリーをタグ化する際に用いるトランスポゾン端組成物は、核酸配列が少なくとも1ヌクレオチド異なる複数のトランスファー鎖を含み、そして増幅は、5’端タグまたはタグドメインの核酸配列に基づいて、二タグ化DNA断片を選択的に増幅する工程を含む。他の態様において、増幅は、二タグ化ターゲットDNA断片の3’タグに相補的な単一オリゴヌクレオチドプライマーを用いたPCRを含む。
いくつかの態様において、増幅は、単一オリゴヌクレオチドプライマーを用いた鎖置換増幅反応を含み、この中で、オリゴヌクレオチドプライマーは、リボヌクレオチドのみからなるか、またはプリンリボヌクレオチドのみおよびピリミジン2’−F−2’−デオキシリボヌクレオチドのみからなり、そして鎖置換増幅反応は、鎖置換DNAポリメラーゼおよびリボヌクレアーゼHを含む。
いくつかの態様において、増幅は、各々3’端部分を含む第一および第二のオリゴヌクレオチドプライマーを用いたポリメラーゼ連鎖反応を含み、ここで、第一のPCRプライマーの少なくとも3’端部分は、二タグ化ターゲットDNA断片の3’タグに相補的であり、そして第二のPCRプライマーの少なくとも3’端部分は、二タグ化ターゲットDNA断片の5’タグまたはタグドメインの少なくとも部分の配列を示す。特定の態様において、第一または第二のオリゴヌクレオチドプライマーは、5’端部分を含み、ここで第一のプライマーの少なくとも5’端部分は、二タグ化ターゲットDNA断片の3’タグに相補的ではなく、または第二のプライマーの5’部分は、二タグ化ターゲットDNA断片の5’タグまたはタグドメインの少なくとも部分の配列を示さない。特定の態様において、第一および第二のオリゴヌクレオチドプライマーは、各々5’端部分を含み、ここで、第一のPCRプライマーの少なくとも5’端部分は、二タグ化ターゲットDNA断片の3’タグに相補的ではなく、そして/または第二のPCRプライマーの5’端部分は、二タグ化ターゲットDNA断片の5’タグドメインの少なくとも部分の配列を示さない。
いくつかの態様において、本発明の断片およびライブラリーを増幅することが有用である。したがって、いくつかの態様において、増幅は、各々、タグ化DNA断片または二タグ化DNA断片のトランスファー鎖の1つの配列の少なくとも部分に相補的な3’端部分を含む、第一および第二のオリゴヌクレオチドプライマーを用いたポリメラーゼ連鎖反応を含む。
各トランスポソームは、1回のタグメント化しか可能ではないため、断片の平均サイズは、主に、トランスポソームに対するインプットゲノムDNAの比によって決定される。
したがって、特定の態様において、インプットゲノムDNAの量は、例えば、試料中のdsDNAの量を特異的に定量化する方法、あるいは試料中の混入RNA、ssDNA、または分解されたDNAの検出を回避する方法を用いることによって、正確に決定される。商業的産物、例えばQUBIT(登録商標)アッセイ(Life Technologies、Thermo Fisher Scientific, Inc.)をこの目的のために用いてもよく、そして結果をQUBIT(登録商標)蛍光測定装置で読み取ってもよい。
特定の態様において、タグメント化ゲノムDNAの平均サイズは約4、5、6、7、8、9、10、11、12、13、14、または15kbである。特定の態様において、タグメント化ゲノムDNAの平均サイズは、約4〜10kb、または約6〜8kbである。
特定の態様において、断片化およびタグ化DNA断片の末端は、一本鎖領域を有し、これは好ましくは、次の工程の前に充填されるかまたは修復される。すなわち、特定の態様において、工程(3)の前に、ゲノムDNA断片のタグ化端を修復して、平滑端連結を促進する。これは、トランスポソーム仲介タグメント化を用いて生成される断片に関しては必要である可能性があり、これは、タグメント化工程が、タグメント化DNA中に短い一本鎖配列ギャップを残すためである。こうした態様において、ポリメラーゼ仲介鎖置換反応を用いて、タグメント化工程によって生成されたギャップを充填して、すべての断片が平坦であることを確実にすることも可能である。
いくつかの態様において、充填および連結工程は、タグ化DNA断片と1またはそれより多いサイズのランダム配列オリゴヌクレオチドおよびテンプレート依存性リガーゼを、ランダム配列オリゴヌクレオチドがアニーリングし、そして一本鎖ギャップを充填し、そして互いにまたはタグ化DNA断片の隣接端と連結される条件下で、インキュベーションする工程を含む。
特定の態様において、断片化またはタグメント化DNAを、工程(3)の前にサイズ選択する。特定の態様において、1つのあらかじめ決定されたサイズの断片化またはタグメント化DNAを、続く工程、例えばサイズ選択したDNAの環状化において使用するために、サイズ選択する。特定の態様において、断片化またはタグメント化DNAの2またはそれより多い異なるあらかじめ決定されたサイズをサイズ選択し、選択されたDNAの各サイズを環状化し、そしてともに、さらなるショットガン断片化工程に用いる。1より多いサイズを選択する場合、各サイズは、例えば末端タグ化ゲノムDNA断片を生成するために用いた異なるタグ配列を通じて、他のものから区別することも可能である。
当該技術分野に認識される多くの方法のいずれを、DNAサイズ選択に用いてもよい。1つの態様において、サイズ選択を、PEG(ポリエチレングリコール)仲介DNA沈殿によって行う。例えば、LisおよびSchleif, “Size Fractionation of Double-Stranded DNA by Precipitation with Polyethylene Glycol,” Nuc. Acid Res., 2(3):383-389(1975)を参照されたい。全内容は本明細書に援用される。特に、より低いPEG濃度では、大きなdsDNAは、より小さいdsDNA(例えば<1500bpのもの)よりもよりよく沈殿する。この方法を用いて、約150bp〜50kbのサイズ範囲のDNAに関して、サイズ分画が達成可能であると報告された。特定の態様において、PEG仲介サイズ選択は、PEG濃度、DNA濃度、NaCl濃度、pH、二価イオン、沈殿時間、および/または遠心力を変化させることによって、制御される。
PEG沈殿に基づくサイズ選択を容易にするため、商業的製品が容易に入手可能であり、例えばAgencourt AMPure XPビーズ(BD、例えば製品番号A63880を参照されたい)またはSPRIselectビーズ(BD、例えば製品番号B23317を参照されたい)がある。より大きいDNA断片は、これらのビーズに結合される一方、より小さい断片(例えば<1500bpのもの)は溶液中に留まり、そして容易に除去される。
別の態様において、アガロースゲル電気泳動によってサイズ選択を行う。例えば、Pippin DNAサイズ選択系(Sage Science)は、DNA試料の明記されるサイズ範囲を選択可能な、自動化調製用アガロースゲル電気泳動系である。製造者によれば、BLUEPIPPINTM系を用いて、90bp〜50kbの間の範囲の、狭い分布サイズ内のDNAを収集することが可能である。同様に、PIPPINPREPTM系を用いて、90bp〜8kbのDNA断片を収集することが可能である。特定の態様において、BLUEPIPPINTM型系において、約0.75%アガロースを用いて、1〜50kb、例えば6〜8kbまたは4〜10kbの間の平均サイズのDNA断片がサイズ選択される。特定の態様において、PIPPINPREPTM型系を用いて、約0.75%アガロースを用いて、2〜8kbの間の平均サイズのDNA断片がサイズ選択される。特定の態様において、収集されるDNAは、±3kb、2kb、1kb、または0.5kbの狭い分布範囲を有する。
特定の態様において、Pippin DNAサイズ選択系を伴わずに標準アガロースゲル電気泳動を用いることもまた可能であり、これには特に、1回の実行からいくつかのサイズ範囲を選択しようとする際に使用可能である。当該技術分野に認識される任意の方法を用いて、サイズ選択DNA断片をゲルから回収するかまたは精製することも可能である。1つの態様において、スピンカラムに基づくDNA回収試薬、例えば商業的に入手可能なZYMOCLEANTM巨大断片DNA回収キット(Zymo Research)によって、DNAを回収する。
特定の態様において、1またはそれより多い上述のサイズ選択法を組み合わせて用いてもよく、例えばPEG沈殿に基づくサイズ選択、その後、アガロースゲル電気泳動に基づくサイズ選択を行ってもよい。
好ましくはあらかじめ決定されたサイズ範囲内の、タグ化DNA断片を得たら、断片の末端を、平滑端分子内連結を促進するかまたは支持する条件下で連結して、複数の環状化ゲノムDNA断片を生成する。特定の態様において、条件は、比較的大きい体積および低い濃度、例えば6〜8kbのサイズ選択DNAの0.05〜0.2ng/μL(例えば約0.1ng/μL)、または1.5〜3ng/μL(例えば約2ng/μL)で、DNA断片を連結することを含む。連結を、DNAリガーゼの最適温度(例えば30℃)で一晩(例えば12〜16時間)行ってもよい。
いくつかの態様において、方法は、タグ化環状DNA断片を、直鎖DNA、非連結ランダム配列オリゴヌクレオチド、および/またはターゲットDNAに連結されていないトランスポゾン端組成物から分離する工程をさらに含む。
特定の態様において、非連結直鎖DNAをDNAエキソヌクレアーゼによって除去する。例えば、いくつかの態様において、タグ化環状DNA断片を含有する反応混合物を、T5エキソヌクレアーゼで処理して、直鎖DNA、例えば非連結断片およびランダム配列オリゴヌクレオチドを除去する。
特定の態様において、環状化ゲノムDNA断片を、ショットガン断片化によって、再び断片化して、複数のより小さい断片を生成し、これは一般的に、配列決定に適したサイズ範囲にある。例えば、任意の当該技術分野に認識される配列決定法、例えば多くの次世代配列決定(NGS)法の1つのために、約300〜1000bp(例えば400、450、または500bp)の断片を生成することも可能である。
ショットガン断片化のため、同じ超音波剪断および超音波法を用いてもよい。例えば、COVARIS(登録商標)装置(マサチューセッツ州ウォバーン)を用いて、約300〜1000bp(例えば400、450、または500bp)のDNA断片を生成してもよい。あるいは、別の態様において、ネブライザーを用いたショットガン断片化を行って、約300〜1000bpの断片を産生する。
特定の態様において、ゲノムDNAを断片化し、そしてトランスポソーム仲介タグメント化を用いてタグ化し、そしてタグメント化に用いるタグ配列は、タグ配列の単離または精製を容易にしうる部分を含む。例えば、タグ配列は、ビオチン化連結アダプターであってもよく、これをSAビーズによって単離してもよい。SAビーズに付着した断片は、メイトペア(MP)断片ライブラリーを形成し、この中で、短いゲノムDNA断片は、少なくとも1つの(通常両方の)タグ配列を含有する。すなわち、短いゲノムDNA断片の大部分は、ゲノム中では何kbも離れている(メイトペアライブラリーの平均サイズに応じる)2つのゲノムDNA断片が隣接した、2つの連結された結合アダプター(タグ配列)である。当該技術分野に認識される配列決定法、例えば、以下に記載する多くのNGS法の1つを用いて、MP断片ライブラリー中の個々の断片の配列を決定して、MP断片配列決定データを生じることも可能である。
ショットガン断片化によって生成され、そしてSAビーズに結合されていない断片を、廃棄する代わりに、やはり収集して、そして同様に、例えばNGSによって配列決定して、ショットガン断片配列決定データを産生することも可能である。タグ配列を含まないこうした断片もまた、ショットガン(SG)断片と称される。特定の態様において、SG断片にはまた、部分的タグ配列を、通常こうした断片の一方の端に有する断片も含まれる。
特定の態様において、MP断片およびSG断片を、さらなる処理の前に分離する。ここでMP断片中にのみ存在しSG断片には存在しない、タグ配列中の任意のアフィニティタグを用いて、分離を達成することも可能である。
他の態様において、MP断片およびSG断片を、ともに配列決定することを含めて、ともにプロセシングする。MP断片からの配列決定データは、MP断片中のタグ配列の存在(対不在)によって、SG断片のものから区別可能である。この態様において、MP断片およびSG断片の分離を容易にするタグ配列を用いる必要はない。
MPおよびSG断片はどちらも、平滑端を生成するため、ショットガン断片化の結果である、5’または3’オーバーハングを充填するかまたは除去することによって、場合によって修復可能である。例えば、3’から5’エキソヌクレアーゼ活性を用いて、3’オーバーハングを除去してもよく、そしてポリメラーゼ活性は5’オーバーハングを充填可能である。
特定の態様において、単一アデニンヌクレオチドを平滑断片の3’端に付加して、これらが、さらなるアダプター連結反応中に、互いに連結されることを防止する。アダプターの3’端上の、対応する単一チミジンヌクレオチドが、断片へのアダプターの連結のための相補的オーバーハングを提供する。この戦略は、低率のキメラ(連鎖状テンプレート)形成を確実にする。
特定の態様において、アダプター連結を実行して、任意の望ましいアダプターをDNA断片の平滑端に連結して、例えば将来のPCR増幅に備える。
SGおよびMP DNA断片を、DNA配列決定法(例えばNGS)または配列決定前の増幅反応におけるテンプレートとして用いてもよい。いくつかの態様において、本発明の方法は、例えばPCR増幅反応、鎖置換増幅反応、ローリングサークル増幅反応、リガーゼ連鎖反応、転写仲介増幅反応、またはループ仲介増幅反応の1またはそれより多くを用いることによって、MP/SG DNA断片を増幅する工程を含む。いくつかの態様において、増幅は、各々、3’端部分を含む、第一および第二のオリゴヌクレオチドプライマーを用いたポリメラーゼ連鎖反応を含み、ここで、第一のPCRプライマーの少なくとも3’端部分は、タグドメインの少なくとも部分に相補的であり、そして第二のPCRプライマーの少なくとも3’端部分は、タグドメインの少なくとも部分の配列を示す。いくつかの態様において、第一および第二のオリゴヌクレオチドプライマーは、各々、5’端部分を含み、ここで第一のPCRプライマーの5’端部分は、タグ配列に相補的ではなく、そして第二のPCRプライマーの5’端部分は、タグドメインの配列を示さない。
上述の任意のPCR増幅の好ましい態様は、第一および/または第二のPCRプライマーの5’端部分がタグドメインを示す増幅を含む。さらにさらなる態様において、タグドメインは、制限部位ドメイン、捕捉タグドメイン、配列決定タグドメイン、増幅タグドメイン、検出タグドメイン、アドレスタグドメイン、および転写プロモータードメインの1またはそれより多くを含む。
いくつかの態様において、タグドメインは、Roche 454Aおよび454B配列決定タグ、ILLUMINATM SOLEXATM配列決定タグ、Applied BiosystemsのSOLIDTM配列決定タグ、Pacific BiosciencesのSMRTTM配列決定タグ、Pollonator Polony配列決定タグ、またはComplete Genomics配列決定タグより選択される配列決定タグを含むかまたはこれらからなる、配列決定タグドメインである。
特定の要件に応じて、PCR条件を調整することも可能である。サーマルサイクラー中の典型的なPCR条件には:98℃30秒間;98℃10秒間、60℃30秒間、および72℃30秒間の10〜15サイクルのPCR;72℃5分間、および4℃での保持が含まれうる。
特定の態様において、ゲノムDNAの配列をハイスループット配列決定によって決定する。「配列決定」は、生体ポリマー、この場合、核酸における構成要素の順序を決定するために用いる多様な方法を指す。
本発明で使用可能な、適切な配列決定技術には、伝統的な鎖終結サンガー法、ならびに多くの商業的供給源から入手可能であるいわゆる次世代(ハイスループット)配列決定(NGS)が含まれ、これには、例えば、超並列シグネチャー配列決定(またはMPSS、Lynx Therapeutics/Solexa/Illuminaによる)、ポロニー配列決定(Life Technologies)、ピロ配列決定または「454配列決定」(454 Life Sciences/Roche Diagnostics)、連結による配列決定(SOLiD配列決定、Applied Biosystems/Life Technologiesによる)、合成による配列決定(Solexa/Illuminaによる)、DNAナノボール配列決定、ヘリスコープ配列決定(Helicos Biosciences)、イオン半導体またはイオン流配列決定(Ion Torrent Systems Inc./Life Technologies)、および単一分子リアルタイム(SMRT)配列決定(Pacific Bio)等が含まれる。多くの他のハイスループット配列決定法が、なお開発中または完成途上であり、これらはまた、本発明のMPまたはSG断片の配列決定にも使用可能であり、これには、ナノ孔DNA配列決定、ハイブリダイゼーションによる配列決定、質量分析による配列決定、微量流体サンガー配列決定、透過型電子顕微鏡DNA配列決定、RNAP配列決定、およびin vitroウイルスハイスループット配列決定等がある。
特定の態様において、ハイスループット配列決定を:単一分子リアルタイム配列決定;イオン半導体(イオン流)配列決定;ピロ配列決定(454);合成による配列決定(Illumina);連結による配列決定(SOLiD配列決定);ポロニー配列決定;超並列シグネチャー配列決定(MPSS);DNAナノボール配列決定;単一分子ナノ孔配列決定装置;およびHeliscope単一分子配列決定からなる群より選択することも可能である。
特定の態様において、ハイスループット配列決定は、隣接ゲノムDNAおよび/またはショットガン断片に関して、10倍、15倍、20倍、25倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍またはそれより多いカバレッジを生じる。
特定の態様において、配列決定法は、対象のタグ化ゲノムDNA断片の両端由来のタグ配列の配列決定が可能であり、したがって、対形成端タグ情報を提供する。特定の態様において、配列決定法は、多様な長さの長いDNA断片に対して読み取りを行うことが可能である。
次いで、MP断片配列決定データおよびSG断片配列決定データの両方を、本発明の方法において用いて、以下に詳述するように、すべての遺伝子変異を決定することも可能である。特定の態様において、すべての配列データをマッチング参照ゲノムにマッピングする。本明細書において、「(ゲノムに配列を)マッピングする」には、ゲノムにおける配列のゲノム位置の同定が含まれる。
すなわち、本発明の方法は、MP断片(長いゲノムDNA断片各々の2つの端の配列に相当する)およびタグ配列を含まないSG断片(2つの端の間の配列に相当する)の両方に由来する配列決定データに頼り、ここで、MP断片およびショットガン断片は、複数の環状化ゲノムDNA断片の同じライブラリーに由来する。
例えば、サイズ約10kbの環状化ゲノムDNAに関しては、ショットガン断片化がサイズ約500bpの断片を産生する場合、500bp断片の1つは、10kb断片の各端に由来する、2つの〜200bp配列が隣接するタグ配列を含む、メイトペア断片であると期待される。一方、500bp断片の19は、タグ配列を含まないショットガン断片であると期待され、これは、2つの端の間の9.5kb配列に相当する。したがって、平均して、MP断片からの1回の配列決定読み取りは、ショットガン断片読み取り由来の約19の配列決定読み取りに相当する。この1:19の期待される比は、部分的に、環状化ゲノムDNA断片の平均サイズ(例えば10kb)に依存し、そして部分的に、ショットガン断片化によって生成されるMPおよびSG断片の平均サイズ(例えば500bp)に依存する。
同様に、CNV型ゲノム変異に関しては、ゲノム中にホモ接合性欠失がある場合、MP断片配列決定データおよびSG断片配列決定データの両方は、すべての配列読み取りが、生物のゲノムにマッピングされた際、配列カバレッジマップ上のギャップを明らかにするであろう。
一方で、ゲノムにおけるヘテロ接合性欠失に関しては、MP断片配列決定データおよびSG断片配列決定データの両方は、欠失を伴わないゲノムの他の領域に比較した際、約半量の欠失領域を示すであろう。
本発明を一般的に上に記載したが、本発明の特定の特異的側面を以下にさらに記載する。
本発明のいかなる1つの態様も、不適切であるか、適用不能であるか、または特に否定されない限り、本発明の任意の1またはそれより多い他の態様と組み合わせ可能である。
2. 次世代配列決定(NGS)
当該技術分野に認識される任意の方法を用いて、MP断片および/またはSG断片の配列決定を行うことも可能である。特定の態様において、いわゆる次世代配列決定(NGS)ハイスループット配列決定を用いて、配列決定を行う。
本発明の方法で使用可能な次世代配列決定プラットホームには(限定されるわけではないが)、454 FLXTMまたは454 TITANIUMTM(Roche)、SOLEXATMゲノム分析装置(Illumina)、HELISCOPETM単一分子配列決定装置(Helicos Biosciences)、およびSOLIDTM DNA配列決定装置(Life Technologies/Applied Biosystems)、ならびにIntelligent BiosystemsおよびPacific Biosystems等の企業によってなお開発中である他のプラットホームが含まれる。
配列情報を生成する化学反応は、異なる次世代配列決定プラットホームで多様であるが、これらはすべて、非常に多数の配列決定テンプレートから配列データを生成する共通の特徴を共有し、この上で、配列決定を同時に実行する。一般的に、これらの配列決定反応すべてに由来するデータを、スキャナを用いて収集し、そして次いで組み立て、そしてコンピュータおよび強力なバイオインフォマティクスプログラムを用いて分析する。「超並列」または「多重」様式で、配列決定反応を実行し、読み取り、組み立て、そして分析する。これらの装置の超並列性は、どのような種類の配列決定テンプレートが必要であるか、そしてこれらの強力な装置から、ありうる最大量の配列決定データを得るために、どのようにこれらを生成するかに関して変化を生じてきている。
特に、NGS配列決定法は、in vitroで生成され、そして試料中のターゲットDNAから生成されたDNA断片のコレクションまたは集団を含む、DNA断片ライブラリーを利用し、ここでコレクションまたは集団中のすべてのDNA断片の組み合わせが、DNA断片を生成したターゲットDNAの配列を定性的、そして/または定量的に代表する配列を示す。実際、配列決定する各断片の供給源の同定を可能にするため、多数のゲノムDNA断片ライブラリー、例えばMP断片ライブラリーおよびSG断片ライブラリーからなるDNA断片ライブラリーは、各々異なるアドレスタグまたはバーコードで標識されている(例えばタグ配列または連結アダプターを含むまたは含まない)。
一般的に、これらのNGS法は、ゲノムDNAをより小さいssDNA断片に断片化し、そしてタグ配列(または短く「タグ」)をssDNA断片の少なくとも1つの鎖または好ましくは両方の鎖に付加する必要がある。いくつかの方法において、タグは、DNAポリメラーゼを用いたDNA配列決定のためのプライミング部位を提供する。いくつかの方法において、タグはまた、表面、例えばビーズ上に断片を捕捉する(例えばこれらの方法のいくつかに関してはエマルジョンPCR増幅前に;例えば米国特許第7,323,305号等に記載するような方法を用いて)。大部分の場合、NGSのテンプレートとして用いられるDNA断片ライブラリーは、5’および3’タグ化DNA断片または「二タグ化DNA断片」を含む。一般的に、NGS用のDNA断片ライブラリーを生成するための現存する方法は、配列決定しようとするターゲットDNA(例えばゲノムDNAを含むターゲットDNA)を、超音波装置、ネブライザー、またはヌクレアーゼを用いて断片化し、そして断片の5’および3’端にアダプターまたはタグからなるオリゴヌクレオチドをつなぐ(例えば連結によって)工程を含む。
NGS法のいくつかは、その配列決定プロセスにおいて、環状ssDNA基質を用いる。例えば、各々本明細書に援用される、Drmanacらの米国特許出願第2009−0011943号;第2009−0005252号;第2008−0318796号;第2008−0234136号;第2008−0213771号;第2007−0099208号;および第2007−0072208号は、超並列DNA配列決定用の環状ssDNAテンプレートの生成を開示する。GundersonおよびSteemersの米国特許出願第2008−0242560号は:デジタルDNAボール(例えば米国特許出願第2008−0242560号の図8を参照されたい)の作製;および/または増幅核酸アレイ(例えばILLUMINA BeadArraysTM;ILLUMINA、米国カリフォルニア州サンディエゴ)を生成するための、多数置換増幅または全ゲノム増幅(例えば該文書の図17)による、あるいは超分岐RCA(例えば該文書の図18)による、DNA、例えばゲノムDNAの遺伝子座特異的切断および増幅を含む方法を開示する。
増幅、例えば全ゲノム増幅を伴うさらなるNGS法はまた、ゲノムDNAの断片化およびタグ化も必要とする。これらの方法のいくつかは:本明細書に援用されるWhole Genome Amplification, S. HughsおよびR. Lasken監修, 2005, Scion Publishing Ltd.(scionpublishing.comで、ウェブ上に)に概説される。これらのNGS法もまた、本発明の方法において使用可能である。
3. 配列決定データ分析およびゲノム変異の検出
例えば多くの適用可能なNGS法のいずれかを用いたハイスループット配列決定を通じて、配列情報をSG断片およびMP断片から得たならば、本発明の方法は、被験体ゲノムにおける多様なゲノム変異を決定する配列データ分析を提供する。
1つの態様において、ショットガン断片化の産物のNGSに基づいて、SG断片およびMP断片の配列を同時に得る。MP断片に属する配列は、一般的に、ゲノムDNA配列が隣接する連結されたタグ配列(例えばタグメント化に用いる19塩基対タグ配列の2つの連結されたタンデムリピート)の存在に基づいて、SG断片のものとは区別可能である。生配列データからタグ配列を取り除いて、MP断片中のゲノム配列のみを保持してもよい。さらに、MP断片由来のゲノム配列を、SG断片に関するものとは別個のデータファイル用データベース中で、別個に保管し、保存するか、または操作することも可能である。
次いで、SG断片およびMP断片の配列を、マッチング参照ゲノムにマッピングすることも可能である。例えば、よく特徴付けられたヒトゲノム配列を、ヒト被験体由来の任意のヒト試料に関する参照ゲノムとして用いることも可能である。他のモデル生物参照ゲノムが、当該技術分野において容易に入手可能である。
1つの態様において、本発明の方法で使用するため、SG断片配列をマッチング参照ゲノムにマッピングして、第一のマッピングファイルを生成し、そしてMP断片配列を同じマッチング参照ゲノムにマッピングして、第二のマッピングファイルを生成する。多くの当該技術分野に認識されそして公的に利用可能である任意のマッピングソフトウェア、例えばBroad InstituteのHeng Liによって開発されたBurrows-Wheeler整列プログラム(BWA)を用いて、これらのマッピングファイルを生成してもよい。その全内容が本明細書に援用される、Henry Li, Aligning New-sequencing Reads by BWA(2010)を参照されたい。
一般的に、これらの配列整列ソフトウェアは、配列決定反復および配列決定エラーによって引き起こされる効率および多義性などの困難を克服しつつ、変異発見のために、既知の参照配列に対して配列決定読み取り(例えばNGS法からの読み取り)を整列させる。BLAT、SSAHA2、およびBWA−SWを含めて、長い配列読み取り(例えば約200bpを超える読み取り)のための多くの配列整列プログラムが利用可能である。多くの短い読み取り(約100bpまたはそれ未満の配列用)の整列プログラムもまた利用可能であり、これらには、限定されるわけではないが:Bfast、BioScope、BWA、CLC bio、CloudBurst、Eland/Eland2、GenomeMapper、GnuMap、Karma、MAQ、MOM、Mosaik、MrFAST/MrsFAST、NovoAlign、PASS、PerM、RazerS、RMAP、SSAHA2、Segemehl、SeqMap、SHRiMP、Slider/SliderII、SOAP/SOAP2、Srprism、Stampy、vmatch、およびZOOM等が含まれる。これらの方法は、性能、例えば整列速度、記憶要件、および全体の正確さが非常に異なる可能性があり、そしてBWAは、性能および正確さの間の優れたバランスを達成するよう設計されている。
BWA整列アルゴリズムは、FM−インデックス(Burrows-Wheeler変換に加えて補助的データ構造)に基づき、これにより、迅速で正確な配列マッチングが可能になる。その短鎖読み取りアルゴリズムを、参照に正確にマッチするように読み取り配列を改変するよう設計する。長鎖読み取りアルゴリズム(BWA−SW)は、試料参照下位配列を取り、そして下位配列および読み取りの間で、Smith-Waterman整列を行う。BWAは、IlluminaおよびSOLiD単一端(SE)および対形成端(PE)読み取りに関して働く:BWA−SWは、454/Sanger SE読み取りに関して働く。
結果として、BWAは、迅速であるが、中程度のメモリフットプリント(一般的に4Gb未満)しか必要とせず;デフォルトでSAMアウトプットを用い;SEおよびPE読み取り両方に関してギャップ整列を有し;有効な対形成(最適以下のヒットもまた、対形成において考慮される)を用いて高整列正確性を達成する。これは、0のマッピング品質で、ランダムに配置することによって、非ユニーク読み取りを処理し、そして簡潔な形式ですべてのヒットをアウトプットすることも可能である。大部分の短鎖読み取り(長さ30ヌクレオチドのものさえ)は、ヒトゲノム上にユニークに配置される(Rozowskyら, Biotechnol., 27:66-75, 2009を参照されたい)が、読み取り配置は、反復領域またはセグメント複製領域から生じる読み取りに関しては困難でありうる。これらの読み取りは、等しい(またはほぼ等しい)スコアで、ゲノムにおける多数の位置に整列されうる。こうしたマッピング不能ゲノム領域を考慮から単に排除する代わりに、BWAは、こうした読み取りを、読み取りが類似のスコアで整列される多くのうち、マッピング品質0で、ランダムな位置に置く。
BWAはまた、シード領域(デフォルトにより、最初は32bp)においてκ相違を見出すことも保証されている。BWAのデフォルト配置は、大部分の典型的な配列インプットに関して働く。さらに、BWAは、読み取り長およびエラー率に基づいてパラメータを自動的に調整し、そしてフライ上の挿入サイズ分布を概算する。
BWA整列プログラムの実行を、以下に簡潔に要約可能である。まず、ref.fa、read1.fq.gz、read2.fq.gz、またはlong−read.fq.gzの形式のインプットを、プログラムに供給する。次いで、工程1において:参照ゲノムをインデックス化する(例えばヒトゲノムをインデックス化するためには、約3 CPU時間かかる)。次いで、工程2aは、末尾(suffix)アレイ座標で整列を生じる。読み取りの3’端で品質が劣っている場合、改善のため、オプション「−q15」を適用してもよい。次いで、工程3aは、SAM形式で整列を生成する。最後に、工程4aは、多数のヒットを得る。あるいは、工程2bは、長鎖読み取り用にBWA−SWを用いる。
BWAマッピングファイルのアウトプットは、一般的に知られるbamファイルであり、これを以下に記載する他の配列決定分析ソフトウェアで使用して、多様なゲノム変異を同定することが可能である。
SG断片配列およびMP断片配列に関するbamファイルが別個に生成されたら、本発明の方法は、これらのbamファイル(例えばSG bamファイルおよびMP bamファイル)を多様なソフトウェアパッケージとともに利用して、遺伝子変異を同定する。
例えば、本発明の方法で用いて、小さい遺伝子変異、例えばSNPおよびインデルを優先的に同定可能な、1つのソフトウェアパッケージは、Broad Instituteによって開発された、公的に入手可能な「ゲノム分析ツールキット」(またはGATK)パッケージである。McKennaら, “The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data,” Genome Res., 20:1297-1303, 2010; DePristoら, “A framework for variation discovery and genotyping using next-generation DNA sequencing data,” Nat. Gen., 43:491-498, 2011;およびVan der Auweraら, “From FastQ Data to High-Confidence Variant Calls: The Genome Analysis Toolkit Best Practices Pipeline,” Curr. Prot. Bioinfo., 43:11.10.1-11.10.33, 2013(すべて本明細書に援用される)を参照されたい。
GATKは、ハイスループット配列決定データを分析するために有用な非常に多様なツールを提供する。共通の構造および強力なエンジンを利用して、該ツールをスクリプトされたワークフローに連結して、単純なものから複雑な「読み取りから結果まで」分析を実行することも可能である。
GATKの主な焦点は、変異体発見および遺伝子型決定にあり、データ品質保証が強く強調される。2010年以来、高インパクトの科学雑誌に公表された150を超える研究論文が、GATKを成功裡に利用して、多様な研究上の疑問が解決されてきている。GATKは下位集団に特異的な突然変異を同定するための産業標準になってきている。ソフトウェアパッケージは、読み取り、品質スコア、整列、およびメタデータ(例えば配列決定レーン、起源の中心、試料名等)に関するBWAのbamファイルを含めて、多様な異なる配列決定技術とともに使用可能である。GATKはまた、任意の生物(ヒトを含む)および任意のレベルの倍数性(例えば多倍体の植物ゲノム)のもの由来のゲノムデータを取り扱うことが可能である。
1つの態様において、本発明の方法は、GATKの変異体発見ツールの1つ、HaplotypeCallerを用いて、インプットbamファイル、例えばSG断片bamファイルまたはMP断片bamファイルのSNPおよびインデルを同定する。1つの態様において、インプットbamファイルは、少なくとも20〜30倍の配列カバレッジ、例えば少なくとも約20倍、25倍、30倍、35倍、40倍、45倍、または約50倍カバレッジを有するSG断片bamファイルである。特定の態様において、SNPおよびインデルを同定するためにSG bamファイルのみを用いる。特定の態様において、SNPおよびインデルを同定するためにMP bamファイルのみを用いる。特定の態様において、SNPおよびインデルを同定するためにSGおよびMP bamファイルの両方を用いる。
HaplotypeCallerツールは、活性領域における、ハプロタイプの局所再組み立てを通じて、SNPおよびインデルを同時にコールする。これは、コールを行うインプットbamファイル(単数または複数)を利用して、そして生のフィルタリングされていないSNPおよびインデルコールを含むアウトプットVCFファイルを生じる。次いで、これらを、下流分析に使用する前に、変異体再較正(最適)またはハードフィルタリングのいずれかによって、フィルタリングすることも可能である。HaplotypeCallerの基本的な作動は、以下のように進行する:
1. 活性領域を定義する
プログラムは、変異の有意な証拠の存在に基づいて、作動する必要があるゲノム領域を決定する。
2. 活性領域の再組み立てによって、ハプロタイプを決定する
各活性領域に関して、プログラムは、De Bruijin様グラフを構築して、活性領域を再組み立てし、そしてデータ中に存在するありうるハプロタイプは何かを同定する。次いで、プログラムは、潜在的な変異体部位を同定するため、Smith-Watermanアルゴリズムを用いて、参照ハプロタイプに対して、各ハプロタイプを再整列する。
3. 読み取りデータを所与として、ハプロタイプの尤度を決定する
各活性領域に関して、プログラムは、PairHMMアルゴリズムを用いて、各ハプロタイプに対して各読み取りの対整列を実行する。これは、読み取りデータを所与として、ハプロタイプの尤度のマトリックスを生じる。次いで、これらの尤度を除外して、読み取りデータを所与として、潜在的な変異体部位各々に関するアレルの尤度を得る。
4. 試料遺伝子型を割り当てる
潜在的な変異体部位各々に関して、プログラムは、読み取りデータを所与としたアレルの尤度を用いて、ベイズ規則を適用して、その試料に関して観察される読み取りデータを所与として、試料あたりの各遺伝子型の尤度を計算する。次いで、最もありうる遺伝子型を試料に割り当てる。
関連する態様において、本発明の方法は、GATKの別の変異体発見ツール、UnifiedGenotyperを用いて、インプットbamファイル、例えばSG断片bamファイルまたはMP断片bamファイルのSNPおよびインデルを同定する。1つの態様において、インプットbamファイルは、少なくとも20〜30倍の配列カバレッジ、例えば少なくとも約20倍、25倍、30倍、35倍、40倍、45倍、または約50倍カバレッジを有するSG断片bamファイルである。特定の態様において、SNPおよびインデルを同定するためにSG bamファイルのみを用いる。特定の態様において、SNPおよびインデルを同定するためにMP bamファイルのみを用いる。特定の態様において、SNPおよびインデルを同定するためにSGおよびMP bamファイルの両方を用いる。
UnifiedGenotyperは、いくつかの別個のコーラ−のアプローチを統一する変異体コーラーであり、そして単一試料および多数試料データに関して働く。データインプットは、とりわけ、bamファイルであることが可能である。アウトプットは、VCF形式の、生のフィルタリングされていない非常に高感度のコールセットである。特定の態様において、コーリング後フィルター(例えば変異体品質スコア再較正)を用いて、特定の偽陽性コールを排除する。特定の態様において、一般化倍数性モデルを用いて、非二倍体またはプール試料を取り扱う。
特定の態様において、UnifiedGenotyperを用いて、SNPを同定する。特定の態様において、HaplotypeCallerを用いて、インデルを同定する。
より小さいゲノム変異、例えばSNPに比較して、SV/CNVの正確な検出、遺伝子型決定および理解は、SV/CNV検出および分析に関連するはるかにより大きい分析上の困難のため、立ち後れている。ハイスループット配列決定および異なる分析アプローチ、例えばイェール大学で開発されたものを用いて、SVおよびCNVを分析し、そして検出することも可能である。例えばvcf2二倍体は、個体の変異体を参照ゲノムに含めることによって、個体の二倍体ゲノム配列を構築するために使用可能な個体ゲノム構築プログラムである。Rozowskyら, “AlleleSeq: analysis of allele-specific expression and binding in a network framework,” Mol. Syst. Biol., 7:522. doi: 10.1038/msb.2011.54(2011、本明細書に援用される)を参照されたい。CNVnatorは、読み取りマッピングの深度からの、CNV発見および遺伝子型決定のためのツールである。Millsら, “Mapping copy number variation by population-scale genome sequencing,” Nature, 470(7332):59-65. doi: 10.1038/nature09708(2011);およびAbyzovら, “CNVnator: an approach to discover, genotype, and characterize typical and atypical CNVs from family and population genome sequencing,” Genome Res., 21(6):974-84. doi: 10.1101/gr.114876.110(2011)(どちらも本明細書に援用される)を参照されたい。AGEは、SVを含む配列の最適な整列のためのアルゴリズムを実行するツールである。AbyzovおよびGerstein, “AGE: defining breakpoints of genomic structural variants at single-nucleotide resolution, through optimal alignments with gap excision,” Bioinformatics, 27(5):595-603. doi:10.1093/bioinformatics/ btq713(2011)(本明細書に援用される)を参照されたい。BreakSeqは、単一ヌクレオチド解像度でのSVの解釈、分類および分析のためのパイプラインである。Lamら, “Nucleotide-resolution analysis of structural variants using BreakSeq and a breakpoint library,” Nat. Biotechnol., 28(1):47-55. doi: 10.1038/nbt.1600(2010)(本明細書に援用される)を参照されたい。PEMerは、対形成端読み取りマッピングによって、SVを発見するための計算およびシミュレーションフレームワークである。Korbelら, “PEMer: a computational framework with simulation-based error models for inferring genomic structural variants from massive paired-end sequencing data,” Genome Biol., 10(2):R23. doi: 10.1186/gb-2009-10-2-r23(2009);およびKorbelら, “Paired-end mapping reveals extensive structural variation in the human genome,” Science, 318(5849):420-6(2007)(どちらも本明細書に援用される)を参照されたい。
特定の態様において、SGおよび/またはMP bamファイルを用い、次世代配列決定プラットホームからの短い読み取りのマッピング密度の統計分析、すなわち読み取り深度分析(RD)からCNVを検出する公的に入手可能なCNVnatorパッケージ(http://sv.gersteinlab.org/cnvnator/で、自由に入手可能であり、そして多様なヒトおよび非ヒトゲノムに適用可能である)を用いて、CNVを同定する。劣った切断点(breakpoint)解像度を伴い、大きなCNVのみの発見用であり、ゲノムのユニークな領域のみに限定されていた、以前のRDに基づくアプローチとは対照的に、CNVnatorは、全ゲノムにおいて、長さ数百塩基からメガ塩基の大きなサイズ範囲でCVNを発見することが可能である。より具体的には、RDシグナルの計算のため、CNVnatorは、全ゲノムを等しいサイズの重複しないビンに分割し、そしてRDシグナルとして各ビン内のマッピングされた読み取りのカウントを用いる。次いで、生成されたシグナルを、根底におそらく異なるコピー数を持つセグメントに分配する。セグメントに統計有意性試験を適用することによって、推定上のCNVを予測する。分配は、画像プロセシングのためのコンピュータ科学において元来開発された平均シフト技術に基づく。
具体的には、任意の適切な配列決定法、例えば限定されるわけではないが、Illumina/Solexa、Roche/454、およびLife Technologies/SOLiD配列決定技術プラットホームを含む任意のNGSを用いて、SGおよび/またはMP断片の配列決定データを得ることも可能である。次いで、こうした配列決定データを用いて、SG/MP bamファイルを生成する。次いで、CNVnatorソフトウェアパッケージを用いて、SG bamファイル、MP bamファイル、または両方に基づいて、CNVをコール/同定する。
SGおよび/またはMP bamファイルを用い、Yaoら, “Long Span DNA Paired-End-Tag (DNA-PET) Sequencing Strategy for the Interrogation of Genomic Structural Mutations and Fusion-Point-Guided Reconstruction of Amplicons,” PLOS One, 7(9):e46152(2012)(本明細書に援用される)に記載されるものと実質的に同一の方法を用いて、こうしたゲノム変異に関してコーリングすることによって、本発明の方法を用いて、コピー数中立(非CNV)SVを含むSVを同定することも可能である。この方法は、DNA断片の厳しいサイズ選択および小さい染色体内再編成に関するより高い感度と関連する、小挿入物サイズライブラリー(例えばキロ塩基未満の範囲)を持つSVを同定可能である。該方法はまた、ゲノムのより高い物理的カバレッジと関連するより大きい挿入物サイズのライブラリー(例えばキロ塩基から数十キロ塩基の範囲)もまた同定可能であり、切断点領域の正確な位置決定がより正確でない欠点がある可能性がある。すなわち、より大きい挿入物サイズは、より高い物理的カバレッジを有し、そして反復領域に渡るスパンを可能にし、したがって、クローンカバレッジを最大にし、そして配列努力を減少させながら、可能な限り多くの再編成切断点として検出する傾向がある。一方、より小さい挿入物サイズは、より優れた位置決定情報を提供し、5kb未満のスパンで欠失を同定する際に好適であり、そしてより正確なサイズ選択およびそれによる挿入物サイズ分布のより小さい標準偏差のため、より多数の欠失を同定する傾向がある。さらに、いくつかの挿入物サイズの組み合わせライブラリーとともに用いた際、組み合わせライブラリーで切断点を検出する可能性は、ライブラリー中に1つのタイプの挿入物サイズしか用いないものよりもより高い。
大きいおよび小さい挿入物サイズのライブラリーは、切断点を位置決定する際に、匹敵する正確さを有するが、大きい挿入物サイズはまた、融合点ガイド連結アルゴリズムに基づいて、反復配列内のSVのより優れた同定も可能にした。
したがって、1つの態様において、サイズ選択を用いて、比較的より小さいサイズ(例えば1、2、3、4、5kb等)の環状ゲノム断片を構築することが可能である。他の態様において、サイズ選択を用いて、比較的より大きいサイズ(例えば5、6、7、8、9、10、15、20、25、30、35、40、45、50kbまたはそれより多く等)の環状ゲノム断片を構築することも可能である。特定の態様において、異なる/多数のサイズ範囲の環状ゲノム断片を、本発明の方法で用いる。
上述の方法を用いて、SVおよびMP断片の配列決定データを、以下に記載するSV検出法で使用するため、SGおよびMP bamファイルにコンパイルする。
特定の態様において、MP bamファイルを本発明の方法で用いてSVを検出する。ゲノムDNA配列に隣接するタグ配列はまた、PET(対形成端タグ)とも称される。配列読み取りのマッピングパターンに基づいて、PETを一致PET(cPET)および不一致PET(dPET)として区別することも可能である。cPETは、両方のタグが、正しい5’から3’の順序付けで、そして予期されるスパン範囲(例えば1kbライブラリーに関しては3kb、10kbライブラリーに関しては20kb、そして20kbライブラリーに関しては40kb等)内で、同じ染色体、同じ鎖にマッピングされるPETと定義される。cPET基準によって拒絶されるPETは、dPETと分類される。ライブラリー構築プロセスの連結エラーのため、キメラdPETが生成される可能性もある。これらを除くため、同じ融合点に渡るdPETは、クラスターを形成することが要求される。融合点周囲にともにクラスター形成するdPETの数は、クラスターサイズまたはクラスターカウントによって表される。クラスターの5’タグによってカバーされるゲノム領域は、5’アンカーと同定され、そしてクラスターの3’タグによってカバーされるゲノム領域は、3’アンカーと定義される。
SVを同定するため、1つの再編成点を持つSVを単一dPETクラスターによって同定することが可能であり、例えば、5’マッピングアンカー領域が3’マッピングアンカー領域から遠く離れている場合は欠失、マッピング順序が通常の5’から3’の代わりに3’から5’である場合はタンデム複製、マッピング配向が反転している(異なる鎖上)場合は非対反転、ならびに5’および3’アンカーが異なる染色体上にマッピングされる場合は孤立型転位置である。反転、挿入および平衡転位置は、2つの近傍に位置するdPETクラスターによって同定される。
孤立型およびより複雑でないSVから複雑な領域の切断点を分離するため、切断点に基づく相互接続ネットワークを確立してもよい。ライブラリーの最大挿入物サイズによる、各dPETクラスターアンカー領域の開始点および終了点からの伸長を検索ウィンドウとして生成して、切断点の近隣を決定する。近隣クラスターのウィンドウが互いに重複している場合、dPETクラスターをスーパークラスターとグループ分けする。ともに連結されてスーパークラスターになりうるdPETクラスターの数は、スーパークラスターサイズまたはスーパークラスターカウントによって示される。
特定の態様において、異なるサイズ選択挿入物サイズを用いる。これらの態様において、異なる挿入物サイズのライブラリーに渡るdPETクラスターは、個々のライブラリー挿入物サイズによって伸長された5’および3’アンカー領域の重複に基づいて実行可能である。例えば、10kbおよび20kb挿入物サイズライブラリーに渡って、dPETクラスターを比較するため、クラスターの5’および3’アンカー領域を、切断点に向かって、ライブラリーの最大長によって延長して、検索ウィンドウを生成する。同じSVタイプに属する、他の挿入物サイズライブラリーからのdPETクラスターの5’および3’アンカー領域が、検索ウィンドウに入る場合、クラスターは共通SVとグループ分けされるであろう。検索ウィンドウ中に他のクラスターが見られない場合、クラスターはその挿入物サイズのライブラリーに特異的なSVと分類されるであろう。
特定の態様において、本発明の方法は、同定されたSVを検証するため、またはSVを細胞遺伝学的背景に置くため、蛍光in situハイブリダイゼーション(FISH)を用いる工程をさらに含む。
特定の態様において、本発明の方法は、例えばゲノムPCRおよびSanger配列決定によって、同定されたSVの切断点を検証する工程をさらに含む。
特定の態様において、本発明の方法は、融合点ガイド連結アルゴリズムを用いることによって、全ゲノム再編成または同定されたSVを再構築する工程をさらに含む。特に、dPETクラスターによって同定された切断点に基づいて、そして物理的cPETカバレッジを伴わないさらなる切断点を同定することによって、参照ゲノムのコンティグへのセグメント化を組み立てる。次いで、参照ゲノム上で連続するコンティグを、連結cPETの存在下で、参照エッジによって連結する。それに応じて、dPETクラスターによって連結されたコンティグは、dPETエッジによって示され、エッジはクラスターサイズによって加重される。次いで、以下の方式で、局所増幅領域を同定する:まず、最高加重のdPETエッジを選択し、そしてこのエッジに隣接するコンティグをアンプリコングラフに付加する。次いで、グラフ中の各コンティグに関して、その隣のものが増幅されると見なされる限り(2より大きいcPET概算コピー数)、隣のものもまた、参照およびdPET連結の両方を用いて付加する。この方式で、さらなるコンティグが付加不能になるまで、アンプリコングラフを成長させる。次いで、残ったものがなくなるまで、未使用のdPETエッジに対してこのプロセスを反復し、局所アンプリコングラフセットを生じ、そして2より多いコンティグを含むグラフのみをさらに検討する。
4. 疾患および障害におけるゲノム変異の検出
本発明の方法を用いて、任意の生物由来の単一アッセイにおいて、ゲノム変異のすべてのタイプを検出可能である。本発明の方法は、根底にある複雑なゲノム欠陥を有することが知られる、特定のヒト疾患または障害において、こうしたゲノム変異を同定する際に特に有用である。
特定の態様において、本発明の方法を用いて、自閉症スペクトラム障害(ASD)患者、あるいはASDを有すると推測されるかまたはASDを発展させる高いリスクを有する患者を検出することも可能である。
ASDは、社会的相互作用およびコミュニケーションの異常、限定された興味、および反復行動によって特徴付けられる関連発展障害のコレクションとしてますます多く診断されている。古典的な自閉症または自閉症性障害に加えて、米国精神医学会(APA)の精神疾患の分類と診断の手引、第5版(DSM−5)は、アスペルガー症候群、小児期崩壊性障害、および特定不能広汎性発達障害(PDD−NOS)をASDと認識する。
統合失調症同様、100を超える異なる遺伝子座における突然変異がASDで発見されてきており、本発明の方法は、ASDの任意の個々の患者における複雑な根底にある遺伝的欠陥を解明するために特に適したものとなっている。
ASDは、神経発達障害(NDD)の1つのタイプであり、後者には、脆弱X染色体症候群(FXS)、アンジェルマン症候群、結節性硬化症候群、フェラン・マクダーミド症候群、レット症候群、CDKL5突然変異(レット症候群およびX連鎖乳児痙攣障害にも関連する)等もまた含まれる。すべてではないが多くのNDDは、遺伝子突然変異によって引き起こされる。NDDを有する患者のある程度は、自閉症の行動および症状を示す。したがって、本発明の方法はまた、これらのNDDにおいても使用可能である。
特定の態様において、本発明の方法を用いて、多数の遺伝子、または遺伝子および環境の間の相互作用から生じる、他の複雑な疾患において、ゲノム変異を検出することも可能である。こうした複雑な疾患には、限定なしに、アルツハイマー病、喘息、パーキンソン病、糖尿病、肥満、心臓異常、癌、高血圧、心臓および循環系の他のよくある疾患、精神疾病、例えば統合失調症および抑鬱、炎症性自己免疫疾患、例えば関節炎およびクローン病、多発性硬化症等が含まれうる。
実施例1
本発明の方法を用いて、自閉症患者P46107において、多様なゲノム変異を同定し、そして特徴付けられたゲノム変異を以下の表にサイズに基づいて表化する。「DNA−PET」は、MP配列決定データを表す。
具体的には、病院から患者試料を得て、そして配列決定および分析前に、試料を匿名化した。製造者の指示にしたがって、AllPrep DNA/RNAミニキット(Qiagen)を用いて、試料からゲノムDNAを抽出した。上述のように、本発明の方法を用いて、DNA配列決定ライブラリーを調製した。簡潔には、Illumina配合メイトペアトランスポソームを用いて、ゲノムDNA試料を断片化し、そして同時に連結アダプターでタグ化した。タグメント化後、ポリメラーゼを用いて、鎖置換反応によって、タグメント化DNAにおける短い一本鎖配列ギャップを充填した。6〜8kbの間のゲノムDNA断片をSage Pippin Prepによって選択した。次いで、サイズ選択断片を、環状分子を形成するであろう断片の数を最大化するように最適化した一晩インキュベーションで、平滑端分子内連結で環状化した。次いで、環状化DNA断片をおよそ400〜500bp平均サイズ断片に物理的に剪断した。Illumina TruSeqアダプターを断片化DNAに連結する前に、剪断断片に対して、末端修復およびAテール化反応を行った。製造者の推奨にしたがって、Illumina Hi-Seq 2500によって、2x150bpにより、断片化DNAを行った。
配列中の連結アダプターを用いて、配列分析に基づいて、MPおよびSG断片配列を別個にソーティングした。次いで、MPおよびSG配列を、それぞれ、参照ヒトゲノムにマッピングして、2つのbamファイルを生成した。次いで、マッピングされたSGおよび/またはMP bamファイルを、上述のように、すべての遺伝子変異検出に用いた。試料から検出されたゲノム変異を、以下の表に分類し、そして要約する。
MP配列決定データが、より大きなサイズの欠失(例えば5kbおよびそれより多く)を検出するために最も適している一方、SG配列決定データは、より小さいサイズの欠失(5kbまたはそれ未満)を同定するためにより適していることが明らかである。いくつかの変異はまた、SGおよびMP配列決定データ両方によって検出可能である。これは、規模が大きいおよび小さい場合の両方で、すべてのタイプのゲノム変異が、1人の患者試料からの単一の配列決定実行を用いて、本発明の方法によって効率的に検出可能であることを示唆する。
実施例2
本発明の方法を用いて、5人の自閉症患者において、多様なゲノム変異を同定し、そして結果を、アレイCGHおよびエクソン配列決定に基づく現在の標準的アッセイを用いて、同じ患者から同定したものに比較した。
比較は、伝統的なaCGHアッセイによって同定される各CNV構造変異に関して、本発明の方法によって同定される完全なマッチがあることを示した。しかし、本発明の方法は、aCGHによって同定されないはるかにより多くのゲノム変異を同定し、したがって本発明の方法を用いて、より多くの新規変異体を同定する機会を示した。
例えば、患者DBS0005(自閉症スペクトラム障害)に関して、Transgenomic(登録商標)出生後高密度SNPアレイ試験は、遺伝子LYRM7およびHINT1を含む5q23.3の染色体領域において383.4kb欠失があることを明らかにした。本発明の方法を用いて、同じ染色体領域(染色体5:130140673−130520365)中の383.591bp欠失が同定された。
別の例において、患者DBS0010(自閉症、言語遅延)に関して、全ゲノムアレイCGH+SNP分析のGeneDx GenomeDx Reportは、患者が細胞遺伝学的バンド12q24.33内の領域の少なくとも302kbの複製を所持し、複製された区間は7つの既知の遺伝子を含有することを明らかにした。本発明の方法を用いて、同じ染色体12領域(133091631−133393167)中の312,717bpのタンデム複製が同定された。
本発明の方法はまた、伝統的な方法、aCGHでは同定されない、以下の患者の特定の欠失も同定した。本発明の方法が、はるかにより多くのゲノム変異を同定可能である理由の一部は、aCGHが、有意な解像度限界を有するためであり、aCGHが200kbより大きい欠失しか信頼性を持って検出できない一方、本発明の方法は、数百塩基対から数百kbまで、はるかにより高い解像度で欠失を検出可能である。
*患者1〜5は、それぞれDBS0005、0007、0008、0010、および0011である。
全部で>10kbの273欠失;および>20kbの29欠失がある。
同様に、SNPに関しては、伝統的なエクソン配列決定によって報告された51のうち、49が本発明の方法によっても同定され、96%マッチであった。実際、2つのSNP相違に関しては、これらがエクソン配列決定法による偽陽性同定のためであるのか、または本発明の方法による偽陰性同定のためであるのかは不確かである。
具体的に、Courtagen遺伝子パネルSNPデータを、本発明の方法によって同定されたSNPに比較し、そして5人の患者における結果を以下に要約する。
より具体的には、患者DBS0005において、以下の遺伝子中の以下のSNPがCourtagenおよび本発明の方法によって同定された:
患者DBS0007において、以下の遺伝子中の以下のSNPがCourtagenおよび本発明の方法によって同定された:
患者DBS0008において、以下の遺伝子中の以下のSNPがCourtagenおよび本発明の方法によって同定された:
患者DBS0010において、以下の遺伝子中の以下のSNPがCourtagenおよび本発明の方法によって同定された:
患者DBS0011において、以下の遺伝子中の以下のSNPがCourtagenおよび本発明の方法によって同定された:
簡潔には、これらの5つの患者データセットに基づいて、本発明の方法は、非常によく働き、そしてすべてのゲノム変異を同定するための新規標準として、多数の現存する標準アッセイを置換する、大きな潜在能力を示した。

Claims (20)

  1. 生物のゲノムにおいて、ゲノム変異を検出するための方法であって:
    (1)生物のゲノムDNAを断片化して、複数のゲノムDNA断片を生成し;
    (2)ゲノムDNA断片の末端にタグ配列をタグ付けし;
    (3)平滑端分子内連結を促進する条件下で、ゲノムDNA断片のタグ化末端を連結して、連結されたタグ配列を含む、複数の環状化ゲノムDNA断片を生成し;
    (4)ショットガン断片化によって、複数の環状化ゲノムDNA断片を断片化して:
    (a)隣接ゲノムDNAが隣接した、連結されたタグ配列を各々含む、複数のメイトペア(MP)断片;および、
    (b)複数のショットガン(SG)断片;
    を生成し;
    (5)MP断片およびSG断片の配列を決定し;そして
    (6)SG断片の配列およびMP断片の配列の両方に基づいて、生物ゲノムにおける前記ゲノム変異を同定する;
    工程を含む、前記方法。
  2. 前記ゲノム変異が:
    一塩基多型(SNP);小さい挿入または欠失(インデル);タンデム塩基突然変異(TBM);コピー数変異(CNV);構造変異(SV);およびその組み合わせ;
    の1またはそれより多くを含む、請求項1の方法。
  3. 工程(1)および(2)を同時に行う、請求項1の方法。
  4. 工程(1)および(2)をトランスポゾン仲介性タグメント化(tagmentation)によって達成する、請求項3の方法。
  5. トランスポゾン仲介性タグメント化をTn5トランスポザーゼによって行う、請求項4の方法。
  6. 複数のゲノムDNA断片を工程(3)の前にサイズ選択する、請求項1の方法。
  7. 約4〜10kb、または約6〜8kbのゲノムDNA断片をサイズ選択する、請求項6の方法。
  8. 工程(4)〜(6)の前に、DNAエキソヌクレアーゼ消化によって、非環状化または直鎖ゲノムDNA断片を除去する、請求項1の方法。
  9. MP断片およびSG断片の配列を、別個にまたは同時に決定する、請求項1の方法。
  10. SG断片が、約400bp、450bp、または500bpの平均サイズを有する、請求項1の方法。
  11. MP断片が、約400bp、450bp、または500bpの平均サイズを有する、請求項1の方法。
  12. MP断片およびSG断片を、工程(5)の前に互いに単離する、請求項1の方法。
  13. MP断片およびSG断片を、工程(5)の前に互いに単離しない、請求項1の方法。
  14. 工程(3)の前に、ゲノムDNA断片のタグ化端を修復して、平滑端連結を促進する、請求項1の方法。
  15. 工程(6)が、生物のゲノム配列に対して、隣接ゲノムDNAの配列およびショットガン断片の配列をマッピングする工程を含む、請求項1の方法。
  16. ゲノムDNAの配列を、ハイスループット配列決定によって決定する、請求項1の方法。
  17. ハイスループット配列決定が:単一分子リアルタイム配列決定;イオン半導体(イオン流)配列決定;ピロ配列決定(454);合成による配列決定(Illumina);連結による配列決定(SOLiD配列決定);ポロニー配列決定;超並列シグネチャー配列決定(MPSS);DNAナノボール配列決定;単一分子ナノ孔配列決定装置;およびHeliscope単一分子配列決定からなる群より選択される、請求項16の方法。
  18. ハイスループット配列決定が、隣接ゲノムDNAおよび/またはショットガン断片に関して、30倍、40倍、50倍、60倍、70倍、80倍、90倍、100倍またはそれより多いカバレッジを生じる、請求項16の方法。
  19. 生物が、ヒト、非ヒト霊長類、哺乳動物、齧歯類(ラット、マウス、ハムスター、ウサギ)、家畜動物(ウシ、ブタ、ウマ、ヒツジ、ヤギ)、鳥類(ニワトリ)、爬虫類、両生類(ゼノパス属(Xenopus))、魚類(ゼブラフィッシュ(Danio rerio)、フグ(Puffer fish))、昆虫(ショウジョウバエ属(Drosophila)、蚊)、線虫、寄生虫、真菌(酵母、例えばS.セレビシエ(S. cerevisae)またはS.ポンベ(S. pombe))、植物、細菌、またはウイルスである、請求項1の方法。
  20. 生物が:自閉症(自閉症スペクトラム障害(ASD))、癌、または遺伝性疾患からなる群より選択される疾患または状態を有するヒトである、請求項1の方法。
JP2017551708A 2015-04-02 2016-04-01 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法 Pending JP2018509928A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562142088P 2015-04-02 2015-04-02
US62/142,088 2015-04-02
PCT/US2016/025475 WO2016161236A1 (en) 2015-04-02 2016-04-01 Method for detecting genomic variations using circularised mate-pair library and shotgun sequencing

Publications (1)

Publication Number Publication Date
JP2018509928A true JP2018509928A (ja) 2018-04-12

Family

ID=55795182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017551708A Pending JP2018509928A (ja) 2015-04-02 2016-04-01 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法

Country Status (11)

Country Link
US (1) US20180135120A1 (ja)
EP (1) EP3277840A1 (ja)
JP (1) JP2018509928A (ja)
KR (1) KR20170133420A (ja)
CN (1) CN107889508A (ja)
AU (1) AU2016242953A1 (ja)
CA (1) CA2980769A1 (ja)
HK (1) HK1250171A1 (ja)
IL (1) IL254713A0 (ja)
SG (2) SG11201707909YA (ja)
WO (1) WO2016161236A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109487345B (zh) * 2018-12-13 2020-03-10 北京先声医学检验实验室有限公司 基于纳米孔测序平台的宏基因组样本建库方法、鉴定方法及试剂盒
JP6883600B2 (ja) * 2019-03-07 2021-06-09 シスメックス株式会社 医療関係者による遺伝子情報の解釈を支援する方法、情報管理システム、統合データ管理装置
CN110349635B (zh) * 2019-06-11 2021-06-11 华南理工大学 一种基因测序数据质量分数的并行压缩方法
CN113724788B (zh) * 2021-07-29 2023-09-12 哈尔滨医科大学 一种鉴定肿瘤细胞的染色体外环状dna组成基因的方法
US20230121442A1 (en) 2021-10-06 2023-04-20 Johnson & Johnson Consumer Inc. Method of Quantifying Product Impact on Human Microbiome
CN114438182B (zh) * 2022-02-18 2024-04-05 杭州柏熠科技有限公司 基于纳米孔测序的进境植物检疫性病毒鉴定方法及应用
CN114743598B (zh) * 2022-06-14 2022-09-02 湖南大学 一种基于信息论检测新冠病毒谱系间重组的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100069263A1 (en) * 2008-09-12 2010-03-18 Washington, University Of Sequence tag directed subassembly of short sequencing reads into long sequencing reads
JP2011510669A (ja) * 2008-02-05 2011-04-07 エフ.ホフマン−ラ ロシュ アーゲー ペアエンド配列決定の方法
WO2014142850A1 (en) * 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004070007A2 (en) 2003-01-29 2004-08-19 454 Corporation Method for preparing single-stranded dna libraries
AU2011323107B2 (en) * 2010-11-05 2015-09-10 Illumina, Inc. Linking sequence reads using paired code tags
CN103443338B (zh) * 2011-02-02 2017-09-22 华盛顿大学商业化中心 大规模平行邻接作图

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011510669A (ja) * 2008-02-05 2011-04-07 エフ.ホフマン−ラ ロシュ アーゲー ペアエンド配列決定の方法
US20100069263A1 (en) * 2008-09-12 2010-03-18 Washington, University Of Sequence tag directed subassembly of short sequencing reads into long sequencing reads
WO2014142850A1 (en) * 2013-03-13 2014-09-18 Illumina, Inc. Methods and compositions for nucleic acid sequencing

Also Published As

Publication number Publication date
CN107889508A (zh) 2018-04-06
SG11201707909YA (en) 2017-10-30
HK1250171A1 (zh) 2018-11-30
WO2016161236A1 (en) 2016-10-06
SG10201909182WA (en) 2019-11-28
AU2016242953A1 (en) 2017-10-12
EP3277840A1 (en) 2018-02-07
CA2980769A1 (en) 2016-10-06
IL254713A0 (en) 2017-11-30
KR20170133420A (ko) 2017-12-05
US20180135120A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
US20230295690A1 (en) Haplotype resolved genome sequencing
US20190002969A1 (en) Multiple tagging of long dna fragments
Medvedev et al. Computational methods for discovering structural variation with next-generation sequencing
Quail et al. A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers
EP2970958B1 (en) Methods of sequencing the immune repertoire
Teer et al. Exome sequencing: the sweet spot before whole genomes
US20180135120A1 (en) Comprehensive methods for detecting genomic variations
US20210371904A1 (en) Recovering Long-Range Linkage Information From Preserved Samples
US11149311B2 (en) Whole-genome haplotype reconstruction
Perry The promise and practicality of population genomics research with endangered species
JP2022541387A (ja) 近接ライゲーションのための方法および組成物
Leung et al. ECNano: A cost-effective workflow for target enrichment sequencing and accurate variant calling on 4800 clinically significant genes using a single MinION flowcell
Cradic et al. A simple method for gene phasing using mate pair sequencing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200915