JP2023502944A - 組織試料からの染色体立体構造捕捉 - Google Patents

組織試料からの染色体立体構造捕捉 Download PDF

Info

Publication number
JP2023502944A
JP2023502944A JP2022528054A JP2022528054A JP2023502944A JP 2023502944 A JP2023502944 A JP 2023502944A JP 2022528054 A JP2022528054 A JP 2022528054A JP 2022528054 A JP2022528054 A JP 2022528054A JP 2023502944 A JP2023502944 A JP 2023502944A
Authority
JP
Japan
Prior art keywords
acoustic energy
tissue sample
focused acoustic
nucleic acid
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022528054A
Other languages
English (en)
Other versions
JPWO2021097284A5 (ja
Inventor
ショーン サリバン,
モリス エミリー レイスター,
カイル ラングフォード,
イヴァン リアチコ,
スティーブン エム. エーカー,
Original Assignee
フェーズ ジェノミクス インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フェーズ ジェノミクス インコーポレイテッド filed Critical フェーズ ジェノミクス インコーポレイテッド
Publication of JP2023502944A publication Critical patent/JP2023502944A/ja
Publication of JPWO2021097284A5 publication Critical patent/JPWO2021097284A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1003Extracting or separating nucleic acids from biological samples, e.g. pure separation or isolation methods; Conditions, buffers or apparatuses therefor
    • C12N15/1006Extracting or separating nucleic acids from biological samples, e.g. pure separation or isolation methods; Conditions, buffers or apparatuses therefor by means of a solid support carrier, e.g. particles, polymers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1003Extracting or separating nucleic acids from biological samples, e.g. pure separation or isolation methods; Conditions, buffers or apparatuses therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Landscapes

  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本明細書では、集束音響エネルギーおよび染色体立体構造捕捉法を使用して、対象から得られた保存された試料中の染色体構造バリアントを同定するための方法およびシステムが提供されている。また、本明細書では、保存された組織試料から同定された染色体構造バリアントを疾患または障害と関連付けるための方法およびシステム、ならびに同左の治療方法が提供されている。【選択図】図4

Description

(関連出願の相互参照)
本出願は、2019年11月15日に出願された米国仮特許出願第62/936,042号の優先権の利益を主張するものであり、あらゆる目的で、参照によりその全体が本明細書に組み込まれる。
染色体異常の検出は、様々な血液癌のための最前線の診断法である。癌に対する最先端の細胞遺伝学的方法であっても、診断のために複数の検査を使用する必要があることが多い、という限界がある。核型分析法は染色体異常についてゲノム全体についての観点を提供するが、分解能は限定的である。蛍光in situハイブリダイゼーション(FISH)などの方法では、一度に1個、または場合によっては少数の座位のみを調べられるだけである。染色体マイクロアレイ分析(CMA)は、均衡転座、逆位を判定したり、複雑な再配列および倍数性の変化を解明したりすることができない。さらに、癌診断の目的から、CMAは試料の腫瘍組成物パーセントによっていくらか制限があり、動作感度は20%の存在量範囲である。また、CMAおよびFISHは一部の例では固形腫瘍に適用することができるが、核型分析は、固形腫瘍に日常的に適用できる方法ではない。そのため、固形腫瘍バイオマーカーの発見における細胞ゲノム学的方法の有用性は遅れている。ゆえに、当分野では染色体構造バリアントを正確かつ迅速に同定するためのさらなる方法に対するニーズが存在する。
本発明は、染色体立体構造捕捉法を使用して、染色体構造バリアントを正確かつ迅速に同定する方法を提供することによって、これらのニーズに対処する。
一態様では、容器内の溶液中に組織試料を提供することであって、組織試料が核酸材料を含むことと、組織試料および容器内の溶液を集束音響エネルギーに曝露させて核酸材料を組織試料から放出することによって、組織試料を解離することと、核酸材料を回収することと、核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む方法が、本明細書で提供されている。一部の例では、溶液は非溶媒溶液である。一部の例では、組織試料は保存された組織試料である。一部の例では、組織試料は架橋された組織試料である。一部の例では、組織試料は、ホルマリン固定パラフィン包埋(FFPE)試料である。一部の例では、解離工程は、組織試料からの核酸材料の回収を可能にするのに十分なパラフィンをFFPE試料から解離するのに十分な時間、FFPE試料を集束音響エネルギーに曝露させることを含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの90%超の解離を含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの98%超の解離を含む。一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させながら組織試料を再水和することを含む。一部の例では、解離工程は、溶液の温度を約5℃~約60℃または約18℃~約20℃に維持することを含む。一部の例では、組織試料の厚さは5~25ミクロンであり、長さは25mm未満である。一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させる前に、溶液および容器内の組織試料にプロテアーゼを添加することを含む。一部の例では、プロテアーゼを不活化することを含む。一部の例では、プロテアーゼを不活化することは、容器を約98℃に加熱することを含む。一部の例では、方法は、試料を90~100℃に加熱するまで、容器内の組織試料を50℃未満に維持することを含む。一部の例では、集束音響エネルギーは、10%~30%の負荷時間率を有する。一部の例では、集束音響エネルギーは、約15%または約20%の負荷時間率を有する。一部の例では、集束音響エネルギーは、60W~90Wのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約75Wのピーク強度パワーを有する。一部の例では、方法は、容器を約4℃~約7℃に維持しながら、容器内の組織試料および溶液を集束音響エネルギーに曝露させて、組織試料から追加の核酸材料を放出することを含む第二の解離工程を実行することをさらに含む。一部の例では、集束音響エネルギーは、10%~30%の負荷時間率を有する。一部の例では、集束音響エネルギーは、約15%または約20%の負荷時間率を有する。一部の例では、集束音響エネルギーは、60W~90Wのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約75Wのピーク強度パワーを有する。一部の例では、方法は、容器内での解離工程後に上清を単離することと、組織試料を含む容器に追加の溶液を添加することと、容器を約5℃~約60℃または約18℃~約20℃に維持しつつ、容器内の組織試料および追加の溶液を集束音響エネルギーに曝露させて、組織試料から追加の核酸材料を放出することを含む第二の解離工程を組織試料に対して行うことと、をさらに含む。一部の例では、集束音響エネルギーは、10%~30%の負荷時間率を有する。一部の例では、集束音響エネルギーは、約15%または約20%の負荷時間率を有する。一部の例では、集束音響エネルギーは、60W~90Wのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約75Wのピーク強度パワーを有する。一部の例では、方法は、容器内での第二の解離工程後に上清を単離することと、第二の解離工程後に単離された上清と第二の解離工程前に単離された上清の両方について、上清を含む容器の温度を約4℃~約7℃で維持しつつ、各上清を集束音響エネルギーに曝露させることによって、第三の解離工程を行うことと、上清を混合することと、をさらに含む。一部の例では、集束音響エネルギーは、10%~30%の負荷時間率を有する。一部の例では、集束音響エネルギーは、約15%または約20%の負荷時間率を有する。一部の例では、集束音響エネルギーは、60W~90Wのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約75Wのピーク強度パワーを有する。一部の例では、解離工程は、核酸材料のせん断を回避するのに好適な強度で組織試料を集束音響エネルギーに曝露させることを含む。一部の例では、組織試料を集束音響エネルギーに曝露させた後の核酸材料の断片の大部分は、1000bp以上のサイズを有する。一部の例では、解離工程は、組織試料中のホルムアルデヒド架橋を維持する。一部の例では、集束音響エネルギーは、約100キロヘルツ~約100メガヘルツの周波数を有し、集束音響エネルギーは、幅が約2センチメートル未満の集束帯を有し、および/または集束音響エネルギーは、容器から間隔が置かれ、かつ容器の外部にある音響エネルギー源に由来し、音響エネルギーの少なくとも一部は容器の外部に伝搬する。一部の例では、回収工程は、組織試料を遠心分離し、それによって不溶性汚染物質から解離した核酸材料を含む上清液を分離することを含む。一部の例では、回収工程は、固相可逆固定化によって核酸材料を精製することを含む。一部の例では、核酸材料に対して染色体立体構造捕捉分析を行うことは、核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリーにおいて対のポリヌクレオチド配列を同定することと、を含む。一部の例では、核酸材料に対して染色体立体構造捕捉分析を行うことは、核酸材料を断片化することと、核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリーにおいて対のポリヌクレオチド配列を同定することと、を含む。一部の例では、同定工程は、近接ライゲーションをシーケンシングすることを含む。
図1A~1Eは、細胞ゲノム異常を検出するための例示的な近接ライゲーション方法の概要を示す。(図1A)個体由来の細胞は架橋され、無傷な細胞核に近接したクロマチン間に共有結合を形成する。(図1B)Hi-Cによって捕捉された頻度の相互作用は、染色体上の二つの配列間の直線距離に基づくその配列の近接さに関連する。(図1C)核型的に正常な細胞株からのHiC相互作用マトリクス。(図1D)ヒートマップ上の非対角信号(破線の灰色ボックス)により観察された第4染色体と第11染色体の間の転座を含む細胞株からのHiCマトリクスでは、領域のより高い拡大が非常に明確に観察される(図1E)。 図2は、Phase Genomics社のFFPE Hi-C法によって生成されたHiCライブラリーのHiC-QC計算統計を示す。 図3A~3Dは、本開示全体に提供されるHiC方法による臨床試料の分析を示す(図3A)。すべての臨床試料は、HiC-QCで測定された品質基準を上回る。(図3B)臨床Hi-Cデータで観察された試料の転座および(図3C)欠失または増幅。(図3D)臨床試料について利用できる核型、FISHおよびCMAを組み合わせたデータと重複する、検出された異常の概要。20%存在量(CMA検出限界)で検出可能な異常のみを検討した。 図4は、Hi-C方法の概略を示す。物理的に近接したDNA配列は、ホルマリン固定中に架橋され、制限消化によって断片化され、まとめてライゲーションされる。シーケンシングアダプターが追加され、キメラ分子がシーケンシングされる。互いに対してリード1および2をマッピングすることは、コンタクトマトリクス熱を生成し、これにより染色体再配列の同定が可能となる。 図5A~5Bは、臨床試料についてHi-Cライブラリーを生成するAFA方法の有用性を示す。FFPE乳房腫瘍試料(図5A)または卵巣腫瘍試料(図5B)の単一切片から上述の方法を使用して生成されたライブラリーは、第X染色体と第8染色体の間(図5A)および第4染色体と第7染色体の間(図5B)の非相互転座を同定するのに十分である。
クロマチン立体構造捕捉技術を使用した染色体構造バリアントの同定のための計算方法およびシステムが、本明細書において提供される。一部の実施形態では、本開示は、核型分析またはシーケンシングによる核型分析(KBS)に対して効果がないことが以前には知られていた組織試料(例えば、固形組織または腫瘍試料)中の染色体構造バリアントを検出するためのシステムおよび方法をさらに提供する。一部の実施形態では、本開示は、染色体構造バリアントを、染色体構造バリアントに関連する生物学的情報(例えば、臨床データ)に関連付けるためのシステムおよび方法をさらに提供する。本明細書で提供される方法およびシステムで使用するための、特定の染色体構造バリアントに関連する生物学的情報を染色体構造バリアントと関連付けるためのクロマチン立体構造捕捉(3-C)技術およびシステムおよび方法は、WO 2020/198704号に記載されるCCC技術、システムおよび方法であってもよく、これらは参照によりその全体が本明細書に組み込まれる。
一実施形態では、本明細書で提供される染色体構造バリアントを同定する方法は、(a)容器内の溶液中に組織試料を提供することであって、組織試料が核酸材料を含むことと、(b)組織試料および容器中の溶液を集束音響エネルギーに曝露させて核酸材料を組織試料から放出することによって、組織試料を解離することと、(c)核酸材料を回収することと、(d)核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む。組織試料は、固形腫瘍試料であってもよい。組織試料(例えば、固形腫瘍試料)は、保存された組織試料であってもよい。組織試料(例えば、固形腫瘍試料)は、パラフィン包埋されてもよい。組織試料(例えば、固形腫瘍試料)は、架橋または固定されていてもよい。一実施形態では、組織試料は、ホルマリン固定パラフィン包埋(FFPE)試料である。工程(b)の解離は、1回以上繰り返されてもよい。一実施形態では、工程(b)の解離は、組織試料および容器内の溶液中で1回繰り返される。別の実施形態では、方法は、(i)工程(b)の後、かつ工程(c)の前に、容器内の溶液を単離することと、(ii)工程(i)で容器中に残っている組織試料に追加の溶液量を添加することと、(iii)追加の溶液量が添加された容器中の組織試料に対して工程(b)の解離を繰り返すことと、(iv)追加の解離工程後に容器中の組織試料に添加された追加の溶液量を単離することと、(v)集束音響エネルギーに曝露させることによって工程(i)および(iv)で単離された溶液を解離して、前記溶液中の組織試料の残りの部分から追加の核酸材料を放出させることと、(vi)工程(v)の対象となる溶液を混合させる工程と、を含む。一実施形態では、方法は、工程(i)~(v)を1回以上繰り返すことをさらに含む。各解離工程で使用される溶液は、非溶媒溶液であってもよい。非溶媒溶液は、本明細書に提供される方法のいずれかの対象となる組織試料内に含まれる核酸および/またはタンパク性物質に損傷を引き起こす可能性がある溶媒を含有しない溶液であってもよい。非溶媒溶液は、水および洗剤を含んでもよい。
例えば、3-C、4-C、5-C、およびHi-Cなどのクロマチン立体構造捕捉法は、損なわれていない細胞の内側で、DNA分子を物理的に近接して連結する。これらの方法は、インビボにおいて、空間内で二つの座位が共会合する頻度を測定する。次いで、クロマチン立体構造捕捉ライブラリーからのハイスループットシーケンシングリードを、ドラフトゲノムまたは参照ゲノムにマッピングすることによって、二次元のコンタクトマトリクスが、クロマチン立体構造捕捉データから計算される。コンタクトマトリクスにおいて、同じ染色体を起源とする座位は、異なる染色体上の座位よりも高い相互作用頻度を有しており、同じ染色体上の隣接座位は、当該染色体上の遠い座位よりも高い相互作用頻度を有する。各個体のゲノムはわずかに異なるコンタクトマトリクスを示す。その原因は、当該個体の細胞集団内でのアレル変異、および当該個体が誕生時に有していた、または障害の間に獲得された変異である。これらの差異が、バリアントと呼ばれる。一部のバリアントは、コンタクトマトリクスをコンタクトマップとして視覚化することによって、肉眼で見ることができる。他のバリアントは、コンタクトマトリクスを計算により分析することによって検出することができる。これらのバリアントには、限定されないが、例えば、挿入、欠失、反復伸長、および他の複雑な事象など、均衡転座および不均衡転座、逆位ならびにコピー数多型が含まれる。一部のバリアントは、臨床的な重要性を有することが知られている。すなわち、疾患と関連する、および/または治療過程に関連する。他のバリアントは、臨床的な重要性が不明であるか、または新規である(当分野で過去に報告されていない)。本明細書に置いて開示されるクロマチン立体構造データ、ならびに方法およびシステムは、臨床的な重要性が判明しているバリアントを表す手段を提供し、ならびに臨床的な重要性が判明していないバリアントおよび新規のバリアントを発見するための手段を提供する。
本開示のシーケンシングによる核型分析(KBS:karyotyping by sequencing)方法は、核型分析データまたは核型分析に似たデータが有用である、固形組織試料(例:固形腫瘍)を使用した、臨床状況および研究状況において、クロマチン立体構造データを使用する。この方法には、複数の主要な用途が含まれる。第一に、KBS法は、細胞遺伝学的方法によって観察可能なヒトゲノム再構成を特定すること、および臨床的に報告義務のあることが判明しているバリアントの存在についての検査を行うことができ、事実上、核型分析と同種の実用的な情報であるが、全く異なるパワフルな手段を生み出すことができる。第二に、KBS方法は、任意の構造バリアントを検出するために任意の試料を分析することができ、そしてサンプリングされる生物体中の構造変動に関する任意の提供データを使用して、これらバリアントを分類することができる。
対象
本開示は、対象から得られた試料中の一つ以上の染色体構造バリアントを検出するための方法およびシステムを提供する。試料には、生検試料、外科手術試料、腫瘍試料、器官全体、および他の試料が含まれてもよい。
対象は、任意の生物体であってもよい。一部の実施形態では、対象は、真核生物である。一部の実施形態では、対象は、後生動物である。一部の実施形態では、対象は、脊椎動物である。一部の実施形態では、対象は、哺乳動物である。一部の実施形態では、対象は、ヒト、サル、類人猿、ウサギ、モルモット、スナネズミ、ラットまたはマウスである。一部の実施形態では、対象は、農業用動物である。農業用動物の例としては、ウマ、ヒツジ、ウシ、ブタ、およびニワトリが挙げられる。一部の実施形態では、対象は、ペットとして飼育される動物(獣医対象)である。ペットの例としては、イヌおよびネコが挙げられる。
一部の実施形態では、対象は、ヒトである。
一部の実施形態では、特に対象がヒトである実施形態では、対象は、対象中の一つ以上の染色体構造バリアントにより生じる疾患または障害の一つ以上の症状を有する。一部の実施形態では、染色体構造バリアントは、疾患もしくは障害を生じさせることが当分野において判明しており、疾患もしくは障害を生じさせる遺伝子の機能に影響を及ぼすことが当分野において判明しているものである。疾患または障害は、当分野で公知の任意の疾患または障害であってもよく、および/または一つ以上の染色体構造バリアントと関連付けられるか、またはそれらによって引き起こされるものとして本明細書で提供されている。代替的な実施形態では、染色体構造バリアントは、新規の染色体構造バリアントである。すなわち、当分野において過去に報告されていないバリアントである。本開示は、新規および公知の両方の染色体構造バリアントを特定するためのシステムおよび方法を提供する。
本開示は、対象中の任意の組織もしくは任意の細胞型から単離された、または誘導された組織および/または細胞中の一つ以上の染色体構造バリアントを検出するための方法およびシステムを提供する。一部の実施形態では、組織は、対象の健康な組織であり、例えば、健康な皮膚、骨髄、肝臓、腎臓、神経組織または筋肉である。一部の実施形態では、組織は、疾患または障害の一つ以上の症状を有する。一部の実施形態では、疾患または障害は、癌であり、組織は、癌細胞を含む。一部の実施形態では、癌は、固形腫瘍を含み、組織は、腫瘍細胞を含む。一部の実施形態では、組織は、一つ以上の染色体構造バリアントを含む細胞と、一つ以上の染色体構造バリアントを含まない細胞の混合物を含む。組織は新鮮なものであってもよい。組織は新鮮凍結されたものであってもよい。組織は固定されたものであってもよい。組織は保存することができる。一実施形態では、組織はパラフィン包埋されている。別の実施形態では、組織はホルマリン固定およびパラフィン包埋(FFPE)されている。一部の例では、組織試料の厚さは5~25ミクロンであり、長さは25mm未満である。一部の例では、組織試料はカール(10ミクロン以上の切片)である。カールはFFPEカールとすることができる。
一実施形態では、試料(例えば、生検)は、患者から採取され、医療処置中に固定液(例えば、ホルマリン)中に配置される。この固定試料は、その後、本開示の技術を使用して分析することができる。例えば、癌に関連する再配列などのゲノム特徴を特定することができる。
一実施形態では、対象の組織または細胞型から保存された試料中の一つ以上の染色体構造バリアントを検出するための方法およびシステムが本明細書で提供されている。試料は、基礎研究、翻訳研究、外科的切除に従って保存することができ、または薬物試験に従って記録保管されてもよい。保存された試料は、例えば、ホルムアルデヒド、ホルマリン、UV光、マイトマイシンC、ナイトロジェンマスタード、メルファラン、1,3-ブタジエンジエポキシド、シスジアミンジクロロプラチナ(II)、およびシクロホスファミドのうちの少なくとも一つを使用して架橋されてもよい。あるいは、保存された試料は、ホルマリンを使用して架橋することができる。保存された試料は、試料中の核酸に関する位置情報を維持できる。一実施形態では、保存された試料は、ホルマリン固定パラフィン包埋(FFPE)試料などの包埋試料である。保存された試料は、一部の例では、試料を固定液中に滴加することによって、均質化させることなく、直接固定することができる。
一実施形態では、保存された組織試料は、タンパク質DNA複合体が破壊されないように核酸を単離するように処理される。一部の例では、タンパク質DNA複合体は、近位にある第一の核酸セグメントおよび第二の核酸セグメントが、リン酸ジエステル骨格とは独立して一緒に保持されるように単離される。一部の例では、保存された組織試料は、試料を沸騰状態から守ることによって処理される。一部の例では、保存された組織試料は、40℃以下の温度で処理される。一実施形態では、DNAタンパク質複合体は、クロマチンを含む。一部の例では、保存された組織試料は、組織におけるその構成を反映する位置情報を保持する。一実施形態では、保存された組織試料は、保存中、または核酸を単離する前に均質化されないため、試料から切り出されたDNAタンパク質複合体の位置情報が保存され、ゲノム構造分析の一部として利用可能である。
保存された組織試料は、少なくとも1日、2日、3日、4日、5日、6日、7日、8日、9日、10日、11日、12日、13日、2週間、3週間、1か月、1.5か月、2か月、2.5か月、3か月、3.5か月、4か月、4.5か月、5か月、5.5か月、6か月、8か月、10か月、1年、2年、3年、4年、5年、10年、15年、20年、25年、30年、35年、40年、45年、または50年、保存することができる。保存された組織試料は、最大でも1日、2日、3日、4日、5日、6日、7日、8日、9日、10日、11日、12日、13日、2週間、3週間、1か月、1.5か月、2か月、2.5か月、3か月、3.5か月、4か月、4.5か月、5か月、5.5か月、6か月、8か月、10か月、1年、2年、3年、4年、5年、10年、15年、20年、25年、30年、35年、40年、45年、または50年、保存することができる。保存された組織試料は、約1日、2日、3日、4日、5日、6日、7日、8日、9日、10日、11日、12日、13日、2週間、3週間、1か月、1.5か月、2か月、2.5か月、3か月、3.5か月、4か月、4.5か月、5か月、5.5か月、6か月、8か月、10か月、1年、2年、3年、4年、5年、10年、15年、20年、25年、30年、35年、40年、45年、または50年、保存することができる。一実施形態では、保存された組織試料は、核酸を単離する前に少なくとも1週間保存される。一実施形態では、保存された組織試料は、核酸を単離する前に少なくとも6か月保存される。
保存された組織試料は、核酸を単離する前に収集点から輸送することができる。保存された組織試料は、滅菌環境で収集することができる。保存された組織試料は、核酸を単離する前に非滅菌環境に位置付けられてもよい。
ホルマリン固定、パラフィン包埋試料などの保存された試料は、多くの場合、固定液および/または包埋材料によって引き起こされる損傷などの損傷を有する核酸を含む。DNAの使用における関連成分は、DNA損傷剤にさらされる単離されたDNAの物理的連鎖情報の完全性を保存する。DNAは比較的安定している分子であるが、DNAの完全性は環境要因、特に時間の影響を受けうる。ヌクレアーゼ汚染、加水分解、酸化、化学的損傷、物理的損傷および機械的損傷の存在が、DNA保存に対する主な脅威の一部を表す。輸送中にDNAが遭遇する機械的要因、環境要因、および物理的要因は、断片に残されることが多く、ゲノム解析に極めて重要な長距離情報を失う可能性がある。DNA情報を保存するための既存の方法は主にDNAの崩壊を遅延させるが、特に断片化が起こった場合には、経時的なDNA損傷に対する保護をほとんど提供しない。多くの場合、そのようなDNA損傷は、長期間保存を意図した試料を固定および包理によって軽減することができる。例えば、FFPE(ホルマリン固定、パラフィン包埋)試料は、長期間保存することができる。しかしながら、保存プロセスはDNA損傷をもたらす可能性がある。さらに、その後のDNA抽出法は過酷であることが多く、さらなるDNA損傷および断片化をもたらす可能性がある。
本明細書では、保存された(例えば、FFPE)試料(組織に基づく保存された試料および細胞培養に基づく保存された試料を含む)中に保存された架橋クロマチンといったDNA複合体またはクロマチン凝集体中の核酸分子などの保存および/または保存された核酸分子から長距離ゲノム情報を回収することに関連する方法およびシステムが開示されている。本明細書に提供される方法およびシステムは、核酸の物理的連鎖情報が保存されるように、これらの保存された試料からの核酸試料の回収に使用することができる。物理的連鎖情報は、FFPE抽出過程における核酸自体の保存によって、または、抽出過程において核酸自体に生じうる損傷とは無関係に物理的連鎖情報が保存されるように、核酸複合体の保存によって保存される。
適応型集束音響技術(AFA:Adaptive Focused Acoustics)に基づく核酸抽出
一実施形態では、集束音響エネルギーを使用して対象の組織または細胞型からの保存された試料から獲得、導出または抽出された核酸中の一つ以上の染色体構造バリアントを検出するための方法およびシステムが本明細書で提供されている。一実施形態では、保存された試料(例えば、FFPE組織試料)からの核酸の単離または抽出は、WO2014078650号に記載されるような集束音響エネルギーおよび音響処理装置を使用するが、これは参照により本明細書に組み込まれ、以下で簡潔に説明される。
一実施形態では、保存された試料は、FFPE試料(例えば、固形腫瘍FFPE試料)であり、パラフィンは、非溶媒溶液を使用してFFPE試料から解離される。一実施形態では、非溶媒溶液は、パラフィン解離の過程中にFFPE試料を含まないか、またはFFPE試料を溶媒に曝露させない。非溶媒溶液は、水および/または洗剤を含んでもよい。非溶媒溶液は、適切な集束音響エネルギーと併用して、FFPE試料からパラフィンを解離することができる。こうしたパラフィン解離は、試料を比較的高い温度に曝露させることなく行われうる。例えば、パラフィンは、試料温度を5~60℃未満に維持しつつ試料から適切に解離されてもよい。パラフィンは、試料温度を1~30℃に維持しつつ試料から適切に解離されてもよい。パラフィンは、試料温度を約18~20℃または約4~7℃に維持しつつ試料から適切に解離されてもよい。一実施形態では、試料温度は約20℃に維持される。別の実施形態では、試料温度は約7℃に維持される。本明細書で利用されるパラフィン解離は、FFPEからの核酸抽出において当分野で既知の過程よりも、核酸材料の収率を少なくとも2~4倍増加させることができる。一実施形態では、本明細書に記載する集束音響エネルギー法を使用したパラフィン解離は3分以下で起こる。
一実施形態では、試料は、パラフィン解離過程中に再水和される。再水和は、生体材料の収率の改善にも役立つ可能性がある。
一実施形態では、本明細書に提供される方法およびシステムで使用するための保存された組織は、FFPE試料であり、FFPE試料は、解離が容器内で起こるように前記容器内に提供される。非溶媒の水溶液はFFPE試料と共に容器内に提供されてもよく、または容器に添加されてもよく、その後、容器中の試料および非溶媒溶液を音響エネルギーに曝露させて、試料からパラフィンを解離することによって、パラフィンをパラフィン包埋試料から解離してもよい。次いで、核酸、タンパク質、および/または他の成分などの生体分子を、パラフィンの解離後に試料の水性部分から回収することができる。一実施形態では、解離は、前回のパラフィン解離後の試料の水性部分、または前回のパラフィン解離後の水性部分、ならびに組織試料自体のいずれかに対して、1回以上追加して実施することができる。初回の解離またはそれ以降の解離後の任意の試料の水性部分の回収は、容器からの処理された懸濁液を遠心分離し、ピペット分注することによって、または容器からの生体分子を含有する液体をピペット分注することによって行うことができる。回収された生体分子を、例えば、追加処理(例えば、核酸の断片化)のため、および/または生体分子の全体的回収を促進するために、市販の技術および装置を使用したDNA精製処理、またはさらなる集束音響処理などの、所望の任意の適切なさらなる処理に供してもよい。一部の例では、回収工程は、組織試料を遠心分離し、それによって不溶性汚染物質から解離した核酸材料を含む上清液を分離することを含む。一部の例では、回収工程は、固相可逆固定化(SPRI)によって核酸材料を精製することを含む。当分野で公知の任意のSPRI適合基材(例えば、SPRIビーズ)を、本明細書で提供される回収工程中に使用することができる。
一実施形態では、回収された生体分子は、さらなる処理(例えば、核酸の断片化)に供されず、代わりに本明細書に記載される染色体立体構造捕捉(例えば、Hi-C)法に供される。
一部の例では、解離工程は、組織試料からの核酸材料および/またはプロテオーム材料の回収を可能にするのに十分なパラフィンをFFPE試料から解離させるのに十分な時間、FFPE試料を集束音響エネルギーに曝露させることを含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの少なくとも90%、少なくとも91%、少なくとも92%、少なくとも93%、少なくとも94%、少なくとも95%、少なくとも96%、少なくとも97%、少なくとも98%、少なくとも99%、少なくとも99.5%、または少なくとも99.9%、または90%超、91%超、92%超、93%超、94%超、95%超、96%超、97%超、98%超、99%超、99.5%超、または99.9%超、または約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、約99.5%、または約99.9%の解離を含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの90%超の解離を含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの95%超の解離を含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの98%超の解離を含む。一部の例では、解離工程は、FFPE試料に付着したパラフィンの99%超の解離を含む。1回以上の追加の解離工程を行うことは、単一の解離工程を行う場合と比較して、FFPE試料に付着したパラフィンの解離を、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、少なくとも50%、または最大5%、最大10%、最大15%、最大20%、最大25%、最大30%、最大35%、最大40%、最大45%、最大50%、または約5%、約10%、約15%、約20%、約25%、約30%、約35%、約40%、約45%、約または50%増加しうる。一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させながら組織試料を再水和することを含む。一部の例では、解離工程は、溶液温度を5℃~60℃に維持することを含む。溶液は、約18℃~約20℃、または約4℃~約7℃の温度でもよい。溶液は、約40℃、または約20℃、または約7℃の温度であってもよい。したがって、試料の温度を約60℃未満、例えば、約45℃未満、約20℃未満、約10℃未満に維持しつつ、解離を行うことができる。
一部の例では、方法は、試料を90~100℃に加熱するまで組織試料を容器内で50℃未満に維持することをさらに含む。
一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させる前に、溶液および容器内の組織試料にプロテアーゼ(例えば、プロテイナーゼKまたはトリプシン)を添加することを含む。処理された試料およびプロテアーゼ含有溶液を、例えば、10~30秒(またはそれ以上)間、2回目に集束音響エネルギーに曝露させ、試料とプロテアーゼの混合を強化し、それによって酵素活性を増強してもよい。一実施形態では、30秒間以下(例えば、10秒)の音響処理は、試料中のタンパク質をさらに加水分解するために、試料をプロテアーゼで培養する前にプロテアーゼを試料と適切に混合する役割を果たしうる。また、酵素活性およびプロテアーゼ作用の促進役としての音響エネルギーの効果をさらに高めるために、プロテアーゼにグリセロール材料を含めることを使用することができる。この混合処理は、例えば、接触媒質16を約46℃、約20℃、約7℃の温度といった5~46℃の温度で試料に行うことができるが、他の温度も可能である。一部の例では、方法はプロテアーゼを不活化することを含む。一部の例では、プロテアーゼの不活化は容器を約98℃に加熱することを含む。
一実施形態では、解離工程は、核酸材料のせん断を回避するのに好適な強度で組織試料(例えば、FFPE試料)を集束音響エネルギーに曝露させることを含む。一つ以上の解離工程において組織試料を集束音響エネルギーに曝露させた後の核酸材料の断片の大部分は、1000bp以上のサイズを有する。次いで、核酸材料または核酸材料の断片を、本明細書に提供されるように染色体立体構造捕捉法に供することができる。
本明細書に提供される方法およびシステムは、解離工程を1回以上繰り返すことをさらに含んでもよい。一部の例では、方法は、容器を約4℃~約7℃に維持しつつ解離工程を繰り返すことをさらに含む。一部の例では、方法は、容器を約18℃~約20℃に維持しつつ解離工程を1回以上繰り返した後、容器を約4℃~約7℃に維持しつつ最終的な解離工程を行うことをさらに含む。最初の解離工程と同様に、溶液(例えば、本明細書に記載される非溶媒溶液)が添加された前回の解離後に容器に残っている組織試料に対して、各追加の解離工程を行うことができる。最終的な解離工程は、前回の各解離から単離された溶液(例えば、水溶液)に対して実施される。
一実施形態では、音響処理装置は、本明細書に提供される方法およびシステムに存在する解離工程で利用される。音響処理装置は、ホルマリン固定、パラフィン包埋組織試料、および非溶媒、水溶液を保持する容器、および試料が容器内にありかつ音響エネルギー源から分離されている間に、試料に音響エネルギーを提供するための音響エネルギー源を含みうる。容器ホルダーは、少なくとも部分的に音響エネルギーの集束帯内にある位置で容器を支持してもよく、システム制御回路は、試料からパラフィンを解離するのに適した集束音響エネルギーに試料を曝露させ、試料の生体分子の回収を可能にするために、音響エネルギー源を制御してもよい。本明細書に提供される方法およびシステムにおいて提供される解離工程で使用するための集束音響エネルギーは、約100キロヘルツ~約100メガヘルツの周波数を有しうる。集束音響エネルギーは、幅が約2センチメートル未満の集束帯を有しうる。集束音響エネルギーは、容器から間隔を置き、かつ容器の外部にある音響エネルギー源(例えば、音響処理装置)に由来する可能性があり、音響エネルギーの少なくとも一部は容器の外部に伝搬する。一部の例では、集束音響エネルギーは、10%~30%の負荷時間率を有する。一部の例では、集束音響エネルギーは、約15%または約20%の負荷時間率を有する。一部の例では、集束音響エネルギーは、60W~90Wのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約75Wのピーク強度パワーを有する。一部の例では、本明細書に提供される任意の方法での各解離工程は、200サイクル/バースト(cpb)で実施される。一部の例では、保存された試料(例えば、FFPE組織試料)から核酸を抽出するために集束音響エネルギーを使用する、本明細書で提供される方法はいずれも、AFAが、負荷時間率20%、ピーク強度75W、および200サイクル/バーストで5分間実行されるような少なくとも一つの解離工程を含む。一部の例では、本明細書に提供される方法は、第一の解離工程が、AFAを使用して負荷時間率20%、ピーク強度75Wおよび200サイクル/バーストで5分間実施され、一方で、第二の解離工程が、AFAを使用して負荷時間率15%、ピーク強度75W、および200サイクル/バーストで10分間実施されるような第一の解離工程と第二の解離工程とを含む。一部の例では、本明細書に提供される方法は、最終的な解離工程が、AFAを使用して負荷時間率15%、ピーク強度75W、および200サイクル/バーストで10分間実施されることを除き、各解離工程が、AFAを使用して負荷時間率20%、ピーク強度75Wおよび200サイクル/バーストで5分間実施されるような二つ以上の解離工程とを含む。
一つの実施形態では、解離工程は、組織試料中のホルムアルデヒド架橋を維持する。この実施形態に加えて、次いで、処理された試料は、本明細書に記載される染色体立体構造捕捉(例えば、Hi-C)および染色体構造バリアントの同定(例えば、シーケンシングを介して)に供される。
サイズ選択
保存された(例えば、FFPE)生体試料から得られた核酸を断片化して、本明細書で提供される染色体立体構造捕捉法による分析のために好適な断片を生成することができる。鋳型核酸は、様々な機械的方法、化学的方法および/または酵素的方法を使用して、所望の長さまで断片化またはせん断されてもよい。DNAは、超音波処理、例えばCovaris法、DNaseへの短時間の曝露、または一つ以上の制限酵素の混合物またはトランスポザーゼもしくは切断酵素を使用して、無作為にせん断されてもよい。RNAは、RNaseへの短時間の曝露、加熱+マグネシウム、またはせん断によって断片化されうる。RNAはcDNAに変換されてもよい。断片化が採用される場合、RNAは、断片化の前後にcDNAに変換されてもよい。一部の実施形態では、生体試料からの核酸は、超音波処理によって断片化される。その他の実施形態では、核酸は、ハイドロシヤー装置によって断片化される。一般に、個々の核酸鋳型分子は、約2kb塩基~約40kb塩基とすることができる。様々な実施形態において、核酸は、約6kb~10kbの断片であってもよい。一実施形態では、保存された組織試料からの核酸は、WO2018195153号に記載される集束音響エネルギーを使用して断片化され、これは参照により本明細書に組み込まれる。
一実施形態では、架橋DNA分子は、サイズ選択工程に供されてもよい。核酸のサイズ選択は、特定のサイズ以下または特定のサイズを超える架橋DNA分子に対して実施されてもよい。サイズ選択は、架橋の頻度および/または断片化方法によって、例えば、高頻度または低頻度で切断する制限酵素を選択することによって、さらに影響を受けうる。一部の実施形態では、組成物は、約1kb~5Mb、約5kb~5Mb、約5kb~2Mb、約10kb~2Mb、約10kb~1Mb、約20kb~1Mb、約20kb~500kb、約50kb~500kb、約50kb~200kb、約60kb~200kb、約60kb~150kb、約80kb~150kb、約80kb~120kb、または約100kb~120kbの範囲、またはこれらの数値を境界とする範囲(例えば、約150kb~1Mb)のDNA分子の架橋を含めて調製されうる。
一部の実施形態では、試料ポリヌクレオチドは、一つ以上の特定のサイズ範囲の断片化されたDNA分子集団に断片化される。一部の実施形態では、断片は、出発DNAの少なくとも約1、約2、約5、約10、約20、約50、約100、約200、約500、約1000、約2000、約5000、約10,000、約20,000、約50,000、約100,000、約200,000、約500,000、約1,000,000、約2,000,000、約5,000,000、約10,000,000以上のゲノム等価物から生成されうる。断片化は、化学的断片化、酵素的断片化、および機械的断片化を含む、当分野で既知の方法によって達成されうる。一部の実施形態では、断片は、約10~約10,000、約20,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約150,000、約200,000、約300,000、約400,000、約500,000、約600,000、約700,000、約800,000、約900,000、約1,000,000、約2,000,000、約5,000,000、または約10,000,000以上のヌクレオチドの平均長さを有する。一部の実施形態では、断片は、約1kb~約10Mbの平均長さを有する。一部の実施形態では、断片は、約1kb~5Mb、約5kb~5Mb、約5kb~2Mb、約10kb~2Mb、約10kb~1Mb、約20kb~1Mb、約20kb~500kb、約50kb~500kb、約50kb~200kb、約60kb~200kb、約60kb~150kb、約80kb~150kb、約80kb~120kb、または約100kb~120kb、またはこれらの数値を境界とする範囲(例えば、約60~120kb)の平均長さを有する。一部の実施形態では、断片は、約10Mb未満、約5Mb未満、約1Mb未満、約500kb未満、約200kb未満、約100kb未満、または約50kb未満の平均長さを有する。その他の実施形態では、断片は、約5kb超、約10kb超、約50kb超、約100kb超、約200kb超、約500kb超、約1Mb超、約5Mb超、または約10Mb超の平均長さを有する。
一部の実施形態では、断片化は、試料DNA分子を音響超音波処理に供することなどを含め、機械的に達成される。一部の実施形態では、断片化は、二本鎖核酸切断を生成するために、一つ以上の酵素に適した条件下で、一つ以上の酵素により試料のDNA分子を処理することを含む。DNA断片の生成に役立つ酵素の例としては、配列特異的ヌクレアーゼおよび非配列特異的ヌクレアーゼが挙げられる。ヌクレアーゼの非限定的な例としては、DNase I、Fragmentase、制限エンドヌクレアーゼ、そのバリアント、およびそれらの組み合わせが挙げられる。例えば、DNase Iを用いた消化は、Mg++の非存在下、およびMn†の存在下で、DNA中のランダムな二本鎖切断を誘発することができる。一部の実施形態では、断片化は、試料のDNA分子を一つ以上の制限エンドヌクレアーゼで処理することを含む。断片化は、5’オーバーハング、3’オーバーハング、平滑末端、またはそれらの組み合わせを有する断片を産生することができる。断片が一つ以上の制限エンドヌクレアーゼの使用を含む場合などの一部の実施形態では、試料のDNA分子の切断は、予測可能な配列を有するオーバーハングを残す。一部の実施形態では、方法は、カラム精製またはアガロースゲルからの単離などの標準方法を介して断片のサイズを選択する工程を含む。
染色体構造バリアント
本開示は、対象中の一つ以上の染色体構造バリアントを検出するための方法およびシステムを提供する。
本明細書で使用される場合、「染色体」という用語は、細胞のゲノムのすべてまたは一部を含むクロマチン複合体を指す。細胞のゲノムは多くの場合、その核型によって特徴付けられるが、核型は、細胞のゲノムを構成するすべての染色体の集合である。細胞のゲノムは、一つ以上の染色体を含む場合がある。ヒトにおいて、各染色体は、短腕(「プチ(petit)」に対して「p」と称される)および長腕(「キュー(queue)」に対して「q」と称される)を有する。
各染色体の腕は、顕微鏡を使用して従来的な核型分析で見ることができる領域または細胞遺伝学的バンドに分割される。バンドは、p1、p2、p3など、セントロメアからテロメアへ向かって数えてラベルされる。バンド内の高分解能のサブバンドも、染色体中の領域を特定するために使用されることがある。サブバンドも、セントロメアからテロメアに向かって番号付けされる。染色体のバンドおよび染色体の命名法に関する情報は、Strachan, T. and Read, A.P. 1999. Human Molecular Genetics, 2nd ed. New York: John Wiley & Sonsの37-39頁に見出すことができる。
「核酸」、「ポリヌクレオチド」、および「オリゴヌクレオチド」という用語は相互互換的に使用され、一本鎖型または二本鎖型のいずれかのデオキシリボヌクレオチドポリマーまたはリボヌクレオチドポリマーを指す。本開示の目的に対し、これらの用語は、ポリマーの長さに関連した限定と解釈されるべきではない。当該用語は、天然ヌクレオチドの公知のアナログ、ならびに塩基、糖および/またはリン酸部分において改変されているヌクレオチドを包含しうる。概して、特定のヌクレオチドのアナログは、同じ塩基対特異性を有する(例えば、Aのアナログは、Tと塩基対形成する)。特定の同一性および順序のデオキシリボ核酸(DNA)のポリヌクレオチドは、本明細書において、「DNA配列」とも呼称される。染色体は、タンパク質(例えば、ヒストン)と複合体化されたポリヌクレオチドを含む。
本明細書で使用される場合、「構造バリアント」、「染色体構造バリアント」、「CSV」または「SV」という用語は、同一種内または近縁種内の他の個体のゲノム中の染色体と比較した、個体の染色体の構造における差異を指す。染色体構造における差異には、染色体中のDNA配列の配置および同一性における差異が包含される。染色体中のDNA配列の配置における差異は、他の配列と比較した染色体上のDNA配列の位置における差異(例えば、転座)、および他の配列と比較した方向性における差異(例えば、逆位)の両方を含む。染色体に沿ったDNA配列の同一性における差異は、例えば、一つの染色体から別の非相同染色体への移動配列を介した、新規配列および欠落配列の両方を含みうる。
染色体構造の変動は、サイズが小さくても大きくてもよく、数十塩基対、数百塩基対、数キロ塩基、数メガ塩基、またはさらには個々の染色体のかなりの部分(例えば、半分、3分の1、または4分の3)を包含する。全サイズの染色体構造の変動が、本開示の範囲内である。
染色体構造バリアントには複数のタイプがあり、そのすべてが、本開示の方法およびシステムの範囲内であると想定される。染色体構造バリアントのタイプの非限定的な例としては、転座、均衡転座、不均衡転座、複合転座、逆位、欠失、重複、反復伸長、または環状が挙げられる。
本明細書で使用される場合、「転座」という用語は、非相同の染色分体間のDNA配列の交換、同じ染色分体上の二つ以上の位置間のDNA配列の交換、または減数分裂中の交差の結果ではない相同の染色分体間のDNA配列の交換を指す。転座は、遺伝子融合を生じさせる可能性があり、遺伝子融合は、通常は互いに隣接していない二つの遺伝子が近接した時に発生する。あるいは、または加えて、転座は、転座の境界で遺伝子を破壊することにより、遺伝子の機能を破損する可能性がある。例えば、転座は、遠位制御因子からオープンリーディングフレーム(ORF)を離れさせ、またはオープンリーディングフレームを新たな制御因子に近接させ、その結果、遺伝子の発現に影響を及ぼす可能性がある。あるいは、または加えて、転座の切断点が、遺伝子の真ん中で発生する可能性もあり、その結果、遺伝子切断が生じる。「切断点」とは、転座中に染色体が切断される染色体の点または領域を指す。「切断点ジャンクション」とは、転座に関与した染色体の様々な部分が結び合わされる、染色体の領域を指す。あるいは、または加えて、転座は、例えば、DNA配列を強い遺伝子発現の領域(例えば、ユークロマチン)から遺伝子発現が低い領域(例えば、ヘテロクロマチン)へとDNA配列を移動させ、またはその逆に移動させるなど、核内の新たなクロマチン環境下へと遺伝子を移動させることにより、転座内に含有された一つ以上の遺伝子の発現に影響を及ぼしうる。転座ごとに、遺伝子発現に転座は何も影響を及ぼさない場合もあり、一つの遺伝子に影響を及ぼす場合もあり、または複数の遺伝子に影響を及ぼす場合もある。
本明細書で使用される場合、「均衡転座」という用語は、非相同の染色分体間のDNAの相互交換、または減数分裂中の交差の結果ではない相同の染色分体間のDNAの相互交換を指す。「均衡転座」は、転座中に遺伝物質は失われず、すべての遺伝物質が交換中に保存される転座である。「不均衡転座」では、交換中に遺伝物質が失われる。
本明細書で使用される場合、「相互転座」という用語は、二つの切断された染色体間の断片の相互的な交換を伴う転座を指す。相互転座では、一つの染色体の一部が、別の染色体の一部と一体化する。
本明細書で使用される場合、「バリアント転座」、「異常転座」、または「複合転座」という用語は、第一の転座に続いて、二次的な再配列に置かれた第三の染色体の関与を指す。
転座は、染色体内であってもよく(再配列切断点は、同じ染色体内に存在する)、または染色体間であってもよい(再配列切断点は、二つの異なる染色体の間にある)。
本明細書で使用される場合、「逆位」という用語は、同じ染色体内のDNA配列の再配列を指す。逆位は、染色体内のDNA配列の向きを変える。
本明細書で使用される場合、「欠失」とは、DNA配列の喪失を指す。欠失は、数個のヌクレオチドから染色体全体に及ぶ、任意のサイズでありうる。転座は、例えば転座切断点で、欠失を伴うことが多い。
本明細書で使用される場合、「重複」という用語は、DNA配列の重複を指す(例えば、ゲノムが、二つではなく三つのDNAコピーを含有する)。重複は、数個のヌクレオチドから染色体全体に及ぶ、任意のサイズでありうる。転座は、重複を伴うことが多い。
本明細書で使用される場合、「反復伸長」という用語は、対象間で変化するコピー数を有する、ゲノム中の縦列反復配列を指す。反復配列の反復数が平均よりも大きい場合、当該反復配列は伸長されている。反復配列は、2、3、4、5、6、7、8、9、10個またはそれ以上の反復ヌクレオチドを含みうる。反復の伸長は、限定されないが、ハンチントン病、脊髄小脳失調症、脆弱X症候群、筋強直性ジストロフィー、フリードライヒ失調症、および若年性ミオクローヌスてんかんを含む、多くの遺伝的障害と関連付けられている。
すべてのタイプの染色体構造バリアントが、本開示の方法およびシステムを使用して特定されることができる。
一部の実施形態では、本開示の方法およびシステムによって特定される染色体構造バリアントは、当分野で公知の染色体バリアントである。例えば、本開示の方法によって特定される染色体構造バリアントは、過去に報告され、特徴解析されている染色体構造バリアントである。当分野における染色体構造バリアントの報告には、例えば核型分析法、シーケンシングまたはサザンブロッティングなど、当分野で公知の技術を使用して、染色体構造バリアントの一つ以上の切断点をマッピングすることが含まれる。染色体構造バリアントが、疾患または障害を引き起こすことが知られているこれらの実施形態では、公知の染色体構造バリアントの報告には、例えば対象の症状、予後および推奨される治療過程などの臨床データが含まれる。
一部の実施形態では、本開示の方法およびシステムによって特定される染色体構造バリアントは、新規の染色体バリアントである。新規の染色体構造バリアントは、当分野で過去に報告されていないバリアントである。新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントと類似する場合もある。例えば、染色体構造バリアントは、類似したバリアントが複数の個体にわたって独立して発生するという点で、再発性であってもよく、または再発性バリアントを有する各個体が、わずかに異なる切断点を有するバリアントを含むという点で、新規であってもよい。一部の実施形態では、新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントの切断点と似た配置をされる一つ以上の切断点を有する。似た配置をされる切断点は、当分野に公知の染色体構造バリアントの切断点の50bp以内、100bp以内、500bp以内、1kb以内、5kb以内、10kb以内、20kb以内、50kb以内、100kb以内、200kb以内、または500kb以内、または1MB以内の切断点を含む。一部の実施形態では、新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントの切断点と同一である一つ以上の切断点、および当分野で公知の染色体構造バリアントの切断点と同一ではない一つ以上の切断点を有する。一部の実施形態では、新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントと類似の切断点または同一の切断点を有さない。
染色体構造バリアントの提示
本開示は、対象において一つ以上の染色体構造バリアントを検出し、当業者(例えば、臨床医、医師、患者または研究者)によって容易に解釈されうる様式で、当該染色体構造バリアントを表すためのシステムおよび方法を提供する。
一部の実施形態では、染色体構造バリアントは、核型として表される。核型分析は、染色体構造バリアントを特定するために使用される従来的な方法である。核型分析では、細胞の発生は中期の間に停止され、結合した染色分体が抽出され、染色されて写真撮影される。染色分体の構造特性は、染色体の細胞遺伝学的バンドパターンを使用してマッピングされる。核型分析は高価で時間がかかり、分解能も限定的である。従来的な核型分析は、核型分析内の細胞遺伝学的バンドおよびサブバンドに依存して染色体構造バリアントの境界をマッピングしている。そのため、核型分析の細胞遺伝学的バンドよりも微細(小さい)染色体構造バリアントを分解することができず、典型的には、最小分解能は約5Mbである。対照的に、本開示のシステムおよび方法は、従来的な核型分析よりも少なくとも1,000微細な分解能を実現することができる。
従来的な核型分析の結果は、核型分析のスプレッドとして表されることができ、核型分析で解析され、染色されて、細胞遺伝学的バンドを特定し、順序付けられたペアで配置されたすべての染色体の画像である。一方で本開示の方法は、従来的な核型分析よりも優れた分解能を提供し、本開示の方法によって特定される染色体構造バリアントは、核型または核型分析のスプレッドとして表されることができる。これにより、従来的な核型分析に基づく染色体構造バリアントの特定に精通し、訓練を受けうる医師や臨床医による、本開示の染色体構造バリアントデータの解釈が容易となる。
一部の実施形態では、本開示染色体構造バリアントは、核型として表される。
臨床染色体構造バリアント
本開示は、対象中の一つ以上の染色体構造バリアントを検出し、当該一つ以上の染色体構造バリアントを、関連する生物学的情報にさらに関連付けるための方法およびシステムを提供する。関連する生物学的情報には、限定されないが、バリアントの臨床的な重要性、関連する疾患または障害、その症状、関連する遺伝子および/または遺伝子変異、遺伝子発現に対する染色体構造バリアントの影響、ならびに推奨される治療または療法過程が含まれる。
一部の実施形態では、本開示のシステムおよび方法によって特定される染色体構造バリアントは、一つ以上の疾患または障害を引き起こす。
一部の実施形態では、疾患または障害を引き起こす染色体構造バリアントは、遺伝性である。すなわち、染色体構造バリアントは、生殖細胞系列を介して親から子孫へと伝達される。すべての遺伝性染色体構造バリアントは、本開示のシステムおよび方法の範囲内である。
他の代替的な実施形態では、疾患または障害を引き起こす染色体構造バリアントは、体細胞性である。すなわち、染色体構造バリアントは、個体の細胞中で新たに発生する。体細胞性染色体構造バリアントが生じる発生中の時期に応じて、体細胞性染色体構造バリアントは、生物体中のすべての細胞に発生する可能性があり(染色体構造バリアントは、最初の細胞分裂の前に発生する)、または生物体中の細胞のサブセットに発生する可能性がある(染色体構造バリアントは、発生の後期に、または成人において生じる)。すべての細胞に発生する可能性のある障害の例としては、例えば、ターナー症候群(X染色体モノソミー)およびダウン症候群(トリソミー21)などの異数性が挙げられる。
欠失から生じるハプロ不全により生じる障害の例としては、ウィリアムズ症候群、ランガー・ギーディオン症候群、ミラー・ディカー症候群、およびディジョージ/口蓋心臓顔面症候群が挙げられる。すべての体細胞性染色体構造バリアントは、本開示のシステムおよび方法の範囲内である。
一部の実施形態では、染色体構造バリアントによって生じる疾患または障害は、対象中に新たに発生する染色体構造バリアントによって生じる。一部の実施形態では、新たに生じる染色体構造バリアントは、再発性構造バリアントである。多くの染色体構造バリアントは、同一または類似の染色体構造バリアントが複数の個体において新たに発生するという点で、再発性である。これらの個体は、必ずしも関連性があるわけではない。多くの場合、再発性染色体構造バリアントは、隣接セグメントの重複によって介在される非アレル相同組み換えによって引き起こされる。非アレル相同組み換えにおいて、例えば類似の反復DNA配列を含有するDNA配列などの非相同性のDNA配列間の不適切な交差が、タンデムまたは直接的な重複および欠失をもたらす。再発性染色体構造バリアントによって引き起こされる疾患および障害の非限定的な例としては、シャルコー・マリー・トゥース病、圧迫性麻痺に起因する遺伝性ニューロパチー、プラダー・ウィリー症候群、アンジェルマン症候群、スミス・マゲニス症候群、ディジョージ/口蓋心臓顔面症候群(DGS/VCFS)、ウィリアムズ・ボイレン症候群、およびソトス症候群が挙げられる。
染色体構造バリアントのデータベースは、当業者に公知である。例えば、染色体構造バリアント、ならびにそれらの関連する疾患および障害、ならびにこれら疾患および障害に対する治療に関する生物学的情報は、Online Mendelian Inheritance in Man (www.omim.org)、the Mitelman Database of Chromosome Aberration and Gene Fusion in Cancer (cgap.nci.nih.gov/Chromosomes/Mitelman)、およびthe NCBI database (www.ncbi.nlm.nih.gov/clinvar?term=300005[MIM])に見出すことができる。
染色体構造バリアントならびに関連する疾患および障害は、国立衛生研究所の遺伝性希少疾患情報センター(rarediseases.info.nih.gov/diseases/diseases-by-category/36/chromosome-disorders)にも記載されている。
一部の実施形態では、染色体構造バリアントは、対象の組織中のすべての細胞には発生しない。一部の実施形態では、染色体構造バリアントを伴う細胞は、対象の癌細胞である。癌を有する対象は、一つ以上の染色体構造バリアントを伴う癌細胞を有することがあり、一方で対象の非癌性細胞は、染色体構造バリアントを有さず、または対象の癌細胞に見られる染色体構造バリアントと同じ染色体構造バリアントを有さない。
癌は、例えば、腫瘍、新生物、癌腫、肉腫、芽腫、白血病、リンパ腫などの悪性新生細胞の増殖によって引き起こされる疾患である。例えば、癌としては限定されないが、中皮腫、例えば皮膚T細胞リンパ腫(CTCL)、非皮膚末梢T細胞リンパ腫、成人T細胞白血病/リンパ腫(ATLL)などのヒトT細胞白血球ウイルス(HTLV)に関連するリンパ腫、B細胞リンパ腫、急性非リンパ性白血病、慢性リンパ性白血病、慢性骨髄性白血病、急性骨髄性白血病、リンパ腫、および多発性骨髄腫、非ホジキンリンパ腫、急性リンパ性白血病(ALL)、慢性リンパ性白血病(CLL)、ホジキンリンパ腫、バーキットリンパ腫、成人T細胞白血病リンパ腫、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)などの白血病およびリンパ腫、または肝細胞癌が挙げられる。さらなる例としては、骨髄異形成症候群、例えば脳腫瘍などの小児固形腫瘍、神経芽腫、網膜芽細胞腫、ウィルムス腫瘍、骨腫瘍および軟部組織肉腫、例えば頭頸部癌(例えば、口腔、喉頭、鼻咽頭および食道)などの成人の普遍的な固形腫瘍、尿生殖器癌(例えば、前立腺、膀胱、腎臓、子宮、卵巣、精巣)、肺癌(例えば、小細胞および非小細胞)、乳癌、膵臓癌、メラノーマおよび他の皮膚癌、胃癌、脳腫瘍、ゴーリン症候群に関連する腫瘍(例えば、髄芽細胞腫、髄膜腫)、および肝癌が挙げられる。
ほとんどの癌は、癌の発生中に、本開示のシステムおよび方法により特定されうる一つ以上のクローン性の染色体構造バリアントを獲得する。多くの場合、再発性染色体構造バリアントは、特定の形態学的特徴および臨床的な疾患特性と関連している。癌細胞中の構造バリアントは、癌原遺伝子および腫瘍抑制因子の発現および/または機能に影響を及ぼす可能性がある。染色体構造バリアントにより生じる遺伝子発現の変異および変化が、腫瘍細胞の増殖と浸潤の増加、および腫瘍血管新生を促進するために、癌細胞中の構造バリアントは、癌細胞それ自体の進行を促進することもできる。癌試料の癌細胞中の特定の染色体構造バリアントを特定することにより、より効果的な癌治療選択が可能となる。これらの治療法は、癌細胞中の特定の染色体構造バリアントに関連する遺伝子発現の変化および癌病理に合わせて調整することができる。したがって、癌中の染色体構造バリアントの迅速および効果的な特定は、癌の診断および治療手段の重要な部分である。
一部の実施形態では、癌細胞中の構造バリアントは、癌の進行を促進する新規の融合タンパク質を生成する。癌に関連する融合タンパク質を生じさせる染色体構造バリアントの非限定的な例のリストは、Hasty, P. and Montagna, C. (2014) Mol. Cell. Oncol.: e29904に記載がある。現在、Cancer Genome Anatomy Project (cgap.nci.nih.gov/Chromosomes/Mitelman)において、21,477件の遺伝子融合が記録され、69,134件の症例が記録されている。それらすべてが、本開示の範囲内にあると予期される。
一部の実施形態では、癌細胞中の染色体構造バリアントは、遺伝子制御および遺伝子発現における変化をもたらし、このことが癌の進行の原因となる。染色体構造バリアントは、癌から細胞を保護する遺伝子である、一つ以上の腫瘍抑制因子の下方制御をもたらす場合もある。例えば、腫瘍抑制因子の近くに切断点を有する染色体構造バリアントは、制御因子から、腫瘍抑制因子のコード配列を離してしまう場合がある。あるいは、またはさらに、染色体構造バリアントは、一つ以上の癌原遺伝子を、癌進行を促進する癌遺伝子へと転換させる場合もある。例えば、癌原遺伝子の近くに切断点を有する染色体構造バリアントは、当該癌原遺伝子を新たな制御因子の近傍へと移動させ、これにより発現の上方制御がもたらされうる。本開示の染色体構造バリアントによって下方制御されうる例示的な腫瘍抑制因子としては、限定されないが、p53、Rb、PTEN、INK4、APC、MADR2、BRCA1、BRCA2、WT1、DPC4およびp21が挙げられる。本開示の染色体構造バリアントによって上方制御されうる例示的な癌遺伝子としては、限定されないが、Abl1、HER-2、c-KIT、EGFR、VEGF、B-Raf、サイクリンD1、K-ras、ベータ-カテニン、サイクリンE、Ras、MycおよびMITFが挙げられる。癌原遺伝子と腫瘍抑制因子に影響を及ぼすすべての染色体構造要素が、本開示のシステムおよび方法の範囲内として予期される。
染色体立体構造捕捉
本明細書において、染色体立体構造捕捉技術を使用して、対象中の一つ以上の染色体構造バリアントを特定するシステムおよび方法が提供される。
「染色体立体構造捕捉」および「染色体立体構造分析」という用語は、本明細書において相互互換的に使用される。
本開示の方法は、組織試料(例えば、癌性もしくは正常な組織または細胞)または保存された組織試料(例えば、FFPE試料)から作成された例えばHi-Cデータなどの標準的なクロマチン立体構造データを使用しうる。計算方法は、一つ以上の分類器の訓練を含み、複数の主要な用途で使用することができる。一連の選択される分類器には、ディープラーニングモデル、傾斜降下モデル、グラフネットワークモデル、ニューラルネットワークモデル、サポートベクターマシンモデル、エキスパートシステムモデル、決定木モデル、ロジスティック回帰モデル、クラスタリングモデル、マルコフモデル、モンテカルロモデル、または他の機械学習モデル、ならびに例えば尤度モデルなど、観測されたデータを確率的モデルに適合するモデルが含まれうる。一連の分類器は、ラベルされたデータまたはラベルされていないデータにより訓練することができ、これは実際の生体試料から生成することができ、シミュレーションされた変異を有しうるゲノムをシミュレーションすることができ、または敵対的生成ネットワークで使用されるアルゴリズムなどの別のアルゴリズムにより生成することができる。訓練データは、クロマチン立体構造データ、またはそれに由来するデータ(例えば、コンタクトマトリクスであり、および正規化、フィルタリング、圧縮、または平滑化されてもよい)を含み、ならびに当該データに関連する効果、特性、影響、または転帰に関する臨床情報または生物学的情報から成る。
本開示のシステムおよび方法の一部の実施形態では、染色体立体構造捕捉データを使用して訓練される、一つ以上の分類器を使用する。一部の実施形態では、一つ以上の分類器は、実験的に決定された染色体立体構造捕捉データを使用して訓練される。一部の実施形態では、一つ以上の分類器は、シミュレーションされた染色体立体構造捕捉データを使用して訓練される。一部の実施形態では、一つ以上の分類器は、実験的に決定された染色体立体構造捕捉データ、およびシミュレーションされた染色体立体構造捕捉データの組み合わせを使用して訓練される。
一部の実施形態では、一つ以上の機械学習分類器を訓練するために使用される染色体立体構造捕捉データは、実験的に決定された染色体立体構造捕捉データを含む。一部の実施形態では、実験的に決定された染色体立体構造捕捉データは、健康な対象からの複数のリードセットを含む。一部の実施形態では、実験的に決定された染色体立体構造捕捉データは、公知の染色体構造バリアントを有する対象からの複数のリードセットを含む。
染色体立体構造データは、ほぼ空間的近接にあるゲノム領域を化学的に架橋することにより生成される。一実施形態では、染色体立体構造捕捉または近接ライゲーションのための架橋は、組織学検査用の固形組織のホルマリン固定中に生成されるものと本質的に同一であり、それによって、Hi-CはFFPE組織との適合性がある。その後、架橋したクロマチンを断片化することができる。断片を一緒にライゲーションして、例えば、CHIP分析、PCR分析、またはシーケンシング(例えば、Illuminaペアエンドケミストリー)など、当分野で公知の任意の配列検出方法を使用して検出することができるキメラ配列を作製することができる。これらのキメラDNA分子を配列決定することで、長距離クロマチン相互作用(プロモーター-エンハンサー相互作用など)のシグナルを捕捉することができる。近接ライゲーションのシーケンシングにおけるシグナルは、染色体上の2つの配列間の直線距離を反映することもできる。
一実施形態では、FFPE組織試料を使用する本明細書に提供される方法およびシステムは、染色体立体構造捕捉のためのFFPE試料の調製中に実施される架橋を使用する。次いで、架橋された核酸(例えば、DNA)を断片化し、ライゲーションして、後続の配列検出のためにクロマチン/核酸(例えば、DNA)複合体を生成することができる。一実施形態では、架橋された核酸(例えば、DNA)を、制限酵素消化し、ライゲーションして、ハイスループットシーケンシングによって同定されるクロマチン/核酸(例えば、DNA)複合体を生成する。一実施形態では、染色体立体構造捕捉中に架橋核酸(例えば、DNA)を消化するために使用される制限酵素は、DpnIIである。得られる検出された配列(例えば、シーケンスリード)は、参照ゲノムなどのゲノムに対してマッピングされ、初期試料を生成するために使用された細胞集団内で各相互作用が発生する頻度が決定される。二つの座位が、ほぼ空間的近接にある場合、当該二つの座位がほぼ空間的近接にない場合よりも、両方の座位をマッピングするDNA配列を含むより多くのリードを生成することができる。
実験的に決定された染色体立体構造捕捉データは、本明細書に記載の方法を実施するためにシステムによって使用される入力ファイルの一部を形成しうる。リードセットは、クロマチン相互作用技術または染色体立体構造分析技術に基づく任意の適切な方法によって生成されうる。本明細書に記載される実施形態に従い使用されうる染色体立体構造分析技術としては限定されないが、 クロマチン立体構造捕捉(3C:Chromatin Conformation Capture)、環状化クロマチン立体構造捕捉(4C:Circularized Chromatin Conformation Capture)、炭素コピー染色体立体構造捕捉(5C:Carbon Copy Chromosome Conformation Capture)、クロマチン免疫沈降(ChIP:Chromatin Immunoprecipitation、例えば、架橋ChIP(XChIP)、ネイティブChIP(NChIP)、ChIP-Loop、ゲノム立体構造捕捉(GCC:genome conformation capture)(例えば、Hi-C、6C)、Capture-C、Split-プールバーコード化(SPLiT-seq)、核ライゲーションアッセイ(NLA)、単一細胞Hi-C(scHi-C)、コンビナトリアル単一細胞Hi-C、コンカタマーライゲーションアッセイ(COLA:Concatamer Ligation Assay)、Cleavage Under Targets and Release Using Nuclease(CUT & RUN)、インビトロ近接ライゲーション(例えば、Chicago(登録商標))、原位置(in situ)近接ライゲーション(原位置Hi-C)、近接ライゲーションと、それに続くオックスフォードナノポアマシーン(Oxford Nanopore machine)でのシーケンシング(Pore-C)、パシフィックバイオサイエンスマシーン(Pacific Biosciences machine)でシーケンシングされる近接ライゲーション(SMRT-C)、DNase Hi-C、Micro-CまたはHybrid Capture Hi-Cが挙げられる。一部の実施形態では、データセットは、例えばHi-Cなどのゲノム規模でのクロマチン相互作用法を使用して生成される。
一部の実施形態では、染色体立体構造データは、細胞集団から生成されることができる。一部の実施形態では、染色体立体構造捕捉データは、クロマチン立体構造捕捉(3C)により生成される。3Cを使用して、3-D空間中で近傍にあるゲノム座位間の相互作用を定量化することにより、細胞中のクロマチンの構成が分析される。3Cは、一つのペアのゲノム座位の間の相互作用を定量化する。一部の実施形態では、染色体立体構造捕捉データは、環状化クロマチン立体構造捕捉(4C)により生成される。4Cは、一つの座位と他のすべてのゲノム座位との間の相互作用を捕捉する。一部の実施形態では、染色体立体構造捕捉データは、炭素コピー染色体立体構造捕捉(5C)により生成される。5Cは、所与の領域内のすべての制限酵素断片の間の相互作用を検出する。一部の実施形態では、領域は、1メガ塩基以下である。一部の実施形態では、染色体立体構造捕捉データは、クロマチン免疫沈降(ChIP;例えば、架橋ChIP(XChIP)、ネイティブChIP(NChIP))により生成される。一部の実施形態では、染色体立体構造捕捉データは、ChIP-Loopにより生成される。一部の実施形態では、クロマチン免疫沈降を基にした方法は、クロマチン免疫沈降(ChIP)を基にした富化と、クロマチン近接ライゲーションを組み込んで、長い範囲のクロマチン相互作用を決定する。一部の実施形態では、染色体立体構造捕捉データは、Hi-Cにより生成される。Hi-Cは、ハイスループットシーケンシングを使用して、すべての相互作用のある座位のペアにおいて、両方のパートナーにマッピングされる断片のヌクレオチド配列を見出す。一部の実施形態では、染色体立体構造捕捉データは、Capture-Cにより生成される。Capture-Cは、活性プロモーターおよび不活性プロモーターを含む、ゲノム規模での長距離コンタクトについて選択および富化する。一部の実施形態では、染色体立体構造捕捉データは、SPLiT-seqにより生成される。SPLiT-seqは、単一細胞のトランスクリプトームのプロファイリングに使用されうる技術である。一部の実施形態では、染色体立体構造捕捉データは、核ライゲーションアッセイ(NLA)により生成される。3Cと同様に、NLAを使用して、近接を基にしたライゲーション後のDNAの環状化頻度を決定することができる。一部の実施形態では、染色体立体構造捕捉データは、コンカタマーライゲーションアッセイ(COLA)により生成される。COLAは、CviJI制限酵素を使用してクロマチンを消化するHi-Cを基にしたプロトコルである。一部の実施形態では、COLAを使用することで、従来のHi-Cと比較してより小さな断片が生じる。一部の実施形態では、染色体立体構造捕捉データは、Cleavage Under Targets and Release Using Nuclease(CUT & RUN)により生成される。CUT & RUNは、DNA結合部位の高分解能マッピングのために標的ヌクレアーゼ戦略を使用する。例えば、CUT & RUNは、抗体-標的クロマチンプロファイリング法を使用することができ、当該方法では、プロテインAに繋がれたヌクレアーゼが、選択抗体に結合して、隣接するDNAを切断し、抗体標的に結合されたDNAを放出する。CUT & RUNは、原位置(in situ)で実施することができる。CUT & RUNは、正確な転写因子またはヒストン修飾プロファイル、ならびに長距離のゲノム相互作用のマッピングを生成することができる。一部の実施形態では、染色体立体構造捕捉データは、DNase Hi-Cにより生成される。DNase Hi-Cは、クロマチンの断片化にDNase Iを使用しており、従来のHi-Cプロトコルの制限酵素関連の制限を克服することができる。一部の実施形態では、染色体立体構造捕捉データは、Micro-Cにより生成される。Micro-Cは、ミクロコッカスヌクレアーゼを使用し、クロマチンをモノヌクレオソームに断片化する。一部の実施形態では、染色体立体構造捕捉データは、Hybrid Capture Hi-Cにより生成される。Hybrid Capture Hi-Cは、標的ゲノム捕捉とHi-Cを組み合わせて、選択されたゲノム領域を標的化する。
一部の代替的な実施形態では、染色体立体構造捕捉データは、単一細胞から生成されることができる。例えば、染色体立体構造捕捉データは、単一細胞Hi-C(scHi-C)またはコンビナトリアル単一細胞Hi-Cを使用して作成することができる。単一細胞Hi-Cは、核内ライゲーションを含むことにより、Hi-Cを単一細胞解析に順応させたものである。コンビナトリアル単一細胞Hi-Cは、改変された単一細胞Hi-Cプロトコルであり、ユニークな細胞インデックス化を加えて、1アッセイ当たり数千個の単一細胞中のクロマチンの利用可能性を測定する。
一部の実施形態では、染色体立体構造捕捉データは、原位置、すなわち損なわれていない核において実施される、近接ライゲーションを基にしたプロトコルから作成することができる。
一部の実施形態では、染色体立体構造捕捉データは、インビトロで実施される、近接ライゲーションを基にしたプロトコルから作成することができる。インビトロを基にしたプロトコルの例としては、Dovetail Genomics社のChicago(登録商標)が挙げられ、これは開始材料として高分子量のDNAを使用する。一部の実施形態では、入力DNAは、約20~200kbpである。一部の実施形態では、入力DNAは、約50kbpである。
一実施形態では、対象から得られた保存された組織試料より単離された核酸材料からの染色体立体構造捕捉データの生成は、近接ライゲーションされたポリヌクレオチドのライブラリーを形成するために核酸材料を近接ライゲーションすることと、近接ライゲーションされたポリヌクレオチドのライブラリー内の対のポリヌクレオチド配列を同定することと、を含む。
一実施形態では、対象から得られた保存された組織試料から単離された核酸材料から染色体立体構造捕捉データの生成は、核酸材料を断片化することと、近接ライゲーションされたポリヌクレオチドのライブラリーを形成するために核酸材料を近接ライゲーションすることと、近接ライゲーションされたポリヌクレオチドのライブラリー内の対のポリヌクレオチド配列を同定することと、を含む。
同定工程は、例えば、PCR、CHIP、またはシーケンシング分析などの特定の配列を同定または検出するための当分野で既知の任意の方法を含むことができる。一実施形態では、同定工程には、染色体立体構造捕捉データを生成するために近接ライゲーションをシーケンシングすることが関与する。
染色体立体構造捕捉データは、任意のシーケンス法または当分野で公知の次世代シーケンスプラットフォームを使用して作成することができる。例えば、染色体立体構造捕捉データは、近接ライゲーションの後に、Oxford Nanopore machine (Pore-C)、Pacific Biosciences machine (SMRT-C)、Roche/454シーケンシングプラットフォーム、ABI/SOLiDプラットフォーム、またはIllumina/Solexaシーケンシングプラットフォームでのシーケンシングが行われることにより作成されてもよい。
本開示のシステムおよび方法の一部の実施形態では、染色体立体構造捕捉によって作成されたリードをゲノム上にマッピングすることをさらに含む。一部の実施形態では、リードセットは、当分野で公知の任意の適切なアライメント方法、アルゴリズム、またはソフトウェアパッケージによりゲノムとアライメントされてもよい。リードセットをアセンブリと共にアライメントするために使用されうる、適切な短リード配列アライメントソフトウェアとしては限定されないが、BarraCUDA、BBMap、BFAST、BLASTN、BLAT、Bowtie、HIVE-hexagon、BWA、BWA-PSSM、BWA-mem、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAPおよびGSNAP、GNUMAP、IDBA-UD、iSAAC、LAST、MAQ、mrFASTおよびmrsFAST、MOM、MOSAIK、Novoalign & NovoalignCS、NextGENe、NextGenMap、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SSAHA、SSAHA2、Stampy、SToRM、subread and Subjunc、Taipan、UGENE、VelociMapper、XpressAlign、ならびにZoomが挙げられる。
本開示のシステムおよび方法の一部の実施形態では、試料(例えば、保存された組織試料)が取得された対象が既知の染色体構造バリアントを有する可能性を検出または予測するために分類器を適用する前に、参照ゲノムとアライメント不良のリードをフィルタリングすることをさらに含む。分類器は、こうした可能性を予測するための当分野で公知の任意の分類器とすることができる。一実施形態では、分類器は、2019年3月28日に出願された米国特許出願第62/825,499号に記載される任意の分類器である。一部の実施形態では、方法は、訓練データセットにおいてアライメント不良のリードをフィルタリングすることを含む。一部の実施形態では、方法は、対象由来のデータにおいてアライメント不良のリードをフィルタリングで取り除くことを含む。一部の実施形態では、リードをフィルタリングすることは、染色体立体構造捕捉リードを参照ゲノム上にマッピングし、低品質のアライメントデータをフィルタリングで取り除くことを含む。例えば、リードは、BWA-memを使用して参照ゲノムにアライメントしてもよく、そしてMQ20未満の低品質アライメントデータが除外される。
機械学習分類器
したがって、本明細書では、染色体構造バリアントを有する対象を処理する方法であって、(a)対象由来の試料からのリードのテストセットを受け取ることと、(b)対象由来のリードのテストセットを参照ゲノムにアライメントすることと、(c)分類器を訓練して、健康な対象のリードセットと、公知の染色体構造バリアントに対応するリードセットを区別することと、(d)分類器を対象からのマッピングされたリードセットに適用することと、(e)対象が既知の染色体構造バリアントを有する可能性を計算することと、(f)対象の核型分析を生成することと、を含む方法を開示しており、リードのテストセット、健康な対象からのリードセット、および公知の染色体構造バリアントに対応するリードセットは、染色体立体構造分析技術により生成される。
一部の実施形態では、分類器は、深層学習モデル分類器、勾配降下モデル分類器、グラフネットワークモデル分類器、ニューラルネットワークモデル分類器、サポートベクターマシン、エクスポートシステムモデル分類器、決定ツリーモデル分類器、ロジスティック回帰モデル分類器、クラスタリングモデル分類器、マルコフモデル、モンテカルロモデル、または尤度モデル分類器から成る群から選択される。
一部の実施形態では、分類器は、尤度モデル分類器である。尤度モデル分類器は、教師付き機械学習分類器の一種である。
本開示は、尤度モデル分類器を訓練する方法を提供し、方法は、(i)健康な対象に由来する複数のリードセットを分類器へとインポートすること、(i)公知の染色体構造バリアントに対応する複数のリードセットを、分類器へとインポートすること、(iii)染色体構造バリアントのゲノム中の開始位置および終了位置を含む境界矩形、およびラベルとして、公知の染色体構造バリアントの各々を表すこと、(iv)(i)および(ii)からのリードセットをゲノム位置により分割すること、(v)(iv)からの分割されたリードセットを、幾何学的データ構造に変換すること、(vi)(i)および(ii)からのリードセットの各々について、任意の二つのゲノム位置の間の相関頻度を、負の二項分布モデルを使用してモデル化すること、および(vii)健康な対象に由来する複数のリードセットからのヌル分布を認識するように、負の二項分布モデルを訓練することであって、負の二項分布モデルが、公知の染色体構造バリアントの各々の境界矩形で、ヌル分布を認識するように訓練されること、を含む。
分類器は、ラベルされた訓練データをインポートすることにより訓練される。一部の実施形態では、訓練データは、染色体構造バリアントのゲノム中の開始および終了位置を含む境界矩形、およびラベルとして、公知の各染色体構造バリアントを表すことを含む。一部の実施形態では、訓練データは、健康な対象に由来する複数のリードセット、および公知の染色体構造バリアントに対応する複数のリードセットを含む。リードセットは、シミュレーションされてもよく、実験的に決定されてもよく、または両方の混合であってもよい。一部の実施形態では、健康な対象に由来するリードセットは、公知の各染色体構造バリアントのゲノム位置に対応するリードを含む。これにより、分類器が、公知の染色体構造バリアントのすべての位置のすべてについて、ヌル分布(CSVなし)に関する連鎖頻度の分布をモデル化することが可能となる。一部の好ましい実施形態では、訓練データは、独立であり、そして同様に分布するリードセットを含む。一部の実施形態では、インポートされる訓練データは、ゲノム位置によって分割され、例えば2-d k-dツリーまたはマトリクスなどの幾何学的データ構造へと変換される。
一部の実施形態では、対象に由来するテストデータ中の特定の確率分布が仮定され、その必要なパラメータ(例えば、確率モデル)が訓練段階中に計算される。一部の実施形態では、分類器により使用される確率モデルは、訓練データにより決定される。例示的な確率モデルとしては、ベルヌーイモデル、二項モデル、負の二項モデル、多項モデル、ガウスモデル、またはポアソン分布が挙げられる。
一部の実施形態では、確率モデルは、負の二項分布を含む。負の二項分布は、リードカウントデータの過分散を説明することができるという点で、他のモデルよりも有利である。
分類器の学習段階では、入力は訓練データであり、出力は分類器に必要とされるパラメータである。例示的なパラメータとしては、最尤推定(MLE)、ベイズ推定(最大事後確率)、または損失基準(loss criterion)の最適化が挙げられる。
訓練の後、尤度モデル分類器は、対象に由来する染色体立体構造捕捉リードのマッピングされたセットに適用される。一部の実施形態では、尤度モデル分類器の適用は、変換され、および分割された対象に由来するリードのテストセットを、各公知の染色体構造バリアントに対するヌルモデル、および代替モデルに適合させることを含む。一部の実施形態では、ヌルモデルは、公知の染色体構造バリアントを有さない対象において見られる連鎖頻度の分布である。ヌルモデルへの適合において、尤度モデル分類器は、公知の染色体構造バリアントの存在を探索するのではなく、ヌルモデルの非存在を探索することにより、公知の染色体構造バリアントを特定する。ヌルモデルは、健康な対象に存在する座位の各ペア間の連鎖頻度の分布である。一部の実施形態では、対象に由来するリードの、変換され、分割されたテストセットのヌルモデルへの適合は、ゲノム全体にわたる適合を含む。一部の代替的な実施形態では、適合は、各公知の染色体または下位染色体の構造バリアントの境界矩形に対応するゲノム部分にわたる適合を含む。
一部の実施形態では、方法は、各公知の染色体構造バリアントに関し、変換され、分割されたリードのテストセットのヌルモデルへの適合を、代替モデルと比較した尤度比を計算することを含む。尤度比検定は、ヌルモデル(CSVなし)と代替モデル(公知CSVが存在)の二つの統計モデルの適合度を比較するために使用される統計検定である。検定は二つのモデルの尤度の比率に基づいており、データが他のモデルよりも、あるモデルの下にある可能性が何倍高いかを表す。尤度もしくは対数-尤度比の計算方法、または定数係数により拡大縮小されたこれら比率の変換の方法は、当業者に公知である。一部の実施形態では、近接信号は、マトリクスにおいて表され、またはマトリクスの矩形の下位領域においては、焦点座標(x, y)の周囲で四分円にさらに細分されてもよい。一部の実施形態では、マトリクスのデータは、ビン化される。そのような実施形態では、均衡転座、不均衡転座、逆位、挿入、欠失、または他のコピー数変動を含む、様々な構造バリアントに予測される近接信号の変化を記述するための理論モデルを開発してもよい。そのような理論モデルは、ベータ、ガンマ、二項、負の二項、二峰性、多峰性、実験的に適合されたスプライン、ポアソン、ディリクレ、一様、線形、二次、多項、指数関数的、対数的、三角、べき乗則、ベイズ、もしくは他の適切な分布、またはそれらの組み合わせを使用して、理論上、同じ染色体上にあるであろう領域間、異なる染色体上にあるであろう領域間、それらの間に所与の距離もしくは距離範囲を伴い同じ染色体上にあるであろう領域間、所与の相対的配置を伴い同じ染色体上にあるであろう領域間、または互いに対し任意の他の理論上の構造的配置を有するであろう領域間で、近接信号またはその割り当てをモデル化することを含んでもよい。そのような実施形態では、理論モデルは、単一の試料中のデータに基づいて訓練されてもよく、複数試料の訓練セットに対して訓練されてもよく、またはヒトが設定した、もしくは固定されたパラメータを使用して調整されてもよい。そのような実施形態では、焦点座標上に提示され、焦点座標を中心とする所与の理論モデルの尤度は、モデルに与えられた観測データの尤度を測定することにより計算されてもよい。そのような実施形態では、一連のモデルは提示される様々なタイプの構造変動の予測される近接信号を反映しており、所与の領域において観察された近接信号に対して検証されてもよく、最尤推定傾斜降下、ネルダー・ミード法、ブロイデン・フレッチャー・ゴールドファーブ・シャンノ(BFGS:Broyden-Fletcher-Goldfarb-Shanno)法、二分探索、しらみつぶしの探索、エントロピー最小化法、または任意の他の適切な最適化法もしくは最小化法を使用して、領域は、様々な焦点座標での可能性のあるバリアントの呼び出しについてスキャンされてもよい。そのような実施形態では、複数の理論モデルを、所与の領域において複数の構造バリアントを特定する焦点の組み合わせと比較してもよく、それにより特定の焦点座標での特定の呼び出しバリアントを示す適合モデルのセットがもたらされる。そのような実施形態では、 適合モデルは、赤池情報量基準(AIC:Akaike information criterion)、ベイズ情報量基準(BIC:Bayesian information criterion)、逸脱度情報量基準(DIC:deviance information criterion)、または任意の他の適切な情報量基準尺度を使用して重み付けを行い、観察されたデータを生じさせた可能性が最も高い焦点座標の組み合わせおよび呼び出しバリアントを選択してもよく、それにより、近接信号中の自然な変動、バックグラウンド、またはノイズが制御され、偽陽性または偽陰性のバリアント呼び出しの可能性が減少する。一部の実施形態では、公知の染色体バリアントに対する尤度比が、0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002、または0.0001未満であるときに、対象は、公知の染色体構造バリアントを有すると決定される。一部の実施形態では、尤度比は、75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、または99.9%よりも高い。一部の実施形態では、尤度比は、対数尤度比として表される。
本開示は、(a)第一の分類器を訓練して、少なくとも一つの染色体構造バリアントを含む第一のコンタクトマトリクスの少なくとも一つの領域を検出することと、(b)第一の分類器によって、対象由来の第一のコンタクトマトリクスをインポートすることであって、コンタクトマトリクスは、染色体立体構造分析技術によって生成されることと、(c)第一の分類器を、第一のコンタクトマトリクスに適用して、少なくとも一つの染色体構造バリアントを含有する第一のコンタクトマトリクスの少なくとも一つの領域を検出することと、(d)第一の分類器により特定された各染色体構造バリアントを、ゲノム中の開始と終了を含む境界ボックス、およびラベルとして表現することと、(e)第二の分類器を訓練して、少なくとも一つの染色体構造バリアントを生物学的情報に関連付けることと、(f)第一の分類器により特定された少なくとも一つの染色体構造バリアントの境界ボックスとラベルを、第二の分類器へとインポートすることと、(g)第二の分類器を適用することと、を含み、それにより、対象の各染色体構造バリアント、および各染色体構造バリアントに関連付けられた生物学的情報を特定する、対象中の染色体構造バリアントを特定する方法を提供する。一部の実施形態では、方法は、工程(d)の後および工程(e)の前に、(i)第二のコンタクトマトリクスを作成することであって、第二のコンタクトマトリクスが、境界ボックスの開始および終了のゲノム位置を含み、第二のコンタクトマトリクスの分解能は、第一のコンタクトマトリクスの分解能よりも微細であることと、(ii)第一の分類器を、第二のコンタクトマトリクスに適用して、少なくとも一つの染色体構造バリアントを含有する第二のコンタクトマトリクスの少なくとも一つの領域を検出することと、(iii)少なくとも一つの染色体構造バリアントの開始ゲノム位置および終了ゲノム位置を含む第二の境界ボックス、およびラベルとして、少なくとも一つの染色体構造バリアントを表すことであって、第二の境界ボックスは、境界ボックスよりも高い分解能を含むことと、をさらに含む。
一部の実施形態では、第一の分類器は、畳み込みニューラルネットワーク(CNN)を含む。CNNは、視覚的画像を分析するために頻繁に使用されるディープニューラルネットワークの一種である。本開示のCNNは、入力コンタクトマトリクスを取り、コンタクトマトリクス中の様々な態様/物体に重要性(学習可能な重み付けおよびバイアス)を割り当て、染色体構造バリアント、ならびにバリアントのタイプおよび位置を含む、および含まないデータセットからのコンタクトマトリクスを区別することができる。CNNのアーキテクチャは、ヒト脳内のニューラルネットワークのアーキテクチャを模倣するように設計されている。一部の実施形態では、CNNは、一連のフィルタの適用によって、コンタクトマトリクスにおける関係を捕捉する。
一部の実施形態では、CNNは、シミュレーション試料および生体試料から作成されたコンタクトマトリクスに対して訓練される。一部の実施形態では、CNNの訓練には、(i)CNNにより第一の訓練データセットをインポートすることであって、訓練データセットは、シミュレーション試料および生体試料から生成されたコンタクトマトリクスを含むことと、(ii)転移学習を使用して、事前訓練されたモデルをCNNに適用することと、(iii)第二の訓練データセットでCNNを再訓練することであって、第二の訓練データセットが、生体試料からのコンタクトマトリクスを含むことと、が含まれる。一部の実施形態では、第一の訓練データセットは、染色体構造バリアントを有さない対象からのコンタクトマトリクスを含むか、または同左から成る。代替的な実施形態では、第一の訓練データセットは、染色体構造バリアントを有する対象からの少なくとも一つのコンタクトマトリクスを含む。さらなる代替的な実施形態では、第一の訓練データセットは、複数の染色体構造バリアントを含むコンタクトマトリクスを含む。一部の実施形態では、第一の訓練データセットは、全ゲノムコンタクトマトリクス、およびゲノムの一部から成るコンタクトマトリクスを含む。
本明細書で使用される場合、「転移学習」とは、機械学習における処理を指し、その処理において第一のタスク用に開発されたモデルは、第二のタスク用のモデルを開発するための出発点として再利用される。転移学習を適用することにより、ニューラルネットワークを訓練するときの時間と演算能力が節約される。転移学習をCNNに適用する方法は、当業者には容易に明らかであろう。
一部の実施形態では、第二の分類器は、リカレントニューラルネットワーク、感知検出器、またはk-最近傍モデルを含み、それらすべてが当業者に公知である。
一部の実施形態では、第二の分類器は、感知検出器を含む。感知検出器は、時にはテキスト分類器とも呼ばれ、意味に基づいてテキストを分類するために訓練され、使用される機械学習分類器の一種である。感知検出器として訓練できる機械学習分類器は多数あり、これには、単純ベイズ、サポートベクターマシン、深層学習、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、および機械学習と規則ベースのシステムを組み合わせたハイブリッドシステムが含まれるが、これらに限定されない。
リカレントニューラルネットワークは、ネットワーク中のノード間の接続が、時間シーケンスに沿って方向付けられたグラフを形成する、人工ニューラルネットワークの一種である。ノード間のループにより、情報はネットワーク内に保持される。
k-最近傍モデルは、データを分類および回帰するために使用される機械学習モデルの一種である。k-最近傍モデルは、どのカテゴリーデータが属しているかを特定し、データセット内の変数間の関連性を推定することができる。一部の実施形態では、k-最近傍モデルは、訓練データセットに対して訓練される、教師付き機械学習モデルである。
一部の実施形態では、感知検出器は、公知の染色体構造変動、診断データ、臨床転帰データ、薬剤応答もしくは治療応答のデータ、または代謝データからの臨床ラベルデータを使用して訓練される。そのようなデータのソースは、当業者に容易に判明する。
治療方法
本明細書において、染色体構造バリアントにより引き起こされる疾患または障害を有する対象を治療する方法が提供される。方法は、本開示のシステムおよび方法を使用して染色体構造バリアントを特定すること、特定された染色体構造バリアントと関連生物学的情報とを関連付けること、治療過程を推奨すること、および対象に治療を施すことを含む。
染色体構造バリアントを包括的に特定し、これらのバリアントを疾患および障害および治療方法に関連付けることによって、本開示のシステムおよび方法は、臨床医および医師が、個々の対象に合わせて治療を調整することを可能にする。例えば、一部の癌に見られる染色体構造バリアントは、特定の癌治療に関する、より良い臨床転帰またはより悪い臨床転帰と関連している。一つの特定の例では、本開示の方法を使用して、ERBB2(上皮増殖因子受容体2またはHER2)のコピー数増加を伴う乳癌を特定することができ、当該癌は、推奨される治療過程の一部としてEGFR阻害剤で標的化されうる。標的化癌治療のさらなる実施例を、表1に示す。
Figure 2023502944000002
疾患または障害をもたらす染色体構造バリアントはすべて、障害の範囲内であると予期される。
推奨される治療レジメンと共に、疾患または障害をもたらす染色体構造バリアントはすべて、障害の範囲内であると予期される。
[実施例1]適応型集束音響技術(AFA:Adaptive Focused Acoustics)による超音波処理を使用してFFPEから核酸を抽出し、Hi-Cを介してシーケンシングのために単離した核酸を調製する方法
microTUBEアダプターを使用して、Covaris(登録商標)M220集束超音波装置上で、ホルマリン固定パラフィン包埋(FFPE)試料の解離を行った。FFPE組織切片を、130μLのスクリューキャップmicroTUBE(Covaris製品番号500339)中で、最終濃度60ng/μLでの0.1%ドデシル硫酸ナトリウム(SDS)およびプロテイナーゼKを含む1x Tris緩衝生理食塩水(TBS)の溶液中で懸濁した。溶液をボルテックスして混合し、37℃で10分間、短いボルテックスで5分間インキュベートした。microTUBEを、時間:5分、負荷時間率:20%、ピークインシデント:75W、200サイクル/バースト、18~20℃の設定を使用して、Adaptive Focused Acoustics(AFA)による超音波処理に供した。
組織試料と共に溶液をプラスチックマイクロチューブに移し、98℃に10分間加熱して、プロテイナーゼKを不活化した。溶液をmicoTUBEに戻し、次いで、10分、負荷時間率:15%、ピークインシデント:75W、200サイクル/バースト、4~7℃の設定を用いてAFA超音波処理を行った。
核酸材料を回収するために、溶液をマイクロチューブに移し、5,000×gで5分間遠心分離した。上清を新しい管に移し、QUBIT蛍光定量法を使用して核酸収率を定量した。
Hi-Cライブラリーを調製した。まず、核酸材料をSPRIビーズに結合し、1X CRB(1X TBS + 1mM EDTA)で2回洗浄した。後続の工程を、ビーズ結合核酸に対して行った。核酸材料を、37℃で1時間、DpnII制限エンドヌクレアーゼで処理し、その後、ビオチンdATPの存在下でT4ポリメラーゼでビオチン化することによって断片化した。反応を、pH8で、500mMのEDTAで停止した。T4リガーゼを使用して25℃で4時間、その後に65℃で加熱不活性化して、鈍化核酸断片の近接ライゲーションを行った。
20ng/mLでの5μLのプロテイナーゼKを100μL試料(約1ng/mLの最終濃度)に加え、溶液を65℃で少なくとも1時間インキュベートした。ビーズ結合ライブラリーを、20%のPEG-8000、2.5MのNaClで洗浄し、10mMのTris、pH8.0、0.1mMのEDTAを使用してビーズから溶出した。
結果得られたビオチン化かつ近接ライゲーションされたライブラリーをストレプトアビジンビーズに結合し、これを1X NTB(5mM Tris-HCl、pH8.0、0.5mM EDTA、1M NaCl)で2回洗浄し、2X NTB(10mM Tris-HCl、pH8.0、1mM EDTA、2M NaCl)中に再懸濁し、ブロッキング溶液でインキュベートした。ビーズを1X NTB +0.5% Tween(登録商標) 20で2回洗浄し、次いで1X NTBで1回洗浄し、脱イオン水に再懸濁した。
Nexteraタグ付けを使用して、ライブラリーを配列決定した。タグ付けは、本質的に、製造指示書に従って行われた。次いで、ライブラリーを、Best 3.0ポリメラーゼおよびIlluminaインデックスプライマーを使用して増幅し、SPRIビーズで精製し、ハイスループットシーケンシングに供した。
[実施例2]近接ライゲーションでのシーケンシングによる次世代細胞ゲノム学の実証
Hi-Cは、ゲノム配列の足場を形成し、DNA配列のセグメントを完全に組み立てられた染色体に順序付けし配向する上で貴重なツールである。方法は、無傷な核内でクロマチンをその天然状態で架橋することによって開始する(図1A)。ホルマリン固定中に形成された架橋は、FFPE組織の使用を可能にするHi-C法で使用される架橋と同一である。架橋されたクロマチンが断片化され、断片をライゲーションして、Illuminaペアエンドケミストリーを使用してシーケンシングできるキメラ配列が作製される。これらのキメラDNA分子をシーケンシングすることは、超長距離クロマチン相互作用(プロモーター-エンハンサー相互作用など)のシグナルを捕捉するが、近接ライゲーションによるシーケンシングにおけるシグナルの圧倒的多数は、染色体上の2つの配列間の直線距離を反映している(図1B)。これは、ヒトゲノムにHi-C法が実施され、リードペアのマッピング座標がヒートマップとしてプロットされる場合に容易に観察される(図1C)。正常なヒトゲノムの場合、配列のペアは対角線に沿ってマッピングされ、染色体の直線長さに沿ってマッピングされたHi-Cリードペアを反映する。Hi-Cが染色体異常を含む試料に対して実施される時、対角線に沿ったHi-Cリードペアのこの厳密な順序付けは、ヒト参照ゲノムと比較して中断される。これは、第4染色体と第11染色体の間の転座を示す癌細胞株のケースで可視化される(MV 4、11、図1Dおよび1E)。
固形腫瘍における染色体異常の照射:固形腫瘍生物学における染色体異常は、歴史的に決定が困難であった。核型分析法は極めて困難であり、多くの場合、大半の固形腫瘍への適用は不可能である。全ゲノムシーケンシング(WGS)調査法もまた、いくつかの理由から、染色体異常を検出する上での実用的な価値が限定的である。(1)WGSは、再配列のジャンクションに相当なカバレッジがなければならないため、高い信頼度で異常を検出するためには高カバレッジ(30~60倍)を必要とする。(2)ショートリードシーケンシングは、再配列を頻繁に媒介するゲノムの反復領域の長さに及ぶには不十分であるため、再配列の同定は不可能となる。(3)多くの場合にゲノムの反復領域に及ぶことができるロングリードWGSは、マッピングの限界を克服し、切断点を特定するのに成功したが、高分子量DNAを必要とし、これは抽出が難しく、FFPE組織では回収が不可能である。Hi-C法はこれら三つの制限のすべてを克服することができ、ローパスシーケンシング(1~5倍)のみを必要とし、反復配列の切断点に対して近位であり、FFPE組織と適合性がある数百ものリードを配列決定することによって、ゲノムの反復領域の切断点を特定する。
HiC_QCを使用したオープンソースライブラリー評価:ライブラリー品質の評価を支援するために、実施例1に記載される方法を使用して生成されたFFPE Hi-Cライブラリーからの小さなリード試料からのライブラリーの性能を定義する基準を確立した。Hi-Cライブラリーからの0.5~1Mの配列のリードペアを使用して、オープンソース分析ツールHiC_QCによるライブラリー品質を判定した。評価された主要なパラメータ:同じ鎖の高品質リードペア:これは、リードが、互いに対する配列の配向を変化させる近接ライゲーションイベントの結果であったことを示した。この値を2倍にすると、ライブラリー内に存在するHi-Cジャンクションの合計割合の推定値が得られた。(5%の最小値が許容範囲内であることが判明した)。高品質リードペアが>10kbの割合:Hi-Cライブラリーの成功は、長距離コンタクト情報を含むリードの割合に依存する。この統計量は、参照ゲノムで>10kbの間隔でマッピングする高品質のリードペアの割合を測定した。(2.5%の最小値が許容値であることが判明した)。重複リード: これは、ライブラリー内に存在するPCR重複断片率を測定し、飽和モデルを適合させて、100Mのリードペアでの重複率を外挿する。これは、ライブラリーの複雑さを測定する重要な尺度である。(40%の最大値が許容値であることが判明した)。これらの指標を使用した場合、本開示全体にわたり提供されたFFPE Hi-C方法がKBS出願の要件を満たすのに十分であることが判明した(図2を参照)。
臨床試料からのHi-Cライブラリー:臨床試料のHi-Cが細胞ゲノム検査に必要な品質閾値を満たすことができるかを判定するために、HiNTによりコピー数多型を同定するために、「既製の」学術ソフトウェアを使用し、染色体異常の切断点を同定するためにhic_breakfinderを使用した。絶対的標準として過去に十分特徴付けられた試料に依拠したところ、Hi-Cは、19つの既知の異常において2つの偽陰性の判定を生むことが実証された(図3A~3D)。重要なことに、偽陰性は低存在量(約20%)の異常であり、現時点では検出のためにhic_breakfinderが最適化されていない異常(環染色体)を含んでいた。これらの値は、小さな試料サイズにもかかわらず、既存のソフトウェアにより大半の細胞ゲノム検査について設定された基準を満たし、最適化は行われていない。以下で論じるバリアント検出の進歩は、偽陽性率および偽陰性率をさらに減少させ、KBSの感度および特異性を相互に増加させうる。
設計および方法
設計:Intermountain Precision Genomics社およびPhase Genomics社の広範な経験を用いて、近接ライゲーションの細胞ゲノム検査への適用を評価するベンチマーキング研究が実施される。ベンチマーキング研究では、実用的なバイオマーカーがあまり存在しない癌のクラスであるトリプルネガティブ乳癌コホートに対するHi-C近接ライゲーションによるシーケンシングの適用性を試験する。トリプルネガティブ乳癌(TNBC)試料は、Intermountain Biorepositoryを通して取得される。研究には2つの関連する目的がある。第一に、有用な染色体構造情報を得る目的で臨床コホート内で使用される広範な組織試料収集方法が十分に保存されているかどうかが決定される。200個のHi-Cライブラリーが、実施例1に記載される方法を使用してIntermountain Biorepository試料から生成され、前記Hi-CライブラリーはIntermountain Precision Genomics社によってシーケンシングされる。得られるデータは、十分性を判定するためにこの実施例で記載した基準を使用して、HiC_QCソフトウェアを使用して分析される。研究の第二の段階は、TNBC試料中に存在する染色体異常の範囲を決定するために、Hi-Cシーケンシングデータを使用することである。この実施例の予備データセクションでは、「既製の」ソフトウェアソリューションからの結果について説明する。試料は、TNBCで観察された異常のクラスおよび切断点を定義するために、Phase Genomics, Inc.社独自の人工知能プラットフォームを使用して分析される。この限定的な研究の範囲内において、転帰は観察された異常のクラスと関連付けられる。
パート1:KBSの性能を「現実世界の」FFPE試料でベンチマーク化する。
方法:試料の選択基準は、生存しておらず匿名化される個人について、Intermountain Biorepositoryから特定されるTNBC外科的切除試料である。当社は、該当する場合には、全ゲノムシーケンシングについての適切なIRB承認適用除外が行われるようにIntermountain Biorepository社と協力する。
すべてのFFPE試料はその天然状態で架橋され、核内で極めて近接するクロマチン間に共有結合を生じる(図4)。二つの5μm FFPEカールからのクロマチンは、集束音響エネルギー(AFA超音波処理)を使用して、せん断することなく遊離され、Hi-Cのために調製される。遊離したクロマチンは、制限酵素消化によってDNA断片化のために処理される。制限消化によって作製されたオーバーハング配列は、ビオチン化ヌクレオチドで充填され、一緒にライゲーションされてキメラDNA分子を形成する。ストレプトアビジンビーズは、ライゲーションジャンクションを含む配列を精製するために使用され、Illuminaとの適合性があるシーケンシングライブラリーを作製するためのテンプレートとして使用される。予備データに基づき、わずか30Mリードペアが構造バリアント(SV)の判定目的に十分であると推定される。しかしながら、正常細胞と癌細胞の混合集団における複合体の再配列を検出するためにシーケンシングの量を増加させる必要があることが予期される。これらの閾値を実験的に決定するために、全ゲノムカバレッジの10倍深度までシーケンシングを行い、シーケンシングデータをダウンサンプリングしてカバレッジ要件を理解する。
結果の解釈:シーケンシングデータは、オープンソース分析ソフトウェアHiC_QCを使用して解析される。「予備データ」セクションで説明したように、HiC_QCは、ライブラリー品質にとって有益と特定された様々なライブラリー統計を評価する。上記で強調したように、同じ鎖の長距離(>10kbp)の相互作用、およびPCR/光学的重複にマッピングされるリードペアの割合は、他の尺度の中でも特に、FFPE試料からのクロマチン抽出について記載された方法が、構造変動および染色体異常の評価にあたりどの程度効果があるかを決定するために使用される。
パート2:KBSの「現実世界の」FFPE組織切片の染色体異常を検出する能力を定義する。
方法:(a)Hi-Cデータをヒト参照ゲノムにマッピングして、コンタクト頻度マトリクスを生成し、(b)訓練された畳み込みニューラルネット(CNN)ならびに健康なゲノム構造の背景モデルを使用して、コンタクト頻度マトリクスを分析して、試料中のコピー数多型(CNV)を含む可能性のあるSVの位置およびタイプを特定し、(c)検出されたバリアントを、既知の臨床情報と相互参照して、従来の細胞遺伝学的方法により生成されたものと類似したレポートを提供する、ソフトウェアパイプラインが開発されている。このパイプラインは、Phase Genomics社の既存のクラウドベースプラットフォームに統合され、Phase Genomics社のウェブサイトからの試料のアップロードと分析が可能である。
CNNモデル設計:予備結果に基づき、Hi-Cマトリクス中の構造バリアントの検出に好適な開始点を提供するresnet-50およびRetinaNetという二つの共通CNNアーキテクチャが見出された。修正されたresnet-50ネットワーク中のシミュレーションされた小さなHi-Cデータセットを使用したところ、試料中の不均衡転座の存在の検出において、96.5%の精度が達成され、損失は3.29%であった。当該転座の境界ボックスは、59.5%の精度および3.58%の損失で特定された。RetinaNetで同じデータをテストしたところ、1Mbpを超える位置シミュレーション事象の検出に対し、95%を超える平均精度が達成され、これはより一般的なresnet-50ネットワークよりも顕著な改善であった。これらの結果は、少量のシミュレーションデータおよび比較的平凡なCNNを使用したのみであるにもかかわらず、少なくとも核型分析に匹敵する性能が、この方法で達成可能であることを実証する。追加の訓練データ、CNNモデルのカスタム化(yolo-v3で示されるような他のネットワークアプローチの試験を含む)、および最適なハイパーパラメータの特定により、核型分析に基づく方法で達成できる最良の結果を超えるものではなくとも、少なくともそれと同等の性能特性を持つモデルを開発できることが予想される。CNNを用いて事象を特定することの本質に起因して、CNNによって行われる各呼び出しに対するバリアントクラスのラベルおよび信頼スコアを生成し、これを使用して事象を分類し、低信頼度の事象をフィルタリングして感度および特異性を改善することができる。この計算パイプラインを使用して、提案書のAim1でシーケンシングされた200個の試料内に存在するゲノム再配列の構造を推測する。
結果の解釈:限られた過去の研究に基づき、Intermountain Biorepositoryから得られたコホート内で少なくとも6つの反復的な均衡転座が観察されることが予想される。WGSを使用した乳腺癌についての過去の研究で観察された構造バリアント率が非常に高い(腫瘍当たり>300)ことは、多数の他の不均衡な再配列が観察されることを示唆する。これらのイベントのかなりの割合は、無秩序な染色体粉砕イベントの結果であり、「単純な」欠失、挿入、逆位、または転座を反映していない可能性が高い。WGSとは異なり、Hi-Cによって回収される長距離配列情報は、これらの複雑なイベントの畳み込みを解くことができ、高い割合での段階的イベントを生む。これは、FFPE組織についての既存の技術で解決できるよりも、イベントについて完成度の高い核型分析を生むことになる。得られた染色体異常のカタログは、患者転帰における潜在的な層別化を特定するために、探索的データ解析で使用される。
[実施例3]保存された組織試料からHi-Cライブラリーを生成する方法の比較
本実施例の目的は、化学ベースのFFPE核酸抽出手順または適応型集束音響技術(AFA)に基づくFFPE核酸抽出手順のいずれかを使用して、ホルマリン固定、パラフィン包埋(FFPE)組織試料から単離された核酸に対してHi-Cを使用して生成されたHi-Cライブラリーの品質を決定し比較することである。本実施例で使用されるAFAに基づくFFPE抽出手順は、Hi-C実施前に核酸をせん断することを必要としない。
化学ベースのFFPE核酸抽出手順を使用したHi-Cライブラリーの生成は、WO2017197300号に記載されるように実施され、これは参照により本明細書に組み込まれる。AFAに基づくFFPE核酸抽出手順を使用したHi-Cライブラリーの生成は、本明細書に提示される実施例1に記載の方法を使用して実施される。
本実施例に記載するFFPE核酸抽出方法のいずれかを使用してFFPEから抽出された核酸を使用したHi-Cライブラリーの生成後、Hi-Cライブラリーは、上記実施例1に記載されるようにIllumina NGSシーケンシング方法を使用してシーケンシングされる。
FFPE抽出方法の各々についてHi-Cライブラリー品質を評価するために、二つの重要な特徴(すなわち、(1)ライブラリーの複雑さおよび(2)長距離情報)が評価される。ライブラリーの複雑さは、一意的である各Hi-CライブラリーのNGSシーケンシングからのリードの割合、または逆に重複リードの数を決定することによって、直接測定される。重複リードは、典型的には複雑さがより低いライブラリーによるPCR増幅の結果として生じ、より高い重複率をもたらす。重複リードは、次世代シーケンシングコミュニティが広く使用するオープンソースユーティリティであるSAMBlasterを使用して、ライブラリー品質管理プロセス中に測定される。ライブラリーが複雑であるほど、より有用な情報が存在する可能性がある。
長距離情報は、Hi-Cリードペアがマッピングされる染色体の長さに沿った距離を指しうる。全距離にわたるHi-Cリードペアは有用でありうるが、より遠いコンタクト(すなわち10kbp超)は、染色体立体構造のダイナミクスにより、一般的でなく、より短い範囲のコンタクトである。長距離Hi-Cリードペアの存在は、染色体の構造を決定するためのHi-C計算解析能力を改善するのに役立つ可能性があり、この実施例で記載するFFPE抽出方法のいずれかから単離された核酸から生成されたHi-Cライブラリーについて確認される。Hi-Cライブラリーにおける長距離情報の減少は、典型的には、試料品質が低いこと、またはライブラリー調製法に問題があることに起因する可能性がある。
[実施例4]Hi-Cライブラリーを臨床用FFPE試料から調製・分析する上での適応型集束音響技術(AFA)による超音波処理の有用性の実証。
この実施例の目的は、臨床用にホルマリン固定パラフィン包埋(FFPE)された乳房組織試料および卵巣組織試料から核酸を抽出し、そこからHi-Cライブラリーを生成し、Hi-Cライブラリーを分析して非相互転座の存在を特定するためのAFAによる超音波処理の有用性を実証することであった。この実施例で使用されるAFAに基づくFFPE抽出手順は、実施例1で概説したAFA超音波処理による核酸抽出と類似していたが、追加の解離工程を用いるという点で異なる。さらに、この方法で使用される乳房および卵巣の臨床試料から生成されたHi-Cライブラリーにおける非相互転座の存在は、実施例1に記載されるようにHi-Cライブラリーから取得された次世代シーケンシングデータ(すなわち、Illuminaシーケンシング)に対して実施例2に記載する分析方法(例えば、パート2-CNNモデル)を使用して決定された。
適応型集束音響技術(AFA)による超音波処理を使用したFFPE乳房腫瘍試料および卵巣腫瘍試料からの核酸の抽出
ホルマリン固定パラフィン包埋(FFPE)乳房および卵巣腫瘍試料の各々を、以下のように、microTUBE AFA Fiber Pre-silt Snap-Cap 6×16mmチューブを使用して、Covaris(登録商標)M220集束超音波装置で解離させた。各腫瘍試料からのFFPEカールを、それぞれ100マイクロリットルのLysis緩衝液2(10mM Tris、150mM塩化ナトリウム、0.1%ドデシル硫酸ナトリウム(SDS)、pH7.5)中に懸濁し、これに0.3マイクロリットルの20mg/mlプロテイナーゼKを添加した。溶液をボルテックスすることにより混合し、ヒートブロック上で37℃で5分間インキュベートした。次に、microTUBEをCovaris(登録商標)M220 AFA超音波装置に移し、時間:5分、負荷時間率:20%、ピークインシデント:75W、200サイクル/バースト、18~20℃の設定を使用して適応型集束音響技術(AFA)による超音波処理に供した。
乳房試料および卵巣試料の両方について、上清(すなわち、上清1)を0.2mlのPCRチューブに移し、4℃で保存したが、固体はCovaris microTUBEに残された。100マイクロリットルのLysis緩衝液2(10mM Tris、150mM塩化ナトリウム、0.1% SDS、pH7.5)および0.3マイクロリットルの20mg/mLプロテイナーゼKを、microTUBEに残った固体に加え、ヒートブロック上で37℃で5分間インキュベートした。次いで、5分、負荷時間率:20%、ピークインシデント:75W、200サイクル/バースト、18~20℃の設定を用いて、溶液をAFA超音波処理に供した。
乳房試料および卵巣試料の両方について、上清(すなわち、上清2)を0.2mlのPCRチューブに移し、4℃で保存したが、固体はCovaris microTUBEに残された。次いで、上清1および上清2の両方を、それぞれの0.2mlのPCRチューブ内で98℃で10分間インキュベートし、残りのプロテイナーゼKを不活化し、次いで、AFA超音波処理装置が4℃に冷却されるまで4℃で保存した。次いで、上清1および2の各々を、PCRチューブから、新鮮なCovaris microTUBEのAFA Fiber Pre-Slit Snap-Cap 6×16mmチューブに移した。次いで、10分、負荷時間率:15%、ピークインシデント:75W、200サイクル/バースト、4~7℃の設定を使用して、上清1または2のいずれかを含有する各microTUBEにAFA超音波処理を行った。次いで上清を、1.5mlのマイクロ遠心分離機チューブと混合した。
乳房試料および卵巣試料の両方について、核酸材料を回収するために、混合された上清に同量の固相可逆固定化(SPRI)ビーズを添加した。室温で10分間、クロマチンをSPRIビーズに結合させた後、ビーズを磁気ラック上に配置し、上清を除去させた。磁気ラックのビーズを、200マイクロリットルの10mM Tris、150mMの塩化ナトリウム、0.1mMのエチレンジアミン四酢酸、pH7.5で1回洗浄した。洗浄後、ビーズを磁気ラック上に再び置き、洗浄溶液を除去した。
乳房試料および卵巣試料の両方について、ビーズ結合核酸材料からHi-Cライブラリーを調製した。核酸材料を、37℃で1時間、DpnII制限エンドヌクレアーゼで処理し、その後、ビオチンdATPの存在下でT4ポリメラーゼで末端修復することによって断片化した。反応を、pH8で、20mMのEDTAで停止した。T4リガーゼを使用して25℃で4時間、その後に65℃で加熱不活性化して、鈍化核酸断片の近接ライゲーションを行った。
20mg/mLでの5μLのプロテイナーゼKを100μL試料(約1ng/mLの最終濃度)に加え、溶液を65℃で少なくとも1時間インキュベートした。ビーズに結合されたライブラリーを、20%のPEG-8000、2.5MのNaClで洗浄し、80%エタノールで2回洗浄し、その後ビーズを空気乾燥させ、10mMのTris、pH8.0、0.1mMのEDTAを使用してビーズから溶出した。
乳房試料および卵巣試料の両方について、得られたビオチン化かつ近接ライゲーションされたライブラリーをストレプトアビジンビーズに結合し、これを1X NTB(5mM Tris-HCl、pH8.0、0.5mM EDTA、1M NaCl)で2回洗浄し、2X NTB(10mM Tris-HCl、pH8.0、1mM EDTA、2M NaCl)中に再懸濁し、ブロッキング溶液でインキュベートした。ビーズを1X NTB +0.5% Tween 20で2回洗浄し、次いで1X NTBで1回洗浄し、脱イオン水に再懸濁した。
乳房試料および卵巣試料の両方について、Nexteraタグ付けを使用して、Illumina互換性シーケンシングライブラリーを生成した。タグ付けは、本質的に、製造指示書に従って行われた。次いで、乳房試料および卵巣試料の各々に由来するライブラリーを、高忠実度のポリメラーゼ連鎖反応酵素、Bst 3.0ポリメラーゼおよびIlluminaインデックスプライマーの混合物を使用して増幅し、SPRIビーズで精製し、ハイスループットシーケンシングに供した。
次いで、乳房試料および卵巣試料の両方から生成されたライブラリーから得られたシーケンシングデータを、本明細書に提供する実施例で記載される分析方法を使用して、染色体再配列の存在について分析した。具体的には、アライメント方法(例えば、Burrows-Wheelerアライメント、局所アライメント、ギャップアライメント、ペアエンドアライメント)を使用して、ペアエンドHi-Cリードを、ヒト参照ゲノム(例えば、HG19、HG38、適切なバックグラウンドを持つヒトパンゲノム参照セットからの代表的ゲノム、または試料が取得された個体からの健康な組織のDe novoアセンブリ)にアライメントした。マトリクスは、一連の工程によってこれらのアライメントから構成された。第一に、分解能を、データから経験的に選択または決定した。第二に、ゲノムを選択された分解能でビン化した。第三に、個々のアライメントされたリードペアを調べて、どのゲノムビン(x、y)が各アライメントされたリードペアに相当し、対応する(x、y)座標で行列中に計数されたかを判定した。この計数過程の前後または最中に、不十分な品質を有する、二次的または非一次的である、ポリメラーゼ連鎖反応(PCR)プロセスによる重複などの生化学的手順の副作用として生じた可能性がある、または別の形で望ましくない、アライメントされたリードペアが計数から除外された。マトリクスには、クロマチン立体構造のリードペアが観察され、ゲノムビンのすべてのペアをリンクする回数を表す「連鎖数」が含まれた。第四に、マトリクスを標準化して、試料調製中に使用される制限酵素の選択、所与のゲノムビンで観察されるリード深度、ゲノムビン内のサイズまたは配列変化、ゲノムに関して先天的にわかっている生物学的因子(ゲノム中の性染色体として予想される数およびタイプなど)、または他の可能性のあるノイズ源などのバイアス源を考慮した。マトリクスには、ランダムに形成されたクロマチン立体構造リードペアがゲノムビンの各ペアを結合する頻度を表す「連鎖密度」が含まれた。第五に、マトリクスを2-Dグラフまたはヒートマップで可視化した。連鎖密度として予想される統計的特性の異常が、これらの図でしばしば目視可能であった。例えば、図5Aおよび図5Bでは、染色体間の転座は、明瞭な縁と個別の角を持つ連鎖密度が増したブロックとして可視化された。これらのブロックは、それらの領域内の配列について、参照ゲノムが試料中とは別の染色体にその配列を有していたという事実から生じたものであり、クロマチン立体構造のリードペアは、同じ分子上の配列について一桁以上高いレートで形成するため、転座された配列のクロマチン立体構造のリードは、参照ゲノムのみにおいて予想されるよりもはるかに大きな連鎖密度を発現する。
結果/結論
図5Aおよび図5Bに示されるように、上述の方法を使用して、FFPE乳房の単一切片(図5A)または卵巣(図5B)腫瘍試料から生成されたライブラリーは、乳房腫瘍試料中の第X染色体と第8染色体(図5A)の間、および卵巣腫瘍試料中の第4染色体および第7染色体(図5B)の間の非相互転座を特定するのに十分であった。
本開示の番号付き実施形態
本開示によって企図されるその他の主題は、以下の番号付き実施形態に記載される。
1.容器内の溶液中に組織試料を提供することであって、組織試料が核酸材料を含むことと、
組織試料および容器内の溶液を集束音響エネルギーに曝露させて核酸材料を組織試料から放出することによって、組織試料を解離させることと、
核酸材料を回収することと、
核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む方法。
2.溶液が非溶媒溶液である、実施形態1に記載の方法。
3.組織試料が保存された組織試料である、実施形態1または2に記載の方法。
4.組織試料が架橋された組織試料である、上記の実施形態のいずれか一つに記載の方法。
5.組織試料がホルマリン固定パラフィン包埋(FFPE)試料である、上記の実施形態のいずれか一つに記載の方法。
6.解離工程が、組織試料からの核酸材料の回収を可能にするのに十分なパラフィンをFFPE試料から解離させるのに十分な時間、FFPE試料を集束音響エネルギーに曝露させることを含む、実施形態5に記載の方法。
7.解離工程が、FFPE試料に付着したパラフィンの90%超の解離を含む、実施形態5または6に記載の方法。
8.解離工程が、FFPE試料に付着したパラフィンの98%超の解離を含む、実施形態5~7のいずれか一つに記載の方法。
9.解離工程が、組織試料を集束音響エネルギーに曝露させながら組織試料を再水和することを含む、上記の実施形態のいずれか一つに記載の方法。
10.解離工程が、約5℃~約60℃または約18℃~約20℃で溶液の温度を維持する工程を含む、上記の実施形態のいずれか一つに記載の方法。
11.組織試料が、5~25ミクロンの厚さおよび25mm未満の長さを有する、上記の実施形態のいずれか一つに記載の方法。
12.解離工程が、組織試料を集束音響エネルギーに曝露させる前に、溶液および容器内の組織試料にプロテアーゼを添加することを含む、上記の実施形態のいずれか一つに記載の方法。
13.プロテアーゼを不活化することを含む、実施形態12に記載の方法。
14.プロテアーゼを不活化することが、容器を約98℃に加熱することを含む、実施形態13に記載の方法。
15.試料を90~100℃に加熱するまで、組織試料を50℃未満で容器内に維持する工程を含む、上記の実施形態のいずれか一つに記載の方法。
16.集束音響エネルギーが10%~30%の負荷時間率を有する、上記の実施形態のいずれか一つに記載の方法。
17.集束音響エネルギーが約15%または約20%の負荷時間率を有する、上記の実施形態16に記載の方法。
18.集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、上記の実施形態のいずれか一つに記載の方法。
19.集束音響エネルギーが、約75Wのピーク強度パワーを有する、上記の実施形態18に記載の方法。
20.容器を約4℃~約7℃に維持しながら、組織試料および容器中の溶液を集束音響エネルギーに曝露させて追加の核酸材料を組織試料から放出することを含む、第二の解離工程を実行することをさらに含む、上記の実施形態のいずれか一つに記載の方法。
21.集束音響エネルギーが10%~30%の負荷時間率を有する、実施形態20に記載の方法。
22.集束音響エネルギーが約15%または約20%の負荷時間率を有する、実施形態20に記載の方法。
23.集束音響エネルギーが60W~90Wのピーク強度パワーを有する、実施形態20~22のいずれか一つに記載の方法。
24. 集束音響エネルギーが、約75Wのピーク強度パワーを有する、実施形態23に記載の方法。
25.容器内での解離工程後に上清を単離することと、組織試料を含む容器に追加の溶液を添加することと、容器を約5℃~約60℃または約18℃~約20℃に維持しながら、組織試料および容器中の追加の溶液を集束音響エネルギーに曝露させて、組織試料から追加の核酸材料を放出することを含む第二の解離工程を組織試料に対して実行することと、を含む、実施形態1~19のいずれか一つに記載の方法。
26.集束音響エネルギーが10%~30%の負荷時間率を有する、実施形態25に記載の方法。
27.集束音響エネルギーが約15%または約20%の負荷時間率を有する、実施形態20に記載の方法。
28.集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、実施形態25~27のいずれか一つに記載の方法。
29.集束音響エネルギーが、約75Wのピーク強度パワーを有する、実施形態28に記載の方法。
30.容器内での第二の解離工程後に上清を単離することと、第二の解離工程後に単離された上清と第二の解離工程前に単離された上清の両方に対して、上清を含む容器の温度を約4℃~約7℃で維持しつつ、各上清を集束音響エネルギーに曝露させることによって第三の解離工程を行うことと、上清を混合することと、をさらに含む、実施形態25~29のいずれか一つに記載の方法。
31.集束音響エネルギーが10%~30%の負荷時間率を有する、実施形態30に記載の方法。
32.集束音響エネルギーが約15%または約20%の負荷時間率を有する、実施形態30に記載の方法。
33.集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、実施形態30~32のいずれか一つに記載の方法。
34.集束音響エネルギーが、約75Wのピーク強度パワーを有する、実施形態33に記載の方法。
35.解離工程が、核酸材料のせん断を回避するのに好適な強度で組織試料を集束音響エネルギーに曝露させることを含む、上記の実施形態のいずれか一つに記載の方法。
36.組織試料を集束音響エネルギーに曝露させた後の核酸材料の断片の大部分が、1000bp以上のサイズを有する、上記の実施形態のいずれか一つに記載の方法。
37.解離工程が、組織試料中のホルムアルデヒド架橋を維持する、上記の実施形態のいずれか一つに記載の方法。
38.集束音響エネルギーが、約100キロヘルツ~約100メガヘルツの周波数を有し、集束音響エネルギーは、幅が約2センチメートル未満の集束帯を有し、および/または集束音響エネルギーは、容器から間隔を置き、かつ容器の外部にある音響エネルギー源に由来するものであり、音響エネルギーの少なくとも一部は容器の外部に伝搬する、上記の実施形態のいずれか一つに記載の方法。
39.回収工程が組織試料の遠心分離を含み、それによって不溶性汚染物質から解離した核酸材料を含有する上清液を分離することを含む、上記の実施形態のいずれか一つに記載の方法。
40.回収工程は、固相可逆固定化により核酸材料を精製することを含む、実施形態1~38のいずれか一つに記載の方法。
41.核酸材料に対して染色体立体構造捕捉分析を行うことが、核酸材料を近接ライゲーションして、近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリー内で対のポリヌクレオチド配列を同定することと、を含む、上記の実施形態のいずれか一つに記載の方法。
42.核酸材料に対して染色体立体構造捕捉分析を行うことが、核酸材料を断片化することと、核酸材料を近接ライゲーションして、近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリーにおける対のポリヌクレオチド配列を同定することと、を含む、実施形態1~40のいずれか一つに記載の方法。
43.同定工程が、近接ライゲーションをシーケンシングすることを含む、実施形態41または実施形態42に記載の方法。
(参照による組み込み)
本明細書に引用されるすべての参考文献、論文、出版物、特許、特許出版物、および特許出願は、すべての目的に対してその全体が参照により組み込まれる。
しかしながら、本明細書に引用される任意の参照、論文、刊行物、特許、特許公開、および特許出願の言及は、世界の任意の国での有効な先行技術を構成する、または共通の一般知識の一部を形成することを承認する、または任意の形態を提案するものではなく、またそのように受け取られてはならない。

Claims (44)

  1. a)容器内の溶液中に組織試料を提供することであって、前記組織試料が核酸材料を含むことと、
    b)前記組織試料および前記容器内の前記溶液を集束音響エネルギーに曝露させて前記核酸材料を前記組織試料から放出することによって、前記組織試料を解離させることと、
    c)前記核酸材料を回収することと、
    d)前記核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む、方法。
  2. 前記溶液が非溶媒溶液である、実施形態1に記載の方法。
  3. 前記組織試料が保存された組織試料である、請求項1に記載の方法。
  4. 前記組織試料が架橋された組織試料である、請求項1に記載の方法。
  5. 前記組織試料が、ホルマリン固定パラフィン包埋(FFPE)試料である、請求項1に記載の方法。
  6. 前記解離工程が、前記組織試料からの前記核酸材料の回収を可能にするのに十分なパラフィンを前記FFPE試料から解離させるのに十分な時間、前記FFPE試料を集束音響エネルギーに曝露させることを含む、請求項5に記載の方法。
  7. 前記解離工程が、前記FFPE試料に付着したパラフィンの90%超の解離を含む、請求項5に記載の方法。
  8. 前記解離工程が、前記FFPE試料に付着したパラフィンの98%超の解離を含む、請求項5に記載の方法。
  9. 前記解離工程が、前記組織試料を集束音響エネルギーに曝露させながら前記組織試料を再水和することを含む、請求項1に記載の方法。
  10. 前記解離工程が、前記溶液の温度を約5℃~約60℃または約18℃~約20℃に維持することを含む、請求項1に記載の方法。
  11. 前記組織試料が、5~25ミクロンの厚さおよび25mm未満の長さを有する、請求項1に記載の方法。
  12. 前記解離工程が、前記組織試料を集束音響エネルギーに曝露させる前に、前記溶液および前記容器内の前記組織試料にプロテアーゼを添加することを含む、請求項1に記載の方法。
  13. 前記プロテアーゼを不活化することを含む、請求項12に記載の方法。
  14. 前記プロテアーゼを不活化することが、前記容器を約98℃に加熱することを含む、請求項13に記載の方法。
  15. 試料を90~100℃に加熱するまで、前記組織試料を50℃未満で前記容器内に維持することを含む、請求項1に記載の方法。
  16. 前記集束音響エネルギーが、10%~30%の負荷時間率を有する、請求項1に記載の方法。
  17. 前記集束音響エネルギーが、約15%または約20%の負荷時間率を有する、請求項16に記載の方法。
  18. 前記集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、請求項1に記載の方法。
  19. 前記集束音響エネルギーが約75Wのピーク強度パワーを有する、請求項18に記載の方法。
  20. 前記容器を約4℃~約7℃に維持しながら、前記組織試料および前記容器中の前記溶液を集束音響エネルギーに曝露させて、前記組織試料から追加の核酸材料を放出することを含む、第二の解離工程を実行することをさらに含む、請求項1に記載の方法。
  21. 前記集束音響エネルギーが、10%~30%の負荷時間率を有する、請求項20に記載の方法。
  22. 前記集束音響エネルギーが、約15%または約20%の負荷時間率を有する、請求項20に記載の方法。
  23. 前記集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、請求項20に記載の方法。
  24. 前記集束音響エネルギーが、約75Wのピーク強度パワーを有する、請求項23に記載の方法。
  25. 容器内での前記解離工程後に上清を単離することと、前記組織試料を含む前記容器に追加の溶液を添加することと、前記容器を約5℃~約60℃または約18℃~約20℃に維持しながら、前記組織試料および前記容器内の前記追加の溶液を集束音響エネルギーに曝露させて、前記組織試料から追加の核酸材料を放出することを含む第二の解離工程を前記組織試料に対して実行することをさらに含む、請求項1に記載の方法。
  26. 前記集束音響エネルギーが、10%~30%の負荷時間率を有する、請求項25に記載の方法。
  27. 前記集束音響エネルギーが、約15%または約20%の負荷時間率を有する、請求項20に記載の方法。
  28. 前記集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、請求項25に記載の方法。
  29. 前記集束音響エネルギーが約75Wのピーク強度パワーを有する、請求項28に記載の方法。
  30. 容器内での前記第二の解離工程後に上清を単離すること、前記第二の解離工程後に単離された前記上清と前記第二の解離工程前に単離された前記上清の両方に対して、前記上清を含む前記容器の温度を約4℃~約7℃で維持しつつ、前記各上清を集束音響エネルギーに曝露させることによって、第三の解離工程を行うことと、前記上清を混合すること、とをさらに含む、請求項25に記載の方法。
  31. 前記集束音響エネルギーが、10%~30%の負荷時間率を有する、請求項30に記載の方法。
  32. 前記集束音響エネルギーが、約15%または約20%の負荷時間率を有する、請求項30に記載の方法。
  33. 前記集束音響エネルギーが、60W~90Wのピーク強度パワーを有する、請求項30に記載の方法。
  34. 前記集束音響エネルギーが、約75Wのピーク強度パワーを有する、請求項33に記載の方法。
  35. 前記解離工程が、前記組織試料を、前記核酸材料のせん断を回避するのに好適な強度の集束音響エネルギーに曝露させることを含む、請求項1に記載の方法。
  36. 前記組織試料を集束音響エネルギーに曝露させた後の核酸材料の前記断片の大部分が、1000bp以上のサイズを有する、請求項1に記載の方法。
  37. 前記解離工程が、前記組織試料中のホルムアルデヒド架橋を維持する、請求項1に記載の方法。
  38. 前記集束音響エネルギーが約100キロヘルツ~約100メガヘルツの周波数を有し、前記集束音響エネルギーが、幅が約2センチメートル未満の集束帯を有し、および/または前記集束音響エネルギーが、前記容器から間隔を置き、かつ容器の外部にある音響エネルギー源に由来するものであり、前記音響エネルギーの少なくとも一部が前記容器の外部に伝搬する、請求項1に記載の方法。
  39. 前記回収工程が、前記組織試料を遠心分離し、それによって不溶性汚染物質から解離した核酸材料を含有する上清液を分離することを含む、請求項1に記載の方法。
  40. 前記回収工程が、固相可逆固定化によって核酸材料を精製することを含む、請求項1に記載の方法。
  41. 前記核酸材料に対して染色体立体構造捕捉分析を行うことが、前記核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、前記近接ライゲーションされたポリヌクレオチドのライブラリー内で対のポリヌクレオチド配列を同定することとを含む、請求項1に記載の方法。
  42. 前記核酸材料に対して染色体立体構造捕捉分析を行うことが、前記核酸材料を断片化することと、前記核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、前記近接ライゲーションされたポリヌクレオチドのライブラリー内で対のポリヌクレオチド配列を同定することとを含む、請求項1に記載の方法。
  43. 前記同定工程が、前記近接ライゲーションをシーケンシングすることを含む、請求項41に記載の方法。
  44. 前記同定工程が、前記近接ライゲーションをシーケンシングすることを含む、請求項42に記載の方法。
JP2022528054A 2019-11-15 2020-11-13 組織試料からの染色体立体構造捕捉 Pending JP2023502944A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962936042P 2019-11-15 2019-11-15
US62/936,042 2019-11-15
PCT/US2020/060511 WO2021097284A1 (en) 2019-11-15 2020-11-13 Chomosome conformation capture from tissue samples

Publications (2)

Publication Number Publication Date
JP2023502944A true JP2023502944A (ja) 2023-01-26
JPWO2021097284A5 JPWO2021097284A5 (ja) 2023-11-21

Family

ID=75912387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022528054A Pending JP2023502944A (ja) 2019-11-15 2020-11-13 組織試料からの染色体立体構造捕捉

Country Status (7)

Country Link
US (1) US20220403371A1 (ja)
EP (1) EP4058573A4 (ja)
JP (1) JP2023502944A (ja)
CN (1) CN114729351A (ja)
AU (1) AU2020381516A1 (ja)
CA (1) CA3160441A1 (ja)
WO (1) WO2021097284A1 (ja)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2276066A1 (en) * 1999-03-11 2000-09-11 Zycos Inc. Microparticles for delivery of nucleic acid
GB0603251D0 (en) * 2006-02-17 2006-03-29 Isis Innovation DNA conformation
GB0810051D0 (en) * 2008-06-02 2008-07-09 Oxford Biodynamics Ltd Method of diagnosis
US9080167B2 (en) * 2012-11-16 2015-07-14 Covaris, Inc. System and method for processing paraffin embedded samples
GB2517936B (en) * 2013-09-05 2016-10-19 Babraham Inst Chromosome conformation capture method including selection and enrichment steps
SG10201801779XA (en) * 2013-09-05 2018-04-27 Jackson Lab Compositions for rna-chromatin interaction analysis and uses thereof
US9786266B2 (en) * 2013-12-10 2017-10-10 Covaris, Inc. Method and system for acoustically treating material
CA2962782A1 (en) * 2014-09-26 2016-03-31 The Regents Of The University Of California Methods and systems for detection of a genetic mutation
EP3227462B1 (en) * 2014-12-01 2020-04-22 The Broad Institute, Inc. Method for in situ determination of nucleic acid proximity
EP3337908A4 (en) * 2015-08-18 2019-01-23 The Broad Institute, Inc. METHOD AND COMPOSITIONS FOR CHANGING THE FUNCTION AND STRUCTURE OF CHROMATIN GRINDING AND / OR DOMAINS
EP3954771A1 (en) * 2016-05-13 2022-02-16 Dovetail Genomics, LLC Recovering long-range linkage information from preserved samples
WO2019005763A1 (en) * 2017-06-26 2019-01-03 Phase Genomics Inc. METHOD FOR REGROUPING DNA SEQUENCES
US11074991B2 (en) * 2017-12-27 2021-07-27 The Jackson Laboratory Methods for multiplex chromatin interaction analysis by droplet sequencing with single molecule precision
US20210222152A1 (en) * 2018-05-10 2021-07-22 The University Of North Carolina At Chapel Hill Method to extract chromatin from formalin fixed, paraffin embedded (ffpe) tissue

Also Published As

Publication number Publication date
AU2020381516A1 (en) 2022-06-02
WO2021097284A8 (en) 2021-07-08
US20220403371A1 (en) 2022-12-22
EP4058573A4 (en) 2023-12-27
CN114729351A (zh) 2022-07-08
CA3160441A1 (en) 2021-05-20
EP4058573A1 (en) 2022-09-21
WO2021097284A1 (en) 2021-05-20

Similar Documents

Publication Publication Date Title
JP7542672B2 (ja) 核酸を解析するための方法および組成物
US11935626B2 (en) Methods for genome assembly and haplotype phasing
US20220180964A1 (en) Systems and methods for karyotyping by sequencing
US20230295690A1 (en) Haplotype resolved genome sequencing
Vitak et al. Sequencing thousands of single-cell genomes with combinatorial indexing
US12087401B2 (en) Using cell-free DNA fragment size to detect tumor-associated variant
JP2018509928A (ja) 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法
US20220403371A1 (en) Chromosome conformation capture from tissue samples
CA3186974A1 (en) Methods and compositions for analyzing nucleic acid
Rooijers et al. scDam&T‐seq combines DNA adenine methyltransferase-based labeling of protein-DNA contact sites with transcriptome sequencing to analyze regulatory programs in single cells
Stolz Chromatin digestion by the chemotherapeutic agent Bleomycin produces nucleosome and Transcription Factor footprinting patterns similar to Micrococcal Nuclease
Zhou et al. Global prediction of chromatin accessibility using RNA-seq from small number of cells
Fan Computational and Statistical Methods for Characterizing Single-Cell Heterogeneity

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231110

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231110