JP2023502944A

JP2023502944A - 組織試料からの染色体立体構造捕捉

Info

Publication number: JP2023502944A
Application number: JP2022528054A
Authority: JP
Inventors: ショーンサリバン，; モリスエミリーレイスター，; カイルラングフォード，; イヴァンリアチコ，; スティーブンエム．エーカー，
Original assignee: フェーズジェノミクスインコーポレイテッド
Priority date: 2019-11-15
Filing date: 2020-11-13
Publication date: 2023-01-26
Also published as: AU2020381516A1; WO2021097284A8; US20220403371A1; EP4058573A4; CN114729351A; CA3160441A1; EP4058573A1; WO2021097284A1

Abstract

本明細書では、集束音響エネルギーおよび染色体立体構造捕捉法を使用して、対象から得られた保存された試料中の染色体構造バリアントを同定するための方法およびシステムが提供されている。また、本明細書では、保存された組織試料から同定された染色体構造バリアントを疾患または障害と関連付けるための方法およびシステム、ならびに同左の治療方法が提供されている。【選択図】図４

Description

（関連出願の相互参照）
本出願は、２０１９年１１月１５日に出願された米国仮特許出願第６２／９３６，０４２号の優先権の利益を主張するものであり、あらゆる目的で、参照によりその全体が本明細書に組み込まれる。

染色体異常の検出は、様々な血液癌のための最前線の診断法である。癌に対する最先端の細胞遺伝学的方法であっても、診断のために複数の検査を使用する必要があることが多い、という限界がある。核型分析法は染色体異常についてゲノム全体についての観点を提供するが、分解能は限定的である。蛍光ｉｎｓｉｔｕハイブリダイゼーション（ＦＩＳＨ）などの方法では、一度に１個、または場合によっては少数の座位のみを調べられるだけである。染色体マイクロアレイ分析（ＣＭＡ）は、均衡転座、逆位を判定したり、複雑な再配列および倍数性の変化を解明したりすることができない。さらに、癌診断の目的から、ＣＭＡは試料の腫瘍組成物パーセントによっていくらか制限があり、動作感度は２０％の存在量範囲である。また、ＣＭＡおよびＦＩＳＨは一部の例では固形腫瘍に適用することができるが、核型分析は、固形腫瘍に日常的に適用できる方法ではない。そのため、固形腫瘍バイオマーカーの発見における細胞ゲノム学的方法の有用性は遅れている。ゆえに、当分野では染色体構造バリアントを正確かつ迅速に同定するためのさらなる方法に対するニーズが存在する。

本発明は、染色体立体構造捕捉法を使用して、染色体構造バリアントを正確かつ迅速に同定する方法を提供することによって、これらのニーズに対処する。

一態様では、容器内の溶液中に組織試料を提供することであって、組織試料が核酸材料を含むことと、組織試料および容器内の溶液を集束音響エネルギーに曝露させて核酸材料を組織試料から放出することによって、組織試料を解離することと、核酸材料を回収することと、核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む方法が、本明細書で提供されている。一部の例では、溶液は非溶媒溶液である。一部の例では、組織試料は保存された組織試料である。一部の例では、組織試料は架橋された組織試料である。一部の例では、組織試料は、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料である。一部の例では、解離工程は、組織試料からの核酸材料の回収を可能にするのに十分なパラフィンをＦＦＰＥ試料から解離するのに十分な時間、ＦＦＰＥ試料を集束音響エネルギーに曝露させることを含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの９０％超の解離を含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの９８％超の解離を含む。一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させながら組織試料を再水和することを含む。一部の例では、解離工程は、溶液の温度を約５℃～約６０℃または約１８℃～約２０℃に維持することを含む。一部の例では、組織試料の厚さは５～２５ミクロンであり、長さは２５ｍｍ未満である。一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させる前に、溶液および容器内の組織試料にプロテアーゼを添加することを含む。一部の例では、プロテアーゼを不活化することを含む。一部の例では、プロテアーゼを不活化することは、容器を約９８℃に加熱することを含む。一部の例では、方法は、試料を９０～１００℃に加熱するまで、容器内の組織試料を５０℃未満に維持することを含む。一部の例では、集束音響エネルギーは、１０％～３０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、約１５％または約２０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、６０Ｗ～９０Ｗのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約７５Ｗのピーク強度パワーを有する。一部の例では、方法は、容器を約４℃～約７℃に維持しながら、容器内の組織試料および溶液を集束音響エネルギーに曝露させて、組織試料から追加の核酸材料を放出することを含む第二の解離工程を実行することをさらに含む。一部の例では、集束音響エネルギーは、１０％～３０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、約１５％または約２０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、６０Ｗ～９０Ｗのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約７５Ｗのピーク強度パワーを有する。一部の例では、方法は、容器内での解離工程後に上清を単離することと、組織試料を含む容器に追加の溶液を添加することと、容器を約５℃～約６０℃または約１８℃～約２０℃に維持しつつ、容器内の組織試料および追加の溶液を集束音響エネルギーに曝露させて、組織試料から追加の核酸材料を放出することを含む第二の解離工程を組織試料に対して行うことと、をさらに含む。一部の例では、集束音響エネルギーは、１０％～３０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、約１５％または約２０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、６０Ｗ～９０Ｗのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約７５Ｗのピーク強度パワーを有する。一部の例では、方法は、容器内での第二の解離工程後に上清を単離することと、第二の解離工程後に単離された上清と第二の解離工程前に単離された上清の両方について、上清を含む容器の温度を約４℃～約７℃で維持しつつ、各上清を集束音響エネルギーに曝露させることによって、第三の解離工程を行うことと、上清を混合することと、をさらに含む。一部の例では、集束音響エネルギーは、１０％～３０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、約１５％または約２０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、６０Ｗ～９０Ｗのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約７５Ｗのピーク強度パワーを有する。一部の例では、解離工程は、核酸材料のせん断を回避するのに好適な強度で組織試料を集束音響エネルギーに曝露させることを含む。一部の例では、組織試料を集束音響エネルギーに曝露させた後の核酸材料の断片の大部分は、１０００ｂｐ以上のサイズを有する。一部の例では、解離工程は、組織試料中のホルムアルデヒド架橋を維持する。一部の例では、集束音響エネルギーは、約１００キロヘルツ～約１００メガヘルツの周波数を有し、集束音響エネルギーは、幅が約２センチメートル未満の集束帯を有し、および／または集束音響エネルギーは、容器から間隔が置かれ、かつ容器の外部にある音響エネルギー源に由来し、音響エネルギーの少なくとも一部は容器の外部に伝搬する。一部の例では、回収工程は、組織試料を遠心分離し、それによって不溶性汚染物質から解離した核酸材料を含む上清液を分離することを含む。一部の例では、回収工程は、固相可逆固定化によって核酸材料を精製することを含む。一部の例では、核酸材料に対して染色体立体構造捕捉分析を行うことは、核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリーにおいて対のポリヌクレオチド配列を同定することと、を含む。一部の例では、核酸材料に対して染色体立体構造捕捉分析を行うことは、核酸材料を断片化することと、核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリーにおいて対のポリヌクレオチド配列を同定することと、を含む。一部の例では、同定工程は、近接ライゲーションをシーケンシングすることを含む。

図１Ａ～１Ｅは、細胞ゲノム異常を検出するための例示的な近接ライゲーション方法の概要を示す。（図１Ａ）個体由来の細胞は架橋され、無傷な細胞核に近接したクロマチン間に共有結合を形成する。（図１Ｂ）Ｈｉ－Ｃによって捕捉された頻度の相互作用は、染色体上の二つの配列間の直線距離に基づくその配列の近接さに関連する。（図１Ｃ）核型的に正常な細胞株からのＨｉＣ相互作用マトリクス。（図１Ｄ）ヒートマップ上の非対角信号（破線の灰色ボックス）により観察された第４染色体と第１１染色体の間の転座を含む細胞株からのＨｉＣマトリクスでは、領域のより高い拡大が非常に明確に観察される（図１Ｅ）。図２は、ＰｈａｓｅＧｅｎｏｍｉｃｓ社のＦＦＰＥＨｉ－Ｃ法によって生成されたＨｉＣライブラリーのＨｉＣ－ＱＣ計算統計を示す。図３Ａ～３Ｄは、本開示全体に提供されるＨｉＣ方法による臨床試料の分析を示す（図３Ａ）。すべての臨床試料は、ＨｉＣ－ＱＣで測定された品質基準を上回る。（図３Ｂ）臨床Ｈｉ－Ｃデータで観察された試料の転座および（図３Ｃ）欠失または増幅。（図３Ｄ）臨床試料について利用できる核型、ＦＩＳＨおよびＣＭＡを組み合わせたデータと重複する、検出された異常の概要。２０％存在量（ＣＭＡ検出限界）で検出可能な異常のみを検討した。図４は、Ｈｉ－Ｃ方法の概略を示す。物理的に近接したＤＮＡ配列は、ホルマリン固定中に架橋され、制限消化によって断片化され、まとめてライゲーションされる。シーケンシングアダプターが追加され、キメラ分子がシーケンシングされる。互いに対してリード１および２をマッピングすることは、コンタクトマトリクス熱を生成し、これにより染色体再配列の同定が可能となる。図５Ａ～５Ｂは、臨床試料についてＨｉ－Ｃライブラリーを生成するＡＦＡ方法の有用性を示す。ＦＦＰＥ乳房腫瘍試料（図５Ａ）または卵巣腫瘍試料（図５Ｂ）の単一切片から上述の方法を使用して生成されたライブラリーは、第Ｘ染色体と第８染色体の間（図５Ａ）および第４染色体と第７染色体の間（図５Ｂ）の非相互転座を同定するのに十分である。

クロマチン立体構造捕捉技術を使用した染色体構造バリアントの同定のための計算方法およびシステムが、本明細書において提供される。一部の実施形態では、本開示は、核型分析またはシーケンシングによる核型分析（ＫＢＳ）に対して効果がないことが以前には知られていた組織試料（例えば、固形組織または腫瘍試料）中の染色体構造バリアントを検出するためのシステムおよび方法をさらに提供する。一部の実施形態では、本開示は、染色体構造バリアントを、染色体構造バリアントに関連する生物学的情報（例えば、臨床データ）に関連付けるためのシステムおよび方法をさらに提供する。本明細書で提供される方法およびシステムで使用するための、特定の染色体構造バリアントに関連する生物学的情報を染色体構造バリアントと関連付けるためのクロマチン立体構造捕捉（３－Ｃ）技術およびシステムおよび方法は、ＷＯ２０２０／１９８７０４号に記載されるＣＣＣ技術、システムおよび方法であってもよく、これらは参照によりその全体が本明細書に組み込まれる。

一実施形態では、本明細書で提供される染色体構造バリアントを同定する方法は、（ａ）容器内の溶液中に組織試料を提供することであって、組織試料が核酸材料を含むことと、（ｂ）組織試料および容器中の溶液を集束音響エネルギーに曝露させて核酸材料を組織試料から放出することによって、組織試料を解離することと、（ｃ）核酸材料を回収することと、（ｄ）核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む。組織試料は、固形腫瘍試料であってもよい。組織試料（例えば、固形腫瘍試料）は、保存された組織試料であってもよい。組織試料（例えば、固形腫瘍試料）は、パラフィン包埋されてもよい。組織試料（例えば、固形腫瘍試料）は、架橋または固定されていてもよい。一実施形態では、組織試料は、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料である。工程（ｂ）の解離は、１回以上繰り返されてもよい。一実施形態では、工程（ｂ）の解離は、組織試料および容器内の溶液中で１回繰り返される。別の実施形態では、方法は、（ｉ）工程（ｂ）の後、かつ工程（ｃ）の前に、容器内の溶液を単離することと、（ｉｉ）工程（ｉ）で容器中に残っている組織試料に追加の溶液量を添加することと、（ｉｉｉ）追加の溶液量が添加された容器中の組織試料に対して工程（ｂ）の解離を繰り返すことと、（ｉｖ）追加の解離工程後に容器中の組織試料に添加された追加の溶液量を単離することと、（ｖ）集束音響エネルギーに曝露させることによって工程（ｉ）および（ｉｖ）で単離された溶液を解離して、前記溶液中の組織試料の残りの部分から追加の核酸材料を放出させることと、（ｖｉ）工程（ｖ）の対象となる溶液を混合させる工程と、を含む。一実施形態では、方法は、工程（ｉ）～（ｖ）を１回以上繰り返すことをさらに含む。各解離工程で使用される溶液は、非溶媒溶液であってもよい。非溶媒溶液は、本明細書に提供される方法のいずれかの対象となる組織試料内に含まれる核酸および／またはタンパク性物質に損傷を引き起こす可能性がある溶媒を含有しない溶液であってもよい。非溶媒溶液は、水および洗剤を含んでもよい。

例えば、３－Ｃ、４－Ｃ、５－Ｃ、およびＨｉ－Ｃなどのクロマチン立体構造捕捉法は、損なわれていない細胞の内側で、ＤＮＡ分子を物理的に近接して連結する。これらの方法は、インビボにおいて、空間内で二つの座位が共会合する頻度を測定する。次いで、クロマチン立体構造捕捉ライブラリーからのハイスループットシーケンシングリードを、ドラフトゲノムまたは参照ゲノムにマッピングすることによって、二次元のコンタクトマトリクスが、クロマチン立体構造捕捉データから計算される。コンタクトマトリクスにおいて、同じ染色体を起源とする座位は、異なる染色体上の座位よりも高い相互作用頻度を有しており、同じ染色体上の隣接座位は、当該染色体上の遠い座位よりも高い相互作用頻度を有する。各個体のゲノムはわずかに異なるコンタクトマトリクスを示す。その原因は、当該個体の細胞集団内でのアレル変異、および当該個体が誕生時に有していた、または障害の間に獲得された変異である。これらの差異が、バリアントと呼ばれる。一部のバリアントは、コンタクトマトリクスをコンタクトマップとして視覚化することによって、肉眼で見ることができる。他のバリアントは、コンタクトマトリクスを計算により分析することによって検出することができる。これらのバリアントには、限定されないが、例えば、挿入、欠失、反復伸長、および他の複雑な事象など、均衡転座および不均衡転座、逆位ならびにコピー数多型が含まれる。一部のバリアントは、臨床的な重要性を有することが知られている。すなわち、疾患と関連する、および／または治療過程に関連する。他のバリアントは、臨床的な重要性が不明であるか、または新規である（当分野で過去に報告されていない）。本明細書に置いて開示されるクロマチン立体構造データ、ならびに方法およびシステムは、臨床的な重要性が判明しているバリアントを表す手段を提供し、ならびに臨床的な重要性が判明していないバリアントおよび新規のバリアントを発見するための手段を提供する。

本開示のシーケンシングによる核型分析（ＫＢＳ：ｋａｒｙｏｔｙｐｉｎｇｂｙｓｅｑｕｅｎｃｉｎｇ）方法は、核型分析データまたは核型分析に似たデータが有用である、固形組織試料（例：固形腫瘍）を使用した、臨床状況および研究状況において、クロマチン立体構造データを使用する。この方法には、複数の主要な用途が含まれる。第一に、ＫＢＳ法は、細胞遺伝学的方法によって観察可能なヒトゲノム再構成を特定すること、および臨床的に報告義務のあることが判明しているバリアントの存在についての検査を行うことができ、事実上、核型分析と同種の実用的な情報であるが、全く異なるパワフルな手段を生み出すことができる。第二に、ＫＢＳ方法は、任意の構造バリアントを検出するために任意の試料を分析することができ、そしてサンプリングされる生物体中の構造変動に関する任意の提供データを使用して、これらバリアントを分類することができる。

対象
本開示は、対象から得られた試料中の一つ以上の染色体構造バリアントを検出するための方法およびシステムを提供する。試料には、生検試料、外科手術試料、腫瘍試料、器官全体、および他の試料が含まれてもよい。

対象は、任意の生物体であってもよい。一部の実施形態では、対象は、真核生物である。一部の実施形態では、対象は、後生動物である。一部の実施形態では、対象は、脊椎動物である。一部の実施形態では、対象は、哺乳動物である。一部の実施形態では、対象は、ヒト、サル、類人猿、ウサギ、モルモット、スナネズミ、ラットまたはマウスである。一部の実施形態では、対象は、農業用動物である。農業用動物の例としては、ウマ、ヒツジ、ウシ、ブタ、およびニワトリが挙げられる。一部の実施形態では、対象は、ペットとして飼育される動物（獣医対象）である。ペットの例としては、イヌおよびネコが挙げられる。

一部の実施形態では、対象は、ヒトである。

一部の実施形態では、特に対象がヒトである実施形態では、対象は、対象中の一つ以上の染色体構造バリアントにより生じる疾患または障害の一つ以上の症状を有する。一部の実施形態では、染色体構造バリアントは、疾患もしくは障害を生じさせることが当分野において判明しており、疾患もしくは障害を生じさせる遺伝子の機能に影響を及ぼすことが当分野において判明しているものである。疾患または障害は、当分野で公知の任意の疾患または障害であってもよく、および／または一つ以上の染色体構造バリアントと関連付けられるか、またはそれらによって引き起こされるものとして本明細書で提供されている。代替的な実施形態では、染色体構造バリアントは、新規の染色体構造バリアントである。すなわち、当分野において過去に報告されていないバリアントである。本開示は、新規および公知の両方の染色体構造バリアントを特定するためのシステムおよび方法を提供する。

本開示は、対象中の任意の組織もしくは任意の細胞型から単離された、または誘導された組織および／または細胞中の一つ以上の染色体構造バリアントを検出するための方法およびシステムを提供する。一部の実施形態では、組織は、対象の健康な組織であり、例えば、健康な皮膚、骨髄、肝臓、腎臓、神経組織または筋肉である。一部の実施形態では、組織は、疾患または障害の一つ以上の症状を有する。一部の実施形態では、疾患または障害は、癌であり、組織は、癌細胞を含む。一部の実施形態では、癌は、固形腫瘍を含み、組織は、腫瘍細胞を含む。一部の実施形態では、組織は、一つ以上の染色体構造バリアントを含む細胞と、一つ以上の染色体構造バリアントを含まない細胞の混合物を含む。組織は新鮮なものであってもよい。組織は新鮮凍結されたものであってもよい。組織は固定されたものであってもよい。組織は保存することができる。一実施形態では、組織はパラフィン包埋されている。別の実施形態では、組織はホルマリン固定およびパラフィン包埋（ＦＦＰＥ）されている。一部の例では、組織試料の厚さは５～２５ミクロンであり、長さは２５ｍｍ未満である。一部の例では、組織試料はカール（１０ミクロン以上の切片）である。カールはＦＦＰＥカールとすることができる。

一実施形態では、試料（例えば、生検）は、患者から採取され、医療処置中に固定液（例えば、ホルマリン）中に配置される。この固定試料は、その後、本開示の技術を使用して分析することができる。例えば、癌に関連する再配列などのゲノム特徴を特定することができる。

一実施形態では、対象の組織または細胞型から保存された試料中の一つ以上の染色体構造バリアントを検出するための方法およびシステムが本明細書で提供されている。試料は、基礎研究、翻訳研究、外科的切除に従って保存することができ、または薬物試験に従って記録保管されてもよい。保存された試料は、例えば、ホルムアルデヒド、ホルマリン、ＵＶ光、マイトマイシンＣ、ナイトロジェンマスタード、メルファラン、１，３－ブタジエンジエポキシド、シスジアミンジクロロプラチナ（ＩＩ）、およびシクロホスファミドのうちの少なくとも一つを使用して架橋されてもよい。あるいは、保存された試料は、ホルマリンを使用して架橋することができる。保存された試料は、試料中の核酸に関する位置情報を維持できる。一実施形態では、保存された試料は、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料などの包埋試料である。保存された試料は、一部の例では、試料を固定液中に滴加することによって、均質化させることなく、直接固定することができる。

一実施形態では、保存された組織試料は、タンパク質ＤＮＡ複合体が破壊されないように核酸を単離するように処理される。一部の例では、タンパク質ＤＮＡ複合体は、近位にある第一の核酸セグメントおよび第二の核酸セグメントが、リン酸ジエステル骨格とは独立して一緒に保持されるように単離される。一部の例では、保存された組織試料は、試料を沸騰状態から守ることによって処理される。一部の例では、保存された組織試料は、４０℃以下の温度で処理される。一実施形態では、ＤＮＡタンパク質複合体は、クロマチンを含む。一部の例では、保存された組織試料は、組織におけるその構成を反映する位置情報を保持する。一実施形態では、保存された組織試料は、保存中、または核酸を単離する前に均質化されないため、試料から切り出されたＤＮＡタンパク質複合体の位置情報が保存され、ゲノム構造分析の一部として利用可能である。

保存された組織試料は、少なくとも１日、２日、３日、４日、５日、６日、７日、８日、９日、１０日、１１日、１２日、１３日、２週間、３週間、１か月、１．５か月、２か月、２．５か月、３か月、３．５か月、４か月、４．５か月、５か月、５．５か月、６か月、８か月、１０か月、１年、２年、３年、４年、５年、１０年、１５年、２０年、２５年、３０年、３５年、４０年、４５年、または５０年、保存することができる。保存された組織試料は、最大でも１日、２日、３日、４日、５日、６日、７日、８日、９日、１０日、１１日、１２日、１３日、２週間、３週間、１か月、１．５か月、２か月、２．５か月、３か月、３．５か月、４か月、４．５か月、５か月、５．５か月、６か月、８か月、１０か月、１年、２年、３年、４年、５年、１０年、１５年、２０年、２５年、３０年、３５年、４０年、４５年、または５０年、保存することができる。保存された組織試料は、約１日、２日、３日、４日、５日、６日、７日、８日、９日、１０日、１１日、１２日、１３日、２週間、３週間、１か月、１．５か月、２か月、２．５か月、３か月、３．５か月、４か月、４．５か月、５か月、５．５か月、６か月、８か月、１０か月、１年、２年、３年、４年、５年、１０年、１５年、２０年、２５年、３０年、３５年、４０年、４５年、または５０年、保存することができる。一実施形態では、保存された組織試料は、核酸を単離する前に少なくとも１週間保存される。一実施形態では、保存された組織試料は、核酸を単離する前に少なくとも６か月保存される。

保存された組織試料は、核酸を単離する前に収集点から輸送することができる。保存された組織試料は、滅菌環境で収集することができる。保存された組織試料は、核酸を単離する前に非滅菌環境に位置付けられてもよい。

ホルマリン固定、パラフィン包埋試料などの保存された試料は、多くの場合、固定液および／または包埋材料によって引き起こされる損傷などの損傷を有する核酸を含む。ＤＮＡの使用における関連成分は、ＤＮＡ損傷剤にさらされる単離されたＤＮＡの物理的連鎖情報の完全性を保存する。ＤＮＡは比較的安定している分子であるが、ＤＮＡの完全性は環境要因、特に時間の影響を受けうる。ヌクレアーゼ汚染、加水分解、酸化、化学的損傷、物理的損傷および機械的損傷の存在が、ＤＮＡ保存に対する主な脅威の一部を表す。輸送中にＤＮＡが遭遇する機械的要因、環境要因、および物理的要因は、断片に残されることが多く、ゲノム解析に極めて重要な長距離情報を失う可能性がある。ＤＮＡ情報を保存するための既存の方法は主にＤＮＡの崩壊を遅延させるが、特に断片化が起こった場合には、経時的なＤＮＡ損傷に対する保護をほとんど提供しない。多くの場合、そのようなＤＮＡ損傷は、長期間保存を意図した試料を固定および包理によって軽減することができる。例えば、ＦＦＰＥ（ホルマリン固定、パラフィン包埋）試料は、長期間保存することができる。しかしながら、保存プロセスはＤＮＡ損傷をもたらす可能性がある。さらに、その後のＤＮＡ抽出法は過酷であることが多く、さらなるＤＮＡ損傷および断片化をもたらす可能性がある。

本明細書では、保存された（例えば、ＦＦＰＥ）試料（組織に基づく保存された試料および細胞培養に基づく保存された試料を含む）中に保存された架橋クロマチンといったＤＮＡ複合体またはクロマチン凝集体中の核酸分子などの保存および／または保存された核酸分子から長距離ゲノム情報を回収することに関連する方法およびシステムが開示されている。本明細書に提供される方法およびシステムは、核酸の物理的連鎖情報が保存されるように、これらの保存された試料からの核酸試料の回収に使用することができる。物理的連鎖情報は、ＦＦＰＥ抽出過程における核酸自体の保存によって、または、抽出過程において核酸自体に生じうる損傷とは無関係に物理的連鎖情報が保存されるように、核酸複合体の保存によって保存される。

適応型集束音響技術（ＡＦＡ：ＡｄａｐｔｉｖｅＦｏｃｕｓｅｄＡｃｏｕｓｔｉｃｓ）に基づく核酸抽出
一実施形態では、集束音響エネルギーを使用して対象の組織または細胞型からの保存された試料から獲得、導出または抽出された核酸中の一つ以上の染色体構造バリアントを検出するための方法およびシステムが本明細書で提供されている。一実施形態では、保存された試料（例えば、ＦＦＰＥ組織試料）からの核酸の単離または抽出は、ＷＯ２０１４０７８６５０号に記載されるような集束音響エネルギーおよび音響処理装置を使用するが、これは参照により本明細書に組み込まれ、以下で簡潔に説明される。

一実施形態では、保存された試料は、ＦＦＰＥ試料（例えば、固形腫瘍ＦＦＰＥ試料）であり、パラフィンは、非溶媒溶液を使用してＦＦＰＥ試料から解離される。一実施形態では、非溶媒溶液は、パラフィン解離の過程中にＦＦＰＥ試料を含まないか、またはＦＦＰＥ試料を溶媒に曝露させない。非溶媒溶液は、水および／または洗剤を含んでもよい。非溶媒溶液は、適切な集束音響エネルギーと併用して、ＦＦＰＥ試料からパラフィンを解離することができる。こうしたパラフィン解離は、試料を比較的高い温度に曝露させることなく行われうる。例えば、パラフィンは、試料温度を５～６０℃未満に維持しつつ試料から適切に解離されてもよい。パラフィンは、試料温度を１～３０℃に維持しつつ試料から適切に解離されてもよい。パラフィンは、試料温度を約１８～２０℃または約４～７℃に維持しつつ試料から適切に解離されてもよい。一実施形態では、試料温度は約２０℃に維持される。別の実施形態では、試料温度は約７℃に維持される。本明細書で利用されるパラフィン解離は、ＦＦＰＥからの核酸抽出において当分野で既知の過程よりも、核酸材料の収率を少なくとも２～４倍増加させることができる。一実施形態では、本明細書に記載する集束音響エネルギー法を使用したパラフィン解離は３分以下で起こる。

一実施形態では、試料は、パラフィン解離過程中に再水和される。再水和は、生体材料の収率の改善にも役立つ可能性がある。

一実施形態では、本明細書に提供される方法およびシステムで使用するための保存された組織は、ＦＦＰＥ試料であり、ＦＦＰＥ試料は、解離が容器内で起こるように前記容器内に提供される。非溶媒の水溶液はＦＦＰＥ試料と共に容器内に提供されてもよく、または容器に添加されてもよく、その後、容器中の試料および非溶媒溶液を音響エネルギーに曝露させて、試料からパラフィンを解離することによって、パラフィンをパラフィン包埋試料から解離してもよい。次いで、核酸、タンパク質、および／または他の成分などの生体分子を、パラフィンの解離後に試料の水性部分から回収することができる。一実施形態では、解離は、前回のパラフィン解離後の試料の水性部分、または前回のパラフィン解離後の水性部分、ならびに組織試料自体のいずれかに対して、１回以上追加して実施することができる。初回の解離またはそれ以降の解離後の任意の試料の水性部分の回収は、容器からの処理された懸濁液を遠心分離し、ピペット分注することによって、または容器からの生体分子を含有する液体をピペット分注することによって行うことができる。回収された生体分子を、例えば、追加処理（例えば、核酸の断片化）のため、および／または生体分子の全体的回収を促進するために、市販の技術および装置を使用したＤＮＡ精製処理、またはさらなる集束音響処理などの、所望の任意の適切なさらなる処理に供してもよい。一部の例では、回収工程は、組織試料を遠心分離し、それによって不溶性汚染物質から解離した核酸材料を含む上清液を分離することを含む。一部の例では、回収工程は、固相可逆固定化（ＳＰＲＩ）によって核酸材料を精製することを含む。当分野で公知の任意のＳＰＲＩ適合基材（例えば、ＳＰＲＩビーズ）を、本明細書で提供される回収工程中に使用することができる。

一実施形態では、回収された生体分子は、さらなる処理（例えば、核酸の断片化）に供されず、代わりに本明細書に記載される染色体立体構造捕捉（例えば、Ｈｉ－Ｃ）法に供される。

一部の例では、解離工程は、組織試料からの核酸材料および／またはプロテオーム材料の回収を可能にするのに十分なパラフィンをＦＦＰＥ試料から解離させるのに十分な時間、ＦＦＰＥ試料を集束音響エネルギーに曝露させることを含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの少なくとも９０％、少なくとも９１％、少なくとも９２％、少なくとも９３％、少なくとも９４％、少なくとも９５％、少なくとも９６％、少なくとも９７％、少なくとも９８％、少なくとも９９％、少なくとも９９．５％、または少なくとも９９．９％、または９０％超、９１％超、９２％超、９３％超、９４％超、９５％超、９６％超、９７％超、９８％超、９９％超、９９．５％超、または９９．９％超、または約９０％、約９１％、約９２％、約９３％、約９４％、約９５％、約９６％、約９７％、約９８％、約９９％、約９９．５％、または約９９．９％の解離を含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの９０％超の解離を含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの９５％超の解離を含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの９８％超の解離を含む。一部の例では、解離工程は、ＦＦＰＥ試料に付着したパラフィンの９９％超の解離を含む。１回以上の追加の解離工程を行うことは、単一の解離工程を行う場合と比較して、ＦＦＰＥ試料に付着したパラフィンの解離を、少なくとも５％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、少なくとも５０％、または最大５％、最大１０％、最大１５％、最大２０％、最大２５％、最大３０％、最大３５％、最大４０％、最大４５％、最大５０％、または約５％、約１０％、約１５％、約２０％、約２５％、約３０％、約３５％、約４０％、約４５％、約または５０％増加しうる。一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させながら組織試料を再水和することを含む。一部の例では、解離工程は、溶液温度を５℃～６０℃に維持することを含む。溶液は、約１８℃～約２０℃、または約４℃～約７℃の温度でもよい。溶液は、約４０℃、または約２０℃、または約７℃の温度であってもよい。したがって、試料の温度を約６０℃未満、例えば、約４５℃未満、約２０℃未満、約１０℃未満に維持しつつ、解離を行うことができる。

一部の例では、方法は、試料を９０～１００℃に加熱するまで組織試料を容器内で５０℃未満に維持することをさらに含む。

一部の例では、解離工程は、組織試料を集束音響エネルギーに曝露させる前に、溶液および容器内の組織試料にプロテアーゼ（例えば、プロテイナーゼＫまたはトリプシン）を添加することを含む。処理された試料およびプロテアーゼ含有溶液を、例えば、１０～３０秒（またはそれ以上）間、２回目に集束音響エネルギーに曝露させ、試料とプロテアーゼの混合を強化し、それによって酵素活性を増強してもよい。一実施形態では、３０秒間以下（例えば、１０秒）の音響処理は、試料中のタンパク質をさらに加水分解するために、試料をプロテアーゼで培養する前にプロテアーゼを試料と適切に混合する役割を果たしうる。また、酵素活性およびプロテアーゼ作用の促進役としての音響エネルギーの効果をさらに高めるために、プロテアーゼにグリセロール材料を含めることを使用することができる。この混合処理は、例えば、接触媒質１６を約４６℃、約２０℃、約７℃の温度といった５～４６℃の温度で試料に行うことができるが、他の温度も可能である。一部の例では、方法はプロテアーゼを不活化することを含む。一部の例では、プロテアーゼの不活化は容器を約９８℃に加熱することを含む。

一実施形態では、解離工程は、核酸材料のせん断を回避するのに好適な強度で組織試料（例えば、ＦＦＰＥ試料）を集束音響エネルギーに曝露させることを含む。一つ以上の解離工程において組織試料を集束音響エネルギーに曝露させた後の核酸材料の断片の大部分は、１０００ｂｐ以上のサイズを有する。次いで、核酸材料または核酸材料の断片を、本明細書に提供されるように染色体立体構造捕捉法に供することができる。

本明細書に提供される方法およびシステムは、解離工程を１回以上繰り返すことをさらに含んでもよい。一部の例では、方法は、容器を約４℃～約７℃に維持しつつ解離工程を繰り返すことをさらに含む。一部の例では、方法は、容器を約１８℃～約２０℃に維持しつつ解離工程を１回以上繰り返した後、容器を約４℃～約７℃に維持しつつ最終的な解離工程を行うことをさらに含む。最初の解離工程と同様に、溶液（例えば、本明細書に記載される非溶媒溶液）が添加された前回の解離後に容器に残っている組織試料に対して、各追加の解離工程を行うことができる。最終的な解離工程は、前回の各解離から単離された溶液（例えば、水溶液）に対して実施される。

一実施形態では、音響処理装置は、本明細書に提供される方法およびシステムに存在する解離工程で利用される。音響処理装置は、ホルマリン固定、パラフィン包埋組織試料、および非溶媒、水溶液を保持する容器、および試料が容器内にありかつ音響エネルギー源から分離されている間に、試料に音響エネルギーを提供するための音響エネルギー源を含みうる。容器ホルダーは、少なくとも部分的に音響エネルギーの集束帯内にある位置で容器を支持してもよく、システム制御回路は、試料からパラフィンを解離するのに適した集束音響エネルギーに試料を曝露させ、試料の生体分子の回収を可能にするために、音響エネルギー源を制御してもよい。本明細書に提供される方法およびシステムにおいて提供される解離工程で使用するための集束音響エネルギーは、約１００キロヘルツ～約１００メガヘルツの周波数を有しうる。集束音響エネルギーは、幅が約２センチメートル未満の集束帯を有しうる。集束音響エネルギーは、容器から間隔を置き、かつ容器の外部にある音響エネルギー源（例えば、音響処理装置）に由来する可能性があり、音響エネルギーの少なくとも一部は容器の外部に伝搬する。一部の例では、集束音響エネルギーは、１０％～３０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、約１５％または約２０％の負荷時間率を有する。一部の例では、集束音響エネルギーは、６０Ｗ～９０Ｗのピーク強度パワーを有する。一部の例では、集束音響エネルギーは、約７５Ｗのピーク強度パワーを有する。一部の例では、本明細書に提供される任意の方法での各解離工程は、２００サイクル／バースト（ｃｐｂ）で実施される。一部の例では、保存された試料（例えば、ＦＦＰＥ組織試料）から核酸を抽出するために集束音響エネルギーを使用する、本明細書で提供される方法はいずれも、ＡＦＡが、負荷時間率２０％、ピーク強度７５Ｗ、および２００サイクル／バーストで５分間実行されるような少なくとも一つの解離工程を含む。一部の例では、本明細書に提供される方法は、第一の解離工程が、ＡＦＡを使用して負荷時間率２０％、ピーク強度７５Ｗおよび２００サイクル／バーストで５分間実施され、一方で、第二の解離工程が、ＡＦＡを使用して負荷時間率１５％、ピーク強度７５Ｗ、および２００サイクル／バーストで１０分間実施されるような第一の解離工程と第二の解離工程とを含む。一部の例では、本明細書に提供される方法は、最終的な解離工程が、ＡＦＡを使用して負荷時間率１５％、ピーク強度７５Ｗ、および２００サイクル／バーストで１０分間実施されることを除き、各解離工程が、ＡＦＡを使用して負荷時間率２０％、ピーク強度７５Ｗおよび２００サイクル／バーストで５分間実施されるような二つ以上の解離工程とを含む。

一つの実施形態では、解離工程は、組織試料中のホルムアルデヒド架橋を維持する。この実施形態に加えて、次いで、処理された試料は、本明細書に記載される染色体立体構造捕捉（例えば、Ｈｉ－Ｃ）および染色体構造バリアントの同定（例えば、シーケンシングを介して）に供される。

サイズ選択
保存された（例えば、ＦＦＰＥ）生体試料から得られた核酸を断片化して、本明細書で提供される染色体立体構造捕捉法による分析のために好適な断片を生成することができる。鋳型核酸は、様々な機械的方法、化学的方法および／または酵素的方法を使用して、所望の長さまで断片化またはせん断されてもよい。ＤＮＡは、超音波処理、例えばＣｏｖａｒｉｓ法、ＤＮａｓｅへの短時間の曝露、または一つ以上の制限酵素の混合物またはトランスポザーゼもしくは切断酵素を使用して、無作為にせん断されてもよい。ＲＮＡは、ＲＮａｓｅへの短時間の曝露、加熱＋マグネシウム、またはせん断によって断片化されうる。ＲＮＡはｃＤＮＡに変換されてもよい。断片化が採用される場合、ＲＮＡは、断片化の前後にｃＤＮＡに変換されてもよい。一部の実施形態では、生体試料からの核酸は、超音波処理によって断片化される。その他の実施形態では、核酸は、ハイドロシヤー装置によって断片化される。一般に、個々の核酸鋳型分子は、約２ｋｂ塩基～約４０ｋｂ塩基とすることができる。様々な実施形態において、核酸は、約６ｋｂ～１０ｋｂの断片であってもよい。一実施形態では、保存された組織試料からの核酸は、ＷＯ２０１８１９５１５３号に記載される集束音響エネルギーを使用して断片化され、これは参照により本明細書に組み込まれる。

一実施形態では、架橋ＤＮＡ分子は、サイズ選択工程に供されてもよい。核酸のサイズ選択は、特定のサイズ以下または特定のサイズを超える架橋ＤＮＡ分子に対して実施されてもよい。サイズ選択は、架橋の頻度および／または断片化方法によって、例えば、高頻度または低頻度で切断する制限酵素を選択することによって、さらに影響を受けうる。一部の実施形態では、組成物は、約１ｋｂ～５Ｍｂ、約５ｋｂ～５Ｍｂ、約５ｋｂ～２Ｍｂ、約１０ｋｂ～２Ｍｂ、約１０ｋｂ～１Ｍｂ、約２０ｋｂ～１Ｍｂ、約２０ｋｂ～５００ｋｂ、約５０ｋｂ～５００ｋｂ、約５０ｋｂ～２００ｋｂ、約６０ｋｂ～２００ｋｂ、約６０ｋｂ～１５０ｋｂ、約８０ｋｂ～１５０ｋｂ、約８０ｋｂ～１２０ｋｂ、または約１００ｋｂ～１２０ｋｂの範囲、またはこれらの数値を境界とする範囲（例えば、約１５０ｋｂ～１Ｍｂ）のＤＮＡ分子の架橋を含めて調製されうる。

一部の実施形態では、試料ポリヌクレオチドは、一つ以上の特定のサイズ範囲の断片化されたＤＮＡ分子集団に断片化される。一部の実施形態では、断片は、出発ＤＮＡの少なくとも約１、約２、約５、約１０、約２０、約５０、約１００、約２００、約５００、約１０００、約２０００、約５０００、約１０，０００、約２０，０００、約５０，０００、約１００，０００、約２００，０００、約５００，０００、約１，０００，０００、約２，０００，０００、約５，０００，０００、約１０，０００，０００以上のゲノム等価物から生成されうる。断片化は、化学的断片化、酵素的断片化、および機械的断片化を含む、当分野で既知の方法によって達成されうる。一部の実施形態では、断片は、約１０～約１０，０００、約２０，０００、約３０，０００、約４０，０００、約５０，０００、約６０，０００、約７０，０００、約８０，０００、約９０，０００、約１００，０００、約１５０，０００、約２００，０００、約３００，０００、約４００，０００、約５００，０００、約６００，０００、約７００，０００、約８００，０００、約９００，０００、約１，０００，０００、約２，０００，０００、約５，０００，０００、または約１０，０００，０００以上のヌクレオチドの平均長さを有する。一部の実施形態では、断片は、約１ｋｂ～約１０Ｍｂの平均長さを有する。一部の実施形態では、断片は、約１ｋｂ～５Ｍｂ、約５ｋｂ～５Ｍｂ、約５ｋｂ～２Ｍｂ、約１０ｋｂ～２Ｍｂ、約１０ｋｂ～１Ｍｂ、約２０ｋｂ～１Ｍｂ、約２０ｋｂ～５００ｋｂ、約５０ｋｂ～５００ｋｂ、約５０ｋｂ～２００ｋｂ、約６０ｋｂ～２００ｋｂ、約６０ｋｂ～１５０ｋｂ、約８０ｋｂ～１５０ｋｂ、約８０ｋｂ～１２０ｋｂ、または約１００ｋｂ～１２０ｋｂ、またはこれらの数値を境界とする範囲（例えば、約６０～１２０ｋｂ）の平均長さを有する。一部の実施形態では、断片は、約１０Ｍｂ未満、約５Ｍｂ未満、約１Ｍｂ未満、約５００ｋｂ未満、約２００ｋｂ未満、約１００ｋｂ未満、または約５０ｋｂ未満の平均長さを有する。その他の実施形態では、断片は、約５ｋｂ超、約１０ｋｂ超、約５０ｋｂ超、約１００ｋｂ超、約２００ｋｂ超、約５００ｋｂ超、約１Ｍｂ超、約５Ｍｂ超、または約１０Ｍｂ超の平均長さを有する。

一部の実施形態では、断片化は、試料ＤＮＡ分子を音響超音波処理に供することなどを含め、機械的に達成される。一部の実施形態では、断片化は、二本鎖核酸切断を生成するために、一つ以上の酵素に適した条件下で、一つ以上の酵素により試料のＤＮＡ分子を処理することを含む。ＤＮＡ断片の生成に役立つ酵素の例としては、配列特異的ヌクレアーゼおよび非配列特異的ヌクレアーゼが挙げられる。ヌクレアーゼの非限定的な例としては、ＤＮａｓｅＩ、Ｆｒａｇｍｅｎｔａｓｅ、制限エンドヌクレアーゼ、そのバリアント、およびそれらの組み合わせが挙げられる。例えば、ＤＮａｓｅＩを用いた消化は、Ｍｇ＋＋の非存在下、およびＭｎ†の存在下で、ＤＮＡ中のランダムな二本鎖切断を誘発することができる。一部の実施形態では、断片化は、試料のＤＮＡ分子を一つ以上の制限エンドヌクレアーゼで処理することを含む。断片化は、５’オーバーハング、３’オーバーハング、平滑末端、またはそれらの組み合わせを有する断片を産生することができる。断片が一つ以上の制限エンドヌクレアーゼの使用を含む場合などの一部の実施形態では、試料のＤＮＡ分子の切断は、予測可能な配列を有するオーバーハングを残す。一部の実施形態では、方法は、カラム精製またはアガロースゲルからの単離などの標準方法を介して断片のサイズを選択する工程を含む。

染色体構造バリアント
本開示は、対象中の一つ以上の染色体構造バリアントを検出するための方法およびシステムを提供する。

本明細書で使用される場合、「染色体」という用語は、細胞のゲノムのすべてまたは一部を含むクロマチン複合体を指す。細胞のゲノムは多くの場合、その核型によって特徴付けられるが、核型は、細胞のゲノムを構成するすべての染色体の集合である。細胞のゲノムは、一つ以上の染色体を含む場合がある。ヒトにおいて、各染色体は、短腕（「プチ（ｐｅｔｉｔ）」に対して「ｐ」と称される）および長腕（「キュー（ｑｕｅｕｅ）」に対して「ｑ」と称される）を有する。

各染色体の腕は、顕微鏡を使用して従来的な核型分析で見ることができる領域または細胞遺伝学的バンドに分割される。バンドは、ｐ１、ｐ２、ｐ３など、セントロメアからテロメアへ向かって数えてラベルされる。バンド内の高分解能のサブバンドも、染色体中の領域を特定するために使用されることがある。サブバンドも、セントロメアからテロメアに向かって番号付けされる。染色体のバンドおよび染色体の命名法に関する情報は、Ｓｔｒａｃｈａｎ，Ｔ．ａｎｄＲｅａｄ，Ａ．Ｐ．１９９９．ＨｕｍａｎＭｏｌｅｃｕｌａｒＧｅｎｅｔｉｃｓ，２ｎｄｅｄ．ＮｅｗＹｏｒｋ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓの３７－３９頁に見出すことができる。

「核酸」、「ポリヌクレオチド」、および「オリゴヌクレオチド」という用語は相互互換的に使用され、一本鎖型または二本鎖型のいずれかのデオキシリボヌクレオチドポリマーまたはリボヌクレオチドポリマーを指す。本開示の目的に対し、これらの用語は、ポリマーの長さに関連した限定と解釈されるべきではない。当該用語は、天然ヌクレオチドの公知のアナログ、ならびに塩基、糖および／またはリン酸部分において改変されているヌクレオチドを包含しうる。概して、特定のヌクレオチドのアナログは、同じ塩基対特異性を有する（例えば、Ａのアナログは、Ｔと塩基対形成する）。特定の同一性および順序のデオキシリボ核酸（ＤＮＡ）のポリヌクレオチドは、本明細書において、「ＤＮＡ配列」とも呼称される。染色体は、タンパク質（例えば、ヒストン）と複合体化されたポリヌクレオチドを含む。

本明細書で使用される場合、「構造バリアント」、「染色体構造バリアント」、「ＣＳＶ」または「ＳＶ」という用語は、同一種内または近縁種内の他の個体のゲノム中の染色体と比較した、個体の染色体の構造における差異を指す。染色体構造における差異には、染色体中のＤＮＡ配列の配置および同一性における差異が包含される。染色体中のＤＮＡ配列の配置における差異は、他の配列と比較した染色体上のＤＮＡ配列の位置における差異（例えば、転座）、および他の配列と比較した方向性における差異（例えば、逆位）の両方を含む。染色体に沿ったＤＮＡ配列の同一性における差異は、例えば、一つの染色体から別の非相同染色体への移動配列を介した、新規配列および欠落配列の両方を含みうる。

染色体構造の変動は、サイズが小さくても大きくてもよく、数十塩基対、数百塩基対、数キロ塩基、数メガ塩基、またはさらには個々の染色体のかなりの部分（例えば、半分、３分の１、または４分の３）を包含する。全サイズの染色体構造の変動が、本開示の範囲内である。

染色体構造バリアントには複数のタイプがあり、そのすべてが、本開示の方法およびシステムの範囲内であると想定される。染色体構造バリアントのタイプの非限定的な例としては、転座、均衡転座、不均衡転座、複合転座、逆位、欠失、重複、反復伸長、または環状が挙げられる。

本明細書で使用される場合、「転座」という用語は、非相同の染色分体間のＤＮＡ配列の交換、同じ染色分体上の二つ以上の位置間のＤＮＡ配列の交換、または減数分裂中の交差の結果ではない相同の染色分体間のＤＮＡ配列の交換を指す。転座は、遺伝子融合を生じさせる可能性があり、遺伝子融合は、通常は互いに隣接していない二つの遺伝子が近接した時に発生する。あるいは、または加えて、転座は、転座の境界で遺伝子を破壊することにより、遺伝子の機能を破損する可能性がある。例えば、転座は、遠位制御因子からオープンリーディングフレーム（ＯＲＦ）を離れさせ、またはオープンリーディングフレームを新たな制御因子に近接させ、その結果、遺伝子の発現に影響を及ぼす可能性がある。あるいは、または加えて、転座の切断点が、遺伝子の真ん中で発生する可能性もあり、その結果、遺伝子切断が生じる。「切断点」とは、転座中に染色体が切断される染色体の点または領域を指す。「切断点ジャンクション」とは、転座に関与した染色体の様々な部分が結び合わされる、染色体の領域を指す。あるいは、または加えて、転座は、例えば、ＤＮＡ配列を強い遺伝子発現の領域（例えば、ユークロマチン）から遺伝子発現が低い領域（例えば、ヘテロクロマチン）へとＤＮＡ配列を移動させ、またはその逆に移動させるなど、核内の新たなクロマチン環境下へと遺伝子を移動させることにより、転座内に含有された一つ以上の遺伝子の発現に影響を及ぼしうる。転座ごとに、遺伝子発現に転座は何も影響を及ぼさない場合もあり、一つの遺伝子に影響を及ぼす場合もあり、または複数の遺伝子に影響を及ぼす場合もある。

本明細書で使用される場合、「均衡転座」という用語は、非相同の染色分体間のＤＮＡの相互交換、または減数分裂中の交差の結果ではない相同の染色分体間のＤＮＡの相互交換を指す。「均衡転座」は、転座中に遺伝物質は失われず、すべての遺伝物質が交換中に保存される転座である。「不均衡転座」では、交換中に遺伝物質が失われる。

本明細書で使用される場合、「相互転座」という用語は、二つの切断された染色体間の断片の相互的な交換を伴う転座を指す。相互転座では、一つの染色体の一部が、別の染色体の一部と一体化する。

本明細書で使用される場合、「バリアント転座」、「異常転座」、または「複合転座」という用語は、第一の転座に続いて、二次的な再配列に置かれた第三の染色体の関与を指す。

転座は、染色体内であってもよく（再配列切断点は、同じ染色体内に存在する）、または染色体間であってもよい（再配列切断点は、二つの異なる染色体の間にある）。

本明細書で使用される場合、「逆位」という用語は、同じ染色体内のＤＮＡ配列の再配列を指す。逆位は、染色体内のＤＮＡ配列の向きを変える。

本明細書で使用される場合、「欠失」とは、ＤＮＡ配列の喪失を指す。欠失は、数個のヌクレオチドから染色体全体に及ぶ、任意のサイズでありうる。転座は、例えば転座切断点で、欠失を伴うことが多い。

本明細書で使用される場合、「重複」という用語は、ＤＮＡ配列の重複を指す（例えば、ゲノムが、二つではなく三つのＤＮＡコピーを含有する）。重複は、数個のヌクレオチドから染色体全体に及ぶ、任意のサイズでありうる。転座は、重複を伴うことが多い。

本明細書で使用される場合、「反復伸長」という用語は、対象間で変化するコピー数を有する、ゲノム中の縦列反復配列を指す。反復配列の反復数が平均よりも大きい場合、当該反復配列は伸長されている。反復配列は、２、３、４、５、６、７、８、９、１０個またはそれ以上の反復ヌクレオチドを含みうる。反復の伸長は、限定されないが、ハンチントン病、脊髄小脳失調症、脆弱Ｘ症候群、筋強直性ジストロフィー、フリードライヒ失調症、および若年性ミオクローヌスてんかんを含む、多くの遺伝的障害と関連付けられている。

すべてのタイプの染色体構造バリアントが、本開示の方法およびシステムを使用して特定されることができる。

一部の実施形態では、本開示の方法およびシステムによって特定される染色体構造バリアントは、当分野で公知の染色体バリアントである。例えば、本開示の方法によって特定される染色体構造バリアントは、過去に報告され、特徴解析されている染色体構造バリアントである。当分野における染色体構造バリアントの報告には、例えば核型分析法、シーケンシングまたはサザンブロッティングなど、当分野で公知の技術を使用して、染色体構造バリアントの一つ以上の切断点をマッピングすることが含まれる。染色体構造バリアントが、疾患または障害を引き起こすことが知られているこれらの実施形態では、公知の染色体構造バリアントの報告には、例えば対象の症状、予後および推奨される治療過程などの臨床データが含まれる。

一部の実施形態では、本開示の方法およびシステムによって特定される染色体構造バリアントは、新規の染色体バリアントである。新規の染色体構造バリアントは、当分野で過去に報告されていないバリアントである。新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントと類似する場合もある。例えば、染色体構造バリアントは、類似したバリアントが複数の個体にわたって独立して発生するという点で、再発性であってもよく、または再発性バリアントを有する各個体が、わずかに異なる切断点を有するバリアントを含むという点で、新規であってもよい。一部の実施形態では、新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントの切断点と似た配置をされる一つ以上の切断点を有する。似た配置をされる切断点は、当分野に公知の染色体構造バリアントの切断点の５０ｂｐ以内、１００ｂｐ以内、５００ｂｐ以内、１ｋｂ以内、５ｋｂ以内、１０ｋｂ以内、２０ｋｂ以内、５０ｋｂ以内、１００ｋｂ以内、２００ｋｂ以内、または５００ｋｂ以内、または１ＭＢ以内の切断点を含む。一部の実施形態では、新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントの切断点と同一である一つ以上の切断点、および当分野で公知の染色体構造バリアントの切断点と同一ではない一つ以上の切断点を有する。一部の実施形態では、新規の染色体構造バリアントは、当分野で公知の染色体構造バリアントと類似の切断点または同一の切断点を有さない。

染色体構造バリアントの提示
本開示は、対象において一つ以上の染色体構造バリアントを検出し、当業者（例えば、臨床医、医師、患者または研究者）によって容易に解釈されうる様式で、当該染色体構造バリアントを表すためのシステムおよび方法を提供する。

一部の実施形態では、染色体構造バリアントは、核型として表される。核型分析は、染色体構造バリアントを特定するために使用される従来的な方法である。核型分析では、細胞の発生は中期の間に停止され、結合した染色分体が抽出され、染色されて写真撮影される。染色分体の構造特性は、染色体の細胞遺伝学的バンドパターンを使用してマッピングされる。核型分析は高価で時間がかかり、分解能も限定的である。従来的な核型分析は、核型分析内の細胞遺伝学的バンドおよびサブバンドに依存して染色体構造バリアントの境界をマッピングしている。そのため、核型分析の細胞遺伝学的バンドよりも微細（小さい）染色体構造バリアントを分解することができず、典型的には、最小分解能は約５Ｍｂである。対照的に、本開示のシステムおよび方法は、従来的な核型分析よりも少なくとも１，０００微細な分解能を実現することができる。

従来的な核型分析の結果は、核型分析のスプレッドとして表されることができ、核型分析で解析され、染色されて、細胞遺伝学的バンドを特定し、順序付けられたペアで配置されたすべての染色体の画像である。一方で本開示の方法は、従来的な核型分析よりも優れた分解能を提供し、本開示の方法によって特定される染色体構造バリアントは、核型または核型分析のスプレッドとして表されることができる。これにより、従来的な核型分析に基づく染色体構造バリアントの特定に精通し、訓練を受けうる医師や臨床医による、本開示の染色体構造バリアントデータの解釈が容易となる。

一部の実施形態では、本開示染色体構造バリアントは、核型として表される。

臨床染色体構造バリアント
本開示は、対象中の一つ以上の染色体構造バリアントを検出し、当該一つ以上の染色体構造バリアントを、関連する生物学的情報にさらに関連付けるための方法およびシステムを提供する。関連する生物学的情報には、限定されないが、バリアントの臨床的な重要性、関連する疾患または障害、その症状、関連する遺伝子および／または遺伝子変異、遺伝子発現に対する染色体構造バリアントの影響、ならびに推奨される治療または療法過程が含まれる。

一部の実施形態では、本開示のシステムおよび方法によって特定される染色体構造バリアントは、一つ以上の疾患または障害を引き起こす。

一部の実施形態では、疾患または障害を引き起こす染色体構造バリアントは、遺伝性である。すなわち、染色体構造バリアントは、生殖細胞系列を介して親から子孫へと伝達される。すべての遺伝性染色体構造バリアントは、本開示のシステムおよび方法の範囲内である。

他の代替的な実施形態では、疾患または障害を引き起こす染色体構造バリアントは、体細胞性である。すなわち、染色体構造バリアントは、個体の細胞中で新たに発生する。体細胞性染色体構造バリアントが生じる発生中の時期に応じて、体細胞性染色体構造バリアントは、生物体中のすべての細胞に発生する可能性があり（染色体構造バリアントは、最初の細胞分裂の前に発生する）、または生物体中の細胞のサブセットに発生する可能性がある（染色体構造バリアントは、発生の後期に、または成人において生じる）。すべての細胞に発生する可能性のある障害の例としては、例えば、ターナー症候群（Ｘ染色体モノソミー）およびダウン症候群（トリソミー２１）などの異数性が挙げられる。

欠失から生じるハプロ不全により生じる障害の例としては、ウィリアムズ症候群、ランガー・ギーディオン症候群、ミラー・ディカー症候群、およびディジョージ／口蓋心臓顔面症候群が挙げられる。すべての体細胞性染色体構造バリアントは、本開示のシステムおよび方法の範囲内である。

一部の実施形態では、染色体構造バリアントによって生じる疾患または障害は、対象中に新たに発生する染色体構造バリアントによって生じる。一部の実施形態では、新たに生じる染色体構造バリアントは、再発性構造バリアントである。多くの染色体構造バリアントは、同一または類似の染色体構造バリアントが複数の個体において新たに発生するという点で、再発性である。これらの個体は、必ずしも関連性があるわけではない。多くの場合、再発性染色体構造バリアントは、隣接セグメントの重複によって介在される非アレル相同組み換えによって引き起こされる。非アレル相同組み換えにおいて、例えば類似の反復ＤＮＡ配列を含有するＤＮＡ配列などの非相同性のＤＮＡ配列間の不適切な交差が、タンデムまたは直接的な重複および欠失をもたらす。再発性染色体構造バリアントによって引き起こされる疾患および障害の非限定的な例としては、シャルコー・マリー・トゥース病、圧迫性麻痺に起因する遺伝性ニューロパチー、プラダー・ウィリー症候群、アンジェルマン症候群、スミス・マゲニス症候群、ディジョージ／口蓋心臓顔面症候群（ＤＧＳ／ＶＣＦＳ）、ウィリアムズ・ボイレン症候群、およびソトス症候群が挙げられる。

染色体構造バリアントのデータベースは、当業者に公知である。例えば、染色体構造バリアント、ならびにそれらの関連する疾患および障害、ならびにこれら疾患および障害に対する治療に関する生物学的情報は、ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ（ｗｗｗ．ｏｍｉｍ．ｏｒｇ）、ｔｈｅＭｉｔｅｌｍａｎＤａｔａｂａｓｅｏｆＣｈｒｏｍｏｓｏｍｅＡｂｅｒｒａｔｉｏｎａｎｄＧｅｎｅＦｕｓｉｏｎｉｎＣａｎｃｅｒ（ｃｇａｐ．ｎｃｉ．ｎｉｈ．ｇｏｖ／Ｃｈｒｏｍｏｓｏｍｅｓ／Ｍｉｔｅｌｍａｎ）、およびｔｈｅＮＣＢＩｄａｔａｂａｓｅ（ｗｗｗ．ｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖ／ｃｌｉｎｖａｒ？ｔｅｒｍ＝３００００５［ＭＩＭ］）に見出すことができる。

染色体構造バリアントならびに関連する疾患および障害は、国立衛生研究所の遺伝性希少疾患情報センター（ｒａｒｅｄｉｓｅａｓｅｓ．ｉｎｆｏ．ｎｉｈ．ｇｏｖ／ｄｉｓｅａｓｅｓ／ｄｉｓｅａｓｅｓ－ｂｙ－ｃａｔｅｇｏｒｙ／３６／ｃｈｒｏｍｏｓｏｍｅ－ｄｉｓｏｒｄｅｒｓ）にも記載されている。

一部の実施形態では、染色体構造バリアントは、対象の組織中のすべての細胞には発生しない。一部の実施形態では、染色体構造バリアントを伴う細胞は、対象の癌細胞である。癌を有する対象は、一つ以上の染色体構造バリアントを伴う癌細胞を有することがあり、一方で対象の非癌性細胞は、染色体構造バリアントを有さず、または対象の癌細胞に見られる染色体構造バリアントと同じ染色体構造バリアントを有さない。

癌は、例えば、腫瘍、新生物、癌腫、肉腫、芽腫、白血病、リンパ腫などの悪性新生細胞の増殖によって引き起こされる疾患である。例えば、癌としては限定されないが、中皮腫、例えば皮膚Ｔ細胞リンパ腫（ＣＴＣＬ）、非皮膚末梢Ｔ細胞リンパ腫、成人Ｔ細胞白血病／リンパ腫（ＡＴＬＬ）などのヒトＴ細胞白血球ウイルス（ＨＴＬＶ）に関連するリンパ腫、Ｂ細胞リンパ腫、急性非リンパ性白血病、慢性リンパ性白血病、慢性骨髄性白血病、急性骨髄性白血病、リンパ腫、および多発性骨髄腫、非ホジキンリンパ腫、急性リンパ性白血病（ＡＬＬ）、慢性リンパ性白血病（ＣＬＬ）、ホジキンリンパ腫、バーキットリンパ腫、成人Ｔ細胞白血病リンパ腫、急性骨髄性白血病（ＡＭＬ）、慢性骨髄性白血病（ＣＭＬ）などの白血病およびリンパ腫、または肝細胞癌が挙げられる。さらなる例としては、骨髄異形成症候群、例えば脳腫瘍などの小児固形腫瘍、神経芽腫、網膜芽細胞腫、ウィルムス腫瘍、骨腫瘍および軟部組織肉腫、例えば頭頸部癌（例えば、口腔、喉頭、鼻咽頭および食道）などの成人の普遍的な固形腫瘍、尿生殖器癌（例えば、前立腺、膀胱、腎臓、子宮、卵巣、精巣）、肺癌（例えば、小細胞および非小細胞）、乳癌、膵臓癌、メラノーマおよび他の皮膚癌、胃癌、脳腫瘍、ゴーリン症候群に関連する腫瘍（例えば、髄芽細胞腫、髄膜腫）、および肝癌が挙げられる。

ほとんどの癌は、癌の発生中に、本開示のシステムおよび方法により特定されうる一つ以上のクローン性の染色体構造バリアントを獲得する。多くの場合、再発性染色体構造バリアントは、特定の形態学的特徴および臨床的な疾患特性と関連している。癌細胞中の構造バリアントは、癌原遺伝子および腫瘍抑制因子の発現および／または機能に影響を及ぼす可能性がある。染色体構造バリアントにより生じる遺伝子発現の変異および変化が、腫瘍細胞の増殖と浸潤の増加、および腫瘍血管新生を促進するために、癌細胞中の構造バリアントは、癌細胞それ自体の進行を促進することもできる。癌試料の癌細胞中の特定の染色体構造バリアントを特定することにより、より効果的な癌治療選択が可能となる。これらの治療法は、癌細胞中の特定の染色体構造バリアントに関連する遺伝子発現の変化および癌病理に合わせて調整することができる。したがって、癌中の染色体構造バリアントの迅速および効果的な特定は、癌の診断および治療手段の重要な部分である。

一部の実施形態では、癌細胞中の構造バリアントは、癌の進行を促進する新規の融合タンパク質を生成する。癌に関連する融合タンパク質を生じさせる染色体構造バリアントの非限定的な例のリストは、Ｈａｓｔｙ，Ｐ．ａｎｄＭｏｎｔａｇｎａ，Ｃ．（２０１４）Ｍｏｌ．Ｃｅｌｌ．Ｏｎｃｏｌ．：ｅ２９９０４に記載がある。現在、ＣａｎｃｅｒＧｅｎｏｍｅＡｎａｔｏｍｙＰｒｏｊｅｃｔ（ｃｇａｐ．ｎｃｉ．ｎｉｈ．ｇｏｖ／Ｃｈｒｏｍｏｓｏｍｅｓ／Ｍｉｔｅｌｍａｎ）において、２１，４７７件の遺伝子融合が記録され、６９，１３４件の症例が記録されている。それらすべてが、本開示の範囲内にあると予期される。

一部の実施形態では、癌細胞中の染色体構造バリアントは、遺伝子制御および遺伝子発現における変化をもたらし、このことが癌の進行の原因となる。染色体構造バリアントは、癌から細胞を保護する遺伝子である、一つ以上の腫瘍抑制因子の下方制御をもたらす場合もある。例えば、腫瘍抑制因子の近くに切断点を有する染色体構造バリアントは、制御因子から、腫瘍抑制因子のコード配列を離してしまう場合がある。あるいは、またはさらに、染色体構造バリアントは、一つ以上の癌原遺伝子を、癌進行を促進する癌遺伝子へと転換させる場合もある。例えば、癌原遺伝子の近くに切断点を有する染色体構造バリアントは、当該癌原遺伝子を新たな制御因子の近傍へと移動させ、これにより発現の上方制御がもたらされうる。本開示の染色体構造バリアントによって下方制御されうる例示的な腫瘍抑制因子としては、限定されないが、ｐ５３、Ｒｂ、ＰＴＥＮ、ＩＮＫ４、ＡＰＣ、ＭＡＤＲ２、ＢＲＣＡ１、ＢＲＣＡ２、ＷＴ１、ＤＰＣ４およびｐ２１が挙げられる。本開示の染色体構造バリアントによって上方制御されうる例示的な癌遺伝子としては、限定されないが、Ａｂｌ１、ＨＥＲ－２、ｃ－ＫＩＴ、ＥＧＦＲ、ＶＥＧＦ、Ｂ－Ｒａｆ、サイクリンＤ１、Ｋ－ｒａｓ、ベータ－カテニン、サイクリンＥ、Ｒａｓ、ＭｙｃおよびＭＩＴＦが挙げられる。癌原遺伝子と腫瘍抑制因子に影響を及ぼすすべての染色体構造要素が、本開示のシステムおよび方法の範囲内として予期される。

染色体立体構造捕捉
本明細書において、染色体立体構造捕捉技術を使用して、対象中の一つ以上の染色体構造バリアントを特定するシステムおよび方法が提供される。

「染色体立体構造捕捉」および「染色体立体構造分析」という用語は、本明細書において相互互換的に使用される。

本開示の方法は、組織試料（例えば、癌性もしくは正常な組織または細胞）または保存された組織試料（例えば、ＦＦＰＥ試料）から作成された例えばＨｉ－Ｃデータなどの標準的なクロマチン立体構造データを使用しうる。計算方法は、一つ以上の分類器の訓練を含み、複数の主要な用途で使用することができる。一連の選択される分類器には、ディープラーニングモデル、傾斜降下モデル、グラフネットワークモデル、ニューラルネットワークモデル、サポートベクターマシンモデル、エキスパートシステムモデル、決定木モデル、ロジスティック回帰モデル、クラスタリングモデル、マルコフモデル、モンテカルロモデル、または他の機械学習モデル、ならびに例えば尤度モデルなど、観測されたデータを確率的モデルに適合するモデルが含まれうる。一連の分類器は、ラベルされたデータまたはラベルされていないデータにより訓練することができ、これは実際の生体試料から生成することができ、シミュレーションされた変異を有しうるゲノムをシミュレーションすることができ、または敵対的生成ネットワークで使用されるアルゴリズムなどの別のアルゴリズムにより生成することができる。訓練データは、クロマチン立体構造データ、またはそれに由来するデータ（例えば、コンタクトマトリクスであり、および正規化、フィルタリング、圧縮、または平滑化されてもよい）を含み、ならびに当該データに関連する効果、特性、影響、または転帰に関する臨床情報または生物学的情報から成る。

本開示のシステムおよび方法の一部の実施形態では、染色体立体構造捕捉データを使用して訓練される、一つ以上の分類器を使用する。一部の実施形態では、一つ以上の分類器は、実験的に決定された染色体立体構造捕捉データを使用して訓練される。一部の実施形態では、一つ以上の分類器は、シミュレーションされた染色体立体構造捕捉データを使用して訓練される。一部の実施形態では、一つ以上の分類器は、実験的に決定された染色体立体構造捕捉データ、およびシミュレーションされた染色体立体構造捕捉データの組み合わせを使用して訓練される。

一部の実施形態では、一つ以上の機械学習分類器を訓練するために使用される染色体立体構造捕捉データは、実験的に決定された染色体立体構造捕捉データを含む。一部の実施形態では、実験的に決定された染色体立体構造捕捉データは、健康な対象からの複数のリードセットを含む。一部の実施形態では、実験的に決定された染色体立体構造捕捉データは、公知の染色体構造バリアントを有する対象からの複数のリードセットを含む。

染色体立体構造データは、ほぼ空間的近接にあるゲノム領域を化学的に架橋することにより生成される。一実施形態では、染色体立体構造捕捉または近接ライゲーションのための架橋は、組織学検査用の固形組織のホルマリン固定中に生成されるものと本質的に同一であり、それによって、Ｈｉ－ＣはＦＦＰＥ組織との適合性がある。その後、架橋したクロマチンを断片化することができる。断片を一緒にライゲーションして、例えば、ＣＨＩＰ分析、ＰＣＲ分析、またはシーケンシング（例えば、Ｉｌｌｕｍｉｎａペアエンドケミストリー）など、当分野で公知の任意の配列検出方法を使用して検出することができるキメラ配列を作製することができる。これらのキメラＤＮＡ分子を配列決定することで、長距離クロマチン相互作用（プロモーター－エンハンサー相互作用など）のシグナルを捕捉することができる。近接ライゲーションのシーケンシングにおけるシグナルは、染色体上の２つの配列間の直線距離を反映することもできる。

一実施形態では、ＦＦＰＥ組織試料を使用する本明細書に提供される方法およびシステムは、染色体立体構造捕捉のためのＦＦＰＥ試料の調製中に実施される架橋を使用する。次いで、架橋された核酸（例えば、ＤＮＡ）を断片化し、ライゲーションして、後続の配列検出のためにクロマチン／核酸（例えば、ＤＮＡ）複合体を生成することができる。一実施形態では、架橋された核酸（例えば、ＤＮＡ）を、制限酵素消化し、ライゲーションして、ハイスループットシーケンシングによって同定されるクロマチン／核酸（例えば、ＤＮＡ）複合体を生成する。一実施形態では、染色体立体構造捕捉中に架橋核酸（例えば、ＤＮＡ）を消化するために使用される制限酵素は、ＤｐｎＩＩである。得られる検出された配列（例えば、シーケンスリード）は、参照ゲノムなどのゲノムに対してマッピングされ、初期試料を生成するために使用された細胞集団内で各相互作用が発生する頻度が決定される。二つの座位が、ほぼ空間的近接にある場合、当該二つの座位がほぼ空間的近接にない場合よりも、両方の座位をマッピングするＤＮＡ配列を含むより多くのリードを生成することができる。

実験的に決定された染色体立体構造捕捉データは、本明細書に記載の方法を実施するためにシステムによって使用される入力ファイルの一部を形成しうる。リードセットは、クロマチン相互作用技術または染色体立体構造分析技術に基づく任意の適切な方法によって生成されうる。本明細書に記載される実施形態に従い使用されうる染色体立体構造分析技術としては限定されないが、クロマチン立体構造捕捉（３Ｃ：ＣｈｒｏｍａｔｉｎＣｏｎｆｏｒｍａｔｉｏｎＣａｐｔｕｒｅ）、環状化クロマチン立体構造捕捉（４Ｃ：ＣｉｒｃｕｌａｒｉｚｅｄＣｈｒｏｍａｔｉｎＣｏｎｆｏｒｍａｔｉｏｎＣａｐｔｕｒｅ）、炭素コピー染色体立体構造捕捉（５Ｃ：ＣａｒｂｏｎＣｏｐｙＣｈｒｏｍｏｓｏｍｅＣｏｎｆｏｒｍａｔｉｏｎＣａｐｔｕｒｅ）、クロマチン免疫沈降（ＣｈＩＰ：ＣｈｒｏｍａｔｉｎＩｍｍｕｎｏｐｒｅｃｉｐｉｔａｔｉｏｎ、例えば、架橋ＣｈＩＰ（ＸＣｈＩＰ）、ネイティブＣｈＩＰ（ＮＣｈＩＰ）、ＣｈＩＰ－Ｌｏｏｐ、ゲノム立体構造捕捉（ＧＣＣ：ｇｅｎｏｍｅｃｏｎｆｏｒｍａｔｉｏｎｃａｐｔｕｒｅ）（例えば、Ｈｉ－Ｃ、６Ｃ）、Ｃａｐｔｕｒｅ－Ｃ、Ｓｐｌｉｔ－プールバーコード化（ＳＰＬｉＴ－ｓｅｑ）、核ライゲーションアッセイ（ＮＬＡ）、単一細胞Ｈｉ－Ｃ（ｓｃＨｉ－Ｃ）、コンビナトリアル単一細胞Ｈｉ－Ｃ、コンカタマーライゲーションアッセイ（ＣＯＬＡ：ＣｏｎｃａｔａｍｅｒＬｉｇａｔｉｏｎＡｓｓａｙ）、ＣｌｅａｖａｇｅＵｎｄｅｒＴａｒｇｅｔｓａｎｄＲｅｌｅａｓｅＵｓｉｎｇＮｕｃｌｅａｓｅ（ＣＵＴ＆ＲＵＮ）、インビトロ近接ライゲーション（例えば、Ｃｈｉｃａｇｏ（登録商標））、原位置（ｉｎｓｉｔｕ）近接ライゲーション（原位置Ｈｉ－Ｃ）、近接ライゲーションと、それに続くオックスフォードナノポアマシーン（ＯｘｆｏｒｄＮａｎｏｐｏｒｅｍａｃｈｉｎｅ）でのシーケンシング（Ｐｏｒｅ－Ｃ）、パシフィックバイオサイエンスマシーン（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓｍａｃｈｉｎｅ）でシーケンシングされる近接ライゲーション（ＳＭＲＴ－Ｃ）、ＤＮａｓｅＨｉ－Ｃ、Ｍｉｃｒｏ－ＣまたはＨｙｂｒｉｄＣａｐｔｕｒｅＨｉ－Ｃが挙げられる。一部の実施形態では、データセットは、例えばＨｉ－Ｃなどのゲノム規模でのクロマチン相互作用法を使用して生成される。

一部の実施形態では、染色体立体構造データは、細胞集団から生成されることができる。一部の実施形態では、染色体立体構造捕捉データは、クロマチン立体構造捕捉（３Ｃ）により生成される。３Ｃを使用して、３－Ｄ空間中で近傍にあるゲノム座位間の相互作用を定量化することにより、細胞中のクロマチンの構成が分析される。３Ｃは、一つのペアのゲノム座位の間の相互作用を定量化する。一部の実施形態では、染色体立体構造捕捉データは、環状化クロマチン立体構造捕捉（４Ｃ）により生成される。４Ｃは、一つの座位と他のすべてのゲノム座位との間の相互作用を捕捉する。一部の実施形態では、染色体立体構造捕捉データは、炭素コピー染色体立体構造捕捉（５Ｃ）により生成される。５Ｃは、所与の領域内のすべての制限酵素断片の間の相互作用を検出する。一部の実施形態では、領域は、１メガ塩基以下である。一部の実施形態では、染色体立体構造捕捉データは、クロマチン免疫沈降（ＣｈＩＰ；例えば、架橋ＣｈＩＰ（ＸＣｈＩＰ）、ネイティブＣｈＩＰ（ＮＣｈＩＰ））により生成される。一部の実施形態では、染色体立体構造捕捉データは、ＣｈＩＰ－Ｌｏｏｐにより生成される。一部の実施形態では、クロマチン免疫沈降を基にした方法は、クロマチン免疫沈降（ＣｈＩＰ）を基にした富化と、クロマチン近接ライゲーションを組み込んで、長い範囲のクロマチン相互作用を決定する。一部の実施形態では、染色体立体構造捕捉データは、Ｈｉ－Ｃにより生成される。Ｈｉ－Ｃは、ハイスループットシーケンシングを使用して、すべての相互作用のある座位のペアにおいて、両方のパートナーにマッピングされる断片のヌクレオチド配列を見出す。一部の実施形態では、染色体立体構造捕捉データは、Ｃａｐｔｕｒｅ－Ｃにより生成される。Ｃａｐｔｕｒｅ－Ｃは、活性プロモーターおよび不活性プロモーターを含む、ゲノム規模での長距離コンタクトについて選択および富化する。一部の実施形態では、染色体立体構造捕捉データは、ＳＰＬｉＴ－ｓｅｑにより生成される。ＳＰＬｉＴ－ｓｅｑは、単一細胞のトランスクリプトームのプロファイリングに使用されうる技術である。一部の実施形態では、染色体立体構造捕捉データは、核ライゲーションアッセイ（ＮＬＡ）により生成される。３Ｃと同様に、ＮＬＡを使用して、近接を基にしたライゲーション後のＤＮＡの環状化頻度を決定することができる。一部の実施形態では、染色体立体構造捕捉データは、コンカタマーライゲーションアッセイ（ＣＯＬＡ）により生成される。ＣＯＬＡは、ＣｖｉＪＩ制限酵素を使用してクロマチンを消化するＨｉ－Ｃを基にしたプロトコルである。一部の実施形態では、ＣＯＬＡを使用することで、従来のＨｉ－Ｃと比較してより小さな断片が生じる。一部の実施形態では、染色体立体構造捕捉データは、ＣｌｅａｖａｇｅＵｎｄｅｒＴａｒｇｅｔｓａｎｄＲｅｌｅａｓｅＵｓｉｎｇＮｕｃｌｅａｓｅ（ＣＵＴ＆ＲＵＮ）により生成される。ＣＵＴ＆ＲＵＮは、ＤＮＡ結合部位の高分解能マッピングのために標的ヌクレアーゼ戦略を使用する。例えば、ＣＵＴ＆ＲＵＮは、抗体－標的クロマチンプロファイリング法を使用することができ、当該方法では、プロテインＡに繋がれたヌクレアーゼが、選択抗体に結合して、隣接するＤＮＡを切断し、抗体標的に結合されたＤＮＡを放出する。ＣＵＴ＆ＲＵＮは、原位置（ｉｎｓｉｔｕ）で実施することができる。ＣＵＴ＆ＲＵＮは、正確な転写因子またはヒストン修飾プロファイル、ならびに長距離のゲノム相互作用のマッピングを生成することができる。一部の実施形態では、染色体立体構造捕捉データは、ＤＮａｓｅＨｉ－Ｃにより生成される。ＤＮａｓｅＨｉ－Ｃは、クロマチンの断片化にＤＮａｓｅＩを使用しており、従来のＨｉ－Ｃプロトコルの制限酵素関連の制限を克服することができる。一部の実施形態では、染色体立体構造捕捉データは、Ｍｉｃｒｏ－Ｃにより生成される。Ｍｉｃｒｏ－Ｃは、ミクロコッカスヌクレアーゼを使用し、クロマチンをモノヌクレオソームに断片化する。一部の実施形態では、染色体立体構造捕捉データは、ＨｙｂｒｉｄＣａｐｔｕｒｅＨｉ－Ｃにより生成される。ＨｙｂｒｉｄＣａｐｔｕｒｅＨｉ－Ｃは、標的ゲノム捕捉とＨｉ－Ｃを組み合わせて、選択されたゲノム領域を標的化する。

一部の代替的な実施形態では、染色体立体構造捕捉データは、単一細胞から生成されることができる。例えば、染色体立体構造捕捉データは、単一細胞Ｈｉ－Ｃ（ｓｃＨｉ－Ｃ）またはコンビナトリアル単一細胞Ｈｉ－Ｃを使用して作成することができる。単一細胞Ｈｉ－Ｃは、核内ライゲーションを含むことにより、Ｈｉ－Ｃを単一細胞解析に順応させたものである。コンビナトリアル単一細胞Ｈｉ－Ｃは、改変された単一細胞Ｈｉ－Ｃプロトコルであり、ユニークな細胞インデックス化を加えて、１アッセイ当たり数千個の単一細胞中のクロマチンの利用可能性を測定する。

一部の実施形態では、染色体立体構造捕捉データは、原位置、すなわち損なわれていない核において実施される、近接ライゲーションを基にしたプロトコルから作成することができる。

一部の実施形態では、染色体立体構造捕捉データは、インビトロで実施される、近接ライゲーションを基にしたプロトコルから作成することができる。インビトロを基にしたプロトコルの例としては、ＤｏｖｅｔａｉｌＧｅｎｏｍｉｃｓ社のＣｈｉｃａｇｏ（登録商標）が挙げられ、これは開始材料として高分子量のＤＮＡを使用する。一部の実施形態では、入力ＤＮＡは、約２０～２００ｋｂｐである。一部の実施形態では、入力ＤＮＡは、約５０ｋｂｐである。

一実施形態では、対象から得られた保存された組織試料より単離された核酸材料からの染色体立体構造捕捉データの生成は、近接ライゲーションされたポリヌクレオチドのライブラリーを形成するために核酸材料を近接ライゲーションすることと、近接ライゲーションされたポリヌクレオチドのライブラリー内の対のポリヌクレオチド配列を同定することと、を含む。

一実施形態では、対象から得られた保存された組織試料から単離された核酸材料から染色体立体構造捕捉データの生成は、核酸材料を断片化することと、近接ライゲーションされたポリヌクレオチドのライブラリーを形成するために核酸材料を近接ライゲーションすることと、近接ライゲーションされたポリヌクレオチドのライブラリー内の対のポリヌクレオチド配列を同定することと、を含む。

同定工程は、例えば、ＰＣＲ、ＣＨＩＰ、またはシーケンシング分析などの特定の配列を同定または検出するための当分野で既知の任意の方法を含むことができる。一実施形態では、同定工程には、染色体立体構造捕捉データを生成するために近接ライゲーションをシーケンシングすることが関与する。

染色体立体構造捕捉データは、任意のシーケンス法または当分野で公知の次世代シーケンスプラットフォームを使用して作成することができる。例えば、染色体立体構造捕捉データは、近接ライゲーションの後に、ＯｘｆｏｒｄＮａｎｏｐｏｒｅｍａｃｈｉｎｅ（Ｐｏｒｅ－Ｃ）、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓｍａｃｈｉｎｅ（ＳＭＲＴ－Ｃ）、Ｒｏｃｈｅ／４５４シーケンシングプラットフォーム、ＡＢＩ／ＳＯＬｉＤプラットフォーム、またはＩｌｌｕｍｉｎａ／Ｓｏｌｅｘａシーケンシングプラットフォームでのシーケンシングが行われることにより作成されてもよい。

本開示のシステムおよび方法の一部の実施形態では、染色体立体構造捕捉によって作成されたリードをゲノム上にマッピングすることをさらに含む。一部の実施形態では、リードセットは、当分野で公知の任意の適切なアライメント方法、アルゴリズム、またはソフトウェアパッケージによりゲノムとアライメントされてもよい。リードセットをアセンブリと共にアライメントするために使用されうる、適切な短リード配列アライメントソフトウェアとしては限定されないが、ＢａｒｒａＣＵＤＡ、ＢＢＭａｐ、ＢＦＡＳＴ、ＢＬＡＳＴＮ、ＢＬＡＴ、Ｂｏｗｔｉｅ、ＨＩＶＥ－ｈｅｘａｇｏｎ、ＢＷＡ、ＢＷＡ－ＰＳＳＭ、ＢＷＡ－ｍｅｍ、ＣＡＳＨＸ、Ｃｌｏｕｄｂｕｒｓｔ、ＣＵＤＡ－ＥＣ、ＣＵＳＨＡＷ、ＣＵＳＨＡＷ２、ＣＵＳＨＡＷ２－ＧＰＵ、ＣＵＳＨＡＷ３、ｄｒＦＡＳＴ、ＥＬＡＮＤ、ＥＲＮＥ、ＧＡＳＳＳＴ、ＧＥＭ、ＧｅｎａｌｉｃｅＭＡＰ、ＧｅｎｅｉｏｕｓＡｓｓｅｍｂｌｅｒ、ＧｅｎｓｅａｒｃｈＮＧＳ、ＧＭＡＰおよびＧＳＮＡＰ、ＧＮＵＭＡＰ、ＩＤＢＡ－ＵＤ、ｉＳＡＡＣ、ＬＡＳＴ、ＭＡＱ、ｍｒＦＡＳＴおよびｍｒｓＦＡＳＴ、ＭＯＭ、ＭＯＳＡＩＫ、Ｎｏｖｏａｌｉｇｎ＆ＮｏｖｏａｌｉｇｎＣＳ、ＮｅｘｔＧＥＮｅ、ＮｅｘｔＧｅｎＭａｐ、Ｏｍｉｘｏｎ、ＰＡＬＭａｐｐｅｒ、Ｐａｒｔｅｋ、ＰＡＳＳ、ＰｅｒＭ、ＰＲＩＭＥＸ、ＱＰａｌｍａ、ＲａｚｅｒＳ、ＲＥＡＬ、ｃＲＥＡＬ、ＲＭＡＰ、ｒＮＡ、ＲＴＧＩｎｖｅｓｔｉｇａｔｏｒ、Ｓｅｇｅｍｅｈｌ、ＳｅｑＭａｐ、Ｓｈｒｅｃ、ＳＨＲｉＭＰ、ＳＬＩＤＥＲ、ＳＯＡＰ、ＳＯＡＰ２、ＳＯＡＰ３、ＳＯＡＰ３－ｄｐ、ＳＯＣＳ、ＳＳＡＨＡ、ＳＳＡＨＡ２、Ｓｔａｍｐｙ、ＳＴｏＲＭ、ｓｕｂｒｅａｄａｎｄＳｕｂｊｕｎｃ、Ｔａｉｐａｎ、ＵＧＥＮＥ、ＶｅｌｏｃｉＭａｐｐｅｒ、ＸｐｒｅｓｓＡｌｉｇｎ、ならびにＺｏｏｍが挙げられる。

本開示のシステムおよび方法の一部の実施形態では、試料（例えば、保存された組織試料）が取得された対象が既知の染色体構造バリアントを有する可能性を検出または予測するために分類器を適用する前に、参照ゲノムとアライメント不良のリードをフィルタリングすることをさらに含む。分類器は、こうした可能性を予測するための当分野で公知の任意の分類器とすることができる。一実施形態では、分類器は、２０１９年３月２８日に出願された米国特許出願第６２／８２５，４９９号に記載される任意の分類器である。一部の実施形態では、方法は、訓練データセットにおいてアライメント不良のリードをフィルタリングすることを含む。一部の実施形態では、方法は、対象由来のデータにおいてアライメント不良のリードをフィルタリングで取り除くことを含む。一部の実施形態では、リードをフィルタリングすることは、染色体立体構造捕捉リードを参照ゲノム上にマッピングし、低品質のアライメントデータをフィルタリングで取り除くことを含む。例えば、リードは、ＢＷＡ－ｍｅｍを使用して参照ゲノムにアライメントしてもよく、そしてＭＱ２０未満の低品質アライメントデータが除外される。

機械学習分類器
したがって、本明細書では、染色体構造バリアントを有する対象を処理する方法であって、（ａ）対象由来の試料からのリードのテストセットを受け取ることと、（ｂ）対象由来のリードのテストセットを参照ゲノムにアライメントすることと、（ｃ）分類器を訓練して、健康な対象のリードセットと、公知の染色体構造バリアントに対応するリードセットを区別することと、（ｄ）分類器を対象からのマッピングされたリードセットに適用することと、（ｅ）対象が既知の染色体構造バリアントを有する可能性を計算することと、（ｆ）対象の核型分析を生成することと、を含む方法を開示しており、リードのテストセット、健康な対象からのリードセット、および公知の染色体構造バリアントに対応するリードセットは、染色体立体構造分析技術により生成される。

一部の実施形態では、分類器は、深層学習モデル分類器、勾配降下モデル分類器、グラフネットワークモデル分類器、ニューラルネットワークモデル分類器、サポートベクターマシン、エクスポートシステムモデル分類器、決定ツリーモデル分類器、ロジスティック回帰モデル分類器、クラスタリングモデル分類器、マルコフモデル、モンテカルロモデル、または尤度モデル分類器から成る群から選択される。

一部の実施形態では、分類器は、尤度モデル分類器である。尤度モデル分類器は、教師付き機械学習分類器の一種である。

本開示は、尤度モデル分類器を訓練する方法を提供し、方法は、（ｉ）健康な対象に由来する複数のリードセットを分類器へとインポートすること、（ｉ）公知の染色体構造バリアントに対応する複数のリードセットを、分類器へとインポートすること、（ｉｉｉ）染色体構造バリアントのゲノム中の開始位置および終了位置を含む境界矩形、およびラベルとして、公知の染色体構造バリアントの各々を表すこと、（ｉｖ）（ｉ）および（ｉｉ）からのリードセットをゲノム位置により分割すること、（ｖ）（ｉｖ）からの分割されたリードセットを、幾何学的データ構造に変換すること、（ｖｉ）（ｉ）および（ｉｉ）からのリードセットの各々について、任意の二つのゲノム位置の間の相関頻度を、負の二項分布モデルを使用してモデル化すること、および（ｖｉｉ）健康な対象に由来する複数のリードセットからのヌル分布を認識するように、負の二項分布モデルを訓練することであって、負の二項分布モデルが、公知の染色体構造バリアントの各々の境界矩形で、ヌル分布を認識するように訓練されること、を含む。

分類器は、ラベルされた訓練データをインポートすることにより訓練される。一部の実施形態では、訓練データは、染色体構造バリアントのゲノム中の開始および終了位置を含む境界矩形、およびラベルとして、公知の各染色体構造バリアントを表すことを含む。一部の実施形態では、訓練データは、健康な対象に由来する複数のリードセット、および公知の染色体構造バリアントに対応する複数のリードセットを含む。リードセットは、シミュレーションされてもよく、実験的に決定されてもよく、または両方の混合であってもよい。一部の実施形態では、健康な対象に由来するリードセットは、公知の各染色体構造バリアントのゲノム位置に対応するリードを含む。これにより、分類器が、公知の染色体構造バリアントのすべての位置のすべてについて、ヌル分布（ＣＳＶなし）に関する連鎖頻度の分布をモデル化することが可能となる。一部の好ましい実施形態では、訓練データは、独立であり、そして同様に分布するリードセットを含む。一部の実施形態では、インポートされる訓練データは、ゲノム位置によって分割され、例えば２－ｄｋ－ｄツリーまたはマトリクスなどの幾何学的データ構造へと変換される。

一部の実施形態では、対象に由来するテストデータ中の特定の確率分布が仮定され、その必要なパラメータ（例えば、確率モデル）が訓練段階中に計算される。一部の実施形態では、分類器により使用される確率モデルは、訓練データにより決定される。例示的な確率モデルとしては、ベルヌーイモデル、二項モデル、負の二項モデル、多項モデル、ガウスモデル、またはポアソン分布が挙げられる。

一部の実施形態では、確率モデルは、負の二項分布を含む。負の二項分布は、リードカウントデータの過分散を説明することができるという点で、他のモデルよりも有利である。

分類器の学習段階では、入力は訓練データであり、出力は分類器に必要とされるパラメータである。例示的なパラメータとしては、最尤推定（ＭＬＥ）、ベイズ推定（最大事後確率）、または損失基準（ｌｏｓｓｃｒｉｔｅｒｉｏｎ）の最適化が挙げられる。

訓練の後、尤度モデル分類器は、対象に由来する染色体立体構造捕捉リードのマッピングされたセットに適用される。一部の実施形態では、尤度モデル分類器の適用は、変換され、および分割された対象に由来するリードのテストセットを、各公知の染色体構造バリアントに対するヌルモデル、および代替モデルに適合させることを含む。一部の実施形態では、ヌルモデルは、公知の染色体構造バリアントを有さない対象において見られる連鎖頻度の分布である。ヌルモデルへの適合において、尤度モデル分類器は、公知の染色体構造バリアントの存在を探索するのではなく、ヌルモデルの非存在を探索することにより、公知の染色体構造バリアントを特定する。ヌルモデルは、健康な対象に存在する座位の各ペア間の連鎖頻度の分布である。一部の実施形態では、対象に由来するリードの、変換され、分割されたテストセットのヌルモデルへの適合は、ゲノム全体にわたる適合を含む。一部の代替的な実施形態では、適合は、各公知の染色体または下位染色体の構造バリアントの境界矩形に対応するゲノム部分にわたる適合を含む。

一部の実施形態では、方法は、各公知の染色体構造バリアントに関し、変換され、分割されたリードのテストセットのヌルモデルへの適合を、代替モデルと比較した尤度比を計算することを含む。尤度比検定は、ヌルモデル（ＣＳＶなし）と代替モデル（公知ＣＳＶが存在）の二つの統計モデルの適合度を比較するために使用される統計検定である。検定は二つのモデルの尤度の比率に基づいており、データが他のモデルよりも、あるモデルの下にある可能性が何倍高いかを表す。尤度もしくは対数－尤度比の計算方法、または定数係数により拡大縮小されたこれら比率の変換の方法は、当業者に公知である。一部の実施形態では、近接信号は、マトリクスにおいて表され、またはマトリクスの矩形の下位領域においては、焦点座標（ｘ，ｙ）の周囲で四分円にさらに細分されてもよい。一部の実施形態では、マトリクスのデータは、ビン化される。そのような実施形態では、均衡転座、不均衡転座、逆位、挿入、欠失、または他のコピー数変動を含む、様々な構造バリアントに予測される近接信号の変化を記述するための理論モデルを開発してもよい。そのような理論モデルは、ベータ、ガンマ、二項、負の二項、二峰性、多峰性、実験的に適合されたスプライン、ポアソン、ディリクレ、一様、線形、二次、多項、指数関数的、対数的、三角、べき乗則、ベイズ、もしくは他の適切な分布、またはそれらの組み合わせを使用して、理論上、同じ染色体上にあるであろう領域間、異なる染色体上にあるであろう領域間、それらの間に所与の距離もしくは距離範囲を伴い同じ染色体上にあるであろう領域間、所与の相対的配置を伴い同じ染色体上にあるであろう領域間、または互いに対し任意の他の理論上の構造的配置を有するであろう領域間で、近接信号またはその割り当てをモデル化することを含んでもよい。そのような実施形態では、理論モデルは、単一の試料中のデータに基づいて訓練されてもよく、複数試料の訓練セットに対して訓練されてもよく、またはヒトが設定した、もしくは固定されたパラメータを使用して調整されてもよい。そのような実施形態では、焦点座標上に提示され、焦点座標を中心とする所与の理論モデルの尤度は、モデルに与えられた観測データの尤度を測定することにより計算されてもよい。そのような実施形態では、一連のモデルは提示される様々なタイプの構造変動の予測される近接信号を反映しており、所与の領域において観察された近接信号に対して検証されてもよく、最尤推定傾斜降下、ネルダー・ミード法、ブロイデン・フレッチャー・ゴールドファーブ・シャンノ（ＢＦＧＳ：Ｂｒｏｙｄｅｎ－Ｆｌｅｔｃｈｅｒ－Ｇｏｌｄｆａｒｂ－Ｓｈａｎｎｏ）法、二分探索、しらみつぶしの探索、エントロピー最小化法、または任意の他の適切な最適化法もしくは最小化法を使用して、領域は、様々な焦点座標での可能性のあるバリアントの呼び出しについてスキャンされてもよい。そのような実施形態では、複数の理論モデルを、所与の領域において複数の構造バリアントを特定する焦点の組み合わせと比較してもよく、それにより特定の焦点座標での特定の呼び出しバリアントを示す適合モデルのセットがもたらされる。そのような実施形態では、適合モデルは、赤池情報量基準（ＡＩＣ：Ａｋａｉｋｅｉｎｆｏｒｍａｔｉｏｎｃｒｉｔｅｒｉｏｎ）、ベイズ情報量基準（ＢＩＣ：Ｂａｙｅｓｉａｎｉｎｆｏｒｍａｔｉｏｎｃｒｉｔｅｒｉｏｎ）、逸脱度情報量基準（ＤＩＣ：ｄｅｖｉａｎｃｅｉｎｆｏｒｍａｔｉｏｎｃｒｉｔｅｒｉｏｎ）、または任意の他の適切な情報量基準尺度を使用して重み付けを行い、観察されたデータを生じさせた可能性が最も高い焦点座標の組み合わせおよび呼び出しバリアントを選択してもよく、それにより、近接信号中の自然な変動、バックグラウンド、またはノイズが制御され、偽陽性または偽陰性のバリアント呼び出しの可能性が減少する。一部の実施形態では、公知の染色体バリアントに対する尤度比が、０．５、０．４５、０．４０、０．３５、０．３０、０．２５、０．２０、０．１５、０．１０、０．０９、０．０８、０．０７、０．０６、０．０５、０．０４、０．０３、０．０２、０．０１、０．００９、０．００８、０．００７、０．００６、０．００５、０．００３、０．００２、０．００１、０．０００９、０．０００８、０．００７、０．００６、０．００５、０．０００４、０．０００３、０．０００２、または０．０００１未満であるときに、対象は、公知の染色体構造バリアントを有すると決定される。一部の実施形態では、尤度比は、７５％、８０％、８５％、９０％、９５％、９６％、９７、９８％、９９％、９９．１％、９９．２％、９９．３％、９９．４％、９９．５％、９９．６％、９９．７％、９９．８％、または９９．９％よりも高い。一部の実施形態では、尤度比は、対数尤度比として表される。

本開示は、（ａ）第一の分類器を訓練して、少なくとも一つの染色体構造バリアントを含む第一のコンタクトマトリクスの少なくとも一つの領域を検出することと、（ｂ）第一の分類器によって、対象由来の第一のコンタクトマトリクスをインポートすることであって、コンタクトマトリクスは、染色体立体構造分析技術によって生成されることと、（ｃ）第一の分類器を、第一のコンタクトマトリクスに適用して、少なくとも一つの染色体構造バリアントを含有する第一のコンタクトマトリクスの少なくとも一つの領域を検出することと、（ｄ）第一の分類器により特定された各染色体構造バリアントを、ゲノム中の開始と終了を含む境界ボックス、およびラベルとして表現することと、（ｅ）第二の分類器を訓練して、少なくとも一つの染色体構造バリアントを生物学的情報に関連付けることと、（ｆ）第一の分類器により特定された少なくとも一つの染色体構造バリアントの境界ボックスとラベルを、第二の分類器へとインポートすることと、（ｇ）第二の分類器を適用することと、を含み、それにより、対象の各染色体構造バリアント、および各染色体構造バリアントに関連付けられた生物学的情報を特定する、対象中の染色体構造バリアントを特定する方法を提供する。一部の実施形態では、方法は、工程（ｄ）の後および工程（ｅ）の前に、（ｉ）第二のコンタクトマトリクスを作成することであって、第二のコンタクトマトリクスが、境界ボックスの開始および終了のゲノム位置を含み、第二のコンタクトマトリクスの分解能は、第一のコンタクトマトリクスの分解能よりも微細であることと、（ｉｉ）第一の分類器を、第二のコンタクトマトリクスに適用して、少なくとも一つの染色体構造バリアントを含有する第二のコンタクトマトリクスの少なくとも一つの領域を検出することと、（ｉｉｉ）少なくとも一つの染色体構造バリアントの開始ゲノム位置および終了ゲノム位置を含む第二の境界ボックス、およびラベルとして、少なくとも一つの染色体構造バリアントを表すことであって、第二の境界ボックスは、境界ボックスよりも高い分解能を含むことと、をさらに含む。

一部の実施形態では、第一の分類器は、畳み込みニューラルネットワーク（ＣＮＮ）を含む。ＣＮＮは、視覚的画像を分析するために頻繁に使用されるディープニューラルネットワークの一種である。本開示のＣＮＮは、入力コンタクトマトリクスを取り、コンタクトマトリクス中の様々な態様／物体に重要性（学習可能な重み付けおよびバイアス）を割り当て、染色体構造バリアント、ならびにバリアントのタイプおよび位置を含む、および含まないデータセットからのコンタクトマトリクスを区別することができる。ＣＮＮのアーキテクチャは、ヒト脳内のニューラルネットワークのアーキテクチャを模倣するように設計されている。一部の実施形態では、ＣＮＮは、一連のフィルタの適用によって、コンタクトマトリクスにおける関係を捕捉する。

一部の実施形態では、ＣＮＮは、シミュレーション試料および生体試料から作成されたコンタクトマトリクスに対して訓練される。一部の実施形態では、ＣＮＮの訓練には、（ｉ）ＣＮＮにより第一の訓練データセットをインポートすることであって、訓練データセットは、シミュレーション試料および生体試料から生成されたコンタクトマトリクスを含むことと、（ｉｉ）転移学習を使用して、事前訓練されたモデルをＣＮＮに適用することと、（ｉｉｉ）第二の訓練データセットでＣＮＮを再訓練することであって、第二の訓練データセットが、生体試料からのコンタクトマトリクスを含むことと、が含まれる。一部の実施形態では、第一の訓練データセットは、染色体構造バリアントを有さない対象からのコンタクトマトリクスを含むか、または同左から成る。代替的な実施形態では、第一の訓練データセットは、染色体構造バリアントを有する対象からの少なくとも一つのコンタクトマトリクスを含む。さらなる代替的な実施形態では、第一の訓練データセットは、複数の染色体構造バリアントを含むコンタクトマトリクスを含む。一部の実施形態では、第一の訓練データセットは、全ゲノムコンタクトマトリクス、およびゲノムの一部から成るコンタクトマトリクスを含む。

本明細書で使用される場合、「転移学習」とは、機械学習における処理を指し、その処理において第一のタスク用に開発されたモデルは、第二のタスク用のモデルを開発するための出発点として再利用される。転移学習を適用することにより、ニューラルネットワークを訓練するときの時間と演算能力が節約される。転移学習をＣＮＮに適用する方法は、当業者には容易に明らかであろう。

一部の実施形態では、第二の分類器は、リカレントニューラルネットワーク、感知検出器、またはｋ－最近傍モデルを含み、それらすべてが当業者に公知である。

一部の実施形態では、第二の分類器は、感知検出器を含む。感知検出器は、時にはテキスト分類器とも呼ばれ、意味に基づいてテキストを分類するために訓練され、使用される機械学習分類器の一種である。感知検出器として訓練できる機械学習分類器は多数あり、これには、単純ベイズ、サポートベクターマシン、深層学習、畳み込みニューラルネットワーク、リカレントニューラルネットワーク、および機械学習と規則ベースのシステムを組み合わせたハイブリッドシステムが含まれるが、これらに限定されない。

リカレントニューラルネットワークは、ネットワーク中のノード間の接続が、時間シーケンスに沿って方向付けられたグラフを形成する、人工ニューラルネットワークの一種である。ノード間のループにより、情報はネットワーク内に保持される。

ｋ－最近傍モデルは、データを分類および回帰するために使用される機械学習モデルの一種である。ｋ－最近傍モデルは、どのカテゴリーデータが属しているかを特定し、データセット内の変数間の関連性を推定することができる。一部の実施形態では、ｋ－最近傍モデルは、訓練データセットに対して訓練される、教師付き機械学習モデルである。

一部の実施形態では、感知検出器は、公知の染色体構造変動、診断データ、臨床転帰データ、薬剤応答もしくは治療応答のデータ、または代謝データからの臨床ラベルデータを使用して訓練される。そのようなデータのソースは、当業者に容易に判明する。

治療方法
本明細書において、染色体構造バリアントにより引き起こされる疾患または障害を有する対象を治療する方法が提供される。方法は、本開示のシステムおよび方法を使用して染色体構造バリアントを特定すること、特定された染色体構造バリアントと関連生物学的情報とを関連付けること、治療過程を推奨すること、および対象に治療を施すことを含む。

染色体構造バリアントを包括的に特定し、これらのバリアントを疾患および障害および治療方法に関連付けることによって、本開示のシステムおよび方法は、臨床医および医師が、個々の対象に合わせて治療を調整することを可能にする。例えば、一部の癌に見られる染色体構造バリアントは、特定の癌治療に関する、より良い臨床転帰またはより悪い臨床転帰と関連している。一つの特定の例では、本開示の方法を使用して、ＥＲＢＢ２（上皮増殖因子受容体２またはＨＥＲ２）のコピー数増加を伴う乳癌を特定することができ、当該癌は、推奨される治療過程の一部としてＥＧＦＲ阻害剤で標的化されうる。標的化癌治療のさらなる実施例を、表１に示す。

疾患または障害をもたらす染色体構造バリアントはすべて、障害の範囲内であると予期される。

推奨される治療レジメンと共に、疾患または障害をもたらす染色体構造バリアントはすべて、障害の範囲内であると予期される。

［実施例１］適応型集束音響技術（ＡＦＡ：ＡｄａｐｔｉｖｅＦｏｃｕｓｅｄＡｃｏｕｓｔｉｃｓ）による超音波処理を使用してＦＦＰＥから核酸を抽出し、Ｈｉ－Ｃを介してシーケンシングのために単離した核酸を調製する方法
ｍｉｃｒｏＴＵＢＥアダプターを使用して、Ｃｏｖａｒｉｓ（登録商標）Ｍ２２０集束超音波装置上で、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料の解離を行った。ＦＦＰＥ組織切片を、１３０μＬのスクリューキャップｍｉｃｒｏＴＵＢＥ（Ｃｏｖａｒｉｓ製品番号５００３３９）中で、最終濃度６０ｎｇ／μＬでの０．１％ドデシル硫酸ナトリウム（ＳＤＳ）およびプロテイナーゼＫを含む１ｘＴｒｉｓ緩衝生理食塩水（ＴＢＳ）の溶液中で懸濁した。溶液をボルテックスして混合し、３７℃で１０分間、短いボルテックスで５分間インキュベートした。ｍｉｃｒｏＴＵＢＥを、時間：５分、負荷時間率：２０％、ピークインシデント：７５Ｗ、２００サイクル／バースト、１８～２０℃の設定を使用して、ＡｄａｐｔｉｖｅＦｏｃｕｓｅｄＡｃｏｕｓｔｉｃｓ（ＡＦＡ）による超音波処理に供した。

組織試料と共に溶液をプラスチックマイクロチューブに移し、９８℃に１０分間加熱して、プロテイナーゼＫを不活化した。溶液をｍｉｃｏＴＵＢＥに戻し、次いで、１０分、負荷時間率：１５％、ピークインシデント：７５Ｗ、２００サイクル／バースト、４～７℃の設定を用いてＡＦＡ超音波処理を行った。

核酸材料を回収するために、溶液をマイクロチューブに移し、５，０００×ｇで５分間遠心分離した。上清を新しい管に移し、ＱＵＢＩＴ蛍光定量法を使用して核酸収率を定量した。

Ｈｉ－Ｃライブラリーを調製した。まず、核酸材料をＳＰＲＩビーズに結合し、１ＸＣＲＢ（１ＸＴＢＳ＋１ｍＭＥＤＴＡ）で２回洗浄した。後続の工程を、ビーズ結合核酸に対して行った。核酸材料を、３７℃で１時間、ＤｐｎＩＩ制限エンドヌクレアーゼで処理し、その後、ビオチンｄＡＴＰの存在下でＴ４ポリメラーゼでビオチン化することによって断片化した。反応を、ｐＨ８で、５００ｍＭのＥＤＴＡで停止した。Ｔ４リガーゼを使用して２５℃で４時間、その後に６５℃で加熱不活性化して、鈍化核酸断片の近接ライゲーションを行った。

２０ｎｇ／ｍＬでの５μＬのプロテイナーゼＫを１００μＬ試料（約１ｎｇ／ｍＬの最終濃度）に加え、溶液を６５℃で少なくとも１時間インキュベートした。ビーズ結合ライブラリーを、２０％のＰＥＧ－８０００、２．５ＭのＮａＣｌで洗浄し、１０ｍＭのＴｒｉｓ、ｐＨ８．０、０．１ｍＭのＥＤＴＡを使用してビーズから溶出した。

結果得られたビオチン化かつ近接ライゲーションされたライブラリーをストレプトアビジンビーズに結合し、これを１ＸＮＴＢ（５ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ８．０、０．５ｍＭＥＤＴＡ、１ＭＮａＣｌ）で２回洗浄し、２ＸＮＴＢ（１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ８．０、１ｍＭＥＤＴＡ、２ＭＮａＣｌ）中に再懸濁し、ブロッキング溶液でインキュベートした。ビーズを１ＸＮＴＢ＋０．５％Ｔｗｅｅｎ（登録商標）２０で２回洗浄し、次いで１ＸＮＴＢで１回洗浄し、脱イオン水に再懸濁した。

Ｎｅｘｔｅｒａタグ付けを使用して、ライブラリーを配列決定した。タグ付けは、本質的に、製造指示書に従って行われた。次いで、ライブラリーを、Ｂｅｓｔ３．０ポリメラーゼおよびＩｌｌｕｍｉｎａインデックスプライマーを使用して増幅し、ＳＰＲＩビーズで精製し、ハイスループットシーケンシングに供した。
［実施例２］近接ライゲーションでのシーケンシングによる次世代細胞ゲノム学の実証

Ｈｉ－Ｃは、ゲノム配列の足場を形成し、ＤＮＡ配列のセグメントを完全に組み立てられた染色体に順序付けし配向する上で貴重なツールである。方法は、無傷な核内でクロマチンをその天然状態で架橋することによって開始する（図１Ａ）。ホルマリン固定中に形成された架橋は、ＦＦＰＥ組織の使用を可能にするＨｉ－Ｃ法で使用される架橋と同一である。架橋されたクロマチンが断片化され、断片をライゲーションして、Ｉｌｌｕｍｉｎａペアエンドケミストリーを使用してシーケンシングできるキメラ配列が作製される。これらのキメラＤＮＡ分子をシーケンシングすることは、超長距離クロマチン相互作用（プロモーター－エンハンサー相互作用など）のシグナルを捕捉するが、近接ライゲーションによるシーケンシングにおけるシグナルの圧倒的多数は、染色体上の２つの配列間の直線距離を反映している（図１Ｂ）。これは、ヒトゲノムにＨｉ－Ｃ法が実施され、リードペアのマッピング座標がヒートマップとしてプロットされる場合に容易に観察される（図１Ｃ）。正常なヒトゲノムの場合、配列のペアは対角線に沿ってマッピングされ、染色体の直線長さに沿ってマッピングされたＨｉ－Ｃリードペアを反映する。Ｈｉ－Ｃが染色体異常を含む試料に対して実施される時、対角線に沿ったＨｉ－Ｃリードペアのこの厳密な順序付けは、ヒト参照ゲノムと比較して中断される。これは、第４染色体と第１１染色体の間の転座を示す癌細胞株のケースで可視化される（ＭＶ４、１１、図１Ｄおよび１Ｅ）。

固形腫瘍における染色体異常の照射：固形腫瘍生物学における染色体異常は、歴史的に決定が困難であった。核型分析法は極めて困難であり、多くの場合、大半の固形腫瘍への適用は不可能である。全ゲノムシーケンシング（ＷＧＳ）調査法もまた、いくつかの理由から、染色体異常を検出する上での実用的な価値が限定的である。（１）ＷＧＳは、再配列のジャンクションに相当なカバレッジがなければならないため、高い信頼度で異常を検出するためには高カバレッジ（３０～６０倍）を必要とする。（２）ショートリードシーケンシングは、再配列を頻繁に媒介するゲノムの反復領域の長さに及ぶには不十分であるため、再配列の同定は不可能となる。（３）多くの場合にゲノムの反復領域に及ぶことができるロングリードＷＧＳは、マッピングの限界を克服し、切断点を特定するのに成功したが、高分子量ＤＮＡを必要とし、これは抽出が難しく、ＦＦＰＥ組織では回収が不可能である。Ｈｉ－Ｃ法はこれら三つの制限のすべてを克服することができ、ローパスシーケンシング（１～５倍）のみを必要とし、反復配列の切断点に対して近位であり、ＦＦＰＥ組織と適合性がある数百ものリードを配列決定することによって、ゲノムの反復領域の切断点を特定する。

ＨｉＣ＿ＱＣを使用したオープンソースライブラリー評価：ライブラリー品質の評価を支援するために、実施例１に記載される方法を使用して生成されたＦＦＰＥＨｉ－Ｃライブラリーからの小さなリード試料からのライブラリーの性能を定義する基準を確立した。Ｈｉ－Ｃライブラリーからの０．５～１Ｍの配列のリードペアを使用して、オープンソース分析ツールＨｉＣ＿ＱＣによるライブラリー品質を判定した。評価された主要なパラメータ：同じ鎖の高品質リードペア：これは、リードが、互いに対する配列の配向を変化させる近接ライゲーションイベントの結果であったことを示した。この値を２倍にすると、ライブラリー内に存在するＨｉ－Ｃジャンクションの合計割合の推定値が得られた。（５％の最小値が許容範囲内であることが判明した）。高品質リードペアが＞１０ｋｂの割合：Ｈｉ－Ｃライブラリーの成功は、長距離コンタクト情報を含むリードの割合に依存する。この統計量は、参照ゲノムで＞１０ｋｂの間隔でマッピングする高品質のリードペアの割合を測定した。（２．５％の最小値が許容値であることが判明した）。重複リード：これは、ライブラリー内に存在するＰＣＲ重複断片率を測定し、飽和モデルを適合させて、１００Ｍのリードペアでの重複率を外挿する。これは、ライブラリーの複雑さを測定する重要な尺度である。（４０％の最大値が許容値であることが判明した）。これらの指標を使用した場合、本開示全体にわたり提供されたＦＦＰＥＨｉ－Ｃ方法がＫＢＳ出願の要件を満たすのに十分であることが判明した（図２を参照）。

臨床試料からのＨｉ－Ｃライブラリー：臨床試料のＨｉ－Ｃが細胞ゲノム検査に必要な品質閾値を満たすことができるかを判定するために、ＨｉＮＴによりコピー数多型を同定するために、「既製の」学術ソフトウェアを使用し、染色体異常の切断点を同定するためにｈｉｃ＿ｂｒｅａｋｆｉｎｄｅｒを使用した。絶対的標準として過去に十分特徴付けられた試料に依拠したところ、Ｈｉ－Ｃは、１９つの既知の異常において２つの偽陰性の判定を生むことが実証された（図３Ａ～３Ｄ）。重要なことに、偽陰性は低存在量（約２０％）の異常であり、現時点では検出のためにｈｉｃ＿ｂｒｅａｋｆｉｎｄｅｒが最適化されていない異常（環染色体）を含んでいた。これらの値は、小さな試料サイズにもかかわらず、既存のソフトウェアにより大半の細胞ゲノム検査について設定された基準を満たし、最適化は行われていない。以下で論じるバリアント検出の進歩は、偽陽性率および偽陰性率をさらに減少させ、ＫＢＳの感度および特異性を相互に増加させうる。

設計および方法

設計：ＩｎｔｅｒｍｏｕｎｔａｉｎＰｒｅｃｉｓｉｏｎＧｅｎｏｍｉｃｓ社およびＰｈａｓｅＧｅｎｏｍｉｃｓ社の広範な経験を用いて、近接ライゲーションの細胞ゲノム検査への適用を評価するベンチマーキング研究が実施される。ベンチマーキング研究では、実用的なバイオマーカーがあまり存在しない癌のクラスであるトリプルネガティブ乳癌コホートに対するＨｉ－Ｃ近接ライゲーションによるシーケンシングの適用性を試験する。トリプルネガティブ乳癌（ＴＮＢＣ）試料は、ＩｎｔｅｒｍｏｕｎｔａｉｎＢｉｏｒｅｐｏｓｉｔｏｒｙを通して取得される。研究には２つの関連する目的がある。第一に、有用な染色体構造情報を得る目的で臨床コホート内で使用される広範な組織試料収集方法が十分に保存されているかどうかが決定される。２００個のＨｉ－Ｃライブラリーが、実施例１に記載される方法を使用してＩｎｔｅｒｍｏｕｎｔａｉｎＢｉｏｒｅｐｏｓｉｔｏｒｙ試料から生成され、前記Ｈｉ－ＣライブラリーはＩｎｔｅｒｍｏｕｎｔａｉｎＰｒｅｃｉｓｉｏｎＧｅｎｏｍｉｃｓ社によってシーケンシングされる。得られるデータは、十分性を判定するためにこの実施例で記載した基準を使用して、ＨｉＣ＿ＱＣソフトウェアを使用して分析される。研究の第二の段階は、ＴＮＢＣ試料中に存在する染色体異常の範囲を決定するために、Ｈｉ－Ｃシーケンシングデータを使用することである。この実施例の予備データセクションでは、「既製の」ソフトウェアソリューションからの結果について説明する。試料は、ＴＮＢＣで観察された異常のクラスおよび切断点を定義するために、ＰｈａｓｅＧｅｎｏｍｉｃｓ，Ｉｎｃ．社独自の人工知能プラットフォームを使用して分析される。この限定的な研究の範囲内において、転帰は観察された異常のクラスと関連付けられる。

パート１：ＫＢＳの性能を「現実世界の」ＦＦＰＥ試料でベンチマーク化する。

方法：試料の選択基準は、生存しておらず匿名化される個人について、ＩｎｔｅｒｍｏｕｎｔａｉｎＢｉｏｒｅｐｏｓｉｔｏｒｙから特定されるＴＮＢＣ外科的切除試料である。当社は、該当する場合には、全ゲノムシーケンシングについての適切なＩＲＢ承認適用除外が行われるようにＩｎｔｅｒｍｏｕｎｔａｉｎＢｉｏｒｅｐｏｓｉｔｏｒｙ社と協力する。

すべてのＦＦＰＥ試料はその天然状態で架橋され、核内で極めて近接するクロマチン間に共有結合を生じる（図４）。二つの５μｍＦＦＰＥカールからのクロマチンは、集束音響エネルギー（ＡＦＡ超音波処理）を使用して、せん断することなく遊離され、Ｈｉ－Ｃのために調製される。遊離したクロマチンは、制限酵素消化によってＤＮＡ断片化のために処理される。制限消化によって作製されたオーバーハング配列は、ビオチン化ヌクレオチドで充填され、一緒にライゲーションされてキメラＤＮＡ分子を形成する。ストレプトアビジンビーズは、ライゲーションジャンクションを含む配列を精製するために使用され、Ｉｌｌｕｍｉｎａとの適合性があるシーケンシングライブラリーを作製するためのテンプレートとして使用される。予備データに基づき、わずか３０Ｍリードペアが構造バリアント（ＳＶ）の判定目的に十分であると推定される。しかしながら、正常細胞と癌細胞の混合集団における複合体の再配列を検出するためにシーケンシングの量を増加させる必要があることが予期される。これらの閾値を実験的に決定するために、全ゲノムカバレッジの１０倍深度までシーケンシングを行い、シーケンシングデータをダウンサンプリングしてカバレッジ要件を理解する。

結果の解釈：シーケンシングデータは、オープンソース分析ソフトウェアＨｉＣ＿ＱＣを使用して解析される。「予備データ」セクションで説明したように、ＨｉＣ＿ＱＣは、ライブラリー品質にとって有益と特定された様々なライブラリー統計を評価する。上記で強調したように、同じ鎖の長距離（＞１０ｋｂｐ）の相互作用、およびＰＣＲ／光学的重複にマッピングされるリードペアの割合は、他の尺度の中でも特に、ＦＦＰＥ試料からのクロマチン抽出について記載された方法が、構造変動および染色体異常の評価にあたりどの程度効果があるかを決定するために使用される。

パート２：ＫＢＳの「現実世界の」ＦＦＰＥ組織切片の染色体異常を検出する能力を定義する。

方法：（ａ）Ｈｉ－Ｃデータをヒト参照ゲノムにマッピングして、コンタクト頻度マトリクスを生成し、（ｂ）訓練された畳み込みニューラルネット（ＣＮＮ）ならびに健康なゲノム構造の背景モデルを使用して、コンタクト頻度マトリクスを分析して、試料中のコピー数多型（ＣＮＶ）を含む可能性のあるＳＶの位置およびタイプを特定し、（ｃ）検出されたバリアントを、既知の臨床情報と相互参照して、従来の細胞遺伝学的方法により生成されたものと類似したレポートを提供する、ソフトウェアパイプラインが開発されている。このパイプラインは、ＰｈａｓｅＧｅｎｏｍｉｃｓ社の既存のクラウドベースプラットフォームに統合され、ＰｈａｓｅＧｅｎｏｍｉｃｓ社のウェブサイトからの試料のアップロードと分析が可能である。

ＣＮＮモデル設計：予備結果に基づき、Ｈｉ－Ｃマトリクス中の構造バリアントの検出に好適な開始点を提供するｒｅｓｎｅｔ－５０およびＲｅｔｉｎａＮｅｔという二つの共通ＣＮＮアーキテクチャが見出された。修正されたｒｅｓｎｅｔ－５０ネットワーク中のシミュレーションされた小さなＨｉ－Ｃデータセットを使用したところ、試料中の不均衡転座の存在の検出において、９６．５％の精度が達成され、損失は３．２９％であった。当該転座の境界ボックスは、５９．５％の精度および３．５８％の損失で特定された。ＲｅｔｉｎａＮｅｔで同じデータをテストしたところ、１Ｍｂｐを超える位置シミュレーション事象の検出に対し、９５％を超える平均精度が達成され、これはより一般的なｒｅｓｎｅｔ－５０ネットワークよりも顕著な改善であった。これらの結果は、少量のシミュレーションデータおよび比較的平凡なＣＮＮを使用したのみであるにもかかわらず、少なくとも核型分析に匹敵する性能が、この方法で達成可能であることを実証する。追加の訓練データ、ＣＮＮモデルのカスタム化（ｙｏｌｏ－ｖ３で示されるような他のネットワークアプローチの試験を含む）、および最適なハイパーパラメータの特定により、核型分析に基づく方法で達成できる最良の結果を超えるものではなくとも、少なくともそれと同等の性能特性を持つモデルを開発できることが予想される。ＣＮＮを用いて事象を特定することの本質に起因して、ＣＮＮによって行われる各呼び出しに対するバリアントクラスのラベルおよび信頼スコアを生成し、これを使用して事象を分類し、低信頼度の事象をフィルタリングして感度および特異性を改善することができる。この計算パイプラインを使用して、提案書のＡｉｍ１でシーケンシングされた２００個の試料内に存在するゲノム再配列の構造を推測する。

結果の解釈：限られた過去の研究に基づき、ＩｎｔｅｒｍｏｕｎｔａｉｎＢｉｏｒｅｐｏｓｉｔｏｒｙから得られたコホート内で少なくとも６つの反復的な均衡転座が観察されることが予想される。ＷＧＳを使用した乳腺癌についての過去の研究で観察された構造バリアント率が非常に高い（腫瘍当たり＞３００）ことは、多数の他の不均衡な再配列が観察されることを示唆する。これらのイベントのかなりの割合は、無秩序な染色体粉砕イベントの結果であり、「単純な」欠失、挿入、逆位、または転座を反映していない可能性が高い。ＷＧＳとは異なり、Ｈｉ－Ｃによって回収される長距離配列情報は、これらの複雑なイベントの畳み込みを解くことができ、高い割合での段階的イベントを生む。これは、ＦＦＰＥ組織についての既存の技術で解決できるよりも、イベントについて完成度の高い核型分析を生むことになる。得られた染色体異常のカタログは、患者転帰における潜在的な層別化を特定するために、探索的データ解析で使用される。
［実施例３］保存された組織試料からＨｉ－Ｃライブラリーを生成する方法の比較

本実施例の目的は、化学ベースのＦＦＰＥ核酸抽出手順または適応型集束音響技術（ＡＦＡ）に基づくＦＦＰＥ核酸抽出手順のいずれかを使用して、ホルマリン固定、パラフィン包埋（ＦＦＰＥ）組織試料から単離された核酸に対してＨｉ－Ｃを使用して生成されたＨｉ－Ｃライブラリーの品質を決定し比較することである。本実施例で使用されるＡＦＡに基づくＦＦＰＥ抽出手順は、Ｈｉ－Ｃ実施前に核酸をせん断することを必要としない。

化学ベースのＦＦＰＥ核酸抽出手順を使用したＨｉ－Ｃライブラリーの生成は、ＷＯ２０１７１９７３００号に記載されるように実施され、これは参照により本明細書に組み込まれる。ＡＦＡに基づくＦＦＰＥ核酸抽出手順を使用したＨｉ－Ｃライブラリーの生成は、本明細書に提示される実施例１に記載の方法を使用して実施される。

本実施例に記載するＦＦＰＥ核酸抽出方法のいずれかを使用してＦＦＰＥから抽出された核酸を使用したＨｉ－Ｃライブラリーの生成後、Ｈｉ－Ｃライブラリーは、上記実施例１に記載されるようにＩｌｌｕｍｉｎａＮＧＳシーケンシング方法を使用してシーケンシングされる。

ＦＦＰＥ抽出方法の各々についてＨｉ－Ｃライブラリー品質を評価するために、二つの重要な特徴（すなわち、（１）ライブラリーの複雑さおよび（２）長距離情報）が評価される。ライブラリーの複雑さは、一意的である各Ｈｉ－ＣライブラリーのＮＧＳシーケンシングからのリードの割合、または逆に重複リードの数を決定することによって、直接測定される。重複リードは、典型的には複雑さがより低いライブラリーによるＰＣＲ増幅の結果として生じ、より高い重複率をもたらす。重複リードは、次世代シーケンシングコミュニティが広く使用するオープンソースユーティリティであるＳＡＭＢｌａｓｔｅｒを使用して、ライブラリー品質管理プロセス中に測定される。ライブラリーが複雑であるほど、より有用な情報が存在する可能性がある。

長距離情報は、Ｈｉ－Ｃリードペアがマッピングされる染色体の長さに沿った距離を指しうる。全距離にわたるＨｉ－Ｃリードペアは有用でありうるが、より遠いコンタクト（すなわち１０ｋｂｐ超）は、染色体立体構造のダイナミクスにより、一般的でなく、より短い範囲のコンタクトである。長距離Ｈｉ－Ｃリードペアの存在は、染色体の構造を決定するためのＨｉ－Ｃ計算解析能力を改善するのに役立つ可能性があり、この実施例で記載するＦＦＰＥ抽出方法のいずれかから単離された核酸から生成されたＨｉ－Ｃライブラリーについて確認される。Ｈｉ－Ｃライブラリーにおける長距離情報の減少は、典型的には、試料品質が低いこと、またはライブラリー調製法に問題があることに起因する可能性がある。
［実施例４］Ｈｉ－Ｃライブラリーを臨床用ＦＦＰＥ試料から調製・分析する上での適応型集束音響技術（ＡＦＡ）による超音波処理の有用性の実証。

この実施例の目的は、臨床用にホルマリン固定パラフィン包埋（ＦＦＰＥ）された乳房組織試料および卵巣組織試料から核酸を抽出し、そこからＨｉ－Ｃライブラリーを生成し、Ｈｉ－Ｃライブラリーを分析して非相互転座の存在を特定するためのＡＦＡによる超音波処理の有用性を実証することであった。この実施例で使用されるＡＦＡに基づくＦＦＰＥ抽出手順は、実施例１で概説したＡＦＡ超音波処理による核酸抽出と類似していたが、追加の解離工程を用いるという点で異なる。さらに、この方法で使用される乳房および卵巣の臨床試料から生成されたＨｉ－Ｃライブラリーにおける非相互転座の存在は、実施例１に記載されるようにＨｉ－Ｃライブラリーから取得された次世代シーケンシングデータ（すなわち、Ｉｌｌｕｍｉｎａシーケンシング）に対して実施例２に記載する分析方法（例えば、パート２－ＣＮＮモデル）を使用して決定された。

適応型集束音響技術（ＡＦＡ）による超音波処理を使用したＦＦＰＥ乳房腫瘍試料および卵巣腫瘍試料からの核酸の抽出
ホルマリン固定パラフィン包埋（ＦＦＰＥ）乳房および卵巣腫瘍試料の各々を、以下のように、ｍｉｃｒｏＴＵＢＥＡＦＡＦｉｂｅｒＰｒｅ－ｓｉｌｔＳｎａｐ－Ｃａｐ６×１６ｍｍチューブを使用して、Ｃｏｖａｒｉｓ（登録商標）Ｍ２２０集束超音波装置で解離させた。各腫瘍試料からのＦＦＰＥカールを、それぞれ１００マイクロリットルのＬｙｓｉｓ緩衝液２（１０ｍＭＴｒｉｓ、１５０ｍＭ塩化ナトリウム、０．１％ドデシル硫酸ナトリウム（ＳＤＳ）、ｐＨ７．５）中に懸濁し、これに０．３マイクロリットルの２０ｍｇ／ｍｌプロテイナーゼＫを添加した。溶液をボルテックスすることにより混合し、ヒートブロック上で３７℃で５分間インキュベートした。次に、ｍｉｃｒｏＴＵＢＥをＣｏｖａｒｉｓ（登録商標）Ｍ２２０ＡＦＡ超音波装置に移し、時間：５分、負荷時間率：２０％、ピークインシデント：７５Ｗ、２００サイクル／バースト、１８～２０℃の設定を使用して適応型集束音響技術（ＡＦＡ）による超音波処理に供した。

乳房試料および卵巣試料の両方について、上清（すなわち、上清１）を０．２ｍｌのＰＣＲチューブに移し、４℃で保存したが、固体はＣｏｖａｒｉｓｍｉｃｒｏＴＵＢＥに残された。１００マイクロリットルのＬｙｓｉｓ緩衝液２（１０ｍＭＴｒｉｓ、１５０ｍＭ塩化ナトリウム、０．１％ＳＤＳ、ｐＨ７．５）および０．３マイクロリットルの２０ｍｇ／ｍＬプロテイナーゼＫを、ｍｉｃｒｏＴＵＢＥに残った固体に加え、ヒートブロック上で３７℃で５分間インキュベートした。次いで、５分、負荷時間率：２０％、ピークインシデント：７５Ｗ、２００サイクル／バースト、１８～２０℃の設定を用いて、溶液をＡＦＡ超音波処理に供した。

乳房試料および卵巣試料の両方について、上清（すなわち、上清２）を０．２ｍｌのＰＣＲチューブに移し、４℃で保存したが、固体はＣｏｖａｒｉｓｍｉｃｒｏＴＵＢＥに残された。次いで、上清１および上清２の両方を、それぞれの０．２ｍｌのＰＣＲチューブ内で９８℃で１０分間インキュベートし、残りのプロテイナーゼＫを不活化し、次いで、ＡＦＡ超音波処理装置が４℃に冷却されるまで４℃で保存した。次いで、上清１および２の各々を、ＰＣＲチューブから、新鮮なＣｏｖａｒｉｓｍｉｃｒｏＴＵＢＥのＡＦＡＦｉｂｅｒＰｒｅ－ＳｌｉｔＳｎａｐ－Ｃａｐ６×１６ｍｍチューブに移した。次いで、１０分、負荷時間率：１５％、ピークインシデント：７５Ｗ、２００サイクル／バースト、４～７℃の設定を使用して、上清１または２のいずれかを含有する各ｍｉｃｒｏＴＵＢＥにＡＦＡ超音波処理を行った。次いで上清を、１．５ｍｌのマイクロ遠心分離機チューブと混合した。

乳房試料および卵巣試料の両方について、核酸材料を回収するために、混合された上清に同量の固相可逆固定化（ＳＰＲＩ）ビーズを添加した。室温で１０分間、クロマチンをＳＰＲＩビーズに結合させた後、ビーズを磁気ラック上に配置し、上清を除去させた。磁気ラックのビーズを、２００マイクロリットルの１０ｍＭＴｒｉｓ、１５０ｍＭの塩化ナトリウム、０．１ｍＭのエチレンジアミン四酢酸、ｐＨ７．５で１回洗浄した。洗浄後、ビーズを磁気ラック上に再び置き、洗浄溶液を除去した。

乳房試料および卵巣試料の両方について、ビーズ結合核酸材料からＨｉ－Ｃライブラリーを調製した。核酸材料を、３７℃で１時間、ＤｐｎＩＩ制限エンドヌクレアーゼで処理し、その後、ビオチンｄＡＴＰの存在下でＴ４ポリメラーゼで末端修復することによって断片化した。反応を、ｐＨ８で、２０ｍＭのＥＤＴＡで停止した。Ｔ４リガーゼを使用して２５℃で４時間、その後に６５℃で加熱不活性化して、鈍化核酸断片の近接ライゲーションを行った。

２０ｍｇ／ｍＬでの５μＬのプロテイナーゼＫを１００μＬ試料（約１ｎｇ／ｍＬの最終濃度）に加え、溶液を６５℃で少なくとも１時間インキュベートした。ビーズに結合されたライブラリーを、２０％のＰＥＧ－８０００、２．５ＭのＮａＣｌで洗浄し、８０％エタノールで２回洗浄し、その後ビーズを空気乾燥させ、１０ｍＭのＴｒｉｓ、ｐＨ８．０、０．１ｍＭのＥＤＴＡを使用してビーズから溶出した。

乳房試料および卵巣試料の両方について、得られたビオチン化かつ近接ライゲーションされたライブラリーをストレプトアビジンビーズに結合し、これを１ＸＮＴＢ（５ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ８．０、０．５ｍＭＥＤＴＡ、１ＭＮａＣｌ）で２回洗浄し、２ＸＮＴＢ（１０ｍＭＴｒｉｓ－ＨＣｌ、ｐＨ８．０、１ｍＭＥＤＴＡ、２ＭＮａＣｌ）中に再懸濁し、ブロッキング溶液でインキュベートした。ビーズを１ＸＮＴＢ＋０．５％Ｔｗｅｅｎ２０で２回洗浄し、次いで１ＸＮＴＢで１回洗浄し、脱イオン水に再懸濁した。

乳房試料および卵巣試料の両方について、Ｎｅｘｔｅｒａタグ付けを使用して、Ｉｌｌｕｍｉｎａ互換性シーケンシングライブラリーを生成した。タグ付けは、本質的に、製造指示書に従って行われた。次いで、乳房試料および卵巣試料の各々に由来するライブラリーを、高忠実度のポリメラーゼ連鎖反応酵素、Ｂｓｔ３．０ポリメラーゼおよびＩｌｌｕｍｉｎａインデックスプライマーの混合物を使用して増幅し、ＳＰＲＩビーズで精製し、ハイスループットシーケンシングに供した。

次いで、乳房試料および卵巣試料の両方から生成されたライブラリーから得られたシーケンシングデータを、本明細書に提供する実施例で記載される分析方法を使用して、染色体再配列の存在について分析した。具体的には、アライメント方法（例えば、Ｂｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒアライメント、局所アライメント、ギャップアライメント、ペアエンドアライメント）を使用して、ペアエンドＨｉ－Ｃリードを、ヒト参照ゲノム（例えば、ＨＧ１９、ＨＧ３８、適切なバックグラウンドを持つヒトパンゲノム参照セットからの代表的ゲノム、または試料が取得された個体からの健康な組織のＤｅｎｏｖｏアセンブリ）にアライメントした。マトリクスは、一連の工程によってこれらのアライメントから構成された。第一に、分解能を、データから経験的に選択または決定した。第二に、ゲノムを選択された分解能でビン化した。第三に、個々のアライメントされたリードペアを調べて、どのゲノムビン（ｘ、ｙ）が各アライメントされたリードペアに相当し、対応する（ｘ、ｙ）座標で行列中に計数されたかを判定した。この計数過程の前後または最中に、不十分な品質を有する、二次的または非一次的である、ポリメラーゼ連鎖反応（ＰＣＲ）プロセスによる重複などの生化学的手順の副作用として生じた可能性がある、または別の形で望ましくない、アライメントされたリードペアが計数から除外された。マトリクスには、クロマチン立体構造のリードペアが観察され、ゲノムビンのすべてのペアをリンクする回数を表す「連鎖数」が含まれた。第四に、マトリクスを標準化して、試料調製中に使用される制限酵素の選択、所与のゲノムビンで観察されるリード深度、ゲノムビン内のサイズまたは配列変化、ゲノムに関して先天的にわかっている生物学的因子（ゲノム中の性染色体として予想される数およびタイプなど）、または他の可能性のあるノイズ源などのバイアス源を考慮した。マトリクスには、ランダムに形成されたクロマチン立体構造リードペアがゲノムビンの各ペアを結合する頻度を表す「連鎖密度」が含まれた。第五に、マトリクスを２－Ｄグラフまたはヒートマップで可視化した。連鎖密度として予想される統計的特性の異常が、これらの図でしばしば目視可能であった。例えば、図５Ａおよび図５Ｂでは、染色体間の転座は、明瞭な縁と個別の角を持つ連鎖密度が増したブロックとして可視化された。これらのブロックは、それらの領域内の配列について、参照ゲノムが試料中とは別の染色体にその配列を有していたという事実から生じたものであり、クロマチン立体構造のリードペアは、同じ分子上の配列について一桁以上高いレートで形成するため、転座された配列のクロマチン立体構造のリードは、参照ゲノムのみにおいて予想されるよりもはるかに大きな連鎖密度を発現する。

結果／結論
図５Ａおよび図５Ｂに示されるように、上述の方法を使用して、ＦＦＰＥ乳房の単一切片（図５Ａ）または卵巣（図５Ｂ）腫瘍試料から生成されたライブラリーは、乳房腫瘍試料中の第Ｘ染色体と第８染色体（図５Ａ）の間、および卵巣腫瘍試料中の第４染色体および第７染色体（図５Ｂ）の間の非相互転座を特定するのに十分であった。

本開示の番号付き実施形態
本開示によって企図されるその他の主題は、以下の番号付き実施形態に記載される。

１．容器内の溶液中に組織試料を提供することであって、組織試料が核酸材料を含むことと、
組織試料および容器内の溶液を集束音響エネルギーに曝露させて核酸材料を組織試料から放出することによって、組織試料を解離させることと、
核酸材料を回収することと、
核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む方法。

２．溶液が非溶媒溶液である、実施形態１に記載の方法。

３．組織試料が保存された組織試料である、実施形態１または２に記載の方法。

４．組織試料が架橋された組織試料である、上記の実施形態のいずれか一つに記載の方法。

５．組織試料がホルマリン固定パラフィン包埋（ＦＦＰＥ）試料である、上記の実施形態のいずれか一つに記載の方法。

６．解離工程が、組織試料からの核酸材料の回収を可能にするのに十分なパラフィンをＦＦＰＥ試料から解離させるのに十分な時間、ＦＦＰＥ試料を集束音響エネルギーに曝露させることを含む、実施形態５に記載の方法。

７．解離工程が、ＦＦＰＥ試料に付着したパラフィンの９０％超の解離を含む、実施形態５または６に記載の方法。

８．解離工程が、ＦＦＰＥ試料に付着したパラフィンの９８％超の解離を含む、実施形態５～７のいずれか一つに記載の方法。

９．解離工程が、組織試料を集束音響エネルギーに曝露させながら組織試料を再水和することを含む、上記の実施形態のいずれか一つに記載の方法。

１０．解離工程が、約５℃～約６０℃または約１８℃～約２０℃で溶液の温度を維持する工程を含む、上記の実施形態のいずれか一つに記載の方法。

１１．組織試料が、５～２５ミクロンの厚さおよび２５ｍｍ未満の長さを有する、上記の実施形態のいずれか一つに記載の方法。

１２．解離工程が、組織試料を集束音響エネルギーに曝露させる前に、溶液および容器内の組織試料にプロテアーゼを添加することを含む、上記の実施形態のいずれか一つに記載の方法。

１３．プロテアーゼを不活化することを含む、実施形態１２に記載の方法。

１４．プロテアーゼを不活化することが、容器を約９８℃に加熱することを含む、実施形態１３に記載の方法。

１５．試料を９０～１００℃に加熱するまで、組織試料を５０℃未満で容器内に維持する工程を含む、上記の実施形態のいずれか一つに記載の方法。

１６．集束音響エネルギーが１０％～３０％の負荷時間率を有する、上記の実施形態のいずれか一つに記載の方法。

１７．集束音響エネルギーが約１５％または約２０％の負荷時間率を有する、上記の実施形態１６に記載の方法。

１８．集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、上記の実施形態のいずれか一つに記載の方法。

１９．集束音響エネルギーが、約７５Ｗのピーク強度パワーを有する、上記の実施形態１８に記載の方法。

２０．容器を約４℃～約７℃に維持しながら、組織試料および容器中の溶液を集束音響エネルギーに曝露させて追加の核酸材料を組織試料から放出することを含む、第二の解離工程を実行することをさらに含む、上記の実施形態のいずれか一つに記載の方法。

２１．集束音響エネルギーが１０％～３０％の負荷時間率を有する、実施形態２０に記載の方法。

２２．集束音響エネルギーが約１５％または約２０％の負荷時間率を有する、実施形態２０に記載の方法。

２３．集束音響エネルギーが６０Ｗ～９０Ｗのピーク強度パワーを有する、実施形態２０～２２のいずれか一つに記載の方法。

２４．集束音響エネルギーが、約７５Ｗのピーク強度パワーを有する、実施形態２３に記載の方法。

２５．容器内での解離工程後に上清を単離することと、組織試料を含む容器に追加の溶液を添加することと、容器を約５℃～約６０℃または約１８℃～約２０℃に維持しながら、組織試料および容器中の追加の溶液を集束音響エネルギーに曝露させて、組織試料から追加の核酸材料を放出することを含む第二の解離工程を組織試料に対して実行することと、を含む、実施形態１～１９のいずれか一つに記載の方法。

２６．集束音響エネルギーが１０％～３０％の負荷時間率を有する、実施形態２５に記載の方法。

２７．集束音響エネルギーが約１５％または約２０％の負荷時間率を有する、実施形態２０に記載の方法。

２８．集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、実施形態２５～２７のいずれか一つに記載の方法。

２９．集束音響エネルギーが、約７５Ｗのピーク強度パワーを有する、実施形態２８に記載の方法。

３０．容器内での第二の解離工程後に上清を単離することと、第二の解離工程後に単離された上清と第二の解離工程前に単離された上清の両方に対して、上清を含む容器の温度を約４℃～約７℃で維持しつつ、各上清を集束音響エネルギーに曝露させることによって第三の解離工程を行うことと、上清を混合することと、をさらに含む、実施形態２５～２９のいずれか一つに記載の方法。

３１．集束音響エネルギーが１０％～３０％の負荷時間率を有する、実施形態３０に記載の方法。

３２．集束音響エネルギーが約１５％または約２０％の負荷時間率を有する、実施形態３０に記載の方法。

３３．集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、実施形態３０～３２のいずれか一つに記載の方法。

３４．集束音響エネルギーが、約７５Ｗのピーク強度パワーを有する、実施形態３３に記載の方法。

３５．解離工程が、核酸材料のせん断を回避するのに好適な強度で組織試料を集束音響エネルギーに曝露させることを含む、上記の実施形態のいずれか一つに記載の方法。

３６．組織試料を集束音響エネルギーに曝露させた後の核酸材料の断片の大部分が、１０００ｂｐ以上のサイズを有する、上記の実施形態のいずれか一つに記載の方法。

３７．解離工程が、組織試料中のホルムアルデヒド架橋を維持する、上記の実施形態のいずれか一つに記載の方法。

３８．集束音響エネルギーが、約１００キロヘルツ～約１００メガヘルツの周波数を有し、集束音響エネルギーは、幅が約２センチメートル未満の集束帯を有し、および／または集束音響エネルギーは、容器から間隔を置き、かつ容器の外部にある音響エネルギー源に由来するものであり、音響エネルギーの少なくとも一部は容器の外部に伝搬する、上記の実施形態のいずれか一つに記載の方法。

３９．回収工程が組織試料の遠心分離を含み、それによって不溶性汚染物質から解離した核酸材料を含有する上清液を分離することを含む、上記の実施形態のいずれか一つに記載の方法。

４０．回収工程は、固相可逆固定化により核酸材料を精製することを含む、実施形態１～３８のいずれか一つに記載の方法。

４１．核酸材料に対して染色体立体構造捕捉分析を行うことが、核酸材料を近接ライゲーションして、近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリー内で対のポリヌクレオチド配列を同定することと、を含む、上記の実施形態のいずれか一つに記載の方法。

４２．核酸材料に対して染色体立体構造捕捉分析を行うことが、核酸材料を断片化することと、核酸材料を近接ライゲーションして、近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、近接ライゲーションされたポリヌクレオチドのライブラリーにおける対のポリヌクレオチド配列を同定することと、を含む、実施形態１～４０のいずれか一つに記載の方法。

４３．同定工程が、近接ライゲーションをシーケンシングすることを含む、実施形態４１または実施形態４２に記載の方法。

（参照による組み込み）
本明細書に引用されるすべての参考文献、論文、出版物、特許、特許出版物、および特許出願は、すべての目的に対してその全体が参照により組み込まれる。

しかしながら、本明細書に引用される任意の参照、論文、刊行物、特許、特許公開、および特許出願の言及は、世界の任意の国での有効な先行技術を構成する、または共通の一般知識の一部を形成することを承認する、または任意の形態を提案するものではなく、またそのように受け取られてはならない。

Claims

ａ）容器内の溶液中に組織試料を提供することであって、前記組織試料が核酸材料を含むことと、
ｂ）前記組織試料および前記容器内の前記溶液を集束音響エネルギーに曝露させて前記核酸材料を前記組織試料から放出することによって、前記組織試料を解離させることと、
ｃ）前記核酸材料を回収することと、
ｄ）前記核酸材料に対して染色体立体構造捕捉分析を行うことと、を含む、方法。
前記溶液が非溶媒溶液である、実施形態１に記載の方法。
前記組織試料が保存された組織試料である、請求項１に記載の方法。
前記組織試料が架橋された組織試料である、請求項１に記載の方法。
前記組織試料が、ホルマリン固定パラフィン包埋（ＦＦＰＥ）試料である、請求項１に記載の方法。
前記解離工程が、前記組織試料からの前記核酸材料の回収を可能にするのに十分なパラフィンを前記ＦＦＰＥ試料から解離させるのに十分な時間、前記ＦＦＰＥ試料を集束音響エネルギーに曝露させることを含む、請求項５に記載の方法。
前記解離工程が、前記ＦＦＰＥ試料に付着したパラフィンの９０％超の解離を含む、請求項５に記載の方法。
前記解離工程が、前記ＦＦＰＥ試料に付着したパラフィンの９８％超の解離を含む、請求項５に記載の方法。
前記解離工程が、前記組織試料を集束音響エネルギーに曝露させながら前記組織試料を再水和することを含む、請求項１に記載の方法。
前記解離工程が、前記溶液の温度を約５℃～約６０℃または約１８℃～約２０℃に維持することを含む、請求項１に記載の方法。
前記組織試料が、５～２５ミクロンの厚さおよび２５ｍｍ未満の長さを有する、請求項１に記載の方法。
前記解離工程が、前記組織試料を集束音響エネルギーに曝露させる前に、前記溶液および前記容器内の前記組織試料にプロテアーゼを添加することを含む、請求項１に記載の方法。
前記プロテアーゼを不活化することを含む、請求項１２に記載の方法。
前記プロテアーゼを不活化することが、前記容器を約９８℃に加熱することを含む、請求項１３に記載の方法。
試料を９０～１００℃に加熱するまで、前記組織試料を５０℃未満で前記容器内に維持することを含む、請求項１に記載の方法。
前記集束音響エネルギーが、１０％～３０％の負荷時間率を有する、請求項１に記載の方法。
前記集束音響エネルギーが、約１５％または約２０％の負荷時間率を有する、請求項１６に記載の方法。
前記集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、請求項１に記載の方法。
前記集束音響エネルギーが約７５Ｗのピーク強度パワーを有する、請求項１８に記載の方法。
前記容器を約４℃～約７℃に維持しながら、前記組織試料および前記容器中の前記溶液を集束音響エネルギーに曝露させて、前記組織試料から追加の核酸材料を放出することを含む、第二の解離工程を実行することをさらに含む、請求項１に記載の方法。
前記集束音響エネルギーが、１０％～３０％の負荷時間率を有する、請求項２０に記載の方法。
前記集束音響エネルギーが、約１５％または約２０％の負荷時間率を有する、請求項２０に記載の方法。
前記集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、請求項２０に記載の方法。
前記集束音響エネルギーが、約７５Ｗのピーク強度パワーを有する、請求項２３に記載の方法。
容器内での前記解離工程後に上清を単離することと、前記組織試料を含む前記容器に追加の溶液を添加することと、前記容器を約５℃～約６０℃または約１８℃～約２０℃に維持しながら、前記組織試料および前記容器内の前記追加の溶液を集束音響エネルギーに曝露させて、前記組織試料から追加の核酸材料を放出することを含む第二の解離工程を前記組織試料に対して実行することをさらに含む、請求項１に記載の方法。
前記集束音響エネルギーが、１０％～３０％の負荷時間率を有する、請求項２５に記載の方法。
前記集束音響エネルギーが、約１５％または約２０％の負荷時間率を有する、請求項２０に記載の方法。
前記集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、請求項２５に記載の方法。
前記集束音響エネルギーが約７５Ｗのピーク強度パワーを有する、請求項２８に記載の方法。
容器内での前記第二の解離工程後に上清を単離すること、前記第二の解離工程後に単離された前記上清と前記第二の解離工程前に単離された前記上清の両方に対して、前記上清を含む前記容器の温度を約４℃～約７℃で維持しつつ、前記各上清を集束音響エネルギーに曝露させることによって、第三の解離工程を行うことと、前記上清を混合すること、とをさらに含む、請求項２５に記載の方法。
前記集束音響エネルギーが、１０％～３０％の負荷時間率を有する、請求項３０に記載の方法。
前記集束音響エネルギーが、約１５％または約２０％の負荷時間率を有する、請求項３０に記載の方法。
前記集束音響エネルギーが、６０Ｗ～９０Ｗのピーク強度パワーを有する、請求項３０に記載の方法。
前記集束音響エネルギーが、約７５Ｗのピーク強度パワーを有する、請求項３３に記載の方法。
前記解離工程が、前記組織試料を、前記核酸材料のせん断を回避するのに好適な強度の集束音響エネルギーに曝露させることを含む、請求項１に記載の方法。
前記組織試料を集束音響エネルギーに曝露させた後の核酸材料の前記断片の大部分が、１０００ｂｐ以上のサイズを有する、請求項１に記載の方法。
前記解離工程が、前記組織試料中のホルムアルデヒド架橋を維持する、請求項１に記載の方法。
前記集束音響エネルギーが約１００キロヘルツ～約１００メガヘルツの周波数を有し、前記集束音響エネルギーが、幅が約２センチメートル未満の集束帯を有し、および／または前記集束音響エネルギーが、前記容器から間隔を置き、かつ容器の外部にある音響エネルギー源に由来するものであり、前記音響エネルギーの少なくとも一部が前記容器の外部に伝搬する、請求項１に記載の方法。
前記回収工程が、前記組織試料を遠心分離し、それによって不溶性汚染物質から解離した核酸材料を含有する上清液を分離することを含む、請求項１に記載の方法。
前記回収工程が、固相可逆固定化によって核酸材料を精製することを含む、請求項１に記載の方法。
前記核酸材料に対して染色体立体構造捕捉分析を行うことが、前記核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、前記近接ライゲーションされたポリヌクレオチドのライブラリー内で対のポリヌクレオチド配列を同定することとを含む、請求項１に記載の方法。
前記核酸材料に対して染色体立体構造捕捉分析を行うことが、前記核酸材料を断片化することと、前記核酸材料を近接ライゲーションして近接ライゲーションされたポリヌクレオチドのライブラリーを形成することと、前記近接ライゲーションされたポリヌクレオチドのライブラリー内で対のポリヌクレオチド配列を同定することとを含む、請求項１に記載の方法。
前記同定工程が、前記近接ライゲーションをシーケンシングすることを含む、請求項４１に記載の方法。
前記同定工程が、前記近接ライゲーションをシーケンシングすることを含む、請求項４２に記載の方法。