JP2023523002A - 染色体近接実験における構造的変異検出 - Google Patents

染色体近接実験における構造的変異検出 Download PDF

Info

Publication number
JP2023523002A
JP2023523002A JP2022564377A JP2022564377A JP2023523002A JP 2023523002 A JP2023523002 A JP 2023523002A JP 2022564377 A JP2022564377 A JP 2022564377A JP 2022564377 A JP2022564377 A JP 2022564377A JP 2023523002 A JP2023523002 A JP 2023523002A
Authority
JP
Japan
Prior art keywords
genomic
proximity
interest
fragment
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022564377A
Other languages
English (en)
Inventor
ラート,ヴァウター レオナルト デ
アラーヤル,アミン
コルネリス スプリンター,エリック
Original Assignee
コーニンクレッカ ネーデルラントセ アカデミー ファン ヴェッテンシャッペン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コーニンクレッカ ネーデルラントセ アカデミー ファン ヴェッテンシャッペン filed Critical コーニンクレッカ ネーデルラントセ アカデミー ファン ヴェッテンシャッペン
Publication of JP2023523002A publication Critical patent/JP2023523002A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/10Detection mode being characterised by the assay principle
    • C12Q2565/133Detection mode being characterised by the assay principle conformational analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Switches That Are Operated By Magnetic Or Electric Fields (AREA)
  • Electronic Switches (AREA)
  • Investigating Or Analyzing Materials By The Use Of Magnetic Means (AREA)

Abstract

本発明は、分子生物学の分野に関し、より特にはDNA技術に関する。本発明は、関心のあるゲノム領域のDNA配列の構造的完全性を評価する為の戦略に関し、それは、診断学及び個別化された癌治療において臨床応用を有する。特に、本発明は、関心のあるゲノム領域に関与する染色体再配置を検出する方法を提供する。【選択図】図1

Description

本発明は、分子生物学分野に関し、より特にはDNA技術に関する。本発明は、関心のあるゲノム領域のDNA配列の構造的完全性を評価する為の戦略に関し、それは、診断学及び個別化された癌治療において臨床応用を有する。
特に、複数のDNAリードと関心のあるゲノム領域の為の染色体再配置を検出する方法が提供される。観察された近接性スコアは、ゲノムフラグメントに割り当てられる(101)。予想される近接性スコアが、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てられ(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値である。該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標が、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成される(104)。
核の3次元空間における近接ライゲーション(proximity-ligation)、すなわち細胞核内(イン・シチュー(in situ))でのDNAのフラグメント化とその後の再ライゲーション、に基づく一連の技術(3C、4C、5C、Hi-C、ChIA-PET、HiChIP、Targeted Locus Amplification(TLA)、capture-C、promoter-capture HiC、幾つか挙げると(Denker & de Laat、Genes & Development 2016を参照)がある。ほとんどの近接ライゲーションアッセイにおいて、フラグメント化の前にクロマチンがまず架橋化されて、元の3Dコンフォーメーションを保存することを助けるが、架橋無しのイン・シチューフラグメント化及び近接ライゲーション技術がまたある(例えば、Brant等,Mol Sys Biol 2016)。これらの手順は、空間的に近接した(すなわち、相互作用した)DNAフラグメント間のライゲーション産物を与え、従って、細胞核内の染色体折り畳みを解析する為に使用されることができる。近接ライゲーション法に加えて、核近接DNA配列を識別する為にライゲーションではなく架橋化に依存する他の核近接法、例えばSPRITE(split-pool recognition of interactions by tag extension)(Quinodoz等,Cell 2018)、がまた存在する。しかしながら、核(細胞)の空間における近接性に寄与する支配的なシグナルは、線形近接性(linear proximity)である。染色体上の直線的に隣接するDNAフラグメントは必然的に物理的に近接し、その結果、近接ライゲーションされた産物又は他の核近接アッセイにおいて一緒に発見される可能性が高くなる。一般的に、この傾向は該染色体上のフラグメントの対の間の直線距離が長くなるにつれて指数関数的に減少する。
この特徴により、核近接法、例えば近接ライゲーションアッセイを包含する該核近接法、は、染色体の直線構造における変化をもたらす染色体再配置を感度よく検出することを可能にする。例えば、そのような近接ライゲーションアッセイを実行し、そして、転座部位(translocation site)(2つの異なる染色体が融合されている場所の近く)のDNAフラグメントで形成されたライゲーション産物を分析することは、融合した2つのパートナーの間で非常に頻繁なライゲーション産物を与えるであろう。
De LaatとGrosveldは、再配置が、国際公開第WO2008084405号パンフレットにおいて、(a)「疾病細胞と非疾病細胞のDNA配列間の相互作用頻度における差」及び/又は(b)「低い相互作用頻度から高い相互作用頻度への遷移」に基づいて検出されることができることを開示した。
1つの観点において、関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
b.該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該5’末端に隣接する配列を含むゲノムフラグメントに近接する;
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
c.該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する;
を含む上記の方法を提供する。
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
d.該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、
e.該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す、
を含む上記の方法を提供する。
好ましくは、該近接アッセイが、複数のライゲーションされた近接生成物を生成する近接ライゲーションアッセイである。
好ましくは、工程d.が、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードの該データセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。工程d.の好ましい実施態様は、PLIERの実施態様として本明細書において更に記載されている。
好ましくは、工程b.が、オリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、該関心のあるゲノム領域の該5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、及び/又は工程c.がオリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、該関心のあるゲノム領域の該3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化することを含む。
好ましくは、工程b.が、該関心のあるゲノム領域の5'領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含み、及び/又は工程c.が、該関心のあるゲノム領域の3’領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含む。
好ましくは、該方法は、該再配置パートナー候補を該関心のあるゲノム領域内の位置に融合する該染色体切断部位接合部の位置を決定することを含み、該方法が、
i)該関心のあるゲノム領域のうちの少なくとも一部と、ii)該関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、該近接結合された生成物を配列決定し、そして、該染色体切断点をマッピングすること、ここで、該マッピングすることが、I)該関心のあるゲノム領域のうちの少なくとも第1の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)該関心のあるゲノム領域のうちの少なくとも第2の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、該I)及びII)からの該再配置パートナーゲノムフラグメントは線形に離れている。
好ましくは、該方法は、オリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、i)該関心のあるゲノム領域の少なくとも一部及びii)該関心のあるゲノム領域に近接するゲノムフラグメントを含む近接結合された生成物を富化することを含む。
好ましくは、該方法は、配列決定リードの少なくともサブセットについての行列を生成することを含み、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される。好ましくは、該行列が蝶形格子(butterfly plot)である。
好ましくは、該方法は、該切断部位にまたがる1つのゲノム領域の配列を決定することを更に含み、該方法が、
i)該関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む。
好ましくは、工程d.が、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。工程d.からの好ましい特徴は、本明細書において更に記載されている。例えば、幾つかの実施態様において、該予想される近接性スコアを、該少なくとも1つのゲノムフラグメント割り当てること(102)が、
複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの該観察された近接性スコアに基づいて決定すること(303)、ここで、該関連するゲノムフラグメントは、選択基準の1組に従って該少なくとも1つのゲノムフラグメントに関連する;及び
該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを、該複数の関連する近接性スコアに基づいて決定すること(304)
を含む。好ましくは、ここで、該複数の関連する近接性スコアを決定すること(303)が、
該観察された近接性スコアの複数の順列を生成し(401)、それによって、該複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別すること、ここで、順列を生成することが、選択基準の該1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの該観察された近接性スコアをスワッピングすることを含む
を含む。好ましくは、ここで、該少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定すること(303)が更に、順列内の該少なくとも1つのゲノムフラグメントのゲノム近傍における該ゲノムフラグメントの該順列化され観察された近接性スコアを集約して(402)、各順列についての該ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを更に含む。好ましくは、該方法が、該少なくとも1つのゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、該少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ること(101a)を更に含み、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成すること(103)が、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコアと該少なくとも1つのゲノムフラグメントの該予想される近接性スコアとに基づいて行われる。好ましくは、該方法が、各ゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して(101a)、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、ここで、該順列が、各ゲノムフラグメントの該集約され観察された近接性スコアに基づいて生成され(401)、及びここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの該指標を生成すること(103)が、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコア及び該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて行われる。好ましくは、該近接性スコアを集約すること(101a)、該予想される近接性スコアを割り当てること(102)、及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの該可能性の指標を生成すること(103)の工程が、複数の異なるスケール(501)について反復され(502)、ここで、各反復(101a’,102’,103’)において、該ゲノム近傍のサイズが該スケールに基づく。好ましくは、該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを決定すること(304)が、該少なくとも1つのゲノムフラグメントの該複数の関連する近接性スコアを組み合わせて、例えば平均及び/又は標準偏差を決定することを含む。好ましくは、該観察された近接性スコアを、該複数のゲノムフラグメントそれぞれに割り当てること(101)が、
観察された近接頻度を、1つのゲノムの複数のゲノムフラグメントに割り当てること(201)、ここで、該観察された近接頻度は、該対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの該データセットにおける存在を示す;及び、
各ゲノムフラグメントのゲノム近傍における該観察された近接頻度を組み合わせることによって、例えば該観察された近接頻度をビンニングによって、各観察された近接性スコアを計算すること(202)、好ましくは、ここで、該観察された近接頻度は、該ゲノムフラグメントに対応する該DNAリードが該データセット中に存在するか否かを示すバイナリ値、又は該データセット中の該ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含む、
を含む。
幾つかの実施態様において、関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
関心のあるゲノム領域を定義すること;
DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、該近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
i)該関心のあるゲノム領域のうちの少なくとも一部と、ii)該関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、
該近接結合された生成物を配列決定して、配列決定リードを生成すること、
該関心のあるゲノム領域に近接する該ゲノムフラグメントの該配列を参照配列にマッピングすること;
該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること(この工程の好ましい実施態様は、PLIERの実施態様として本明細書において更に記載されている);
該関心のあるゲノム領域の該5’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の該3’末端に隣接する配列を含む該ゲノムフラグメントに隣接する該再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す、ここで、該再配置パートナー候補ゲノムフラグメントの線形に離れていることが、該関心のあるゲノム領域内の染色体切断部位接合部を示す;
染色体切断部位の該位置をマッピングすることであって、該マッピングすることが、I)該関心のあるゲノム領域のうちの少なくとも第1の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)該関心のあるゲノム領域のうちの少なくとも第2の部分と該再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、該I)及びII)からの該再配置パートナーゲノムフラグメントは線形に離れている、
を含む上記の方法。
幾つかの実施態様において、関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出する為のコンピュータプログラム製品が提供され、該コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、該配列決定リードが近接結合された生成物の配列に対応し、該製品が、該関心のあるゲノム領域からのゲノムフラグメント、又は関心のある該領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される、及び
該行列を検索して該ゲノムセグメントの近接頻度で該再配置パートナー候補から遷移することを示す、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を該プロセッサシステムに行わせる。
幾つかの実施態様において、該プロセッサシステムが該行列を探索して、該行列のうちの少なくとも一部を4つの四分円へと分割し、隣接する複数の四分円間の頻度差が最大となり、且つ対向する四分円間の差が最小化されるところの該関心のあるゲノム領域に隣接する該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の座標を検出し、好ましくは、ここで、該プロセッサシステムが、
識別された4つの四分円を比較し、及び
2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして該染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして該染色体切断部位を分類する。
好ましくは、該コンピュータプログラム製品は、本明細書において開示されている方法のいずれかにおいて使用される。
染色体再配列をより正確に検出することができることは有利である。この懸念により良く対処する為に、関心のあるゲノム領域に関与する染色体再配置を検出する方法が提供される。この方法は、本明細書において「PLIER」(近接ライゲーションに基づく、再配置の識別:Proximity Ligation-based IdEntification of Rearrangements)とまた呼ばれ、該方法は、
近接アッセイ(例えば、核近接アッセイ)から得られた複数のDNAリードのデータセットを用意すること、ここで、該データセットは、該関心のあるゲノム領域に近接(例えば、核/線/染色体近接)するゲノムフラグメントを表す複数のDNAリードを含む;
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること、ここで、各ゲノムフラグメントの観察された近接性スコアは、該関心のあるゲノム領域に核近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つのDNAリードのデータセット内の存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)
を含む。
この方法及び後述される好ましい実施態様は、本明細書において更に記載されているように、該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別する為に有用である。
該予想される近接性スコアは、再配置を識別する為に、該観察された近接性スコアを比較するのに特に適した比較材料を形成する。
該予想される近接性スコアを該少なくとも1つのゲノムフラグメントに割り当てることは、複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの該観察された近接性スコアに基づいて決定することを含んでいてもよく、ここで、該関連するゲノムフラグメントは、選択基準の1組に従って、該少なくとも1つのゲノムフラグメントに関連し;そして、該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを、該複数の関連する近接性スコアに基づいて決定する。これにより、コンテクスト特異的な予想された近接度スコアを可能にし、それは、染色体再配置の検出により適しうる。
該複数の関連する近接性スコアを決定することは、該観察された近接性スコアの複数の順列を生成することを含んでいてもよく、それによって、該複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別することを含んでいてもよく、ここで、順列を生成することが、選択基準の該1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの該観察された近接性スコアをスワッピングすることを含む。該順列を生成することが、該決定され予想される近接性スコアの改善された精度を提供しうる。
該少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定することが、順列内の該少なくとも1つのゲノムフラグメントのゲノム近傍における該ゲノムフラグメントの該順列化され観察された近接性スコアを集約することによって、該順列の該順列化され観察された近接性スコアを集約して、各順列についての該ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを含みうる。このことは、外れ値を減らすことによって、該順列化された近接性スコアをより現実的なものにするのに役立つ。加えて又は代替的に、そのことは、或るゲノムの長さスケールで該予想される近接性スコアを決定することを可能にする。
該方法は、該少なくとも1つのゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、該少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ることを含み得、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの可能性の指標を生成することが、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコアと該少なくとも1つのゲノムフラグメントの該予想される近接性スコアとに基づいておこなわれうる。このことは、検出の精度が向上することに役立ちうる。加えて又は代替的に、そのことは、特定のゲノム長スケールで該観察された近接性スコアを決定することを可能にし、それは、該順列化され観察された近接性スコアを集約する為に使用されるゲノムの長さスケールと同じでありうる。
代替的に、該方法は、各ゲノムフラグメントの該ゲノム近傍における該ゲノムフラグメントの該観察された近接性スコアを集約して、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを含み得、ここで、該順列が、各ゲノムフラグメントの該集約され観察された近接性スコアに基づいて生成され、ここで、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成することが、該少なくとも1つのゲノムフラグメントの該集約され観察された近接性スコア及び該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて行われる。このことは、検出の精度を改善する為の及び/又は或るゲノムの長さスケールでの観察された且つ順列化された近接性スコアを決定する為の別のアプローチである。
該観察された近接性スコア集約することが、長さスケールに従って行われてもよく、並びに該順列化され観察された近接性スコアを集約することが、該同じ長さスケールに従って行われてもよい。このことは、特定の長さスケールで再配置を示す有意性スコアを決定することを可能にする。
該近接性スコアを集約すること、該予想される近接性スコアを割り当てること、及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与している該可能性の指標を生成することの工程が、複数の異なるスケールについて反復されてもよく、ここで、各反復において、該ゲノム近傍のサイズが該スケールに基づく。このように、マルチスケールアプローチが、複数のスケールにまたがって染色体再配列を識別する為に提供されうる。
該少なくとも1つのゲノムフラグメントの該予想される近接性スコアを決定することは、前該少なくとも1つのゲノムフラグメントの該複数の関連する近接性スコアを組み合わせて、例えば、例えば平均及び/又は標準偏差を決定することを含みうる。このことは、再配置検出の為の信頼できる有意性スコアを提供することを可能にするところの、該予想される近接性スコアについての値を提供しうる。
該観察された近接性スコアを該複数のゲノムフラグメントのそれぞれのゲノムフラグメントに割り当てることが観察された近接頻度を1つのゲノムの複数のゲノムフラグメントに割り当てることを含んでいてもよく、ここで、該観察された近接頻度は、該対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの該データセットにおける存在を示す;及び、各ゲノムフラグメントのゲノム近傍における該観察された近接頻度を組み合わせることによって、例えば該観察された近接頻度をビンニングによって、各観察された近接性スコアを計算することを含みうる。このことは、例えば、生の近接頻度データ、例えば生のライゲーション頻度データ、中のノイズを平均化することによって結果を改善することができる。
ゲノムフラグメントの該近接頻度は、該ゲノムフラグメントに対応する該DNAリードが該データセット中に存在するか否かを示すバイナリ値を含みうる。このことは、例えば独立にライゲーションされたフラグメントを可能にする。
ゲノムフラグメントの該近接頻度は、該データセット中の該ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含みうる。このことは、例えば、アンターゲットアッセイ(untargeted assays)を使用することを可能にする。
該複数のDNAリードのデータセットを用意することが、参照ゲノム中の関心のあるゲノム領域を決定すること;近接アッセイを実行して、ライゲーションされた/連結されたフラグメント複数の近接フラグメント(近接結合された生成物としてまた言及される)を生成すること;該近接結合された生成物を配列決定すること;該配列決定され近接結合された生成物を参照ゲノムにマッピングすること;該関心のあるゲノム領域にマッピングされたゲノムフラグメントを含むところの該配列決定され近接結合された複数の生成物を選択すること;及び、該選択され配列決定されライゲーションされた複数の近接結合された生成物のうちの少なくとも1つの近接結合された生成において、該関心のあるゲノム領域にライゲーションされたゲノムフラグメントを検出することを含みうる。好ましくは、該複数のDNAリードのデータセットを用意することが、参照ゲノム中の関心のあるゲノム領域を決定すること;近接ライゲーションアッセイを実行して、ライゲーションされた複数の近接フラグメントを生成すること;該ライゲーションされた近接フラグメントを配列決定すること;該配列決定されライゲーションされた近接フラグメントを参照ゲノムにマッピングすること;該関心のあるゲノム領域にマッピングされたゲノムフラグメントを含むところの該配列決定されライゲーションされた複数の近接フラグメントを選択すること;及び、該選択され配列決定されライゲーションされた少なくとも1つの近接フラグメントにおいて、該関心のあるゲノム領域にライゲーションされたゲノムフラグメントを検出することを含みうる。これらは、該複数のDNAリードを提供する好適な方法である。本明細書において更に記載されているように、該近接アッセイは、該関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、並びに該関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化することを含みうる。
該ゲノムフラグメントに関連する該複数の関連するゲノムフラグメントを識別する為の選択基準の該1組が、下記のうちの少なくとも1つを含みうる:関連するゲノムフラグメント候補が、参照ゲノムにおいて、該関心のあるゲノム領域をまた有する同じ染色体にシスで局在化しているかどうか;該関連するゲノムフラグメント候補が、該参照ゲノムにおいて、該関心のあるゲノム領域をまた有する該同じ染色体の特定の部分にシスで局在化しているかどうか;及び、該関連するゲノムフラグメント候補が、該参照ゲノムにおいて、該関心のあるゲノム領域を有しない染色体にトランスに局在化しているかどうか。これらの基準は、該予想される近接性スコアの質を改善する為に役立ちうる。
該ゲノムフラグメントに関連する該複数の関連するゲノムフラグメントを識別する為の選択基準の該1組が、下記のうちの少なくとも1つを含みうる:該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と同じ又は類似の三次元核コンパートメントのゲノム部分に局在化しているかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と同じ又は類似のエピジェネティッククロマチンプロファイルを有するところのゲノム部分に局在するかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と類似の転写活性を有するところのゲノム部分に局在するかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域と類似の複製タイミングを有するところのゲノム部分に局在するかどうか;該関連するゲノムフラグメント候補が、該関心のあるゲノム領域として実験的に作成されたフラグメントの関連する密度を有するところのゲノム部分に局在化しているかどうか;及び、該関連するゲノムフラグメント候補が、該関心のあるゲノム領域として、マップ可能でないフラグメント又はフラグメント末端の関連する密度を有するところのゲノム部分に局在化しているかどうか。このことは、該予想される近接性スコアがよりコンテクストを考慮したものにする為に役立つ。これらの全ての例において、「同じ又は類似」は、所定のマッチング基準の1組、例えば、より似ていない状況に対してより大きく、より似ている状況に対してより小さい(ゼロに近い)「コスト関数」又は「エラー関数」、に基づいて評価されうる。
該複数の関連するゲノムフラグメントを識別する為の選択基準の該1組が、該関連するゲノムフラグメント候補の該近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含む。このことは、再配置を示す有意性スコアの品質を改善しうる。
該少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの該可能性の指標を生成することが、該関連するゲノムフラグメント候補の該近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を除く選択基準の1組を使用して、該少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの該可能性の第1の指標を生成すること;該関連するゲノムフラグメント候補の該近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含む選択基準の該1組を使用して、該少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの該可能性の第2の指標を生成すること;及び、該第1の指標及び該第2の指標に基づいて、該少なくとも1つのゲノムフラグメントが染色体再配列に関連しているところの可能性の第3の指標を生成することを含みうる。この組み合わせは、提案された方法のいずれか1つを単独で実行する場合と比較して、より信頼性の高い可能性を導出することを可能にしうる。
本発明の他の観点に従うと、コンピュータプログラム製品が提供され、該コンピュータプログラム製品は、無形のコンピュータ可読媒体に格納されていてもよい。該コンピュータプログラムは、プロセッサシステムによって実行される場合に、
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること、ここで、1つのゲノムフラグメントの該観察された近接性スコアが、該ゲノムフラグメントに対応する少なくとも1つのDNAリードの該データセットにおける存在を示し、該データセットが、近接アッセイ(例えば、核近接アッセイ)から得られる複数のDNAリードを含み、該複数のDNAリードが、関心のあるゲノム領域に核近接する(例えば、核/線形/染色体近接)ゲノムフラグメントを表す;
予想される近接性スコアを、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて割り当てること、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値である;及び
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること
をプロセッサシステムに行わせるコンピュータ可読命令を含む。
該方法及びコンピュータプログラムは、本明細書に記載されているように、再配置パートナー候補を識別する為に染色体切断部位接合部の存在を確認する為の方法において好ましくは適用される。
当業者は、上述された特徴が、有用と考えられる任意の方法において組み合わせられうることができることを理解するであろう。その上、該方法に関して記載された修正及び変形は、同様に、装置又はコンピュータプログラム製品に適用されうる。
以下において、本発明の観点が、図面を参照しながら実施例によって解明されるであろう。該図面は、図式的なものであり、縮尺通りに描かれていない場合がある。図面全体を通じて、同じ参照数字が同様の参照項目に付されている場合がある。
図1は、染色体再配置を検出する方法を図示するフローチャートを示す。 図2は、複数のDNAフラグメントの為の近接性スコアを決定する方法を説明するフローチャートを示す。 図3は、少なくとも1つのDNAフラグメントについて、予想される近接性スコアを決定する方法を図示するフローチャートを示す。 図4は、特定のゲノムフラグメントについて、複数の関連する近接性スコアを決定する方法を図示するフローチャートを示す。 図5は、染色体再配置のスケールインバリアント検出(scale-invariant detection)の方法を図示するフローチャートを示す。 図6は、PLIERの1つの実施態様を使用する染色体再配置を検出する例示を示す。A.マッピングされたフラグメント(すなわち、近接ライゲーション産物)を含む所定のFFPE-TLCデータセットにおいて、B.PLIERは最初に、参照ゲノムを等間隔のゲノム区間に分割し、そして次に、C.少なくともフラグメント(又は近接ライゲーション産物)によってカバーされているそのゲノム区間内のセグメントの数によって定義される「近接頻度」を全ての区間について計算する。D.各染色体にわたる近接頻度のガウス平滑化により、E.観察された「近接性スコア」は、偽の可能性が高い近接頻度における非常に局所的で且つ急激な増加(又は減少)を除く為に計算される。F.予想される(又は平均)近接性スコア及び対応する標準偏差が、ゲノム全体にわたって、観察された近接度数をイン・シリコ(in silico)シャッフルし、引き続き、各染色体にわたってガウス平滑化することによって、類似の特性を有するゲノム間隔(例えば、トランス染色体上に存在するゲノム区間)について推定される。H.最後に、zスコアが、各ゲノム区間について、その観察された近接性スコア、関連する予想される近接性スコア及びその標準偏差を用いて計算される。PLIERは、捕獲されたフラグメントの有意に増加した濃度を有するゲノム区間を客観的に検索し、そして、それらを再配置の為の有力な候補として見なす。 図7は、染色体再配置を検出する為の装置のブロック図を示す。 図8Aは、FFPE-TLCワークフローの概略を示す。(1)サンプルを固定することを通じて、空間的に近接した配列(赤色)が優先的に架橋される。次に、パラフィンが除去され、サンプルセクションが透過処理されて、酵素がDNAにアクセスすることを許す。(2)DNAがNlaIIIを使用して断片化され、そして次に、(3)ライゲーションされ、それにより、共局在化したDNAフラグメントの連結を結果として生じる。(4)架橋が解除され、そしてDNAが精製された後に、(5)該DNAが次世代シークエンスライブラリー作成に付される。(6)関心のある配列が、ハイブリッド捕捉プローブ(hybrid capture probes)を用いて富化される。(7)調製されたライブラリーが、ペアエンド・イルミナ(paired-end Illumina)で配列決定された。 図8Bは、MYC、BCL2及びBCL6を標的とした典型的なFFPE-TLC実験から回収されたフラグメントのゲノムワイドなカバレッジを示す。青色で示されているものは、捕捉プローブによって標的とされるゲノム区間(+/-5Mb)で見られるカバレッジである。MYC遺伝子への再配列領域(緑色)は、赤色で示されているGRHPR遺伝子(chr9:31mb-42mb)周辺にクラスター化されたフラグメントの濃度によって識別される。 図8Cは、FFPE-TLCにおいて使用される複数のプローブセットが、プローブと相補的なゲノム配列(青色)だけでなく、その隣接する配列のメガ塩基(すなわち、近接ライゲーション産物)がまた、MYC(ピンク)、BCL2(茶)及びBCL6(オレンジ)について示されているように取り出されることを示す。再配置の場合(本例の場合に、MYC-GRHPR)、対応する捕捉プローブがまた、再配置パートナー(GRHPR、赤色)に由来する複数のフラグメントをまた取り出している。これは、GRHPR遺伝子座について示されているように、何らの再配置を有しない領域(例えば、茶色のBCL2又はオレンジのBCL6)には当てはまらない。 図9Aは、PLIERによる構造変異の同定の概要を示す。 図9Bは、標的遺伝子とPLIERで同定された再配置パートナーとの近接ライゲーション産物(染色体の頂上における緑のアーチ)の蝶形格子が如何にして、真の標的再配置(切断部位1~3、プローブ標的された領域内)と非標的再配置(切断部位4、プローブ標的された領域外)の区別に役立つことができることを模式的に説明したものである。標的遺伝子座の内部での相互再配置において、該標的遺伝子座は、パートナー遺伝子座の一方と優先的に近接ライゲーション産物を形成し並びに該パートナー遺伝子座の他方と優先的に接触し且つライゲーションする3'部分(b区分)と分離するところの5'部分(a区分)を確認できるはずである。切断部位が、プローブ標的された領域の外側にシスで存在する場合(切断部位4)、該標的遺伝子の5'(a)部分と3'部(b)部分とを区別することができない。 図9Cは、蝶形格子によって発見された相互再配置の3つの例(それぞれMYC、BCL2及びBCL6に関係する)を示す。 図9Dは、MYC、BCL2及びBCL6の蝶形格子を使用して例示されているように、標的遺伝子座の一部分だけがパートナーに融合するように、非相互的であることができることを示す。 図9Eは、識別された増幅事象の例を示す。そのような事象は、全ての標的遺伝子によって捕捉されるライゲーション産物の高められた数から明らかである(MYC、BCL2及びBCL6遺伝子について示されている)。 図10Aは、MYC(ピンク)、BCL2(茶)及びBCL6(オレンジ)との転座について、本発明者等の研究において識別された再配置パートナーを示すサルコスプロット(Circos plots)を示す。複数の標的遺伝子によって見つけられたパートナーは太字で示されている。所与のパートナーが本研究において見つけられた頻度が、括弧内にて示されている。加えて、各サルコスプロットの円周上に(水色でハイライトされた)、本発明者等の研究において各パートナーとの再配置が見つけられた標的遺伝子をドットで(すなわち、MYCはピンクのドットで、BCL2は茶色のドットで、BCL6はオレンジのドットで)示す。 図10Aは、MYC(ピンク)、BCL2(茶)及びBCL6(オレンジ)との転座について、本発明者等の研究において識別された再配置パートナーを示すサルコスプロット(Circos plots)を示す。複数の標的遺伝子によって見つけられたパートナーは太字で示されている。所与のパートナーが本研究において見つけられた頻度が、括弧内にて示されている。加えて、各サルコスプロットの円周上に(水色でハイライトされた)、本発明者等の研究において各パートナーとの再配置が見つけられた標的遺伝子をドットで(すなわち、MYCはピンクのドットで、BCL2は茶色のドットで、BCL6はオレンジのドットで)示す。 図10Aは、MYC(ピンク)、BCL2(茶)及びBCL6(オレンジ)との転座について、本発明者等の研究において識別された再配置パートナーを示すサルコスプロット(Circos plots)を示す。複数の標的遺伝子によって見つけられたパートナーは太字で示されている。所与のパートナーが本研究において見つけられた頻度が、括弧内にて示されている。加えて、各サルコスプロットの円周上に(水色でハイライトされた)、本発明者等の研究において各パートナーとの再配置が見つけられた標的遺伝子をドットで(すなわち、MYCはピンクのドットで、BCL2は茶色のドットで、BCL6はオレンジのドットで)示す。 図10Bは、BLC6の異なる部分を、異なるゲノムパートナー(chr3及びchr5)に融合させた非相互的転座事象の例を示す。 図10Cは、IGH、MYC、BCL2、並びにchr8及びchr10上の領域が関与する複雑な3方向配置の例(蝶形格子で並びに模式的に示されている)。 図10Cは、IGH、MYC、BCL2、並びにchr8及びchr10上の領域が関与する複雑な3方向配置の例(蝶形格子で並びに模式的に示されている)。 図10Cは、IGH、MYC、BCL2、並びにchr8及びchr10上の領域が関与する複雑な3方向配置の例(蝶形格子で並びに模式的に示されている)。 図10Dは、BCL6の両方の対立遺伝子(alleles)が独立して、再配置に関与している例を示す。 図10Eは、本発明者等の研究において、MYC遺伝子座において識別された切断部位位置の概要を示す。そのような切断部位は、FFPE-TLCによって捕捉されたFusion-Readをマッピングすることによって特定される。 図11Aは、希釈されたサンプル中でPLIERにより識別された再配置の概要を示す。緑色のチェックマークは、ゲノム上で偽陽性コール(false-positive calls)無しに、PLIERによる転座の成功裡の同定を示す。赤い十字は、再配置を見逃すことによって、又は他の領域における偽陽性の故に、再配置を検出する際のPLIERの失敗を示す。 図11Bは、BCL2-IGH再配置を有するサンプルF46の希釈液全体におけるライゲーション産物並びにPLIER計算された富化スコアの可視化を示す。 図11Cは、FISHによってMYCにおける切断について陰性であったF16及びF221の蝶々風(butterfly)の可視化したものを示す。FFPE-TLCは、同じ染色体内でMYC再配置を実際に有することが判明した。 図11Dは、FISHによって見逃された3つのBCL6再配置(F38、F40、F49)を蝶々風に可視化したものしたものを示す。2つの例(F38、F40)において、切断を有する細胞の割合が閾値以下であった故に、FISHは再配置を識別することに失敗した。 図11Eは、F49において、FFPE-TLCが、TBL1XR1遺伝子座の1.35Mb部分がBCL6遺伝子座内に挿入されたことを明らかにした。 図11Fは、F46のBCL6 FISH画像が、最初の検査では切断を示さなかったことを示す。後日、拡大表示(オレンジ色のボックス)により、FFPE-TLCによって検出された、転座の存在を示す幾つかの分割シグナル(白色の矢印)が確認される。 図12Aは、19個のサンプルにわたるMYC、BCL2及びBCL6遺伝子において識別された再配置を示すFISH、捕捉(Capture)-NGS及びFFPE-TLCの結果の比較を示す。各円は、特定の遺伝子における再配置について解析されたサンプルである。塗りつぶされた円はFISH診断との一致を示し、並びに空(赤)の円はFISH診断との不一致を示す。 図12Bは、捕捉-NGSによる偽陰性コール(false-negative call)の例を示す。該切断部位付近の領域(赤矢印)は捕捉プローブ(capture probes)がなく、それ故にNGSリード(NGS reads)もないので、該切断部位は、サンプルF190について識別できなかった。FFPE-TLC及びPLIERによるSVの識別は、融合リード(fusion read)に独立して、転座を正しくコールした(82.4のz-スコア)。 図12Cは、切断部位がプローブされた領域から遠く離れて生じる場合でさえも、FFPE-TLCが転座を検出する際に能力を有することを示す。各プロットは、2つのサンプルについての特定の遺伝子について、左から右へこの能力を示す:BCL2-IGH(F46及びF73について示す)、BCL6-IGL(F37及びF45について示す)並びにMYC-IGH(F50及びF59について示す)。各プロットにおけるX軸は、最後のプローブと該切断部位位置との間の最小距離を示す。Y軸はPLIERによって計算された富化スコア(enrichment scores)を示す。全てのテストケースにおいて、PLIERは、プローブが該切断部位から50kb離れた位置にある場合でさえも、転座を確実に識別する。 図12Dは、マッピング長を変化させても参照配列上に一意にマッピングされることができない切断部位配列の割合を示す図である。 図12Eは、捕捉-NGSによる偽陽性コールの例を示す。MYC遺伝子座をX染色体に連結する切断部位スパニングリードが見つかったが、サンプルF189についてのPLIERによる転座ピークはコールされなかった。chrX上のプライマーを用いたPCR及びシークエンスにより、模式的に示されているように、chr8からの240bpフラグメントの統合が確認された。 図13は、FISH診断とFFPE-TLC結果との比較を示す。水平方向にFISH診断並びに垂直方向に(PLIER使用した)FFPE-TLCコールをしたサンプルの定量的概要。FISHの「決定的でない」結果は、FISHシグナルの数が異常に多いか又は偏っているサンプルを云うことに注意されたい。 図14は、FFPE-TLCサンプルにおけるリード構造の模式図を示す。FFPE-TLCサンプルはペアエンドモード(paired-end mode)でイルミナ(Illumina)シーケンスされた。プローブされたフラグメント(薄緑で示されている)は、片方のリードエンドのみ、又は両方のリードエンドに表示される場合がある。そのようなフラグメントとは別に、近接ライゲーションフラグメント(青色で示されている)が存在する可能性がある。そのようなフラグメントは、プローブされたフラグメントとそれらを結び付ける制限部位認識配列(オレンジ色の縦線で示されている)を通じて認識されるこことが可能である。再配置が、プローブされた領域の周囲から発生しうる又は該プローブされた領域内若しくはその近傍に存在する場合には、近接ライゲーションフラグメントは、再配置されたパートナーの近傍から発生しうる。再配置が存在する場合、FFPE-TLCリードは、プローブされた(又は、近接ライゲーションされた)フラグメントと該再配置されたパートナーからの配列(赤で示されている)との融合を通じて生成されたフラグメントをまた有することができる。そのようなリードは、塩基対の分解能で再配置事象を描き出すことができ、それ故に、生じた構造変異について更に詳細な情報を提供することができる。 図15Aは、PLIERのコールが、後に蝶形格子を使用して関連性がないと識別された例を示す。サンプルF209において、BLC6から見た場合に、PLIERはPTEN遺伝子付近のchr10:91mbで富化スコアの有意な増加を識別した(頂上のプロット)。しかしながら、PTENから見た場合に、BCL6での相互的なピークは見られず、BCL6から4.5Mb離れたところにあることが見つけられた。この観察により、再配置が、関心のある領域(この場合はBCL6)内で生じていないことを確認した。 図15Bは、PLIERのコールが、後に蝶形格子を使用して関連性がないと識別された例を示す。関連性のない事例の存在は、(一番左の蝶形格子において描かれている)同じ事例(すなわちBCL6から見たF209)の蝶々風の可視化においてさらに検証されることができる。図示されているように、カバー率(coverage)の遷移(又は、切断部位)は見られることができない。その代わりに、垂直方向のパターンが見える。本発明者等は、この他にも、同様の特徴を持つ事例を2つ観察した。一つの事例は、BCL6から見た場合にF262において見られ、並びにF209における既に記載された事例と非常によく似ていた。もう一つの事例はF233においてであり、BCL6からまた見た場合であるが、今度はchr10:104付近で垂直方向の増加したカバー率が見られた。それ故に、全ての3つの事例はPLIERのコールとは関係がないと考えられる。 図16は、FFPE-TLCにおいて、捕捉された融合リードを使用してBCL2、BCL6及びIGHにおいて見つけられた切断部位の概要を示す。FFPE-TLCにおける融合リード(Fusion-reads)は、塩基対分解能での再配置の生じた切断部位をマッピングすることができる。このプロットは、本発明者等の研究における全サンプルにおいて、BCL2、BCL6及びIGH MYC?遺伝子座から見られる識別された切断部位を可視化する。 図16は、FFPE-TLCにおいて、捕捉された融合リードを使用してBCL2、BCL6及びIGHにおいて見つけられた切断部位の概要を示す。FFPE-TLCにおける融合リード(Fusion-reads)は、塩基対分解能での再配置の生じた切断部位をマッピングすることができる。このプロットは、本発明者等の研究における全サンプルにおいて、BCL2、BCL6及びIGH MYC?遺伝子座から見られる識別された切断部位を可視化する。 図17は、希釈倍率(Dilutions coverage) 対 富化スコア(enrichment score)を示す。 図18は、プローブの詳細を示す。 図18は、プローブの詳細を示す。 図18は、プローブの詳細を示す。 図18は、プローブの詳細を示す。
或る例示的な実施態様が、添付の図面を参照しながら、以下においてより詳細に記載されるであろう。本明細書及び図面に開示された事項、例えば詳細な構造及び要素、は、例示的な実施態様の包括的な理解を支援する為に提供される。従って、例示的な実施形態は、それらの具体的に定義された事項無しに実施されることができることは明らかである。また、周知の動作又は構造は、不必要な詳細で説明を曖昧にする故に詳細には記載されていない。
定義
以下の記載及び実施例において、多くの用語が使用されている。そのような用語によって与えられる範囲を包含する、本明細書及び請求項の明確且つ一貫した理解を提供する為に、下記の定義が提供される。本明細書において特に定義されない限り、使用される全ての技術用語及び科学用語は、本発明が属する技術分野における通常の当業者によって一般的に理解されるのと同じ意味を有する。本明細書において言及された全ての刊行物、特許出願、特許及び他の参考文献の開示は、参照することによってその全体が本明細書内に組み込まれる。
本発明の方法において使用されうる慣用的な技術を実行する方法は、当業者には明らかであろう。分子生物学、生化学、計算化学、細胞培養、組み換えDNA、バイオインフォマティクス、ゲノミクス、配列決定及び関連分野における慣用的な技術の実施は、当業者に周知であり、例えば、下記の文献参照において説明されている:Sambrook et al.,Molecular Cloning. A Laboratory Manual,2nd Edition,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N. Y.,1989;Ausubel et al.,Current Protocols in Molecular Biology,John Wiley & Sons,New York,1987 and periodic updates;and the series Methods in Enzymology,Academic Press,San Diego。
本明細書で使用される場合、単数形「1つ」(“a”)、「1つ」(“an”)及び「該」(the)は、コンテクストが明らかにそうでないことを指示しない限り、複数の参照語を包含する。例えば、上記で使用されている「1つの」(“a”)DNA分子を単離する方法は、複数の分子(例えば、10の、100の、1000の、10000の、100000の、数百万の、又はそれ以上の分子)を単離することを包含する。
本明細書において使用される場合に、表現「関心のあるゲノム領域」は、有機体の染色体のうち、(少なくともその一部)その構造的完全性を評価することが望ましいDNA配列を意味する。例えば、疾病に関連付けられた転座が疑われるゲノム領域を関心のあるゲノム領域として定義されることができる。関心のあるゲノム領域は、単一のDNAフラグメント、遺伝子、遺伝子を含むゲノム遺伝子座、染色体の一部等である場合がある。
幾つかの実施態様において、該関心のあるゲノム領域は、「トポロジー的に関連するドメイン」(TAD:Topologically associating domain)に相当する。TADは、DNA-DNA相互作用頻度によって定義され、並びにそれらの境界は、相対的に少数のDNA-DNA相互作用が生じる領域を横切る。TADは平均0.8Mbで、幾つかのタンパク質をコードする遺伝子を含みうる。TADの境界は一般的に、生物の異なる細胞タイプによって共有され、インシュレーター結合タンパク質CTCFに富む。TAD内の遺伝子の発現はある程度相関があり、従って、あるTADは活性遺伝子を有する傾向があり、並びに他のTADは抑制された遺伝子を有する傾向がある(例えば、Dixon et al.Nature.2012 May 17;485(7398):376~380を参照)。
本明細書において使用される場合に、語「遺伝子」は、オープンリーディングフレームと、このオープンリーディングフレームに関連付けられた全ての遺伝的要素を云う。これらの遺伝的要素は、イントロン、エクソン、開始コドン、停止コドン、5'非翻訳領域、3'非翻訳領域、ターミネーター、エンハンサー部位、サイレンサー部位、プロモータ、代替プロモータ、TATAボックス及び/又はCAATボックスを包含しうる。原核生物のコンテクストにおいて、「遺伝子」はまたオペロンを云う場合もあり、並びに複数のオープンリーディングフレームを含む場合もある。幾つかの実施態様において、該関心のあるゲノム領域は、5'非翻訳領域(5’UTR:5’untranslated region)で始まり且つ3’UTRで終わる遺伝子の配列を云う。オープンリーディングフレーム並びに上記で言及された遺伝的要素を予測する為の方法が、当業者に周知である。これらの方法は、構造アノテーション(structural annotation)としてまた呼ばれ、Ejigu and Jung(Biology 2020,9(9),295;https://doi.org/10.3390/biology9090295)においてレビューされた多数の異なるデータベース及びコンピュータアルゴリズムを利用しうる。
本明細書において使用される場合に、表現「オープンリーディングフレーム」は、開始コドンと停止コドンとの間の遺伝的要素及びそれらを含む遺伝的要素を云う。
本明細書において使用される場合に、表現「切断部位クラスター領域」(breakpoint cluster region)はまた、「切断部位をクラスター化する領域」(breakpoint clustering region)として云われ、そこから染色体再配列がかなりの数の患者、有機体又は検体において生じること又は生じたことが当業者によって知られているオープンリーディングフレーム又は遺伝子の部分配列(subsequence)を云う。当業者に知られているように、幾つかのゲノム領域は、メジャーな切断部位クラスター領域と、マイナーな切断部位クラスター領域として更に定義され得る幾つかの切断部位クラスター領域とを含む。
本明細書において使用される場合に、語「(1以上の)対立遺伝子」は、特定の遺伝子座での1つの遺伝子の1以上の代替型のうちのいずれかを意味する。有機体の二倍体細胞において、所与の遺伝子の対立遺伝子は、染色体上の特定の位置、すなわち遺伝子座(locus)(複数形はlocusである)、に位置している。1つの対立遺伝子が、一対の相同染色体のうちの各染色体上に存在する。従って、2倍体の細胞において、2つの対立遺伝子、従って、関心のある2つの別々の(異なる)ゲノム領域が存在しうる。
本明細書において使用される場合に、表現「核酸」は、ピリミジン塩基及びプリン塩基、好ましくはシトシン、チミン及びウラシル、並びにアデニン及びグアニンのそれぞれの任意のポリマー又はオリゴマーを云いうる(Albert L.Lehninger,Principles of Biochemistry,at 793-800,Worth Pub.1982を参照)。本発明は、任意のデオキシリボヌクレオチド、リボヌクレオチド又はペプチド核酸成分、及びこれらの塩基の任意の化学変異体、例えばメチル化された形態、ヒドロキシメチル化された形態又はグリコシル化された形態等、を企図する。ポリマー又はオリゴマーは、組成において不均一であっても又は均質であってもよく、並びに天然に生じる供給源から単離されてもよく、又は人工的に若しくは合成的に製造されてもよい。加えて、核酸は、DNA若しくはRNAであってもよく、又はそれらの混合物であってもよく、並びに一本鎖又は二本鎖の形態、例えばホモ二本鎖、ヘテロ二本鎖及びハイブリッド状態を包含する上記の一本鎖又は二本鎖の形態、で永久的に又は過渡的に存在しうる。
本明細書において使用される場合に、表現「サンプルDNA」は、有機体から、又は有機体の組織から、又は組織及び/又は細胞培養から得られたサンプルであって、ゲノムDNAを含む該サンプルを云う。ゲノムDNAは、有機体の1つの世代から次の世代へと受け継がれる遺伝の生物学的情報である有機体のゲノムをコードする。有機体からのサンプルDNAは、あらゆる種類の有機体、例えば、微生物、ウイルス、植物、真菌、動物、ヒト及び細菌、又はそれらの組み合わせ、から得られうる。例えば、細菌及び/又はウイルス感染が疑われるヒト患者からの組織サンプルは、ヒトの細胞だけでなく、ウイルス及び/又は細菌をまた含みうる。該サンプルは、細胞及び/又は細胞核を含みうる。サンプルDNAは、特定の疾患、例えば癌、又は有機体のDNAを調査することを保証する何らかの他の状態、を有する危険性がありうるか、又はその疑いがある患者又は対象からのものでありうる。
本明細書において使用される場合に、表現「架橋化」は、DNAを2つの異なる位置で反応させて、これらの2つの異なる位置が複数のDNA鎖間の共有結合として互いに接続することを云う。2本のDNA鎖が、紫外線照射を使用して直接的に架橋され、DNA鎖間に直接的に共有結合を形成してもよい。異なる2つの位置の間の接続は、剤、例えば架橋分子、を介した間接的なものであってもよい。第1のDNA部分は、2つの反応性基を含む架橋分子の第1の反応性基と共有的に結合されてもよく、その架橋分子の第2の反応性基は第2のDNA部分と共有結合し、それによって第1のDNA部分及び第2のDNA部分が架橋分子を介して間接的に架橋化されうる。架橋がまた、2本のDNA鎖の間に、2つ以上の分子を介して間接的に形成されうる。例えば、使用されうる典型的な架橋分子は、ホルムアルデヒドである。ホルムアルデヒドは、タンパク質-タンパク質及びDNA-タンパク質の共有結合による架橋を誘発する。従って、ホルムアルデヒドは、関連付けられたタンパク質を介して、異なるDNA鎖を互いに架橋しうる。例えば、ホルムアルデヒドは、タンパク質及びDNAと反応し、架橋分子を介してタンパク質とDNAとを共有結合させることができる。従って、2つのDNAセクションをホルムアルデヒドを用いて架橋し、第1のDNAセクションとタンパク質との間の接続を形成し、並びに、タンパク質は第2のDNAセクションに接続する別のホルムアルデヒド分子と第2の接続を形成し、従って、DNA1-架橋-タンパク質-架橋-DNA2として描かれうる架橋を形成しうる。いずれの場合であっても、本発明に従う架橋化は、互いに物理的に近接するDNAの鎖の間に共有結合(直接的又は間接的に)を形成することを含みうることが理解される。DNA鎖は、DNAが高度に組織化されているように、細胞内で互いに物理的に近接していてもよく、一方、配列の観点から例えば100kbで分離される場合がある。架橋化方法は、その後の断片化工程及びライゲーション工程と互換性がある限り、そのような架橋化が企図されうる。
本明細書において使用される場合に、表現「架橋化されたDNAのサンプル」は、架橋化に付されているサンプルDNAを云う。該サンプルDNAを架橋することは、サンプル内のゲノムDNAの三次元状態がほぼ無傷のままであるという効果を有する。このようにして、互いに物理的に近接したDNA鎖は、互いに近接した状態を維持する。「架橋化されたDNAのサンプル」は、ホルマリン固定及びパラフィン包埋されていてもよい:それは、ホルマリン固定パラフィン包埋(FFPE:formalin fixed paraffin embedded)材料として保存され及び保管されている組織又は腫瘍切片又は生検でありうる。「架橋化されたDNAのサンプル」は、病理学的研究の為に日常的に採取されるFFPEサンプル又は腫瘍サンプルでありうる。「架橋DNAサンプル」は、架橋された再構成クロマチンであってもよく、ここで、細胞(例えば、組織サンプル又はDNAサンプル)から分離されたゲノムDNAは、架橋を促進するタンパク質又は分子によってクロマチン再構成又はその他のパッケージング又はコーティングに付され、引き続き、架橋化が行われる。架橋化されたDNAのサンプルは、ゲノムDNAを含む。該サンプルは、細胞又は組織サンプルに由来しうる。幾つかの実施態様において、該架橋化されたDNAは、細胞、組織、又は核のサンプルからの架橋化されたクロマチンからのものである。好ましい実施態様において、該サンプルは、ヒト患者からのものであるが、他の有機体からのDNAがまた使用されうる。
本明細書において使用される場合に、表現「逆架橋化」は、架橋化されたDNAがもはや架橋化されないように並びに後続の工程、例えばライゲーション、増幅及び/又は配列決定工程、に適しているように架橋を壊すことを含む。例えば、プロテアーゼK処理を、ホルムアルデヒドで架橋されているサンプルDNAに行うことは、該サンプル中に存在するタンパク質を消化するだろう。該架橋化されたDNAはタンパク質を介して間接的に結合されている為に、プロテアーゼ処置それ自体がDNA間の架橋を逆転しうる。DNAに結合したままのタンパク質フラグメントは、その後の配列決定や増幅に支障をきたしうる。従って、DNAとタンパク質中のアミノ酸との結合を逆転させることがまた、「逆架橋化」を生じうる。DNA-架橋-タンパク質の結合は、例えば70℃でのインキュベーションによる加熱工程を通じて逆転されうる。架橋化されたDNA中には大量のタンパク質が存在する可能性ある故に、タンパク質はプロテアーゼでさらに消化することが望ましい場合が多い。従って、架橋されたサンプル中でつながっているDNA鎖がもはやつながっておらず、配列決定及び/又は増幅の為に適した状態になるような何らかの「逆架橋化」方法が企図されうる。
本明細書において使用される場合に、表現「DNAを断片化する」は、DNA(架橋化されたDNA又は架橋化されたDNAでなくてもよい)に施与される場合に、DNA「フラグメント」を生じる任意の技術を云う。DNAを断片化する為に周知の技術は、超音波処理、せん断及び/又は酵素的制限であるが、他の技術がまた想定されることができる。
本明細書において使用される場合に、表現「制限エンドヌクレアーゼ」(restrictionendonuclease)又は「制限酵素」(restriction enzyme)は、二本鎖DNA分子中の特異的ヌクレオチド配列(認識部位)を認識する酵素であってもよく、並びに、すべての認識部位又はその付近でDNA分子の両鎖を切断し、鈍端(blunt)又3'-若しくは5'-オーバーハング端を残す。認識される特異的ヌクレオチド配列が切断の頻度を決定し得、例えば、6ヌクレオチドのヌクレオチド配列は平均で4096ヌクレオチドごとに生じ、一方、4ヌクレオチドのヌクレオチド配列は平均で256ヌクレオチドごとに遙かに頻繁に生じる。
本明細書において使用される場合に、表現「ライゲーション」は、別個のDNAフラグメントの結合を包含する。DNAフラグメントは、平滑末端化されていてもよく、又は突出部が互いにハイブリダイズすることができるように、一致する突出部(粘着性突出部)を有していてもよい。DNAフラグメントのライゲーションは、リガーゼ酵素(すなわち、DNAリガーゼ)による酵素的でありうる。しかしながら、DNAフラグメントが結合している限り、すなわち共有結合を形成している限り、非酵素的ライゲーションがまた使用されうる。典型的には、別個の鎖のヒドロキシル基とリン酸基との間のホスホジエステル結合が形成される。
本明細書において使用される場合に、表現「オリゴヌクレオチドプライマー」又は「プライマー」は一般的に、DNAの合成を促進することができるヌクレオチドの鎖を云う。DNAポリメラーゼは、プライマーなしではDNAをデノボ(de novo)に合成することができない。プライマーはDNAとハイブリダイズする、すなわち塩基対が形成される。塩基対を形成することができるヌクレオチドは、互いに相補的であり、例えば、シトシンとグアニン、チミンとアデニン、アデニンとウラシル、グアニンとウラシルである。プライマーと既存のDNA鎖との相補性は100%である必要はなく、すなわち、プライマーの全ての塩基が既存のDNA鎖と塩基対である必要はない。既存のDNA鎖とハイブリダイズしたプライマーの3'末端から、ヌクレオチドが、既存のDNA鎖を鋳型として用いて取り込まれる(鋳型指向性DNA合成)。本発明者等は、増幅反応において用いられる合成オリゴヌクレオチド分子を「プライマー」と云う場合がある。
本明細書において使用される場合に、表現「オリゴヌクレオチドプローブ」又は「プローブ」は一般的に、(修飾された)RNA及び/又は(修飾された)DNAヌクレオチドの鎖を云い、それらは相補的であり、並びに例えば、捕捉-C、プロモータ-捕捉C、標的化されたクロマチン捕捉(T2C:Targeted Chromatin Capture)、Tiled-C及びプロモータ-捕捉Hi-C法においてなされているように、ハイブリダイズし、プルダウンし、そして、関心のあるゲノム領域の配列に対して核内で近接していたフラグメントライゲーションされた/連結された関心のあるゲノム領域の配列を抽出することができる(Hughes et al.,2014;Kolovos et al.,2014;Cairns et al.,2016;Martin et al.,2015;Javierre et al.,2016;Dao et al.,2017;Choy et al.,2018;Mifsud et al.,2015;Montefiori et al.,2018;Jager et al.,2015;Orlando et al.,2018;Chesi et al.,2019;Oudelaar et al.,2019)。修飾プローブとしては、例えば、xGen Lockdown Probes(5′-ビオチン化オリゴ)などが挙げられる。
本明細書において使用される場合に、語「ハイブリダイゼーション」は、塩基対形成を通じての2つの核酸鎖の結合を云う。核酸配列、例えばプローブ及びプライマーからの核酸配列、は好ましくは、それらの標的配列と少なくとも90、95又は100%同一である連続配列(例えば、15~100bp)を有する。当業者に知られているように、選択的又は特異的なハイブリダイゼーションが例えば、塩及び温度条件に依存する。好ましくは、プローブ又はプライマーがその標的配列にのみ結合するようなストリンジェントハイブリダイゼーション条件が使用される。
本明細書において使用される場合に、表現「プライマーベースの増幅」は、ポリヌクレオチド増幅反応、すなわち、1つ以上の出発配列、すなわちプライマー、から複製されるポリヌクレオチドの集団を云う。適切なプライマーは、例えば、15~30ヌクレオチドの配列長を有しうる。増幅が、様々な増幅反応、例えば、ポリメラーゼ連鎖反応(PCR:polymerase chain reaction)、線状ポリメラーゼ反応、核酸配列に基づく増幅、ローリングサークル増幅、等温増幅等を包含する上記の様々な増幅反応、を包含するがこれらに限定されない増幅反応を云いうる。好適なプライマーベースの増幅方法は更に、領域特異的抽出(RSE:Region-Specific Extraction(Dapprich et al.BMC Genomics.2016;17:486)、分子反転プローブ循環化(Porreca et al.at Methods 2007 Nov;4(11):931~6.)、及びループ仲介等温増幅(LAMP:loop mediated isothermal amplification)(例えば、Notomi et al.Nucleic Acids Res 2000 Jun 15;28(12):E63を参照)を包含する。
本明細書において使用される場合に、表現「配列決定」は、核酸サンプル、例えばDNA又はRNAにおけるヌクレオチド(塩基配列)の順序を決定することを云う。多くの技術、例えば、サンガー(Sanger)配列決定、及び当技術分野で次世代シーケンサーとまた呼ばれる「ハイスループット配列決定」技術、例えば、Roche、Illumina及びApplied Biosystemsによって提供されている該技術、又はDavid J Munroe & Timothy J R Harris in Nature Biotechnology 28,426~428(2010)によって記載され並びに例えば、Pacific Biosciences and Oxford Nanopore Technologiesによって提供されているような当技術分野において第3世代配列決定とまた呼ばれている技術がまた使用されうる。そのような技術は、1回の実行で1つのサンプルDNAから複数の配列リードを可能にする。例えば、高スループットシーケンス技術(high throughput sequence technology)の1回の実行における配列決定リードの数は、数百から数十億のリードの範囲でありうる。高スループットシーケンス技術は、製造者の説明書(例えば、Roche、Illumina又はApplied Biosystemsによって提供されてきたような製造者の説明書)に従って実行されうる。ロングリード(long-read)及びショートリード(short-read)の両方の配列決定方法が、本明細書において企図されている。本技術は、配列決定ランを実行実施する前に、DNAの調製を含みうる。そのような調製は、DNAへのアダプターのライゲーションを含みうる。アダプターは、複数のサンプル間を区別する為の識別子配列を含みうる。使用される高スループットシーケンス技術に適する又は適合するDNAのサイズに応じて、配列決定されるべきDNAは断片化工程に付されうる。「アダプター」は、限られた数の塩基対、例えば約10~約30塩基対の長さ、の短い二本鎖オリゴヌクレオチド分子であり、それらがフラグメントの末端にライゲーションできるように設計されている。アダプターは一般的に、互いに部分的に相補的なヌクレオチド配列を有する2つの合成オリゴヌクレオチドで構成されている。そのようなアダプターは、PCRに基づく富化戦略(enrichment strategies)及び/又は近接ライゲーションされた分子の配列決定と組み合わせて使用されうる。
本明細書において使用される場合に、表現「配列決定リード」(sequencing reads)は、核酸シーケンサ、例えば、超並列アレイシーケンサー(例えば、カリフォルニアのIllumina又はPacific Biosciences)、によって配列決定される(「リードされる」)DNAの断片(piece)を云う。該配列決定リードは、ゲノムフラグメント又は近接ライゲーション分子の一部を含んでいてもよい。配列決定リードは、参照配列にマッピングされ、及び/又は例えばアライメントを通じてイン・シリコ(in silico)で結合され、連続した配列を得てもよい。幾つかの実施態様において、本方法は、少なくとも1,000、少なくとも5,000、又は少なくとも10,000の配列決定リードを生成する。配列決定リードの数は、該関心のあるゲノム領域の5'末端に隣接する配列を含む近接ライゲーションされた分子に対応する配列決定リードの数;該関心のあるゲノム領域の3’末端に隣接する配列を含む近接ライゲーションされた分子に対応する配列決定リードの数;又は、該関心のあるゲノム領域の5'末端及び3'末端に隣接する配列を含む両方の近接ライゲーションされた分子に対応する配列決定リードの数を云う。配列決定リードの数はまた、該関心のあるゲノム領域のフラグメントからなる近接ライゲーションされた分子を云いうる。当業者には明らであるように、そのような広範な配列決定リードのマッピングには、当技術分野において知られているコンピュータプログラムの使用を必要とする。
本明細書において使用される場合に、語「整列する」(aligning)及び「整列」(alignment)は、同一又は類似のヌクレオチドの短い又は長いストレッチの存在に基づいて、2以上のヌクレオチド配列を比較することを意味する。整列の為の方法及びコンピュータプログラムは、当該技術分野において周知である。整列の為に使用され又は適応されうる1つのコンピュータプログラムは、Genentech,Inc.社によって著作された「アライン2」(Align 2)であり、それは、1991年12月10日にワシントンD.C.20559の米国著作権局にユーザ文書とともに提出された。
本明細書において使用される場合に、表現「参照ゲノム」(参照アセンブリとしてまた知られる)は、ある種の遺伝子セットの代表例として、例えば科学者によって、組み立てられたデジタル核酸配列データベースを云う。参照ゲノムは、多数のドナーからのDNA配列決定からしばしば構築されるので、任意の一人の人間の遺伝子セットを正確に表すことはない。その代わり、参照ゲノムは各ドナーからの異なるDNA配列のハプロイドモザイク(haploid mosaic)を提供する。例えば、GRCh37、すなわちGenome Reference Consortium human genome(build 37)は、ニューヨーク州バッファローからの13人の匿名ボランティアから得られたものである。参照ゲノムの他の例は、GRCh19及びCRCh38を包含する。当業者によって理解されるであろう通り、参照配列がまた、本明細書において記載された方法において使用されうる。好適な参照配列は、参照ゲノム、並びに参照ゲノムからの配列の1つのサブセットを包含する。
本明細書において使用される場合に、表現「独立してライゲーションされたDNAフラグメント」は、所定の細胞の所定の対立遺伝子の該関心のあるゲノム領域に由来するフラグメントにライゲーションされたDNAフラグメントを云う。近接ライゲーションアッセイにおいて、独立してライゲーションされたフラグメントは、配列決定前にPCR増幅されていてもよく、それ故に、複数回配列決定される場合がある。また、幾つかの近接ライゲーション方法において、架橋化(任意)、断片化、そしてライゲーション後に得られた近接ライゲーション産物は、例えば、効率的なPCR増幅、オリゴヌクレオチドベイト捕捉プルダウン(oligonucleotide bait capture pulldown)及び/又は配列決定の目的の為に、更に断片化されていてもよく、その場合に、同じ独立してライゲーションされたフラグメントの異なる部分が配列決定されうる。独立してライゲーションされたフラグメントが配列決定データセットに対して複数のリードを寄与するような全ての例において、独立してライゲーションされたフラグメントのコレクションを最適に表すデータセットを生成する為にフィルタリングが実行されうる。
本明細書において使用される場合に、表現「染色体再配置」(chromosomal rearrangements)又は「構造的変異」(structural variation)は、染色体欠失(chromosomal deletions)、染色体逆位(chromosomal inversions)、染色体重複(chromosomal duplications)、染色体転座(chromosomal translocations)を含む、遺伝性及び体細胞遺伝性異常の1組を云う。ここで、染色体欠失及び染色体逆位は同一染色体内で(シスで)生じ、染色体重複は同じ染色体内で(シスで)、又は2以上の異なる染色体間で(トランスで)生じ、若しくは遺伝子座の染色体外コピーを生じ、ここで、転座は異なる2つの染色体間で(トランスで)生じる。染色体再配置はまた、外来DNAの挿入に起因する再配置、例えば、トランス遺伝子及びトランスポゾン、を包含する。幾つかの実施態様において、該再配置パートナーは外来DNAである。
本明細書において使用される場合に、表現「相互再配置」(reciprocal rearrangement)は、非相同染色体の一部の交換であってもよく、ここで、遺伝的要素は失われず、且つ一方の染色体の遺伝的要素が第2染色体に融合して終わり、一方、該第2染色体の遺伝的要素が第1染色体に融合して終わり、転座に関与する各染色体が転座事象ごとに1つの切断点を有することを云う場合がある。相互転座」とは、非相同染色体の一部が交換された結果生じる生成物を云う場合もあり、この場合、遺伝的要素は失われず、一方の染色体の遺伝的要素が第2染色体に融合され、一方で、第2染色体の遺伝的要素が第1染色体に融合され、該再配置に関与する各染色体が再配置事象ごとに少なくとも1つの切断部位を有する。相互再配置は、自然又は人工的なプロセスの結果である場合があり、並びに行列で識別されることができる。該行列の要素は、該関心のあるゲノム領域とその再配置パートナーにおけるゲノムセグメントの近接頻度を表す。
本明細書において使用される場合に、表現「非相互再配置」(non-reciprocal rearrangement)は、ある染色体から別の非相同染色体への遺伝要素の移動を云い、第2染色体からの遺伝的要素が第1染色体に移動することはない。代替的に、「非相互再配置」は、ある染色体から別の非相同染色体への遺伝要素の移転の結果としての生成物を云う場合があり、この場合、第2の染色体からの遺伝要素は第1の染色体に移転しない。「非相互再配置」は、外来DNAの挿入を云う場合がある。非相互再配置は、自然又は人工的なプロセスの結果である場合があり、並びに行列で識別されることができる。該行列の要素は、該関心のあるゲノム領域及びその再配置パートナーにおけるゲノムセグメントの近接頻度を表す。
本明細書において使用される場合に、表現「シス染色体」は、参照ゲノムに従うと、該関心のあるゲノム領域を含む染色体を云う。典型的に、近接ライゲーション技術において、独立してライゲーションされたフラグメントは、シス染色体に由来する可能性が最も高い。次に、シス染色体に由来する独立してライゲーションされたフラグメントは、該関心のあるゲノム領域からより大きな距離に位置する配列よりも、該関心のあるゲノム領域に直線的に近接して位置する配列である可能性がより高い。
本明細書において使用される場合に、表現「トランス-染色体」は、関心のある有機体においてシス染色体でない任意の染色体を云う。
本明細書において使用される場合に、語「シス-相互作用」は、シス染色体に由来する遺伝要素が標的要素に対して物理的に近接していることを云う。本明細書において使用される場合に、語「トランス-相互作用」は、トランス-染色体に由来する遺伝要素が標的要素に対して物理的に近接していることを云う。
本明細書において使用される場合に、表現 DNAフラグメントの「ライゲーション頻度」(ligation frequency)、DNAフラグメントの「連結頻度」(linkage frequency)、DNAフラグメントの「相互作用頻度」(interaction frequency)及びDNAフラグメントの「近接頻度」(proximity frequency)は、そのDNAフラグメント及び関心のあるゲノム領域のライゲーションされた/連結されたフラグメントの数、又は代替的に、そのDNAフラグメント及び関心のあるゲノム領域の独立してライゲーションされた/連結されたフラグメントの数を云う場合がある。ライゲーション頻度」、「連結」、「相互作用頻度」及び「近接頻度」は、DNAの実用的又は理論的な制限消化に由来する所定のDNAセグメントとのDNAフラグメントのシス-及び/又はトランス-相互作用の数を云う場合があり、又は代替的には、DNAの実用的又は理論的な制限消化に由来する所定のDNAセグメントとのDNAフラグメントのシス-及び/又はトランス-相互作用の数の指標である数値を云う場合がある。また、所定のゲノム区間内で、DNAの実際的又は理論的な制限消化に由来するセグメントのうち、少なくともライゲーション産物によって覆われているセグメントの数、又は所定のゲノム区間内で、DNAの実際的又は理論的な制限消化に由来するセグメントのうち、少なくとも連結された産物によって覆われているセグメントの数を示す値を云う場合がある。典型的に、近接結合/ライゲーション技術において、シス-相互作用による相互作用頻度は、トランス-相互作用による相互作用頻度よりも高い。ライゲーション頻度」、「連結頻度」、「相互作用頻度」、及び「近接頻度」は、ライゲーション/連結されたフラグメントの数又は独立してライゲーション/連結されたフラグメントの数のいずれかに本質的に関連する値を云う場合がある。例えば、DNAフラグメントが該関心のあるゲノム領域にライゲーションされる確率を表すp値がまた、ライゲーション頻度とみなされうる。そのようなp値は例えば、二項検定を用いて計算されうる。該頻度は、検出された相互作用の数の正規化された値でありうる。そのような正規化は、サンプル間の差、例えばサンプルの質を包含する該サンプル間の差、の正規化;並びに、GC含量、マッピング可能性及び制限部位頻度の正規化を含みうる。
本明細書において使用される場合に、表現「ゲノムビン」(Genomic bin)又は「ビン」(bin)は、ライゲーション頻度が割り当てられる単位としてDNAフラグメントに置き換えられることができる、典型的に5kb~1Mb、好ましくは10kb~200kb、のサイズの染色体間隔を云う。所定のビンへのライゲーション頻度の割り当ては、そのビン内に含まれるDNAフラグメントのライゲーション頻度を集約する演算子(総和、平均、中央値、最小値、最大値、標準偏差、三角カーネル、ガウスカーネル、半ガウスカーネル又は他の任意のタイプの重み付け及びパラメータ化演算子)に依存する。
本明細書において使用される場合に、表現 フラグメントの「ゲノム近傍」又はビンの「ゲノム近傍」は、参照ゲノム内の所定のフラグメント又はビンを囲む定義された線形染色体区間を云う。フラグメント又はビンのゲノム近傍は、10キロ塩基~5メガ塩基、好ましくは200キロ塩基~3メガ塩基、であることができる。ゲノム近傍は、関心のあるフラグメント又はビンを囲むフラグメントの数に基づいて定義されることもでき、その場合に典型的には、50~15kフラグメントである。
本明細書において使用される場合に、表現「観察され集約されたライゲーションスコア」(Observed aggregated ligation score)は、各フラグメント又はビンに、それ自身のライゲーション頻度と、そのゲノム近傍に存在する複数のフラグメント又は複数のビンのライゲーション頻度とに従って与えられるスコアを云う。
本明細書において使用される場合に、表現「予想され集約されたライゲーションスコア」(Expected aggregated ligation score)は、同じ実験からのライゲーション頻度をイン・シリコ(in silico)順列及び集約によってモデル化されたバックグラウンドに従って各フラグメント又はビンに与えられる二重スコア(すなわち、平均値及び標準偏差)を云い、各フラグメント又はビンについて最も確率の高い観察された集約ライゲーションスコア(平均)並びに対応する変動(標準偏差)を表す。
本明細書において使用される場合に、表現「関連フラグメント」、「関連ビン」、「比較可能なフラグメント」及び「比較可能なビン」は、あるマッチング基準に従って関連する複数のフラグメント又は複数のビンを云う。これらのマッチング基準は、予め決められていてもよく、手元の実験に依存してもよい。例えば、所定のフラグメントの関連フラグメントは、トランス染色体、同じトランス染色体、シス染色体に由来するフラグメント若しくはビン、又は類似の長さのフラグメント(又はフラグメント有するビン)、又は類似の架橋効率、消化効率、ライゲーション効率及び/又は類似のエピジェネティックマークを有する断片若しくはビン、又は類似のGC含量もしくはヌクレオチド組成又は保存の程度を有するフラグメント若しくはビン、又は同じ空間核区画(例えば、Hi-C法により決定された場合)中に存在するフラグメント若しくはビン、又はこれらの組み節合せである。
本明細書において使用される場合に、表現「コンテクストを考慮した予想され集約されたライゲーションスコア」(コンテクストを考慮した予想され集約されたライゲーションスコア)は、関連フラグメント又は関連ビンを順列にすることによって生成される予想される集約されるライゲーションスコアを云う。
本明細書において使用される場合に、表現「有意性スコア」(significance score)は、各フラグメント又はビンについて、観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコア又はコンテクストを考慮した予想された集約されたライゲーションスコアのいずれかと比較することによって算出されうるスコアを云う。
本明細書において使用される場合に、表現「核近接アッセイ」は、核内で関心のあるゲノム領域に近接しているDNAフラグメントを識別することを可能にする任意の方法を云う。核近接アッセイの例は、「近接ライゲーションアッセイ」及び近接ライゲーションに依存しない核近接アッセイである。核近接はまた、染色体近接又は物理的近接と云われうる。特に、近接は、線形近接、すなわち、シス染色体に沿った近接を云う。
本明細書において使用される場合に、表現「近接ライゲーションアッセイ」は、核内で関心のあるゲノム領域に近接するDNAフラグメントを識別する為に、近接したDNAフラグメントのライゲーションに依存するアッセイを云う。近接ライゲーションアッセイは、染色体コンフォーメーション捕捉アッセイとしてまた当該分野において知られており、本明細書で使用されてもよく、円形染色体コンフォーメーション捕捉又は染色体コンフォーメーション捕捉と配列決定(4C)技術(Simonis et al.,2006;van de Werken et al.,2012)、並びに4C技術の変種(例えば、UMI-4C (Schwartzman et al.,2016)及びHi-C Lieberman-Aiden et al.,2009)、イン・シチュー(in situ)Hi-C(Rao et al.,2014)及び標的化された遺伝子座増幅(TLA:targeted locus amplification)(de Vree et al.,2014)とを組み合わせたような方法を包含する。本明細書において言及される近接ライゲーション法は、例えば捕捉C法、プロモータ捕捉C法及びプロモータ捕捉Hi-C法において行われるように、核内で近接したフラグメントにライゲーションされた関心のあるゲノム領域の配列のハイブリダイゼーション、プルドダウン及び富化に(修飾された)RNA及び/又は(修飾された)DNAヌクレオチドからなる)補完オリゴヌクレオチドプローブを用いる方法を包含しうる(Hughes et al.,2014;Cairns et al.,2016;Martin et al.,2015;Javierre et al.,2016;Dao et al.,2017;Choy et al.,2018;Mifsud et al.,2015;Montefiori et al.,2018;Jager et al.,2015;Orlando et al.,2018;Chesi et al.,2019)。
近接ライゲーション方法は、免疫沈降、又は他のタンパク質指向若しくはRNA指向の戦略を使用して、その特定のタンパク質又はRNA分子を担持するか又は関連付けられた関心のあるゲノム領域に近接ライゲーションした関心のある配列についてプルダウン、及び富化する方法、例えば、ChIA-PET(Li et al.,2012)及びHi-ChIP (Mumbach et al.,2017)、をさらに包含する。近接ライゲーションアッセイ及び染色体コンフォーメーション方法の例が、(Denker and de Laat,2016)に示されている。近接ライゲーションアッセイは、ライゲーション前に架橋化有りで又は架橋化無しで実行される可能性がある(Brant et al.,2016)。
また、核内において関心のあるゲノム領域に近接するDNAフラグメントを識別する核近接アッセイ(染色体/物理的近接アッセイ)はまた、関心のあるゲノム領域への近接したDNAフラグメントのライゲーションに頼ること無しに行われることができる:ライゲーションに頼らずに、核内で関心のあるゲノム領域に近接するDNAフラグメントを識別する核近接アッセイの一例は、SPRITE(split-pool recognition of interactions by tag extension:タグ拡張によるインタラクションのスプリットプール認識)(Quinodoz et al.,2018)である。
本明細書において使用される場合に、語「近接結合された生成物」は、互いに近接した2以上のゲノムフラグメントであって、それが結合していものを云う。ゲノムフラグメントは、直接的に又は間接的に連結されていてもよい。例えば、該ゲノムフラグメントは架橋化されていてもよく、例えばバーコード又はタグ(例えば、SPRITE)に基づいて連結が決定されてもよい。加えて、該ゲノムフラグメントは、(例えば、近接ライゲーションアッセイの結果として)互いにライゲーションされていてもよい。そのような近接結合された生成物は、本明細書において近接ライゲーションされた産物と云われる。当業者は、本明細書において使用される場合に、語「近接ライゲーションされた産物」が、他に指定されない限り、近接結合された生成物を一般的にまた包含することができることを理解するであろう。
本明細書において使用される場合に、表現「該関心のあるゲノム領域の接触プロファイル」は、該関心のあるゲノム領域に核近接すると識別されたDNAフラグメントを参照ゲノム上にプロットして可視化するゲノムマップを云う。
本明細書において使用される場合に、表現「染色体切断部位接合部」及び語「切断部位」は、染色体上又は染色体配列上で、染色体及び/又はDNA産物の2つの部分が自然又は人工プロセスの結果として互いに融合された場所を云う。本開示において特に関連する切断部位点は、健康な又は典型的な患者、有機体又は検体において通常は生じない切断部位点である。
本明細書において使用される場合に、語「行列」は、2つの軸で構成される、数値、値又は式の表を云う。数値、値又は式は、様々な要素、例えば、色又はグレースケールのトーン、によって表現されうる。
本明細書において使用される場合に、表現「蝶形格子」は、2つの集団についての変数の分布を表示する行列を云う。例えば、行列の一方の軸は、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し得、並びに他方の軸は、再配置パートナー候補の配列位置を表しうる。
実施態様
図1は、関心のあるゲノム領域に関与する染色体再配置を検出する方法100を図示する。その目的の為に、該方法100は、核近接アッセイから得られうる複数のDNAリードのデータセットを分析する幾つかの工程を含み、ここで、該データセットは、関心のあるゲノム領域に核近接するゲノムフラグメントを表す複数のDNAリードを含む。
方法100は、工程101において、複数のDNAフラグメントの各々のDNAフラグメントについて近接性スコアを決定することから始まる。該近接性スコアは、DNAフラグメントが関心のある特定のゲノム領域にゲノム的に近接している可能性の指標を表しうる。例えば、該近接性スコアは、関心のある特定のゲノム領域にライゲーションされている/連結されている複数のフラグメントの複数のDNAリードのコレクションに関連しうる。より一般的には、該リードは、関心のある遺伝子領域に近接していることが検出方法によって検出されたDNAフラグメントにマッピングされた複数のリードである。DNAフラグメントの該近接性スコアは、そのDNAフラグメントが核内の関心のある領域に近接している可能性を示す。例えば、該近接性スコアは、複数のリードのうち、そのDNAフラグメントのリードの数を示す近接頻度を含む。代替的には、該近接性スコアは、そのDNAフラグメントのうちの少なくとも1つのリードが該複数のリード中に存在するかどうかを示すものを含む。さらに代替的には、該近接性スコアは、そのDNAフラグメントの少なくとも1つのリードが該リード中に存在する可能性の指標を含む。例えば、該近接性スコアは、該近接性スコアを含むデータベースにアクセスすることによって決定されることができる。その上、該近接頻度は、該近接性スコアがゲノムフラグメントのビンに関連するように、処理ステップ、例えばビニング(binning)、に付されうる。
集約工程101aにおいて、他の任意工程として、工程101の近接性スコアが集約されてもよく、集約された近接性スコアを得てもよい。例えば、工程202の近接性スコアは、ゲノムに沿った移動平均又は加重移動平均に付されてもよい。加重移動平均は、ゲノムの近接性スコアを適切なカーネル、例えばガウスカーネル(例えば、サンプリングされたガウスカーネル又は離散ガウスカーネル)、で畳み込むことによって実装されてもよい。このことは、スライディングウィンドウアプローチとまた呼ばれ、代替的には、例えば、ガウス窓(Gaussian windows)若しくはカーネル、半ガウス窓若しくはカーネル、三角窓若しくはカーネル、長方形窓若しくはカーネル、又は他の種類の窓若しくはカーネルをスライドさせることを含みうる。集約工程101aの結果は、工程103において、DNAフラグメントの近接性スコアとして用いてもよい。なお、集約工程101aが省略される場合には、例えば、工程202の近接性スコアが用いられうる。
工程102において、少なくとも1つのDNAフラグメントについての予想される近接性スコアが決定される。この予想される近接性スコアは、データベース内の他のDNAフラグメントの該観察された近接性スコアに基づいて計算されてもよい。例えば、特定の実験及び/又は染色体に関連するデータベース内の全てのDNAフラグメントの平均及び標準偏差が、該予想される近接性スコアを決定する為に計算されてもよい。代替的には、無作為に選択されたDNAフラグメントが平均化されてもよい。さらに代替的には、関連するDNAフラグメントの1組が決定され、そして、それらの関連フラグメントのみの近接性スコアが平均化されてもよい。該関連フラグメントは、例えば、該関心のあるゲノム領域へのそれらの近接性に基づいて、又は他の類似性基準に基づいて選択されてもよい。そのような類似性基準の例は、本明細書の他の箇所に開示されている。
工程103において、工程101において決定された少なくとも1つのDNAフラグメントの近接性スコアが、その少なくとも1つのDNAフラグメントについての予想される近接性スコアと比較される。例えば、該DNAフラグメントの該近接性スコアが、工程102において決定された該予想される近接性スコアと比較される。この結果、少なくとも1つのDNAフラグメントが染色体再配置に関与している可能性の指標を結果として生じる。この指標は、例えば、有意性スコアの形態であってもよい。或る実装において、工程102において決定された標準偏差が、該観察された近接性スコア対該予想される近接性スコアの任意の偏差の統計的有意性を決定する為に比較に関与しうる。有意な偏差が見出された場合、染色体再配置が検出されたと見なしてもよい。統計的な有意性は、有意性スコアとして表現されうる。この有意性スコアは、該観察された近接性スコア及び該予想される近接性スコアの両方が入手可能である各ゲノムフラグメントについて計算されてもよいことが理解されるであろう。
工程104において、再配置が検出されたかどうかが決定される。これは、ブーリアン決定(Boolean decision)であってもよく、すなわち、利用可能な有意性スコアが、各ゲノムフラグメントについてイエス/ノー決定に至る為に評価されてもよく、又は該決定は、該ゲノムフラグメントが該関心のあるゲノム領域との再配置に関与する確率若しくは可能性、又は確実性を包含する軟判定(soft decision)であってもよい。この決定は、工程103において計算された有意性スコアに基づくものであってもよい。或る実施態様において、工程103の該有意性スコアは、工程104において出力される軟判定に等しい。
しかしながら、或る他の実施態様において、より多くの入力変数が決定を下す際に考慮され、ありうる再配置を示す高められた有意性スコアを生成する。例えば、マッピングされた標的近接ライゲーションされた/連結されたフラグメントのゲノム近傍におけるマッピング不可能な実験的に作成されたフラグメントの密度が決定されてもよい。工程104における該決定は更に、この密度に基づいてもよく、好ましくは、該高められた有意性スコアは、該マッピングされた標的-近接結合/連結されたフラグメントのゲノム近傍におけるマッピング不可能な実験的に作成された断片の密度に正のスケールとなる。その上、マッピングされた標的近接ライゲーションされた/連結されたフラグメントのゲノム近傍におけるマッピング可能な実験的に作成されたフラグメントの密度が決定されてもよい。工程104における該決定は更に、この密度に基づいていてもよく、好ましくは、該高められた有意性スコアは、所与のフラグメントの予想され集約された近接性スコアと負に比例する。
工程104で、該関心のある特定のゲノム領域と、別の特定のゲノムフラグメントが関与するゲノム再編成が存在する可能性があることが検出された後、次に、任意的に、この再配置の存在が、別の特定のゲノムフラグメントを「該関心のある特定のゲノム領域」として用いて、手順100全体を最初から実行することによって更に検証されてもよい。その手順がゲノム再配置を確認する場合に、その再配置が実在することがさらに確実となる。
図2は、方法100の工程101において実行される、複数のDNAフラグメントの該近接性スコアを決定する為のありうる方法を図示する。
工程201において、近接頻度が、複数のDNAフラグメントのそれぞれについて決定される。好ましくは、後の集約を容易にする為に、ゲノム中の連続した多数のDNAフラグメントがこの為に用いられる。例えば、あるDNAフラグメントの近接頻度は、そのDNAフラグメントのリードの数でありうる。アッセイに依存して、近接頻度の2値化を実行すること、例えば、DNAフラグメントが該リードの中から見つかった場合には近接頻度を1に設定し、DNAフラグメントが該リードの中から見つからなかった場合には近接頻度を0に設定することによって該2値化を実行すること、が好ましい場合がある。
工程202において、任意工程として、工程201の複数の近接頻度が組み合わされて、近接性スコアを生成してもよい。工程202が行われない場合、例えば、複数の近接頻度それら自体が上記の近接性スコアでありうる。工程202は例えば、工程201の近接頻度のビニングを含んでいてもよい。例えば、連続する塩基の数ずつのビンが定義され、そして、複数の近接頻度が、各ビン内で組み合わされてもよい。該ビンのサイズは、例えば、5キロ塩基~1メガ塩基、好ましくは10キロ塩基~200キロ塩基、に選択されうる。該ビンは例えば、25キロベースのサイズを有していてもよく、ビンの任意の適切なサイズが選択されてもよい。各ビン内の近接頻度は例えば、それらを合計することによって又は平均化することによって組み合わされてもよい。代替的には、二項検定が実行されよく、例えば、該ビン内のゲノムフラグメントがデータベース内のリードの中に生じる可能性を結果として生じうる。そのような二項検定は、二値化された近接頻度の場合に特に適している場合がある。ビニング後、該結果として得られた近接性スコアは、該ビン内に含まれているゲノムフラグメントをカバーする、より大きなゲノムフラグメントに関連していると言える場合がある。
或る実施態様において、1つの集約工程のみが実行されてもよく(すなわち、工程202又は集約工程101aのいずれか、場合によっては工程402と組み合わせて)、又は集約工程が全く実行されなくてもよいことが理解されるであろう。しかしながら、両方の集約工程を含むことが有利である場合がある。その上、代替的な実施態様において、工程202の為にカーネルフィルタを使用し、並びに集約工程101aの為にビニングを使用することが可能である。
図3は、少なくとも1つのDNAフラグメントについて、予想される近接性スコアを決定する工程102を実装する方法の1つの実施態様を図示する。例えば、分析は、1つのDNAフラグメントに限定されてもよく、又はゲノム内の或る領域に限定されてもよく、又は染色体全体に限定さてもよい。代替的には、該解析は、ゲノム全体に対して実行されてもよい。
工程303において、複数の関連する近接性スコアが、解析されるべき各ゲノムフラグメントについて生成される。該近接性スコアは、工程101から結果として得られるスコアでありうる。この点において、ビニングが、組み合わせる工程202において行われる場合、ゲノムフラグメントは、ゲノムフラグメントの「ビン」であると見なされてもよいことに留意されたい。
本開示において、関連する近接性スコアは、該予想される近接性スコア決定されているところのゲノムフラグメントに関連するゲノムフラグメントの近接性スコアであってもよい。この点に関して、ゲノムフラグメントが或るマッチング基準を満たす場合に、該ゲノムフラグメントは互いに関連していてもよい。例えば、同じ染色体上のフラグメントは、互いに関連していると考えられてもよく、又はゲノム上の或る距離内のフラグメント、又はある機能若しくはタンパク質に寄与することが知られているフラグメント、又は他の点で比較可能なフラグメントであってもよい。他のマッチング基準は、本明細書の他の箇所に開示されている。或る実装において、実験で得られた全てのゲノムフラグメントは、関連フラグメントであると設定される。
該複数の関連する近接性スコアは、関連するゲノムフラグメントの全ての近接性スコアから構成されていてもよい。代替的には、計算効率の為に、関連する近接性スコアのコレクションは、利用可能な関連する近接性スコアのランダムな選択から構築されてもよい。例えば、ランダムに選択された1000個(又は他の所定の数)の関連するゲノムフラグメントの近接性スコアが収集されてもよい。
工程304において、複数の関連近接性スコアが、例えば平均及び標準偏差が予想される近接性スコア計算されるように、統計的計算に付される。代替的には、例えば上記の平均の代わりに、該関連する近接性の中央値が決定されてもよく、又は上記の標準偏差の代わりに分散が決定されてもよい。他の統計的方法が、予想される近接性スコアを計算する為に、又は例えば近接性スコアの為に確率密度関数のパラメータを計算する為に使用されてもよい。
この予想される近接性スコアは、必要に応じて、各ゲノムフラグメントについて計算されうる。
図4は、複数の関連するDNAフラグメントに対応する複数の関連する近接性スコアを決定する工程303を実装する方法の1つの実施態様を図示する。工程303に関して本明細書の上記で観察されるように、工程101において決定された該近接性スコアは、この方法の出発点として使用されうる。
工程401において、関連するゲノムフラグメントの該観察された近接性スコアが順列化される。上述されているように、ゲノムフラグメントは或るマッチング基準を満たす場合に、該ゲノムフラグメントが互いに「関連」していると考えられうる。それ故に、この工程において、第1のフラグメントの該近接性スコアは、該マッチング基準に従って第1のフラグメントに関連する第2のフラグメントの該近接性スコアと交換されてもよい。従って、複数の該近接性スコアの各々は、別の近接性スコアとスワップされてもよい。スワップされる特定のゲノムフラグメントは、ランダムに選択されてもよい。ランダムな順列を作成する為に、各ゲノムフラグメントは、別のランダムに選択された関連するゲノムフラグメントとスワップされてもよい。代替的には、複数の関連ゲノムフラグメントのうちの対の関連ゲノムフラグメントの間で任意の数(例えば、固定数)のスワップが実行されてもよい。この工程により、順列化された近接性スコアが提供される。
工程402において、工程401の順列化された近接性スコアが集約されうる。好ましくは、この集約工程は、該観察された近接性スコアにおいて実行される集約工程101aと同じ演算を含む。このようにして該集約され観察された近接性スコアを該予想され集約される近接性スコアと比較することが容易となる。例えば、工程101aで上述されたように、移動平均又は離散ガウスカーネルが適用されうる。この工程は、集約された順列化された近接性スコアを提供する。
工程403において、工程402の該集約され順列化された近接性スコアは、特定のDNAフラグメントに関連づけられたコレクションに集められ、後に工程304において該予想される近接性スコアが計算されうる。代替的には、特定のDNAフラグメントに対応する或る統計が、工程402の該集約された順列化された近接性スコアに基づいて更新されてもよい。工程404及び405で例示されているように、任意の所望のゲノムフラグメントの該集約され順列化された近接性スコアが収集されてもよい。このようにして、ゲノムの再配置/不連続性が、任意の数のゲノムフラグメントについて検出されうる。多くの場合、研究対象のゲノムにおける全てのゲノムフラグメントの該集約され順列化された近接性スコアを収集することが最も有用でありうる。
工程406において、集約され順列化された近接性スコアの1以上のコレクションが十分に大きいかどうかが判断される。この工程は、例えば、反復カウンタによって実装されうる。この工程は、該予想される近接性スコアが十分な統計的関連性を有するであろうことを保証しうる。例えば、所定の数の順列、例えば、1000回の順列又は100,000回の順列、が実行されうる。
工程406において、順列化された近接性スコアのコレクションが所望の数まで拡大する為に更なる順列化が必要とされる場合に、該処理は工程401から継続される。そうでなければ、工程407で、関連する近接性スコアのコレクションが完成する。
或る実施態様において、順列化された近接性スコアの実際の値をコレクションに格納する必要はないことが理解されるであろう。その代わりに、或るパラメータを更新することによって、工程403及び工程304を1つの工程で組み合わせることが可能である。例えば、もし、該予想された近接性スコアの平均値μ及び標準偏差σのみが望ましい場合に、複数の該順列化された近接性スコアの合計
Figure 2023523002000002
と、前順列化された近接性スコアの二乗の合計
Figure 2023523002000003
と、順列化された近接性スコアの数
Figure 2023523002000004
を更新することで十分である。工程403においてこれらのパラメータを更新した後に、該順列化された近接性スコアの実際の値
Figure 2023523002000005
が破棄されてもよい。上記の平均は、その後、工程304において、下記の式
Figure 2023523002000006
で計算され得、並びに上記の標準偏差は、下記の式
Figure 2023523002000007
で計算されうる。
或る実施態様において、該集約工程は、長さスケールを実装しうる。例えば、該観察された近接性スコアの第2の集約工程101a及び該順列化された近接性スコアの集約工程402は、或るスケールで、該観察された近接性スコアと該予想される近接性スコアとを比較する為に使用されうる。集約工程がガウシアンフィルタによって実装される場合に、該スケールは例えば、ガウシアンカーネルフィルタの標準偏差と見なされうる。他の種類のフィルターが、スケールの同様の概念を有しうる。例えば、スライディングウィンドウアプローチのウィンドウサイズが、スケールに従って変わりうる。図1~図4の全手順が、異なるスケールを用いて何度も実行されうる。このことは、異なるスケールについて異なる有意な知見をもたらしうる。異なるスケールについての結果が組み合わされて、スケール不変の結果を得られうる。例えば、異なるスケールから得られた有意差スコアの最大値、最小値又は平均値が、最終的な、スケール不変の、有意差スコアとして使用される。同様に、或る実施態様において、第1の集約工程202が、異なるスケールで実行されうる。例えば、ビニングの場合、異なるビンサイズが使用されうる。
或る実施態様において、近傍において該観察された近接性スコアを集約して、集約された近接性スコアを得る工程101a、及び近接性スコアの順列を集約する工程402は、各DNAフラグメントを以下のように処理することによって実行されうる。該1つのDNAフラグメントの複数の近傍DNAフラグメントが識別される。該1つのDNAフラグメントと該複数の近傍DNAフラグメントの(観察された又は順列化された)近接性スコアが選択される。該選択された近接性スコアは、集約演算子、例えば、移動平均、例えば加重移動平均、例えばガウス加重移動平均、又はゲノムに沿った別のタイプの演算子、を用いて組み合わされ、該DNAフラグメントについての該集約された近接性スコアを生成する。或る実施態様において、近傍DNAフラグメントは、下記のように識別されうる。距離尺度が、近傍DNAフラグメントを識別する為に選択されうる。距離尺度の第1の例は、ゲノム距離である。その場合、ゲノム長さスケールの観点から近いDNAフラグメントが選択され、すなわち、DNAフラグメントからある塩基数(例えば、200キロベース又は750キロベース)未満離れた全てのフラグメントが、近傍DNAフラグメントでありうる。距離尺度の第二の例は、ゲノムに沿ったDNAフラグメントの数である。その場合、該DNAフラグメントに最も近いK個のDNAフラグメントが近傍DNAフラグメントでありうる。例えば、K=31又はK=51である。
図5は、関心のあるゲノム領域に関与する染色体再配置のそのようなスケール不変のフローチャートを示す。図5において、図1の工程と類似する工程が、図1と同じ参照数字が付されており、但し、アポストロフィが付されている。スケール不変検出方法は、異なるスケールで工程103'における有意性スコアを決定する為の反復502を含み、該スケールは工程501における各反復において設定される。再配置の最終的な決定は、工程104'において、個々のスケールの為に与えられた有意性スコアを用いて行われることができる。
より詳細には、該方法は、例えばアッセイによって生成されたリードを有するデータベース内の複数のDNAフラグメントの各々に近接性スコアを割り当てることで工程101で開始される。この工程は、図1の工程101と同一とすることができる。実装例が図2において示されている。
次に、工程501において、スケールが設定される。例えば、該スケールは、塩基数として現されうる。しかしながら、これは限定されるものでない。該スケールは、ゲノム近傍におけるDNAフラグメントの近接性スコアを集約する集約関数のパラメータでありうる。該近傍の幅は、スケールによって決定されうる。該集約関数がガウシアンカーネルである場合、該スケールは、ガウシアンカーネルの為に用いられているガウシアン関数の標準偏差でありうる。ガウシアンカーネルのテールは任意的に、適切な点で切断されうる。該集約関数がスライディングウィンドウである場合、該スケールは、該スライディングウィンドウのウィンドウ幅でありうる。例えば、スケールの所定の1組が、各反復502において1つのスケールを解析する為に選択されうる。スケールの該1組は、任意の数のスケールを有することができる。(例えば、標準偏差又はウィンドウ幅として)使用されるべきスケールの1組の例は以下の通りである:{1キロベース、1メガベース、1000メガベース}。
工程101a’において、本明細書において上述されているように、選択されたスケールを用いて、近接性スコアが集約される。このようにして、集約された近接性スコアが得られる。この集約工程の為の好適なプロセスが、工程101aに関して本明細書において既に概説されている。
工程102’において、少なくとも1つのDNAフラグメントについての該予想される近接性スコアが、選択されたスケールに基づいて決定される。該予想される近接性スコアは、該少なくとも1つのDNAフラグメントに割り当てられる。該予想される近接性スコアは、1つのDNAフラグメントに対して、DNAフラグメントの特定のサブセット、例えばゲノム領域、に対して、又は染色体全体若しくはゲノム全体のDNAフラグメントに対して割り当てられうる。該予想される近接性スコアを計算する方法は例えば、図3及び図4を参照して本明細書に開示されているように実装されうる。工程402において、近接性スコアの順列が、選択されたスケールを使用して集約されうる。例えば、工程101a'と同じ集約アルゴリズム及び集約パラメータが使用されうる。
工程103’において、該少なくとも1つのゲノムフラグメントが染色体再配置に関与する可能性の指標、例えば有意差スコア、が、工程101a'のスケールに従う該集約された近接性スコア及び工程102'のスケールに従う該予想される近接性スコアを用いて決定される。このようにして、選択されたスケールごとに、染色体再配置の可能性の異なる指標が得られうる。
工程502において、全ての所望のスケールが適用されているかどうかが検証される。計算がより多くのスケールについて望まれる場合、処理は工程501から繰り返され、ここで、別のスケールが選択される。例えば、このプロセスは、スケールの所定の1組の全てのスケールが選択されるまで繰り返される。
プロセスが全ての所望のスケールについて実行されている場合、該プロセスは工程104'に進み、選択されたスケールの全てについて工程103'において決定された指標(有意性スコア)に基づいて、再配置が検出されたか否かを決定する。異なるスケールについての指標(有意性スコア)は、多くのありうる方法のうちの1つにおいて組み合わせられることができ、例えば、少なくとも1つのDNAフラグメントについての利用可能な有意性スコアの最大値、平均値、中央値又は最小値が決定されうる。その後、バイナリ判定に到達する為に、閾値が任意的に適用されうる。その後、該プロセスが終了する。
図1~図5を参照して本明細書に記載された方法は、コンピュータプログラムとして、又は適切にプログラムされたコンピュータシステムとして実装されうることが理解されるであろう。近接アッセイの手段によって作成されたデータセットは、そのようなコンピュータプログラムの入力として機能してもよく、並びに出力は、検出された再配置の表示であってもよい。
本開示を通じて、ライゲーション頻度は近接頻度の一例であり、並びにライゲーションスコアは近接性スコアの一例であると理解されうる。幾つかの技術が例としてライゲーション頻度及びライゲーションスコアを用いて本明細書を通じて図示され且つ記載されているが、一般的に、本明細書に開示された技術は、任意の近接頻度及び/又は近接性スコアを用いて実施されうることが理解されるであろう。例えば、関心のあるゲノム領域に近接するDNAフラグメントを識別する為に、「近接ライゲーション」、例えばSPRITE方法、に依存しない核近接アッセイが使用されうる。それ故に、本開示を通じて、ライゲーション及び近接という語は、互換的に使用されうる。具体的には、ライゲーション頻度及び近接頻度という語は、互換的に使用されうる。同様に、ライゲーションスコア及び近接性スコアという用語は、互換的に使用されうる。
図6は、本明細書において記載された方法を適用した例示的な例を示す。例として、近接頻度が、4Cプロファイル又は別のアッセイ技術として得られることができる。そのようなアッセイは、近接ライゲーションデータセットを結果として生じうる。図6は、染色体(横軸に部分的に示されている)に沿ったDNAフラグメントの該観察された近接頻度(縦軸)のグラフ600を示す。染色体の小部分をカバーするグラフ600の詳細が、グラフ601において示されている。該プロファイルは、例えば25キロベースの幅を有するビンを用いてビニングされて、観察された近接性スコアのスコアプロファイルを得る。スコアプロファイルの詳細がグラフ602に示されており、完全なスコアプロファイルがグラフ603に示されている。スコアプロファイル603は、この例において、ガウスカーネル605を用いて集約され、グラフ606に示されているように、観察され集約された近接性スコアの集約された又は平滑化されたスコアプロファイルを得る。スコアプロファイル603は、ランダムに順列化されたプロファイル604を得る為に順列化され、それがまたガウスカーネル605を使用して平滑化される。順列化及び平滑化はN回繰り返され、ここで、Nは整数であり、例えば1000である。順列化され平滑化されたこれら全てのプロファイルから、グラフ607において示されているように、予想され集約された近接性スコアの予想プロファイルが導出される。平滑化プロファイル606は、例えば減算(又は、例えば二乗差)によって予想されたプロファイル607と比較され、グラフ608に示されているような差分プロファイルを得る。有意な閾値609がまた、順列化され平滑化されたプロファイル及び/又は該予想されるプロファイルから導出される。代替的には、有意な閾値609は、設定可能な値に設定されうる。比較プロファイル608が有意な閾値609を超えるフラグメントにおいて、フラグメント610で示されているように、ありうる再配置の指標がトリガされうる。
図7は、染色体再配置を検出する為の装置のブロック図を示す。本装置は、本明細書において開示されている任意の方法を実行するように構成されているコンピュータシステムとして実装されうる。例えば、複数のDNAリードを取得した後の工程は、装置700によって実行されてもよい。特に、染色体再配置を検出する為に必要な計算工程は、本装置によって実行されてもよい。例えば、装置700は、命令を実行することができるプロセッサ701を備えていてもよい。プロセッサ701は、協調的に動作するように構成された複数の(サブ)プロセッサから構成されていてもよい。装置700は、メモリ702をさらに備えてもよく、該メモリは、任意のデータ記憶手段、例えば、フラッシュメモリ若しくはランダムアクセスメモリ又はそれら両方、でありうる。メモリ702は、非一時的なコンピュータ可読媒体を備えていることができる。メモリ702は、プロセッサ701に、命令を実行する際に、本明細書において記載されている方法を実行させる命令を格納することができる。これらの命令は、コンピュータプログラムを集合的に形成することができる。該コンピュータプログラムは、代替的に、別の非一時的コンピュータ可読媒体、例えば光ディスク、に格納されることができる。更に、メモリ702は、アッセイに関連するデータ、例えば複数のDNAリードを有するデータベース、を格納するように構成されていてもよい。該データ、例えばDNAリード、は、トランシーバ703を介して受信されてもよく、該トランシーバ703は、例えばユニバーサルシリアルバス(USB:universal serial bus)又は無線通信装置でありうる。また、本方法の結果、例えば任意の再配置を示す有意スコアは、トランシーバ703を通じて出力されてもよい。周辺装置は、トランシーバ703によって接続されていてもよい。任意的に、装置700は、ユーザインタフェース構成要素(図示されていない)、例えばディスプレイ及び/又はユーザ入力装置、例えばマウス、キーボード、又はタッチパネル、を備えている。そのようなユーザインタフェース構成要素は、代替的に、トランシーバ703を介して接続されていてもよい。その上、そのようなユーザインタフェース構成要素は、該装置の動作を制御し、及び/又は計算の結果を出力する為に使用されてもよい。トランシーバ703は例えば、外部メモリと通信することがまたできる。最後に、装置700は、代替的には、計算又はデータストレージの一部をクラウドサーバ上で実行し、別の一部をクライアントデバイス上で実行するところの分散型コンピュータシステムとして実装されていてもよい。
或る実施態様において、近接ライゲーションアッセイとして知られている核近接アッセイが使用されてもよい。その上、(架橋された)DNAのサンプル内及び該DNAの複数のサンプル間の技術的且つ生物学的なバイアス及び変動が、関心のあるゲノム領域において生じる構造的変動を計算的に識別する為に考慮されうる。
或る実施態様において、関心のあるゲノム領域において生じる構造的変異を同定する方法は、
近接ライゲーションアッセイを実行して、関心のあるゲノム領域に核近接する独立してライゲーションされたフラグメントのデータセットを作成すること;
該データセットを用いて、観察され集約されたライゲーションスコアを各フラグメントに割り当てること;
同じデータセットを用いて、各フラグメントについてのコンテクストを考慮した予想され集約されたライゲーションスコアを計算すること;
異なる染色体長スケールで、該フラグメントの観察値と該コンテクストを考慮した予想され集約されたライゲーションスコアとを比較し、そして、該コンテクストを考慮した予想され集約されたライゲーションスコアと比較して有意に増加した該集約されたライゲーションスコアを有するフラグメントを、染色体長スケール毎に識別すること
の工程を含む。
或る実施態様において、関心のあるゲノム領域に近接するDNAフラグメントを識別する為に、「近接ライゲーション」、例えば「SPRITE」方法、に依存しない核近接アッセイの使用がなされ、並びに、関心のあるゲノム領域に生じた構造変化を計算的に識別する為に(架橋化された)DNAのサンプル内及び該DNAの複数のサンプル間の技術的且つ生体的なバイアス及び変動が考慮され、該方法は、
核近接アッセイを実行して、関心のあるゲノム領域に核近接性するDNAフラグメントのデータセットを作成すること;
該データセットを使用して、観察され集約された近接性スコアを各フラグメントに割り当てること;
同じデータセットを使って、各フラグメントについてのコンテクストを考慮した予想され集約された近接性スコアを計算すること;
異なる染色体長スケールで、該フラグメントの実測値と該コンテクストを考慮した予想され集約された近接性スコアとを比較し、そして、有意に増加した該集約された近接性スコアを有するフラグメントを、染色体長スケール毎に特定すること
の工程を含む。
本明細書において開示されている技術は、染色体再配置をより正確に検出することが望ましいという認識に基づく。これは主に、2つの所与のサンプル(例えば、疾病のある細胞と健康である細胞)の比較において、実際の構造的差異によって引き起こされるのではない、複数の近接ライゲーション産物の間の多くの差異が検出されることができるからである。その上、任意の近接ライゲーションデータセットに見られることができる低相互作用頻度から高相互作用頻度への多くの遷移が、構造的変異によって引き起こされるものでない。それ故に、これらの欠点を改善し、同じデータセットにおいて観察される本質的な技術的バイアスを考慮しながら、ゲノムにおける構造的変異を識別することが本発明の1つの観点である。
転座(translocations)(染色体再配置(chromosomal rearrangements))は、様々な形態の癌の根底にある(Schram et al.,2017)。それらは、癌遺伝子の過剰発現、又は調節不全にされた発現若しくはキナーゼ活性を有する融合タンパク質の産生を結果として生じうる。転座の分子タイピングは、診断(腫瘍分類)、予後、及び最近では治療方針の決定の為に、臨床で日常的に行われている。例えば、プロテインキナーゼ遺伝子であるALK及びROS1における転座を保有する非小細胞肺癌(NSCLC:non-small cell lung carcinoma’s)は、FDAが承認したプロテインキナーゼ阻害剤によって標的化可能であり(Kwak et al.,2010;Shaw et al.,2014)、一方、RETの強力な阻害剤はRET転座を有する患者に対する有望な精密医療薬となる(Plenker et al.,2017)。それ故に、NSCLC腫瘍の分子タイピング(Pisapia et al.,2017)は、最適な治療法を選択する為に非常に有用であり、オランダではステージIV(転移性の)肺癌に対して義務化されている(年間1000人)。転座解析が、特に、毎年びまん性大細胞型B細胞リンパ腫(DLBCL:diffuse large B-cell lymphoma)と診断される約1500人の患者、及びオランダで様々な形態の肉腫を有する毎年約700人の患者の多くについても実施されている。
既に数十年前から、外科手術で摘出した腫瘍生検は、ホルマリン固定パラフィン包埋(FFPE:formalin fixed paraffin embedded)標本として保存することが日常的な臨床手順となっている。しかしながら、FFPE標本におけるDNA又はRNAの再配置検出は、DNA及びRNAが架橋化され且つフラグメント化されているという事実の故に困難である。再配置検出の為の為の、RNA及びDNAに基づくPCR戦略は存在するが、複雑である。第一に、再発性の再配置された遺伝子の切断部位位置及び再配置パートナーは患者の間で異なることがしばしばあり、それはありうる再配置の全てを検出するPCRプライマーセットを設計することを困難にする。新規の融合パートナーはしばしば見落とされ、その場合、陰性結果が得られる場合には、再配置に関する決定的な見解は成立しない。Archer FusionPlexのようなRNAベースの幾つかのPCR戦略は、再配置パートナーについて不可知論的なものであるが、不均一な腫瘍生検において再配置がやはり見つからなくても、その存在を否定することはない。また、RNAが少なすぎたり、FFPEサンプルにおけるRNAが低品質であったり、その後のcDNA PCR産物の分析に適さない場合がある。最後に、所謂、位置効果再配置は、融合を生じないが、それ以外には変化していない癌遺伝子の上方制御を引き起こし、RNAレベルでは定義上検出されないものである。
これらの理由から、蛍光イン・シチュー(in situ)ハイブリダイゼーション(FISH:fluorescence in situ hybridization)は、FFPE生検における融合体を検出する為の好ましい診断方法として、今なおある。しかしながら、FISHは手間がかかり、部分的な情報しか得られず、必ずしも決定的なものではない。各遺伝子は独立したFISH実験において別々に検査される必要がある。関心のある遺伝子が異なる染色体パートナーと乱雑に再配置する場合(これはしばしばあることであるが)、それは、break-apart FISH(又はスプリットFISH(split-FISH))が用いられる。スプリットFISHは、標的遺伝子の両側に異なるように色付けされたプローブをハイブリダイゼーションさせる。もし、それらが分離した(break-apart)場合(「スプリット(split)」)、すなわち、それらが所定の細胞数において予想以上の距離で分離された場合、その遺伝子は転座に関与していると考えられるが、再配置パートナーは不明のままである。その上、サンプルの品質及び腫瘍の大きさに応じて、FISHが不明瞭な結果をもたらす場合がある。それ故に、それらの切断部位の位置及びそれらの転座パートナーに関係無しに、該関心のある全ての遺伝子における再配置を同時に検出することができる堅牢で、単一の、オールインワンアッセイが強く望まれている。そのようなアッセイは、本明細書において開示されている再配置検出方法を用いて可能となりうる。
DNAサンプル又は架橋化されたDNAサンプルにおける再配置検出の為の方法論は、好ましくは、以下の基準のうちのいずれか1つ以上、理想的には全てを満たすであろう:
(1)所与の疾病に関連する全ての遺伝子における再配置を同時にモニタリングすることを可能にするオールインワンメソッドであること、
(2)正確な切断部位位置及び再配置パートナーにとらわれず、既知の及び新規の転座のパートナーを見つけることができる方法、
(3)細胞の小さな(例えば5%未満の)部分集団における再配置をまた拾い上げる為に十分な感度である方法、及び
(4)再配置の不偏的な検出を提供する方法。
核近接アッセイ、例えば近接ライゲーションアッセイ、は、4C技術によって最初に示されていたように、最初の3つの基準を満たすことができる場合がある。4C技術は、もともと、ゲノムの3次元折り畳みを研究する為に本発明者等によって開発された(Simonis et al.,2006)。該方法は、3C技術(Dekker et al.,2002)の変種であり、関心のある選択されたゲノム部位(「視点配列」(viewpoint sequence))に近接する全ての染色体セグメントの不偏のゲノム全体マッピングを可能にする。該技術は、ホルムアルデヒドを介した細胞の固定に関与し、それは、各細胞核内の物理的に近接したDNA配列の間に架橋を結果として生じる。架橋化されたDNAは、引き続き、制限酵素で消化され、そして架橋されたDNAフラグメントの間の近接ライゲーションに有利な条件下で再ライゲーションされる。従って、3C戦略は、核空間内で互いにもともと近接するDNA配列の間にライゲーション産物を生成する。4C技術において、環状ライゲーション産物における視点特異的プライマーを用いた逆PCRが行われ、それは、捕捉されたライゲーションパートナーの増幅を結果として生じる。これらは、引き続き、イルミナ配列決定され、そしてゲノムへマッピングされて、視点の接触プロファイルを明らかにしうる。
高分子物理学から予想されるように、4Cで捕捉されるフラグメントの大部分は常に、3Dコンフォーメーションに関係無しに、線形染色体テンプレートにおける視点のすぐ近傍にある配列に由来する。この事実に基づいて、本発明者等は、4C視点が、染色体再配置、例えば転座を包含する該染色体再配置、の検出に非常に適しているという仮説を立て、そして過去に実証した(Simonis et al.,2009;Homminga et al.,2011)。従って、4C視点が再配置の切断部位の近傍にある場合に、関心のあるゲノム領域の変化した接触プロファイルに基づいて、再配置及び再配置パートナーを識別する(Simonis et al.,2009)。このアッセイの感度(すなわち、転座を小さなサブ細胞集団においてまた検出する為のその能力)は、視点及び切断部位が互いに近いほど高くなる。該切断部位から100kb以内の視点であれば、転座が細胞の5%未満にしか存在しない場合であってさえも該転座を容易にみつけうる(Simonis et al.,Nat Methods 2009,及び未発表データ)。後者は、癌の生検は健康な細胞集団と種々のクローン癌細胞集団との混合物である場合がしばしばあるので、癌遺伝子診断の為に極めて重要である。要約すると、4Cは、或る候補遺伝子(例えば、臨床において再配置の為にモニターをしたい遺伝子)が再配置に関与しているかどうかを調べ、そしてその再配置パートナーを識別する高感度な方法を提供する。4Cの更なる有利点は、発表されているように(Simonis et al.,2009)、4C PCR反応が容易に多重化されることができることであり、該アッセイは、各患者サンプルにおける再配置について複数の遺伝子を同時にモニターすることができることを意味する。
4C技術以外にも、同じ原理に基づき、関心のあるゲノム領域を有する染色体再配置を識別することがまたできる多くの他の近接ライゲーション法があることを本発明者等は分かっている。例えば、標的遺伝子座増幅(TLA:targeted locus amplification)、捕捉-C(capture-C)又は捕捉-HiC法、Hi-C及びイン・シチューHi-C、ChIA-PET及びHi-ChIPである。原理的には、核内で関心のあるゲノム領域に近接するDNAフラグメントを識別する近接ライゲーションを実行する方法は全て、染色体再配置及び転座の検出を可能にする。
近接ライゲーション方法は、染色体再配置を識別する為に用いられることができる。近接ライゲーション方法に基づいて構造的変異を識別することを目的とする最先端技術は、試験サンプル(例えば、疾病を有する患者からのサンプル)中の関心のあるゲノム領域に対して近接ライゲーションされたDNAフラグメントのクラスタリング(又はクラスタリングの欠如)であって、対照サンプル(例えば、健常人からのサンプル)中のその同じゲノム座で見られる近接ライゲーションされたDNAフラグメントのクラスタリングと明らかに異なるところのクラスタリングをゲノムにおいて見つける為に、該関心のあるゲノム領域の接触プロファイルの視覚的検査にしばしば依拠する。該関心のあるゲノム領域の接触プロファイルのそのような視覚的検査に応じて見つけられる転座及び他の染色体再配置の例が、下記に示されている(Simonis et al.,2009;de Vree et al.,2014;Harewood et al.2017及び国際公開公報WO2008084405号パンフレット)。他の現在の実験設計において、疾病(例えば、癌)細胞から作成された試験サンプルにおいて得られた核近接データセットは、染色体再配置を示す核近接DNAフラグメントの異常ゲノム分布を識別する為に正常な(健康な)細胞から生成された対照核近接データセットと計算的に比較され(Diaz et al.2018)。Dixon et al.2018は、染色体末端又は小さい染色体に由来するフラグメントの高められた相互作用を説明する予想された染色体間相互作用頻度を推定する為に、9つの核型正常細胞株から作成された核近接データセットを組み合わせることによって広範な対照データセットを利用する。このような試験サンプル対対照サンプルの補正アプローチの欠点は、核近接アッセイ、例えば近接ライゲーションアッセイ、において容易に生じることができるサンプル固有のバイアスを考慮することができないことである。例えば、研究中のサンプルの純度、架橋化能力、フラグメント化効率及び(近接ライゲーションアッセイにおける)ライゲーション効率、該関心のあるゲノム領域の3D近接に位置するフラグメントが、生成された核近接データセットにおいてどの程度よく表されるかに実質的に影響を与える可能性がある。それ故に、これらの隠れた実験特異的バイアスを修正することは、感受性遺伝子座の構造的完全性を評価する為に核近接技術を利用する際の大きな障害であり、従って臨床用途の為にこれらの方法論を使用する際の障害である。
そこで、本発明者等は、データセット固有の技術的バイアス並びに実験的バイアスを考慮することによって、関心のある領域の構造的変異を識別する為の戦略を考案した。これらの戦略は、調査中の近接ライゲーションデータセット(例えば、患者の腫瘍から得られた試験サンプルからのものである)から計算されるバックグラウンドモデルを構築すること、そして次に、該バックグラウンドモデルを利用して、その同じ試験サンプルのゲノムにわたるライゲーションされたDNAフラグメントのクラスタリングの有意性を評価することを含みうる。このデータ内在性解析手順において、対照サンプルデータセットを使用する必要がない場合がある。
本発明者等は、関心のある領域と構造変異(例えば、染色体再配置又は転座)に関与するフラグメントが、偶然に予想されるよりも多くの独立してライゲーションされたDNAフラグメントを示すことに気が付いた。
以上の前提に基づき、本明細書に開示されている方法、装置及びコンピュータプログラム技術を用いて、染色体再配置における関心のあるゲノム領域の関与が評価されうる。
或る実施態様において、染色体再配置における関心のあるゲノム領域の関与は、以下によって評価されうる:
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.各フラグメントの該ゲノム近傍におけるライゲーション頻度を、例えば合計することによって集約し、各フラグメントに「観察された集約されたライゲーションスコア」を割り当てること;
c.(観察されたライゲーション頻度が0に等しいDNAフラグメントを含む)各DNAフラグメントのライゲーション頻度を、ランダムに選ばれた別のDNAフラグメントによって順列化(スワップ)すること;
d.各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約して、各フラグメントについてのランダム化され集約化されたライゲーションスコアを算出すること;
e.工程c~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントについての「予想された集約されたライゲーションスコア」を形成すること;
f.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアをゼロに設定すること、ここで、これらのフラグメントは、例えば、該関心のあるゲノム領域から最大で10Mb離れた染色体区間中に位置されていることができ、ここで、この工程fは、該関心のあるゲノム領域に隣接するゲノム領域の該観察された集約されたライゲーションスコアを効果的に除外し、そのことは、この領域は、再配置に関与しているのではなく、再配置されていないゲノムにおいて関心のある領域と線形的に隣接する故に高い有意なスコアを有する可能性がある;
g.各DNAフラグメントの該観察された集約されたライゲーションスコアを、該予想され集約されたライゲーションスコアとを比較して、高い有意性のDNAフラグメント(すなわち、該予想され集約されたライゲーションスコアよりも観察された集約されたライゲーションスコアが有意に大きい)を識別すること
を含む。
或る実施態様において、シス染色体再配置(例えば、染色体内欠失、逆位、又は挿入)における該関心のあるゲノム領域の関与を評価する為のプロセスが提供され、シス染色体対トランス染色体に由来するフラグメントの該予想されるライゲーション頻度の間の差を説明する為に、コンテクストを考慮した予想され集約されたライゲーションスコアが、
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.該データセット中の各フラグメントの近傍中に存在するフラグメントの該ライゲーション頻度を集約して、各フラグメントの為に、観察され「集約されたライゲーションスコア」を生成すること;
c.シス染色体に由来する(観察されたライゲーション頻度がゼロに等しいシスのDNAフラグメントを含む)各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントによって順列化すること;
d.シス染色体に由来する各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約し、シス染色体に由来する各フラグメントについてのランダム化された集約されたライゲーションスコアを計算すること;
e.工程c~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントについての予想された集約されたライゲーションスコアを形成すること;
f.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアをゼロに設定すること;
g.該シス染色体に由来する各フラグメントの該観察された集約されたライゲーションスコアを該予想され集約されたライゲーションスコアと比較して、高い有意性を有する(すなわち、有意に増加した該観察された集約されたライゲーションスコアを有する)該関心のあるゲノム領域を含むシス染色体中のフラグメントを識別すること
によって使用される。
他の実施態様において、シス染色体対トランス染色体に由来するフラグメントの予想されるライゲーション頻度の間の差を説明する為に、コンテクストを考慮した予想され集約されたライゲーションスコアを使用しながら、染色体間再配置(すなわち、染色体の間の転座)における関心のあるゲノム領域の関与を、
a.関心のあるゲノム領域を有する独立してライゲーションされたDNAフラグメントのデータセット(本明細書において、近接ライゲーションされた/連結された製品としてまた云われる)を作成するところの近接ライゲーションアッセイを実行すること;
b.該データセット中の各フラグメントの近傍中に存在するフラグメントの該ライゲーション頻度を集約して、各フラグメントの為に、観察され「集約されたライゲーションスコア」を生成すること;
c.トランス染色体に由来する(観察されたライゲーション頻度がゼロに等しいトランスのDNAフラグメントを含む)各フラグメントのライゲーション頻度を、トランス染色体に由来するランダムに選ばれた別のフラグメントによって順列化すること;
d.トランス染色体に由来する各フラグメント及びその近傍フラグメントの順列化されたライゲーション頻度を集約し、トランス染色体に由来する各フラグメントについてのランダム化された集約されたライゲーションスコアを計算すること;
e.工程b~dを何度も繰り返し(典型的に、n=1000)、該データセット中の各トランスDNAフラグメントについての予想された集約されたライゲーションスコアを形成すること;
f.トランス染色体に由来する各フラグメントの該観察され集約されたライゲーションスコアを該予想され集約されたライゲーションスコアと比較して、高い有意性を有する(すなわち、有意に増加した該観察された集約されたライゲーションスコアを有する)トランス染色体中のフラグメントを識別すること
によって評価する方法が提供される。
近傍DNAフラグメントの近接頻度の集約は、総和、ローリング平均、ローリング中央値、最小値、最大値、標準偏差、三角カーネル、ガウスカーネル、半ガウスカーネル、若しくは他のタイプの加重和、又は任意の他の集約方法、例えば、ゲノム内の特定のDNAフラグメントの周囲のDNAフラグメントのウィンドウ内の2乗頻度値の平均、を含みうる。
染色体増幅は典型的には、増幅された染色体セグメント全体にわたって相対的に均一な近接頻度を示しうる。しかしながら、再配置パートナーは典型的に、該パートナーを該関心のあるゲノム領域に融合させる該切断部位付近で最も高い近接頻度を有しうる。その上、そのような再配置パートナーは典型的には、該切断部位から遠く離れたフラグメントについてより小さい近接頻度を示しうる。
或る実施態様において、染色体増幅は、近接頻度を(例えば、工程c又は工程401において)該関心のあるゲノム領域にライゲーションされるフラグメントの間だけで順列化することによって再配置パートナーから識別されうる。すなわち、予想され集約された近接性スコアを計算する場合に、ゼロよりも高い近接頻度を有するDNAフラグメントのみが順列化される。
或る実施態様において、染色体再配置を検出する為に、本明細書において開示されているような異なる計算方法のうちの幾つかが実行される。検出精度を向上させる為に、これらの異なる計算方法の結果が組み合わせられうる。例えば、該予想され集約される近接頻度は、観察された近接頻度がゼロに等しいDNAフラグメントを含むDNAフラグメントの順列化、又は観察された近接頻度が非ゼロのDNAフラグメントのみの順列化のいずれかを使用することによって計算されうる。しかしながら、両方の方法を用いて、2つのバージョンの該予想され集約された近接頻度を計算し、そして、両方の予想され集約された近接頻度からの何らかの偏差の有意性を決定し、そして、両方の方法の結果を組み合わせることがまた可能である。例えば、両方の方法が有意な偏差をもたらす場合にのみ、染色体再配置と判断されうる。代替的には、染色体再配置の可能性が両方の方法から決定されてもよく、そして、染色体再配置の最終的な可能性が、異なる適用方法の可能性を組み合わせることによって決定されてもよい。そのような組み合わせ方法は例えば、本明細書において開示されているように、染色体間再配置を検出する場合に実行されうる。
或る実施態様において、ゲノムに沿ったDNAフラグメントは、近接頻度が、各DNAフラグメントについて個別にではなく、近縁の関連するDNAフラグメントのビンについて検出されるように、ビン化されていてもよい。そのような場合、順列は、個々のDNAフラグメントの順列ではなく、ビンの順列であってもよい。
或る実施態様において、DNAフラグメント又はビンの観察され集約された近接頻度の有意スコアは、各DNAフラグメント又はビンの観察され集約された近接頻度を、実験において考慮された全てのDNAフラグメント又はビンから見て、該予想され集約される近接頻度と比較することによって計算されてもよい。そのような手順は、偽陽性コールの数を軽減するのに役立つ場合がある。
或る実施態様において、予想され集約された近接性スコアは、コンテクストを考慮したものであってもよい。例えば、DNAフラグメントの近接度数の順列は、或る基準に従って、関連するDNAフラグメント(又はビン)の間のスワップに制限されてもよい。「関連するフラグメント」及び「関連するビン」は例えば、同じトランス染色体に由来するフラグメント若しくはビンであってもよく、又は該関心のあるゲノム領域からの定義された線形距離に位置するシス染色体セグメントに由来するフラグメント若しくはビンであってもよく、又は類似の長さのフラグメント(若しくはフラグメントを有するビン)であってもよく、又は類似の架橋化効率、消化効率、ライゲーション効率及び/又はマッピング効率のフラグメント(若しくはフラグメントを有するビン)であってもよく、又は類似の架橋効率、消化効率、ライゲーション効率及び/又はマッピング効率を有する染色体セグメントからのフラグメント(若しくはフラグメントを有するビン)であってもよく、又は(調査中の細胞タイプにおいて)類似の転写活性若しくは類似の複製タイミングを有する染色体セグメントからのフラグメント(若しくはフラグメントを有するビン)であってもよく、又は類似のGC含量若しくはヌクレオチド組成若しくは保存の程度を有するフラグメント又はビンであってもよく、又は同じ空間核区画(例えばHi-C法により決定される場合のA区画及びB区画)中に存在するフラグメント又はビン、又はそれらの組み合わせである。これらの基準において、「類似」は、例えば、スワップされる2つのDNAフラグメント(又はビン)における関連する量の値の間の最大差を設定することによって、実装されうる。
或る実施態様において、該関心のあるゲノム領域を包含する染色体再配置を識別する為に、例えば、近傍集約の為に複数のサイズを考慮することによって、異なるゲノム長さスケールが考慮される。例えば、該解析は、200kb、750kb及び3mbのサイズであるゲノム近傍にわたる3つの異なるゲノム長さスケールの為に有意性スコアを計算することができる。例えば、集約は、N個の最近接DNAフラグメントの近接頻度を平均化することを含むことができ、ここで、Nは、長さスケールに対応する整数である。代替的には、集約は、カーネルを適用することによって、近接するDNAフラグメントの近接頻度の加重和を含むことができる。例えば、カーネルは、標準偏差を有するガウス分布に対応し得、ここで、該標準偏差は、ゲノムの長さスケールに対応する。同様に、他のパラメータ化されたカーネルが使用されてもよく、該カーネルの該パラメータはゲノム長さスケールに対応しうる。
或る実施態様において、ゲノム近傍の複数の異なる長さスケールについて計算された有意差スコアが組み合わされて、「スケール不変の」有意差スコアを生成しうる。有意差スコアの組み合わせの為の典型的な演算子は最小値及び平均値であるが、他の演算子が同様に利用されることができる。
或る実施態様において、該近接頻度は、ゲノム中のフラグメントの総数(N)と、或るDNAフラグメントに少なくとも1つのリードがマップされる下記の確率を考慮した二項検定を用いて、疎データセット中の各DNAフラグメントの近傍に少なくとも1つのリードがマップされたDNAフラグメントの密度(k)の為に補正されうる。
Figure 2023523002000008
ここで、Mは、データセット中の少なくとも1つのリードがマップされたDNAフラグメントの総数である。次に、その結果得られたp値が、各フラグメントの近接頻度とみなされる(下記の式1を参照)。近傍フラグメントの該近接度数は、集約された近接度スコア内に組み合わされる。
Figure 2023523002000009
或る実施態様において、該予想される近接性スコアは、2つの独立した二項検定を採用することによって、シス染色体対トランス染色体におけるフラグメントの予想される近接頻度の間の差の為に補正されうる。二項検定のうちの1つは、該データセット中のシスフラグメントの総数と、少なくとも1つのリードによってカバーされているシスフラグメントの総数とを説明するものである。他の二項検定は、該データセット中のトランスフラグメントの総数と、少なくとも1つのリードによってカバーされているトランスフラグメントの総数とについて説明する。
円形化された染色体コンフォーメーション捕捉(4C)データを使用した該関心のある領域における染色体転座検出の例
この例において、関心のある領域が選択される。該関心のある領域はしばしば、癌遺伝子又は癌抑制遺伝子を包含し、並びに該領域は、特定のタイプの癌において再配置されることが一般的に見出される。次に、4C実験が、頻繁に転座される少なくとも1つの部位に隣接するように設計されたプライマーを用いて該関心のある領域において行われる(Krijger et al.2019)。任意的に、一意な分子識別子(UMI:Unique Molecule Identifier)がプライマーに付されて、ライゲーションが独立して捕捉されるようにすることができる(Schwartzman et al.2016)。ライゲーション産物のPCR増幅を含む4C(様)実験においてUMIを使用すること無しに、フラグメントのライゲーション頻度が、好ましくは最初にPCR重複を取り除く為にフィルタリングされ、それは例えば下流解析におけるデータ二値化によって行われることができる(すなわち、捕捉されたフラグメント(1)と、捕捉されていないフラグメント(0)とを区別するためだけである)。従って、生成されたリードが参照ゲノムに一旦マッピングされると、各フラグメントにマッピングされたリードの数に従って、各フラグメントのライゲーション頻度が計算されることができる。UMIが使用されない場合、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度が1に設定され、並びに残りが0と設定される(すなわち、独立してライゲーションされたフラグメントのみを考慮する二値化)。
近傍フラグメントのライゲーション頻度は、例えば各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。該近傍パラメータは、200kb、750kb及び3mb、又は任意の他の適切な値に設定されることができる。ここで、kbはキロベース、並びにmbはメガベースを表す。
次に、シス染色体に由来する各フラグメントのライゲーション頻度が、シス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。言い換えれば、シス染色体に由来する第1のフラグメントのライゲーション頻度が、シス染色体に由来するランダムに選択された第2のフラグメントに割り当てられ、第2のフラグメントのライゲーション頻度が、該第1のフラグメントに割り当てられる。この動作により、該第1のフラグメントと該第2のフラグメントの元々のライゲーション頻度が、該第2のフラグメントと該第1のフラグメントのライゲーション頻度によってそれぞれ上書きされる。
同様に、トランス染色体に由来する各フラグメントのライゲーション頻度が、トランス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。
各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度が、各フラグメントを中心とするガウスカーネルによって集約され、各フラグメントの為にランダムな集約されたライゲーションスコアを計算する。該スワッピング手順が何度も繰り返されて(典型的に、n=1000)、データセット中の各フラグメントの為に、予想され集約されるライゲーションスコアのコレクションを形成する。このコレクションから、予想され集約されたライゲーションスコアの平均及び標準偏差が各フラグメントについて計算されることができる。最後に、各フラグメントの該観察され集約されたライゲーションスコアが、対応するフラグメントの該予想され集約されたライゲーションスコアについての平均及び標準偏差と比較され、各フラグメントの為に、z-スコア(又は、好ましい場合にはp値)を計算する。該z-スコア(又はp-値)は、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別する。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い1以上の部位に隣接するように設計されたプライマーを使用して、該関心のある領域において4C実験を行うこと(Krijger et al.2019);
3.任意的に、プライマーにUMIを付着させ、独立してライゲーションされたフラグメントを見分けること(Schwartzman et al.2016);
4.捕捉されたリードを参照ゲノムにマッピングすること;
5.各フラグメントにマッピングされたリードの数に従って、各フラグメントのライゲーション頻度を算出すること;
6.UMIが使用されない場合に、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定する(すなわち、二値化する);
7.各フラグメントを中心としたガウスカーネルを用いて、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、例えば、200kb、750kb及び3mbに設定されることができ、しかしながら、任意の所望の近傍パラメータが考慮されることができる;
8.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
9.トランス染色体に由来する各フラグメントのライゲーション頻度を、トランス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
10.各フラグメントを中心としたガウスカーネルを用いて、各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度を集約し、各フラグメントについてのランダム化され集約されたライゲーションスコアを計算すること;
11.スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、集約されたライゲーションスコアのコレクションを形成すること;
12.任意的に、該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は、例えば、該関心のある領域から+/-10mb離れているとされることができ、しかしながら、該領域の大きさは任意に選択されてもよく、この工程は、該関心のある領域と線形に隣接している故に高い有意スコアを有する可能性のある該観察され集約されたライゲーションスコアを、該解析から除外する為に使用されうる;
13.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を、集約されたライゲーションスコアの該コレクションを使用して計算すること;
14.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、z-スコア(及び/又はp値、好ましい場合)を計算すること;並びに
15.z-スコアが或る閾値よりも上、例えば7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。同様に、p値が或る閾値よりも下、例えば0.1よりも下、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
TLA(Targeted Locus Amplification)データを用いた該関心のある領域における染色体転座検出の実施例
この例において、関心のある領域が選択されうる。該関心のある領域はしばしば、癌遺伝子抑制遺伝子又は癌抑制遺伝子を包含し、並びに該領域は、特定のタイプの癌において再配置されることが一般的に見出されている場合がある。次に、TLA実験が、頻繁に転座される1つの部位又は頻繁に転座される複数の部位に隣接するように設計されたプライマーを用いて、該関心のある領域において行われる(Hottentot et al.2017)。捕捉されたリードが参照ゲノムに一旦マッピングされると、各フラグメントのライゲーション頻度が、各フラグメントにマッピングされたリードの数に従って計算されることができる。少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度が1に設定されてもよく、並びに残りが0に設定されてもよい(すなわち、二値化)。
近傍フラグメントのライゲーション頻度は、各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。該近傍パラメータは、200kb、750kb、3mb、又は任意の他の値に設定されることができる。
次に、シス染色体に由来する複数のフラグメントの集約されたライゲーション頻度又は集約されていないライゲーション頻度が、シス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。同様に、トランス染色体に由来する複数のフラグメントのライゲーション頻度が、トランス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度は、例えば、各フラグメントを中心とするガウスカーネルを適用することによって集約され、各フラグメントの為にランダムに集約されたライゲーションスコアを計算する。該スワッピング手順が何度も繰り返されて(典型的に、n=1000)、該データセット中の各フラグメントの為に、ありうる集約されたライゲーションスコアのコレクションを形成する。このコレクションから、予想され集約されたライゲーションスコアの平均及び標準偏差が計算されることができる。最後に、各フラグメントの該観察され集約されたライゲーションスコアが、予想され集約されるライゲーションスコアのそれぞれの平均及び標準偏差と比較され、各フラグメントの為に、z-スコア(又は、好ましい場合にはp値)を計算する。該z-スコア(又はp-値)は、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別する。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い少なくとも1つの部位に隣接するように設計されたプライマーを使用して、該関心のある領域においてTLA実験を行うこと(Hottentot et al.2017);
3.捕捉されたリードを参照ゲノムにマッピングすること;
4.少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定すること(すなわち、二値化する);
5.各フラグメントを中心としたガウスカーネルによって、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、200kb、750kb、3mb又は任意の他の値に設定されることができる;
6.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
7.トランス染色体に由来する各フラグメントのライゲーション頻度を、トランス染色体に由来し、ランダムに選ばれた別のフラグメントとスワッピングすること;
8.各フラグメントを中心としたガウスカーネルによって、各フラグメント及びその近傍フラグメントのスワッピングされたライゲーション頻度を集約し、各フラグメントについてのランダム化され集約されたライゲーションスコアを計算すること;
9.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアを形成すること;
10.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
11.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は典型的に、該関心のある領域から+/-10mb離れているとされることができ、このことが、該関心のある領域と線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する;
12.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、z-スコア(及びp値、好ましい場合)を計算すること;並びに
13.z-スコアが或る閾値よりも上、例えば7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
Hi-Cデータを用いた該関心のある領域における染色体転座検出の実施例
Hi-Cデータは、細胞の集団におけるクロマチン相互作用のゲノムワイドなビューを提供する(Lieberman-Aiden et al.2009)。該関心のある領域を表す選択されたフラグメント(いわゆる「視点」(viewpoint))とゲノム中の任意の他のフラグメントとの間で生じる3D相互作用(4C又はTLAにおいて行われるように;1つ対全戦略(one vs.all)としてまた呼ばれる)を描くことの代わりに、Hi-Cデータは、ゲノム中のそれぞれのフラグメントと該ゲノム中の任意の他のフラグメントとの間の相互作用を表す(全対全戦略(all vs.all)としてまた呼ばれる)。それ故に、Hi-Cデータは、多くの該関心のある領域に分割されることができ、それぞれの領域は、本明細書において開示されている技術を用いて構造的完全性の為に独立して分析されることができる。この目的の為に、Hi-Cで得られた配列決定されたリードは、参照ゲノムに最初にマッピングされうる。次に、選択された該関心のある領域にライゲーションされていることが見つけられたリードが選択されうる。次に、該選択されたリードを用いて、各フラグメントのライゲーション頻度が、各フラグメントにマッピングされた選択されたリードの数に従って計算されうる。
近傍フラグメントのライゲーション頻度は、例えば各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約ライゲーションスコアを形成しうる。該近傍パラメータ(すなわち、長さスケール)は、200kb、750kb及び3mbに設定されることができるが、他のサイズがまた考慮されることができる。
次に、シス染色体に由来する各フラグメントのライゲーション頻度が、シス染色体に由来するランダムに選択された別のフラグメントとスワッピングされる。同様に、トランス染色体由来の各フラグメントのライゲーション頻度が、トランス染色体由来のランダムに選択された別のフラグメントとスワッピングされる。各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度が、例えば各フラグメントを中心とするガウスカーネルによって集約され、各フラグメントの為にランダムな集約されたライゲーションスコアを計算しうる。
該スワッピング手順が何度も繰り返されて(典型的に、n=1000)、データセット中の各フラグメントの為に、集約されたライゲーションスコアのコレクションを形成しうる。このコレクションから、各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算することができる。最後に、各フラグメントの該観察され集約されたライゲーションスコアが、予想される集約されたライゲーションスコアの個々の平均及び標準偏差と比較され、各フラグメントのスコアの為に、例えばzスコア又はp値、を計算する。このスコアは、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別する。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.関心のある細胞/組織におけるHi-C実験を行うこと(Lieberman-Aiden et al.2009);
2.配列決定されたリードを参照ゲノムにマッピングすること;
3.構造的完全性試験を受けようとする該関心のあるゲノム領域を定義すること;
4.該関心のある領域にライゲーションされていることが見つけられたリードを選択すること;
5.近傍フラグメントのライゲーション頻度を、例えば各フラグメントを中心としたガウスカーによって集約し、該集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは200kb、750kb及び3mbに設定されることができるが、他の類似サイズがまた考慮されることができる;
6.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングすること;
7.トランス染色体由来の各フラグメントのライゲーション頻度を、トランス染色体由来のランダムに選ばれた別のフラグメントとスワッピングすること;
8.各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメントのランダム化され集約されたライゲーションスコアを計算すること;
9.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアを形成すること;
10.該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
11.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、例えば、このことが、該関心のある領域から典型的に+/-10mb離れたゲノム領域に適用され、この任意の工程は、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する為に実行されうる;
12.各フラグメントの該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア(及び/又はp値、好ましい場合)を計算すること;
13.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
Hi-Cデータを用いたゲノムワイドな染色体転座検出の例
Hi-Cデータは、細胞の集団におけるクロマチン相互作用のゲノムワイドなビューを提供する(Lieberman-Aiden et al.2009)。該関心のある領域を表す選択されたフラグメント(いわゆる「視点」(viewpoint))とゲノム中の任意の他のフラグメントとの間で生じる3D相互作用(4C又はTLAにおいて行われるように;1つ対全戦略(one vs.all)としてまた呼ばれる)を描くことの代わりに、Hi-Cデータは、ゲノム中のそれぞれのフラグメントと該ゲノム中の任意の他のフラグメントとの間の相互作用を表す(全対全戦略(all vs.all)としてまた呼ばれる)。それ故に、記載された方法に若干の修正を加えることによって、該Hi-Cデータはゲノム全体の構造的完全性の全体像を明らかにする為に利用されることができる。この目的の為に、Hi-Cで得られた配列決定されたリードは、参照ゲノムに最初にマッピングされうる。次に、ライゲーションされたフラグメントの対が選択される。次に、該選択されたフラグメントの対を用いて、各フラグメントペアのライゲーション頻度が計算されうる。このことは、ゲノム中のDNAフラグメント対の組み合わせ毎に、互いにライゲーションされているDNAフラグメント対を観察する頻度を保持する行列を形成する。
近傍フラグメント対のライゲーション頻度は、例えば各フラグメント対を中心とした2次元ガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。該近傍パラメータ(すなわち、長さスケール)は、200kb、750kb及び3mbに設定されることができるが、他のサイズがまた考慮されることができる。
次に、各フラグメント対のライゲーション頻度が、ランダムに選択された別の関連する(図4参照)フラグメント対によってスワッピングされうる。各フラグメント対及びその近傍のフラグメントの該スワッピングされたライゲーション頻度は、例えば各フラグメント対を中心とするガウスカーネルによって集約され、各フラグメント対のランダム化され集約されたライゲーションスコアが計算されうる。
該スワッピング手順が何度も繰り返されて(典型的に、約n=1000回)、データセット中の各フラグメント対の為に、集約されたライゲーションスコアのコレクションを形成しうる。このコレクションから、各フラグメント対の為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算することができる。最後に、各フラグメント対の該観察され集約されたライゲーションスコアが、予想され集約されるライゲーションスコアの個々の平均値及び標準偏差と比較されて、各フラグメント対の為に、スコア、例えばzスコア又はp値、を計算する。このスコアは、該観察され集約されたライゲーションスコアが有意に増加したフラグメント対を識別する。
或る実施態様において、構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.関心のある細胞/組織におけるHi-C実験を行うこと(Lieberman-Aiden et al.2009);
2.配列決定されたリードを参照ゲノムにマッピングすること;
3.ライゲーションされたフラグメント対を選択すること;
4.近傍フラグメントのライゲーション頻度を、例えば各フラグメント対を中心としたガウスカーによって集約し、該集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは200kb、750kb及び3mbに設定されることができるが、他の類似サイズがまた考慮されることができる;
5.各フラグメント対のライゲーション頻度を、ランダムに選ばれた別の関連するDNAフラグメント対とスワッピングすること;
6.各フラグメント対及びその近傍のフラグメント対のスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメント対のランダム化され集約されたライゲーションスコアを計算すること;
7.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメント対の為に、予想され集約されたライゲーションスコアを形成すること;
8.該データセット中の各フラグメント対の為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
9.該関心のある領域の近傍に存在するフラグメント対の該観察され集約されたライゲーションスコアを0に設定すること、ここで、例えば、このことが、該関心のある領域から典型的に+/-10mb離れたゲノム領域に適用され、この任意の工程は、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する為に実行されうる;
10.各フラグメント対の該観察され集約されたライゲーションスコアを、予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア(及び/又はp値、好ましい場合)を計算すること;
11.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメント対は、該関心のある領域とのゲノム再配置に関与していると考えられうる。
捕捉Hi-Cデータを用いた関心のある領域における染色体転座検出の実施例
核内で関心のあるゲノム領域の配列に近接していたフラグメントにライゲーションされた関心のあるゲノム領域(例えば、遺伝子座全体、又は複数の部分に細分化された遺伝子座)の配列をプルダウンし、そして抽出し、該関心のあるゲノム領域におけるありうる再配置パートナー及び切断部位を識別するのに役立つところの、捕捉プローブを用いた捕捉Hi-C実験(Dryden et al.2014)又は同様の実験を用いることが可能である。例えば、関心のあるゲノム領域が関与する相互転座は、その領域の一部が一方の派生染色体に融合した領域の一部分と、該関心のあるゲノム領域の他の部分が他方の派生染色体に融合した関心のあるゲノム領域の他の部分とを有するであろう。その結果、再配列の切断部位の片側にある該関心のあるゲノム領域の該部分は、該切断部位で且つ該融合したトランス染色体の片側に向かって有意に増加したライゲーション頻度を示し、一方、再配列の切断部位の反対側にある該関心のあるゲノム領域の該部分は、該切断部位から該融合したトランス染色体の反対側に向かって有意に増加したライゲーション頻度を有することが示すであろう。本明細書に開示されている技術を用いて、該関心のあるゲノム領域の異なる部分のライゲーション産物を選択的に分析することによって、両方の再配置された座における切断部位の位置を推定し又は決定さえすることができる。
捕捉されたリードが参照ゲノムにマッピングされると、各フラグメントのライゲーション頻度が、フラグメントにマッピングされたリードの数に従って計算されることができる。ペアエンド配列決定(paired-end sequencing)が行われる場合には、配列決定されたリードが、該関心のある領域におけるライゲーションされたゲノム部分(又はフラグメント)に応じて複数のデータセットに分割されることができる。
近傍フラグメントのライゲーション頻度は、例えば各フラグメントを中心としたガウスカーネルによって集約され、該観察され集約されたライゲーションスコアを形成しうる。近傍パラメータは、200kb、750kb及び3mbに設定されることができるが、他のサイズがまた考慮されることができる。
次に、シス染色体に由来する各フラグメントのライゲーション頻度が、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングされうる。同様に、トランス染色体由来の各フラグメントのライゲーション頻度が、トランス染色体由来のランダムに選択された別のフラグメントとスワッピングされうる。各フラグメントとその近傍のフラグメントの該ライゲーション頻度は、例えば、各フラグメントを中心とするガウスカーネルによって集約され、各フラグメントのランダム化され集約されたライゲーションスコアが計算されうる。
該スワッピング手順が何度も繰り返されて(例えば、n=1000回)、データセット中の各フラグメントの為に、順列化され集約されたライゲーションスコアのコレクションを形成しうる。このコレクションから、該予想され集約されるライゲーションスコアについての平均及び標準偏差が計算されることができる。
最後に、各フラグメントの該観察され集約されたライゲーションスコアが、予想され集約されたライゲーションスコアの個々の平均及び標準偏差と比較して、各フラグメントのスコア、例えばzスコア又はp値、を計算しうる。このスコアは、該観察され集約されたライゲーションスコアが有意に増加したフラグメントを識別しうる。
或る実施態様において、該関心のある領域における構造的変異検出実験は、例えば、以下のようにして実行されることができる:
1.構造的完全性試験を受ける必要がある関心のある領域を選択すること;
2.転座される頻度の高い少なくとも1つのゲノム部位をカバーするように設計されたプローブの1組を使用して、該関心のある領域において捕捉HiC実験を行うこと(Dryden et al.2014);
3.捕捉されたリードを参照ゲノムにマッピングすること;
4.ペアエンド配列決定の場合、マッピングされたリードを、ライゲーションされた関心のあるゲノム部位に応じて複数のデータセットへと分割することがおそらく可能であること、選択された該関心のある領域にライゲーションされたフラグメントのデータセットで、下記の工程を実行すること;
5.任意的に、少なくとも1つのリードによってカバーされているフラグメントのライゲーション頻度を1に設定し、並びに該フラグメントの残りを0に設定すること(すなわち、二値化する);
6.例えば各フラグメントを中心としたガウスカーネルによって、近傍フラグメントのライゲーション頻度を集約して、観察され集約されたライゲーションスコアを形成すること、ここで、近傍パラメータは、200kb、750kb及び3mbに設定されることができるが、他のサイズ又は任意の他のサイズがまた考慮されることができる;
7.シス染色体に由来する各フラグメントのライゲーション頻度を、シス染色体に由来するランダムに選ばれた別のフラグメントとスワッピングすること;
8.トランス染色体由来の各フラグメントのライゲーション頻度を、トランス染色体由来のランダムに選ばれた別のフラグメントとスワッピングすること;
9.各フラグメント及びその近傍のフラグメントのスワッピングされたライゲーション頻度を、例えば各フラグメントを中心としたガウスカーネルによって集約し、各フラグメントのランダム化され集約されたライゲーションスコアを計算すること;
10.該スワッピングの手順を何度も繰り返し(典型的に、n=1000)、該データセット中の各フラグメントの為に、集約され順列化されたライゲーションスコアのコレクションを形成すること;
11.該集約され順列化されたライゲーションスコアのコレクションから、該データセット中の各フラグメントの為に、予想され集約されたライゲーションスコアの平均及び標準偏差を計算すること;
12.該関心のある領域の近傍に存在するフラグメントの該観察され集約されたライゲーションスコアを0として設定すること、ここで、該領域は例えば、該関心のある領域から+/-10mb離れていてもよく、このことは、該関心のある領域への線形に隣接している故に高められる可能性のある該観察され集約されたライゲーションスコアを除外する;
13.各フラグメントの該観察され集約されたライゲーションスコアを、該予想され集約されたライゲーションスコアの平均及び標準偏差と比較して、スコア、例えばz-スコア及び/又は好ましい場合にはp値を計算すること;
14.スコアが或る閾値よりも上、例えばz-スコア7よりも上、を有するフラグメントは、該関心のある領域とのゲノム再配置に関与していると考えられうる。
15.工程4において複数のデータセットが作成される場合(関心のある変えられた領域を用いて)、他のデータセットの少なくとも幾つかについて、そのデータセットに適用するゲノム該関心のあるゲノム領域で工程5~14を繰り返すこと、ここで、異なるデータセットの結果を組み合わせて、再配置の位置についてより詳細な情報を得ること。
本開示において、異常、例えば染色体再配置、を検出する為に、近接ライゲーションアッセイからのデータを処理する方法が記載されている。この解析方法の為の出発点として使用されるデータは、近接ライゲーションアッセイを実行し、その近接ライゲーションアッセイの近接ライゲーションフラグメントを配列決定し、そして、該配列決定された近接ライゲーションフラグメントを参照ゲノムにマッピングすることによって得られるデータセットでありうる。
従って、解析の為の出発点は、参照ゲノムにマッピングされた、配列決定された複数の近接結合フラグメントを含むデータセットでありうる。その上、関心のあるゲノム領域は、手元のアプリケーションに従って、又はユーザが評価したい任意の仮説に従って選択されうる。
或る実施態様において、シスDNAフラグメントの近接性スコアと参照ゲノム中の該関心のある領域へのそれらの線形染色体距離との間の関係が考慮されて、シス染色体中のDNAフラグメントの予想され集約されたライゲーションスコアをより厳密に推定され、以下に更に詳述されているように、シス染色体再配置、例えば欠失(deletions)又は逆位(inversions)又は挿入(insertions)、を検索する。この目的の為に、シス染色体に由来する各DNAフラグメントについて、関連するDNAフラグメントは、該関心のある領域へのそれらの類似の線形距離に基づいて、又は該関心のある領域から遠いDNAフラグメントほど減少する非線形距離関数に基づいて、確率的に定義される(Geeven et al.2018)。順列化の間、関連するDNAフラグメントは、シス染色体中の各DNAフラグメントの為に、予想され集約されたライゲーションスコアを推定する為にランダムに選択される。
或る実施態様において、シス染色体上の他の場所又はトランス染色体上の他の場所に由来するDNA配列の該関心のあるゲノム領域内への(又は、該関心のあるゲノム領域に近接する配列内への)挿入は、近接有意スコアがある閾値よりも上を有するシス染色体上の他の場所又はトランス染色体上からのDNAフラグメントを検索することによって検出される。
或る実施態様において、該関心のあるゲノム領域(又は、該関心のあるゲノム領域に近接する配列)を含むDNA配列のゲノム欠失は、シス染色体におけるDNAフラグメントの該予想され集約された近接性スコアを最初に補正し、そして次に、これらのDNAフラグメントが欠失されたことを示す或る閾値未満の負の有意差スコアを有するゲノムDNAフラグメントを検索することによって認識される。代替的に、又は追加的に、該ゲノム欠失は、或る閾値以上の有意差スコアを有するゲノムDNAフラグメントを検索することによって認識され、それは、これらのDNAフラグメントが、該関心のあるゲノム領域と比較して該シス染色体上の該欠失された部分の反対側に位置し、その結果、該関心のあるゲノム領域に近接する欠失がもたらされることを示す。
同様に、該関心のある領域の一部と該関心のあるゲノム領域に近接する配列とを含むDNA配列のゲノム逆位は、シス染色体中のDNAフラグメントの該予想され集約されたライゲーションスコアを最初に補正することによって認識され、そして次に、該逆位したゲノム領域の遠位端を表す或る閾値よりも上の正の有意スコアを有するところの該関心のある領域のシス染色体中のゲノムDNAフラグメントと、該逆位したゲノム領域の近位端を表す或る閾値よりも下の負の有意スコアを有するところの該関心のある領域のシス染色体中のゲノムDNAフラグメントとを検索することによって認識される。
或る実施態様において、検出された構造変異を独立して確認する為に、特定のDNAフラグメントにおける構造的変異の推定された有意スコアが、とりわけ該参照ゲノムにおいて互いに隣接していない2つの配列の融合を塩基対分解能で表すリードの近接(ライゲーション)データセットにおける発見を容易にすることによって、構造的変異の存在の為の追加の証拠の識別を容易にすることができる。
或る実施態様において、ハプロタイプ(haplotype)特異的構造変異は、該関心のある領域に由来するライゲーションされたDNAフラグメント内の共起一塩基ヌクレオチド変化に従って、該関心のある領域中のDNAフラグメントを連結することによって検出されることができる。これらの連結を用いて、ハプロタイプ特異的近接ライゲーションデータセットが形成される。次に、各データセットは、開示された技術に従って処理され、ハプロタイプ特異的構造的変異を識別する。
或る実施態様において、ハプロタイプ特異的構造変異は、構造的変異に関与しているとしてスコアリングされたDNAフラグメントと、それらが近接して見出された該関心のあるゲノム領域からのDNAフラグメントとを含むリードの対を、構造的変異がハプロタイプで解決されることができるように、対立遺伝子を区別する遺伝子変異のそれぞれについて分析することによって検出されうる。
本発明の幾つかの又は全ての態様は、ソフトウェア、特にコンピュータプログラム製品、の形態で実装されるのに適している場合がある。該コンピュータプログラム製品は、非一時的なコンピュータ可読媒体に格納されたコンピュータプログラムを含んでいてもよい。また、該コンピュータプログラムは、伝送媒体、例えば光ファイバケーブル又は空気、によって伝送される信号、光信号又は電磁信号、によって表されてもよい。該コンピュータプログラムの一部又は全部は、該コンピュータシステムによって実行されるのに適したソースコード、オブジェクトコード又は疑似コードの形態を有していてもよい。例えば、該コードは、1以上のプロセッサによって実行可能でありうる。
本明細書に記載されているように、近接アッセイ、例えば近接ライゲーションアッセイ、は、再配置及び再配置パートナー候補を識別する為に適している。本発明者等は、そのようなアッセイによる再配置の検出が、再配置が該関心のあるゲノム領域内で生じることを必ずしも示すものではないことに気付いた。当業者であれば理解されるであろう通り、該関心のあるゲノム領域の外側の再配置は、該関心のあるゲノム領域に関して機能的な結果をもたらさない可能性が高い。本明細書において更に議論されているように、本発明者等は、該関心のあるゲノム領域内の5'末端に隣接するゲノムフラグメントと3'末端に隣接するフラグメントとを含む近接結合された生成物の富化が、該関心のあるゲノム領域内の切断部位を含む染色体再配置を識別する正確さを改善することに気付いた。具体的には、富化戦略は、内因性ノイズを最小限に抑えることを目的として設計され、それは、該関心のある領域外の染色体再配置(「偽の陽性コール(false positive calls)」)から、該関心のあるゲノム領域内の真の染色体再配置(「真の陽性コール(true positive calls)」)をより適切に区別する為のダウンストリーム分析をサポートする。より重要なことは、染色体切断部位を有する染色体再配置を、該染色体切断部位をシス(同じ染色体上)を有し、しかし該関心のあるゲノム領域外にある染色体再配置と区別し、関連する事象と関連しない事象と区別することを可能にするように富化戦略が設計される必要がある。
染色体再配置についての偽の陽性コールは様々な理由で起こる可能性があり、その1つの理由は、ゲノム内の別の場所にある標的外の配列に、望まれないプローブ又はプライマーハイブリダイゼーションがあることである。その結果、標的外の近接ライゲーション産物が富化され、配列決定され、そしてマッピングされ、それ故に、標的でないハイブリダイゼーション配列を有する染色体区分上の近接ライゲーション産物の蓄積を示す可能性がある。シグナルのそのような蓄積は、染色体再配置を有するとして誤って認識されうる(偽の陽性コール)。
複数の戦略が、この望ましくない効果を考慮する為に開発されてきた。その一つの戦略は、染色体の関心のある領域を含む再配置を有すると予想されない対照個体を用いることである。対照サンプルにおける同じ染色体再配置の識別は、これらのコールを偽陽性と認識する為に十分な証拠である。
そのような場合、対応する染色体セグメントをカバーする再配置がブラックリスト化されることができる。標的外のプローブ又はプライマーハイブリダイゼーションと、その結果として生じる標的外の染色体近接産物の富化から生じる再配置の為の偽陽性コールを防ぐ為の他の戦略は、標的外のハイブリダイゼーションの原因である個々のプローブ又はプライマーを識別し、物理的に又はイン・シリコ(in silico)で、該染色体の関心のある領域を標的とするプローブ又はプライマーパネルからそれらを除外する。
偽陽性のもう一つの原因は、研究対象のサンプルのゲノム中に存在するコピー数の変化に起因する。基礎となる生物学的理由は、標的外プローブ又はプライマーハイブリダイゼーションとは異なるが、増加したコピー数の変化が生じたゲノムのゲノムセグメントは、近接結合された生成物の蓄積を示す可能性がある。再び、シグナルのそのような蓄積は、染色体再配置と誤って認識される可能性がある(偽の陽性コール)。これを解決する為に、同じサンプルにおいて定義された関心のある他の領域からの近接連結されたデータセットが解析されることができる。この目的の為に、同じ染色体再配置が、同一サンプル中の関心のある異なる領域から識別されたかどうかを問い合わせることによって、コピー数の変動の存在が認識されることができるが、必ずしも十分でない。
上述されているように、近接アッセイは染色体再配置容易に検出することができる。しかしながら、本明細書において記載された例は、そのようなアッセイが、該関心のあるゲノム領域内の切断部位接合(関連)を有する事象と該関心のあるゲノム領域外の染色体切断部位接合(非関連)とを必ずしも区別しないことを実証する。驚くべきことに、染色体切断点が該関心のあるゲノム領域外に位置する多くの場合に、融合されたゲノムパートナー上に蓄積する予想されたよりも有意に高い核近接生成物が識別され、該事象が検出され、そして「陽性」と呼ばれることをもたらした。該例は更に、切断部位が該関心のある領域から(同じ染色体上で)シス方向にメガの塩基分離れている場合に、そのような偽陽性コールが起こりうることさえも実証する。多くの用途において、これらの2つのシナリオを区別することが非常に重要である。
当業者に周知であり、変異した場合に、例えば、再配置の結果として、障害、例えば癌、に関連付けられた多数の遺伝子が存在する。医療従事者が該障害を正確に診断又は予後判定をする為には、該関心のあるゲノム領域との関係で、どこに再配置が生じるかを知ることが重要である。例えば、発癌性融合遺伝子産物を作り出す融合遺伝子を探索する場合に、染色体切断部位を遺伝子内部の位置にマッピングすることが好ましい。別の例として、癌原遺伝子を、その発現レベルを癌原性活性レベルに変化させる新規な転写調節DNA配列の影響下に置く可能性のある染色体再配置を検索する場合に、調節されたその転写変化を予想する為に、癌原遺伝子に十分に近い染色体位置にマッピングすることが好ましい。
本発明者等は、先行技術の方法が、真の「陽性」のコールに関する増加した信頼性を提供するように改良されることができることに気付いた。従って、本開示の1つの観点は、サンプル(特に、患者サンプル、例えば腫瘍細胞サンプル)が臨床的に関連する染色体再配置を含むかどうかを確認する為に有用な方法を提供する。本開示は更に、特定の疾患、予後を示す、又は処置に対する反応を予測する染色体再配置を識別する方法を提供する。
本開示は、関心のあるゲノム領域内のある位置に再配置パートナー候補を融合するところの染色体切断部位接合部の存在を確認する方法を提供する。本明細書において使用される場合、染色体切断点接合の存在を確認することはまた、関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断点接合の存在を検出することを言及する。好ましくは、該方法は、参照ゲノムにおいて該関心のあるゲノム領域を決定することを含む。幾つかの実施形態において、該関心のあるゲノム領域は、100bp~1Mb、例えば1kb~10,00kb、である。
好ましい実施態様において、該関心のあるゲノム領域は、遺伝子のオープンリーディングフレームをコードするDNA配列を云う。当業者は、オープンリーディングフレーム内に存在する切断部位融合が、該遺伝子の機能に影響を与える可能性が高いことを容易に理解するであろう。再配置の性質に依存して、該再配置は、例えば、該関心のあるゲノム領域によってコードされるタンパク質の時期尚早の切断、該関心のあるゲノム領域によってコードされるタンパク質の一部と該再配置パートナーによってコードされるタンパク質の一部とを含む融合タンパク質、並びに該関心のあるゲノム領域によってコードされるタンパク質の少なくとも一部と現在「ネオ」(neo)タンパク質配列をコードするところの該再配置パートナーからのアウトオブフレーム配列(out-of-frame sequences)とを含む新規タンパク質につながりうる。
好ましい実施態様において、該関心のあるゲノム領域は、遺伝子を云う。当業者は、遺伝子配列内に存在する切断部位融合が、当該遺伝子の機能に影響を及ぼす可能性があることを容易に理解するであろう。オープンリーディングフレーム内で起こる再配置に関して上述された効果に加えて、再配置はまた、例えば、mRNAの発現及び/又は転写に影響を与えることができる。例えば、染色体再配置は、遺伝子を、新規の、遺伝子の発現レベルを変化させうる転写調節DNA配列の影響下にもたらしうる。転写制御の可能性を有する配列にまたがるゲノム領域は、遺伝子ごとに大きさが異なるであろう。染色体コンフォーメーション研究によって検出された標的遺伝子を含む構造ドメイン又はトポロジカル・アソシエイティング・ドメイン(TAD:topologically associating domain)を、好ましくは、関心のある組織又は細胞型で考慮することは、関連する染色体再配置を検出する際のアッセイの効率を向上しうる。構造ドメイン又はTADは、配列が優先的に互いに接触する染色体セグメントであり、並びに、それらは、該ドメイン外の転写調節配列と接触し、そして調節される遺伝子を防ぐところの境界によって隣接されている。それ故に、構造ドメイン外に位置する染色体切断部位は、標的遺伝子の発現に影響を与える可能性が低い。構造ドメイン又はTADが定義されていない場合、1メガ塩基よりも遠い距離にわたって作用することができる転写調節配列は非常に少ない故に、例えば、標的遺伝子のプロモータの上流1メガ塩基及び下流1メガ塩基として、該関心のあるゲノム領域を定義することができる。当業者は、遺伝子砂漠(すなわち、標的遺伝子を囲む遺伝子がないか又はは非常に少ないゲノム区間)のコンテクストにある場合に、転写調節配列が遺伝子からさらに離れている可能性があることをまた認識している。遺伝子砂漠は典型的には、線形的に孤立した遺伝子に大きな距離で作用することができる転写調節配列を含む。
好ましくは、関心のあるゲノム領域は、再配置が起こることが当業者に知られている遺伝子又はオープンリーディングフレームの部分配列である。例えば、関心のあるゲノム領域は、好ましくは、切断部位クラスター領域を云う。そのようなクラスターは、当業者によく知られている。特に、当業者は、特定の障害に関連付けられた潜在的な切断部位クラスターについて認識している。幾つかの実施形態において、本方法は、特定の障害に関連付けられた切断部位クラスター内で再配置が生じるかどうかを決定する為に適している。切断部位クラスター領域の一例は、ヒトにおける第18番染色体上のBCL2遺伝子の3'UTRをコードする領域における175bp長の最も長い3'エクソンであり、それはBCL2遺伝子での全ての切断の50%を占める(Tsai & Lieber,BMC genomics (2010) 11:1)。切断部位クラスター領域の他の例は、ヒトにおける第11番染色体上のMLL遺伝子のエクソン9とエクソン13との間の且つそれらを含む7466bp長の染色体領域である(Burmeister et al.,Leukemia (2006) 20,451-457)。
該方法は、複数の近接結合された生成物を生成する為の近接アッセイを実施することを含む。幾つかの実施態様において、該アッセイは、複数の近接ライゲーションされた分子を生成する為の近接ライゲーションアッセイである(例えば、図1を参照)。そのような近接ライゲーションアッセイは、本明細書においてさらに記載されている。例示的な近接ライゲーションアッセイにおいて、近接ライゲーション分子を生成する為に、架橋化されたDNA(例えば、ホルムアルデヒドで架橋化された)が制限酵素で消化され、そして、架橋化されたDNAフラグメントの間の近接ライゲーションを好む条件下で再ライゲーションされる。ライゲーションの後、該架橋化が反転されることが好ましい。
幾つかの実施態様において、該近接ライゲーションアッセイは、
a)架橋化されたDNAのサンプルを用意すること;
b)該架橋化されたDNAを断片化すること;
c)該断片化した架橋化されたDNAをライゲーションして、近接ライゲーションされた分子を得ること;
d)該架橋を反転させること;
e)任意的に、工程d)のDNAを、断片化すること(例えば、制限酵素又は超音波処理を用いて)を含む。幾つかの実施態様において、該方法は更に、
f)工程d)又は工程e)の断片化したDNAを少なくとも1つのアダプターにライゲーションすること、及び
g)標的ヌクレオチド配列にハイブリダイズする少なくとも1つのプライマーを用いて、標的ヌクレオチド配列を含む工程d)若しくは工程e)のライゲーションされたDNA断片を増幅すること、又は標的ヌクレオチド配列にハイブリダイズする少なくとも1つのプライマー及び該少なくとも1つのアダプターにハイブリダイズする少なくとも1つのプライマーを用いて、工程f)のライゲーションされたDNA断片を増幅すること
を含む。
好ましくは、該方法は、該近接アッセイの為に、架橋化されたDNAのサンプルを用意することを含む。
幾つかの実施態様において、該方法は、該関心のあるゲノム領域又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物を富化することを含む。当業者は、多数の様々な標的化されたDNA富化戦略を知っている。一般的に、そのような方法は、関心のある配列に対するオリゴヌクレオチド(例えば、プローブ又はプライマー)のハイブリダイゼーションに依存する。
1つの実施態様において、該方法は、該関心のあるゲノム領域の5'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物を富化すること、及び該関心のあるゲノム領域の3'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物を富化することを含む。該近接結合された生成物が、塩基配列決定されて、配列決定リードを生成し、該関心のあるゲノム領域の5'末端又は3'末端に隣接する配列を含む該ゲノムフラグメントに近接する該ゲノムフラグメントの配列が参照配列にマッピングされうる。ここで、「隣接する配列」(flanking sequences)は、着目する領域に隣接する配列をいう。隣接する配列は、該関心のある領域に直接的に隣接していてもよく又は間接的に隣接していてもよい。
1つの実施態様において、該方法は、該関心のあるゲノム領域の5'領域に隣接する配列に少なくとも部分的に相補的な少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供すること、及び/又は該関心のあるゲノム領域の3'領域に隣接する配列に少なくとも部分的に相補的な少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含む。幾つかの実施態様において、該プローブ及びプライマーは、反復DNAへのハイブリダイゼーションを防止する為に、固有の標的配列に相補的である。該オリゴヌクレオチドプローブは、固体表面に付着させることができ、又は固体表面、例えばストレプトアビジンビーズ、における捕捉を可能にするタグ、例えばビオチン、を含むことができる。幾つかの実施態様において、アダプター配列は、フラグメント化されたDNAにライゲーションされうる。次に、PCR増幅が、該関心のあるゲノム領域に隣接する配列に相補的な一方のプライマーと、アダプター配列に相補的な他方のプライマーとを用いて行われうる。代替的に又はそれに加えて、該アダプター配列は、配列決定リードを生成する為に使用されうる。プローブ及びプライマーの設計は、当業者に周知である。好ましくは、オリゴヌクレオチドプローブ及びプライマーは、該関心のあるゲノム領域から上流又は下流の1bp~1Mbpの配列に相補的である。代替的に、隣接することは、問題の染色体の長さの0.5%以下だけ離れたゲノム領域又は配列を云う場合がある。幾つかの実施態様において、該関心のあるゲノム領域に隣接するプローブ/プライマーのパネルが使用されうる。
該方法は更に、該関心のあるゲノム領域を有する該ゲノムフラグメント、又は該関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別することを含む。本明細書において更に記載されているように、本方法は、i)該関心のあるゲノム領域の少なくとも一部と、ii)該関心のあるゲノム領域に近接しているゲノムフラグメントとを含む近接結合された生成物を富化することを含みうる。好ましくは、本方法は、該関心のあるゲノム領域の少なくとも1つの部分を富化する。該関心のあるゲノム領域内の切断部位接合部の存在は、関心のあるゲノム領域に隣接する配列からなる近接ライゲーション分子について富化することによって確認されるが、候補転位パートナーの同定は、関心のあるゲノム領域又は関心のあるゲノム領域に隣接する配列のいずれかを含む配列決定リードに基づいて実施することができる。好ましくは、該方法は、関心のあるゲノム領域の少なくとも1つの部分を富化する。該関心のあるゲノム領域内の切断部位接合部の存在は、該関心のあるゲノム領域に隣接する配列を含む近接ライゲーションされた分子を富化することによって確認されるが、再配置パートナー候補の識別は、該関心のあるゲノム領域又は該関心のあるゲノム領域に隣接する配列のいずれかを含む配列決定リードに基づいて実施されることができる。
例示的な実施態様において、近接アッセイは、該関心のあるゲノム領域を含む核近接産物のプルダウン及び富化の為の相補的オリゴヌクレオチドプローブの使用によって、関心のある特定のゲノム領域に標的化されうる。代替的には、染色体近接アッセイは、該関心のあるゲノム領域を含む染色体近接産物の線形又は指数関数的増幅及び富化の為の1以上の相補的オリゴヌクレオチドプライマーの使用によって、関心のある特定のゲノム領域に標的化されうる。富化後、近接生成物は配列決定され、そして、配列リードが参照ゲノムにマッピングされる。染色体再配置は、該ゲノム内の他の場所において、該関心のあるゲノム領域に関与する核近接産物の予想されるよりも有意に高い蓄積を示すゲノムセグメントの識別に基づいて見つけられる。
近接頻度に基づいて再配置パートナー候補を識別する為の好適な方法は、当技術分野において知られており且つ本明細書に記載されている。例えば、該関心のあるゲノム領域の接触プロファイルの目視検査が使用されてもよい(例えば、Simonis et al., 2009;de Vree et al., 2014;及び国際公開公報WO2008084405号パンフレットを参照)。上位1%の高度に相互作用する染色体内領域の選択に基づく方法については、例えば、Harewood等(Genome Biology 2017 18:125)を参照されたい。本明細書に記載されているDiaz et al.2018及びDixon et al.2018に記載された方法をまた参照されたい。他の方法は、SALSA、GOTHiC、HiCcompare、HiFI、V4C、LACHESIS、HiNT、bin3Cを含む。Mifsudは、近接ライゲーションデータから真の相互作用を同定するモデル(GOTHiC)を説明し、並びにまた、再配置パートナーを識別する為の他の周知のモデルについてもレビューしている(PLOS ONE 2017 12(4):e0174744)。
再配置パートナー候補を識別する為の好ましい方法は、図1~図6に例示されており、本明細書においてPLIERと云われる。幾つかの実施態様において、1以上の再配置パートナー候補を識別する方法は、
該関心のあるゲノム領域にマッピングされた配列を含むところの、配列決定された近接連結された複数のDNA分子を選択すること;
観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101);ここで、各ゲノムフラグメントの該観察された近接性スコアが、該関心のあるゲノム領域に近接し且つ該ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
予想される近接性スコアを、該複数のゲノムフラグメントの該観察された近接性スコアに基づいて、該複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、該予想される近接性スコアは、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該近接性スコアの予想された値を含む;
該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該観察された近接性スコア及び該複数のゲノムフラグメントのうちの該少なくとも1つのゲノムフラグメントの該予想される近接性スコアに基づいて生成すること(103)、及び該ゲノムフラグメントを再配置パートナー候補として識別すること
を含む。この方法の好ましい実施態様は、本明細書において更に説明されており、図6は、この方法の特に好ましい実施態様を提供する。
再配置パートナー候補が識別されることに応じて、該関心のあるゲノム領域の5'末端に隣接する配列を含む該ゲノムフラグメントに近接している再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の3'末端に隣接する配列を含む該ゲノムフラグメントに近接している再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定することを含む方法であって、転位パートナー候補のゲノムは、目的のゲノムを挟む配列を含むゲノムのフラグメントを含む。
関心のあるゲノム領域の第1部分又は該関心のある領域に隣接する領域に近接するゲノムフラグメントは、関心のあるゲノム領域の第2部分又は該関心のある領域に隣接する領域に近接するゲノムフラグメントと「交錯される」(intermingled)又は「分割される」(divided)のいずれかの集積を示すであろう。交錯した蓄積を示すフラグメントは、本明細書において「重なり」(overlapping)と呼ばれ、分割された蓄積を示すフラグメントは「線形に分離された」(linearly separated)と云われる。好ましくは、該方法は、該関心のあるゲノム領域の第1部分に近接する又は該関心のある領域に隣接する領域に近接する再配置パートナー候補のゲノムフラグメントと、該関心のあるゲノム領域の第2部分に近接する又は該関心のある領域に近接する再配置パートナー候補のゲノムフラグメントとが、再配置パートナー候補の参照配列にマッピングされる場合に、重なり合っているか又は線形に離れているかを決定することを含む。
例えば、該関心のあるゲノム領域に隣接する上流及び下流の配列に由来する近接生成物が解析されて、再配置パートナー全体に分布することを決定することができる。隣接するゲノム配列が、再配置パートナーの線形参照テンプレートにおいて、連結された生成物の重複する(交錯する)蓄積を示す場合、これは切断部位が該関心のあるゲノム領域内部に位置していないことを示す。再配置パートナーの線形参照テンプレートにおける隣接するゲノム配列が、分割された蓄積(本明細書において「転移」(transition)又は「線形に離れている」(linearly separated)とまた呼ばれる)を示す場合、これは該切断部位が該関心のあるゲノム領域の内部に位置していることを示す。再配置パートナーに関して、該染色体切断部位は、該関心のあるゲノム領域に隣接する上流配列に由来する近接生成物から、該関心のあるゲノム領域に隣接する下流配列に由来する近接生成物への蓄積の移行をマーク付けするゲノムセグメントに配置される。隣接する領域の1つだけ(すなわち、5'近傍配列だけ、又は3'近傍配列だけ)が再配置パートナーに対して近接生成物を寄与する場合、このことは、アンバランスな染色体再配置、又は該関心のあるゲノム領域の内部に切断部位を有し、他の隣接する配列の欠失又はゲノム内の別のパートナーへの融合のいずれか(例えば、図9を参照)、並びに外来DNAの挿入を有する複合染色体再配置を示す。
好ましい実施態様において、該関心のあるゲノム領域の3'末端に隣接する配列を含むゲノムフラグメントに近接するゲノムフラグメントの配列位置(例えば、再配置パートナー候補に対応する)が、該関心のあるゲノム領域の5'末端に隣接する配列を含むゲノムフラグメントに近接するゲノムフラグメントの配列位置(例えば、再配置パートナー候補に対応する)と比較される。該再配置パートナー候補ゲノムフラグメントが線形に離れていることは、該関心のあるゲノム領域内の染色体切断部位接合部を示す。幾つかの実施態様において、該方法は、再配置パートナーと、該関心のある遺伝子に隣接する標的化された5'配列と3'配列との間でそれぞれ形成された富化された近接結合された生成物が、再配置パートナーを含む線形染色体テンプレート上で離れているかどうかを分析することを含む。そのように線形に離れていることは、関心のある遺伝子の内部に染色体切断部位についての証拠である。
重複している及び線形に離れていることを可視化する為の1つの方法は、ゲノムフラグメントに対応する配列リードから行列を生成し、ここで、一方の軸が、該関心のある領域に対応するゲノムフラグメントの配列位置又は該関心のある領域に隣接する配列に対応するゲノムフラグメントの配列位置を表し、並びに他方の軸が、該関心のある領域に連結されたゲノムフラグメントの配列位置又は該関心のある領域に隣接する配列(例えば、再配置パートナー候補)に連結されたゲノムフラグメントの配列位置を表すことである。該行列内の各要素が、該関心のある領域内の対応するゲノムセグメント又は該関心の或る領域に隣接する対応するゲノムセグメントと、該関心のある領域内の該対応するゲノムセグメント又は該関心のある領域に隣接する該対応するゲノムセグメントに連結したゲノムセグメントとを含む連結された産物が発見された回数を表すように、連結された近接産物が該行列上に重畳されることができる。例えば、位置4での再配置を描く図9Bを参照されたい。再配置パートナー候補の配列は、該関心のある領域のゲノム領域の位置「a」及び位置「b」の両方で重なり合う。当業者には明らかであるように、再配置パートナー候補配列が重なることは、「a」を含む近接ライゲーションされた分子と「b」を含む近接ライゲーション分子が、同一又は物理的に重なり合う再配置パートナー配列をまた含まなければならないことを要求しない。むしろ当業者は、そのような配列の交錯があることを理解する。これは、後述される線形に離れていることと比較する。
上述されているように、線形に離れていることを可視化する1つの方法は、行列を生成することである。線形に離れていることは、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の1つ以上の座標が、再配置候補パートナーからのゲノムセグメントの近接頻度における推移を示す場合に示されている。特に、本明細書において開示される近接アッセイを用いて富化された、該関心のある領域及び/又は該関心のある領域に隣接する領域からのゲノムフラグメントに近接する再配置パートナー候補からのゲノムセグメントの近接頻度が比較される。
幾つかの実施態様において、該関心のあるゲノム領域を含む近接結合された生成物がまた富化される。好ましくは、プローブ/プライマーは、近接データが該関心のあるゲノム領域のかなりの部分について利用可能であるように、該関心のあるゲノム領域のかなりの部分をカバーする為に使用される。該行列が、隣接する四分円の間の頻度における最大差と、隣接する四分円の間の頻度における最小差とに基づいて、特定の位置で四分円へと分割されることができる場合、それは線形に離れていることを示し、それは、染色体切断部位を示す。例えば、図9Bは、1、2及び3の位置での再配置、並びに図9Cにおける例を描く。これらの例は、相互再配置の可能性を示す。
線形に離れていることはまた、ゲノムフラグメント(例えば、再配置パートナー候補に対応する)が、例えば該関心のあるゲノム領域の5'領域に隣接する配列に近接するが、該関心のあるゲノム領域の3'領域に隣接する配列に近接しない(又は、その逆)場合において存在する。線形に離れているこの形態は、再配置パートナー候補からのゲノムセグメントの近接頻度における推移を示すところの関心のあるゲノム領域の配列位置及び/又は関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の1以上の座標を識別することによって、行列において可視化されることができる。非相互再配置位の場合、該遷移は、再配置パートナー候補からのゲノムセグメントの特定の近接頻度から再配置パートナー候補配列の(統計的に有意な)非存在への遷移である。例示的な実施態様において、線形に離れているこの形態は、単一の四分円におけるゲノムフラグメント(例えば、再配置パートナー候補に対応する)の存在、及び他の3つの四分円における転位パートナー候補配列の(統計的に有意な)不存在によって蝶形格子行列において可視化されることができる。例えば、図9Dにおいて描かれている例を参照されたい。
幾つかの実施態様において、該方法は、該近接結合された生成物の交叉(すなわち、重複)の程度に対してスコアを割り当てることを含む。幾つかの実施態様において、該割り当てられたスコアは、該再配置が互恵的染色体再配置であるか又は染色体再配置であるかを示す。
下記の実施例において実証されているように、該関心のあるゲノム領域の5'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物と、該関心のあるゲノム領域の3'末端に隣接する配列を含むゲノムフラグメントを含む近接結合された生成物とを富化することは、驚くべきことに、該関心のあるゲノム領域内で切断部位接合部を結果として生じる再配置を確認することを可能にし、「偽陽性」を低減させる(図9Aを参照)。
上述されているように、本方法は更に、i)関心のあるゲノム領域の少なくとも一部、及びii)該関心のあるゲノム領域に近接しているゲノムフラグメントを含む近接結合された生成物を富化することを含みうる。幾つかの実施態様において、該方法は、該関心のあるゲノム領域に少なくとも部分的に相補的である複数のプローブ又はプライマーを提供することを含む。複数のオリゴヌクレオチドプローブ/プライマーの各々は、該関心のあるゲノム領域の異なる部分配列又は重複する部分配列に向けられてもよい。幾つかの実施態様において、プローブ/プライマーのパネルは、100kb毎に、10kb毎に、又は1kb毎に少なくとも1つのプローブ/プライマーの間隔でゲノム領域を標的化するように設計されている。そのような方法は、再配置パートナー候補を該関心のあるゲノム領域内の位置に融合する染色体切断部位接合部の位置を決定する為に、又はむしろ該切断点接合部を「ファインマッピング」(fine-mapping)する他面に有用である。
そのような実施態様において、該方法は更に、i)該関心のあるゲノム領域の少なくとも一部及びii)該関心のあるゲノム領域に近接するゲノムフラグメントを含む該近接連結されたDNA分子を配列決定して、該関心のあるゲノム領域配列決定リードを生成することを含む。
該方法は更に、染色体切断部位をマッピングすることを含んでいてもよく、ここで、該マッピングは、該関心のあるゲノム領域の少なくとも一部を含み、並びに該再配置パートナー配列の線形に離れていることを有する近接ライゲーションされたDNA分子を検出することを含む。当業者には明らかであるように、本方法は、互いに線形配列が最も近く、並びに転位パートナー配列の線形に離れていることを有するゲノム領域関心フラグメントを含む近接ライゲーション分子を同定することを含みうる。これは、例えば、(該関心のあるゲノム領域の少なくとも一部と、該関心のあるゲノム領域に近接しているゲノムフラグメント、例えば転位パートナー候補とを含む)近接結合された生成物を、該関心のあるゲノム領域の線形テンプレートにおける起源のそれらの位置に従って編成し、そして、該関心のあるゲノム領域における線形編成が該再配置パートナーにマッピングされたそれらの近接結合された連結産物の線形位置とどのように関連しているかを例えばスライドウィンドウ手法によって分析することにより行われることができる。該関心のあるゲノム領域を横切ってスライドすることに応じて、該再配置パートナーの線形テンプレート上で混ざり合う(すなわち、重ね合わせる)近接結合された生成物から、該再配置パートナーの線形テンプレート上で離された近接結合された生成物への移行を示す位置が、該関心のあるゲノム領域内の染色体切断部位位置を定める。
幾つかの実施態様において、染色体切断部位をマッピングすることは、配列決定リードの少なくともサブセットの為に行列を生成することを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する配列の配列位置を表し、並びに他方の軸が、該再配列パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のある領域のゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む近接された連結されたDNA分子の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される。好ましい行列は、蝶形格子である。BCL2及びMYC遺伝子における切断部位接合部のマッピングについては、図9を参照されたい。
幾つかの実施態様において、該方法は、該切断部位にまたがる1つのゲノム領域の配列を決定することを含み、該方法が、i)該関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む。本明細書に記載されている方法の1つの利点は、配列決定データ中に存在する「ノイズ」(noise)リードから「本物」(real)の融合リードをフィルタリングする能力に関する。標準的な次世代配列決定方法は、主に(本物とノイズとの間の)周波数における差及び/又は融合パートナーに関する事前知識に関するフィルタリング工程を可能にする。本開示の幾つかの態様において、「本物」の融合リードは、再配置パートナー候補を配置するPLIERアルゴリズムを最初に適用することによって、ノイズから分離されうる。代替的に、又はPLIERアルゴリズムに加えて、複数のプローブ/プライマーを使用する方法が、該切断部位の位置を更に細かくマッピングする為に提供される。行列、例えば蝶形格子、の作成は、切断部位の位置を識別することを支援する。従って、該開示された方法は、該切断部位接合部を含むゲノム配列を含む可能性が最も高い近接ライゲーションされた分子を識別する。このことは、バックグラウンドノイズレベルを大幅に低減する。本物の融合リードの識別が、ゲノム内の制限酵素認識部位(+/-1塩基対)、又は寧ろ、近接ライゲーションアッセイ中にフラグメント化の為に使用される制限部位で融合される近接ライゲーションされた産物を破棄することによって、また改善される。
幾つかの実施態様において、該方法は更に、染色体再配置の結果として生じる変異(又は寧ろ、変異の配列)を決定することを含む。
本開示は更に、関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出する為のコンピュータプログラム製品であって、該コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
配列決定リードの少なくともサブセットについての行列を生成すること、ここで、該配列決定リードが近接結合された生成物の配列に対応し、該製品が、該関心のあるゲノム領域からのゲノムフラグメント、又は関心のある該領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、該行列の一方の軸が、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、該再配置パートナー候補の配列位置を表し、ここで、該行列内の各要素が、該関心のあるゲノム領域のゲノムフラグメント又は該関心のある該領域に隣接するゲノムフラグメントと該再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、該行列が、該配列決定リードを該行列上に重畳することによって生成される、及び
該行列を検索して該ゲノムセグメントの近接頻度で該再配置パートナー候補から遷移することを示す、該関心のあるゲノム領域及び/又は該関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
を該プロセッサシステムに行わせる、上記のコンピュータプログラム製品を提供する。
幾つかの実施態様において、プロセッサシステムが該行列を探索して、隣接する複数の四分円間の頻度差が最大となり、且つ対向する四分円間の差が最小化されるように、該行列のうちの少なくとも一部を4つの四分円へと分割する1以上の要素を検出する。そのような実施態様はまた、該関心のあるゲノム領域の異なる部分を含むところの複数の近接結合された生成物を富化する実施形態において特に有用である。コンピュータプログラム製品の幾つかの実施態様は、該プロセッサシステムは、識別された4つの四分円を比較し、及び2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして該染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして該染色体切断部位を分類する。本明細書において記載されているコンピュータプログラム製品は、本明細書に記載される方法を実行する為に有用である。
幾つかの実施態様において、計算方法が、該切断部位位置を自動的に検出する為に、本明細書において記載されている方法のコンピュータプログラム製品において使用される。コンピュータビジョン分野(Vision field)における標準的なテンプレートマッチング戦略(例えば、カーネルサーチ)が、行列を分割する為の最も可能性の高い位置を推定する為に用いられる。加えて、順列化戦略(すなわち、行列全体でライゲーション産物をシャッフルする)を利用することによって、該計算方法は、該検出されたパターンの重要性を推定する。該計算方法が、順列化戦略を平滑化戦略(例えば、ガウシアンカーネル)並びにスケール空間モデリングと組み合わせて、観察された近接結合された生成物がまばらに入力されている行列を特別に使用してパターンマッチング及び有意推定の固有ノイズを低減する場合に、このアプローチは更に強化される。
参考文献
Figure 2023523002000010
Figure 2023523002000011
Figure 2023523002000012
Figure 2023523002000013
本明細書において記載された例及び実施態様は、本発明を限定するのでなく、寧ろ、本発明を説明する為に役立つ。当業者は、添付の特許請求の範囲及びその均等物によって定義される本開示の精神及び範囲から逸脱すること無しに、代替の実施態様を設計することができるであろう。特許請求の範囲において括弧内に置かれた参照符号は、特許請求の範囲の範囲を限定するものと解釈してはならない。特許請求の範囲又は明細書において別個の実体として記載された項目は、記載された項目の特徴を組み合わせた単一のハードウェア又はソフトウェア項目として実装されうる。
実施例
構造的変異(SV:Structural variation)は、癌の再発の特徴である。特に、転座(複数の染色体間のゲノム再配置)は、多くの種類の血液リンパ系悪性腫瘍において再発性のドライバー(recurrent drivers)として見つけられている。それらはまた、様々な固形癌、例えば肺癌、前立腺癌、軟部肉腫、においても、診断、予後及び更には治療選択をガイドする為の予測パラメータ(predictive parameters)としてさえ、益々重要視されてきている。それ故に、標的遺伝子の特定の組の転座解析は、これらの悪性腫瘍のルーチン診断ワークフローに益々実装されている。病理診断業務は、ホルマリン固定及びパラフィン包埋(FFPE:formalin-fixation and paraffin embedding)手順に大きく依存する。結果として得られるFFPE標本ブロックは、長期保存方法を提供し、特に形態学的評価、例えば免疫組織化学及びイン・シチューハイブリダイゼーション技術(ISH:in situ hybridization techniques)を包含する上記の形態学的評価、に適している。現在、蛍光イン・シチューハイブリダイゼーション(FISH:fluorescence in situ hybridization)は、リンパ腫のFFPEサンプルにおける転座検出の「ゴールドスタンダード」である。この方法は世界中で一般的に適用されており、多くの事例で成功しているが、それは様々な限界を有する。FISH評価は、十分な形態学に依存する。それ故に、破砕によるアーティファクト、不十分な固定、広範な壊死及びアポトーシスは頻繁に形態を損ない、信頼性できる解釈をしばしば妨げてしまう。その上、FISHアッセイは免疫組織化学と同じ自動化された方法で日常的に実行されることができるにもかかわらず、結果の解析及び再配置検出が大部分手作業で行われており、それは労力がかかり、誤りを起こしやすく、且つ高価なものである。その上、蛍光シグナルの複雑なパターンを結果としてもたらす珍しい切断部位、ポリソミー又は欠失の場合1,2、FISH評価は困難であり、不明瞭であり、又は主観的である場合がある。一方、融合FISHは、転座パートナーが既知である特定の状況、例えばMYC-IGH転座、の場合にのみ適用される。再配置の正確な構成を知ることは、腫瘍の進行挙動及びその下位分類をしばしば明確にする為に不可欠な情報である3。最後に、FISH分析は多重化されることができない。
最近では、次世代配列決定(NGS:Next-Generation Sequencing)DNA捕捉方法が、FFPEサンプル中の選択された遺伝子パネルにおける再配置検出の為に導入されており、それは、塩基対分解能での切断部位を検出し且つ転座パートナー遺伝子を識別することを可能にした4~7。しかしながら、そのような方法は、明確な融合リードを捕捉することに依存し、該切断部位に隣接する非ユニークな配列がある場合には困難である可能性がある8。これは、特に悪性リンパ腫における転座においてよく見られる状況であり、それは、癌遺伝子に対する転座パートナーとして免疫グロブリン及びT細胞受容体遺伝子が典型的に関与している9。RNAベースの検出法は、FFPE材料における再配置検出の為のもう一つのアプローチであり、現在、軟部腫瘍について典型的であるように、キメラ又は変化したRNA産物を結果としてもたらす再配置の為に日常診療に導入されている10~12。RNAはDNAよりも安定性が低いため、FFPE標本におけるRNAベースの診断方法の性能に影響を及ぼすことがある13。更に、RNA ベースの検出方法は、制御変位効果を通じて癌を駆動する非コード配列において再配置を検出することができない。これは、免疫グロブリン及びT細胞受容体のエンハンサー配列が、更に変化していない癌遺伝子の過剰発現を媒介する悪性リンパ腫で最もよく見られるケースである。これらのことを総合すると、FFPE標本における転座をより確実に検出し且つ正確に特徴付ける方法論に対する日常の病理診断実践における明確な必要性がなおある。
重要なことは、病理組織処理におけるホルマリン固定と(予定外の)DNAフラグメント化が、近接ライゲーション(又は「染色体コンフォーメーション捕捉」(chromosome conformation capture))法において必須の工程であるということである。元々は染色体の折り畳みを研究する為に考案され14、近接ライゲーション方法法では、ホルムアルデヒドを用いた固定と、その後のイン・シチュー(in situ)でのDNAフラグメント化、そしてライゲーションを行い、細胞核内で最も近接したDNAフラグメントを融合する。次に、ライゲーション産物のNGS及び定量分析は、細胞集団における一対の配列間の接触頻度の為の相対的見積もりを提供し、それによって、再帰的な染色体折り畳みパターンを分析することを可能にする。一対のDNA配列間の接触頻度を決定する最も支配的な要因は、同じ染色体上でのそれらの線形の隣接性であり、このような接触頻度は、2つのDNA配列間の線形に離れていることが増大すると指数関数的に減少する。興味深いことに、ゲノムの再配置は染色体の線形配列を変化させ、それによって、近接ライゲーション方法において生成されるDNAの接触パターンを変化させる。この理解に基づいて、近接ライゲーション方法は、ゲノム再配置を識別する為の強力な技術として導入された15~20。近接ライゲーション方法がまた、FFPE材料中のSVを検出することができるという概念実証は、最近、Hi-Cプロトコル(すなわち、近接ライゲーションアッセイのゲノム規模の変異体)を15のFFPE腫瘍サンプルに適用された非盲検試験において提供された。ほとんどの場合、この方法(「Fix-C」と呼ばれる)は、FISHによる再配置を有する為に以前にスコア化された遺伝子において視覚的に認識できる変更された接触頻度を与えた21。そのようなワイドなゲノム解析は、新規の再配置遺伝子を識別する為に関連する可能性がある一方で、既知の臨床的意義を有する選択された遺伝子における再配列の識別が必要とされる臨床設定にはあまり関連しない高価なディープ配列決定が必要である。
本発明者等はFFPEで標的化された遺伝子座捕捉(FFPE-TLC:FFPE-Targeted Locus Capture)を提示し、該FFPE-TLCは、オリゴヌクレオチドプローブセットと組み合わされた、架橋化されたDNAフラグメントのイン・シチュー(in situ)ライゲーションを使用し、既知の臨床的に重要な遺伝子の近接ライゲーション産物を選択的にプルダウンし、配列決定し及び解析する。FFPE-TLCは、切除又は針生検によって得られた149個のリンパ腫及び対照FFPEサンプルに盲目的に適用された。再配置は、「近接ライゲーションに基づく、再配置の識別」(PLIER:Proximity-Ligation based IdEntification of Rearrangements)、FFPE-TLCで配列決定されたデータセットを処理し且つ大幅に濃縮された近接ライゲーション産物に基づいて標的遺伝子の再編成パートナーを有意に富化されたそれらの近接ライゲーション産物に基づく標的遺伝子の再配置パートナーを識別するところ専用の計算及び統計フレームワークを使用して自動的にスコア化される。FISH、標的化されたNGS-捕捉、FFPE-TLCの結果の比較は、FFPE-TLCが、特異性と、感度と、検出された再配置における詳細とにおいて両方法を凌駕していることを示した。それ故に、FFPE-TLCは、悪性リンパ腫及び他の転座を介在する悪性腫瘍におけるFFPEサンプルにおけるSV検出の為の強力な新ツールである。
簡単に言うと、FFPE-TLCにおいて、代表的な腫瘍サンプルのFFPEスクロールが脱パラフィン化され、そして、穏やかに脱架橋化されて、中央値サイズ141bpを有するフラグメントを作成する制限酵素(NlaIII)によるイン・シチューDNA消化を可能にした。イン・シチューライゲーション、そして逆架橋化の後、(プローブベースの)ハイブリダイゼーションキャプチャリング(hybridization capturing)の為の標準プロトコルが続き(詳細は下記の方法を参照)、そして、結果として得られたライブラリーがIllumina配列決定マシーンにおいて配列決定される(図8A及び図13を参照)。本発明者等のリンパ腫用プローブパネルにおいて、BCL2遺伝子、BCL6遺伝子、MYC遺伝子及び免疫グロブリン遺伝子座IGH、IGK、IGL並びに血液リンパ系悪性腫瘍に関与する他の遺伝子座を標的とした。本発明者等は、FISHによって元々検出されたMYC、BCL2又はCL6を含む再配置の存在又は非存在で選別された129個のリンパ腫腫瘍サンプルにFFPE-TLCを適用した(図13)。加えて、反応性リンパ節(主に乳癌患者からの反応性リンパ節)からの20個のFFPEサンプル20個が含まれており、これらはFISHによって分析されていないが、6個の標的遺伝子において再配置がないことが予想されるものであった。サンプルはオランダにおける5つの異なる医療センターによって提供され、組織ブロックの年齢、DNAフラグメント化の程度、並びに壊死及び/又は破砕損傷の有無が異なっていた(データは示されていない)。149個のサンプル全ては匿名化されており、それ故に、この(ブラインド)研究においては、いずれかの標的遺伝子における再配置の存在又は非存在は本発明者等から隠されていた。結果を説明する為に、図8Bは典型的なFFPE-TLC実験から取り出された配列のゲノムワイドカバレッジを示す。MYC、BCL2又はBCL6のプローブ標的化された遺伝子座及びその周辺で捕捉された配列(図8C)を詳細に観察すると、再配置検出の為にNGS捕捉を近接ライゲーションと組み合わせることの付加価値を強調する:FFPE-TLCによってプローブ相補ゲノム配列(青)が効率的に回収されるだけでなく、隣接する配列(すなわち、図8CでMYC(ピンク)、BCL2(ブラウン)及びBCL6(オレンジ)について示されている近接ライゲーション産物)のメガベースも強く富化する。標的遺伝子座を有する再配置は新規な隣接する配列にそれらを並置する故に、再配置されたパートナー遺伝子座は、FFPE-TLCにおいて近接ライゲーション配列の増加された密度を示し、それ故に発見される可能性がある。この現象は図8Bにおいて示されており、ここで、MYC(緑)はGRHPR遺伝子(赤)を含む遺伝子座と異常に多くの近接ライゲーション産物を形成し、この転座を有する腫瘍細胞を示す22
FFPE-TLCデータセット中の転座パートナー遺伝子を自動化された態様で客観的に識別する為に、本発明者等はPLIER(Proximity-Ligation based IdEntification of Rearrangements)と呼ばれる計算パイプラインを開発した。簡潔には、PLIERは、配列決定されたFFPE-TLCサンプルを複数のFFPE-TLCデータセットへと最初に分割し、ここで、各データセットは特異的な標的化された遺伝子(例:MYC)によって捕捉される近接ライゲーション産物から構成される。次に、(標的遺伝子の)所与のFFPE-TLCデータセットについて、PLIERはゲノム全体の近接ライゲーション産物の密度を評価し、ゲノム区間に対して観察され且つ予想された近接性スコアを割り当てし、そして比較し、富化スコアを計算する(詳細は、下記の方法及び図15を参照)。有意に高められた富化スコアを有するゲノム区間は、標的遺伝子の再配置パートナーの有力候補である。本発明者らは、包括的な最適化手順を通じてPLIERの最適なパラメータを最初に識別した(最適化手順の詳細については、下記の方法を参照)。次に、本発明者等は全149個のサンプルにPLIERを適用し、臨床的に関連する3つの標的化された遺伝子MYC、BCL2及びBCL6を含む再配置を検索した。該識別された再配置の概要とそれらのFISH診断との比較が図13において提供されている。20個の対照サンプル全体で、FFPE-TLCは再配置を検出せず、近接ライゲーションデータセットに不可避的に存在する固有のトポロジー及び方法論的ノイズをマスクするPLIERの堅牢性を実証し、一方で、リンパ腫サンプル全体でMYC、BCL2及びBCL6を含む再配置を検出することができることを実証した。
すなわち、56箇所のMYC再配置(49個のリンパ腫サンプル中)、39箇所のBCL2再配置(34個のサンプル中)、42箇所のBCL6再配置(40個のサンプル中)であった(図9A)。PLIERで識別されたゲノム領域が調べられた標的遺伝子の真の再配置であるかどうかを明確に評価する為に、本発明者等はそれぞれの推定されるパートナーの線形配列に沿ったそれらの近接ライゲーション産物の分布を、所謂、蝶形格子、で詳細に観察した23。相互転座に関与している場合、各遺伝子座は、パートナー遺伝子座の一方と優先的に近接ライゲーション産物を形成するその上流配列と、パートナー遺伝子座のもう一方と優先的に接触しライゲーションするその下流配列とを分ける「切断部位」位置を明らかにするはずである(図9B)。図9Cは、蝶形格子によって明らかになった3つの相互再配置の例を示し、それぞれMYC、BCL2及びBCL6が関与する。再配置はまた、標的遺伝子座の一部分だけが所定のパートナーに融合するような非相互的でありうる。図9Dは、MYC、BCL2及びBCL6のより複雑な再配置の蝶形格子を示す。分析された全てのサンプルにおいて、MYCは41個の相互転座(IGHと26個、非IG座と15個)と15個のより複雑な再配置(IGHと4個)、34個の相互転座中のBCL2(IGHと33個、及びIGKと1個)並びに5超のより複雑な再配置、並びに37個の相互転座中のBCL6(IGHと16個、IGLと5個、及び非IG座と16個)並びに5超の複雑な再配置に関与することが見つかっている。
MYC、BCL2又はBLC6遺伝子座に切断部位を有する137個の再配置に加えて、PLIERはまた近接ライゲーション産物における有意な富化を生じる可能性がある2つのバイスタンダーカテゴリー(bystander categories)のゲノム再配置をまた検出すると予想された。一つは増幅されたゲノム領域(コピー数の変動)であり、これらはPLIERが全ての標的遺伝子でそれらをスコア付けする故に、真の陽性再配置と区別することができる(図9E)。PLIERは、分析した全てのリンパ腫サンプルにおいて、ゲノム全体で23個の増幅を発見した。PLIERによってスコア付けされた2つ目のバイスタンダーカテゴリは、標的遺伝子を含んだ染色体を含むゲノム再配置であったが、プローブ標的化された領域の外に切断部位を有する上記ゲノム再配置であった。結果として、そのような再配置は、蝶形格子において、識別された再配置と標的遺伝子座との間の近接ライゲーションシグナルの線形遷移を示さなかった(図9Bを参照)。これらの再配置のうち6つが見つかり、2つの事例(F209及びF262)については、本発明者等は3番染色体を含む再配置であるが、BCL6遺伝子座からメガ塩基離れたところに切断部位を有することが確認された(図16)。PLIERによってスコア付けされたバイスタンダー再配置は、関心のある遺伝子には無関係と考えられ、それ故に陰性として分類された。
図10Aは、本研究において識別された再配置パートナーをシルコス(Circos)プロットを用いてグラフ化した概要を提供する24。本発明者等のサンプルコレクションにおいて、本発明者等はMYC及びBCL2及びBCL6における転座について陽性である3個のサンプル(すなわち、トリプルヒット)、MYCとBCL2又はBCL6の両方における転座について陽性である19個のサンプル(ダブルヒット)、並びに、BCL2及びBCL6の両方において再配置を有する8個のサンプルを見つけた。5つの腫瘍において、MYCはBCL6(F72、F190、F194)遺伝子座に直接的に融合されているか、IGH及びBLC2(F197、F274)との複合3元融合に関与していた。免疫グロブリン遺伝子座の他に、KYNU/TEX41遺伝子座(F67、F188、BCL6と共に、並びにF201、MYCと共に)、TBL1XR1(F49、F273、F329、BCL6と共に)、IKZF1(F210、F281、BCL6と共に)並びにTOX遺伝子座(F74、F271、MYCと共に)を包含する幾つかの他の相互再配置パートナーを本発明者等は見つけた。驚くべきことに、GRHPRはBCL6(F77、F199)及びMYC(F202、F209、F269)の再配置パートナーとして5回見つけられた(図10A)。F197(MYC)及びF331(BCL6)のような事例において、本発明者等は、標的遺伝子座の異なる部分を異なるゲノムパートナーに融合する非相互転座事象の強い示唆が見つけられた(図10B)。他の例において、対立遺伝子3方向再配置の証拠があり、しばしばIGH遺伝子座、MYC(F50、F212、F274)、BCL2(F193、F274、F282)又はBCL6(F77)及び第3パートナーが関与していた(図10C、例として)。更に、F67(BCL6)(図10D)、F202(MYC)及びF197(BCL2)のような稀な事象において、標的とされる遺伝子座の対立遺伝子の両方が再配置に独立して関与しているようであった。
FFPE-TLC及びPLIERを用いて、本発明者等は、BCL2、BCL6、MYCを含む137個の識別されたSVについて、90個の切断部位スパン融合リードを容易に取り出すことができた。該切断部位を標的遺伝子に並びにIGH遺伝子座にマッピングすることが、並びに前述されたように、MYC、BLC2、BCL6及びIGHにおいて繰り返し存在する切断部位クラスターを確認することができた(図10E及び図15)5,25
IG遺伝子座のプローブ設計は最適ではなかったが(エンハンサー領域のみを中心としたプローブ)、IG遺伝子を標的とした場合に、PLIERは、相互にMYC、BCL2及びBCL6との再配置をほとんど(91個のうち79個)同定した。加えて、IG遺伝子座を他の遺伝子と結合する多くの再配置が見つけられ、それらの多くは下記の再配置パートナーとして記述されている:IGH-PAX5/GRHPR(F21)22,26、IGH-FOXP1(F41)27、IGH-PRDM6(F43)、IGH-CPT1A(F58)28、IGL-BACH2(F223)29、及びIGH-ACSF3(F278)30。そのような事例は、特にリンパ腫の他の既知のドライバーを有さないサンプルにおいて見つけられた故に、更なる調査を必要とする。
検証の為に、及び代替的な近接ライゲーション方法を探る為に、本発明者等は、47個のFFPEサンプルを4C-seqで処理した31。4C-seqにおいて、ハイブリダイゼーション捕捉の代わりに、逆PCRが、関心のある選択された部位と形成される近接ライゲーション産物を富化する為に使用される32。本研究の為に、MYC、BCL2及びBCL6遺伝子座に分布する14個のプライマーセットと、IGH、IGL及びIGK遺伝子座を標的とする7個のプライマーセット(合計21個のプライマーセット)を用いたマルチプレックス4C PCRが使用された。FFPE-4Cタイプのデータをサポートし、並びに再配置パートナーをスコア付けする為に、PLIERの修正バージョンが使用され(下記の方法を参照)。試験され全てのサンプルにおいて、FFPE-4Cが再配置を検出することに失敗した2つの例外(F54及びF67)を除いて、FFPE-TLCとFFPE-4Cとの結果は一致した。いずれも2007年及び2009年それぞれの古いサンプルで、DNAのフラグメント化が激しかった。このことは、FFPE-TLCがFFPE-4Cよりもサンプルの質が悪い場合に耐性があることを示唆された。このことは、4Cは更に(小さな)近接ライゲーション産物の環化を必要とすることから予想されることであった。
本発明者等の研究の主な目的は、FFPE標本における再配置検出の為の診断方法として、FFPE-TLCをFISHと比較することであった。陰性対照組織におけるバックグラウンドスコア付けを考慮すると、FISHは一般的に異常シグナルが細胞の10~20%未満に生じた場合に、診断上陰性とみなされる(正確なカットオフは遺伝子毎に、診断センター毎に異なる可能性がある)。FFPE-TLCの感度は、再配置パートナー候補を識別する為のPLIER能力に依存する。PLIERの性能及び感度をより系統的に調べる為に、本発明者等はMYC(2倍)、BCL2(2倍)及びBCL6(2倍)におけるFISH有効化された再配置を有し、FISH陽性細胞の既知の割合を有する6つのFFPEサンプルを採取し、(プローブプルダウンの前に)再配置を有しない対照サンプルで、5%、1%及び0.2%の割合で各サンプルを希釈した。本発明者等は、その結果、PLIERはどのサンプルにおいても偽陽性を示すことなく、5%以上の陽性細胞を有する全てのサンプルにおいて、実際の再配置のパートナーを確実にスコア付けすることを見つけた(図11A~図11B及び図17を参照)。このことは、FFPE-TLCがFISHと比較して優れた感度を提供することを示唆した。しかしながら、腫瘍細胞の割合が低いこと又は腫瘍の不均一性によって引き起こされる転座の低い割合であることの臨床的意味が決定される必要がある。
本発明者等はFISHの結果と本発明者等のFFPE-TLCの結果とを比較した。FFPE-TLCによってMYC陽性とスコア付けされた49サンプルのうち、47サンプルがまたFISHによっても陽性と分類された(図13)。FISHによって見逃されたMYC再配置はいずれもシスであり、同じ第8染色体上のパートナー(F16及びF221:本明細書において、FISHは複数のシグナルを検出した)であった(図11C)。BCL2については、本発明者等が陽性とスコア付けした34個のサンプルのうち31個のサンプルが以前にFISHによって報告されていた。新たに識別された3つの再配置は、それぞれBCL2-IGH転座を有するがFISHによって解析されていなかった。BCL6については、BCL6再配置を有する40個の腫瘍のうちの29個はFISHによって陽性とスコア付けされていた。3つのBCL6再配置(F38、F40、F49)がそのうちの2つの事例においてFISHによって検出されなかった(図11D)。これは、再配置を有する細胞の割合が閾値を下回ったためである(10%(F38)及び6%(F40))。3例目(F49)において、FFPE-TLCは、TBL1XR1遺伝子座のBCL6遺伝子座への1.35Mb挿入を検出した(図11E)。後から考えてみると、FISH画像(図11F)において、当初は無関係と考えられていたシグナルの分裂が観察されることができた。FFPE-TLCで識別された2つのBCL6再配置(そのうちの1つはIGH)は、単一蛍光シグナルの為にFISHによって結論が出ないと以前は考えられていた(F25、F261)。新たに識別された6つのBCL6再配置(2xIGH、2xIGL)は、FISHによって解析されていなかった(図13)。逆に、FISHによってスコア付けされた再配置は、2つ(F217及びF322、いずれも複雑な核型を持つとして記述されている)を除いて、全てFFPE-TLCにおいて確認された。ここでFFPE-TLC又はFISHのどちらが間違っていたかは、残念ながら判断されることができなかった。要約すると、FFPE-TLCで解析され149個のサンプル全てが、FISHと非常に高い一致率を示した。FISHによってスコア付けされた2つの再配置を見逃したが、FISHによってスコア付けされなかった2つのMYC再配置と5つのBCL6再配置とを識別し、そして、特徴付けられた。その上、FFPE-TLCは複数の遺伝子の再配置を同時に解析することができるため、FISHによって発見できなかったBCL2及びBCL6再配置を9例発見することを可能にした。4例において、この発見は、サンプルの当初の腫瘍分類を変更した。サンプルF16は、MYC及びBCL2の為の再配置が「ヒットなし」から「ダブルヒット」(DH)に、サンプルF67はシングル(MYC)ヒットからMYC-BCL6 DH腫瘍(パートナーIGH及びIGLあり)に、サンプルF194はシングル(MYC)ヒットからMYC-BCL2-BCL6トリプルヒット(TH、ただしMYC及びBCL6は一緒に融合された)、並びにサンプルF209はDHからTHへ分類変更された。
また、本発明者等はまた、FFPE標本における構造変異の検出及び解析の為に、FFPE-TLCと標的化されたDNA捕捉ベースの配列決定法(捕捉-NGS)を比較したいと考えた5~7。この為に、本発明者等は、捕捉-NGSによって以前に解析された200超のFFPEサンプルから成る大規模コホートの一部である19個のFFPEサンプルにおいて、捕捉-NGS及びFFPE-TLCの性能を比較した。該選択されたサンプルは、捕捉-NGSの結果が元のFISH診断と不一致であったサブセットを含んでいた。図12Aは、この比較の結果を示す。捕捉-NGSがFISHで報告された合計7個の転座を識別することに失敗した6個のFFPEリンパ腫サンプルのうちの6個が、報告された7個の転座をFFPE-TLCによって有することが確認された(サンプルF190(MYC及びBCL6)、F197及びF198(MYC)、F193(BCL2)、F188、F191、F192(全てBCL6))。捕捉-NGSがこれらの再配置を見逃してしまった根本的な理由を明らかにする為に、3つの事例において、実際の切断部位が捕捉-NGSプローブ標的領域の外にあることを本発明者等は発見した(F188、F197、F192)。1つの事例(F190)において、FFPE-TLCは、FISHによって識別されたMYC及びBCL6の再配置が実際には1つのMYC-BCL6再配置であることを実証した。捕捉-NGSは切断部位融合リードを見つけることを失敗し、それ故にこの再配置を見逃した。なぜならば、BCL6切断部位がプローブ標的領域の外側に位置していたのに対して、MYC切断部位はプローブによってカバーされることができない反復配列に位置していたためである(図12B)。このように、プローブがカバーする領域の外側に切断部位が発生した場合、捕捉-NGSは再配置を特定できなかったが、FFPE-TLCは前述の通り、そのような再配置を問題なく検出できた。このことを更に説明する為に、本発明者等はBCL2(2倍)、BCL6(2倍)又はMYC(2倍)のいずれかで、FISHで確認された再配置を有する6個のサンプルのデータセットを再解析したが、マッピングされた切断部位からの距離が長くなるように置かれた50kbの区間による捕捉のみを考慮してリードをフィルタリングしたところ、全ての事例において、PLIERが非常に高い信頼度で再配置を見つけた(図12C)。他の3つの事例(F191、F192、F198)において、捕捉-NGSが非一意な配列で壊れて融合した故に、該捕捉-NGSは再配置パートナーを識別することができなかった。NGS戦略が切断部位融合リードマッピングに基づく再配置を識別する際に有しうる困難を更に評価する為に、異なるリード長にわたって、本研究において見つけられた全ての切断部位隣接配列のマッピング可能性を本発明者等は分析した。図12Dは、識別された再配置の約5%が一意にマッピングされることが可能でなく、それ故に、パートナー配列内の50ヌクレオチドを読み込んだ場合でさえも見逃されることを示す。逆に、捕捉NGSがMYC転座を示唆する融合リードを識別した1つの事例があったが、それはFISH免疫組織化学により及びMYC免疫組織化学により未確認であり、FFPE-TLCがまた転座においてスコア付けされなかった(F189)。PCR及び配列決定による詳細な解析は、8番染色体の240塩基対をX染色体へと配置する小さな挿入であり、しかしMYC遺伝子座に影響を及ぼしていないことを明らかにした(図12E)。
結論として、FFPE-TLCは、染色体再配置の検出において、通常の捕捉-NGS方法よりも優れている。捕捉-NGSは、再配置の検出の為の切断部位融合リードの識別に依存し、プローブがカバーする領域の外側及び/又は反復性DNAにおいて切断が生じる場合に、それが大きな障害となる。FFPE-TLCは、本発明者等が示すように、標的遺伝子とその再配置パートナーとの間の近接ライゲーション対を分析するので、これらの再配置を正確に見つける。
議論
本発明者等は、FFPE-TLC、すなわち、FFPE腫瘍サンプル中の臨床的に重要な遺伝子における染色体再配置の標的化された識別の為の近接ライゲーションに基づく方法を提示する。診断において適用されるアッセイとして、FFPE-TLCは、リンパ腫のFFPEサンプルにおける標的化された再配置検出の為の現在のゴールドスタンダードであるFISHと比較して、重要な利点を提供する。第1に、FFPE-TLCとは異なり、FISHは良質の組及び細胞の形態に大きく依存しており、それは、切除標本における壊死、アポトーシス及び破砕アーティファクトによって、及びコア針生検標本からの非常に限られた材料によって否定的な影響を受ける場合がある。本発明者等は、本研究において、コア針生検サンプルを含め、それは、非常に小さなサンプルでさえも良質のFFPE-TLCの結果を与えた。第2に、FISHの結果は、細胞当たりのFISHシグナルの数が異常な場合に、結論が決定的でなかったり又は主観的な解釈をもたらしたりする場合がある。FFPE-TLCは、データ解析アルゴリズムであるPLIERに基づき、選択され標的遺伝子座に関与する再配置を客観的にスコア付けする大きな利点を与える。第3に、FFPE-TLCの結果は、再配置に関するはるかにより詳細な情報を提供する。この方法は、FISHと同様に、臨床的に関連する遺伝子が無傷であるか又は再配置であるかどうかをスコア付けするだけでなく、該方法は追加的に、再配置パートナー、関与する遺伝子との関連における切断の位置、及びさらに多くの場合、塩基対分解能で再配置を記述する融合リードを識別する。病気の進行及び処置応答に関連したこの詳細な情報を集めることは、癌患者の診断、予後及び処置が改善されることが期待されている。塩基対レベルでの転座情報はまた、最小残存疾病検査の為の腫瘍特異的な個別化アッセイの設計を可能にする個別化腫瘍マーカーを提供する。最後に、FFPE-TLCは、偽陽性コールを避ける為により高感度であり、FISH評価は一般的に、正常対照基準によって設定され、3~5μm切片中の直径10~20μmの腫瘍細胞からの信号を「切り取る」(cutting off)ことによって生じる異常信号の10~20%のカットポイント(cut point)を使用する。FFPE-TLCは、細胞のわずか5%しか存在しない場合でさえも再配置を確実に検出し、それはまた、固形癌における融合遺伝子検出に適用できる興味深い方法である。
通常のNGS-捕捉法がまた、SVを識別する為に、融合パートナーを発見する為に、再配置における切断部位に関する詳細な情報を提供する為に用いられているが、これらの方法と比較して、FFPE-TLCは、特にプルダウンと融合リードの認識の成功に厳密に依存しない為に、重要な利点を有している。寧ろ、FFPE-TLCは、切断部位に隣接する染色体区間の蓄積された近接ライゲーション事象を測定して、再配置を識別する。このことは、本発明者等も示している通り、例えば、プローブが、融合リードをプルダウンする為に該切断部位に十分に近い位置に配置されていない場合に、又は該切断部位に近接する非特異的な配列が融合リードの認識を損なう場合に、通常のNGS-捕捉方法によって見逃される再配置を確実に検出することが可能である。
本発明者等の研究の重要な観点は、FFPE-TLCデータセットに再配置のパートナーを本発明者等の客観的に照会する為の計算/統計パイプラインであるPLIERの開発であった。現在利用されている融合リードファインダーは、標的化されたNGSアプローチから生成されたデータを処理する為に、多くの場合、一定レベルの手動データキュレーションを必要とし、完全に自動化された及び並列データ処理の妨げになっている。FFPE-TLCにおいて、PLIERは染色体再配置の自動化された同定を可能にし、配列決定されたFFPE-TLCライブラリーの処理から、識別された再配置を含む簡易テーブルの配信までを行う。PLIERは、参照(又は対照)データセットと比較する必要無しに、独立したライゲーションされたフラグメントの密度を有意に富化する染色体区間を、各テストサンプル内で検索する。それによって、サンプル間の固有の信号対雑音レベルにおける差が考慮され、それは、FFPEサンプルからのDNA品質の範囲が様々な組織、様々な病院、様々なアーカイブ保存時間及び条件から比較的広いことを考えると不可欠である。最初に6個のサンプルの精選されたデータセットにおいてトレーニングされ、そして次に、全てのサンプルの完全なデータセットに適用され、PLIERは、様々なレベルのノイズに対して非常に堅牢であり、同時に、本発明者等の研究において、149個の全てのサンプルで再配置を検出する際の感度が高いことを実証する。
本研究において明らかになった悪性リンパ腫の多数の再配置は、世界保健機関(WHO:World Health Organization)のリンパ腫の分類に照らして考察することが必要である。現在、MYCとBCL2及び/又はBCL6の転座を併せ持つ侵攻性B細胞リンパ腫(所謂、ダブルヒット又はトリプルヒット、DH/THリンパ腫)は、形態的特徴とは無関係に別の存在として分類されている。その根拠は、「生物学的に意味のある分類」(biologically meaningful classification)を目指すことにあるだけでなく、より強化された第一選択治療を正当化する特徴的な不良臨床転帰にある。最近、Lunenburg Lymphoma Biomarker Consortiumは、そのようなリンパ腫の非常に大規模なシリーズにおいて、この悪い転帰はMYC再配置に対するIGパートナーを有するDH/THリンパ腫に実際には限られ、一方、他の全てのコンテクスト(MYCシングルヒット、非IGパートナー)はMYC再配置を有しないDLBCLと同様の転帰を有することを示すことができた。その結果、近い将来、病理医は治療決定を支援する為に、侵攻性B細胞リンパ腫における転座の状態をこのレベルで詳細に提供することが求められるであろう。FISHを使用して、4つのアッセイ(BCL2,-BA(ブレーク-アパート(break-apart))、BCL6-BA、MYC-BA、MYC-IGH-F(融合))がDH/THリンパ腫の診断に必要であり、一方、MYC-IGL融合FISHの為の市販プローブがない故にMYC-IGL転座を有する症例がまだ見落とされている。FFPE-TLCを用いれば、この転座コンテクストがまた、1回のアッセイで確実に診断され、そのことは、時間的にもコスト的にも明らかに改善される。MYC-IGLが4例、及びMYC-IGKが1例であり、そのうちの臨床的影響が直ちに現れるであろうDH事例が1例(F264)であることを本発明者等は識別した。MYC-BCL6融合の3事例(F072、F190、F194)及びMYC、BCL2及びIGHを融合する2事例(F197、F274)はFISHによって識別されることができず、4つの事例においてDHコンテクスト、1つの事例でTHコンテクストとして解釈されることを本発明者等は気付いた。しかしながら、1つの転座事象が両方の転座パートナー遺伝子を活性化し、並びに2つの別々の事象と同様の生物学的影響をもたらすかどうかは不明である。同様に、MYC及びBCL6の両方は、悪性B細胞の挙動に生物学的影響を与えると考えられる遺伝子(例えば、TBL1XR1、CIITA、IKZF1、MEF2C、TCL1)に頻繁に転座される。それにもかかわらず、これまで、そのような融合パートナーの影響が、臨床の場において研究されることができなかった。
結論として、客観的な再配置コーリングの為の、PLIERを組み合わせられたFFPE-TLCは、リンパ腫FFPE標本の分子診断の為に、通常のNGS-捕捉アプローチ及びFISHよりも明らかな有利点を提供する。今後の前向き研究は、臨床的に関連する染色体再配置が頻繁にまた見られる他の癌種、例えば、軟部肉腫、前立腺癌及び非小細胞肺癌(NSCLC:non-small cell lung carcinoma)、に対するFFPE-TLCの性能を実証する必要がある。
参考文献
Figure 2023523002000014
Figure 2023523002000015
Figure 2023523002000016
材料及び方法
患者サンプル:本レトロスペクティブ研究は、129個のアーカイブB細胞非ホジキンリンパ腫組織サンプルのセットを使用し、それらは各施設によって選択され、それ故に、個々の施設におけるサンプルの完全な無作為抽出を表していない可能性がある。対応するリンパ腫患者は、2007年から2019年の間に、University Medical Centre Utrecht,Amsterdam University Medical Centre – location VUMC,Laboratorium Pathologie Oost-Nederland,Leiden University Medical Centre and University Medical Centre Groningen及びそれらの関連病院で診断されていた。それらは、ほとんどがDLBCLとして診断されていたが、バーキットリンパ腫、濾胞性リンパ腫、及び辺縁帯リンパ腫、並びにその他の診断が含まれている。20個の非リンパ腫対照サンプルがまた分析され、そのほとんどは反応性リンパ節サンプルと扁桃摘出標本であった。ホルマリン固定及びパラフィン包埋(FFPE:formalin-fixed and paraffin-embedded)組織サンプルが、標準的な診断手順で得られた。患者毎に、FFPE組織ブロックの1以上の10μmスクロール又は4μmの未染色切片が、チューブ中又はスライド上でFFPE-TLC分析の為に提供された。この研究は、地元の施設委員会の要求に従って実施され、この研究は、地元の機関委員会の要件に従って実施され、この研究中は、関連する全ての倫理及びプライバシー規則が守られた。
分子生物学的解析:全ての患者のサンプルが、選択された事例においてブレイクアパートプローブ(break-apart probes)及びフュージョンプローブ(fusion-probes)を使用して、大部分の症例において下記の3つの遺伝子全てについて解析されている:BCL2(Cytocell LPS028;Vysis Abbott 05N51-020;IGH/BCL2 Dual Fusion Vysis Abbott 05J71-001)、BCL6(Cytocell LPH 035;Vysis Abbott 01N23-020)及びMYC(Cytocell LPS 027;Vysis Abbott 05J91-001;IGH/MYC/CEP 8 Dual Fusion Vysis Abbott 04N10-020)が検出された。19個のサンプルのサブセットがまた、Amsterdam University Medical Centre - location VUMCチームによって開発された捕捉-NGS方法で解析されている。このアプローチの詳細な説明が、下記の補足資料及び方法において記載されている。
FFPE-TLCライブラリーの調製:簡単に言えば、単一のFFPE切片が、1.5mlバイアル中又はスライド上の巻物として、本研究における医療機関によって提供された。スライドが提供された場合、該スライド中に含まれる物質が削り取られ、そして、1.5mlのバイアルに移された。余分なパラフィンが3分間、80℃の熱処理によって除去され、その後遠心分離が行われ、M220 Focused-ultrasonicator(Covaris)を用いた超音波処理で組織を破砕しホモジナイズした。サンプルが、0.3%のSDSと80℃で2時間インキュベートすることによって酵素消化の為のプライミングが行われ、次に、NlaIII(4塩基対カッター制限酵素;NEB)で、37℃、1時間で消化され、そして最後に、T4 DNAリガーゼ(Roche)で、室温で、2時間ライゲーションされた。次に、80℃で、一晩インキュベーションすることにより完全な逆架橋が行われ、DNAがイソプロパノール沈殿及び磁気ビーズ分離を使用して精製された。溶出後、100ngの調製された物質が200~300bpにフラグメント化され(M220 Focused-ultrasonicator,Covaris)、そして、NGS library prep(Roche Kapa Hyperprep,Kapa Unique Dual indexed adapter kit)に付された。独立して調製された合計16~20のライブラリーが総質量2μgで等モルにプールされ、そして、Roche Hypercap試薬及び製造元の説明書に従ったワークフローを用いて、捕捉プローブプールとのハイブリダイゼーション、洗浄工程及びPCR増幅に付された。ペアエンド配列決定が、Illumina Novaseq 6000シーケンシングマシンを用いて行われた。全ての近接ライゲーションライブラリーが、必要と判断されるよりも深く配列決定された。カバレッジが最も低いサンプルが、約20Mのリード深度まで配列決定され、それは必ず再配置の検出の為に十分であった。
FFPE-TLCのデータ処理:個々のサンプル(患者)からのシーケンスリードが、BWA-MEM(設定:-SP-k12-A2-B3)を用いて、ヒトゲノム(hg19)にペアエンドモード(paired-end mode)でマッピングされた33。BWA-MEMは、単一のリードがゲノム内の複数のフラグメント(すなわち、別の領域)へとマッピングされる「スプリットマッピング」(split-mapping)を可能にするアライナーである。このことは、FFPE-TLCにおける各配列決定されたリードが、ゲノム中の様々な場所にマッピングされる複数のフラグメントを含む可能性があるので、FFPE-TLCデータをマッピングする為には必須であった(図14を参照)。マッピング品質(MQ:mapping quality)が0超であるフラグメントは、近接ライゲーションデータ処理で一般的に行われているように、マッピングされたものとみなされた32,34。リードは、関連する標的遺伝子又は「視点」(viewpoint)(すなわち、プローブセット、例えばMYC、BCL2)に、それらのフラグメントと視点の座標(図18はプローブセットの座標についでである)とのオーバーラップに基づいて割り当てられた。どの視点とも重複しないリードは破棄された。1つのリードが複数の視点と重複しているフラグメントの場合は、該リードは、最も重複している視点に割り当てられた。この手順の結果、サンプルと視点との組み合わせごとに、独立したFFPE-TLCアライメントファイル(BAM)が作成された。
参照ゲノムが、NlaIII制限酵素の認識配列(CATG)に基づいて、「セグメント」内にイン・シリコ(in silico)で分割され、ここで、各セグメントはNlaIII認識部位で始まり並びに終わる。次に、マップされたフラグメントが、セグメント上に重ね合わされた。稀にアライメントエラーにより、1つのリード内に複数のフラグメントが重なる可能性がある。そのような場合、その特定のセグメントは1つのフラグメントのみがカウントされ、そのリード上の余分なオーバーラップフラグメントが無視された。本発明者等はFFPE-TLCのデータセットを格納する為にHDF5形式を使用し35、このHDF5形式は、プラットフォーム及び言語を超えたファイル保存規格であり、それ故にFFPE-TLCの将来のユーザにとって利便性の高いものである。
再配置の識別:Seede Ridder et al.36は、ゲノム上で予想以上に富化されたシグナル(すなわち、カバレッジ)を識別することを目的とする。所与のFFPE-TLCデータセットにおいて、PLIERは、参照ゲノムを等間隔のゲノム区間(例えば、5kb又は75kbビン)へと最初に分割し、そして次に、各区間について、少なくとも一つのフラグメント(すなわち、近接ライゲーション生成物)によってカバーされるところのそのゲノム区間内のセグメントの数によって定義される「近接頻度」を計算する(手順全体に関する概略図は図6を参照)。次に、「近接性スコア」が、各染色体にわたる近接頻度のガウス平滑化によって計算されて、偽の可能性が高い近接頻度における非常に局所的で且つ急激な増加(又は減少)を除去する。次に、ゲノム上で観察された近接頻度をイン・シリコでシャッフルし、各染色体にわたってガウス平滑化することで、類似の特性を持つゲノム区間(例えば、トランス染色体上に存在するゲノム区間)に対して期待される(又は平均)近接性スコアと対応する標準偏差が推定される。最後に、zスコアが、その観察された近接性スコアと、近接性スコアの関連する期待値及び標準偏差とを用いて、各ゲノム区間について計算される。最後に、複数のスケール(すなわち、区間幅、例えば5kb及び75kb)から計算されたzスコアを組み合わせることによって、スケール不変の富化スコア(scale-invariant enrichment score)が計算される(詳細は、富化スコア推定(Enrichment score estimation)とPLIERの為のパラメータ最適化(Parameter optimization for PLIER)の項を参照)。このスケール不変の富化スコアが、観察されたライゲーション産物の上昇されたクラスタリングを有するゲノム区間を認識する為に使用される。
シス染色体上に存在するゲノム区間について、本発明者等は、標的化された遺伝子座に隣接するゲノム区間の既知の上昇された近接頻度を最初に補正した。この目的の為に、所与のFFPE-TLCデータセットについて、本発明者等は、プローブされた領域並びにその周辺の+/-250kbの領域を最初に除外した。次に、本発明者等は、該プローブ領域の両側の近接頻度において、染色体末端までガウス平滑化(σ=0.75、スパン=31区間)を実施した。次に、ピークCにヒントを得て34、本発明者等は、平滑化された近接頻度に対してアイソトニック回帰(Isotonic-regression)を行った。各シス区間について、本発明者等は、その平滑化された近接頻度と対応するアイソトニック回帰予測値(prediction value)との差を近接性スコアとみなした。この手順は、標的化された(又はプローブ化された)遺伝子座に隣接するゲノム区間における近接性スコアの既知の上昇が説明されることを確実にする。最後に、シス区間の富化スコアが、地ランス区間と同様のシャッフル手順で計算された(上述された)。本発明者等は、視点とその近傍の真の3次元相互作用が再配置と見なされないように、視点周辺の+/-3mb領域(すなわち、線形染色体を横切って測定された視点に3mbよりも近い)において識別されたシス再配置を破棄した。
上記の統計的アプローチは、FFPE-TLCデータセットがまばらでなく且つ少なくとも独立したライゲーション産物が最低限存在する(すなわち、ゲノムの多様なゲノムセグメントをカバーする)場合にうまく機能することは注目に値する。しかしながら、疎なFFPE-TLCは、貧弱なサンプル(組織)の質、貧弱なDNA抽出、低い消化又はライゲーション効率、又はライブラリー調製における他の難しさで調製されたライブラリーから生じる可能性がある。そのような場合に、ゲノム中の最小数のゲノム区間だけが、0超の近接性スコアを有するであろう。その結果、利用された順列戦略(すなわち、区間のランダムシャッフル)は、真の予想される近接性スコアを過小評価し、それ故に、ゼロ超の近接性スコアを有する多くの区間が、誤って富化されているとみなされるであろう。この問題を改善する為に、本発明者等は、(全ての区間のランダムシャッフリングの代わりに)近接頻度が0超のゲノム区間のみをスワップし、そして次に、スワッピング順列戦略を用いて、観察される近接性スコアと予想される近接性スコアとを比較することによって対応するz-スコアを計算するという補完順列アプローチを本発明者等は考慮した。各ゲノム区間について、本発明者等は、シャッフリングとスワッピン順列との間の最小z-スコアを、その特定のゲノム区間の最終z-スコアとして採用した。この追加は、疎なFFPE-TLCデータセットにおいてさえも偽陽性コールの数を制限し、並びにPLIERがFFPE-4C実験に同様に適するようにされた。全ての順列化において、本発明者等はシャッフル又はスワッピングを1000回繰り返して、対応する近接性スコアの期待値及び標準偏差を予想した。
このアプローチにおいて、既知のバイアス、例えばGC含量、マップ可能性セグメント又は制限部位密度(すなわち、区間毎の制限の数)、又は捕捉された近接頻度に影響を与える可能性のある他の多くの既知の因子を本発明者等は補正しないことに注意することが重要である。PLIERの柔軟性により、同様の染色体コンパートメント、GC含量、制限部位密度等を有する区間のみをスワッピング(又はシャッフル)することによって、これらのパラメータがバックグラウンド推定に考慮されることができる。しかしながら、本発明者等の予備的な解析は、これらのパラメータがバックグラウンド推定において補正されても大きな改善は見られなかった為に、本発明者等はPLIERの計算負荷を軽減する為に、モデルの単純化を選択した。この決定は特に重要であり、何故ならば、本発明者等は、最小限の計算量で臨床に適した軽量のパイプラインを作成することを目指したからである。PLIERのソースコードは、Githubから下記からダウンロード可能である:https://github.com/deLaatLab/PLIER。
富化スコアの推定:所与のサンプル(例えば、患者)及び視点(例えば、BCL2)及びゲノム区間幅(例えば、5kb)について、本発明者等は、z-スコアが5.0超のゲノム区間を最初に選択し、そして、それらが1mbよりも近い場合には、選択された近傍区間を統合した。本発明者等は、統合された区間の90パーセンタイルのz-スコアをそれらの統合されたz-スコアとして取得した。複数の区間幅(例えば、5kb及び75kb)から「スケール不変」(scale-invariant)な富化スコアを推定する為に、本発明者等は、10mbよりも近いマージ区間をグループ化し、そして、最大のスケール(この場合には、75kb)を有する区間のzスコア値を最終富化スコアとして取得した。スケール全体でマージされた間隔の各コレクションは、本研究において「コール」(call)として云われる。
PLIERの為のパラメータ最適化(すなわち、トレーニング段階):PLIERの為の最適なパラメータを識別する為に、本発明者等は3つのリンパ腫(「陽性」)サンプルと3つの対照(「陰性」)サンプルの6つのFFPE-TLCサンプルのコレクションを使用した。具体的には、FISH(ゴールドスタンダード)に基づき、それぞれBCL2、BCL6又はMYCにおいて単一の再配置を有し、他の2つの遺伝子に再配置がないと予想される3つのリンパ腫サンプル(すなわちF73、F37及びF50)が含まれていた。他の3つの「陰性」データセット(すなわちF29、F30及びF33)は、3つの遺伝子のいずれにおいても再配置がないと予想される対照データセットであった。BCL2、BCL6及びMYCの3つの遺伝子については、本発明者等は臨床/診断用のFISHデータしか持ち合わせていなかった為に、最適化を制限した。本発明者等はまた、3つのリンパ腫サンプル(すなわち、F73、F37及びF50)の希釈(すなわち、5%、1%及び0.2%)実験を最適化手順に含めた。まとめると、本発明者等は、PLIERが再配置を識別するはずの12件の陽性事例(元の患者3名と、各患者の追加の3つの希釈サンプル)(すなわち、「真陽性」セット)、及びPLIERがゲノム上の再配置を識別しないはずの33件の陰性事例(各3遺伝子の対照と12個のリンパ腫サンプルにおける2つの非再配置遺伝子)(すなわち、「真陰性」セット)を有した。正しく識別された再配置とは別に、ゲノム全域の陽性事例において見つけられた何らかの余分な再配置が「偽陽性」再配置とみなされた。性能尺度としては陽性事例よりも多い陰性事例を本発明者等は有している可能性があるので(すなわち、クラス頻度が不均衡)、本発明者等は、曲線下面積(Area Under the Curve)の代わりにPR下の面積(AUC-PR:Area Under Precision Recall)を使用した。
PLIERの統計的枠組みの効果的な性能の為に、幾つかのパラメータが最適に定義される必要がある。本発明者等は、University Medical Center Utrechtのハイパフォーマンスコンピューティング(HPC:High Performance Computing)を用いて大規模なパラメータスイープを行って、PLIERの為に最適なパラメータを識別した。これらのパラメータは、下記を含む:ガウス平滑化度(Gaussian smoothing degree)(σ=0.1,0.25,0.5,0.75,1.0,1.5,2.0,2.5,3.0,3.5,4.0)、ガウスカーネルスパンゲノミックインターバルナンバー(Gaussian kernel span genomic interval number)(#ステップ=11,21,31,41,51,61)及びゲノム区間幅(幅=5kb,10kb,25kb,50kb,62kb,75kb,100kb)。また、区間幅については、本発明者等はまた、複数の区間幅を組み合わせることで(すなわち、スケール不変の富化スコア)、より良いパフォーマンスが得られるかどうかを検証した。加えて、マージされた区間のz-スコア(すなわち、互いに1mb近傍以内の区間)がどのようにマージされるべきかを識別する為に、最大値、90パーセンタイル、及び中央値を有する演算子で実験することを考慮した。
パラメータスイープの後、本発明者等は、PLIERの最適なパラメータとして、ガウス平滑化σ=0.75,ガウスカーネルスパン #ステップ=31、区間幅=5kb+75kb(すなわち、両方のz-スコアが5.0よりも上)、及び隣接(<1mb)区間のz-スコアの90パーセンタイルが、最終のz-スコアとして統合されることを識別した。最後に、有意に富化されたコールを考慮する為に、有意閾値を推定する必要があった。偽発見率(FDR:False Discovery Rate)の最大値を1%に設定することによって、本発明者等は、トランスインターバルの富化スコアの為の最適な有意閾値として8.0の有意に到達した。計算機の制約及び診断データの制限された利用可能性の故に、BCL2、BCL6及びMYCのトランスインターバルに対してのみPLIERパラメータを最適化した。次に、本発明者等は、本研究における他の遺伝子(すなわち、IGH、IGL及びIGK)のトランスインターバルに対して、これらのパラメータを(更なる最適化無しで)使用した。本発明者等の研究における全ての遺伝子のシスインターバルに対して、本発明者等は、有意の閾値を除いて、再び前述されたパラメータを使用した。これらのコールの為に、本発明者等は、より高い有意閾値(すなわち、>16.0)という保守的なアプローチをとった。PLIERからの各出力コールは、スケール不変の富化スコアが有意閾値を上回った境界を示す2つのゲノム座標で構成されている。
増幅の検出:FFPE-TLCは増幅を識別する為に設計されたものではないが、PLIERによって同一サンプル及び同一領域において異なるプローブセットから識別された反復再配置は、その領域における増幅事象を示唆する。そこで、本発明者等は、本発明者等の研究において、相対的に広い領域がプローブされている3つの主要遺伝子(すなわち、MYC、BCL2及びBCL6)に着目した(詳細は図18を参照)。各サンプルについて、発明者等は、特定の再配置(すなわち、同じ領域における再配置)が複数の遺伝子から報告されているかどうかを尋ねた。PLIERによって識別されたそのような増幅の例が図9Eに描かれている。注目すべきは、リンパ腫サンプルが、IGH領域に特異的なダブルヒット再配置(例えば、BCL2及びMYC)を潜在的に保有する可能性があることである。発明者等は、そのような再配置を増幅イベントとしてコールすることを避ける為に増幅検出解析からIGH領域への呼び出しを除外した。
ブラックリスト化された領域:本発明者等は、本発明者等のIGL及びIGKのプローブセットが、ゲノムにおける特異的領域を繰り返し識別する傾向があることに注目した。本発明者等は、再配置がないと予想される本発明者等の対照サンプルにおいてさえも、そのようなコールを観察した。特に、本発明者等のIGLプローブセットは、ヒト(hg19)ゲノムのchr9:131.5-132.5mbを頻繁に識別し、及び本発明者等のIGKプローブセットは、ヒト(hg19)ゲノムのchr22:22-24mb領域を頻繁に識別した。chr22:22-24mbの領域はIGL遺伝子を有し、それ故に、そのようなコールは更に調査する為に興味深い可能性があることは言うまでもない。しかしながら、本発明者等は、対応するIGLの視点が、IGKを相互に識別していないことに注目した。結果として、本発明者等は、富化スコアの上昇の原因が、IGLとIGKとの配列の高い類似性がマッピング手順の際にミスアラインメントを引き起こすことが原因であると考えた。まとめると、本発明者等は、両方の領域はそれぞれIGKプローブ及びIGLプローブの標的外結合とみなし、並びにこれらの2つのプローブセットによってこれらの領域において確認された再配置は無視した。
融合リードの識別:所与のFFPE-TLCデータセット(例えば、MYC)において融合リードを識別する為に、本発明者等は、スプリットアラインメント(split-alignments)(すなわち、ゲノムの複数の領域にマッピングされた個々のリード配列)を収集した。次に、FFPE-TLCにおける酵素消化を参照する該スプリットアラインメントが、ゲノム内の制限酵素認識部位(+/-塩基対)で融合するスプリットアラインメントを破棄することによってフィルタリングした。(PLIERによって識別された)再配置座標で生じるスプリットアラインメントがIGVで手動チェックされて、リード融合の存在を確認した。
融合リードのマッピング可能性:該融合リードから識別された切断部位座標がマッピング解析において使用され、参照ゲノムから対応する配列を抽出した。151bp(配列決定リード長に等しい)の合計347個の配列において、切断部位の上流及び下流が参照ゲノムから抽出された。これら347個の配列がblastn(設定:-perc_identity 80-dust no-evalue 0.1)を用いて、20~151個の異なる配列長で、1bpの工程サイズを用いてアライメントした。該Blastの結果が解析され、各長さで完全にヒットした配列を数えた。正確に1つヒットした場合には、その配列はユニークとみなされ、複数ヒットした場合にはその配列は非ユニークとみなされる。非ユニーク配列の割合が棒グラフでプロットされた。
サンプルF189におけるchrXへの240bpのchr8挿入の確認:対照DNAとサンプルF189から単離されたDNA(Nebnext Q5 mix,NEB)において、chrX上の挿入に隣接する最初のPCR用の2つのプライマー(Fwd:ATTTTGATCGGCTTAGACCA,Rev:GGTTGATCAAAGCCAGTC)とネステッドPCRの為の2つのプライマー(Fwd:GTCCAGCTTTGTCCTGTATT,Rev:GTCATGGCTGGTCAAGATAG。PCR産物がアガロースゲルにおいて分けられ、サンプルF189のみ予想通りのサイズの挿入産物が形成されていた(データは示されていない)を用いて2x20サイクルのネステッドPCR(nested PCR)が行われた。更なる確認の為、一次PCR産物が同じネステッドPCRにおいて増幅されたが、今度はIllumina配列決定アダプターとインデックス配列(Fwd:GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGTCCAGCTTTGTCCTGTATT,Rev:ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCATGGCTGGTCAAGATAG)に付された。
データの入手可能性:本研究において使用された全ての配列決定データが、参照ゲノム(hg19)にマッピングされ、並びにEuropean Genome-phenome Archiveを通じて入手可能である。
補足材料及び方法:捕捉-NGS
DNAの単離、ライブラリーの調製、及び配列決定:DNAが、QIAamp DNA FFPE Tissue Kit(Qiagen,Hilden,Germany)を用いて3~10x10μmのFFPE切片から製造者のプロトコルに従って抽出された。末梢血DNAが、QIAamp Blood Mini Kit(Qiagen,Hilden,Germany)を用いて製造元のスピンプロトコルに従って抽出された。分けられたDNAはQubitBRキット(Thermo Fisher Scientific,Carlsbad CA,USA)を用いてQubit 2.0 Fluorometerで定量され、総量130μl中、250~800ngがCovaris S2又はME220(Covaris Inc,Woburn MA,USA)を用いてCovaris S2では1バースト200サイクルで平均180~220bp,1000サイクルで3分かけて平均250~300bpのサイズでフラグメント化された。DNA濃度とフラグメント化プロファイル/サイズ分布が、Agilent DNA 1000 kit (Agilent Technologies,Santa Clara,CA)を用いて、2100バイオアナライザーで測定された。250ngの180~220又は250~300bpのフラグメント化されたDNAが使用されて、KAPAライブラリー調製キット(KAPA Biosystems,Wilmington MA,USA)を用いてNGSライブラリーが作成された。すなわち、DNA末端が修復され(20℃、30分)、シングルA-tailがライゲーションされた(30℃、30分)。その後、一意にインデックス付けされたアダプター(Roche Nimblegen,MadisonWI,USA;IDT,Coralville IA,USA)が一晩(16℃)ライゲーションされ、その後、サイズ選択が行われ、250~450bpの間のフラグメントが保持されるようにした。DNAは7サイクルのポリメラーゼ連鎖反応(PCR)によって増幅された。作成されたDNAライブラリーのアリコートが標的化捕捉に供された。NimbleGen design software(Roche)が用いられて捕捉パネルが設計された。捕捉パネルは、変異解析の為に約350の遺伝子のエクソン(~1.5Mb)、転座解析の為に複数の染色体領域(遺伝子、イントロン、遺伝子間領域を含む;~1.5Mb)をカバーする(Roche order ID 0200204534,ID 43712,及びID 1000002633)。捕捉がNimbleGenEZ SeqCap library protocol V5.1(Roche Nimblegen,MadisonWI,USA)に従って行われた。1回の捕捉につき、8個のライブラリーのDNAが1つのチューブに等モルでプールされ、合計1μgのDNAとされたた。プローブのハイブリダイゼーションが47℃で一晩行われた。該プールは14回のPCRサイクルで増幅された。3つのプールが等モルでプールされ、1つのシーケンスレーンにロードされ、そして、HiSeq 2500又は4000それぞれで125bp又は150bpのペアエンドで配列決定された。
シーケンスリードのアライメント:NGSリードはBcl2fastq(Illumina)でデマルチプレックスされた。アダプター及び貧弱な品質の塩基がSeqPurge(-min len 20;v0.1-104)でトリミングされた。BWA mem(-M -R;v0.7.12)が用いられてヒト参照ゲノム(hg19)に対してアライメントが行われた(Heng 2013)。ABRA(v0.96)でのリード再アラインメント(Mose et al.2014)が、アラインメント精度を向上させる為に使用された。該アライメントされたbamファイルが、Sambamba(v0.5.6)でのクエリ名でソートされ、そして、重複リードが、ASSUME SORTORDER=querynameを設定することを使用して、PicardtoolsMarkDuplicates(v2.4.1)でフラグ付けされた。この設定は、一次配列の重複に加えて、二次配列の重複もマーク付けする為に必要である(Tarasov et al.2015;'Picard tools')。次に、リードが、データ解析パイプラインの残りの部分との互換性の為に座標によってソートされた(Sambamba)。
構造変異体解析:転座、逆位、欠失、挿入、重複を包含する構造変異体の解析の為のパイプライン部分が、ワークフロー管理システムであるSnakemake (Koster and Rahmann 2012)において生成された。高い感度及び特異性を得る為に、4つの転座検出アルゴリズムが組み合わされていた:BreaKmer(v.0.0.4)(Abo et al.2015)、GRIDSS(v.1.4.2)(Cameron et al.2017)、NovoBreak(v.1.1.3)、及びWham(v.1.1.3)(Kronenberg et al.2015)。これらは、以下の基準で選定された。1.転座の検出が可能であること、2.2.短い挿入サイズを有するペアエンドのIllumina配列決定データで動作する、3.3.標的化された配列決定データで使用可能であること、4.4.文書化が可能であること、5.5.少なくとも2017年までメンテナンスされていること、BreaKmer、GRIDSS及びnovoBreakはデフォルトの設定で実行された。Whamは、mapping quality 10 (-p)及びbase quality 5 (-q)で実行された。BreaKmerとの互換性を保つため、bamファイルから染色体-接頭語(chromosome-prefix)が削除された。BreaKmerは、転座検出の為に、関心のある領域を含むターゲットベッドファイル(target bed file)を必要とし、アセンブリ時間を短縮する為に、より高い精度を得る為に、転座ターゲットがターゲットベッドファイル内で5kbの領域に分割された。
これらのツールの出力を組み合わせることができるように、該出力がツール間で比較できるようにR(v.3.4.1)で変換され、そして、遺伝子アノテーションが追加された。ノイズを除去する為に、フィルターが適用された。その後の順序で、以下のSVがデータから削除された:
両方の切断部位がオフターゲットで、捕捉プローブの位置から300bp以上外れたSV;
同じツールで検出された全く同じ切断部位を有する重複SV;
ツールに設定された閾値を満たしていないSV。BreaKmerの場合は、少なくとも4本のスプリットリードと3本の不一致リード、Whamの場合は少なくとも8本のリード(不一致リードとスプリットリードの合計)、GRIDSSは450以上の品質スコア、novoBreakは少なくとも4本の高いマッピング品質の転座リードの平均カバレッジを必要とする;
4つのツールのSV出力が一緒にされ、そして1つのツールで検出されたSVのみを削除した。従って、少なくとも2つのツールによって認識されたSVのみが含まれていた。それ故に、10bpのマージン内にある切断部位は同一のSVであるとみなされた。
ブラックリスト:試験の結果、複数のSVがしばしば繰り返されることがわかった。インテグレイティブ・ゲノム・ビューアー(IGV:integrative genome viewer)においてこれらの事象を手動で検査した結果、これらのSVは異なる起源を持つアーティファクトであることが分かった。これらのSVの一部は、ゲノム中の高度に反復的な領域の結果であり、他のものは、部分的に相同な領域によってもたらされたものであった。更に、幾つかの一般的な生殖細胞系列のSV、特に小さなインデル(indels)、がデータにおいて検出された。これらの問題のある領域を出力から取り除く為に、25個の非腫瘍サンプル(12個の血液サンプル、4個のFFPE過形成リンパ節、6個のFFPE反応性リンパ節、3個のFFPE上皮組織)のパネルに基づいてブラックリストが作成された。これらの25個のサンプルについて、SV検出は、全く同じDNA、分離、調製、配列決定、及び選択した4つの検出ツールに同じ設定で従って実施された。少なくとも2つの非腫瘍サンプルで10bpのマージン内で検出された共通の切断部位位置は、Bed-tools multi-inter(v0.2.17)を使用してブラックリストに追加された。ブラックリストに登録された50bp未満の領域は、Bedtools mergeで1つの領域にマージされた。ブラックリストに載った領域内に切断部位の1つがあるSVは、SV検出の出力から削除された。残ったSVはIGVにおいて手動で検査された。

Claims (26)

  1. 複数のDNAリードのデータセットを使用して、関心のあるゲノム領域に関与する染色体再配置を検出する方法であって、ここで、前記データセットは、関心のあるゲノム領域に核近接するゲノムフラグメントを表す複数のDNAリードを含み、前記方法が、
    観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、関心のあるゲノム領域に核近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つのDNAリードの前記データセットにおける存在を示す;
    予想される近接性スコアを、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
    前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)
    を含む、前記方法。
  2. 前記予想される近接性スコアを、前記少なくとも1つのゲノムフラグメント割り当てること(102)が、
    複数の関連する近接性スコアを、複数の関連するゲノムフラグメントの前記観察された近接性スコアに基づいて決定すること(303)、ここで、前記関連するゲノムフラグメントは、選択基準の1組に従って前記少なくとも1つのゲノムフラグメントに関連する;及び
    前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアを、前記複数の関連する近接性スコアに基づいて決定すること(304)
    を含む、請求項1に記載の方法。
  3. 前記複数の関連する近接性スコアを決定すること(303)が、
    前記観察された近接性スコアの複数の順列を生成し(401)、それによって、前記複数のゲノムフラグメントのそれぞれのゲノムフラグメントの対応する複数の順列化され観察された近接性スコアを識別すること、ここで、順列を生成することが、選択基準の前記1組に従って、互いに関連しているランダムに選択されたゲノムフラグメントの前記観察された近接性スコアをスワッピングすることを含む
    を含む、請求項2に記載の方法。
  4. 前記少なくとも1つのゲノムフラグメントの各関連する近接性スコアを決定すること(303)が更に、順列内の前記少なくとも1つのゲノムフラグメントのゲノム近傍における前記ゲノムフラグメントの前記順列化され観察された近接性スコアを集約して(402)、各順列についての前記ゲノムフラグメントの集約され順列化され観察された近接性スコアを得ることを更に含む、請求項3に記載の方法。
  5. 前記方法が、前記少なくとも1つのゲノムフラグメントの前記ゲノム近傍における前記ゲノムフラグメントの前記観察された近接性スコアを集約して(101a)、前記少なくとも1つのゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、
    ここで、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの指標を生成すること(103)が、前記少なくとも1つのゲノムフラグメントの前記集約され観察された近接性スコアと前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアとに基づいて行われる、請求項4に記載の方法。
  6. 前記方法が、各ゲノムフラグメントの前記ゲノム近傍における前記ゲノムフラグメントの前記観察された近接性スコアを集約して(101a)、各ゲノムフラグメントの集約され観察された近接性スコアを得ることを更に含み、
    ここで、前記順列が、各ゲノムフラグメントの前記集約され観察された近接性スコアに基づいて生成され(401)、及び
    ここで、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているか否かの前記指標を生成すること(103)が、前記少なくとも1つのゲノムフラグメントの前記集約され観察された近接性スコア及び前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて行われる、請求項5に記載の方法。
  7. 前記近接性スコアを集約すること(101a)、前記予想される近接性スコアを割り当てること(102)、及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与している前記可能性の指標を生成すること(103)の工程が、複数の異なるスケール(501)について反復され(502)、ここで、各反復(101a’,102’,103’)において、前記ゲノム近傍のサイズが前記スケールに基づく、請求項5又は6に記載の方法。
  8. 前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアを決定すること(304)が、前記少なくとも1つのゲノムフラグメントの前記複数の関連する近接性スコアを組み合わせて、例えば平均及び/又は標準偏差を決定することを含む、請求項1~7のいずれか1項に記載の方法。
  9. 前記観察された近接性スコアを、前記複数のゲノムフラグメントそれぞれに割り当てること(101)が、
    観察された近接頻度を、1つのゲノムの複数のゲノムフラグメントに割り当てること(201)、ここで、前記観察された近接頻度は、前記対応する1つのゲノムフラグメントの少なくとも1つのDNAリードの前記データセットにおける存在を示す;及び、
    各ゲノムフラグメントのゲノム近傍における前記観察された近接頻度を組み合わせることによって、例えば前記観察された近接頻度をビンニングによって、各観察された近接性スコアを計算すること(202)、好ましくは、ここで、前記観察された近接頻度は、前記ゲノムフラグメントに対応する前記DNAリードが前記データセット中に存在するか否かを示すバイナリ値、又は前記データセット中の前記ゲノムフラグメントに対応する複数のDNAリードの数を示す値を含む、
    を含む、請求項1~8のいずれか1項に記載の方法。
  10. 前記複数のDNAリードのデータセットを用意することが、
    a.参照ゲノム中の前記関心のあるゲノム領域を決定すること;
    b.近接ライゲーションアッセイを実行して、ライゲーションされた複数の近接フラグメントを生成すること;
    c.前記ライゲーションされた近接フラグメントを配列決定すること;
    d.前記配列決定されライゲーションされた近接フラグメントを参照ゲノムにマッピングすること;
    e.前記関心のあるゲノム領域にマッピングされた配列を含むところの前記配列決定されライゲーションされた複数の近接フラグメントを選択すること;及び、
    f.前記選択され配列決定されライゲーションされた複数の近接フラグメントのうちの少なくとも1つの近接フラグメントにおいて、前記関心のあるゲノム領域にライゲーションされたゲノムフラグメントを検出すること
    を含む、請求項1~9のいずれか1項に記載の方法。
  11. 前記ゲノムフラグメントに関連する前記複数の関連するゲノムフラグメントを識別する為の選択基準の前記1組が、
    a.関連するゲノムフラグメント候補が、参照ゲノムにおいて、前記関心のあるゲノム領域をまた有する同じ染色体にシスで局在化しているかどうか;
    b.前記関連するゲノムフラグメント候補が、前記参照ゲノムにおいて、前記関心のあるゲノム領域をまた有する前記同じ染色体の特定の部分にシスで局在化しているかどうか;及び、
    c.前記関連するゲノムフラグメント候補が、前記参照ゲノムにおいて、前記関心のあるゲノム領域を有しない染色体にトランスに局在化しているかどうか
    のうちの少なくとも1つを含む、請求項2~10のいずれか1項に記載の方法。
  12. 前記ゲノムフラグメントに関連する前記複数の関連するゲノムフラグメントを識別する為の選択基準の前記1組が、
    i.前記関連するゲノムフラグメント候補が、核近接アッセイによって決定される場合に、前記関心のあるゲノム領域と同じ活性又は不活性の三次元核コンパートメント(例えば、A又はBのコンパートメント)のゲノム部分に局在化しているかどうか;
    ii.前記関連するゲノムフラグメント候補が、例えば所定のヒストン修飾のゲノム分布を解析するエピジェネティックプロファイリング法によって決定される場合に、前記関心のあるゲノム領域と同じ又は類似のエピジェネティッククロマチンプロファイルを有するところのゲノム部分に局在するかどうか;
    iii.前記関連するゲノムフラグメント候補が、転写プロファイリング法によって決定される場合に、関心のあるゲノム領域と同様の転写活性を有するところのゲノム部分に局在化しているかどうか;
    iv.前記関連するゲノムフラグメント候補が、複製タイミングプロファイリング法によって決定される場合に、前記関心のあるゲノム領域と類似の複製タイミングを有するところのゲノム部分に局在化しているかどうか;
    v.前記関連するゲノムフラグメント候補が、前記関心のあるゲノム領域として実験的に作成されたフラグメントの関連する密度を有するところのゲノム部分に局在化しているかどうか;及び、
    vi.前記関連するゲノムフラグメント候補が、前記関心のあるゲノム領域として、マップ可能でないフラグメント又はフラグメント末端の関連する密度を有するところのゲノム部分に局在化しているかどうか
    のうちの少なくとも1つを含む、請求項2~11のいずれか1項に記載の方法。
  13. 前記複数の関連するゲノムフラグメントを識別する為の選択基準の前記1組が、前記関連するゲノムフラグメント候補の前記近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含み、好ましくは、ここで、前記少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの前記可能性の指標を生成することが、
    前記関連するゲノムフラグメント候補の前記近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を除く選択基準の1組を使用して、前記少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの前記可能性の第1の指標を生成すること;
    前記関連するゲノムフラグメント候補の前記近接性スコアが複数のDNAリードのゼロでない数を示す値を有するという要件を含む選択基準の前記1組を使用して、前記少なくとも1つのゲノムフラグメントが染色体再配置に関連しているところの前記可能性の第2の指標を生成すること;及び、
    前記第1の指標及び前記第2の指標に基づいて、前記少なくとも1つのゲノムフラグメントが染色体再配列に関連しているところの可能性の第3の指標を生成すること
    を含む、請求項1~12のいずれか1項に記載の方法。
  14. コンピュータプログラム製品であって、該コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
    観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、1つのゲノムフラグメントの前記観察された近接性スコアが、前記ゲノムフラグメントに対応する少なくとも1つのDNAリードの前記データセットにおける存在を示し、前記データセットが複数のDNAリードを含み、前記複数のDNAリードが、関心のあるゲノム領域に核近接するゲノムフラグメントを表す;
    予想される近接性スコアを、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値である;及び
    前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)
    を前記プロセッサシステムに行わせる、前記コンピュータプログラム製品。
  15. 関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
    a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
    b.前記関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含むゲノムフラグメントに近接する;
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    c.前記関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する;
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    d.前記関心のあるゲノム領域を有する前記ゲノムフラグメント、又は前記関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、ここで、前記工程d.は、
    観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、前記関心のあるゲノム領域に近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードの前記データセットにおける存在を示す;
    予想される近接性スコアを、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
    前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)、及び前記ゲノムフラグメントを再配置パートナー候補として識別すること
    を含む、
    e.前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントと、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、前記再配置パートナー候補ゲノムフラグメントの線形に離れていることが、前記関心のあるゲノム領域内の染色体切断部位接合部を示す、
    を含む、前記方法。
  16. 関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
    a.DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
    b.前記関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含むゲノムフラグメントに近接している;
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    c.前記関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する;
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    d.前記関心のあるゲノム領域を有する前記ゲノムフラグメント、又は前記関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、
    e.前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントと、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、前記再配置パートナー候補ゲノムフラグメントの線形に離れていることが、前記関心のあるゲノム領域内の染色体切断部位接合部を示す、
    を含む、前記方法。
  17. 前記近接アッセイが、複数のライゲーションされた近接生成物を生成する近接ライゲーションアッセイである、請求項15又は16に記載の方法。
  18. 工程b.がオリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、及び/又は工程c.がオリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、好ましくは、ここで、工程b.が、前記関心のあるゲノム領域の5'領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含み、及び/又は工程c.が、前記関心のあるゲノム領域の3’領域に隣接する配列に少なくとも部分的に相補的である少なくとも1つのオリゴヌクレオチドプローブ又はプライマーを提供することを含む、
    請求項15~17のいずれか1項に記載の方法。
  19. 前記方法が、前記再配置パートナー候補を前記関心のあるゲノム領域内の位置に融合する前記染色体切断部位接合部の位置を決定することを更に含み、
    前記方法が、
    i)前記関心のあるゲノム領域のうちの少なくとも一部と、ii)前記関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、前記近接結合された生成物を配列決定し、そして、前記染色体切断点をマッピングすること、ここで、前記マッピングすることが、I)前記関心のあるゲノム領域のうちの少なくとも第1の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)前記関心のあるゲノム領域のうちの少なくとも第2の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、前記I)及びII)からの前記再配置パートナーゲノムフラグメントは線形に離れており、好ましくは、オリゴヌクレオチドプローブハイブリダイゼーション又はプライマーベースの増幅を実行して、i)前記関心のあるゲノム領域の少なくとも一部及びii)前記関心のあるゲノム領域に近接するゲノムフラグメントを含む近接結合された生成物を富化することを含む、
    請求項15~18のいずれか1項に記載の方法。
  20. 前記方法が、配列決定リードの少なくともサブセットについての行列を生成することを含み、前記行列の一方の軸が、前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、前記再配置パートナー候補の配列位置を表し、ここで、前記行列内の各要素が、前記関心のあるゲノム領域のゲノムフラグメント又は前記関心のある前記領域に隣接するゲノムフラグメントと前記再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、前記行列が、前記配列決定リードを前記行列上に重畳することによって生成され、好ましくは、前記行列が蝶形格子である、請求項15~19のいずれか1項に記載の方法。
  21. 前記方法が、前記切断部位にまたがる1つのゲノム領域の配列を決定することを更に含み、前記方法が、
    i)前記関心のあるゲノム領域の切断部位-近位ゲノムフラグメントとii)再配置パートナーゲノムフラグメントとを含む近接結合された生成物を識別することを含む、請求項15~20のいずれか1項に記載の方法。
  22. 工程d.が、
    観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、前記関心のあるゲノム領域に近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
    予想される近接性スコアを、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
    前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)、及び前記ゲノムフラグメントを再配置パートナー候補として識別すること
    を含む、請求項16~21のいずれか1項に記載の方法。
  23. 関心のあるゲノム領域内の位置に再配置パートナー候補を融合する染色体切断部位接合部の存在を確認する方法であって、
    関心のあるゲノム領域を定義すること;
    DNAを含むサンプルにおいて近接アッセイを実行して、複数の近接結合された生成物を生成すること;
    前記関心のあるゲノム領域の5’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する、
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    前記関心のあるゲノム領域の3’末端に隣接する配列を含むゲノムフラグメントを含むところの近接結合された生成物を富化すること、ここで、前記近接結合された生成物は更にゲノムフラグメントを含み、該ゲノムフラグメントは、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する、
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    i)前記関心のあるゲノム領域のうちの少なくとも一部と、ii)前記関心のあるゲノム領域に近接するゲノムフラグメントとを含む近接結合産物を富化すること、
    前記近接結合された生成物を配列決定して、配列決定リードを生成すること、
    前記関心のあるゲノム領域に近接する前記ゲノムフラグメントの前記配列を参照配列にマッピングすること;
    前記関心のあるゲノム領域を有する前記ゲノムフラグメント、又は前記関心のあるゲノム領域に隣接する配列を含むゲノムフラグメントの近接頻度に基づいて、少なくとも1つのゲノムフラグメントを再配置パートナー候補として識別すること、好ましくは、該識別することが、
    観察された近接性スコアを、1つのゲノムの複数のゲノムフラグメントそれぞれに割り当てること(101)によって、ここで、各ゲノムフラグメントの前記観察された近接性スコアが、前記関心のあるゲノム領域に近接し且つ前記ゲノムフラグメントに対応する1つの配列を含む少なくとも1つの配列決定リードのデータセットにおける存在を示す;
    予想される近接性スコアを、前記複数のゲノムフラグメントの前記観察された近接性スコアに基づいて、前記複数のゲノムフラグメントのうちの少なくとも1つのゲノムフラグメントのそれぞれに割り当てること(102)によって、ここで、前記予想される近接性スコアは、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記近接性スコアの予想された値を含む;及び
    前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントが染色体再配置に関与しているところの可能性の指標を、前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記観察された近接性スコア及び前記複数のゲノムフラグメントのうちの前記少なくとも1つのゲノムフラグメントの前記予想される近接性スコアに基づいて生成すること(103)、及び前記ゲノムフラグメントを再配置パートナー候補として識別することによって
    行われる;
    前記関心のあるゲノム領域の前記5’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントと、前記関心のあるゲノム領域の前記3’末端に隣接する配列を含む前記ゲノムフラグメントに隣接する前記再配置パートナー候補のゲノムフラグメントとが重なり合っているか又は線形に離れているかを判定すること、ここで、前記再配置パートナー候補ゲノムフラグメントの線形に離れていることが、前記関心のあるゲノム領域内の染色体切断部位接合部を示す;
    染色体切断部位の前記位置をマッピングすることであって、前記マッピングすることが、I)前記関心のあるゲノム領域のうちの少なくとも第1の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物、及びII)前記関心のあるゲノム領域のうちの少なくとも第2の部分と前記再配置パートナーのゲノムフラグメントとを含む近接結合された生成物を検出することを含み、ここで、前記I)及びII)からの前記再配置パートナーゲノムフラグメントは線形に離れている、
    前記方法。
  24. 関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出する為のコンピュータプログラム製品であって、前記コンピュータプログラム製品がコンピュータ可読命令を含み、該コンピュータ可読命令が、プロセッサシステムによって実行される場合に、
    配列決定リードの少なくともサブセットについての行列を生成すること、ここで、前記配列決定リードが近接結合された生成物の配列に対応し、前記製品が、前記関心のあるゲノム領域からのゲノムフラグメント、又は関心のある前記領域に隣接するゲノムフラグメントを含み、ここで、近接結合された生成物の少なくともサブセットが再配置パートナー候補のゲノムフラグメントを含み、ここで、前記行列の一方の軸が、前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表し、並びに他方の軸が、前記再配置パートナー候補の配列位置を表し、ここで、前記行列内の各要素が、前記関心のあるゲノム領域のゲノムフラグメント又は前記関心のある前記領域に隣接するゲノムフラグメントと前記再配置パートナーからのゲノムフラグメントとを含む同定された1つの近接結合された生成物の頻度を表すように、前記行列が、前記配列決定リードを前記行列上に重畳することによって生成される、及び
    前記行列を検索して前記ゲノムセグメントの近接頻度で前記再配置パートナー候補から遷移することを示す、前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の複数の座標を検出すること
    を前記プロセッサシステムに行わせる、前記コンピュータプログラム製品。
  25. 前記プロセッサシステムが前記行列を探索して、前記行列のうちの少なくとも一部を4つの四分円へと分割し、隣接する複数の四分円間の頻度差が最大となり、且つ対向する四分円間の差が最小化されるところの前記関心のあるゲノム領域に隣接する前記関心のあるゲノム領域及び/又は前記関心のあるゲノム領域に隣接する領域の配列位置を表す軸上の該1以上の座標を検出し、好ましくは、ここで、前記プロセッサシステムが、
    識別された4つの四分円を比較し、及び
    2つの対向する四分円が最小の頻度差を示し且つ隣接する四分円が最大の頻度差を示す場合に、相互再配置をもたらすものとして前記染色体切断部位を分類し、又は、1つの四分円が他の3つの四分円と比較して最大の頻度差を示す場合に、非相互再配置をもたらすものとして前記染色体切断部位を分類する、
    請求項24に記載のコンピュータプログラム製品
  26. 請求項24~25のいずれか1項に記載のコンピュータプログラム製品を使用して、関心のあるゲノム領域内の位置に再配置パートナーを融合する染色体切断部位を検出することを含む、請求項15~23のいずれか1項に記載の方法。
JP2022564377A 2020-04-23 2021-04-23 染色体近接実験における構造的変異検出 Pending JP2023523002A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP20171092.8 2020-04-23
EP20171092 2020-04-23
EP20205208.0 2020-11-02
EP20205208 2020-11-02
PCT/NL2021/050268 WO2021215927A1 (en) 2020-04-23 2021-04-23 Structural variation detection in chromosomal proximity experiments

Publications (1)

Publication Number Publication Date
JP2023523002A true JP2023523002A (ja) 2023-06-01

Family

ID=75747006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022564377A Pending JP2023523002A (ja) 2020-04-23 2021-04-23 染色体近接実験における構造的変異検出

Country Status (8)

Country Link
US (1) US20230170042A1 (ja)
EP (1) EP4139483A1 (ja)
JP (1) JP2023523002A (ja)
KR (1) KR20230016627A (ja)
CN (1) CN115803447A (ja)
AU (1) AU2021258994A1 (ja)
CA (1) CA3174973A1 (ja)
WO (1) WO2021215927A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114512183B (zh) * 2022-01-27 2022-09-20 北京吉因加医学检验实验室有限公司 一种预测met基因扩增或多倍体的方法及装置
WO2023172882A2 (en) * 2022-03-07 2023-09-14 Arima Genomics, Inc. Methods and compositions for identifying structural variants
CN116434837B (zh) * 2023-06-12 2023-08-29 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0806565A2 (pt) 2007-01-11 2014-05-06 Erasmus University Medical Center Captura de conformação de cromossomo circular
KR102218512B1 (ko) * 2010-05-25 2021-02-19 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 Bambam:고처리율 서열분석 데이터의 병렬 비교 분석
EP3031929A1 (en) * 2014-12-11 2016-06-15 Mdc Max-Delbrück-Centrum Für Molekulare Medizin Berlin - Buch Genome architecture mapping
US11485996B2 (en) * 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing

Also Published As

Publication number Publication date
US20230170042A1 (en) 2023-06-01
AU2021258994A1 (en) 2022-11-03
WO2021215927A1 (en) 2021-10-28
CA3174973A1 (en) 2021-10-28
KR20230016627A (ko) 2023-02-02
EP4139483A1 (en) 2023-03-01
CN115803447A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
US20220195530A1 (en) Identification and use of circulating nucleic acid tumor markers
TWI661049B (zh) 使用不含細胞之dna片段大小以測定複製數變異之方法
KR102638152B1 (ko) 서열 변이체 호출을 위한 검증 방법 및 시스템
CN110520542A (zh) 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用
JP2023523002A (ja) 染色体近接実験における構造的変異検出
WO2019125864A1 (en) Machine learning system and method for somatic mutation discovery
US20190309352A1 (en) Multimodal assay for detecting nucleic acid aberrations
WO2016154584A1 (en) Alignment and variant sequencing analysis pipeline
CN108138230A (zh) 用于捕获融合基因的锁核酸
WO2020243722A1 (en) Methods and systems for improving patient monitoring after surgery
JP2022505050A (ja) プーリングを介した多数の試料の効率的な遺伝子型決定のための方法および試薬
US20220228219A1 (en) Target-enriched multiplexed parallel analysis for assessment of tumor biomarkers
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
CN114616343A (zh) 用于在甲基化分区测定中分析无细胞dna的组合物和方法
CN116631508B (zh) 肿瘤特异性突变状态的检测方法及其应用
JP2023526252A (ja) 相同組換え修復欠損の検出
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
EP3409788B1 (en) Method and system for nucleic acid sequencing
CN112970068A (zh) 用于检测样品之间的污染的方法和系统
WO2024050386A2 (en) Methods and reagents for detection of circular dna molecules in biological samples
JP2023524681A (ja) 分配された核酸を使用した配列決定のための方法
CN118248319A (en) Thyroid nodule benign and malignant auxiliary diagnosis system based on combination of genome variation and abnormal expression
Cradic Next Generation Sequencing: Applications for the Clinic

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240213