JP2022528728A - 単一細胞遺伝的構造変異の包括的検出 - Google Patents

単一細胞遺伝的構造変異の包括的検出 Download PDF

Info

Publication number
JP2022528728A
JP2022528728A JP2021560077A JP2021560077A JP2022528728A JP 2022528728 A JP2022528728 A JP 2022528728A JP 2021560077 A JP2021560077 A JP 2021560077A JP 2021560077 A JP2021560077 A JP 2021560077A JP 2022528728 A JP2022528728 A JP 2022528728A
Authority
JP
Japan
Prior art keywords
cell
strand
cells
sequence
single cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021560077A
Other languages
English (en)
Inventor
コーベル,ヤン
サンダース,アシュレイ
マイヤー,サッシャ
ポルブスキー,デヴィット
ガレガニ,マルヤム
マーシャル,トビアス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Europaisches Laboratorium fuer Molekularbiologie EMBL
Universitaet des Saarlandes
Original Assignee
Europaisches Laboratorium fuer Molekularbiologie EMBL
Universitaet des Saarlandes
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Europaisches Laboratorium fuer Molekularbiologie EMBL, Universitaet des Saarlandes filed Critical Europaisches Laboratorium fuer Molekularbiologie EMBL
Publication of JP2022528728A publication Critical patent/JP2022528728A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本発明は、シーケンスリード深度、リードストランド配向およびハプロタイプフェーズの3層情報を統合することにより、単一細胞のゲノム内または単一細胞の集団内の構造変異(SV)を検出する方法を提供する。本発明の方法は、欠失、重複、倍数体、転座、逆位、およびコピー数に変化のないヘテロ接合性の喪失(CNN-LOH)などを検出することができる。本発明の方法は、ゲノムを包括的に完全に核型分析することができ、研究および臨床的アプローチに適用することができる。例えば、本発明の方法は、胚の異常を検出するための生殖医療、または養子T細胞療法他などの遺伝子操作された細胞の品質管理への細胞療法に基づく治療アプローチ中の、診断または診断を支援するための患者の細胞サンプルの分析に有用である。本発明は、細胞モデル(細胞株)、患者サンプルの核型を解読するため、またはゲノム内の任意のSVの生成につながる遺伝的および機構的経路をさらに解明するための研究にさらに適用され得る。

Description

本発明は、配列決定(シーケンス)リード深度(sequencing read depth)、リード鎖(ストランド)配向(readstrand orientation)およびハプロタイプフェーズ(haplotype phase)の3層情報を組み込むことによって、単一細胞若しくは単一細胞の集団のゲノム内の構造変異(structural variations:SV)を検出するための方法を提供する。本発明の方法は、欠失、重複、倍数体、転座、逆位、およびヘテロ接合性(heterozygosity)のコピー数ニュートラルロス(コピー数に変化のないヘテロ接合性の喪失)(CNN-LOH:copy number neutral loss of heterozygosity)などを検出することができる。本発明の方法はゲノムを完全に核型分析(karyotype)することができ、研究および臨床アプローチに適用することができる。例えば、本発明の方法は診断または診断の補助のために、胚性異常を検出するための生殖医療において、または養子T細胞療法などにおける遺伝子操作された細胞を品質管理するための細胞療法に基づく治療アプローチの間に、患者の細胞サンプルを分析するために有用である。本発明の方法はさらに、細胞モデル(細胞株)、患者サンプルの核型(karyotype)を解読するため、またはゲノム内の任意のSVの生成を導く遺伝的および機構的経路をさらに解明するための研究に適用され得る。
構造変異(SV)は、再編成が、DNAセグメントをサイズにおいてメガベースにまで、欠失、重複、逆位または転座させるものであり、多くの疾患に関与する遺伝的変異の主要な源である。最近の方法論的および技術的進歩は、多様なヒト集団におけるSVのカタログ化を可能にした。これらの生殖細胞系列変異体以外にも、ヒト組織が十分な体細胞変異、特にSV(広範な遺伝的不均一性を引き起こすダイナミックかつ高率に生じる変異体クラス)を示すことが次第に明らかになってきている。細胞集団における体細胞SV解析は遺伝的モザイクおよび異常なクローン拡大の研究を容易にし、系統追跡を可能にし、癌との関連において疾患の分類および管理の改善を可能にしうる。しかしながら、SV検出は困難なままであり、転座、逆位、複合SVクラス、細胞倍数性変化および反復領域に生じるSVは、しばしば遺伝的不均一性の状況における検出を困難にしている。
体細胞構造の変異(variation)は、健康および疾病10,2において重要な役割を果たす。例えば、癌は、個々の腫瘍細胞を横切って染色体数および細胞遺伝学的構造において膨大な差異を示す79。がんのSVは動的な形成パターンを示し、ゲノム不安定性の期間に断続的なバーストとして生じることがあり4,5、腫瘍内の不均一性につながる。これらは、いくつかの癌タイプ2,1におけるゲノムドライバー変異(genomic driver alteration)の主要なクラスであり、遺伝子破壊、遺伝子損失または増幅、遺伝子融合、エンハンサーハイジャック(enhancer hijacking)および認識されたトポロジー的に関連するドメイン(topologically-associating domains:TAD)2,5の再編成をもたらすことにより劇的な結果をもたらし得るコピー数異常(CNA)およびコピー均衡型(copy-balanced)SVを含む。最近の研究では脳、皮膚および血液1を含む正常組織においても体細胞性/接合後(post-zygotic)SVが検出されており、これらの変異体は組織機能の低下および/または癌および白血病発症を含む疾患過程の促進を介して健康に影響を及ぼす可能性がある。実際、加齢ドナーの血液中の接合後(post-zygotic)CNAは、白血病、固形腫瘍、および2型糖尿病および冠動脈性心疾患を含む一般的な疾患と関連している。接合後SVは発生初期にも発生し、その結果生じるモザイク現象が遺伝性疾患を引き起こす可能性があり、遺伝カウンセリングおよび遺伝子検査に影響を及ぼす56。その動的性質のため、身体のSVは疾患経過に深刻な影響を及ぼす可能性がある。前立腺がん患者では、アンドロゲン受容体遺伝子座に影響を及ぼす多様なSVクラスが徐々に治療抵抗性につながる可能性がある。さらに、複合SV(すなわちクロモスリプシス:chromothripsis)を生じる断続的なバーストは、先天性免疫障害であるWHIM症候群の自然治癒に関係している。身体のSVが関与する疾患の広範な多様性、その有病率および動的発生は、効率的な検出アプローチを必要とする。単一細胞分析は、個々の細胞まで低い変異対立遺伝子頻度(variant allele frequency:VAF)でのSV検出を可能にし得る15ので、原則として、この目的のために理想的である。しかしながら、数百または数千の細胞にスケーリングする現在の単一細胞方法は、CNAに向けられている16-18。他のSVクラス(転座、逆位および複合SVクラスを含む)は、典型的には広範な疾患プロセスに対するそれらの関連性にもかかわらず、検出ができない。
SVは、生殖細胞系列に発生するものであれ、体細胞性で発生するものであれ、特に同定が困難な種類の変異を意味する。DNAシーケンスのリード(読み込み)の長さをはるかに超えることが多いそれらのサイズのために、現在の検出方法では、部分的には、ペアになった末端(paired-end:ペアードエンド)、リード深度(read-depth)、およびクリップリード若しくはスプリットリード(clippedor split-reads)の解釈を含む間接的な推論に依存する。これらの方法は比較的低いVAF(典型的には≧10% VAF)を有するが、CNAに限定される変異体について追跡することができるリード深度分析(read-depth analysis)を除いて、不均一な状況におけるSV検出のためのそれらの有用性を制限する、信頼できるSVコーリング(バルクシーケンスが使用される場合、約20倍以上)17のための広範なシーケンスカバレッジを必要とする10。比較すると、単一細胞分析は個々の細胞までのSVを検出することを可能にし、SV同時発生(SV co-occurrence)および細胞タイプ特異的SVのパターンの解析を容易にすることができる17。しかしながら、CNA(コピー数異常)は単一細胞において既に日常的に分析されており、大規模実施16ならびに商業的用途(例えば、10Xゲノム「クロム単一細胞CNV溶液」:the 10X Genomics"The Chromium Single Cell CNV Solution")が利用可能になってきているが、単一細胞における均衡型および複合SVなどの追加のSVクラスの検出は重要な課題に直面している:現在入手可能なSV検出方法論がSVの限界点(ブレークポイント)を横切る(traversing)リード(またはリードペア)の同定を必要とし55;これはこのようなアプローチの高いカバレッジ要件、ならびに単一細胞における局在化された対立遺伝子ドロップアウトを含む不均一なカバレッジレベルのために、依然として困難である17。ブレークポイントスパニング(breakpoint-spanning)リードの必要性のために、これらの検出方法は、SVブレークポイントがゲノム中に豊富であり、SVが豊富であること(enrichment)を示す反復領域に存在すると、ブレークダウンする。さらに、アクセス可能なDNAの量を増加させるために使用される全ゲノム増幅(WGA)は、SVに類似し得るリードキメラ(read chimera)19をもたらし得、したがって、コーリングアーチファクト(calling artefact)を導き得る。また、最近の研究はキメラフィルタリングが十分なシーケンスカバレッジと組み合わせて実行可能であることを示している19,20が、数百(または数千)の単一細胞におけるSV検出は膨大なシーケンスコストを必要とし、したがって、まだ履行されていない。さらに、ほとんどの現在の方法は所与の変異体がどのハプロタイプに存在するかを示さず、これはハプロタイプを認識する単一細胞分析57と比較して、減少したコーリングパワー(calling power)をもたらし得る。
当技術分野で知られているのは、ヌクレオシド類似体(BrdU)を用いた複製中に発生期にある(すなわち、非テンプレート)DNAストランドを標識し、続いて非テンプレートストランドを除去し、続いて残りのストランドの短いリードシーケンス(short read sequencing)に基づく技術である、単一細胞/一本鎖ゲノムシーケンス(Strand-seq)である67、21。Strand-seqは以前、姉妹染色分体交換(sister chromatid exchanges)21,71、誤った方向へのゲノムコンティグ(misoriented genomic contigs)21、遺伝性(生殖細胞系)逆位(heritable(germline) inversions)37のマッピング(map)に成功することが示された。さらに最近、Strand-seqが全染色体長ハプロタイプ(wholechromosome-length haplotyping)を可能にし322,72、de novoゲノムアセンブリ(genome assembly)を誘導することが実証された。
したがって、本発明の目的は複雑な遺伝変異、ゲノムおよび染色体内の複雑な構造変異の包括的な検出を容易にし、細胞の染色体安定性(chromosome stability)を定量するための手段および方法を提供することである。
一般に、簡単な説明として、本発明の主な態様は、以下のように説明することができる:
第1の態様において、本発明は、単一細胞トリチャネルプロセシング(single celltri-channel processing:scTRIP)による少なくとも1つの標的染色体領域のシーケンスデータを分析するための方法に関し、それは、少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを提供する工程を含み、ここで、ストランド特異的シーケンスデータは少なくとも1つの単一細胞の標的染色体領域のシーケンスにより得られる多数のストランド特異的シーケンスリードを含み、該シーケンスリードを、または該シーケンスリードが等しくフラグメント化されている場合、そのようなシーケンスリードの各フラグメント化部分を、参照アセンブリ(reference assembly)にアライメント(整列)させ、次いで、任意の所定のウィンドウ(window)において、次のシーケンス情報の3つの層のうちの少なくとも2つを割り当てる:
(i)全シーケンスリードの数、またはその一部(「リード深度:read depth」としても参照);
(ii)フォワード(またはワトソン)シーケンスリードの数、またはその一部、およびリバース(またはクリック)シーケンスリードの数、またはその一部;
(iii)特定のハプロタイプ同一性(haplotype identity)(H1および/またはH2など)が割り当てられたシーケンスリードの数、またはその一部。
第2の態様において、本発明は標的染色体領域における構造変異(SV)を検出する方法に関し、この方法は第1の態様による方法を実施し、さらに、位置順序付けられアライメントされたシーケンスリードのシーケンスデータ内の多数(少なくとも2つ)のウィンドウについて工程(d)を実施することによって構造変異(SV)を同定する工程と、チャネル(i)~(iii)のいずれか1つ、またはすべて、または任意の組合せの情報の普通ではない(unusual)/変更された(altered)/変化した分布(changed distribution)を有する1つ以上のウィンドウを含むサブ領域を、多数のウィンドウ内で同定する工程とを含む。
第3の態様において、本発明は単一細胞または複数の単一細胞の集団を核型分析する(karyotyping)方法に関し、この方法は以下を含む:
(a) 少なくとも1つの単一細胞、または単一細胞の集団の各々の、少なくとも1つの標的染色体領域の、好ましくは完全なゲノムの、ストランド特異的シーケンスデータを提供し、
(b)第1または第2の態様の方法を実行するステップ、
(c)前記単一細胞の標的染色体領域内、又は単一細胞の集団内、のSVの検出
(d)検出されたすべてのSVに基づくin silico核型(karyotype)を得る。
第4の態様において、本発明は対象における疾患を診断する方法に関し、この方法は対象の1つ以上の細胞のストランド特異的シーケンスデータを提供する工程、第1または第2の態様による方法を実施する工程、1つ以上の細胞内で任意のSVを検出する工程、および検出されたSVを参照状態(reference state)と比較する工程を包含し、ここで、対象のサンプルにおける1つ以上のSVの変化した数(number)、型(type)または位置(location)は疾患(例えば、癌)の存在を示した。
第5の態様において、本発明は、単一細胞での、または単一細胞の集団内での、染色体安定性を評価するための方法に関し、前記単一細胞若しくは単一細胞の集団におけるSVの、増加した総数またはある一つのタイプ若しくは複数のタイプの増加した数が、染色体不安定性(chromosomal instability)を示す、前記態様のいずれか1つに記載の方法を実施することを含む方法に関する。
第6の態様では、本発明がコンピュータ上で実行されるときに、本発明の態様または実施態様のいずれかによる方法を実行するようにコンピュータに命令する、コンピュータでリード(読み込み)可能な命令(コンピュータ可読命令)がその上に記憶された、コンピュータ可読命令を備えるコンピュータでリード(読み込み)可能な媒体(コンピュータ可読媒体)に関する。
以下、本発明の構成要素について説明する。これらの要素は特定の実施態様と共に列挙されているが、追加の実施態様を作成するために、任意の方法および任意の数で組み合わせることができることを理解されたい。様々に記載された例および好ましい実施態様は、明示的に記載された実施態様のみに本発明を限定するように解釈されるべきではない。この説明は明示的に説明された実施態様のうちの2つ以上を組み合わせるか、または明示的に説明された実施態様のうちの1つ以上を開示されたおよび/または好ましい要素の任意の数と組み合わせる実施態様をサポートし、包含することを理解されたい。さらに、本出願において記載されるすべての要素の任意の置換および組み合わせは、文脈が別段の指示をしない限り、本出願の記載によって開示されるとみなされるべきである。
第1の態様において、本発明は少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを提供することを含み、ストランド特異的シーケンスデータは少なくとも1つの単一細胞の標的染色体領域のシーケンスによって得られる多数のストランド特異的シーケンスリードを含み、シーケンスリードをアラインメントし、またはシーケンスリードが等しくフラグメント化されている場合、シーケンスリードの各部分を参照にアライメントし(aligning the sequence reads, or if the sequence reads are equally fragmented, each portion of a sequence read, to a reference)、次いで、任意の所与の選択されたウィンドウに、以下の情報の3層の少なくとも2つを割り当てられる:
(i)全シーケンスリードの数、またはその一部(「リード深度」としても知られる)、
(ii)フォワード(またはワトソン)シーケンスリードの数、またはその部分、およびリバース(またはクリック)シーケンスリードの数、またはその一部、
(iii)特定のハプロタイプ同一性(例えば、H1またはH2)が割り当てられたシーケンスリードの数、またはその一部。
より具体的には、本発明の第1の態様が技術的に可能な又は理にかなった任意のシーケンスで実行され得る以下の方法ステップに関する:
(a)少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを提供され、ここで、該ストランド特異的シーケンスデータは、少なくとも1つの単一細胞の該標的染色体領域のシーケンスによって得られる多数のストランド特異的シーケンスリードを含む;
(b)各シーケンスリードまたはその一部を、該少なくとも1つの標的染色体領域の参照シーケンスにアライメントさせて、該シーケンスリードまたはその一部を、該少なくとも1つの標的染色体領域の該参照シーケンスに沿った位置順序にする;
(c)該少なくとも1つの標的染色体領域に沿った染色体ハプロタイプ同一性(H1/H2)を、(b)からの各アライメントされたシーケンスリードまたはその一部への、割り当てをおこない、
(d)シーケンス情報の以下のチャネルのうちの任意の2つを、位置順序付けられアライメントされたシーケンスリード若しくはその一部の、少なくとも1つの所定のシーケンスウィンドウに、割り当てること:
(i)少なくとも1つの所定のシーケンスウィンドウにアライメントされた、全シーケンスリードの数またはその一部;
(ii)少なくとも1つの所定のシーケンスウィンドウにアライメントされたフォワードシーケンスリードの数、またはその一部、およびリバースシーケンスリードの数、またはその一部;
(iii)第1の(H1)ハプロタイプ同一性に割り当てられたシーケンスリードの数、またはその一部;および/または、第2の(H2)ハプロタイプ同一性に割り当てられたシーケンスリードの数、またはその一部、それは少なくとも1つの所定のシーケンスウィンドウにアライメントされている。
本発明は、好ましくは診断または品質管理目的のための例として、候補細胞、組織、または対象を核型分析(karyotype)するために、本明細書に記載される方法を適用する。例えば、第1の局面の1つの実施において、本発明は代替的にまたは追加的に、目的の少なくとも1つの単一細胞のゲノムを核型分析する方法に関し、以下を含む:
a)少なくとも1つの単一細胞のゲノムのランダム位置から複数の(好ましくは重複しない)ストランド特異的シーケンスを得ること;
b) マッピングされたストランド特異的シーケンスのテスト分布(test distribution)を得るために、当該テストストランド特異的シーケンスをゲノム参照足場(genomic reference scaffold)にマッピングすること;
c)参照足場内の所定のシーケンスウィンドウ(窓)に以下を割り当てること;
(i) マッピングされたシーケンスリードの数、
(ii) マッピングされたフォワードストランドリードの数およびリバースストランドリードの数、好ましくはその比率、
(iii) マッピングされたシーケンスの3層テスト分布(three layeredtest distribution)を得るためのハプロタイプ同一性(H1/H2)、好ましくはH1およびH2ハプロタイプ同一性リードの数、またはその一部、;
d)予想される分布間の統計的に有意な変化を同定すること(このような変化は少なくとも1つの単一細胞のゲノムにおける核型異常を示す)を含む;又は、
e)参照細胞(例えば、健康な細胞)から得られた参照分布(reference distribution)に対し3層テスト分布を比較し、有意な差が存在する場合、前記差は、少なくとも1つの単一細胞と参照細胞との間の核型の差(karyotypic differences)を示す。
本発明者らは、リード深度、テンプレートストランド同一性(複製後の母細胞に由来するフォワードストランドまたはリバースストランド)、および全ての二倍体生物に存在する父性または母性染色体に由来するシーケンスの同一性を示すハプロフェーズ(haplo-phase)またはハプロタイプ(haplo-type)からなる、完全な染色体またはゲノムのような、シーケンスされた標的染色体領域に、3種類の価値ある情報を統合する技術を開発した。本発明者らは驚くべきことに、シーケンスされた単一細胞のデータを分析し、そのデータを3層の情報の遺伝的に期待される分布と比較すると、染色体領域内でこれまでほとんど検出されなかった多くの構造変異が、単に単一細胞のシーケンスデータを分析するか、または同じ遺伝的起源の複数の細胞の分離パターンを見ることによって容易に同定できることを発見した。後者のアプローチについては、集団内の染色体の完全または一部の異常な分離または分布を用いて、シーケンスされたゲノム内の倍数体または転座を同定することができる。
本発明のアプローチは、「Strand-seq」を利用して、単一細胞における体細胞変異のハプロタイプ認識検出を行う。検出された変異のクラスには、欠失、重複、逆位、転座、複合SVクラス、ヘテロ接合性におけるコピー数ニュートラルロス(CNN-LOH)、および細胞倍数性変化が含まれる。本発明のアプローチは、テンプレートストランドの有糸分裂分離のパターン(すなわち、染色分体分離パターン)を活用するものであり、これは、細胞集団におけるSVを検出するためにこれまで考慮されていなかった「遺伝的シグナル」を反映している。本発明は各単一細胞において、3つの直交性(orthogonal)データ層(または「チャネル」)-リード深度、ストランド配向、およびハプロタイプフェーズ(haplotypephase)を分析することによって、この情報を活用し、その統合は、本明細書で「3チャネルプロセシング(three-channel processing)」と呼ばれる本発明による新規なアプローチを介して、識別的SV診断フットプリント(footprints)のセットを生じる(図1)。本発明のアプローチは、驚くべきことに、SVブレークポイントを横切るリードペア(read pairs)を必要とせず、これは、このアプローチを、単一細胞シーケンスの場合のように低いシーケンスカバレッジを有するスケーラブルな(scalable)ローパス(low pass)シーケンス戦略へのアプローチを検査可能にし、そして反復シーケンスに隣接するSVの検出を可能にする。本明細書において、実施例は細胞株および原発性白血病の分析による有用性を示し、SV形成のような反復関連および断続平衡と併せて、以前には未解明であったかまたは不完全に解明された変異体クラスを明らかにし、そして単一細胞SVプロファイルを通して定義されたサブクローンを解明する。本発明は、単一細胞における多種多様なSVクラスのスケーラブルで費用効率のよい分析を可能にすることによって、一連の研究機会を開くものである。
本発明の文脈において使用される以下の用語は詳細に定義されるべきであり、この定義はしばしば、このような用語に関して本明細書に記載される本発明の特に好ましい実施態様を含む。特定の用語のそのような実施態様または好ましい定義について、実施態様および態様の組み合わせに関する上記のものは、等しく適用される。
「シーケンスデータ:Sequencing data」という用語はポリヌクレオチドをシーケンスすることによって得られるデータを指し、このようなシーケンスデータは多数のシーケンスリードを含み、リードされた各シーケンスは、テンプレートポリヌクレオチドストランドをシーケンスすることに由来する。本発明の好ましい実施態様では、テンプレートポリヌクレオチドストランドがフォワードまたはリバース(WまたはC)ストランドである。
本明細書で使用される用語「シーケンスリード:Sequence read」は、生物学的細胞またはウイルスから得られた核酸分子から得られた、または読み取られ(リードされ)たヌクレオチドシーケンスを指す。シーケンスリードは、当技術分野で公知の様々な方法によって得ることができる。一般に、シーケンスリードは、テストサンプルから得られるかまたは濃縮される核酸フラグメントの増幅後(例えば、架橋増幅のようなポリメラーゼ連鎖反応)に得られる。シーケンスリードの長さは、使用されるシーケンス方法に依存して変化し得る。本発明の文脈において使用可能なシーケンスリードの好ましい長さは、50~500ヌクレオチド長、好ましくは約100~200ヌクレオチドである。
本発明の文脈において使用可能なシーケンス方法は、当業者に公知の任意の方法から選択される。しかし、現在いわゆる「次世代シークエンシング」アプローチが好ましく、例えば、Illumina、Life Technologies、およびRocheによって現在採用されているいわゆる並列シークエンシング合成またはシークエンシングバイライゲーションプラットフォーム、またはThermoFisherなどによって商業化されているIon Torrent技術などの電子検出ベースの方法を含む。シークエンシング方法はナノポアシークエンシング法などのいわゆる「第3世代シークエンシング(TGS)」技術も含むことができる。他のアプローチには「単一分子リアルタイム(SMRT)」シークエンシング(例えば、PacificBiosciencesによる)、および1kbより長いシーケンスリードを得ることができるいわゆる「ロングリードシークエンシング」が含まれる。これらは両方とも、従来からロングリードシーケンスデータと呼ばれているもの(すなわち、>1000塩基対のシーケンスリード)を提供する。
本発明の文脈において、標的染色体領域(例えば、テスト細胞)のシーケンスは、ストランド特異的シーケンスリードとして、またはその一部として提供されることが特に好ましい。このようなシーケンスリードまたはその一部は例えば、リードがシーケンスされ、そして母細胞の有糸分裂後にシーケンスされた単一細胞によって受け継がれた染色体領域のテンプレートストランドのストランド特異的情報を保持する。このようなテンプレートストランドは本明細書中でさらに説明されるように、フォワードまたはリバースのいずれかであり得るか、またはしばしばワトソンまたはクリックとも呼ばれ得る。ストランド同一性の情報の保持を可能にする任意の方法は、本質的にストランド特異的情報のみであり、ストランド同一性の情報がどのようにして得られるかの方法ではないので、本発明の方法に含まれ、適切である。シーケンス中にストランド同一性を保持する1つの方法は、ストランド特異的シーケンスまたは「Strand-seq」によるものである。この方法はFalconerら、2012 Nature Methods 9(11):1107-1112に詳細に記載されている(その全体が参照により本明細書に組み込まれる)。特に、出版物の方法セクションが参照により本明細書に組み込まれる。要約すると、Strand-seqは、細胞の1つの合成期(S-phase)にBrdUヌクレオチドを用いることによって、有糸分裂前に、取り込まれたBrdUヌクレオチドによってマークされた1本のストランドの中に、及びBrdUを欠いたもう1本のストランド(テンプレートストランド)に、それぞれの染色体の新たに生じた姉妹染色分体が入るようにする。有糸分裂の後、BrdUストランドにニックが入るように娘細胞を処理し、したがってPCRの間に非BrdU標識ストランドのみを増幅することができる。特定のアダプターを使用して、元のテンプレートストランド情報はテンプレートストランドのストランド同一性のみがシーケンス後に確認され得るように、増幅されたフラグメント中に保持される。次いで、このようにして得られたシーケンスリードを参照ゲノム足場(reference genome csaffold)にアライメントさせることは、リードの方向を示し、そこからストランド(WatsonまたはCrick)リードが得られた。
用語「核型:karyotype」とは、所定の種またはテストサンプルの個々の細胞または細胞株のゲノム特性を意味する;例えば、染色体の数および形態の両方によって定義される。典型的には、核型が顕微鏡写真または計算された画像からの前期(prophase)または中期(metaphase)(またはさもなければ凝縮された)染色体の系統化されたアレイとして提示される。あるいは、間期(interphase)細胞核から放出されたヒストン除去DNA繊維として、間期(interphase)染色体を調べてもよい。一実施態様では、本発明の核型分析方法がコピー数ニュートラルSVの検出に特に適している。本発明の方法は、また、テスト細胞またはテストゲノムにおけるコピー数多型(または「コピー数変異」とも呼ばれる)を決定するために使用され得る。シーケンスに基づく核型分析法は原核細胞に対して実施することができるので、染色体の存在は本発明の方法に必須ではない。
本明細書中で使用する「構造変異:structual variation」、「SV」、「染色体異常:chromosomal aberration」または「染色体異常:chromosome abnormality」という用語は互換的に使用され、対象となる染色体または核型の構造と正常な(すなわち、「異常でない」)相同染色体または核型との間の逸脱を意味する。染色体または核型を指す場合、「正常:normal」または「異常でない:non-aberrant」という用語は、特定の種および性別の健常者にみられる優勢な核型またはバンドパターンを意味する。本発明の方法によって検出可能なSVは、好ましくは大型または中型のSV(200kb以上)である。
SVは、本質的に数値的または構造的であり得、異数性、倍数性、逆位、均衡型または不均衡型転座、欠失、重複、逆位重複などを含む。SVは、病理学的状態(例えば、ダウン症候群における21トリソミー、クリデュチャット症候群における5p欠失、および形態異常および精神障害、ならびに増殖性障害および特に癌につながる多種多様な不均衡な染色体再構成)の存在、または病理学的状態を発症する素因と相関しうる。染色体異常とは、テスト生物(例えば、原核細胞)が古典的に定義された染色体をもたない可能性がある場合にも、本願発明の目的のためのゲノム異常を指す。
さらに、染色体異常には、従来のFISHの光学顕微鏡、従来の染色法を用いて伝統的な核型では通常見えないものを含むあらゆる種類の遺伝的異常が含まれる。本発明の1つの利点は光学的方法またはシーケンス方法(例えば、4Mb、600kb、200kb、40kb以下を含む異常)によって以前は検出できなかった染色体異常が、情報の3つの層の統合によって検出され得ることである。
本発明の目的のために、用語「コピー数変異(CNV):copy-number variation」とはゲノムのDNAの構造変異の一形態を指し、その結果、細胞がDNAの1つ以上のセクションのコピー数に異常を有するか、または特定の遺伝子についての、ノーマルな変異を有することをいう。CNVは、特定の染色体上での、欠失(正常な数よりも少ない)若しくは重複(正常な数よりも多い)したゲノムの比較的大きな領域に相当する。これに対して、「コピー数ニュートラル」という用語は遺伝子などのシーケンス要素の異常なコピー数を細胞にもたらさない変異を意味する。
本発明の文脈における「診断フットプリント:diagnostic footprint」という用語は、SVに特異的であるか、または少なくともSVを示す、本発明の3層情報のパターンを意味するものとする。したがって、診断フットプリントは、特定の実験について予想されるデータ分布の変更によって特徴付けられる。SVを示す特定のパターンは、分析されたデータに依存して変化する。例えば、二倍体細胞は、各染色体についてWW、CCまたはWCストランド分布を含むようにシーケンスされ得る。ストランド分布に応じて、同じSVは、異なる診断フットプリントを有し得る。このようなフットプリントまたはパターンは例えば、本明細書の表1に提供されている。
本明細書中に開示される本発明の文脈において、用語「標的染色体領域:target chromosomal region」は、本発明の文脈における検査の対象で、任意の生物またはウイルスの1つ以上の、完全な、または一部的な染色体のDNAシーケンスをいう。標的となる染色体領域とは、単一の染色体の一部の1つのシーケンスだけを指す場合もあれば、いずれかの染色体の父方と母方の両方の領域を指す場合もある。いくつかの実施態様では、本発明による検査の対象である標的染色体領域が単一細胞の全染色体または全ゲノム、または複数の単一細胞である。
本明細書に開示される本発明の文脈において、「単一細胞:single cell」という用語は、例えばストランド特異的シーケンスによって単一細胞ライブラリが生成される1つの個々の細胞を指すものとする。本発明の文脈における単一細胞ライブラリは、前記単一細胞のゲノムをシーケンスすることによって得られる複数のシーケンスリードをいう。さらに、いくつかの局面および実施態様において、本発明は複数の(a plurality of)単一細胞、または複数の(multiplicity of)単一細胞を指し、この場合、複数の単一細胞に含まれる各単一細胞についての複数の別々の独立したシーケンスライブラリの生成を指す。本発明の1つの好ましい実施態様において、細胞株の96個までの単一細胞が、個々にシーケンスされる。そのようなアッセイは、96ウェルプレートまたは384ウェルプレートのような多壁プレート中で実施することができるので、そのような実施態様が好ましい。
「少なくとも1つの標的染色体領域の参照シーケンス:reference sequence of the at least one target chromosomal region」という用語は、標的の完全にシーケンスされた参照(reference)のデータベースバージョンを指す。通常、このような参照(reference)は完全な染色体シーケンスである。場合によっては参照シーケンス(reference sequence)は「参照足場:reference scafford」または「参照ゲノム足場:reference genomic scafford」または「参照アセンブリ:reference accembly」または類似の発現(similar expression)とも呼ばれる。例えば、ゲノム参照コンソーシアム(The Genome Reference Consortium)はヒトゲノム、ならびにマウス、ゼブラフィッシュおよびニワトリゲノム(https://www.ncbi.nlm.nih.gov/grc))のような他のゲノムの参照シーケンスを頻繁に公表し、更新する。
本発明の文脈における用語「参照状態:reference state」は例えば、異常を同定するために、サンプルデータセットとの比較のための参照として使用されるシーケンスデータの状態または分布をいう。このような参照状態は、参照として使用されるシーケンスデータの実際のセットであり得るか、または特定の基礎となるサンプリングされた染色体領域について予想されるデータの状態であり得る。通常、本発明の文脈における参照状態は、異常でない単一の細胞または細胞の集団について予想される、染色体または染色体のセット(ゲノム)内のシーケンスの分布に関する。一例として、通常の二倍体ヒトゲノムの参照状態は、大多数のヒトに共通する体細胞におけるヒト染色体の分布であろう。しかしながら、特定の局面および実施態様において、参照状態はまた、異常な染色体構造または異数性を含み得、本発明による参照状態は、分析されたサンプルおよび本発明の方法で答えられるべき質問に基づいて決定される。単に例示的な例として、本発明の方法で分析されるサンプルは、他のSVについてスクリーニングされる個々のトリソミー21に由来し得る。最も重要なことには本発明の文脈における用語「参照状態:reference state」が「参照シーケンス:reference sequence」と混同されてはならず、後者は上記で定義され、シーケンスリードをアライメント(align)させるために使用されるシーケンスのアセンブリを指す。
本明細書中に開示される発明の文脈におけるシーケンスの用語「アラインメントする:aligning」または「アラインメント:alignment」は、それぞれのストランド特異的シーケンスに一致する本明細書中に記載される参照ゲノムまたは参照染色体のような、参照足場(reference scaffold)へのストランド特異的シーケンスのマッピングを示す。シーケンスリードまたはその一部を対応する参照足場にアライメントさせることは、当該分野で周知である。このような方法は、Bowtie(Genome Biol, 2009;10(3):R25)またはBurrows Wheeler Alignment(BWA)(Bioinformatics, 2009Jul15;25(14):1754-60.doi:10.1093/Bioinformatics/btp324)を含み得る。全てのシーケンスリードまたはその一部を参照染色体足場にアライメントさせることにより、参照の両方のストランド、例えば少なくとも1つの標的染色体領域に沿ったシーケンス情報の位置順序付け(positional ordering)をもたらされる。
本明細書中で使用される場合、用語「フェージング:phasing」は、2つ以上の核酸シーケンス(代表的にはシーケンス変異の領域を含む)が同じ核酸テンプレート(例えば、染色体または染色体フラグメント)上に位置するか否かを決定するプロセスをいう。フェーズとは、リードされた1つのシークエンス内の2つ以上の一塩基変異または多型(SNP)を解決する(resolving)ことを意味することがある。好ましくは、フェージングが大きなゲノム領域にわたってシーケンスデータを解決する(resolving)こと、または全ゲノムシーケンスを解決する(resolving)ことを指し得る。
2つ以上の多型部位のシーケンスとの関連で使用される「フェーズ化:phased」という用語は、それらの多型部位に存在するシーケンスが単一の染色体に由来するか否かが知られていることを意味する。
「フェーズ化核酸シーケンス:phased nucleic acid sequence」という用語は単一染色体の文脈において使用される場合、単一染色体の核酸シーケンスを意味し、核酸シーケンスは単一染色体フラグメントの文脈において使用される場合、「フェーズ化核酸シーケンス」という用語は単一染色体フラグメントの核酸シーケンスを意味し、核酸シーケンスは単一染色体フラグメントのシーケンスから得られる。
「ハプロタイプ:haprotype」という用語は「一倍体遺伝子型:haploid genotype」という表現の短縮型であり、現在では、単一の母方または父方染色体上に存在する一組のヌクレオチドシーケンス多型または対立遺伝子を意味し、通常は単位として遺伝すると認められている。あるいは、ハプロタイプとは1本の染色体上に連鎖しているか、一緒に存在する一塩基多型(SNP)のセットを指すこともある。ハプロタイプという用語は、単一の染色体上に連鎖または一緒に存在する、わずか2つの対立遺伝子またはSNPを指すために用いられることがある。
「ハプロタイプ同一性:haprotype identity」という用語は、染色体のような参照シーケンスの既知のハプロタイプに対して、対象のシーケンスにおいて観察されたハプロタイプのに相応する。例えば、ハプロタイプ同一性は二倍体生物の母性または父性のいずれかのハプロタイプに対する、シーケンスの同一性に相応し得る。各標的染色体領域に対する本発明の文脈において、ハプロタイプ同一性「H1」または「H2」は、ライブラリまたは実験において観察された全てのシーケンスの観察されたハプロタイプ分布に対応して割り当てることができる。いくつかの好ましい実施態様において、H1は1つのストランド上でシーケンスされたハプロタイプであり、そしてH2は、相補鎖上でシーケンスされたハプロタイプである。
「ポリメラーゼ連鎖反応」または「PCR」は、DNAの相補鎖の同時プライマー伸長による特定のDNAシーケンスのin vitro増幅のための反応を意味する。言い換えれば、PCRはプライマー結合部位に隣接する標的核酸の複数のコピーまたは複製を作製するための反応であり、このような反応は、以下の工程:(i)標的核酸を変性させる工程、(ii)プライマーをプライマー結合部位にアニーリングする工程、および(iii)ヌクレオシド三リン酸の存在下で核酸ポリメラーゼによってプライマーを伸長する工程の1つ以上の反復を含む。通常、反応は、サーマルサイクラー装置中の各工程について最適化された異なる温度を通して循環される。特定の温度、各ステップでの持続時間、およびステップ間の変化率は、当業者に既知の多くの要因に依存する。
用語「相補的」とはポリヌクレオチドが他塩基対を形成する能力をいい、塩基対は典型的には逆平行ポリヌクレオチドストランドのヌクレオチド単位間の水素結合によって形成される。相補的ポリヌクレオチドストランドがワトソンクリック様式(例えば、A-T、A-U、C-G)で、または二重ストランドの形成を可能にする任意の他の様式で塩基対を形成することができる。用語「相補的」はそれぞれの相補的DNAストランドを示すためにも使用される。例えば、ワトソンストランドの相補鎖に言及することは、クリックストランドに言及し、逆もまた同様である。
「ポリヌクレオチド」または「核酸」という用語は任意の長さのヌクレオチドのポリマーを指し、DNA、RNA、またはDNA/RNAハイブリッドの一本鎖または二本鎖分子を含み、これらに限定されないが、デオキシリボシル部分およびリボシル部分が規則的および不規則に交互になっているポリヌクレオチドストランド(すなわち、交互のヌクレオチド単位が、糖部分の2’位に-OH、次いで-H、次いで-OH、次いで-Hなどを有する)、および任意の位置のヌクレオチド単位への種々の実体(entities)または部分(moieties)の置換または付着、ならびに天然に存在するかまたは天然に存在しないバックボーン(主鎖:backbones)が含まれる、これらの種類のポリヌクレオチドの修飾が含まれる。ポリヌクレオチドは重合後に、例えば標識成分との結合によって、さらに修飾され得る。核酸の「フラグメント」または「セグメント」は、その核酸の小片である。好ましくは、本発明に関連して使用またはアッセイされるポリヌクレオチドが真核生物の染色体またはゲノムなどのDNA分子である。
「ホモ接合性:homozygous」状態とは、同一の対立遺伝子が、相同染色体上の対応する遺伝子座に存在するときに存在する遺伝的状態を意味し、「ヘテロ接合性:heterozygous」状態とは、相同染色体上の対応する遺伝子座に、異なる対立遺伝子が、存在するときに存在する遺伝的状態を意味する。
「遺伝子」とは、転写および翻訳された後に特定のタンパク質をコードすることができる少なくとも1つのオープンリーディングフレームを含むポリヌクレオチドをいう。
「対象:subject」、「個体:individual」または「患者:patient」は、本明細書中で互換可能に使用され、これは、脊椎動物(例えば、哺乳動物(例えば、ヒト))をいう。
本明細書で使用される「増幅する:amplifying」という用語は、標的核酸をテンプレートとして使用して、標的核酸の1つ以上のコピーを生成することを指す。
本明細書中で使用される場合、用語「ゲノム」はDNAまたはRNAのいずれかの核酸中に典型的にコードされる個体の遺伝情報を意味し、そして遺伝子および非コードシーケンスの両方を含む。ゲノムとは、生物の1組の染色体(一倍体ゲノム)を構成する核酸、または生物の染色体の両方の組(二倍体ゲノム)を使用される状況に応じて構成する核酸を指すことができる。
本明細書で使用される「標的染色体ペア:target chromosome pair」とは同じ型の染色体のペアをいい、ここで、このペアのメンバーは母親に遺伝し(母親から遺伝し)、そしてこのペアの他のメンバーは父親に遺伝する(父親から遺伝する)。例えば、標的染色体ペアは1番染色体、2番染色体、3番染色体のペアを指し、21番染色体、22番染色体、およびX染色体までを含む。1つ以上の標的染色体ペアは標的染色体ペアの母性および父性遺伝染色体のシーケンスを決定するために、本明細書中に開示される方法によって同時に分析され得る。
本明細書で使用される標的染色体ペアの「単一コピー:single copy」または「単一コピー(複数):sinble copies」は、染色体自体であるか、または染色体の形成で(ヒストンなどの染色体タンパク質の助けを借りて)パッケージされた単一の物理的DNA分子を指す。正常な二倍体のヒト細胞では、46本の単一染色体、母親由来の23本の単一染色体、父親由来の23本の単一染色体が存在する。標的染色体の単一コピー(複数)は、染色体型の単一コピーとも呼ばれる。1つまたは複数の染色体型の単一コピー(複数)は、通常、本明細書中に記載される方法において、個々の容器に分離される。
本明細書中で使用される「染色体型:chromosome type」は、細胞中に存在する特定の染色体をいう。女性の正常な二倍体ヒト細胞では、22種類の常染色体と1種類の性染色体(X染色体)がある。男性の正常な二倍体ヒト細胞では、22種類の常染色体と2種類の性染色体(X染色体とY染色体)がある。
用語「多型部位:polymorphic site」または「多型:polymorphism」は、本明細書中で使用される場合、ヌクレオチドシーケンスが集団中の少なくとも1つの個体における参照シーケンスから変化する、染色体内の局在化領域をいう。シーケンス変異(Sequence variations)は、1つ以上の塩基の置換、挿入または欠失であり得る。染色体またはより大きな核酸分子の構造を変化させる多型は、本明細書中の他の箇所に記載されるようなSV(Structural Variation)である。
本明細書中で使用される場合、用語「単一ヌクレオチド多型:single nucleotide polymorphism(s)またはSNP(s)」は、シーケンス変異(Sequence variations)が特定の位置での単一塩基の置換によって引き起こされる多型部位(polymorphic site)を意味する。SNPとは、集団内の特定のゲノム位置におけるヌクレオチドの変異を指す。両方の形態が同じタンパク質シーケンスをもたらす、コード領域内のSNPは、同義(シノニマス)と呼ばれる;異なるタンパク質が産生される場合、それらは非同義である。SNPは、例えば、遺伝子スプライシング、転写因子結合、または非コードRNAのシーケンスに影響を及ぼし得る、および/または生物のハプロタイプを示し得る。
本明細書中で使用される場合、用語「ハイブリダイゼーション」は、例えば、ストランド分離(例えば、変性による)および再アニーリングを通して、相補的な一本鎖核酸を共局在化(co-localizing)するための、および/または相補的な非伝統的分子を一本鎖または二本鎖核酸と共局在化するための1つ以上のプロセスを意味する。例示的な実施態様において、相補的な核酸分子(任意にオリゴヌクレオチド)は、一本鎖または二本鎖DNAにハイブリダイズし得る。ハイブリダイゼーションのための方法は当該分野で公知であり、そして低および高ストリンジェンシーハイブリダイゼーションのための条件を含むが、これらに限定されない(SambrookおよびRussell.(2001)MolecularCloning:A Laboratory Manual 3rd edition). Cold Spring Harbor Laboratory Press;Sambrook, Fritsch, Maniatis.Molecular Cloning: A Laboratory Manual 3rd edition)。
ハイブリダイゼーションの厳密性(ストリンジェンシー:stringency)は、プローブと標的シーケンスとの間の100%までの相補性(高ストリンジェンシー:high stringency)を必要とするように、またはプローブと標的シーケンスとの間のいくらかのミスマッチ(低ストリンジェンシー:low stringency)を可能にするように(例えば、洗浄条件によって)制御され得る。標的およびプローブに基づいて適切なハイブリダイゼーションおよび洗浄条件を決定するための因子は、当該分野で公知である。例示的な実施態様では、68℃で10分間0.2×SSC/0.1%SDSを使用する最初の洗浄に続いて、68℃でそれぞれ15分間0.2×SSC/0.1% SDSでの2回の追加洗浄を高ストリンジェンシー洗浄のために行い、42℃でそれぞれ15分間0.2×SSC/0.1%SDSでの2回の追加洗浄を中程度のストリンジェンシー(moderatestringency)洗浄のために行い、低ストリンジェンシー洗浄のために室温でそれぞれ15分間0.2×SSC/0.1% SDSで2回の追加洗浄を行う。
本明細書で使用される「対立遺伝子:allele」という用語は、その特定のヌクレオチドシーケンスによって他の形態と区別される、特定の形態の遺伝子座、またはゲノム領域、または染色体全体を指す。
本明細書で使用される「遺伝子座:locus」という用語は、遺伝子または物理的若しくは表現型の特徴に対応する、染色体若しくはDNA分子上の位置を指す。
本明細書で使用される用語「サンプル」は本発明の本文脈において、細胞材料または少なくとも1つ以上の細胞のゲノム材料を含有するサンプルで1つ以上の目的の分析物を含有する、典型的には必ずしも液体形態ではないが、材料の物質または混合物に関する。本明細書で使用される用語「染色体サンプル」は、対象からの染色体を含有する材料または材料の混合物に関する。同様に、用語「ゲノムサンプル」は対象または細胞からのゲノム材料を含有する材料または材料の混合物に関する。
本発明の文脈における情報に関して「割り当てる:assigning」という用語は、任意の種類の情報が参照足場の所定のまたは事前に選択されたウィンドウ、またはリードされたシーケンスなどの特定のシーケンスエンティティ(sequence eintity)に結び付けされることを意味するものとする。好ましくは、観察された又はマッピングされたリードの数又はリードの一部が本明細書に開示された3つのチャネル(i)~(iii)に従って情報として割り当てられる。
「シーケンスウィンドウ:sequence window」は、1つ以上のシーケンスリードまたはその一部がアラインメント(allignment)の間にマッピングされ得る、足場シーケンス(scaffold sequence)のセクションを意味する。シーケンスウィンドウのサイズは、シーケンスデータの適用範囲に応じて選択されるか、または本発明の方法の適用に応じて任意に選択される。本発明の文脈において、シーケンスウィンドウは、1~50kb、または好ましくは1~10kb、または最も好ましくは約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20kbのサイズを有し得る。本発明のウィンドウは、50kb、100kb、200kb、または500kbなど、より大きくてもよい。本明細書に提示される例による例示的なウィンドウは、約50kbである。
用語「3層情報:three layered information」は、本発明の文脈において、シーケンスリード情報のハプロタイプフェージング(haplotype phasing)と組み合わせたストランド特異的シーケンスに由来し得る情報の3つの別個のチャネルの統合を意味する。
本発明の目的のために、用語「カバレッジ(適用範囲):coverage」は、再構築されたシーケンス中の所与のヌクレオチドを表すリードの平均数をいう。これは、元のゲノムの長さ(G)、リードの数(N)、および平均リード長さ(L)から、N×L/Gとして計算することができる。例えば、500ヌクレオチドの平均長を有する8つのリードから再構築された2,000塩基対を有する仮説的ゲノムは、約2倍(2×)のリダンダンシー(redundancy:重複性)を有する。このパラメーターは、また、リードによってカバーされるゲノムのパーセンテージ(カバレッジとも呼ばれる)のような他の量を推定することを可能にする。本発明の利点の1つは、通常1000個を超える細胞のゲノム物質をシーケンスすることによって得られる範囲である30xと比較してわずか0.01xの範囲でシーケンスされた単一細胞の標的シーケンス内のSVの安定な同定である。本発明の文脈において、シーケンスリードは、標的染色体領域の0.001x~100x、好ましくは約0.01x~0.05xの全体範囲を有することが好ましい場合がある。
「生殖細胞系列:germ line」という用語はその生物の最終的な細胞系譜をその生物の雄または雌の生殖細胞のいずれかに追跡することができる生物の細胞を意味し、「体細胞:somatic cell」と呼ばれる他の細胞は、配偶子または生殖細胞系列を直接生じない細胞である。
本発明のいくつかの実施態様では、用途に応じて、生殖細胞系列および体細胞の両方を使用することができる。
用語「染色体不安定性:chromosomal instability」(CIN)および「ゲノム不安定性:genomicinstability」および本明細書で使用される同様の表現は染色体構造および数値異常の数または程度、すなわち、例えば異数性(不正確な数の染色体)をもたらす、染色体全体または染色体の一部の欠失または重複に関する。高CINは、癌などの増殖性疾患と関連しているか、または検出されることが多い。
本発明の文脈において、「リード深度:read depth」または「深度:depth」という用語は、所定のまたは予め選択されたシーケンスウィンドウにマッピングされるリードの数を指すものとする。
用語「診断シグネチャー:diagnostic signature」または「診断フットプリント:diagnostic footprints」または同様の表現は、本発明の文脈では参照状態と比較した、本発明に従って分析されたシーケンスデータにおける予想される差異またはシグナル、SVまたは他の異常原因を指すものとする。二倍体ゲノム中のSVの例は、本明細書中の表1に提供される。しかし、当業者は遺伝の遺伝的パターンを理解することにより、基礎となる状況に応じて、任意の他の診断シグネチャーまたは診断フットプリントを決定することができる。
用語「基底状態:ground state」は、本発明の文脈において使用される場合、単一細胞若しくは単一細胞の集団内の親テンプレートストランドの分布(distribution of parental template strands)を示す。したがって、本発明の好ましい実施態様では、基底状態が単一の細胞が任意の数のWまたはCのテンプレートストランドを含むかどうかを示すものとする。二倍体シナリオ(diploid scenario)において、非限定的な例として、基底状態は、WW、CC、WCまたはCWであり得る(表1も参照のこと)。
いくつかの実施態様において、ストランド特異的シーケンスデータは、本発明の方法を開始するために提供される。他の実施態様では、やはり好ましいが、この方法は標的染色体領域の遺伝物質を含むサンプルのストランドシーケンスによって、シーケンスデータを作成(prepare)またはフィルタリング(filter)するか、またはシーケンスデータを得るための、準備ステップ(preparatory steps)を含むことができる。
一実施態様では、ストランド特異的シーケンスデータが、参照足場にマッピングされるシーケンスリードまたはその一部を既に含んでいてもよい。他の実施態様ではシーケンスリード、またはその一部は、当技術分野で公知の標準的なアライメントツール(aligning tools)を使用して、対応する(corresponding)参照足場にマッピング(map)またはアライメント(align)される。
好ましくはscTRIP(単一細胞トリチャネルプロセシング:single cell tri-channel processing)特有の方法の第1のステップとして、各個々の細胞または実験全体のリード(reads across each individual cell or experiment)が、所与の幅(given width)のウィンドウに割り当てられる(assign)、すなわち、「ビニングされる(binned)」。いくつかの実施態様では、ウィンドウの幅(width of window)が、カバレッジおよびデータ若しくはアプリケーションの特定の条件に応じて選択される。ウィンドウの好ましい長さは、本明細書の他の箇所に記載されている。好ましいいくつかの実施態様ではマッピングされたリードはそれらの開始位置に基づいてウィンドウに割り当てられるが、他の参照位置 (reference positions)を使用することもできる。さらに、いくつかの実施態様では、ストランド状態(chain state)が、染色体領域についての、テンプレートストランド分布またはWおよびCのリード(reads)の相対的存在量を示す、前記ウィンドウのそれぞれに割り当てられる。ディソミックデータセット(disomic data sets:二染色体データセット)では、ストランド状態がWW(ワトソン-ワトソン)、CC(クリック-クリック)またはWC(ワトソン-クリック)として示される。好ましい実施態様では、ストランド状態割り当ては隠れマルコフモデル(hidden Markov model)(HMM)を使用して実行することができる。
任意選択で、本発明は、本明細書の実施例1で使用される特定の方法による品質管理(quality control)およびデータ正規化の様々なステップを含むことができる。
本発明の好ましい実施態様では、本明細書で開示される方法が、深度(depth)、向き(orientation)、およびハプロフェーズ(haplo-phase)などの3つの情報チャネルすべてを統合する。したがって、好ましくは工程(d)において、シーケンス情報(i)~(iii)の3つのチャネルすべてが、少なくとも1つの所定のシーケンスウィンドウ(sequence window)に割り当てられる。
いくつかの実施態様ではストランド特異的シーケンスデータが少なくとも1つの標的染色体領域の少なくとも2つの別個のストランドのうちの1つに由来するシーケンスリードを含み、好ましくはストランド特異的シーケンスデータが少なくとも2つの別個のストランドのうちの他方に由来するさらなるシーケンスリードを含み、例えば、一方のストランドは父系由来であり、他方のストランドは母系染色体由来である〔しかし、三倍体(triploidy〕などの場合のように、さらなるストランドに由来するシーケンスリードをさらに含むことができる)。したがって、工程(b)における本発明の方法のいくつかの実施態様では、リードされた各シーケンスまたはその一部がストランド特異的シーケンス情報を保持するフォワードまたはリバースにアライメントされる。
本発明のいくつかの実施態様では、この方法がストランド状態(strand stete)を同定すること、および/またはシーケンスデータ中の姉妹染色分体交換(sister chromatid exchanges:SCE)を検出することを含み得る。ストランド状態検出の工程の間、いくつかの実施態様において、SCEを同時に検出することが好ましい。Strand-seqを用いて、1つの細胞内の各染色体相同体(chromosomal homologue)が、WストランドかCストランド(二倍体の場合、観察されるWWストランド、WCストランド、またはCCストランドパターンにつながる)のいずれかでシーケンスされる。ストランド状態の検出およびSVの発見は、染色体に沿って相同染色体のストランド状態を反転させることができるSCE事象(典型的には二倍体細胞ゲノムあたり約6個のSCEが見られる)を検出することによって改善される。
いくつかの実施態様では、本発明の方法が少なくとも1つの標的染色体領域をセグメント化する工程を含んでもよく、セグメント化は各個別にまたは一緒に、シーケンス情報(i)~(iii)のチャネル(channels)に基づいて行われる。原則として、セグメント化は標的染色体領域に沿った情報分布のブレークポイント(breakpoints:区切り)を同定し、それによって候補SVの境界(boundaries)を同定しようとする。本発明はストランド特異的シーケンスデータも使用するので、コピー数ニュートラルである候補SVのブレークポイントもセグメント化中に検出することができる。単一細胞シーケンスデータの集団が分析される実施態様では、全ての細胞を同時にセグメント化することが好ましい。いくつかの実施態様では、そのようなセグメントがサブ領域(sub-region)とも呼ばれる。
本発明は、シーケンスのハプロタイプフェージング(haplotype phasing)「haplotype:1つの染色体に存在して一緒に遺伝する傾向のある、密接に連鎖する遺伝子マーカーのセット。遺伝的組換えなしに受け継がれる対立遺伝子群。phasing(位相合わせ)」の工程を包含する。いくつかの好ましい実施態様において、ハプロタイプフェージングは、WC領域をWCまたはCW状態のいずれかに分類し、ここで、第1の位置(first position)はH1を指し、そして第2の位置(second position)はH2を指す。この区別は、ハプロタイプを考慮した方法(haplotype-aware manner)でSVを予測するためにSV同定の間に使用され、これは本発明の利点であるので、このような工程は好ましい。この区別を実施するために、いくつかの実施態様において、少なくとも数十のSNV(脾壊死ウイルス)の全染色体ハプロタイプが使用される;これらは、外部データ供給源から得られ得るか、または代わりに、本発明の方法の工程として直接ストランド特異的シーケンスデータにおいて同定される。ヘテロ接合性(heterozygous)SNVの一覧が与えられると、非限定的な例として、本発明のワークフローは染色体スケールのハプロタイプを生成するために、StrandPhaseRアルゴリズム(Porubsky, D.ら、Dense and accurate whole-chromosome haplotyping of individual genomes.Nat. Commun.8,1293(2017))を含み得る(詳細については、実施例の方法の節を参照のこと)。本発明のいくつかの実施態様において、工程(c)は少なくとも1つの標的染色体領域に沿った染色体ハプロタイプ同一性(H1/H2)が一塩基多型(SNP:Single Nucleotide Polymorphisms)(好ましくはこのようなSNPが疾患関連を有さない)を割り当てることによって、与えられたリードのいずれかに割り当てられることを包含する。このような割り当ては、いくつかの例において、リードされたシーケンスの「ハプロタギング:haplotype-tagging」として本明細書中で言及される。本発明のいくつかの実施態様では、一本鎖(WまたはC)に由来するすべてのリードのハプロタイプ同一性が、1つ以上のSNPを含む若しくはそれと重複する同じストランドからのリードのいくつかに基づいて、ハプロタイプ同一性(H1/H2)を割り当てられる。この実施態様は、任意のSNPを含まないか若しくは重複しないハプロフェーズリードを(haplo-phase reads)可能にする。
ハプロタイプフェージングは、ストランドを考慮した方法(strand-aware manner)で行われることが特に好ましい。本発明の文脈において、このような実施態様は、リードされた任意の所与のシーケンスの割り当てられたハプロタイプ同一性がリードされた同じシーケンスが有する配向(orientation)の情報に接続されることを必要とする。したがって、本発明の好ましい実施態様では、リードされた各シーケンスまたはその一部のチャネル(ii)および(iii)の情報が接続される。
いくつかの例において、好ましくは、シーケンスデータは、多数の非オーバーラップおよび/またはオーバーラップシーケンスリードを含む。しかしながら、特に、通常、低いシーケンスカバレッジを伴う単一細胞分析の場合、例えば、PCRによるアーチファクトであることが多いリード重複が除去される。従って、好ましい実施態様において、ストランド特異的シーケンスデータは、オーバーラップするシーケンスリードを含まない。
本明細書に既に記載されているように、本発明の方法は、種々のSVの検出に有用である。したがって、好ましくは、第1の態様の方法が位置順序付けられアライメントされたシーケンスリードのシーケンスデータ内の多数(少なくとも2つ)のウィンドウについて工程(d)を実行し、多数のウィンドウ内で、チャネル(i)~(iii)のいずれか1つ、またはすべて、またはそれらの任意の組合せの情報の普通ではない/変更された/変化した(unusual/altered/changed)分布を有する1つまたは複数のウィンドウを含むサブ領域を識別することによって、構造変異(SV)を識別する工程(e)を含むことができる。本発明における普通ではない/変更された/変化した(unusual/altered/changed)分布は、好ましくは1つ以上のSVを示す本明細書に開示される診断フットプリントのいずれかである。本発明によるこのような診断フットプリントを以下に説明する:
本発明の統合データにおけるSV検出のための診断フットプリントは、3つのデータ層、すなわちリード深度、リード方向、およびフェーズ(phase)を考慮に入れる。いくつかの実施態様では単一細胞に加えて、類似のSV尤度(likelihood)を達成する2つの異なるSVクラス間の検出および/または識別を増加させるために、単一細胞の集団を分析してもよく、例えば、ハプロタイプタグ(haplotype-tags)、または「ハプロタギング(haplotagging)」(ヘテロ接合性SNPを含むフェーズ化リード(phased reads))もまた、好ましくは分類のために考慮されてもよい。ハプロタイプタグが存在しない実施態様では本発明の方法が総セグメントカバレッジ〔ここでは倍数性レベル(ploidy level)として表される;例えば、N=2はディソミー(disomy:二染色体)または参照と同じコピー数を表す〕およびワトソンリードの割合(「W.frac」と略され、W/(W+C)として計算される)を考慮する。 本発明のために開発されたSV検出シグネチャー(signatures)は標的染色体領域の基礎をなすストランド状態、およびSVがホモ接合性であるかヘテロ接合性であるかに依存し、すなわち、それらは、例えば、WC、CW、WW、またはCC染色体領域において、およびホモ接合性対ヘテロ接合性重複について異なる。表1はヘテロ接合性およびホモ接合性SVの内容における、および有糸分裂ストランド分離の異なるパターンについての、SV診断フットプリントの概要を示し、このようなフットプリントは、本発明の好ましい実施態様である:
表1:本発明による診断用フットプリント
Figure 2022528728000001
Figure 2022528728000002
Figure 2022528728000003
Figure 2022528728000004
1 WC染色体*の参照状態(reference state)と区別できない(なお、CCおよびWW染色体については解明可能であり、したがって、細胞集団におけるサブクローンSVを評価する場合には解決できる)
2 WC染色体*のヘテロ接合性重複と区別することはできない(なお、CCおよびWW染色体については解明可能であり、したがって、細胞集団のサブクローン性SVを評価する場合には、解決できる)
3 WW若しくはCC染色体*ではフェーズ化(phased)できない(WC染色体についてはまだ解明可能であるため、細胞集団におけるサブクローン性SVを評価する場合には解決できる)
セグメント化について既に説明したように、前記サブ領域またはセグメントは少なくとも1つ、好ましくは2つのブレークポイント(breakpoints)によって定義することができ、そのようなブレークポイントは、参照状態と比較された、および/またはシーケンスデータ内の前記チャネル情報の全体的な分布と比較された、チャネル(i)~(iii)の情報のいずれか1つ、または任意の組み合わせ、またはすべての変化を示す。
いくつかの実施態様では、前記染色体領域の前記参照状態が前記染色体領域の情報の異常のない分布が予想されるチャネルの情報の状態および/または所定の状態である。
いくつかの実施態様において、標的二倍体染色体領域における参照状態は、二倍体標的染色体領域が第1の親標的染色体領域に由来する第1のテンプレートストランドおよび第2の親標的染色体領域に由来する第2のテンプレートストランドを含む場合である;前記参照状態は以下のとおりである:
第1の親標的染色体領域がワトソン(W)で、第2の親標的染色体領域がクリック(C)であれば、WC参照状態:
チャネル(i):全リードの数は、約2倍の標的染色体領域(2N)の存在に相当する(correspond to);
チャネル(ii): 各WストランドおよびCストランドについてのリードの数は、約1倍の標的染色体領域(1N)の存在に相当する;
チャネル(iii):H1同一性であるWリードの数は1xに相当し、H2同一性であるCリードの数は1xに相当する;又は
第1の親標的染色体領域がCであり、第2の親標的染色体領域がWであれば、CW参照状態:
チャネル(i):全リードの数は、約2倍の標的染色体領域(2N)の存在に相当する;
チャネル(ii): 各WストランドおよびCストランドについてのリードの数は、約1倍の標的染色体領域(1N)の存在に相当する;
チャネル(iii):H2同一性であるWリードの数は1xに相当し、H1同一性であるCリードの数は1xに相当する
第1および第2の親標的染色体領域がWであれば、WW参照状態:
チャネル(i):全リードの数は、約2倍の標的染色体領域(2N)の存在に相当する;
チャネル(ii): Wストランドについてのリードの数は、約2倍の標的染色体領域(2N)の存在に相当し、残りの(0N)リードのみが存在する;
チャネル(iii):H1同一性であるWリードの数は1xに相当し、H2同一性であるWリードの数は1xに相当し、残りのリードのみが0Nに相当して存在する
第1および第2の親標的染色体領域がCであれば、CC参照状態:
チャネル(i):全リードの数は、約2倍の標的染色体領域(2N)の存在に相当する;
チャネル(ii): Cストランドについてのリードの数は、約2倍の標的染色体領域(2N)の存在に相当し、残りのWリードのみが0Nに相当して存在する;
チャネル(iii):H1同一性であるCリードの数は1xに相当し、H2同一性であるCリードの数は1xに相当し、残りのWリードのみが0Nに相当して存在する;
ここで、SVは参照状態からの変異がある場合に検出され、任意選択で、SVは表1に示される変異に従って分類される。
特に好ましくは表1に記載されたSVのいずれかが、示された診断フットプリントに基づいて検出され、そのようなSVは、細胞のそれぞれの基底状態に応じて表示される。
いくつかの実施態様において、SVは改変された倍数性状態であり、シーケンスデータは異なる染色体の多数の標的染色体領域を含み、ここで、改変された倍数性状態は、他の染色体の1つ以上の他の染色体領域と比較した、1つの染色体の候補倍数性染色体領域間の、チャネル(i)~(iii)の情報の任意の1つ、全て、または任意の組み合わせの全体的分布の差異によって同定される。好ましくは、本発明の方法が単一細胞の集団におけるWストランドおよびCストランドの分布を決定すること、およびそれから、各標的染色体領域、好ましくは標的染色体についての倍数性状態を得ることを含む。
異数性(aneuploidy)の同定の詳細な説明は、実施例セクションで提供される。単一細胞の標的染色体領域の倍数性状態(ploidy state)の検出は、Strand-seqによってシーケンスされた二倍体細胞(diploid cell)において、得られた娘細胞への複製された染色体のランダムかつ独立した有糸分裂分離(mitotic segregation)が示されるという事実に基づいている。このことは、すべての常染色体(autosome)の約50%が、一つの相同染色体(homolog)がプラスストランド(ここではW、Watsonについて)でシーケンスされ、もう一つの相同染色体がマイナスストランド(C、Crickについて)でシーケンスされるという特徴的なパターンを示すことを意味している。これをWC-パターン(pattern)と呼ぶ。残りの常染色体(autosome)は、Cストランド上のみ(約25%; CCパターン)、またはWストランド上のみ(約25%; WWパターン)のいずれかでシーケンスされる(図2)。二項分布(binominal distribution)(実施例セクションを参照のこと)は、異なる細胞倍数性状態についての常染色体ストランドパターンの予想頻度を計算するために使用され得る。3倍体細胞(triploid cell)では例えば、CCCパターン(Cストランドへの常染色体(autosome)マップのすべてのリード)およびWWWパターン(Wストランドへのすべてのリードマップ)はそれぞれ、すべての常染色体(autosome)の12.5%について見られる。CWWパターンおよびCCWパターンは、それぞれ、全ての常染色体の37.5%について見られる。テトラプロイディー(tetraploidy:4倍性)とハプロイディー(haploidy:1倍性or半数性)は、それと比較して、独自に識別可能なストランドパターンをもたらす(表2)。これらの別個のストランド状態パターン(すなわち、WおよびCリードの相対存在量)および/または所与の染色体領域についてのストランド遺伝パターンの予想頻度を使用して、サンプル中の異数性を同定することができる。既存の方法とは異なり、これらの診断フットプリントは倍数性の帰属を行うために追加のデータ(所定の細胞における追加の体細胞変異体の検出のような)を必要とせず、そのため、細胞における潜在的に病原性の倍数性変化を検出するためにより強力であり、かつ適用可能である。
いくつかの細胞倍数性状態に特徴的な診断フットプリントを表2に示す。二項分布を用いて、異なる倍数性状態についての常染色体ストランドパターンの予想頻度を計算することができる。W, ゲノムのワトソンストランド。C, クリックストランド。
表2:異数性(aneuploidy)の診断用ストランドパターン(フットプリント)
Figure 2022528728000005
細胞倍数性を検出する方法は、好ましくは少なくともストランド特異的シーケンスデータおよびリード深度が使用される方法である。より好ましくは、ハプロタイプフェーズも組み込まれる。
他の実施態様において、倍数性の検出は、ストランド特異的シーケンスデータがWストランドおよび/またはCストランドの分布の検出を可能にするために、個々の細胞の集団に由来するデータを含むことを含む。より複合異数性(complex aneuploidies)を含むより多くの単一細胞データは、本発明の方法によって検出することができる。
いくつかの実施態様において、本発明の方法は少なくとも2つ以上の単一細胞、好ましくは10以上、より好ましくは50以上、最も好ましくは90以上または350以上の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを用いて実施され;そして好ましくは単一細胞の多重度(multiplicity)が同じ個体および/または同じ組織もしくはサンプル型などの同じまたは同一の起源に由来する。そのような単一細胞の集団または多様性は好ましくは同じ起源のものであり、前記倍数性および/または転座を共有すると予想される。倍数性または転座は、好ましくは集団内のストランド配向の分布が予想されるパターンから変化する場合に検出される。いくつかの実施態様において、各染色体についてシーケンスされたフォワードストランドまたはリバースストランドの分布が50% WC、25% WWおよび25% CCなどの2倍体染色体(常染色体)分離〔diploid chromosomal(autosomal) segregation〕について予想される全体の分布と異なる場合に、倍数性(polyploidy)が検出される。
本発明の文脈において、細胞または単一細胞は、ポリヌクレオチドゲノムまたはその一部を含む、任意の生物学的細胞または細胞様構造であり得る。従って、細胞はウイルス、原核細胞、または真核細胞(例えば、動物細胞または植物細胞)であり得、好ましくは、動物細胞が哺乳動物細胞(例えば、マウス細胞、ラット細胞またはヒト細胞)である。任意の細胞タイプ(type)または任意の組織起源の任意の細胞が、本発明のために使用され得る。好ましくは少なくとも1つの単一細胞が患者の細胞サンプルから得られ、ここで、前記単一細胞は疾患に関連する細胞であるか、または前記患者の健康な細胞であり、好ましくは前記方法が疾患および/または健康な細胞に関連する多数の単一細胞について実施される。
本発明の方法は障害を診断するために、または対象が障害を発症する確率のために、そして最後に、障害を病期分類するために、またはそれをモニタリングするために、またはさらには疾患重症度を推定するために、特に有用である。あらゆる種類のSVに関連する多くの遺伝性疾患がある。従って、本発明のいくつかの好ましい実施態様はまた、標的染色体領域内の検出されたSVの同一性、位置、または数に基づいて状態を診断するさらなる工程(f)を包含する。診断用途の詳細は、本明細書において以下に提供される。いくつかの実施態様では、前記標的染色体領域の検出されたSVを、健康な細胞の染色体領域の既知の状態などの、前記染色体領域の既知の参照状態と比較することができる。さらに、SVの起こり得る病理学的影響を検出するために、本発明は、標的染色体領域内のSVに影響された遺伝子または遺伝子エレメントを検出することを含み得る。本発明は検出された各SVの染色体位置を同定するので、例えば、それらのオープンリーディングフレームが、SVのブレークポイントによって、またはコピー数の変更によって、または遺伝子領域における任意の調節エレメントの障害によって、破壊される場合、SVによって影響される遺伝子エレメント(好ましくは、遺伝子)をさらに同定することが好ましい実施態様であり得る。
本明細書中に開示される発明による任意の方法はいくつかの好ましい実施態様において、in vitro方法であり、および/またはin silico方法である。
いくつかのさらなる実施態様では本明細書中の他の箇所で既に記載されているように、この方法は多数の単一細胞ライブラリを用いて実施される。そのような実施態様では、方法が例えば、分析された単一細胞集団の任意の1つ、任意の組み合わせ、またはすべてのチャネル(i)~(iii)のベイズ(Bayesian)ネットワークを使用することによって、所与の位置でのSVの発生確率を計算する工程をさらに含むことができる。
scTRIPを用いた核型分析(karyotyping)
ゲノムの核型分析は、臨床実践と研究の両方において価値ある方法である。それは、生殖医療において、患者の遺伝子異常、または疾患関連組織、または胚細胞を診断することのいずれかを含む。研究用核型分析は、このようなSV、進化における事象および表現型(phenotypes)の遺伝パターンの研究を可能にする。伝統的な核型分析は、通常、ギムザ染色(Gバンド法)などの労力集約的な方法を用いて、リンパ球および羊膜細胞に対して行われる。染色体は光学顕微鏡で可視化されるので、詳細な突然変異(染色体のごく一部を含む)を解決する能力は限られている。FISH (fluorescent ire situ hybridization)などのより詳細な核型分析技術が利用可能であるが、それらは特異的プローブに依存し、染色体セット全体(すなわち、完全なゲノム)に対してFISHを行うことは経済的または技術的に実現可能ではない。
従って、本発明の目的は、別の態様において、単一細胞、または複数の単一細胞の集団、またはそのような細胞が得られる対象を核型分析する方法によって解決され、該方法は以下を含む、
(a) 少なくとも1つの単一細胞、または単一細胞の集団の各々の、少なくとも1つの標的染色体領域の、好ましくは完全なゲノムの、ストランド特異的シーケンスデータを提供し、
(b)本明細書の他の箇所に記載されているように、scTRIPの方法を実行し、
(c)前記単一細胞のまたは単一細胞の集団の標的染色体領域内の1つ以上のSVを検出し、そして、
(d)scTRIP法の出力から全ての検出されたSVに基づいてin silico核型を得る;例えば、核型は、分析されたゲノムの概略図表現上のSVの位置、確率および/または型によって視覚化され得る。このような表現は、染色体がその中期(metaphase)または前中期(prometaphase)にある状態で、分析されたゲノムに相当することができる。このようなin silico核型の例を図に示す。
好ましくは、この方法が例えば、可能な転座および異数性を含む包括的な核型を得るために、ならびに細胞集団内に見出されるすべてのSVの対立遺伝子頻度を得る可能性を得るために、細胞集団を用いてscTRIPの方法を実施することを包含する。
したがって、さらに提供されるのは、少なくとも1つの単一細胞のゲノムを核型分析する方法であって、a)少なくとも1つの単一細胞のゲノムのランダム位置から複数の(好ましくは重複しない)ストランド特異的シーケンスを得ること; b) マッピングされたストランド特異的シーケンスのテスト分布を得るために、前記テストストランド特異的シーケンスをゲノム参照足場にマッピングすること; c)参照足場内の所定のシーケンスウィンドウに割り当てること; i) マッピングされたシーケンスリードの数、ii) マッピングされたフォワードストランドリードの数およびリバースストランドリードの数、好ましくはその比率、およびiii) マッピングされたシーケンスの3つの層状テスト分布を得るために、ストランド特異的リードにハプロタイプ同一性(H1/H2)を割り当てること; d)予測される分布間の統計的に有意な変化を同定すること(このような変化は少なくとも1つの単一細胞のゲノムにおける核型異常を示す);またはe)3つの層状テスト分布を、参照細胞(例えば、健常細胞)から得られる参照分布と比較すること;を含む、方法である。 ここで、有意な差が存在する場合、前記差は少なくとも1つの単一細胞と参照細胞との間の核型の差を示す。
一態様では、本発明が核型分析の方法の出力データにも関する。
診断
多くの疾患および障害は生殖細胞系ゲノムの構造変異、または障害に関連する細胞または組織の体細胞的変異と関連しており、最も顕著な例は、しばしばゲノムまたは染色体の不安定性と関連する癌である。癌のような疾患は、しばしば高度の染色体不安定性を特徴とする。「染色体不安定性:chromosomal instability」(CIN)という用語は以前に定義されており、本発明のこの局面に等しく適用される。好ましい実施態様において、本発明は、異常または増加したCINに関連する疾患(癌など)を診断する方法に関する。染色体不安定性の程度は、従来技術において、1つの特定の染色体またはいくつかの染色体について動原体(centromeres)の数を決定することによって定量化され得る。しかしながら、本明細書に記載される本発明は任意の所与のサンプルにおける構造的変化について、はるかに速く、より安価で、より包括的な視野を提供し、したがって、CINの改善された定量化を可能にする。従って、好ましい局面および実施態様において、本発明はまた、種々の状況における遺伝的安定性を研究するために使用され得る。
従って、本発明は別の態様において、対象における疾患を診断する方法に関し、この方法は対象の1つ以上の細胞のストランド特異的シーケンスデータを提供する工程、本明細書中に記載されるようなscTRIPの方法を実施する工程、任意のSVを1つ以上の細胞内で検出する工程、および検出されたSVを参照状態と比較する工程を包含し、ここで、対象のサンプルにおける1つ以上のSVの変異された数、タイプ(type)または位置(location)は疾患(例えば、癌)のような状態の存在を示した。いくつかの例では、本発明がサンプル中で検出されたSVの型および数に基づくCINの定量化を含み得る。
本発明の方法によって診断され得る障害は多様であり、任意の生殖系列にコードされる遺伝的障害または体細胞遺伝事象に関連する障害を含む。
SVに関連するヒト遺伝性疾患の非限定的な例としては、以下の、それらの遺伝子位置を含む:
5q11-q13(アンジェルマンAngelman症候群)、5p15.2-p15.3(Cri-du-chat症候群:ネコ鳴き症候群)、22q11.2(ディジョージDiGeorge症候群)、17P13.3(Miller-Dieker症候群)、15q11-q13(Prader-Willi症候群)、22q11.2(Shprintzen症候群)、17p11.2(Smith-Magenis症候群)、7q11.23(Williams-Beuren症候群)、4p16.3(Wolf-Hirschhorn症候群)、1q21.1(微小欠失1q21.1)、1q21.1(微小重複1q21.1)、1q41q42(微小欠失1q41q42)、2p15p16.1(微小欠失2p15p16.1)、3q29(微小欠失3q29)、7q11.23(微小重複7q11.23)、9q22.3(微小欠失9q22.3)、12q14(微小欠失12q14)、14q11.2(微小欠失14q11.2)、15q13.3(微小欠失15q13.3)、15q24(微小欠失15q24), 16p11.2(微小欠失/重複16p11.2)、16p11.2p12.2(微小欠失16p11.2p12.2)、16p13.1(微小欠失16p13.1)、16p13.1(微小重複16p13.1)、17p11.2(Potocki-Lupski症候群)、17p11.2(微小重複17p11.2)、17q21.31(微小欠失17q21.31)、19q13.11(微小欠失19q13.11)、22q11.2(遠位微小欠失22q11.2)、Xq28(微小重複Xq28)、1p32.1-p31.1(微小欠失&重複1p32-p31)、7q32.2-q34(微小欠失7q33)、及び6q22.33-q23.3(微小欠失6q22.33)。
多くの癌疾患は染色体異常と関連している。したがって、患者検体が参照と比較して異常なCINまたはCINの増加を示した場合には、一般的に癌と診断される可能性がある。分析され、予測され、診断され、またはモニターされる本発明の文脈における癌は、以下の癌の非限定的なリストから選択される:
聴神経腫;腺癌;副腎癌;肛門癌;血管肉腫(例えばリンパ管肉腫、リンパ管内皮肉腫、血管肉腫);垂癌;良性単クローン性免疫グロブリン症;胆汁の癌(例えば肝内胆管癌);膀胱癌;乳癌(例えば胸、胸の乳頭状癌、乳がん、胸の髄様癌の腺癌);脳腫瘍(例えば髄膜腫、膠芽腫、神経膠腫(例えば星状細胞腫、乏突起膠腫)、髄芽細胞腫);気管支癌;類癌腫;子宮頸癌(例えば頚部の腺癌);絨毛癌;脊索腫;頭蓋咽頭腫;結腸直腸癌(例えば結腸癌、直腸癌、結腸直腸の腺癌);結合組織癌;上皮性悪性腫瘍;脳室上衣腫;内皮肉腫 (例えばカポジ肉腫、複合の特発生多発性出血性肉腫);子宮内膜癌(例えば子宮癌、子宮肉腫);食道癌(例えば食道、バレットの腺癌);ユーイング肉腫;目癌(例えば眼内の黒色腫、網膜芽細胞腫);よく知られている過好酸球増加症;胆嚢癌;胃癌(例えば胃腺癌);消化管間質腫瘍(GIST);生殖細胞癌;頭頸部癌(例えば頭頸部扁平上皮癌、口腔癌(例えば口の扁平上皮癌)、喉頭癌(例えば喉頭癌、咽頭癌、鼻咽腔癌、口腔咽頭癌));造血器癌(例えば急性リンパ性白血病(ALL)(例えばB細胞ALL、T細胞ALL)、急性骨髄性白血病(AML)(例えばB細胞AML、T細胞AML)、慢性骨髄性白血病(CML)(例えばB細胞CML、T細胞CML)および慢性リンパ球性白血病(CLL)(例えばB細胞CLL、T細胞CLL)のような白血病); リンパ腫、例えばホジキン・リンパ腫(HL)(例えばB細胞HL、T細胞HL)および非ホジキン・リンパ腫(NHL)(例えば拡散した大細胞タイプリンパ腫(DLCL) のようなB細胞NHL)(例えば、拡散する大きなB細胞リンパ腫)、濾胞性リンパ腫、慢性リンパ球性白血病/小さなリンパ球性リンパ腫(CLL/SLL)、外套細胞リンパ腫(MCL)、帯域B細胞リンパ腫(例えば、粘膜に関連するリンパ組織(MALT)リンパ腫、結節点の帯域B細胞リンパ腫、脾臓の帯域B -細胞リンパ腫)、主要な縦隔のB細胞リンパ腫、バーキットリンパ腫、リンパ形質細胞性リンパ腫(つまりヴァルデンストレームマクログロブリン血症)、ヘアリー・セル白血病(HCL)、免疫芽細胞性の大細胞タイプリンパ腫、前駆物質B -リンパ芽球性リンパ腫および主要な中枢神経系(CNS)リンパ腫;また前駆物質T-リンパ芽球性リンパ腫/白血病のようなT細胞NHL 、辺縁のT細胞性リンパ腫(PTCL)(例えば皮膚のT-細胞リンパ腫(CTCL)(例えば菌状息肉腫、セザリー症候群)、血管免疫芽細胞性T細胞リンパ腫、結節外のナチュラルキラーT細胞性リンパ腫、腸疾患タイプT細胞性リンパ腫、皮下の皮下脂肪組織炎のようなT細胞性リンパ腫および未分化大細胞リンパ腫);上に記述されるような1つ以上の白血病/リンパ腫の混合物;また多発性骨髄腫(MM)、重鎖病(例えばα鎖病、ガンマ鎖病、ミュー鎖病);血管芽細胞腫;下咽頭癌;炎症性の筋線維芽細胞腫瘍;免疫細胞のアミロイドーシス;腎臓癌(例えば腎芽細胞腫(別名、ウィルムの腫物、腎細胞癌));肝臓癌(例えば肝細胞性の癌(HCC)、悪性肝細胞癌);肺癌(例えば気管支原生癌、小細胞肺癌(SCLC)、非小細胞肺癌(NSCLC)、肺の腺癌);平滑筋肉腫(LMS);組織肥満細胞症(例えば全身性肥満細胞症);筋肉癌;骨髄異形成症候群(MDS);中皮腫;骨髄増殖性疾患(MPD)(例えば真性赤血球増加(PV)、本質的な血小板増加症(ET)、特発性骨髄化生(AMM) (別名、骨髄繊維症(MF)、慢性の特発性の骨髄繊維症、慢性骨髄性白血病(CML)、慢性好中球性白血病(CNL)、高好酸球症候群(HES));神経芽細胞腫;神経繊維腫(例えば神経繊維腫症(NF)タイプ1あるいはタイプ2、神経鞘腫症);神経内分泌の癌(例えば消化管ホルモン神経内分泌腫瘍(GEP-NET)、類癌腫);骨肉腫(例えば骨肉腫);卵巣癌(例えば嚢胞腺癌、卵巣の胎児性癌、卵巣の腺癌);乳頭状腺癌;膵臓癌(例えば膵臓の腺癌、管内の乳首のムチンの新生物(IPMN)、島細胞腫);陰茎癌(例えば陰茎と陰嚢のパジェット病);松果体腫;原始神経上皮腫瘍(PNT);形質細胞新形成;傍腫瘍性症候群;上皮内の新生物;前立腺癌(例えば前立腺腺癌);直腸癌;横紋筋肉腫;唾液腺癌;皮膚癌(例えば扁平上皮癌(SCC)、角化棘細胞腫(kA)、黒色腫、基底細胞癌(BCC));小腸癌(例えば垂癌);軟部組織肉腫(例えば悪性線維性組織球腫(MFH)、脂肪肉腫、悪性の末梢神経鞘腫瘍(MPNST)、軟骨肉腫、繊維肉腫、粘液肉腫);脂腺癌;小腸癌;汗腺癌;滑膜腫;睾丸癌(例えば精上皮腫、睾丸の胎児性癌);甲状腺癌(例えば甲状腺、乳首の甲状腺癌(PTC)、骨髄の甲状腺癌の乳頭状癌);尿道癌;膣癌;また外陰癌(例えば外陰のパジェット病)。
障害を診断するための本発明の方法は、好ましい実施態様では純粋にin vitroまたはin silicoで実施される方法である。
他の実施態様では、本発明の診断が以下のステップ(診断される対象のサンプルを得るステップ)のいずれか1つまたはすべてを含んでもよい。このようなサンプルは、ゲノム材料を含む任意の生体サンプル、好ましくは対象の細胞サンプルであり得る。このようなサンプルは、対象の一般的なゲノム状態を分析するための任意の供給源から得られ得るか、または病理学に関与することが疑われる組織または細胞タイプから特異的に得られ得る。従って、このような生体サンプルは、本明細書中に提供されるサンプルの一般的な定義に加えて、任意の生物学的組織、器官、器官系または流体(fluid)を含み得る。このようなサンプルとしては痰、血液、血液細胞(例えば、白血球)、羊水、血漿、精液、骨髄、および組織またはコア(core)、微細またはパンチ針生検サンプル、尿、腹水、および胸膜液、またはそれらからの細胞が挙げられるが、これらに限定されない。生物学的サンプルは、組織学上の目的のために採取された凍結切片などの組織の切片(section)を含んでもよい。生体サンプルはまた、「患者サンプル」と呼ばれ得る
診断に含まれるさらなる工程は、本発明の方法で分析されるDNAの単離であり得る。DNAを得、それを精製し、シーケンスアプローチのために調製するこのような方法は、当業者に周知である。さらに、本発明の診断方法は、ストランド特異的シーケンスデータを得るためのストランド特異的シーケンスを含んでもよい。
細胞品質管理(Cell Quality Control)
別の態様において、本発明は単一細胞若しくは単一細胞の集団内の単一細胞の染色体安定性を評価するための方法を提供し、この方法は前記単一細胞若しくは単一細胞の集団におけるSVの増加した総数、または増加した数が染色体不安定性を示す、先行する請求項のいずれか1つに記載の方法を実施することを包含し、そしてここで、SVの任意の1つの型または複数の型の増加した総数、または増加した数は染色体不安定性を示す。
本明細書で既に言及したように、CIN(染色体不安定性)は、多くの疾患、特に癌の一般的な指標である。したがって、本発明のscTRIPを用いてCINをテストすることは、細胞が増加したCINを示すので、細胞集団が、低品質であるかどうかに容易にアクセスするためのアプリケーションを提供する。この方法は遺伝子操作された細胞または細胞の集団の品質管理において使用するためのものであり、増加した不安定性は、品質の喪失を示す。
治療目的のための自家または異種、または外来細胞の遺伝子工学を含む遺伝子編集および自己T細胞療法の時代において、それらがヒト患者に投与される前に、改変された細胞を品質管理する必要性が増加する。細胞の遺伝子工学は、遺伝的安定性に影響を及ぼす可能性のある改変細胞のゲノムに導入するリスクを常に負う。最悪の場合のシナリオでは、患者への投与時にCINが増加すると、癌性障害の発症につながる可能性があり、これは全費用をかけて回避しなければならない。本発明は細胞の集団にわたってSVを評価するための迅速かつ安価な方法を提供するので、再注入の前に、このような操作された細胞の品質管理手順として使用され得る。1つの実施態様において、この方法は、操作された細胞または細胞株のサンプル中のSVを検出する工程、およびそれを参照細胞または参照状態と比較する工程を包含する。CINの増加が観察されれば、遺伝子操作された細胞の質が低下することになる。また、特定のタイプの問題のあるSVの発生は、操作された細胞を廃棄する結果となり得る。
好ましくは、この局面において、分析される単一の細胞または単一の細胞の集団は遺伝子編集、ウイルス組み込みなどによって遺伝子操作された細胞である。好ましい操作された細胞は、キメラ抗原受容体(CAR)-T細胞、T細胞受容体(TCR)操作細胞、または抗体操作細胞などの免疫細胞である。しかし、任意の細胞または細胞株は、本発明の方法を用いた品質管理試験に供され得る。このような適用には、誘導多能性幹細胞(iPSC)の制御などの幹細胞研究が含まれる。従って、このような幹細胞、好ましくはiPSCは、本発明の種々の局面および実施態様に従って分析される、好ましい単一細胞または細胞集団である。
いくつかの実施態様では、単一細胞若しくは単一細胞の集団が自己免疫細胞療法などの患者の細胞療法に使用するためのものである。
別の態様において、本発明はまた、染色体安定性に対する候補化合物の効果について候補化合物をスクリーニングする方法に関する。この方法は好ましくは少なくとも1つの単一細胞、または細胞集団を候補化合物と接触させ、その後、処置された細胞においてSVを得るために、本明細書中に前に記載される任意のscTRIPの方法を実施する工程を包含する。この方法の別の工程は、処理された細胞中の検出されたSVを、参照と比較すること、または処理前の細胞と比較すること、または並行して非処理細胞と比較することを含み得る。
スクリーニングのための方法は、例えば、ゲノム安定性に対する治療化合物の副作用を試験するために適用され得る。このような化合物はゲノム安定性に影響を及ぼすことが疑われ得る任意の化合物であり得、好ましくは、ポリペプチド、ペプチド、糖タンパク質、ペプチド模倣体、抗体または抗体様分子;DNAまたはRNAなどの核酸、例えば、アンチセンスDNAまたはRNA、リボザイム、RNAまたはDNAアプタマー、siRNAなど(ペプチド核酸(PNA)などのその変異体または誘導体を含む);CRISPR/Cas9構築物などの標的遺伝子編集構築物、多糖またはオリゴ糖などの炭水化物(その変異体または誘導体を含む);脂肪酸などの脂質(その変異体または誘導体を含む);または小分子リガンド、小細胞透過性分子、およびペプチド模倣化合物を含むがこれらに限定されない小有機分子。したがって、候補化合物という用語は、また、ゲノム安定性に対するそのような方法の能力を試験するために、細胞を処置または改変する任意の方法を含むものとする。しかしながら、化学療法剤のような抗癌剤の試験が好ましい。
さらに、いくつかの実施態様および態様における本発明は、以下の特に好ましい項目化された実施態様に関する:
項目1:
少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを提供することを含む、単一細胞トリチャネルプロセシング(scTRIP)による少なくとも1つの標的染色体領域のシーケンスデータを分析するための方法であって、該ストランド特異的シーケンスデータは少なくとも1つの単一細胞の標的染色体領域のシーケンスによって得られる多数のストランド特異的シーケンスリードを含み、該シーケンスリードを、または該シーケンスリードが等しくフラグメント化されている場合は、そのようなシーケンスリードの各フラグメント化部分を、参照アセンブリにアライメントさせ(aligning)、次いで、任意の所与の選択されたウィンドウにおいて、3つの層のシーケンス情報:
(i)全シーケンスリードの数、またはその一部(「リード深度」としても知られる);
(ii)フォワード(またはワトソン) シーケンスリードの数、またはその一部、およびリバース(またはクリック) シーケンスリードの数、またはその一部;
(iii)特定のハプロタイプ同一性(H1及び/又はH2のような)を割り当てられた(assigned) シーケンスリードの数、またはその一部
、のうちの少なくとも2つを割り当てる(assign)、方法。
項目2:
以下の特定の工程を含む、項目1に記載の方法:
(a)少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを提供し、該ストランド特異的シーケンスデータは、少なくとも1つの単一細胞の標的染色体領域のシーケンスによって得られる多数のストランド特異的シーケンスリードを含む;
(b)各シーケンスリードまたはその一部を少なくとも1つの標的染色体領域の参照シーケンスにアライメントさせ(aligning)、該シーケンスリードまたはその一部を、少なくとも1つの標的染色体領域の参照シーケンスに沿った位置順序にする;
(c)少なくとも1つの標的染色体領域に沿った染色体ハプロタイプ同一性(H1/H2)を、(b)からの、各アライメントされたシーケンスリードまたはその一部への、割り当て
(d)シーケンス情報の以下のチャネル(channels)のうちの任意の2つを、位置順序付けられアライメントされたシーケンスリードの少なくとも1つの所定のシーケンスウィンドウ、またはその一部に、割り当てる(assigning)こと:
(i)少なくとも1つの所定のシーケンスウィンドウにアライメントされた、全シーケンスリードの数またはその一部の数;
(ii)少なくとも1つの所定のシーケンスウィンドウにアライメントされた、フォワードシーケンスリードの数、またはその一部、およびリバースシーケンスリードの数、またはその一部の数;
(iii)少なくとも1つの所定のシーケンスウィンドウにアライメントされた、第1の(H1)ハプロタイプ同一性に割り当てられたシーケンスリードの数、若しくはその一部;および/または、第2の(H2)ハプロタイプ同一性に割り当てられたシーケンスリードの数、若しくはその一部の数。
項目3:
シーケンス情報(i)~(iii)の3つのチャネルすべてが割り当てられる、項目1または2に記載の方法。
項目4:
少なくとも1つの標的染色体領域をセグメント化する工程を含み、該セグメント化は各個別にまたは一緒に、シーケンス情報(i)~(iii)のチャネルに基づいて実行される、項目1~3のいずれか1つに記載の方法。
項目5:
項目2のステップ(a)におけるような、提供されたシーケンスリードが、シーケンスリードのリード長さとは無関係に提供される、項目1~3のいずれか1つに記載の方法。
項目6:
ストランド特異的シーケンスデータが少なくとも1つの標的染色体領域の少なくとも2つの別個のストランドのうちの1つにマッピングするシーケンスリードを含み、好ましくは、少なくとも2つの別個のストランドのうちの他方にマッピングするシーケンスリードをさらに含み、例えば、一方のストランドが父系由来であり、他方のストランドが母系染色体由来である(ただし、モノソミーの場合には一本鎖にマッピングするシーケンスリード、または三倍体の場合には追加のストランドなどをさらに含むことができる)、項目1~5のいずれか1項に記載の方法。
項目7:
ストランド特異的シーケンスデータが、"Strand-seq"(Falconerら、2012 NatureMethods. 9(11): 1107-1112)によって得られる、項目1~6のいずれか1項に記載の方法。
項目8:
シーケンスデータが、多数の非重複および/または重複シーケンスリードを含む、前述の項目のいずれか1つに記載の方法。
項目9:
項目2のステップ(b)のように、リードされた各シーケンスまたはその一部が、ストランド特異的シーケンス情報を維持するために、フォワードまたはリバースにアライメントされる、前述の項目のいずれか1つに記載の方法。
項目10:
前記項目のいずれか1つに記載の方法であって、さらに、次の工程を含む、方法:
(e)位置順序付けられ、アライメントされたシーケンスリードのシーケンスデータ内の多数(少なくとも2つ)のウィンドウについて工程(d)を実行し、チャネル(i)~(iii)のいずれか1つ、またはすべて、またはそれらの任意の組合せの情報の普通ではない(unusual)/変更された(altered)/変化した分布(changed distribution)を有する1つまたは複数のウィンドウを含むサブ領域を、多数のウィンドウ内で識別することによって、構造変異(SV)を識別すること。
項目11:
前記サブ領域が、少なくとも1つ、好ましくは2つのブレークポイントによって定義され、そのようなブレークポイントが、参照状態と比較され、および/またはシーケンスデータ内の前記チャネル情報の全体的な分布と比較され、チャネル(i)~(iii)の情報のいずれか1つ、または任意の組み合わせ、またはすべてにおける、変化を示す、項目10に記載の方法。
項目12:
前記染色体領域の前記参照状態が、前記染色体領域の情報の異常のない分布(non-aberrant)が予想されるチャネルの情報の状態である、および/または所定の状態である、項目9または10に記載の方法。
項目13:
標的二倍体染色体領域における該参照状態が、二倍体標的染色体領域が、第1の親標的染色体領域に由来する第1のテンプレートストランドおよび第2の親標的染色体領域に由来する第2のテンプレートストランドを含む場合における、項目12に記載の方法であって;
該参照状態は、以下である:
第1の親標的染色体領域がワトソン(W)であり、第2の親標的染色体領域がクリック(C)であるならば、該WC参照状態は:
チャネル(i):全リードの数は、標的染色体領域(2N)の約2倍の存在に相当する;
チャネル(ii):各WストランドおよびCストランドについてのリードの数は、標的染色体領域(1N)の約1倍(1x)の存在に相当する;
チャネル(iii):H1同一性であるWリードの数は1xに相当し、H2同一性であるCリードの数は1xに相当する;又は

第1の親標的染色体領域がCであり、第2の親標的染色体領域がWであるならば、該CW参照状態は:
チャネル(i):全リードの数は、標的染色体領域(2N)の約2倍(2x)の存在に相当する;
チャネル(ii):各WストランドおよびCストランドについてのリードの数は、標的染色体領域(1N)の約1倍(1x)の存在に相当する;
チャネル(iii):H2同一性であるWリードの数は1xに相当し、H1同一性であるCリードの数は1xに相当する;又は

第1および第2の親標的染色体領域がWである場合、該WW参照状態は:
チャネル(i):全リードの数は、標的染色体領域(2N)の約2倍(2x)の存在に相当する;
チャネル(ii):Wストランドについてのリードの数は標的染色体領域(2N)の約2倍(2x)の存在に相当し、残りの(0N)リードのみが存在する(only residual (0N)reads are present);
チャネル(iii):H1同一性であるWリードの数は1xに相当し、H2同一性であるWリードの数は1xに相当し、残りのリードのみが0Nに相当して存在する;又は

第1および第2の親標的染色体領域がCである場合、該CC参照状態は:
チャネル(i):全リードの数は、標的染色体領域(2N)の約2倍の存在に相当する;
チャネル(ii):Cストランドについてのリードの数は標的染色体領域(2N)の約2倍(2x)の存在に相当し、残りのWリードのみが0Nに相当して存在する;
チャネル(iii):H1同一性であるCリードの数は1xに相当し、H2同一性であるCリードの数は1xに相当し、残りのWリードのみが0Nに相当して存在する;
ここで、SVは参照状態からの変異がある場合に検出され、任意選択で、SVは表1に示される変異に従って分類される。
項目14:
SVが転座であり、シーケンスデータは異なる染色体の多数の標的染色体領域を含み、転座が、他の染色体の1つまたは複数の他の染色体領域に対し比較され、1つの染色体の候補染色体領域間の、チャンネル(i)~(iii)の情報のいずれか1つ、すべて、または任意の組合せの全体分布の差によって同定される、項目10~12のいずれか1つに記載の方法。
項目15:
SVが変化した倍数性状態であり、シーケンスデータが異なる染色体の多数の標的染色体領域を含み、変化した倍数性状態が、他の染色体の1つまたは複数の他の染色体領域に対し比較され、1つの染色体の候補倍数性染色体領域間の、チャネル(i)~(iii)の情報のいずれか1つ、すべて、または任意の組合せの全体分布の差によって同定される、項目10~12のいずれか1つに記載の方法。
項目16:
シーケンスリードが20~500ヌクレオチドの長さを有し、シーケンスリードの一部がシーケンスリードが長さ閾値(500、好ましくは1000、またはそれ以上のヌクレオチド)を超える場合に使用され、このような長いシーケンスリードが、好ましくは20~500(~150)ヌクレオチドの長さを有する、該シーケンスリードのより小さい部分に、in silicoフラグメント化され、好ましくはデータセット内の前記シーケンスリードまたはその一部が、全体に匹敵するシーケンス長さ(an overall comparable sequence length)を有する、前項のいずれか1項に記載の方法。
項目17:
シーケンスリードが、標的染色体領域の0.001x~100x、好ましくは約0.01x~0.05xの全体カバレッジ(anoverall coverage)を有する、前述の項目のいずれか1つに記載の方法。
項目18:
工程(c)において、少なくとも1つの標的染色体領域に沿った染色体ハプロタイプ同一性(H1/H2)が好ましくはストランド配向情報を保持しながら(すなわち、ストランドを考慮した方法で)割り当てられ、好ましくは、このようなハプロタイプが、該シーケンスリードまたはその一部に、一塩基多型(SNP)を割り当てることによって、割り当てられ、好ましくはこのようなSNPが疾患関連を有さない、前述の項目のいずれか1つに記載の方法。
項目19:
ハプロタイプ同一性が、SNPを含むシーケンスリードまたはその一部に割り当てられ、SNPデータベースとの比較によって、または代わりに、対立遺伝子を同じ起源の多数のさらなるシーケンスされた単一細胞と比較することによって(例えば、StrandPhaseR:Porubskyら、2017を使用して)、SNPの対立遺伝子(allele)を同定することを含む、前述の項目のいずれか1つに記載の方法;
及び、任意選択で、ストランド同一性により、及び、同じストランド同一性を有し、そのSNPを含む、他のシーケンスリードまたはその一部との比較により、前記ハプロタイプ同一性を推論することによって、SNPを含まない、シーケンスリードまたはその一部に、ハプロタイプ同一性が割り当てられる、
方法。
項目20:
方法が少なくとも2つ以上の単一細胞、好ましくは10以上、より好ましくは50以上、最も好ましくは90以上3若しくは50以上の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを用いて実施され、好ましくは、単一細胞の多重度が、同じ個体および/または同じ組織もしくはサンプル型などの、同じまたは同一の起源から、由来する、前述の項目のいずれか1つに記載の方法。
項目21:
標的染色体領域が、1つ以上の染色体、好ましくは、二倍体生物の1つ以上の染色体である前項のいずれか1つに記載の方法。
項目22:
少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータが、前記単一細胞の完全なゲノムをカバーするデータを含む、前述の項目のいずれか1つに記載の方法。
項目23:
細胞が、原核細胞、真核細胞、例えば動物または植物細胞であり、好ましくは、動物細胞が、哺乳動物細胞、例えばマウス、ラットまたはヒト細胞である前項のいずれか1項に記載の方法。
項目24:
少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータが患者の細胞サンプルから得られ、前記単一細胞が疾患に関連する細胞であるか、または前記患者の健康な細胞であり、好ましくは、前記方法が疾患および/または健康な細胞に関連する多数の単一細胞について実施される、前述の項目のいずれか1つに記載の方法。
項目25:
細胞の、好ましくは二倍体ゲノム内の倍数性(polyploidy)状態および/または均衡型(balanced)若しくは不均衡型(unbalanced)転座を検出するための、前項のいずれか1つに記載の方法であって、該方法は単一細胞の影響を受けた染色体領域(染色体など)をカバーするストランド特異的シーケンスデータを含み、前項のいずれか1つの方法は、同じ起源の、および/または該倍数性および/または転座を共有すると予想される多数の単一細胞を用いて実施され;そして、ここで単一細胞の集団内のストランド配向の分布が、予想されるパターンから変化する場合に、倍数性(polyploid)または転座(translocation)が検出される、方法。
項目26:
項目25に記載の方法であって、各染色体についてシーケンスされたフォワードストランドまたはリバースストランドの分布が、50% WC、25% WWおよび25%CCなどの、二倍体染色体(常染色体)分離について期待される全体の分布と異なる場合に、倍数体性(polyploid)が検出されることをいう、方法。
項目27:
任意の所与の標的染色体領域(例えば、染色体)内の任意の所与のサブ領域についてのフォワードまたはリバースリードの分布が、単一細胞の多様性(multiplicity)内のそれらの分布によって証明されるように、所与の染色体の別のサブ領域と独立して分離する(segregate)場合に、転座が検出される、項目26に記載の方法。
項目28:
前記方法が、標的染色体領域内の検出されたSVの同一性、位置、または数に基づいて状態を診断するさらなる工程(f)を含む、前項のいずれか1つに記載の方法。
項目29:
前記標的染色体領域の検出されたSVが、前記染色体領域の既知の参照状態、例えば健康な細胞の染色体領域の既知の状態と比較される、項目28に記載の方法。
項目30:
前記方法が、標的染色体領域内のSVに影響された遺伝子または遺伝要素(genetic element)を検出することをさらに含む、前述の項目のいずれか1つに記載の方法。
項目31:
in vitro法またはin silico法である前項のいずれかに記載の方法。
項目32:
前記方法は、例えば、すべてのチャネル(i)~(iii)のベイズ(Bayesian)ネットワークを使用することによって、所与の位置におけるSVの発生の確率を計算する工程をさらに含む、前述の項目のいずれか1つに記載の方法。
項目33:
標的染色体領域における構造変異(SV)を検出する方法であって、項目9、および項目9を参照する場合の項目10~32に記載の方法を実施することを含む方法。
項目34:
単一細胞または複数の単一細胞の集団を、核型分析する(karyotyping)方法であって、該方法は以下を含む、
(a) 少なくとも1つの単一細胞若しくは単一細胞の集団の各々の、少なくとも1つの標的染色体領域の、好ましくは完全なゲノムの、ストランド特異的シーケンスデータを提供し、
(b)項目1~31の方法を行い、
(c)前記単一細胞若しくは単一細胞の集団の標的染色体領域内のSVを検出し、そして
(d)検出されたすべてのSVに基づくin silico核型(karyotype)を得る。
項目35:
対象における疾患を診断する方法であって、対象の1つ以上の細胞のストランド特異的シーケンスデータを提供するステップと、項目33に記載の方法を実施するステップと、1つ以上の細胞内で任意のSVを検出するステップと、検出されたSVを参照状態と比較するステップとを含み、ここで、対象のサンプル中の1つ以上のSVの変化した数、タイプ若しくは位置が、疾患、例えば癌などの状態の存在を示す、方法。
項目36:
単一細胞若しくは単一細胞の集団内の染色体不安定性(CIN)を評価するための方法であって、前記単一細胞若しくは単一細胞の集団におけるSVの増加した総数若しくは増加した数が、染色体不安定性を示す、前記項目のいずれか1つに記載の方法を実施することを含む方法。
項目37:
増加した不安定性が、品質の喪失、好ましくは前記細胞または細胞集団の(遺伝的)変化後の品質の喪失を示す、細胞または細胞集団の品質管理に使用するための、項目36に記載の方法。
項目38:
単一細胞若しくは単一細胞の集団が、遺伝子操作される、好ましくは再プログラミング、遺伝子編集またはウイルス組み込みなどによって遺伝子操作される、項目36または37に記載の方法。
項目39:
単一細胞若しくは単一細胞の集団が、自己免疫細胞療法などの患者の細胞療法において使用するためのものである項目36~38のいずれか1つに記載の方法。
項目40:
項目1から33のいずれか1つによる方法をコンピュータ上で実行するときに、そこに(theron that)記憶されているコンピュータ可読命令を備えるコンピュータ可読媒体。
項目41:
目的の少なくとも1つの単一細胞のゲノムを核型分析する(karyotyping)方法であって、該方法は以下を含む:
a)少なくとも1つの単一細胞のゲノムのランダム位置から複数の(好ましくは重複しない)ストランド特異的シーケンスを得るステップと、
b) マッピングされた(mapped)ストランド特異的シーケンスのテスト分布を得るために当該テストストランド特異的シーケンスをゲノム参照足場に、マッピングする(mapping)ステップと、
c)前記参照足場内の所定のシーケンスウィンドウに以下を割り当てるステップと、
i) マッピングされたシーケンスリードの数と、
ii) マッピングされたフォワードストランドリードの数と、リバースストランドリードの数と、好ましくはその比と、
iii) マッピングされたシーケンスの3層テスト分布を得るための、ハプロタイプ同一性(H1/H2)と、
d)予想される分布の間の統計的に有意な変化を同定するステップであって、そのような変化が少なくとも1つの単一細胞のゲノムにおける核型異常を示すステップ;又は、
e)3層テスト分布を、参照細胞(健常細胞など)から得られる参照分布と比較するステップとを含み、ここで、有意の差異が存在する場合、前記差異は、少なくとも1つの単一細胞と参照細胞との間の核型の差異を示す。
最後の態様では、本発明は、また、コンピュータ上で実行されるときに、本明細書で開示される本発明による方法、好ましくはscTRIPを実行する、そこに(theron that)記憶されたコンピュータ可読命令を備えるコンピュータ可読媒体に関する。
上述の実施態様は、多数の方法のいずれかで実施することができる。
例えば、実施態様は、ハードウェア、ソフトウェア、またはそれらの組み合わせを使用して履行されてもよい。ソフトウェアで実施される場合、ソフトウェアコードは、単一のコンピュータで提供されているか、複数のコンピュータに分散されているかにかかわらず、任意の適切なプロセッサまたはプロセッサの集合上で実行することができる。上述の機能を実行する任意の構成要素または構成要素の集合は一般に、上述の機能を制御する1つまたは複数のコントローラと見なすことができることを理解されたい。1つ以上のコントローラは、専用ハードウェアを使用するなどの多数の方法で、または上記の機能を実行するためにマイクロコードまたはソフトウェアを使用してプログラムされる汎用ハードウェア(例えば、1つ以上のプロセッサ)を使用して実施することができる。
この点において、少なくとも1つの実施態様はコンピュータメモリ(例えば、ハードドライブ、フラッシュメモリ、プロセッサワーキングメモリなど)、フロッピーディスク、光ディスク、磁気テープ、またはコンピュータプログラム(すなわち、複数の命令)で符号化された他の有形の非一時的コンピュータ可読媒体などの、少なくとも1つのコンピュータ可読記憶媒体(すなわち、少なくとも1つの有形の非一時的コンピュータ可読媒体)を含み、これらは、1つ以上のプロセッサで実行されると、上述の機能を実行することが理解されるべきである。コンピュータ可読記憶媒体はそこに記憶されたプログラムを任意のコンピュータリソースにロードして、本明細書で論じる技術を実施することができるように、移送可能である。加えて、実行されるとき、上述の機能を実行するコンピュータプログラムへの参照は、ホストコンピュータ上で実行されるアプリケーションプログラムに限定されないことが理解されるべきである。むしろ、「コンピュータプログラム」という用語は上述の技術を実施するために1つ以上のプロセッサをプログラムするために採用することができる任意のタイプのコンピュータコード(例えば、ソフトウェアまたはマイクロコード)を参照するために、本明細書では一般的な意味で使用される。
本明細書で使用される「本発明の」、「本発明による」、「本発明による」などの用語は、本明細書で説明および/または特許請求される本発明のすべての態様および実施態様を指すことが意図される。
本明細書で使用されるように、「含む」という用語は「含む」および「から成る」の両方を包含するものと解釈されるべきであり、両方の意味は具体的に意図されており、したがって、本明細書で使用される場合、「および/または」は2つの特定された特徴または構成要素のそれぞれの特定の開示として、他方を伴うか否かを問わず、と解釈されるべきである。例えば、「Aおよび/またはB」は(i)A、(ii)B、および(iii)A、および(iii)Bのそれぞれの特定の開示として、それぞれが本明細書で個別に記載されているかのように、と解釈されるべきである。本発明の文脈において、「約」および「およそ」という用語は。この用語は、典型的には示された数値から±20%、±15%、±10%、および例えば±5%の偏差を示す。当業者には理解されるように、所与の技術的効果に対する数値の特定のそのような逸脱は、技術的効果の性質に依存する。例えば、天然または生物学的な技術的効果は一般に、人工または工学的な技術的効果に対するものよりも大きなそのような逸脱を有し得る。単数名詞に言及するときに不定冠詞または定冠詞、例えば「a」、「an」または「the」が使用される場合、これは、他の何かが特に述べられていない限り、その名詞の複数形を含む。
特定の問題または環境への本発明の教示の適用、および本発明の変形形態またはそれに対する付加的な特徴(さらなる態様および実施態様など)の包含は、本明細書に含まれる教示に照らして当業者の能力の範囲内であることを理解されたい。
文脈が別段の指示をしない限り、上述の特徴の説明および定義は、本発明の任意の特定の態様または実施態様に限定されず、説明されるすべての態様および実施態様に等しく適用される。
本明細書に引用される全ての参考文献、特許、および刊行物は、その全体が参照により本明細書に組み込まれる。
図は以下示す:
図1は、以下:(a)Strand-seqシーケンスプロトコルの概要を示す。Strand-seqはBrdUを分裂細胞に組み込み、続いて、ニッキング(nicking)によりBrdU含有ストランドを除去し、残りのストランド21の短いリードシーケンスを含む。Strand-seqライブラリはストランドの向きと染色体のホモログ(homolog)(ハプロタイプ)の同一性を保っている。破線:ストランド(BrdU)標識。W, ワトソンストランド(オレンジ);C、クリック(緑); H、ハプロタイプ。(b)有糸分裂時のテンプレートストランドの同時分離パターンが、どのようにして単一細胞のSVを明らかにするかを示す図式。Del, deletion(欠失); Inv,inversion(逆位); Tr,translocation(転座)。誘導体染色体のセグメントは、DNA複製の間、同じテンプレートストランドを共有する。H1/H2、染色体のハプロタイプ1と2;H1/H2、別の染色体のハプロタイプ1と2。(c)scTRIP計算アプローチは、3つのデータ層:リード深度、ストランド比(strand ratio)、および染色体長ハプロタイプフェーズを利用する。Red lollipops(ロリポップ標識):重複するSNPに基づいてH1に割り当てられたリード;Blue lollipops:H2に割り当てられたリード。ハプロタイプフェーズはストランドを考慮した方法で評価され、フェーズWリードは、表意文字(ideogram)の左側にロリポップとして示され、フェーズCリードは右側に示される。従来のSV検出アプローチとは対照的に、scTRIPは、そのスケーラブルな(scalable)検出が単一細胞では実行不可能であると考えられている、不一致(discordant)または分割リード(split read)に依存しない。パネルd-fは、両方のハプロタイプが異なるストランド('WC/CW染色体')上に標識されている染色体の診断用フットプリント(footprints)を示す。 本発明者らのフレームワークは、また、CCおよびWW染色体上に同等のフットプリントを検出し、スコア化する(表1を参照)。 (d)「Del」(deletion:欠失)は、単一のハプロタイプに影響を及ぼすリード深度の損失として検出され、未変化のリード配向(read orientation)と組み合わされる。「Dup」(duplication:重複)は、未変化リード方向で、ハプロタイプ特異的な深度の増加として検出された。(e)「均衡型Inv(balanced Inversion:均衡型逆位)」は、未変化の深度で、ハプロタイプ-フェーズ化リード配向「フリップ(flips)」として同定される。「InvDup」(inverted duplication:逆位重複) は、同じハプロタイプのリード深度増加(gain)と一致する1つのハプロタイプについて検出された逆位の(inverted)リードによって特徴付けられる。(f)「均衡型転座(balanced translocation)」は、SVを有する(harboring)細胞において、同じペア化した(paired)ゲノム領域に影響を及ぼす相関化テンプレートストランドスイッチ(correlated template strand swiches)として検出される。 (g)SV検出のベイズ(Bayesian)フレームワーク。描写された確率分布は、H1上のInvDupを表す(両方のストランド上のセグメントは、ハプロタイプ1(H1)について見られるが、H2はWストランド上のみに表される);(h)ハプロタイプ認識SV分類についてのベイズグラフモデル(Bayesian graphical model)。モデルは、単一細胞におけるハプロタイプ認識SV検出を可能にするために使用されることが示されている。このグラフィックモデルは、共通のプレート表記(notation)を採用する:円は確率変数を表し、四角はモデルパラメータを表し、灰色(白色)のオブジェクトは観察された(潜在的)変数を表し、矢印は従属関係を表し、大きな長方形は囲まれた変数が複数回存在することを示す。このモデルは、J 単一細胞、K セグメント、およびH= 2 ハプロタイプを記述する。 ランダム変数:セグメント長 L、基底状態 T、ハプロタイプSV状態 V(推測すべき)、W/Cリードのコピー数 NW/C、W/C方向リードカウント XW/C、ハプロタイプによってタグ付けされたW/C方向でのリードカウント XW/C tagである。 リードカウントは、それらのハプロタイプによって観察されない(Hボックス内の白丸)がハプロタイプ情報を伴わずに観察される(Hボックス外の灰色の丸)ことに留意されたい。ヘテロ接合SNPと重複するリードの画分は、ハプロタイプ(Hボックス内のタグ付きグレーリードカウント変数)によって観察される。 モデルパラメータ:バックグラウンドリード値のフラクション α、負の二項パラメーター ρおよび r、ならびにヘテロ接合率 hである。
図2は、scTRIPが上皮細胞における欠失(deletion)、重複(duplication)、逆位(inversion)および染色体異数体(aneuploidies)を明らかにする。(A)DNAストランドとハプロタイプによって分離され(sepalated)ビニングされた(binned)リード数は、単一細胞〔W、ワトソンストランド(オレンジ); C、クリック(緑)〕におけるSVの存在を明らかにする。 左パネル:3p上のハプロタイプ解決された重複 (halotype-resolvedduplication)(Dup)、それはRPE-1には存在するが、C7には存在しない。 右パネル:C7に存在し、RPE-1には存在しない3q上のハプロタイプ解決された欠失(halotype-resolveddelation)(Del)。 ボックス「深度」(box 'Depth')はリードカウントを示し;「ストランド」('Strand')がW:C分画を示し;「フェーズ」('Phase')がハプロタイプフェーズSNPの位置を示し、ロリポップ配向は、SNPを含むリードのストランド状態(strand state)を反映する(図の左側のW、右側のC)。(B)染色体17pハプロタイプ解決された逆位(chromosome17p haplotype-resolved inversion)(Inv)は、C7とRPE‐1の両方を共有していた(shared across)。 (C)一染色体性染色体(monosomic chromosome)の診断的フットプリント(diagnostic footprint)。 図に示すテンプレートストランドの状態パターン(template strand state patterns)は、C7に由来し、これは、核型的に(karyotypically)定義される30モノソミー13(monosomy 13)を有する。左パネルは、モノソミー(1N)に特徴的な目に見える1:0パターンを有する、2つの単一細胞からの13番染色体ストランドパターンを示す。右パネルは、154個のシーケンスされた細胞にわたり観察されたWおよびCリードの画分(fraction)を要約する。(D)トリソミー領域(trisomic region)の診断フットプリント。 図に示すテンプレートストランド状態パターン(template strand state patterns)は、核型的に(karyotypically)規定された10qトリソミー領域27を示すRPE-1細胞由来である。左パネルは、4つの単一細胞からの第10染色体ストランドパターンを示す。右パネルは、80個のシーケンスされた細胞にわたるトリソミー(3N)10q領域について観察されたWおよびCリードの画分を要約し、トリソミーに特徴的な2:1および3:0ストランド比(strand ratio)を明らかにする(表2)。 図3は、単一細胞における転座検出(translocation discovery)を示す。(A)BM510では、10番、13番、15番、17番および22番染色体由来のセグメントはそれらが由来したそれぞれの染色体と同時分離(co-segregate)できなかったことから、転座への推定上の関与が示唆された(「H2-tr」または「chr10tr」のような「tr」の使用はこれらのセグメントの転座状態の候補を示す)。 (B)中央のピラミッド:BM510における転座の偏りのない分析。各ハプロタイプについてのセグメントのテンプレート-ストランド相関値(template-strand correlation)を示すペアワイズヒートマップ(pairwise heatmap:ペアの可視化グラフ)であり、転座のセグメントの同時分離(segment co-segregation)診断フットプリント(図1F)を強調する(相関値がここではベンジャミーニ-ホッホベルク(Benjamini-Hochberg)補正P値として表される)。黒い輪郭のオレンジ色のボックスは、4つのケースで有意な相関(P<0.01;フィッシャーの正確確率検定:Fisher's exacttest))を描いており、これはBM510で発見された4つの派生染色体に相当する。左右のスキーム:着色ボックスは、非相反der(X)t(X;10)転座〔non-reciprocal der(X)t(X:10)translocation〕およびt(15;17)相反転座〔t(15;17) reciprocaltranslocation〕についてのセグメントのハプロタイプ解決テンプレートストランド状態を例示する。(いずれの場合も、視覚化のために表示される細胞はわずかである。)ボックスの色:W(オレンジ)、C(緑)。 灰色の矢印はセグメント間のペアの相関を強調し、ここで、ペアのセグメントは常に同じストランド状態(same strand state)(例えば、chrXおよびchr10tr)を示すか、または常に逆位ストランド状態(inverse strand state)〔例えば、chr15trおよびchr17;これらの転座パートナー(trnslocationpartner)の逆位の方向性(inverted orientations)を反映する〕を示す。17pの転座部分内の逆位(inversion)は、円形矢印で示されている。 (C)中心:4つの推論された派生染色体の漫画表現。破線は、末端動原体染色体(acrocentric chromosome)13および15における未集合化領域(unassembled region)に相当する。 (D)BM510(ここでは「B」と表記)、RPE-1(「R」と表記)およびC7(「C」と表記)について作成したRNA-seqデータから計算した(computed)、ゲノムウィンドウ間(across genomic windows)の転座および平均遺伝子発現値(translocationsand averaged gene expression values)を描いたCircosプロット77。図S11は、ハプロタイプによる発現を示す(resolve)。(E)BM510における遺伝子融合(gene fusion)の検証。NTRK3(緑色)、NTRK3-AS1(黄色)およびTP53(青色)についてのRNA-seqに基づくリード深度を、C7、RPE-1およびBM510について示す。紫色の破線:検出された融合接合(fusionjunction)。左下隅:推定融合転写産物(inferredfusion transcript)。紫色のボックスは開始コドン位置を示す。右下隅:BM510のNTRK3調節異常(dysregulation)。R1-3, RPE-1のRNA-seq複製物。Ex、エクソン。 図4は、複合再配列処理(complex rearrangement processes)の単一細胞の特徴付けを示す。(A)10p上のInvDup媒介増幅領域を有するC7細胞のストランド特異的なリード深度で、BFBサイクルから生じる同じハプロタイプの隣接末端欠失(DelTer)を伴う。(B)154個のC7細胞からのリードデータを集約した。色は、単位複製シーケンス内で同定された6つのコピー数セグメント(six copy number segments)(赤、青、緑、紫、橙および黄)を示す。灰色:単位複製シーケンスに隣接する領域。(D)10pにおける遺伝的多様性。CN (x軸)は、154個のシーケンスされたC7細胞(y軸)を横切って示され、(B)の各セグメントについてのCNの細胞ごとの推定値を提供する。少なくとも3つの異なるグループが:高CN、中間CN、および10p領域の損失が容易に識別可能である(パネル(C)と比較)。エラーバーは95%信頼区間を反映する。矢印は、10p単位複製シーケンスにおいてCN = 1および~440のCNを有する細胞を示す。 (C)赤色で示された、10pアンプリコン領域での、推定最大コピー数(CN)が1(上段パネル)、CNが~110(中段パネル)、およびCNが~440(下段パネル)の、3つのC7細胞の描写。そのscTRIPが該アンプリコン領域と不均衡な転座を受けたと推定される、15q上の獲得セグメントが、下の方(beneath)に示される(このSVは、単位複製シーケンスを欠く細胞には存在しない;上段パネル)。W(緑)およびC(オレンジ)についてのリードカウントは、50(*、飽和リードカウント)でキャップ(cap)される。Tr:転座。 (E)sSVのモデルは、「メジャークローン」について見られる観察された構造を導く。BFBサイクルによる増幅は典型的には2nコピー数ステップで進行し、~7連続BFBサイクルが起こったことを示唆する。著者らのモデルによれば、15q末端シーケンスの転座は10pを安定化した。DSB、二本鎖ブレーク(ブレーク:break)。(F)同じハプロタイプ上のDelTerに挟まれたInvDupに相当するBFBの瘢痕は、単一BM510細胞で同定された。 (G)単一のBM510細胞におけるDelおよびInvを含むクラスター化再配列。scTRIPに典型的な3つのデータチャネルに分割されたビニングされた(binned)リードデータ(左)を示す。すべてクラスター化したSVは単一のハプロタイプ(H1、赤)に影響を及ぼす。 図5は、PDX由来T-ALL再発(relapses)の単一細胞塩基シーケンスに基づく核型を示す。(A)scTRIPにより作製したSVコール(call)に基づく単一細胞のシーケンスを用いて、41のシーケンスされた細胞から構築されたハプロタイプ解決されたコンセンサス(haplotype-resolved consensus)P33核型。ヘテロ接合性のSVは、マッピングされているハプロタイプだけに描かれている。接合性のSV(定義による)は両ハプロタイプに現れる。 CNN-LOH、ヘテロ接合性におけるコピー数ニュートラルロス(copy-neutral loss)(両方のハプロタイプで示される)78。ピンク色で示した染色体は、重複した相同染色体を反映している。このT-ALL患者は、Y染色体と同様に2つのX染色体ハプロタイプ(図S16も参照)を保有しており、父親からX染色体とY染色体が伝達されたことを示しているが、母親はX染色体を核型に寄与した(クラインフェルターまたはXXY症候群)。影響を受けた(affected)白血病関連遺伝子は赤で強調されている。「BCL11B-enh」は、BCL11B遺伝子の3'における以前に記載されたエンハンサー領域を示す。 (B)P33におけるSV遺伝子型の可能性の階層的クラスタリング(hierarchical clustering)のためにWard方法を用いて配置されたSVの「ヒートマップ:heatmap」であり、単一の優性クローンの存在およびこのT-ALL再発において核型多様性をもたらすわずかな追加的な体細胞DNA変化の証拠を示す。(C)追加のT-TALLサンプル、P1、において、コールされる(called)SV事象の「ヒートマップ」。赤い点線のボックスは、25個の細胞によって表される、サンプル中の明確なサブクローナル集団の輪郭を描く。 図6はPDX由来T-ALL再発P1の単一細胞のシーケンスにより、これまで認識されていなかったSVが明らかになったものである。(A)scTRIPを用いてP1で推論したハプロタイプ解決均衡型(Haplotype-resolvedbalanced)14q32Inv。最も左のブレークポイント(区切り点:breakpoints)(太い明るい青色の線)はTCL1Aの近くに存在し、一方、最も右のブレークポイント(細い明るい青色の線)はBCL11Bの3'に存在する。(B)最も右のInvブレークポイントは、いくつかのエンハンサーを含む3' BCL11B中の「遺伝子デザート(desert:不毛)」領域にある(fall in)。黒矢印は、最近の研究からT-ALLがん遺伝子の調節異常をもたらす転座のブレークポイントを示している45。着色矢印:T-ALLドナーP1およびP33におけるSVブレークポイント。 (C)14q32Invと併用したTCL1Aの調節不全。より大きなバープロット(bar plot)は、任意に選んだ5つのT-ALLと比較して、P1におけるTCL1A調節不全を示す。拡大図は、TCL1A調節不全が逆位(inverted)(H2)ハプロタイプ上でのみ起こることを示す対立遺伝子特異的(allele-specific)RNA-seq分析を示す。(D)scTRIPを介した6qでのサブクローンクラスター化DNA再編成の再構築。 (E)SVのハプロタイプ解決された(haplotype-resolved)分析は6qにクラスター化し、その全てがハプロタイプH2に落ち込んだ(fall onto)。 (F)クラスター化SVと関連したLOH(Loss of heterozygosity:ヘテロ接合性の喪失)の散在性損失(interspersed loss)と保持の検出、DNA再編成バースト(burst)を示した41。〔LOH(赤色点の存在によって示される)は前記方法で報告されているようにコールされた(called)。参照ヘテロ接合性SNPの正常な密度(赤色)を有するが、追加的に検出されたヘテロ接合性SNPの密度(黒色)が減少した領域はLOHを示す。〕(G)6qでのサブクローナルクラスター再配列バーストの検証(Verification of subclonalclustered rearrangement burst)、165Xの物理的範囲へのバルクロングインサートサイズペアードエンドシークエンシング(bulk long-insert size paired-end sequencing75による。 scTRIPによって推論されるブレークポイントは点線で示され、scTRIP推論セグメントは文字AからLを使用して示され、着色されたブレークポイント接続線(breakpoint-connectingline)はペアードエンドマッピングベースの再配置グラフ(paired-end mapping basedrearrangement graph)(すなわち、欠失型、タンデム重複型、および逆位型ペアードエンド)を示す。 バルク全エキソーム(bulk whole-exome)およびメイトペアシーケンス (mate-pair sequencing)を使用すると、これらのブレークポイントでのリード深度シフトは微妙であり、したがって、このサブクローナル複合再配列は、バルクシーケンスデータにおける以前のde novo SV検出の努力を免れた。
本発明の特定の態様および実施形態は、ここでは、例として、本明細書に記載の説明、図、および表を参照しながら説明される。本発明の方法、使用および他の態様のそのような例は、代表的なものにすぎず、本発明の範囲をそのような代表的な例のみに限定するものと解釈されるべきではない。
方法および材料
細胞株および培養。hTERT RPE-1細胞はATCC(CRL-4000)から購入し、マイコプラズマ汚染をチェックした。BM510細胞は、CASTプロトコルを使用して生成され、RPE-1親系統から派生した(Mardin et al. 2015に従前に記載のとおり)。C7細胞はRiches et al 2001から取得した。細胞株は10%ウシ胎児血清と抗生物質を添加したDMEM-F12培地(Life Technologies)で維持した。倫理声明。本研究で使用されたプロトコルは、関連する機関の審査委員会と倫理委員会から承認を受けた。T-ALL患者サンプルは、キール大学倫理委員会によって承認され、臨床試験ALL-BFM2000(P33;年齢:診断時14歳)またはAIEOP-BFM ALL 2009(P1;年齢:診断時12歳)から取得した。これらの患者から書面によるインフォームドコンセントが得られ、実験はヘルシンキ宣言および保健社会福祉省ベルモントレポートに定められた原則に準拠していた。動物実験は、動物研究の倫理規定に準拠し、チューリッヒ州の獣医局によって承認された。
RPE細胞およびT-ALL細胞の単一細胞DNAシーケンス。 RPE細胞およびPDX由来のT-ALL細胞は、以前に確立されたプロトコル28,66を使用して培養された。本発明者らは、BrdU(40μM; Sigma、B5002)を増殖細胞に18~48時間組み込み、次にBDFACSMelodyセルソーターを使用して単一核を96ウェルプレートに選別し、以前記載されたStrand-seq プロトコル21,67を使用してストランド(strand)特異的DNAシーケンスライブラリを生成した。使用されたBrdU濃度は、姉妹染色分体交換24、DNAの完全性およびゲノム不安定性の高感度測定に測定可能な影響を及ぼさないことが最近示された24。大規模なライブラリを生成するために、Strand-seqプロトコルがBiomek FXP液体処理ロボットシステムに実装され、これは、96個のバーコード付き単一細胞ライブラリを生成に2日要する。ライブラリはNextSeq5000(MIDモード、75bpペアードエンドプロトコル)でシーケンスされ、逆多重化され、GRCh38参照アセンブリ(BWA 0.7.15)にアライメントされた。高品質のライブラリ(BrdUを組み込んだ1回の完全なDNA複製を受けた細胞から得られたもの)は、21,67に記載されているように選択された。簡単に説明すると、非常に低い、不均一なカバレッジ、またはノイズの多い単一細胞データを生成する「バックグラウンドリード」の過剰を示すライブラリは、分析前にフィルターにかけられた。典型的な実験では、細胞の約80%が、正確に単一の細胞周期でのBrdUの取り込みを反映した高品質のライブラリを生成する。不完全なBrdU取り込みを伴う細胞、またはBrdU曝露下で複数のDNA合成段階を経ている細胞は、セルソーティング中に同定されるため、Strand-seq実験中にシーケンスされることはめったになく21,67、通常、シーケンスされた細胞の10%未満にしか寄与しない。したがって、このような「使用できないライブラリ」は、実験コストに明らかに寄与しない。
ヘテロ接合SNPの染色体長ハプロタイプフェージング(haplotype phasing)。本明細書に記載されている発明者のSV発見枠組みは、StrandPhaseR22を使用してテンプレートストランドをフェージングする。根底にある理論的根拠は、「WC染色体」(一方の親ホモログがWテンプレートストランドとして継承され、もう一方のホモログがCテンプレートストランドとして継承される染色体)の場合、ヘテロ接合SNPは染色体長のハプロタイプに即座にフェージングできることである(ストランド特異的DNAシーケンスに特有の特徴)。完全なハプロタイプ構築のための情報価値のあるSNPの数を最大化するために、本発明者らは、すべての単一細胞シーケンスライブラリおよび内部100細胞コントロールからのリードを集約し、Freebayes69を使用して1000人ゲノムプロジェクト(1000GP)SNP部位68を再遺伝子型決定することによってSNP発見を実行した。ハプロタイプの再構築および単一細胞のハプロタギング(haplotagging、以下で説明)に使用される、QUAL≧10のすべてのヘテロ接合SNP。
単一細胞における欠失、重複、逆位および逆位重複の発見。本発明者らは、Dup、Del、Inv、およびInvDupのSVの単一細胞発見を可能にするために、本発明者らの方法のコアワークフローを開発した。ワークフローへの入力データは、ドナーサンプル由来の単一細胞BAMファイルのセットであり、参照ゲノムにアライメントされている。コアワークフローは、ビニングされた(binned)リードカウント、カバレッジの正規化、セグメンテーション、ストランド状態および姉妹染色分体交換(SCE)検出、およびハプロタイプを認識した(haplotype-aware)SV分類を実行する。各工程の簡単な説明を以下に示すが、詳細については、補足情報を参照のこと。
ビニングされたリードカウント。個々の細胞、染色体およびストランドのリードは、100kbのウィンドウにビニングされた。PCRの重複、不適切なペア、およびマッピング品質が低い(<10)リードは、一意の高品質フラグメントのみをカウントするために削除された。
カバレッジの正規化。体系的なリード深度(read depth)の変動を調整するために正規化が実行された。適切なスケーリング係数を導出するために、本発明者らは、HGSVCプロジェクト(http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/hgsv_sv_discovery/working/20151203_strand_seq/)を通じて利用可能となった9つの1000GPリンパ芽球様細胞株に生成された1,058個の単一細胞からのStrand-seqデータの分析を行った、そして、各ゲノムビン(genomicbin)のスケーリング係数を推測するために使用される線形モデルを用いて正規化を追求した。
集団内の単一細胞の共同(joint)セグメンテーション。セグメンテーションは、サンプルのすべての単一細胞にわたってストランド解決された(strand-resolved)ビニングされたリード深度データを共同で(jointly)処理することによって実行され、二乗誤差の仮定70で多変量入力信号として使用された。許容されるチェンジポイントの数kが与えられた場合、二乗誤差の合計が最小となるk個のチェンジポイントの離散的な位置を特定するために、動的計画法アルゴリズムが採用された。このようにすべての細胞を共同で分析すると、比較的小さなSV(約200kb)であっても、単一細胞のデータセットに十分な証拠があれば(たとえば、十分な細胞で見られると)、検出可能になる。ブレークポイントの数は、最小kとして染色体ごとに個別に選択されたため、k + 1ブレークポイントを使用しても、わずかな改善しか得られず、事前に選択された閾値を下回る二乗誤差項の差として操作可能になる。
個々の細胞でのストランド状態およびSCEの検出。ストランド特異的なビニングされたリードカウントの解釈は、所与の染色体(WW, CC, またはWC)のテンプレートストランドの基礎となる状態の情報に依存する。これらの「基底状態」は、SCEによって変更されない限り、各単一細胞の各染色体の長さにわたって一定に保たれる21,71。SCEを検出するために、本発明者らは、(セグメンテーションに関して、すべての細胞にわたって共同してではなく)各細胞で別々に上記と同じセグメンテーション手順を実行した。次に、本発明者らは、ジョイントセグメンテーションによって明らかにされたブレークポイントと互換性がない、個々の細胞におけるストランド状態の変化を同定することによって推定SCEを推測した(補足情報)。次に、これらの推定SCEを利用して、発明者らは各セグメントに基底状態を割り当てた(補足情報)。ハプロタイプ解決された(haplotype-resolved)SVコーリング(calling)を容易にするために、本発明者らは、StrandPhaseR72を利用して、基底状態WCを有するセグメントを区別した、ここで、ハプロタイプ1はワトソン(W)リードで表され、ハプロタイプ2はクリック(C)リードで表されるが、基底状態CWではその逆になる。
ハプロタイプを認識した(Haplotype-aware)SV分類。本発明者らは、各SV診断フットプリントの事後確率を計算し、ハプロタイプ解決されたSV遺伝子型尤度を導出するためのベイジアンフレームワーク(Bayesian framework)を開発した。この目的のために、発明者らは、負の二項(NB)分布を使用してストランド特異的リードカウントをモデル化した。NB分布は、超並列シーケンスデータに典型的な過分散をとらえる54。NB分布には、pとrの2つのパラメーターがある。 パラメーターpは平均と分散の関係を制御し、すべての細胞で共同で推定された。一方、rは平均値に比例するため、単一細胞ライブラリごとに異なる総リードカウントを反映して、細胞ごとに異なる。pおよびrを推定した後、本発明者らは、各単一細胞の各セグメントについてハプロタイプを認識したSV遺伝子型尤度を計算した:与えられた基底状態(上記を参照)について、各SV診断フットプリントは、ゲノムセグメントに寄与するWおよびCの方向でシーケンスされたコピーの予想数に変換され(表S1)、NBモデルに関する尤度が得られる。発明者のモデルがWCとCWの基底状態を区別するという事実(上記のストランド状態およびSCE検出を参照)は、本発明者らのモデルが暗黙的に全染色体ハプロタイプを認識するものとなる。これは単一細胞での体細胞変異体コーリングに関する従前のアプローチでは満たされていない重要な特徴である。これに加えて、本発明者らはまた、重複するSNPを介して単一のハプロタイプに割り当て可能なWまたはCリードのカウントを尤度計算に組み込み、この手順を「ハプロタギング(haplotagging)」と呼ぶ(特定のハプロタイプによって「タグ付けされた」リードを含むため)。本発明者らは、多項分布を使用して、タグ付けされたリードのそれぞれのカウントをモデル化した。出力は、各単一細胞の確率スコアを持つ予測SVのマトリックス(matrix)である。
細胞集団をコーリングするSV。発明者のワークフローは、各SVのVAFレベルを推定し、それらを使用して各SVの事前確率を定義する(経験的ベイズ)。このように、このフレームワークでは、1以上の細胞でSVを観察することで恩恵を受け、これにより、事前の増加につながり、SVの発見の信頼性が高まる。本発明者らのフレームワークは、サブクローンSVを感度良くコーリングすることと、細胞間で一貫して見られるSVを正確に識別することとの間のトレードオフを調整する。本発明者らは、このトレードオフを「厳密な(strict)」および「寛大な(lenient)」のSVコーラー(caller)にパラメーター化し、それにより、「厳密な」コーラーは、VAF≧5%で見られるSVの精度を最適化し、「寛大な」コーラーは、単一細胞のみに存在するSVを含むすべてのSVを標的とする。特に明記されていない限り、本研究で提示されたSVコールは、誤検知のSVを最小限に抑えるコール設定を実現するために、「厳密な」パラメーター化を使用して生成された。本発明者らは、シミュレーションを使用して、in silicoで単一細胞にDel、Dup、およびInvをランダムに移植することにより、これらのパラメーター化の限界を調査した。本発明者らは、Strand-seq21に典型的な適用範囲レベル(細胞あたり400,000のリードフラグメント)を適用して、シミュレーションごとに200の単一細胞を分析した。本発明者らは、>40%のVAFが存在する場合、サイズが1Mb以上のSVについて優れた再現性(recall)および精度を観察した(図S5)。そして、本発明者らは、より低いVAFで存在する事象の再現性および精度の低下を検出したが、より小さなSVおよびより低いVAFを有するものを個々の細胞まで回収(recover)することができた。
転座の単一細胞分析(dissection)。本発明者らは、ゲノムの別のセグメント(すなわち、それらの転座パートナー)とストランド状態で一貫している(相関した、または反相関した)一方で、これらのセグメントが由来する染色体と一貫しないストランド状態を示すセグメントを検索することによって、単一細胞における転座を発見した(補足情報)。転座を推測するために、本発明者らは、ホモログ解決(homolog-resolved)された方法で各染色体のストランド状態を決定した。ストランド状態がハプロタイプ全体で変化するように見える場合(このハプロタイプはSVまたはSCEを示したため)、本発明者らは、転座推測を追求するために多数のストランド状態(すなわち、「基底状態」、上記を参照)を使用した。本発明者らは、同等のストランド状態を有する細胞と同等のストランド状態を有さない細胞との数を集計した分割表を作成することにより、テンプレートストランドの同時分離(co-segregation)を調べた(図3B参照)。本発明者らは、分割表におけるカウント分布の確率を推測するためにフィッシャーの直接確率検定を採用し、続いてp値を調整した73
単一細胞における切断-融合-架橋(breakage-fusion bridge、BFB)サイクルの特性評価。単一細胞のBFBサイクルを推測して特徴づけるために、本発明者らは最初に、同じホモログ/ハプロタイプのDelTer事象に隣接するInvDupsを推測するために、寛大なパラメーター化を備える本発明者らのフレームワークを採用した。本発明者らは、一方のハプロタイプのInvDupが他方のハプロタイプのDelTerに隣接する構造を検索することにより、BFBサイクルに起因するInvDup-DelTerフットプリント(例えば、InvDup(H1)-DelTer(H2)事象(H1とH2は異なるハプロタイプを示す))が偶然に単一細胞で生じる可能性があるかどうかを試験した。そのような構造は検出されなかったため、InvDup-DelTerフットプリントは常に同じハプロタイプで生じ、BFBサイクルの形成と一致した。図S14に示す本発明者らの単一細胞ベースの定量化の高感度を確保するため、本発明者らはさらに、以下の再配列クラスのうちの少なくとも1つの証拠について、単一細胞データのマニュアル検査を実施した:(i)InvDup、(ii)DelTerは、そうでなければ二染色体性の染色体上でコピー数=1をもたらす。これらの細胞は、図1で定義された診断フットプリントに基づいて、BFBを示すInvDup-DelTerパターンについて検査された。
単一細胞ベースのCNN-LOHの発見。CNN-LOHの検出に関し、本発明者らのフレームワークは、StrandPhaseR22を使用してサンプルで利用可能なすべての単一細胞Strand-seqライブラリを分析することにより、最初に各サンプルのコンセンサスハプロタイプを組み立てる。次に、各単一細胞を、二染色体に関するこれらのコンセンサスハプロタイプと比較して、CNN-LOHフットプリントに整合する食い違いを同定する。クローンに存在するCNN-LOH事象を検出するために、本発明者らは、1000GP68参照SNPパネルを使用して、各サンプルに集約された単一細胞ライブラリを再遺伝子型決定した。次に、これらの再遺伝子型決定された(観察された)SNPを1000GP参照セットと比較して、CNN-LOHを示すヘテロ接合SNPの顕著な枯渇(depletion)を示すゲノム領域を特定した。この目的のために、本発明者らは、1000GP参照変異体を単一細胞データで観察されたSNP数にダウンサンプリング(downsample)し、その後、両方のデータセット(観察された変異体および参照変異体)をマージし、すべてのSNPをゲノム位置で選別した。本発明者らは、これらの選別されたSNPを介してスライディングウィンドウ検索を実行し、一度に1つのSNPを移動し、比率R=観察されたSNP /参照SNPを計算することにより、各ウィンドウにおける観察されたSNPおよび参照SNPの数を比較した。ヘテロ接合の二染色体領域では、R値が約1になると予想されるが、偏差はCNN-LOHを示す。ウィンドウサイズ(ウィンドウ内のSNPの数によって決定される)は、500kbウィンドウあたりのSNPカウントの中央値として定義された。本発明者らは、Rの変化を検出するためにサーキュラーバイナリセグメンテーション(circular binary segmentation、CBS)74を採用し、Rの平均値に基づいて各セグメントに状態を割り当てた。平均値R≦0.15を示すサイズが2Mb以上のセグメントは、CNN-LOHとして報告された。
バルク(Bulk)ゲノムDNAシーケンス。DNA Blood Mini キット (Qiagen,、Hilden、Germany)を使用してゲノムDNAを抽出した。300ngの高分子量ゲノムDNAをCovaris S2機器(LGCGenomics)で100~700bp(平均サイズ300bp)にフラグメント化し、Agencourt AMPure XP(BeckmanCoulter、Brea、USA)で精製した。NEBNext Ultra II DNA ライブラリ調製キット (New EnglandBiolabs、Ipswich、USA)を使用してDNAライブラリの調製を行った。本発明者らは、15ngのアダプターライゲーションDNAを使用し、10サイクルのPCRで増幅を行った。DNAは、400~500 bpの長さの範囲を選択することにより、0.75%アガロースゲルでサイズ選択された。ライブラリの定量化と品質管理は、Qubit2.0蛍光光度計(Thermo Fisher Scientific、 Waltham、USA)と2100Bioanalyzerプラットフォーム(Agilent Technologies、Santa Clara、USA)を使用して実行された。WGSは、150bpのペアードエンドリードを使用して、IlluminaHiSeq4000 (Illumina、San Diego、USA)プラットフォームを使用して追跡された。 大きなインサートサイズ(約5kb)でのメイトペアシーケンスは、従前に記載75のとおり追求された。バルクDNAシーケンスデータのSV検出は、Delly231を使用して追求された。RPE-1 WGSデータは32倍のカバレッジにシーケンスされた。
バルクRNA-seq。RNeasy MinEluteCleanupキット(Qiagen、Hilden、Germany)を使用してRPE細胞からトータルRNAを抽出した。RNA品質管理は2100Bioanalyzerプラットフォーム(AgilentTechnologies、 Santa Clara、USA)を使用して実行された。ライブラリの調製は、BeckmanBiomek FX自動液体処理システム(Beckman Coulter、Brea、USA)を使用し、TruSeqStrandedmRNA HT chemistry(Illumina、SanDiego、USA)を使用して200ngの出発物質で行った。サンプルは、プール化を可能にするためにカスタムの6塩基対バーコードを使用して調製された。ライブラリの定量化と品質管理は、フラグメントアナライザー(Advanced Analytics Technologies、Ames、USA)を使用して実行された。RNA-Seqは、Illumina HiSeq 2500プラットフォーム(Illumina、San Diego、USA)で、50塩基対の単一リードを使用して追跡された。T-ALLでのRNAシーケンスでは、TRIzol(InvitrogenLife Technologies)を使用してトータルRNAを抽出した。次に、RNAをTURBO DNase (Thermo Fisher Scientific、Darmstadt、Germany)で処理し、RNAClean&Concentrator-5 (Zymo Research、Freiburg、Germany)を使用して精製した。本発明者らは、Agilent RNA6000Nano キットを備えたBioanalyzer(Agilent、Santa Clara、CA)を使用して測定した場合、7つの最小RIN(RNAIntegrityNumber 、RNA完全性番号)を必要とした。細胞質リボソームRNAはRibo-Zero rRNARemovalキット(Illumina、San Diego、CA)によって枯渇させ、TruSeq RNA ライブラリ調製(Illumina、San Diego、CA)を使用して1μgのRNAからライブラリを調製した。これらのサンプルは、イルミナHiSeq2000レーンで75bp単一エンドとしてシーケンスされた。 融合ジャンクションは、STARaligner 76を使用して検出された。
定量的リアルタイムPCR(qPCR)。PDX由来のT-ALLサンプルからのRNAは、RNeasy Miniキットを使用して、製造元の指示(cat 74106、Qiagen、Hombrechtikon、Switzerland)に従って抽出し、および、cDNAはHigh Capacity cDNA逆転写キット(Applied BioSystems、Foster City、USA)を使用して生成した。qPCRは、SDS2.2ソフトウェアを備えたABI7900HTアナライザーを使用して、TaqMan GeneExpressionMaster Mix(Applied BioSystems)を3回使用して実行した。閾値サイクル値は、ヒト-GAPDH(Hs02786624_g1、Applied BioSystems)に対して正規化された2-ΔΔCT法を使用して決定した。
実施例
実施例1: scTRIPは、単一細胞内の多種多様なSVクラスの体系的な発見を可能にする
scTRIPの基本的な理論的根拠は、SVの各クラスが特定の「診断フットプリント」を介して同定できることである。これらの診断フットプリントは、次のように、細胞内の各染色体の一本鎖をシーケンスすることによって可視化された、再編成されたDNAセグメントの同時分離パターンをキャプチャする:S期では、DNA二本鎖がほどけ、結果として生じる2本の一本鎖(ワトソン「W」とクリック「C」)がDNA複製のテンプレートとして機能する。Strand-seqにおいて、新しく複製されたストランドには、ブロモデオキシウリジン(BrdU)21が組み込まれており、ブロモデオキシウリジンが非テンプレートストランドの追跡可能な標識として機能する(Strand-seqプロトコルを描く図1Aを参照)24。有糸分裂の間、2つの娘細胞のそれぞれは、独立したランダムな染色分体分離を通じて、各染色体ホモログの1つのコピーを受け取る21。次に、標識された新生ストランドが除去され、各染色体セグメントの分離パターンがストランド特異的シーケンスに従って分析される(図1B)。scTRIPは、このストランド固有の分離情報をリード深度およびハプロタイプフェーズ(haplotype phase)情報と組み合わせて、各SVクラスを特徴付ける新しく定義された診断フットプリントをキャプチャする(図1C~F)。
欠失(Del)の診断フットプリントは、単一のハプロタイプに影響を与えるリード深度の損失と、変更されていないリード方向によって定義される(図1B、Dおよび表1)。重複(Dup)は、変更されていない方向のハプロタイプ特異的増加(gain)によって特徴付けられる(図1D、右パネル)。均衡型(balanced)逆位(Inv)の場合、リード方向は、一定のリード深度で単一のハプロタイプにマッピングされた再方向付けされたリードによって変更されている(図1B、E)。再方向付けされたハプロタイプのリード深度の増加と同じ場所にある再方向付けされたリードは、逆位重複(InvDup)を意味する(図1E、右パネル)。染色体間SVの場合、物理的に連結したセグメントは有糸分裂中に同時分離し、転座の発見を可能にする。これは、異なる染色体に由来するセグメントが互いに隣接し、複製中に同じ非テンプレートストランド標識を受け取るためである(図1B)。リード深度を変更せずに異なる細胞で相関するストランド状態を示すセグメントは、均衡型転座(balanced translocation)を特徴づける(図1F)のに対して、不均衡型転座(unbalanced translocation)は、影響を受けたハプロタイプのリード深度の増加と関連して、同様のフットプリントを示す。最後に、細胞の倍数性状態の変化も、独自の診断フットプリントを示す(表2)。
これらの診断フットプリントを活用するために、細胞ごとにSVの体系的な発見を可能にする共同コール(joint calling)フレームワークが開発された。以下で詳細に説明するように、このフレームワークは最初にストランド特異的リードデータをゲノムビンにアライメント、正規化および配置し、すべての細胞に対してテンプレートストランドの状態と染色体スケールのハプロタイプを割り当てる。次に、セグメンテーション(方法)によって推定SVを同定し、ベイズモデルを使用して、各セグメントおよび各単一細胞の遺伝子型尤度を推定する(図1G)。このモデルは、リード深度、ストランド、およびハプロタイプフェーズシグナルを統合して、診断フットプリントによって記述される最も可能性の高いSVクラスを予測する。ハプロタイプを認識した(haplotype-aware)方法でSV発見を実行することにより、我々の共同コールフレームワークは、細胞全体シグナル(signals across cells)を組み合わせて(方法)、異種細胞集団内のサブクローンSVを高感度で検出する。最後に、同じハプロタイプで生じる隣接するSVを分析することにより、がんの体細胞構造変異の多くを占める複合再配列を解明することができる25,26。最初のベンチマークとして、本発明者らはシミュレーション実験を実行し、インシリコでSVを細胞集団にランダムに配置したところ、単一の細胞に至るまで、優れた再現性と精度を観察した。
scTRIPフレームワークの詳細な説明:
ここでさらに詳細に説明されているコア計算フレームワークは、scTRIPのSV診断フットプリントに基づいて、単一細胞内のDup、Del、Inv、InvDup、および「その他/複合(other/complex)SV」クラスを検出するために開発された。
本フレームワークに必要な入力データは、同じドナーサンプルからの単一細胞(Strand-seq)BAMファイルのセットである。本研究において、これらのデータは、ヒト参照ゲノム(GCA_000001405.15_GRCh38_genomic.fna)のGRCh38を構築するためにアライメントされた。本フレームワークでは、後でハプロタイプフェージングおよびハプロタイプ解決されたSVの割り当てを可能にするために、1000人ゲノムプロジェクト(1000GP;フェーズ3)によって提供されるSNPの再遺伝子型決定を実行して、単一細胞入力データからヘテロ接合部位を検出する。本フレームワークを使用する場合、これらの1000GP SNP部位を含むVCFファイルが入力として提供される。あるいは、scTRIPパイプラインは、単一細胞データから直接SNPをコールすることもでき、所与のサンプル、例えばバルクWGSに基づくもの、に対して外部で生成されるSNPコールを使用することもできる。さらに、本フレームワークへの入力として、ゲノム全体のビンごとに正規化係数(以下を参照)を有するタブ区切りファイルが使用される。
単一細胞でビンされたリードカウント。最初に、個々の細胞のリードは、ストランドごとにビンされる。ビンは一定の幅を有しており(デフォルト:100kb)、位置0から始まり染色体の終わりまでである。マップされたリードは、開始位置に基づいてビンに割り当てられ、次の基準に従ってフィルタリングされた:非プライマリおよび補足アライメントは除外される; QC失敗フラグを有するアライメントは除外される;PCRの重複は除外される;マッピング品質が10以下のリードは除外される。ペアードエンドデータの場合、二重カウントを回避するために、各ペアの最初のリード(BAMフラグ0x40に基づくもの)のみが使用された。カバレッジが少なすぎる(ビンあたりの中央値が3以下)細胞は、デフォルトで除去された。NB分布のパラメーターpおよびrは、SV分類の場合と同じ方法で決定された(以下のそれぞれのセクションを参照)。パラメーター推定中に、すべての細胞の平均カバレッジが非常に低い場合(<0.1、カバレッジが前もって1に正規化されていた場合)、または非常に異常な細胞全体のWC/(WC+CC+WW)割合(WCfrac)を示した場合、ビンをパラメーター推定プロセスから除外した。WCfrac<0.05またはWCfrac>0.95のいずれかを示す場合、ビンは異常と見なされた。これは、WC状態をまったく示さなかったビン、または例えばセントロメア内またはその近くの領域でよく見られるように、常にWC状態を示したビンを反映する。
単一細胞におけるカバレッジの正規化。フレームワークは、SVコールの前にリードカバレッジの正規化を追求する。正規化に適したパラメーターを推定するために、1000人ゲノムプロジェクト(1000GP)からの9つのリンパ芽球様細胞株を含むヒトゲノム構造変異コンソーシアム(HGSVC)によって最近生成されたStrand-seqデータを分析した(すなわち、サンプルNA19238、NA19239、NA19240、HG00731、HG00732、HG00733、HG00512、HG00513、およびHG00514)。本発明者らは、ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/hgsv_sv_discovery/working/20151203_strand_seq/から得られたStrand-seqを介して配列決定されたこれらのHGSVCサンプルからの1058個の細胞を利用し、これらの細胞を上記と同じビニングスキームに供した。これらの1000GPサンプルのいくつかの分析は、これらが200kb以上の生殖細胞系列コピー数多型(CNV)を持たないことを示した。正規化のスケーリング係数を特定するために、これらのHGSVC Strand-seqデータが集計され、最初に以下の「除外基準」:観測された平均カバレッジ<50%、観測された平均カバレッジ>200%、または観測された標準偏差が平均カバレッジよりも大きい、のいずれかを使用して領域をマスクした。続いて、残りのビンを使用して、テストサンプルで観測された平均ビンカバレッジを、平均HGSVCビンカバレッジと線形関係があると仮定してモデル化したところ、傾きが約0.6で分散の66%が説明された。この線形関係を使用して、各ビンのスケーリング係数を導き出し、その後、本研究のすべての細胞に適用された。
また、偽陽性の体細胞変異体コーリングを回避するために、強力なシーケンス/マッピング異常を示す領域の「ブラックリスト」が作成された。上記のブラックリストを作成するには、独立したHGSVCサンプルで異常なカバレッジを持つ「マスクされた領域」から開始する(前の段落を参照)。次に、そのような間隔が、500kb以下の距離を示した場合、徐々にマージされる(これにより、高度にフラグメント化されたブラックリストの生成が回避された)。最後に、HGSVCによって報告されたサイズが100kbを超える生殖細胞系列の逆位と重なるすべての間隔をブラックリストから除外することにより、既知の多形性の逆位が誤ってマスクされないことが保証された。結果として得られたブラックリストは、以下のすべての分析で使用され、単一細胞SVコーリングのブラックリストされた間隔外の領域とみなされた。
単一細胞の共同セグメンテーション。セグメンテーションに関して、Huberらによって提案された戦略が、二乗誤差仮定(squared-error assumption)35を使用して多変量入力でセグメンテーションを実行するために適用された。したがって、複数の細胞で再発する(recur)SVが互いに補強し合えるという理論的根拠により、サンプルのすべての単一細胞のビニングされたリードカウントデータが入力として同時に使用された。許容されるチェンジポイントの数kが与えられると、動的計画法アルゴリズムは、最小残差平方和(sum ofsquarederror 、SSE)でk個のチェンジポイントの離散的な位置を見つける。レベルkのチェンジポイントは、動的計画法によるk-1個の最適なチェンジポイントのセットに関する知識を使用して計算される。このアルゴリズムは、コストマトリックスを使用して、考えられるすべての連続するセグメントのコスト(残差平方和(summed squared error))を決定する。Huberらの元の実装では、すべてのサンプルで同じ方向の変化が想定されていたが、各細胞とストランドについてこのコストマトリックスを個別に計算するようにアルゴリズムを適合させた。本発明者らはさらに、過剰なセグメンテーションを回避する手段として、サイズが200kb未満のセグメントにペナルティを課すようにコストマトリックスを適合させた。セグメンテーション手順(モザイクセグメント)は、染色体ごとに個別にセグメンテーションを実行し、許可されたチェンジポイントの最大数まで結果として生じるチェンジポイントを出力する。適切なセグメンテーションパラメーターは、実際のカウントデータと比較した区分的定数関数の残差平方和(SSE)の観点からチェンジポイントの数(k)を増加することの利点を評価することによって選択された。SSEkを、染色体をk個のセグメントに分割することに関連する残差誤差(residual error)とする。次に、SSEk - SSEk+1がユーザー設定パラメーター(本研究で使用のデフォルト:0.1)を下回るように最小数kを選択し、染色体のチェンジポイントkの数を調整した。
単一細胞でのストランド状態およびSCEの検出。SV診断シグネチャー(diagnostic signature)の検出は、単一細胞における対応するセグメントが有糸分裂分離のWW、CC、WC、またはCWパターンに従ったかどうかに依存する(表1)。本発明に関して、染色体に沿ったWおよびCリードの基礎となるベースライン分布を「基底状態」という(方法の項目参照)。基底状態は通常、染色体の長さに沿って同じ状態であるが、構造変異とは関係のない組換えの有糸分裂パターンの根底にある姉妹染色分体交換(SCE)によって変化する可能性がある。有糸分裂組換え事象/SCEに起因するStrand-seqデータのチェンジポイントは、本発明の方法が補正することができる「ノイズ」の原因を表す。幸い、SCEは各単一細胞で独立して発生し2、SVとは異なり、SCEは娘細胞にクローン的に伝達されない(すなわち、SCEはそれらが発生する細胞でのみ検出可能である2)。したがって、SCEに起因するチェンジポイントが、サンプルの1つを超える細胞の同じ位置で再発される可能性はほとんどない1,2。本発明は、SCEをSVから区別するための重要な基準としてチェンジポイントの再発(recurrence)を使用する。SCEを特定するために、上記と同じセグメンテーション戦略が採用されたが、各単一細胞に対して、共同ではなく個別に採用された。そのために、ブレークポイントの数k(上記を参照)を選択するためのしきい値を0.5に設定した。本発明者らは、割合fWC=W/(W+C)を計算し、fWC>0.8の場合は状態WW、fWC<0.2の場合は状態CC、それ以外の場合は状態WC/CWを割り当てることにより、結果として生じる各セグメントに観測状態を割り当てた。隣接するセグメントの状態を相互に比較し、状態が変化していない場合、介在するチェンジポイントは破棄され、残りのチェンジポイントはその後さらに推定SCEと見なされた。本明細書において、「WC/CW」は、このステップでこれら2つの状態が区別されないことを示すために使用され、これら2つを区別することは後続のストランドフェージングステップで起こることに留意されたい。
重要な考慮事項としては、いくつかの場合において、この方法で検出されたチェンジポイントがSCEではなくSVに対応する可能性があることである。SCEの信頼性の高いリストを選択するために、次の戦略が採用された:最初に、共同セグメンテーション中に特定されたブレークポイントから遠く離れた(>500kb)これらのチェンジポイントを選択する(前の段落を参照);これらのチェンジポイントは、真のSCEを表す可能性がある。この暫定的な候補SCEのセットを使用して、3つの基底状態WW、CC、WC/CWのそれぞれが、もっともらしい「基底状態」を決定すると見なされた。染色体の先頭の所与の状態と一連のSCE位置(状態が変化する)が染色体上のすべてのセグメントの状態を一意に決定するという仮定が採用された。染色体の3つの基底状態(WW、CC、またはWC/CW)のどれが選択を開始するかを評価するために、観察された状態が予測された基底状態と異なるゲノム間隔の全長として定義される不一致の長さ(discordant length)が計算された。可能性は非常に低いが、まれに、SCEチェンジポイントがSVブレークポイントと一致しているように見える場合がある。本発明の方法がそのようなまれなSCEをもとどおりにすることを可能にするために、共同セグメンテーションのブレークポイントに500kbより近いすべての推定SCEが分析された。これらの推定SCEの1つを追加することにより、不一致の長さが20Mb以上減少する場合、本発明の方法は、これらのSCE状態を割り当てる。そうすることで、本発明の方法は、見逃された(missed)SCEが染色体のより大きな部分で誤って基底状態を割り当てることを回避することができる。このような追加のSCEを最大で1つ追加すると、2つのブレークポイントを持つほとんどの真のSVをマスキングできなくなるが、SCEは通常、染色体に沿ったW状態とC状態の単一の「スイッチ」(チェンジポイント)にのみつながることに留意されたい。SCEはコピー数の変更に関連付けられないため、これらのSVが単一の細胞にのみ存在する場合であっても、多くのSVクラス(Del、Dup、InvDupおよび複合再配列)でSCEがSVと混同される可能性はほぼ「ゼロ」であることに留意されたい。このように、実際には、SCEにSV状態が誤って割り当てられることはめったにない(我々の実験的な検証データからも証明されている)。
単一細胞シーケンスデータを使用した染色体長ハプロタイプフェージング。ハプロタイプを認識したSVコーリングを容易にするために、本発明者らは、StrandPhaseRを使用して利用可能なすべての染色体をフェージングした。サンプルの全染色体ハプロタイプを構築する際に、各細胞のWCまたはCWとしてWストランドとCストランドの両方で表される領域が割り当てられた。つまり、ハプロタイプH1がWリードで表され、H2がCリードで表されるか(WCと表記される状況)、またはその逆(CWと表記)かを決定するために、リードはヘテロ接合SNPが重なっているものを使用した(方法の項目参照)。基底状態のこの洗練された特性評価に加えて、StrandPhaseRは染色体全体のハプロタイプをVCFファイルとして出力し、これは、本発明者らが後で「ハプロタギング」ステップで利用した。フレームワークのこのフェージングステップでは、染色体ごとに少なくとも数十のSNPが必要とされる。十分なSNPの可用性を確保するために、本発明者らは、オプション「-@ <1000GP-snps.vcf> --only-use-input-alleles<input.bam>--genotype-qualities」でFreebayesを使用して、1000GPで従前に同定された生殖細胞系列変異体を再遺伝子型決定した。すべてのヘテロ接合SNPはQUAL≧10で保持された。あるいは、本フレームワークは、外部から提供されたSNPを使用することができる。SNPコーリングの使用可能なカバレッジを高めるために、各サンプルで100個の細胞(「100細胞コントロール」と呼ばれる)を個別に選別するセルソーティング実験を行い、続いて平均カバレッジの1.9倍までショートリード(short-read)全ゲノムシーケンスを行った。
ゲノムウィンドウ(またはビン)にマッピングされたハイスループットシーケンスリードの数は、過分散を説明できる負の二項(NB)分布37と一致することが従前に示されていた。本発明者らは、ベイジアンフレームワークの基礎としてNB分布を採用した。NB分布には、次のように観測されたリードカウントから推定される2つのパラメーターpとrを有する。値nは、サンプルで分析された単一細胞の数として表された。一定のビンサイズで各単一細胞からサンプリングされたリードの数は、NB確率変数であると仮定している。実際に、単一細胞のカバレッジは様々であることから、細胞ごとに異なるNBパラメーターが結果として生じる。パラメーター推定の鍵は、個々の単一細胞のカバレッジだけでなく、すべての単一細胞のトータルカバレッジもNB分布から導出される。これは、すべての単一細胞が同じpを有する必要があることを意味し、したがって、推定するn+1個のフリーパラメーター(1個のpパラメーターとn個の分散パラメーター)がある。
NB分布において、平均と分散の比率は1-pに等しくなる。すべての単一細胞で同じpパラメーターを持つということは、平均と分散の比率がすべての単一細胞で一定であることを意味する。その結果、単一細胞間のビニングされたリードカウントの平均と分散は線形関係を共有し、単一細胞のこれらの平均分散点を結ぶ線は、pパラメーターを決定する傾きで原点座標を通過する。この関係により、共有pパラメーターの推定が可能になる:各単一細胞について、本発明者らは、ゲノム全体の固定サイズのビンで観察されたリードカウントの経験的な平均および分散を計算した。経験的平均分散ペアのセットを(m1、s2 1)、((m2、s2 2)、…、および(mn、s2 n)で表す場合、pパラメーターは次のように推定される:
Figure 2022528728000006
pを得た後、分布平均をその単一細胞のビンごとの平均リードカウントに設定することにより、各単一細胞jの分散パラメーターrjを推定する。本発明者らは、分散パラメーターを推定するためにトリム平均を採用し(トリムパラメータを0.05に設定)、異常に高いまたはゼロ(例えば、マッピング可能性が低い領域で見られる)のリードカウントの影響を除去した。
SV診断フットプリント。 各SV診断フットプリント(図1)は、検討中のゲノムセグメントに寄与するWおよびC方向でシーケンスされた予想コピー数に変換できる。表1は、両方のハプロタイプが異なるテンプレートストランドによって表される染色体(本明細書では「WC/CW染色体」と呼ばれる)と、両方のハプロタイプが同じテンプレートストランドによって表される染色体(「WW染色体」および「CC染色体」)の両方について、各SVクラスのこの関係を示している。すべてのハプロタイプ解決されたSVは、それぞれWC、CW、WW、およびCC染色体の特定のセグメントストランドパターンを意味する。例えば、染色体領域の単一細胞の基底状態がWWであり、その領域のセグメントのSV状態が「Wストランドで表される父方のハプロタイプの逆位重複」である場合、観察されるセグメントストランドパターンは、この所与の単一細胞において、WWCになる。比較すると、基底状態がWC(H1ハプロタイプの場合W)であり、SV状態がH1ハプロタイプの欠失である場合、観察されるセグメントストランドパターンはCである(表1参照)。これらの期待値は、以下で説明するベイズモデルで形式化(formalize)される。
Figure 2022528728000007
Figure 2022528728000008
この式において、αは、Strand-seqデータのノイズを表す「バックグラウンドリード」の割合を示す我々のモデルのパラメーターである(たとえば、BrdUの取り込みまたは除去が不完全な領域による)1,2。これらのバックグラウンドリードは、α=0.1を仮定することによって考慮され、実際に観察されるそのようなバックグラウンドリードの量の上限を反映する。上記の式の1/2係数は、分散パラメーターをコピー数1にスケーリングするのに役立つことに留意(rjは、コピー数2の2倍体状態を反映するように上記で推定される)。要約すると、基底状態(T)とともにセグメント内のすべてのハプロタイプ解決されたSVクラス(V)は、観測されたリードカウントのNB尤度を計算するために使用されるワトソンおよびクリックコピー数(N)を定義する。このメカニズムを通じて、表1のすべての診断シグネチャーの可能性が取得される。
Figure 2022528728000009
Figure 2022528728000010
SVコーリングにベイズモデルを採用。SVコーリングにベイズモデルを利用するために、本発明者らは先験的確率(prior probabilities)を定義し、それらを各単一細胞およびセグメントのモデルベースの尤度と組み合わせた。本発明者らは、生の尤度を規則化し、すべての尤度に小さな定数(10-6に設定)を加え、その後再正規化することから始めた。これにより、非常に小さな値(または理解しにくい(hard)ゼロ)が回避されることが保証され、データが何を示唆しているかにかかわらず、すべてのSV遺伝子型がこの与えられた小さな確率で可能であるというエラー仮定に対応する。次に、2つの形式の先験的確率(priors)が使用された。第1に、特定の事象タイプを観察することの妥当性に関する生物学的知識が収集された。これを行うために、先験的確率(priors)はSVタイプごとに事前に特定された定数に比例するように定義され、これらの定数を次のように選択した:ref=200、del/inv/dup=100、invdup=90、other/complex=1。この選択はやや恣意的ではあるが、モデルがこれらの先験的確率(priors)を圧倒する十分な証拠を観測しない限り、SVコーリングプロセスでは、例えば一方のハプロタイプで逆位、他方のハプロタイプで欠失を伴う(その他/複合)などのよりエキゾチックなSVクラスよりも、正規のSV(del/inv/dup/invdup)の参照状態(ref)を優先するように促す。このように、コーラー(caller)は、妥当でないと見なされたSVクラスの証拠をさらに収集する必要があった。適用される第2のタイプの先験的確率(priors)は、各セグメントに個別に作用し、すべての細胞にわたってモデルによって計算された生の尤度を使用して、すべてのSVタイプにわたる確率分布を計算する。つまり、各セグメントについて、すべての細胞のSVタイプごとに尤度が合計され、そして1に正規化され、これは、そのセグメントの各SV遺伝子型の頻度の推定に対応する。この手順の背後にある直感は、遺伝子型の尤度に固有の証拠がこれらの先験的確率(priors)を圧倒するほど強力でない限り、SVコーラーが少数の細胞にのみ存在するSVタイプよりも多くの細胞に存在するSVタイプを優先するように促す必要があるということである。これらの先験的確率(priors)を適用する前、各SV遺伝子型の先験的確率は、その遺伝子型の推定頻度(estimated frequency)がGTCUTOFFと呼ばれるしきい値を下回った場合にゼロに設定された(厳密なコール設定の場合は0.05に設定され、寛大なコール設定の場合は0に設定される)。事実上、これは、すべての細胞の尤度が少なくとも5%の期待頻度(expected frequency)で細胞集団に存在することを示唆する場合にのみ、厳密なパラメーター化がSV遺伝子型を考慮することを意味する。対照的に、寛大なコール設定は、ゼロに設定することによってこのカットオフを無効にし、したがって、個々の細胞にのみ存在するSV遺伝子型を容易に許可する。最後に、本発明者らは、得られた事後確率(posterior probabilities)を使用して(SV遺伝子型と参照状態の)対数オッズ比(log odds ratio)を計算し、対数オッズ比が少なくとも4である場合にSVコールを受け入れた。ブラックリストに登録されたビンが20%を超えるセグメントのSVコールは破棄された。
コール設定の後処理: フィルタリング:フィルタリングルーチンは、厳密なパラメーター化と組み合わせてのみ使用するように開発されたが、その主な目的は、VAFが5%を超えるすべてのSVに対して信頼性の高いSVコール設定に到達することである。このフィルタリングルーチンは、まれな逆位がSCEに対応する場合があるため、1つまたは2つの細胞でのみ見られるまれな逆位を除去する。このルーチンはさらに、特定のバイアスを示すSVコール、最も重要なことに、特定の基底状態の状況で主に発生するようにバイアスされたSVコールを除去する。特に、一方、SVは、4つの基底状態(WW、CC、WCおよびCW;表1参照)のすべての状況で検出できる。WWまたはCC染色体の欠失または重複をコーリングすることは、実際、従前に開発されたコピー数プロファイリング方法論に概念的に関連している、すなわち、WWまたはCC染色体でコーリングされるSVは、ストランド特異的リード深度の増減に基づいてこれらのSVをコールするscTRIPの機能の恩恵を受けない(図1、表1)。
次のハードフィルターは、厳密なパラメーター化で使用するために実装された:
(i)3つ未満の細胞で見られる逆位の除去。
(ii)複数の細胞で見られる欠失の除去。これらが主にWWおよびCC染色体で発生する傾向を示し、WCまたはCW領域で3分の1未満見られる場合(対数オッズ比が50以上の欠失はこのハードフィルターでは除去されない)。上記でさらに熟考したように、WWまたはCCの基底状態で繰り返し見られるが、WCの基底状態では見られないか、もしくはまれにしか見られない欠失は、(我々の経験によれば)信頼性が低いため、このフィルターを実装した。
(iii)複数の細胞で見られる重複の除去。これらがWWおよびCC染色体で発生する傾向を示し、WCまたはCW染色体で見られるのは3分の1未満みられる場合(対数オッズ比が50以上の重複はこのハードフィルターでは除去されない)。上記でさらに熟考したように、WWまたはCCの基底状態で繰り返し見られるが、WCの基底状態では見られないか、もしくはまれにしか見られない欠失は、我々の経験によれば、信頼性が低いため、このフィルターを実装した。
(iv)ゲノム中のUCSCアノテーション付きセグメント重複(ファイル:segDups_hg38_UCSCtrack.bed.gz)と重複するSVを50%以上除去した(このようなSVコールの信頼性は低いことがわかった)。
マージ:マージルーチンは、厳密なパラメーター化と組み合わせて使用するために開発された。これは、類似のVAF(VAF≧0.1)を有する隣接するSVを単一のSVコールにグループ化して、過剰なセグメンテーションを回避し、最終的な高信頼性の体細胞SV部位リストを生成する。この目的のために、本発明者らは、VAFSV1/VAFSV2≧0.75(VAFSV2>VAFSV1の場合)またはVAFSV2/VAFSV1≧0.75(VAFSV1>VAFSV2の場合)の場合、隣接するSVのVAFが類似していると見なし、この類似性基準によって選択されたすべての隣接するSVをグループ化した。このルーチンによってマージされたSVは、ほとんどの場合、検証実験における単一の構造変化事象に対応する。
単一細胞SV検出フレームワークの厳密なおよび寛大なパラメーター化。上記で示唆したとおり、我々のフレームワークには、低VAFに存在するSVを敏感にコーリングすることと、細胞間で一貫して見られるSVを正確に特定することとの間のトレードオフを調整する機能を備えている。本発明者らは、このトレードオフを「厳密な」と「寛大な」のSVコーラーにパラメーター化しました。「厳密な」コーラーは、VAF≧5%のSVに対して精度を最適化し、「寛大な」コーラーは、単一の細胞内にのみ存在するSVを含むすべてのSVを対象とする。これらのパラメーター化は、3つの設定で異なる:GTCUTOFF(SVコーリングにベイズモデルを採用を参照)、ハプロタイプのリードカウントが組み込まれているかどうか(ハプロタイプ特異的シーケンスリード組み込みを参照)、およびフィルタリングが可能かどうか(コール設定の後処理を参照)。厳密なコーラーはGTCUTOFF=0.05を使用し、寛大なコーラーはGTCUTOFF=0を使用する。厳密なコーラーの場合、ハプロタギング機能を無効にし、寛大なコール設定のハプロタギングを有効にした。これは、ハプロタギングが低いVAFの推定SVを解決するのに最も役立つという理由からである。最後に、本発明者らは、厳密なコーラーには前段落で説明したフィルタリングを使用した一方で、寛大なコーラーにはフィルタリングされていない設定で進めた。5%のVAFまでのサブクローンSVの信頼性の高い検出を可能にするために、厳密なコーラーを使用することを勧める。寛大なコーラーは、個々の細胞に至るまでのVAFスペクトル全体にわたるSVを分析するために使用されるべきである。
実施例2:scTRIPによって明らかにされたRPE細胞のSVランドスケープ
scTRIPを使用した単一細胞のSVランドスケープを調査するために、本発明者らは次に、テロメラーゼ不死化された網膜色素上皮(RPE)細胞からストランド特異的DNAシーケンスライブラリを生成した。hTERT RPE細胞(RPE-1)は、ゲノム不安定性のパターンを研究するために一般的に使用され20,27~29、細胞形質転換の指標として使用される足場非依存性増殖を示す30、C7 RPE細胞がさらに使用された。RPE-1細胞とC7細胞はどちらも、同じ匿名の女性ドナーに由来する。本発明者らは、RPE-1およびC7について、それぞれ、80および154個の単一細胞を、387,000個のマッピングされた非重複フラグメントの中央値の深度までシーケンスした(方法)。これは、細胞あたりわずか0.01倍のゲノムカバレッジしかない。
本発明者らは、最初に、Del、Dup、Inv、およびInvDupを検索した。リードの正規化に続いて、RPE-1で54個のSVが同定され、C7細胞で53個のSVが同定された。22個のSVはRPE-1にのみ存在し、21個はC7にのみ存在したため、サンプル特異的SVに相当する可能性がある(すなわち、生殖細胞系列変異体に対応せず、体細胞または培養細胞で形成されたSV、以下、単に「体細胞SV」と呼ぶ)。RPE-1で見られる1.4メガベース(Mb)の体細胞Dup、およびC7で検出された800kbの体細胞Delを含む2つの代表的なSVを図2Aに示す。Del事象とDup事象の1つを除くすべてが、RPE-1とC7に固有だったが、図2Bに示す17pのInvを含むInv事象とInvDup事象は、両方の間で大部分が共有されていた。これらの変異体は、既知の逆位多型の部位にマッピングされている23。本発明者らはまた、C7における13qの欠失、およびRPE-1における大きな10q領域の重複を含む、染色体アームレベルのCNAをも同定した。13qアームはモノソミーと診断される1:0のストランド比を示したが(図2C)、得られた10q領域はトリソミー領域と診断される2:1および3:0のストランド比を示した(図2D)。
実施例3:単一細胞における複合癌関連転座の精査
SVクラスのより広い多様性を検出するscTRIPの能力を評価するために、本発明者らは、RPE-1細胞をCASTプロトコル28に供した:本発明者らは、有糸分裂紡錘体機構を発現抑制(silence)させて、ゲノム不安定性を示す可能性が高い足場非依存性系統(BM510)を構築した。本発明者らは、Del、Dup、InvおよびInvDup事象を検索するときに全体で67個のSVを検出する145個の単一のBM510細胞をシーケンスした。さらに、いくつかのDNAセグメントは、それらが由来するそれぞれの染色体と分離せず、染色体間のSV形成を示した(図3A)。本発明者らは、診断的同時分離フットプリントを検索するscTRIPで転座検出を行ったところ(図3B)、BM510で4つの転座を特定した(図3B、C)。本発明者らはさらに、RPE-1およびC7を転座検出に供し、それぞれ1つの転座を同定した(図3D)。
1つの転座はRPE-1とBM510の間で共有され、染色体Xハプロタイプで不均衡型転座を受けた前述の獲得された10qセグメントを含んでいた(図3B)。本発明者らは、姉妹染色分体交換事象21のフットプリントを利用して、セグメントを方向付け、順序付けた。これにより、公開されているRPE-1スペクトル核型27と一致するXqのテロメア先端に10q獲得(gain)が配置された(図3C)。BM510において、scTRIPは、15qと17pが関与する均衡型相互転座(balanced reciprocal translocation)も明らかにした(図3B、C)。特に、de novo体細胞逆位が同じ17pハプロタイプで追加的に検出され、これはそのブレークポイントの1つを相互転座と共有していた(図3C)。これらのSVはブレークポイントの1つを共有しているため、両方が一緒に生じた可能性があり、複合再配置プロセスが含まれる可能性がある。遺伝子座の分析により、逆位がTP53遺伝子を包含し、転座時にTP53の5’エクソンがNTRK3癌遺伝子32のコード領域に融合したことが明らかになった(図3E)。これは、scTRIPが単一細胞シーケンスデータを使用して融合遺伝子を明らかにできることを示唆する。
バルク全ゲノムシーケンス(WGS)およびRNA-Seq(方法)分析により、本発明者らのフレームワークの優れた精度と特異性が明らかになった。本発明者らは、すべての転座(100%)を検証し、4/5はWGSによって再現され(recapitulate)、残りのder(X)t(X;10)事象は既存の核型データ27によって検証された。ディープシーケンス(deep sequencing)データでは追加の転座は検出されなかった。これは、scTRIPの優れた感度を示す。chrXブレークポイントが高度に反復的なテロメアDNAに存在する(リードペア分析を妨げるあいまいなアライメントが生じる)ため、WGSはder(X)t(X;10)の不均衡型転座の検証に失敗したが、scTRIPは、反復ブレークポイントの影響を受けない有糸分裂同時分離パターンを使用する。本発明者らはまた、der(X)t(X;10)事象に関して、重複ハプロタイプの発現の増加を観察し、これは本発明者らのハプロタイプ配置を実証する。最後に、本発明者らは、17pでの複合再配列の存在を確認し、BM510に排他的に発現されたNTRK遺伝子融合転写物が明らかになった(図3D、E)。このように、scTRIPは、バルクWGSで見逃された転座の検出を含む、高精度かつ高感度の単一細胞シーケンスによる転座のハプロタイプ解決された発見を可能にする。
実施例4:複合DNA再配列プロセスの単一細胞精査
がんゲノムは、がんの進化の加速を促進する複合再配列を介して生じるクラスター化されたSVを頻繁に抱えている33。このようなSVにつながる1つのプロセスは、切断-融合-架橋サイクル(BFB)である34~39。BFBは、末端の染色体セグメントが失われることによって開始し、これにより、新たに複製された姉妹染色分体が融合する。結果として生じる二動原体染色体は染色体架橋につながり、その解決にはDNA切断を介し、新たなBFBを開始できる14。このように、BFBは、DNAセグメントを逆位方向で連続して重複させ(すなわち、InvDupを生成する)、通常、同じハプロタイプの末端染色体セグメントが隣接して欠失する(すなわち、末端欠失(terminal deletion)、本明細書において「DelTer」と呼ぶ)。高VAFに上昇するBFBは、「フォールドバック逆位(fold-back inversion)」(逆位方向で互いに近くにアライメントするリードペア)34を分析することにより、バルクWGSから推測できる。カバレッジ要件が高度であるため、フォールドバック逆位を単一細胞で体系的に追跡することはできない。しかし、本発明者らは、scTRIPが単一細胞におけるBFB形成を直接研究する機会を提供できると考えた。
BFBを調査するために、本発明者らは最初に、フォールドバック逆位が従前に説明されている28C7に目を向けた。scTRIPは、154個のシーケンスされた細胞のうち152個の10pアーム上のクラスター化されたInvDupを位置づけた(図4)。10pを詳しく分析すると、BFBと一致する、同じハプロタイプ上の隣接するDelTerを持つ「段階的な」InvDup事象を伴うアンプリコンが示された(図4A~Cおよび図S12)。特に、InvDupを欠いている残りの2つの細胞は、同じ10pセグメントに影響を与えるより大きなDelTerを示した(図4C)。本発明者らは、細胞全体のシーケンスリードを集約することにより、10pアンプリコン(6つのコピー数セグメントを含む)およびその隣接領域(10p末端領域およびセントロメア近位領域)を含む、染色体10に沿った8つの識別可能なセグメントを同定した(図4B)。10pで見られる遺伝子の不均一性をさらに特徴づけるために、本発明者らは、8つのセグメントすべての細胞特異的コピー数を推測した(図4D)。これにより、10pのコピー数に関して少なくとも3つの異なる細胞群が明らかになった:(i)「中間」コピー数を示す大規模なグループで、最大のコピー数セグメントで100~130コピーが検出された(「メジャークローン」と呼ぶ)、(ii)DelTerを介した対応する10p領域を失った2つの細胞、(iii)非常に高いコピー数(~440コピー)を示す単一細胞であり、これは、さらなるBFBサイクルを受けた可能性がある(図4C)。
C7で同定された追加のSVは、メジャークローンで生じる再配列へのさらなる洞察を提供した:つまり、本発明者らは、重複した15qセグメントを10pアンプリコンに縫い付ける(stitching)不均衡型転座を検出した(図4C)。重複したセグメントは15qテロメアを含み(図4C)、これによりアンプリコンが安定化してBFBプロセスが終了した可能性がある。10p構造に関してC7が少なくとも3つの細胞のグループを含むことをさらなる裏付けるように、拡張されたDelTerを含む2つの細胞には不均衡型転座が見られなかったが、10pのコピー数が過剰な細胞において転座領域がさらに増幅されていた(図4C)。メジャークローンにつながる再配列の時間的シーケンスのモデルを図4Eに示す。これらのデータから、従前は単一細胞シーケンスによる直接測定が不可能であったBFBサイクルをscTRIPは特徴付けできることが強調される。
実施例5:足場非依存性RPE細胞における豊富なBFB形成
体細胞におけるBFBを介したSV形成の頻度は不明である。scTRIPはInvDupおよびDelTerフットプリントを体系的に検出できるため、本発明者らは、シーケンスされたすべてのRPE細胞(合計379)(方法)を検索し、BFB形成シグネチャーを示す15個のさらなる細胞を特定した。これらのうち、11個は「古典的な」BFBフットプリント、すなわち、同じホモログ上にInvDupがDelTerに隣接しており、そのホモログ上に他のSVが存在しないもの、を表示した(図4F)。残りの4つ実例では、BFB関連SVと同じホモログでさらなる再配置を示した。本発明者らは、一方のハプロタイプのInvDupが他方のハプロタイプのDelTerに隣接している構造を検索することにより、InvDup-DelTerフットプリントが偶然に一致(coincide)するかどうかを試験した。379個の細胞中で、InvDup-DelTerフットプリントは常に同じハプロタイプで生じ、よく知られているBFBモデル38と一致する。15個のInvDup-DelTer事象のうち11個がBM510で生じ、シーケンスされた細胞の8%(11/145)に影響を与え、4個がC7で生じ、3%(4/154)の細胞に影響を与えた。InvDup-DelTerフットプリントはRPE-1細胞で生じなかったため(0%; 0/80)、BFBは、形質転換された足場非依存性増殖細胞でのみ生じた。InvDup領域のコピー数の推定値は3から9の範囲であり、これらの細胞で最大3つのBFBサイクルが生じたことを示す(図4F)。
興味深いことに、これらの15個のInvDup-DelTerフットプリントはすべて、単離された細胞で検出されたシングルトン事象であり(すなわち、複数の細胞で共有されたものではなかった)、および、散発的に形成されるものであり、潜在的に進行中のBFBサイクルを有する染色体を表す可能性がある。本発明者らは、個々の細胞で同定されたSVが、現在活性な突然変異プロセスの代用として役立つことができると考えた。本発明者らがRPE細胞株においてゲノム不安定性を誘発した細胞株(BM510)における他の豊富なSV突然変異パターンをscTRIPの使用により本発明者らは体系的に検索した。本発明者らは、大きな(メガベーススケールの)欠失または重複を引き起こす有糸分裂エラーの証拠を有する60の染色体を位置づけた。これらのうち、35/60(58%)はホモログアーム全体に影響を及ぼし、17/60(28%)はホモログの先端(末端の喪失または獲得)に関与したがアーム全体には関与しなかった、そして7/ 60(12%)はホモログの異数性全体(モノソミーまたはトリソミー)に対応した。これらの豊富なSVクラスの統一された特徴は、それらがすべて有糸分裂分離エラーに起因し、進行中の染色体不安定性40を反映している可能性がある。
これをさらに強調すると、同じハプロタイプに影響を与える複数のクラスター化されたSVが9つの細胞で示された。これには、InvDup-DelTerフットプリントおよび少なくとも1つのさらなるSVを示す4つの細胞が含まれていた。無限部位(infinite sites)の仮定37を採用することにより、本発明者らは、これらの場合に同じハプロタイプで生じるSVの相対的順序を推測し、さらなるSVの形成がBFB形成に先行する場合、ならびにさらなるSVの形成がBFB形成に続く場合を特定した。この分析はまた、すべて同じハプロタイプ上で、複数の再配向され失われたフラグメントを示す単一細胞を明らかにし、単一のホモログに影響を与える12のSVブレークポイントをもたらした。この再配列(rearrangement)は、1回限りの再配列バースト(クロモスリプシス)41,42に起因する可能性がある(図4G)。したがって、scTRIPは、単一細胞におけるde novo SV形成の体系的な検出と、BFBや他の複合再配列を含むSV変異プロセスの識別を可能にする。
実施例6: 41個の単一細胞からPDX由来のT-ALLサンプルの核型を構築
scTRIPの潜在的な診断的価値を評価するために、次に本発明者らは患者由来の白血病細胞を分析した。均衡型(balanced)SVと複合(complex)SVの両方が白血病に豊富に存在するが、CNAを対象とした単一細胞研究では検出が大幅に回避される26,41,43。本発明者らは、白血病サンプルを特徴づけるためのscTRIPの有用性を調査するために、2人のT細胞性急性リンパ性白血病(T-ALL)患者からのPDX由来44サンプルを特徴づけた。最初に、本発明者らは、クラインフェルター症候群の若年患者からのPDX由来のT-ALL再発であるP33に注目した。本発明者らは、41個の単一細胞をシーケンスし、これらのデータを使用して、200kbの解像度でメジャークローンのハプロタイプ解決された核型を再構築した(図5A)。ほとんどの染色体は二染色体性だったが、本発明者らは典型的なXXY核型(クラインフェルター症候群)を特定し、染色体7、8、および9のトリソミーを観察した。本発明者らはさらに、一定のリード深度および配向性の存在下でのハプロタイプ喪失を特徴とするCNN-LOHの3つの領域を検出した。さらに、本発明者らは、6つの限局性(focal)CNAを観察し、そのうちの5つは、300kb以上のサイズのPHF6、RPL2およびCTCFの欠失、ならびにCDKN2AおよびCDKN2Bのホモ接合性欠失を含む、T-ALLにおいて遺伝的に変化したおよび/または「誘導(driving)」したと従前に報告された43,45~47遺伝子に影響を及ぼした(図5A)。本発明者らはまた、発癌性調節不全(oncogenic dysregulation)のTLX3を標的とすることが知られているT-ALLの再発性再配列48である、t(5;14)(q35;q32)均衡型転座を同定した(図5A)。核型の多様性を示す個々の細胞はほとんどなかったが、細胞の大部分はメジャークローンの核型をサポートしていた(図5B)。
本発明者らは、T-ALLを遺伝的に特徴づける現在の臨床基準である、診断中に原発性T-ALLから得られた古典的(細胞遺伝学的)核型を用いてこの核型の検証を試みた。これにより、染色体X、7、8、および9の重複は確認されたが、古典的な核型分析では、すべての限局性CNAを検出できず、従前は「潜在性の(cryptic)」として設計された(すなわち、「核型分析では検出できない」49)t(5;14)(q35;q32)転座をキャプチャできなかった。scTRIPによって検出されたさらなるSVを検証するために、本発明者らは次に、診断、寛解および再発50、ならびに発現測定での、バルクキャプチャシーケンスP33によるCNAプロファイリングを利用した。これらの実験では、すべて(6/6、100%)の限局性CNAを確認し、t(5;14)(q35;q32) 均衡型転座の発生をサポートするTLX3の調節不全を検証した。scTRIPによって推定されたハプロタイプ解決された核型は、サイズが200kbまでのSVを含み、臨床核型分析では見逃された「潜在性の」転座を位置づけ特定するものであり、41個の細胞からのシーケンスデータを使用して構築されたもので、累積ゲノムカバレッジの約0.9倍であった。
実施例7:scTRIPは、PDX由来のT-ALLで従前は認識されていなかったDNA再配列を明らかにする
次に、発明者らは、若年女性患者(P1)から得られた2番目のT-ALL再発サンプルに目を向けた。本発明者らは、P1の79個の単一細胞をシーケンスし、それぞれが少なくとも25個の細胞によって提示される2つのサブクローンを発見した(図5C)。最初に、本発明者らは、14q32での新規の2.6Mb均衡型逆位を含むクローンSVに目を向けた(図6A)。興味深いことに、逆位ブレークポイントの1つは、P33 t(5;14)(q35;q32)転座の影響を受けたまったく同じ14q領域に分類された(図6B)。従前の研究では、正確なブレークポイントの位置に応じて、t(5;14)転座は、14q35のエンハンサー配列(enhancer element)をこれらの癌遺伝子の近くに再配置することにより、5q35のTLX3およびNKX2-5癌遺伝子を標的にできることが示されている43,51
両方のT-ALL患者が同じ領域に影響を与える均衡型SVを示したという観察は、さらなる分析を動機づけた。これは、P1で本発明者らに位置づけられた新規14q32逆位が、BCL11Bのエンハンサー配列含有領域3’をT細胞白血病/リンパ腫1A(TCL1A)癌遺伝子のすぐ近くに並置したことを明らかにした(図6A)。従前の研究では、TCL1Aの過剰発現が生じる52,53、T細胞白血病/リンパ腫およびT-ALLで異なるエンハンサー並置再配列が報告されていることから、本発明者らは、P1における差次的発現を調査するためにRNA-seqを探求した。これは確かにTCL1AがP1で最も高度に過剰発現された遺伝子であることを確認した(任意に選択した5つのT-ALLと比較して160倍を超える過剰発現;P=1.8E22ワルド検定54、ベンジャミーニ -ホッホベルク補正(Benjamini-Hochberg correction);図6C、左パネル)。本発明者らは、逆位の結果としてTCL1Aの調節不全が生じた場合、TCL1Aの過剰発現は再配列されたハプロタイプに限定されるであろうと考えた。scTRIPのハプロタイプ解決されたSV割り当てを利用して、本発明者らは対立遺伝子特異的発現分析を実施し、TCL1A過剰発現が実際に逆位を伴うハプロタイプからのみ生じたことを示した(図6C、右パネル)。これらのデータは、癌遺伝子発現を誘導する新規な逆位を示唆する。さらに、他のT-ALLまたはT細胞悪性腫瘍におけるこの逆位の再発を評価し、BCL11Bエンハンサーが関与する癌遺伝子調節不全SVの多様性を調査するための研究が必要である。浅いシーケンスによって均衡型SVの拡張可能な発見を実行できるため、scTRIPは、より大規模な患者コホートを用いてこれらの問題を調査するのに適している。
次に、発明者らは、P1のサブクローンSVを分析し、単一の6qハプロタイプに影響を与える一連の高度にクラスター化されたサブクローン再配列を発見した(VAF=0.32)。これらの再配置は、2つのInv、1つのInvDup、1つのDup、および3つのDelを含み、6qのほぼ90Mbにまたがる全体で13の検出可能なブレークポイントをもたらした(図6D、E)。6qでSVを示すすべての細胞は、13個のブレークポイントのフルセットの証拠を示した。さらに、コピー数プロファイルは、たった3つのコピー数状態間で変動しており41、本発明者らは、クロモスリプシスを思いださせる再配列パターンである41,42、ヘテロ接合性の保持および喪失のアイランドを観察した41。これらのデータを裏付けるために、本発明者らは、長い(4.9kb)挿入サイズのメイトペアシーケンスをバルクでディープな(165倍)物理的カバレッジで実施した。リード深度の変化は、このサブクローンの複合再配列ではほとんど識別できなかったが、ディープメイトペアシーケンスにより、13のサブクローンSVブレークポイントすべてが確認された。したがって、クロモスリプシスと一致するサブクローン再配列バーストが確認された(図6G)。これらのデータは、標準的なバルクWGS42では見逃される可能性が高いサブクローンの複合SVをscTRIPは明らかにできることを強調する。
考察
scTRIPは、リード深度、ストランド、およびハプロタイプフェーズを統合する共同コールフレームワークを使用して、単一細胞の多種多様なSVの体系的な検出を可能にする。サブクローンSVをVAF<1%までコールし、単一細胞で作用するSV形成プロセスを同定して、SV検出方法10,13,26,55,56の満たされていないニーズに対応できる。別個のSVクラスを調査する従前の単一細胞研究では、WGA10,17,57の後で比較的少数の選択されたセルのみをシーケンスすることによってそうしました。また、Strand-seqを使用した従前のSV検出の取り組みは生殖細胞系列の逆位に限定されていた23が、本明細書で提供される計算の進歩により、CNA、均衡型転座および不均衡型転座、逆位、逆位重複、およびBFBやクロモスリプシスを含む複合SV形成プロセスの結果をすべての単一細胞において体系的に発見することが可能である。特に、scTRIPは、標準的なバルクWGSでアクセスできていないSVのクラスである、繰り返し埋め込まれたSV(テロメアDNAにブレークポイントを示す不均衡型転座によって例示される)をさらに解決できる。さらに、scTRIPによって検出されたSVはハプロタイプ解決され、偽陽性のコールを減らし、対立遺伝子特異的な遺伝子発現データ57,58を統合するのに役立つ。
本発明者らは、形質転換されたRPE細胞からの細胞の最大8%でBFBサイクルを同定することによってSV形成プロセスを測定するscTRIPの能力を示し、BFBサイクルを介したSV形成がこれらの細胞で著しく豊富であることを示す。当初は約80年前に説明されていたが38、scTRIPにより、今は個々の体細胞のBFBを直接かつ偏りなく測定できるようになった。BFBサイクルは、染色体のアームレベルおよび末端の喪失/獲得事象の後に同定された最も豊富なSV形成プロセスであり、これらはすべて染色体ブリッジに起因する可能性がある40,59。BFBサイクルは、さまざまな癌で発生し14、クロモスリプシスなどの他の突然変異プロセスを誘発する可能性があり37、疾患の予後と相関する60。ハイブリダイゼーションベースの単一細胞分析によって明らかにされたように58、BFBサイクルは、体細胞の外側、つまり体外受精後の卵割期の胚でも報告されている。すべての体細胞欠失の20%、および癌ゲノムの体細胞SV全体の>50%25,26は、複合DNA再配列として生じると推定されている。単一細胞におけるこれらの再配列プロセスの直接かつロバストな測定を可能にすることにより、クローン進化における複合SVの役割に関する将来の調査をscTRIPは容易にする。
本発明者らの研究はまた、患者由来の白血病細胞における均衡型SVおよび不均衡型SV、複合SV、および核型の不均一性を調査することにより、疾患分類の潜在的な価値をも例示した。本発明者らは、41個の単一細胞を使用して200kbの解像度でT-ALLサンプルの分子核型を構築したが、これはわずか0.9倍のゲノムカバレッジに相当する。これにより、現在臨床で使用されている細胞遺伝学的手法では見えない超顕微鏡的CNAと発癌性DNAの再配列が明らかになった。古典的な細胞遺伝学は、通常、患者あたりの限られた数の中期の広がりに対してのみ追求され、通常、scTRIPにアクセス可能な低レベルの核型の不均一性を捉えることができない。クロモスリプシスは白血病の悲惨な結果と関連している61ため、本発明者らはT-ALL患者の1人において、サブクローンクロモスリプシス事象を発見し、疾患の予後に対する潜在的な有用性に光をあてた。健康な個人における異常なクローンの拡大10および癌患者における系統追跡62の研究も、将来的にはscTRIPによって促進される可能性がある。別の潜在的な応用分野は、希少疾患の遺伝学であり、scTRIPは、体細胞モザイク現象56につながるアクセス可能なSVの範囲を広げることにより、「不明確な症例」の解決に役立つ可能性がある。さらに、本発明者らのフレームワークは、予期しない(潜在的に病原性の)SVが発生する可能性がある63,64、細胞治療、遺伝子治療、および治療用CRISPR-Cas9編集と組み合わせてゲノムの完全性を評価するために使用できる。高解像度の核型を生成するscTRIPの能力により、このような望まれないSVの存在を検出し、これらの将来の治療に関連する安全性の懸念に対処することができる。
scTRIPは、複製中に染色体の標識化が必要である、Strand-seqによって生成されたストランド特異的データを利用する。したがって、非分裂細胞、アポトーシス細胞、または固定した細胞はシーケンスできない。しかしながら、多くの重要な細胞タイプ、これには、たとえば、新鮮または凍結した幹細胞および前駆細胞、癌細胞、再生組織または胚組織の細胞、iPS細胞、オルガノイドを含む多様なモデルシステムの細胞が含まれるが、これらの細胞は自然に分裂する傾向があるか、または培養することができます。さらに、将来的には、scTRIPの基礎となる計算フレームワークを、細胞分裂がない状態でリードを生成するストランド特異的方法で使用できるようになる65
本発明者らのアプローチは、WGAベースの単一細胞法よりもはるかに少ないシーケンスカバレッジで体細胞SVランドスケープの体系的な研究を可能にする。本発明者らは、従前のリードペアまたはスプリットリードベースの方法12に必要とされるよりも約2000倍少ないリードを使用して、ロバストなSV発見を実証した。WGAを使用した、ディープカバレッジへの単一細胞シーケンスでは、サイズが200kb未満の体細胞SVのマッピングが可能になるため、小さなCNAやレトロトランスポゾンの検出に引き続き役立つ。ただし、scTRIPと比較すると、WGAベースの単一細胞分析には、対立遺伝子ドロップアウトに対する感受性(susceptibility)、繰り返し埋め込まれたSVの検出の難しさ、拡張性の制限、および高コスト17を含む、ペアードエンド分析の制限がある。Strand-seqの試薬コストの合計は細胞あたり約15ドルであり、プロトコルは容易に拡張可能であり(方法を参照)、scTRIPにより数百の単一細胞のSVランドスケープの体系的な研究が可能になる。スケーラブルな方法が存在する単一細胞でのCNAプロファイリングの低深度方法は、サイズが1~5MbのCNAを検出する16,18。これらの方法は、特にCNAが豊富な癌において、サブクローン構造を調査できる可能性を示すが、重要なSVクラスを見逃しており、異なるSV形成プロセスを同定または識別することができない。
結論として、scTRIPの共同コールフレームワークにより、単一細胞での体系的なSVランドスケープ研究により、派生染色体、核型の多様性を解読し、SV形成プロセスを直接調査することができる。これは、既存の方法に比べて重要な価値を提供し、単一細胞シーケンスおよび遺伝子不均一性研究に新たな可能性を開く。
参考文献は以下のとおりである:
参考文献
1. Ciriello, G. et al. Emerging landscape of oncogenic signatures across humancancers. Nat. Genet. 45, 1127.1133 (2013).
2. Mertens, F., Johansson, B., Fioretos, T. & Mitelman, F. The emergingcomplexity of gene fusions in cancer. Nat. Rev. Cancer 15, 371.381 (2015).
3. Northcott, P. A. et al. The whole-genome landscape of medulloblastomasubtypes. Nature 547, 311.317 (2017).
4. Beroukhim, R., Zhang, X. & Meyerson, M. Copy number alterations unmaskedas enhancer hijackers. Nat. Genet. 49, 5.6 (2016).
5. Northcott, P. A. et al. Enhancer hijacking activates GFI1 family oncogenesin medulloblastoma. Nature 511, 428.434 (2014).
6. Kim, C. et al. Chemoresistance Evolution in Triple-Negative Breast CancerDelineated by Single-Cell Sequencing. Cell 173, 879.893.e13 (2018).
7. Turajlic, S. et al. Tracking Cancer Evolution Reveals Constrained Routes toMetastases: TRACERx Renal. Cell 173, 581.594.e12 (2018).
8. Sottoriva, A. et al. A Big Bang model of human colorectal tumor growth. Nat.Genet. 47, 209.216 (2015).
9. Aparicio, S. & Caldas, C. The implications of clonal genome evolutionfor cancer medicine. N. Engl. J. Med. 368, 842.851 (2013).
10. Forsberg, L. A., Gisselsson, D. & Dumanski, J. P. Mosaicism in healthand disease - clones picking up speed. Nat. Rev. Genet. 18, 128.142 (2017).
11. Stratton, M. R. Exploring the genomes of cancer cells: progress andpromise. Science 331, 1553.1558 (2011).
12. Korbel, J. O. et al. Paired-end mapping reveals extensive structuralvariation in the human genome. Science 318, 420.426 (2007).
13. Layer, R. M., Chiang, C., Quinlan, A. R. & Hall, I. M. LUMPY: aprobabilistic framework for structural variant discovery. Genome Biol. 15, R84(2014).
14. Leibowitz, M. L., Zhang, C.-Z. & Pellman, D. Chromothripsis: A NewMechanism for Rapid Karyotype Evolution. Annu. Rev. Genet. 49, 183.211 (2015).
15. Navin, N. E. Cancer genomics: one cell at a time. Genome Biol. 15, 452(2014).
16. Zahn, H. et al. Scalable whole-genome single-cell library preparationwithout preamplification. Nat. Methods 14, 167.173 (2017).
17. Gawad, C., Koh, W. & Quake, S. R. Single-cell genome sequencing:current state of the science. Nat. Rev. Genet. 17, 175.188 (2016).
18. Bakker, B. et al. Single-cell sequencing reveals karyotype heterogeneity inmurine and human malignancies. Genome Biol. 17, 115 (2016).
19. Voet, T. et al. Single-cell paired-end genome sequencing reveals structuralvariation per cell cycle. Nucleic Acids Res. 41, 6119.6138 (2013).
20. Zhang, C. Z. et al. Chromothripsis from DNA damage in micronuclei. Nature522, 179.184 (2015).
21. Falconer, E. et al. DNA template strand sequencing of single-cells mapsgenomic rearrangements at high resolution. Nat. Methods 9, 1107.1112 (2012).
22. Porubsky, D. et al. Dense and accurate whole-chromosome haplotyping ofindividual genomes. Nat. Commun. 8, 1293 (2017).
23. Sanders, A. D. et al. Characterizing polymorphic inversions in humangenomes by single-cell sequencing. Genome Res. 26, 1575.1587 (2016).
24. van Wietmarschen, N. & Lansdorp, P. M. Bromodeoxyuridine does notcontribute to sister chromatid exchange events in normal or Bloom syndromecells. Nucleic Acids Res. 44, 6787.6793 (2016).
25. Yang, L. et al. Diverse mechanisms of somatic structural variations inhuman cancer genomes. Cell 153, 919.929 (2013).
26. Li, Y. et al. Patterns of structural variation in human cancer, bioRxiv.bioRxiv 181339 (2017). doi:10.1101/181339
27. Janssen, A., van der Burg, M., Szuhai, K., Kops, G. J. & Medema, R. H.Chromosome segregation errors as a cause of DNA damage and structuralchromosome aberrations. Science 333, 1895.1898 (2011).
28. Mardin, B. R. et al. A cell-based model system links chromothripsis withhyperploidy. Mol. Syst. Biol. 11, 828 (2015).
29. Maciejowski, J., Li, Y., Bosco, N., Campbell, P. J. & de Lange, T.Chromothripsis and Kataegis Induced by Telomere Crisis. Cell 163, 1641.1654(2015).
30. Riches, A. et al. Neoplastic transformation and cytogenetic changes afterGamma irradiation of human epithelial cells expressing telomerase. Radiat. Res.155, 222.229 (2001).
31. Rausch, T. et al. DELLY: structural variant discovery by integratedpaired-end and split-read analysis. Bioinformatics 28, i333.i339 (2012).
32. Amatu, A., Sartore-Bianchi, A. & Siena, S. NTRK gene fusions as noveltargets of cancer therapy across multiple tumour types. ESMO Open 1, e000023(2016).
33. Zhang, C.-Z., Leibowitz, M. L. & Pellman, D. Chromothripsis and beyond:rapid genome evolution from complex chromosomal rearrangements. Genes Dev. 27,2513.2530 (2013).
34. Campbell, P. J. et al. The patterns and dynamics of genomic instability inmetastatic pancreatic cancer. Nature 467, 1109.1113 (2010).
35. Rode, A., Maass, K. K., Willmund, K. V., Lichter, P. & Ernst, A.Chromothripsis in cancer cells: An update. Int. J. Cancer 138, 2322.2333(2016).
36. Selvarajah, S. et al. The breakage-fusion-bridge (BFB) cycle as a mechanismfor generating genetic heterogeneity in osteosarcoma. Chromosoma 115, 459.467(2006).
37. Li, Y. et al. Constitutional and somatic rearrangement of chromosome 21 inacute lymphoblastic leukaemia. Nature 508, 98.102 (2014).
38. McClintock, B. The Stability of Broken Ends of Chromosomes in Zea Mays.Genetics 26, 234.282 (1941).
39. Gisselsson, D. et al. Chromosomal breakage-fusion-bridge events causegenetic intratumor heterogeneity. Proc. Natl. Acad. Sci. U. S. A. 97, 5357.5362(2000).
40. Thompson, S. L., Bakhoum, S. F. & Compton, D. A. Mechanisms ofchromosomal instability. Curr. Biol. 20, R285.95 (2010).
41. Stephens, P. J. et al. Massive genomic rearrangement acquired in a singlecatastrophic event during cancer development. Cell 144, 27.40 (2011).
42. Korbel, J. O. & Campbell, P. J. Criteria for inference ofchromothripsis in cancer genomes. Cell 152, 1226.1236 (2013).
43. Girardi, T., Vicente, C., Cools, J. & De Keersmaecker, K. The geneticsand molecular biology of T-ALL. Blood 129, 1113.1123 (2017).
44. Richter‐Pecha.ska, P. et al. PDX models recapitulate the genetic andepigenetic landscape of pediatric T‐cell leukemia. EMBO Mol. Med. e9443 (2018).
45. Liu, Y. et al. The genomic landscape of pediatric and young adult T-lineageacute lymphoblastic leukemia. Nat. Genet. 49, 1211.1218 (2017).
46. Wang, Q. et al. Mutations of PHF6 are associated with mutations of NOTCH1,JAK1 and rearrangement of SET-NUP214 in T-cell acute lymphoblastic leukemia.Haematologica 96, 1808.1814 (2011).
47. Rao, S. et al. Inactivation of ribosomal protein L22 promotestransformation by induction of the stemness factor, Lin28B. Blood 120,3764.3773 (2012).
48. Nagel, S. et al. Activation of TLX3 and NKX2-5 in t(5;14)(q35;q32) T-cellacute lymphoblastic leukemia by remote 3’-BCL11B enhancers and coregulation byPU.1 and HMGA1. Cancer Res. 67, 1461.1471 (2007).
49. Bernard, O. A. et al. A new recurrent and specific cryptic translocation,t(5;14)(q35;q32), is associated with expression of the Hox11L2 gene in T acutelymphoblastic leukemia. Leukemia 15, 1495.1504 (2001).
50. Kunz, J. B. et al. Pediatric T-cell lymphoblastic leukemia evolves intorelapse by clonal selection, acquisition of mutations and promoterhypomethylation. Haematologica 100, 1442.1450 (2015).
51. Li, L. et al. A far downstream enhancer for murine Bcl11b controls itsT-cell specific expression. Blood 122, 902.911 (2013).
52. Sugimoto, K.-J. et al. T-cell lymphoblastic leukemia/lymphoma witht(7;14)(p15;q32) [TCRγ-TCL1A translocation]: a case report and a review of theliterature. Int. J. Clin. Exp. Pathol. 7, 2615.2623 (2014).
53. Virgilio, L. et al. Deregulated expression of TCL1 causes T cell leukemiain mice. Proc. Natl. Acad. Sci. U. S. A. 95, 3885.3889 (1998).
54. Love, M. I., Huber, W. & Anders, S. Moderated estimation of fold changeand dispersion for RNA-seq data with DESeq2. Genome Biol. 15, 550 (2014).
55. Alkan, C., Coe, B. P. & Eichler, E. E. Genome structural variationdiscovery and genotyping. Nat. Rev. Genet. 12, 363.376 (2011).
56. Campbell, I. M., Shaw, C. A., Stankiewicz, P. & Lupski, J. R. Somaticmosaicism: implications for disease and transmission genetics. Trends Genet.31, 382.392 (2015).
57. Dou, Y., Gold, H. D., Luquette, L. J. & Park, P. J. Detecting SomaticMutations in Normal Cells. Trends Genet. 34, 545.557 (2018).
58. Voet, T. et al. Breakage-fusion-bridge cycles leading to inv dup del occurin human cleavage stage embryos. Hum. Mutat. 32, 783.793 (2011).
59. Bakhoum, S. F. et al. The mitotic origin of chromosomal instability. Curr.Biol. 24, R148.9 (2014).
60. Wang, Y. K. et al. Genomic consequences of aberrant DNA repair mechanismsstratify ovarian cancer histotypes. Nat. Genet. 49, 856.865 (2017).
61. Rucker, F. G. et al. Chromothripsis is linked to TP53 alteration, cellcycle impairment, and dismal outcome in acute myeloid leukemia with complexkaryotype. Haematologica 103, e17.e20 (2018).
62. Navin, N. E. & Hicks, J. Tracing the tumor lineage. Mol. Oncol. 4,267.283 (2010).
63. Lee, H. & Kim, J.-S. Unexpected CRISPR on-target effects. Nat.Biotechnol. 36, 703.704 (2018).
64. Yoshihara, M., Hayashizaki, Y. & Murakawa, Y. Genomic Instability ofiPSCs: Challenges Towards Their Clinical Applications. Stem Cell Rev. 13, 7.16(2017).
65. Mooijman, D., Dey, S. S., Boisset, J. C., Crosetto, N. & vanOudenaarden, A. Single-cell 5hmC sequencing reveals chromosome-widecell-to-cell variability and enables lineage reconstruction. Nat. Biotechnol.34, 852.856 (2016).
66. Frismantas, V. et al. Ex vivo drug response profiling detects recurrentsensitivity patterns in drug-resistant acute lymphoblastic leukemia. Blood 129,e26.e37 (2017).
67. Sanders, A. D., Falconer, E., Hills, M., Spierings, D. C. J. &Lansdorp, P. M. Single-cell template strand sequencing by Strand-seq enablesthe characterization of individual homologs. Nat. Protoc. 12, 1151.1176 (2017).
68. 1000-Genomes-Project-Consortium et al. A global reference for human geneticvariation. Nature 526, 68.74 (2015).
69. Garrison, E. & Marth, G. Haplotype-based variant detection fromshort-read sequencing. arXiv [q-bio.GN] (2012).
70. Huber, W., Toedling, J. & Steinmetz, L. M. Transcript mapping withhigh-density oligonucleotide tiling arrays. Bioinformatics 22, 1963.1970(2006).
71. Claussin, C. et al. Genome-wide mapping of sister chromatid exchange eventsin single yeast cells using Strand-seq. Elife 6, (2017).
72. Porubsky, D. et al. Direct chromosome-length haplotyping by single-cellsequencing. Genome Res. 26, 1565.1574 (2016).
73. Benjamini, Y. & Hochberg, Y. Controlling the False Discovery Rate: APractical and Powerful Approach to Multiple Testing. J. R. Stat. Soc. Series BStat. Methodol. 57, 289.300 (1995).
74. Klambauer, G. et al. cn.MOPS: mixture of Poissons for discovering copynumber variations in next-generation sequencing data with a low false discoveryrate. Nucleic Acids Res. 40, e69 (2012).
75. Rausch, T. et al. Genome sequencing of pediatric medulloblastoma linkscatastrophic DNA rearrangements with TP53 mutations. Cell 148, 59.71 (2012).
76. Dobin, A. et al. STAR: ultrafast universal RNA-seq aligner. Bioinformatics29, 15.21 (2013).
77. Fan, J. et al. Linking transcriptional and genetic tumor heterogeneitythrough allele analysis of single-cell RNA-seq data. Genome Res. 28, 1217.1227(2018).
78. Lapunzina, P. & Monk, D. The consequences of uniparental disomy andcopy number neutral loss-of-heterozygosity during human development and cancer.Biol. Cell 103, 303.317 (2011).
79. Vogelstein, B. et al. Cancer genome landscapes. Science 339, 1546.1558(2013).
図面の用語
BrdU labeled chromosomes BrdU標識染色体
DNA replication DNA複製
Cell division 細胞分裂
Reference state 参照状態
Depth 深度
Strand ストランド
Phase フェーズ
Deletion 欠失
Duplication 重複
Balanced均衡型
Inversion逆位
Inverted duplication 逆位重複
Diagnostic footpring ot inter-chromosomalSV classes
Balanced translocation 均衡型転座
Haplotype ハプロタイプ
probability 確率
Watson ワトソン
Crick クリック
Duplication in RPE-1 RPE-1での重複
Deletion in C7 C7での欠失
Reads リード
Strands ストランド
clonal Inversion クローン逆位
Binned strand-seq data ビニングされたstrand-seqデータ
Monosomic 一染色体性
Cell population-level segregation pattern細胞集団レベル分離パターン
fraction of C:W reads C:Wリードのフラクション
fraction of C7 cells C7細胞のフラクション
Trisomic chr10q region トリソミーchr10q領域
fraction of RPE-1 cells RPE-1細胞のフラクション
Recurrent breakpoints located in BM510 andtested for a translocation diagnostic footprint
BM510に配置されおよび転座診断フットプリントについてテストされた反復ブレークポイント
correlated segregation 相関分離
independently segregating 独立分離
Haplotype-resolved states of Chr10 and ChrX Chr10およびChrXのハプロタイプ解決された状態
adjusted P-value 補正P値
Haplotype-resolved states of Chr15 andChr17 Chr15およびChr17のハプロタイプ解決された状態
anti-correlated segregation 反相関分離
Four derivative chromosomes characterizedin BM510 BM510で特徴づけられる4つの派生染色体
fusion 融合
Normalized expression (log-ratio) 正規化された発現(対数比)
Normalized count 正規化されたカウント
Direction 方向
Chromosome 染色体
region 領域
p-arm pアーム
BFB segments BFBセグメント
q-arm qアーム
Coverage カバレッジ
Genomic position ゲノム位置
Single RPE-C7 cells 単一RPE-C7細胞
Copy number (CN) per segment セグメントあたりのコピー数(CN)
Cell without BFB InvDup signal BFB InvDupシグナルのない細胞
Disomic 二染色体性の
no copy gain コピー獲得なし
Example of major BFB clone メジャーBFBクローンの例
unbalanced 不均衡型
Cell with extreme BFB InvDup signal 極端なBFB InvDupシグナルを持つ細胞
amplified 増幅された
Model of Breakage-fusion-bridge (BFB) cyclein C7 C7の切断-融合-架橋(BFB)サイクルのモデル
Germline (WT) chromosome生殖細胞系列 (WT) 染色体
Fusion of sister chromatids followingS-phase S期後の姉妹染色分体の融合
Telomere テロメア
Genomic region ゲノム領域
Breakage of dicentric chromosome followinganaphase後期後の二動原体染色体の切断
Del ‘by-product’ Delの「副産物」
Subsequent BFB cycle(s) at deprotectedtelomeric ends保護されていないテロメア末端での後続のBFBサイクル
Acquisition of telomeric cap ends cycleテロメア末端キャップサイクルの取得
Disomic二染色体性
Chr4 Complex Event Chr4複合事象
Ratios 比
Consensus Karotype of P33 TALL relapsesample P33 TALL再発サンプルのコンセンサス核型
complex 複合
Clustered single cell results for P33 P33のクラスター化された単一細胞の結果
single cells 単一細胞
Clustered single cell results for P1 P1のクラスター化された単一細胞の結果
proximal breakpoint 近位ブレークポイント
distal breakpoint 遠位ブレークポイント
Band バンド
genes 遺伝子
Breakpoint ブレークポイント
P1 count by haplotypeハプロタイプによるP1カウント
Normalized read depth 正規化リード深度

Claims (18)

  1. 少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータを提供するを含む、単一細胞トリチャネルプロセシング(single celltri-channel processing 、scTRIP)による少なくとも1つの標的染色体領域のシーケンスデータを分析するための方法であって、該ストランド特異的シーケンスデータは、少なくとも1つの単一細胞の標的染色体領域のシーケンスによって得られる多数のストランド特異的シーケンスリードを含み、該シーケンスリードを、または、該シーケンスリードが等しくフラグメント化されている場合は、そのようなシーケンスリードのそれぞれのフラグメント化部分を、参照アセンブリにアライメントさせ、および次に所与の選択されたウィンドウで、シーケンス情報の3つのチャネル: (i)シーケンスリードの総数、またはその一部、(ii)フォワード(またはワトソン)シーケンスリードまたはその一部の数、およびリバース(またはクリック)シーケンスリードまたはその一部の数、(iii)特定のハプロタイプ同一性(H1および/またはH2など)が割り当てられたシーケンスリードまたはその一部の数、のうちの少なくとも2つを割り当てる、方法。
  2. シーケンス情報の3つのチャネル(i)から(iii)すべてを割り当てる、請求項1に記載の方法。
  3. 少なくとも1つの標的染色体領域をセグメント化する工程を含むものであって、該セグメント化は、シーケンス情報のチャネル(i)から(iii)に基づいて、それぞれ個別に、任意の組み合わせで、または一緒に実行される、請求項1または2に記載の方法。
  4. ストランド特異的シーケンスデータは、例えば、一方のストランドが父方由来のものであり、他方のストランドが母方の染色体由来のものである、少なくとも1つの標的染色体領域の少なくとも2つの別個のストランドにマッピングされたシーケンスリードを含む、請求項1~3のいずれか1に記載の方法。
  5. シーケンスデータは、重複しないおよび/または重複する多数のシーケンスリードを含む、請求項1~4のいずれか1に記載の方法。
  6. シーケンスデータ内の複数(少なくとも2つ)のウィンドウに前記シーケンス情報を割り当てることによる構造変異(SV)を特定する工程、および複数のウィンドウ内で、参照状態と比較して、チャネル(i)から(iii)のいずれか1つ、またはすべて、またはその任意の組み合わせの情報の普通ではない/変更された/変化した分布を有する1つまたは複数のウィンドウを含むサブ領域を特定する工程、をさらに含む、請求項1~5のいずれか1に記載の方法。
  7. 前記染色体領域の前記参照状態は、前記染色体領域の情報の異常のない分布が予想されるチャネルの情報の状態、および/または所定の状態である、請求項6に記載の方法。
  8. ハプロタイプ同一性(H1/H2)が少なくとも1つの標的染色体領域に沿って割り当てられ、好ましくは、ストランド配向情報を保持しながら(すなわち、ストランドを考慮した方法で)、および、好ましくは、そのようなハプロタイプは、シーケンスリードまたはその一部に一塩基多型(SNP)を割り当てることによって割り当てられ、そのようなSNPは疾患関連性を有さず、および該ハプロタイプ同一性は、SNPを含むシーケンスリードまたはその一部に割り当てられ、および、SNPデータベースと比較することにより、または代替的に同一起源の複数のさらなるシーケンスされた単一細胞と対立遺伝子を比較(例えば、Porubsky et al. 2017のStrandPhaseRを使用)することにより、SNPの対立遺伝子を同定するものであり、および、任意で、ハプロタイプ同一性は、SNPを含まないシーケンスリードまたはその一部に対して、ストランド同一性によって、および、同じストランド同一性を有し、そのようなSNPを含む、他のシーケンスリードまたはその一部との比較によって、前記ハプロタイプ同一性を推論することにより割り当てられる、請求項1~7のいずれか1に記載の方法。
  9. 標的染色体領域は、1つまたは複数の染色体、好ましくは二倍体生物の1つまたは複数の染色体である、請求項1~8のいずれか1に記載の方法。
  10. 少なくとも1つの単一細胞の少なくとも1つの標的染色体領域のストランド特異的シーケンスデータは患者の細胞サンプルから取得されるものであり、および、前記単一細胞は、疾患に関連する細胞であるか、または前記患者の健康な細胞であり、好ましくは、疾患および/または健康な細胞に関連する多数の単一細胞に対して実施される、請求項1~9のいずれか1に記載の方法。
  11. 標的染色体領域内で検出されたSVの同一性、位置、または数に基づいて、疾患または状態を診断するさらなる工程を含む、請求項1~10のいずれか1に記載の方法。
  12. 標的染色体領域の構造変異(SV)を検出する方法であって、該方法は、請求項6に記載の方法を実施すること、および請求項6を参照する場合は請求項7~11に記載の方法を実施することを含む、方法。
  13. 単一細胞または複数の単一細胞の集団を核型分析する方法であって、該方法は、
    (a)少なくとも1つの単一細胞または単一細胞の集団のそれぞれの少なくとも1つの標的染色体領域、好ましくは完全なゲノム、のストランド特異的シーケンスデータを提供すること、
    (b) 請求項1~11の方法を実施すること、
    (c)前記単一細胞または単一細胞の集団の標的染色体領域内のSVを検出すること、および
    (d)検出されたすべてのSVに基づいてin silico核型を取得すること、
    を含む、方法。
  14. 対象の疾患または状態を診断する方法であって、該方法は、対象の1つまたは複数の細胞のストランド特異的シーケンスデータを提供すること、請求項11に記載の方法を実施すること、1つまたは複数の細胞内のSVを検出すること、および、検出されたSVを参照状態と比較することを含むものであって、対象のサンプル中の1つまたは複数のSVの数、タイプ、または位置の変化が、疾患、例えば癌などの状態の存在を示した、方法。
  15. 単一細胞または単一細胞の集団内の染色体不安定性(CIN)を評価するための方法であって、該方法は請求項1~11のいずれか1に記載の方法を実施することを含むものであり、および前記単一細胞または単一細胞の集団におけるSVの任意の1つのタイプまたは複数のタイプの、増加した総数または増加した数はCINを示す、方法。
  16. 細胞または細胞集団の品質管理に使用するための請求項15に記載の方法であって、不安定性の増加は品質の低下を示すものであり、好ましくは、該方法は、好ましくは再プログラミング、遺伝子編集またはウイルス組込みなどによって、単一細胞または単一細胞集団が遺伝子操作されるような、前記細胞または細胞集団の(遺伝的)変化の後に実施されるものである、方法。
  17. 単一細胞または単一細胞の集団は、自己免疫細胞療法などの患者の細胞療法で使用するためのものである、請求項15または16に記載の方法。
  18. コンピュータ上で実行されるときに請求項1~17のいずれか1に記載の方法を実行する、そこに記憶されているコンピュータ可読命令を備えるコンピュータ可読媒体。
JP2021560077A 2019-04-12 2020-04-09 単一細胞遺伝的構造変異の包括的検出 Pending JP2022528728A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19169090.8A EP3723096A1 (en) 2019-04-12 2019-04-12 Comprehensive detection of single cell genetic structural variations
EP19169090.8 2019-04-12
PCT/EP2020/060245 WO2020208181A1 (en) 2019-04-12 2020-04-09 Comprehensive detection of single cell genetic structural variations

Publications (1)

Publication Number Publication Date
JP2022528728A true JP2022528728A (ja) 2022-06-15

Family

ID=66175318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021560077A Pending JP2022528728A (ja) 2019-04-12 2020-04-09 単一細胞遺伝的構造変異の包括的検出

Country Status (8)

Country Link
US (1) US20220199196A1 (ja)
EP (2) EP3723096A1 (ja)
JP (1) JP2022528728A (ja)
KR (1) KR20220012849A (ja)
CN (1) CN114026647A (ja)
AU (1) AU2020271633A1 (ja)
CA (1) CA3136537A1 (ja)
WO (1) WO2020208181A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3183170A1 (en) * 2020-05-15 2021-11-18 Monsanto Technology Llc Systems and methods for detecting genome edits
CN112349346A (zh) * 2020-10-27 2021-02-09 广州燃石医学检验所有限公司 检测基因组区域中的结构变异的方法
CN112509639B (zh) * 2020-12-10 2022-05-31 北京大学 一种单细胞基因融合检测方法
EP4259829A1 (en) * 2020-12-14 2023-10-18 Institut National de la Santé et de la Recherche Médicale Diagnostic method for cancer evolution prediction, and uses thereof
CN112768001A (zh) * 2021-01-27 2021-05-07 湖南大学 一种基于流形学习和主曲线的单细胞轨迹推断方法
US11935627B2 (en) * 2021-12-29 2024-03-19 Mujin, Inc. System and method for text-based biological information processing with analysis refinement
CN115188413A (zh) * 2022-06-17 2022-10-14 广州智睿医疗科技有限公司 一种染色体核型分析模块
CN116343923B (zh) * 2023-03-21 2023-12-08 哈尔滨工业大学 一种基因组结构变异同源性识别方法
CN116030892B (zh) * 2023-03-24 2023-06-09 北京大学第三医院(北京大学第三临床医学院) 一种鉴定染色体相互易位断点位置的系统和方法

Also Published As

Publication number Publication date
EP3953942A1 (en) 2022-02-16
KR20220012849A (ko) 2022-02-04
AU2020271633A1 (en) 2021-11-11
EP3723096A1 (en) 2020-10-14
CA3136537A1 (en) 2020-10-15
WO2020208181A1 (en) 2020-10-15
CN114026647A (zh) 2022-02-08
US20220199196A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
AU2022202083B2 (en) Detecting mutations and ploidy in chromosomal segments
JP2022528728A (ja) 単一細胞遺伝的構造変異の包括的検出
Leung et al. SNES: single nucleus exome sequencing
Li et al. Whole-exome sequencing of endometriosis identifies frequent alterations in genes involved in cell adhesion and chromatin-remodeling complexes
Dietz et al. Low input whole-exome sequencing to determine the representation of the tumor exome in circulating DNA of non-small cell lung cancer patients
WO2017136059A1 (en) Using cell-free dna fragment size to determine copy number variations
WO2015164432A1 (en) Detecting mutations and ploidy in chromosomal segments
EP2875149A1 (en) Detecting and classifying copy number variation in a cancer genome
WO2018094031A1 (en) Multimodal assay for detecting nucleic acid aberrations
US20220228219A1 (en) Target-enriched multiplexed parallel analysis for assessment of tumor biomarkers
CA2986200A1 (en) Multiplexed parallel analysis of targeted genomic regions for non-invasive prenatal testing
CA3225014A1 (en) Methods for detecting neoplasm in pregnant women
Richer et al. Widespread allele-specific topological domains in the human genome are not confined to imprinted gene clusters
Ptashkin et al. Enhanced clinical assessment of hematologic malignancies through routine paired tumor and normal sequencing
AU2018296568A1 (en) Enrichment of targeted genomic regions for multiplexed parallel analysis
AU2024203154A1 (en) Detecting mutations and ploidy in chromosomal segments
Cradic Next Generation Sequencing: Applications for the Clinic
Bassaganyas Bars Characterization of simple and complex genomic structural variation: a study of human populations and leukaemia