CN110199031A - 设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷酸序列的方法 - Google Patents

设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷酸序列的方法 Download PDF

Info

Publication number
CN110199031A
CN110199031A CN201780084459.6A CN201780084459A CN110199031A CN 110199031 A CN110199031 A CN 110199031A CN 201780084459 A CN201780084459 A CN 201780084459A CN 110199031 A CN110199031 A CN 110199031A
Authority
CN
China
Prior art keywords
probe
sequence
gmc
nucleic acid
interested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780084459.6A
Other languages
English (en)
Inventor
S·贝图米厄
Y·福涅
J·科玛苏
F·费尔
A·本西蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Genomic Vision SA
Original Assignee
Genomic Vision SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Genomic Vision SA filed Critical Genomic Vision SA
Publication of CN110199031A publication Critical patent/CN110199031A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6841In situ hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

方法,其包括用于设计和合成基因组摩尔斯码(“GMC”)探针的计算机模拟步骤,包括设计多核苷酸序列和标记颜色的组合,用于分析靶基因区域的大重排以及复杂区域的等位基因表征和事件(如特定区域的复制、DNA修复或表观遗传学)定位。当涂在靶核酸序列上时产生特征性或独特性颜色模式的颜色编码的探针组。使用颜色编码的探针组的方法。

Description

设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷 酸序列的方法
发明领域
分析感兴趣的遗传区域中的特定事件(包括遗传重排,特别是复杂区域中等位基因的表征)以及事件的定位(如DNA复制、DNA修复或DNA表观遗传学)的方法。可以用适用于分析这些遗传事件的不同颜色或标志来标记计算机模拟(in silico)设计的改造的多核苷酸。
背景技术
相关技术描述
基因组生物标志研究经常涉及具有复杂重复的区域中遗传结构变异的复制或识别研究;这是用标准测序技术很难检测到的现象。单分子技术(如分子梳、光学作图和FISH)能够克服这些困难。参见Michalet等,1997;Jing等,1998;Gal和Pardue,1969;Bauman等,1980。
特别是分子梳能够通过基因组摩尔斯码(“GMC”)的独特检测策略直接显现感兴趣的靶区域;参见美国专利7,985,542B2、美国专利9,133,514 B2,通过引用将每一篇并入。荧光GMC提供了将颜色和探针长度两者结合起来的特定编码模式,用于直接显现感兴趣的基因座。可以专门为感兴趣的任何遗传区域或任何一组多个遗传区域设计GMC模式,并与所研究的科学假设的确切性质相适应。也可将这种使用颜色探针模式的方法应用于FISH技术。尽管光学作图技术目前无法与专门设计的探针组一起工作,但最近用CRISPR-CAS9和切口-标记方法联合获得的结果使探针模式设计在不久的将来将成为可能;McCaffrey等,2015。然而,到目前为止,还没有方法能够有效、高效或经济地识别任何这些技术所需的多核苷酸序列组合的颜色模式设计。
设计得当的探针模式可用于检测遗传重排、用于配套诊断产品或者将复制动力学事件定位到特定遗传区域。例如,采用分子梳技术的GMC方法能够识别BRCA1和BRCA2区域的大重排(参见Gad等,2001;Cheeseman等,2012;Puget等,2002);以及复制动力学与复制起始位置之间的相关性研究(参见Lebofsky等,2006)。Lebofsky展示了具有单色探针的GMC例子,探针之间具有特定的组合距离以便能够定位复制信号。但是,没有描述所需GMC的设计方法。
设计探针模式时所遇到的限制有两个方面:重复序列检测的调节以及靶多核苷酸的片段化。
第一方面限制是多核苷酸中存在大量重复序列,特别是基因组DNA中存在大量重复序列。由于DNA序列仅由4种不同的碱基组成,所以在整个基因组序列中以一定的密度出现了极短的序列段,如限制酶位点(4-8个碱基)。尽管这种短序列的分布模式会形成天然可识别的局部子模式,有时也被其他光学图谱测定所采用,但它要求人们分析整个基因组中大量的子模式,以便从感兴趣的基因座得到足够的信息。
为了从感兴趣区域(“ROI”)有效地获得信息,可以从感兴趣的基因座选择一种多核苷酸序列或一组多核苷酸序列作为标记靶。因为基因组DNA序列(尤其是更高等真核生物的基因组DNA序列)完全不是随机的,简单增加多核苷酸序列的大小并不一定保证多核苷酸序列在给定基因组序列中的独特性。短散布核元件和长散布核元件(SINE和LINE)都是通常具有几百个到几千个碱基的DNA序列段,它们是高度重复的并出现在整个基因组中。
必须对定义探针模式的多核苷酸序列组中所包含的这些序列进行调节。这可以通过排除高拷贝重复来实现,无论是在合成一种探针多核苷酸(参见Swenennhuis,2012)还是在设计多种多核苷酸序列(参见Beliveau,2012;Bienko,2013)时。区段重复(如低拷贝重复)可能有几百个kb(千碱基)或更多,如果感兴趣的基因座涉及该重复,就会导致探针信号的全部或部分重复。在那种情况下,探针模式的设计必须要么排除作为区段重复的一部分的多核苷酸序列,要么生成能够区分来自感兴趣区域的数据和来自重复基因座的数据的模式。
第二方面限制是样品制备期间测试多核苷酸(如细胞系或个体的基因组DNA)的片段化。在对一组多个基因区域具有科学兴趣的情况下,每个区域的探针模式都必须是独特的,并且能够从其他区域的模式中识别出来。当每个感兴趣区域(“ROI”)的长度远小于所制备的测试多核苷酸的代表性大小时,预期实验获得的多核苷酸序列探针组的信号包含每个ROI的完整探针模式。那么当信号模式与理论探针模式不一致时,就可以检测到基因组重排的发生。然而,当ROI的大小接近或大于所制备的样品多核苷酸的代表性大小时,由于样品制备过程中基因组DNA的物理性片段化,大量的信号将只包含理论模式的子部分。基因组DNA样品的这种片段化可能要求从部分局部信息来重建整个ROI信息。这意味着,不仅ROI完整探针模式而且每个ROI探针模式的子部分都必须是独特的,并且能够与ROI模式任何其他子部分区分开来。对于从测序或光学图谱信号重建DNA序列的部分信息汇总已有许多工作和算法;参见Flicek和Birney,2009;Hastie等,2013。然而,利用部分信息来优化自我重建效率的探针模式设计方法存在的问题还几乎没有研究。
尽管先前已报道了重复元件在感兴趣区域上的分布作为探针模式设计的重要信息,但关于基因组摩尔斯码和其他类型探针组合的现有专利(参见Lebofsky,2007;Komatsu,2016)并未考虑对区域之外的区段重复进行分析,也未考虑设计过程中ROI上的子模式独特性的限制。
发明内容
本发明涉及基于遗传摩尔斯码方法设计和使用所编码的多标记颜色探针的方法以及所设计或改造的探针本身。本发明还涉及用于分析感兴趣的遗传区域中特定事件的方法和由此所设计的多核苷酸。一个重要的实施方案是用于设计颜色编码的遗传摩尔斯码(“GMC”)探针的方法,其包括识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,通过定义一组子序列来细分感兴趣的靶区域的序列,识别感兴趣的靶区域内已定义子序列组中的重复子序列,设计与感兴趣的完整核酸靶区域结合的最小GMC探针组,其中所述设计的GMC探针在与感兴趣的核酸靶区域结合时产生独特的或特征性的颜色模式;并且任选合成所述设计的GMC探针。可以在适于其结合并识别感兴趣的靶区域的条件下将所合成的GMC探针与多核苷酸序列接触,例如,可将它们用于基因组DNA的分子梳程序。
本方法还包括识别感兴趣的靶区域之外的重复子序列,并设计这样的GMC探针:所述GMC探针与感兴趣的核酸靶区域结合但不与这些重复子序列结合,或者用一种或多种特定颜色识别它们。连续GMC探针的组合提供了用于检测靶区域的存在、不存在或修饰的独特标识。此外,该连续着色元件序列的子部分也是独特定义的,并且能够精确定位部分或完整的颜色编码组合。本发明涉及能够获得连续着色试剂的超特异性组合的技术步骤的定义,用于使用分子梳和杂交技术检测基因组中靶区域的存在、不存在或修饰。
附图简述
本专利或申请文件包含至少一幅彩色附图。具有彩色附图的本专利或专利申请公开的副本将在请求和支付必需费用后由主管局提供。
图1:用于提供选择性或独特探针模式的颜色编码GMC设计工具的总体方案。
图2:识别有问题的区段重复的算法方案。“ROI”代表“感兴趣区域”。这些步骤中的一个或多个是在计算机上执行的或可以在计算机上执行。
图3:用于基因组比对结果的算法后处理方案。这些步骤中的一个或多个是在计算机上执行的或可以在计算机上执行。
图4:用于识别问题序列的算法步骤的方案。这些步骤中的一个或多个是在计算机上执行的或可以在计算机上执行。
图5:定义颜色编码探针模式的算法方案。这些步骤中的一个或多个是在计算机上执行的或可以在计算机上执行。
图6:DNA探针在感兴趣区域上杂交的相对位置。Mb代表兆碱基。每种探针模式都是单色。探针的颜色是图形表现形式,并不反映实验结果所获得的真实颜色。
图7A和7B:覆盖参与HNPCC的2个基因的探针模式,由专利中所描述的关于检测大重排的探针组合的方法(Komatsu,2007)所设计。DNA探针的相对位置根据GRCh19/hg19人类基因组。上部探针模式覆盖MLH1基因,而第二探针模式覆盖PMS2基因。使用基因组浏览器在线工具获得探针模式的图形表现形式;参见Genome Browser(2017)。图7A和7B是重叠的图。
图8:无法确定探针模式定位的实验信号的例子。40kb的信号可能是PMS2探针模式的子部分(位于实验信号之上)或MLH1探针模式的子部分(位于实验信号之下)。使用基因组浏览器在线工具获得探针模式的图形表现形式;参见Genome Browser(2017)。
图9:覆盖PMS2基因的GMC大约前36kb的区段重复。使用基因组浏览器在线工具获得探针模式的图形表现形式;通过引用Genome Browser(2017)并入。
图10A和10B:2个感兴趣区域的探针模式,每个区域覆盖参与HNPCC的基因(上部的MLH1,下部的PMS2)。使用本文所介绍的探针模式方法来设计探针模式。DNA探针的相对位置根据GRCh19/hg19人类基因组。使用基因组浏览器在线工具获得探针模式的图形表现形式;参见Genome Browser(2017)。图10A和10B是重叠的图。
图11A:覆盖SMA区域的探针模式。DNA探针的相对位置根据GRCh38/hg38人类基因组(Rosenbloom等,2015)。位于SMA基因座上的基因的相对位置在探针模式下方示出。使用基因组浏览器在线工具获得探针模式的图形表现形式;参见Genome Browser(2017)。
图11B:通过图11A所示探针的分子梳和杂交所获得的实验信号的例子。人工将信号彼此比对,以便重建SMA基因座的探针模式。
图12:可以在其上进行本公开内容的实施方案的计算机系统。
图13A:靶区域覆盖的探针模式(探针模式上方)以及靶区域上所合成的探针模式(探针模式下方)。明确了DNA探针在感兴趣区域上的相对位置。Kb代表千碱基。将基因和假基因的相对位置定位在靶基因座上并表示在探针模式下方。在图中,“GENE”代表感兴趣的基因,“PSGE1”、“PSGE2”、“PSGE3”、“PSGE4”和“PSGE5”代表基因“GENE”的5个假基因。使用基因组浏览器在线工具获得探针模式的图形表现形式;参见Genome Browser(2017)。
图13B:通过图13A所示探针的分子梳和杂交所获得的实验信号的例子。
具体实施方式
本发明人在本文公开了设计一组序列或生物标志的计算机模拟工具,所述组的序列或生物标志在检测感兴趣的任何(一组)大于0.5-1kb的遗传区域中的特定事件(已知的、新识别的或者未知的结构变异、复杂区域的表征、复制信号定位等)方面以及任何生物分子技术方面是有利的甚至最佳的。
在应用于分子梳技术的背景下,该工具基于一系列不同颜色和长度的探针来提供探针模式。所得到的探针模式提供了通过所设计探针的分子梳和荧光杂交而获得的信号有效显现和清晰定位。通过该方法选择的探针可以用作生物标志,用于在基因或对应于几个基因的区域上识别和定位这些序列。通过该方法所获得的生物标志与待测DNA片段之间的视觉相互作用可以显示在线性化或拉伸的多核苷酸分子上。
基因组生物标志研究可涉及遗传结构变异的复制或识别研究;这是在具有复杂重复的区域中用标准测序技术很难检测到的现象。
用于多核苷酸序列分析的单分子技术可以克服这些困难。特别是分子梳通过基因组摩尔斯码(“GMC”)的独特检测策略来直接显现感兴趣的靶区域。荧光GMC提供了结合颜色和探针长度两者的特定编码模式,用于直接显现感兴趣的基因座。在分子梳的背景下,可以针对任何感兴趣的遗传区域专门设计GMC模式,并适应于所研究的科学假设的确切性质。
设计GMC时遇到的限制有两方面。首先,杂交可行性取决于感兴趣的基因座的遗传复杂性,更具体地取决于重复元件和区段重复的存在。其次,在提取步骤期间的DNA断裂可能会使部分信号的定位成为问题。因此,本发明人提供了用于表征感兴趣的特定基因座的计算机模拟GMC设计工具。此外,该工具可以设计用于定位事件(例如复制、DNA修复或表观遗传学)的GMC。
该工具通过结合生物信息学和组合计算机模拟分析来解决这两个技术问题。首先,生物信息学算法从设计中排除了富含重复元件的序列。在GMC设计期间识别并考虑区段重复,而不从感兴趣的区域进行系统排除。此外,如果需要的话,还可以在GMC设计过程中特异性地标记靶基因组区域之外的重复序列,以便在下游分析过程中区分它们。其次,该算法包括设计具有独特颜色模式的颜色编码的GMC的组合元件。独特的颜色编码允许清晰定位来自感兴趣的基因座的信号,无论GMC是否在提取期间由于DNA断裂而片段化。连续着色试剂的组合提供了用于检测靶区域的存在、不存在或修饰的独特标识。此外,该连续着色元件序列的子部分也是独特定义的,并且能够精确定位部分或完整的颜色编码的组合。
该算法提供了可通过其颜色和/或长度模式进行区分的多核苷酸序列组合,用于使用任何生物分子技术分析生物标志或检测特定事件(例如已知或未知的结构变异,复制信号定位等)。保证了所得序列组合的有效显现和清晰信号定位。本发明涉及允许获得连续着色试剂的超特异性组合的技术步骤的定义,适用于使用分子梳和杂交技术检测基因组中靶区域的存在、不存在或修饰。
本文所使用的术语“基因组”或“基因组的”是简化的。应理解的是,本文所述的方法(如分子梳)可以与能够附接到梳表面的其他DNA或核酸序列(包括改造的核酸、人工染色体等)一起实施。术语“重复(duplicate)”或“重复的”或者“复制(repeat)”或“复制的”旨在表示多于一个例子,例如特定序列的2、3、4、5、6、7、8、9、10个或更多个例子。这些术语表示复制的或重复的序列的存在,不应理解为将这些序列限制到由任何特定生物学机制所制备的那些序列。
基因组摩尔斯码或GMC是用于对核酸上的一个或多个靶区域进行综合分析和物理作图的通用工具和方法,所述靶区域例如拉伸核酸(如使用分子梳拉伸的DNA分子)的靶区域。GMC探针通常包括设计来识别感兴趣的所选区域的不同颜色和大小的荧光探针的组合。结果,用“划和点”的组合对要分析的DNA序列进行标记,就创建了对靶基因及其侧翼区域具有特异性的“摩尔斯码”。然而,如本文所解释的,当靶核酸含有重复的或复制的序列时或当靶DNA断裂时,GMC探针组的有用性可能会被减弱。
基因组摩尔斯码提供了拉伸DNA上靶区域的综合分析和物理作图。经梳理的DNA与设计用来识别所选择的感兴趣区域的不同颜色和大小的荧光探针组合进行杂交。结果,用“划和点”的组合来标记要分析的DNA序列,就创建了对靶基因及其侧翼区域具有特异性的“摩尔斯码”。GMC的基本策略是使用探针的空间分布来提供额外的信息,而不仅仅是测量探针。基因组摩尔斯码中不同基序的识别(例如涂在靶核酸上的探针模式)不仅基于探针大小和颜色,而且基于它们的顺序和它们之间的距离。DNA的同等拉伸允许准确且可重复地测量探针长度以及分开它们的缺口。与参照的基因组摩尔斯码相比,所观察到的模式中任何变化都表明了靶基因座中存在重排。可以根据所选择的遗传摩尔斯码设计来识别和分析扩增、缺失、重复、倒位和易位,而不会因序列内容产生偏差。GMC方法允许检测经常被其他方法遗漏的平衡型重排,而且还提供与所发现的位置和确切拷贝数有关的信息。GMC探针定义为根据GMC方法进行标记的多核苷酸序列。本发明提供了具有优于上述那些探针的性质的GMC探针,例如与常规GMC探针相比对感兴趣的基因座具有更优的特异性。
用于设计和制备GMC探针的已知方法以及分子梳程序描述于US 2016/0047006、US2016/0040249、US 2016/0040220、US 2015/0197816、US 2014/0220160、US 2013/0130246以及US 2012/0076871、US 2011/0287423、US 2010/0041036(现为美国专利No.8,586,723)和US 2008/0064114(现为美国专利No.7,985,542),每篇都通过引用并入。
术语基因组摩尔斯码可以与探针组结合使用,当所述探针结合到一个或多个靶基因座时会产生特定的颜色模式或特定的可检测标记模式,或者备选地,识别由靶核酸与这些探针的接触所显示出的颜色或可检测标记模式。该术语还包括美国专利No.8,586,723(2013年授权)和7,985,542(2011年授权)中所使用的遗传摩尔斯码的定义。在这些所引用专利的一个实施方案中,GMC探针包括至少三种不同的探针,每种探针通过25-30kb的小缺口或通过55-70kb之间的长缺口彼此隔开,并具有指定的颜色或标记。可以使用具有不同间隔的其他数量和组合的探针,例如两种、三种、四种、五种、六种、七种、八种、九种、十种或更多种探针的组合,当将它们涂在靶核酸(例如基因组或染色体DNA)上时可以显示出特征性或独特的颜色模式。GMC探针也可以是连续的,它们之间没有间隔,或者通过缺口分隔开,缺口大小在1到数百kb的范围。探针大小也可以在500碱基对到数百kb之间变化。例如,探针大小可以包括在100kb和800kb之间,例如探针可以是100、200、300、400、500、600、700或800kb。
GMC探针设计方法。用于不包括本发明的一个或多个设计步骤的设计GMC探针的一些方法,其包括:
检测待测大分子上至少一个感兴趣结构域的存在的方法,其包括:a)预先确定感兴趣结构域上的至少两个靶区域,设计并获得每个靶区域的相应标记探针(即感兴趣结构域的所述探针组),将所选择的这些探针的位置彼此进行比较,并在待测大分子上形成所述感兴趣结构域的特异性标识;b)在将其上结合了步骤a)中所获得的探针的大分子扩散之后,检测线性化大分子上所结合的探针的位置并彼此比较,检测到感兴趣结构域的标识就表明所述感兴趣结构域在待测大分子上的存在,相反,没有检测到感兴趣结构域的标识或部分标识就表明在待测大分子上不存在所述感兴趣结构域或所述结构域的一部分。
检测待测大分子上至少一个感兴趣结构域的存在的方法,其包括:a)预先确定感兴趣结构域上的至少两个靶区域,设计并获得每个靶区域的相应标记探针(即感兴趣结构域的所述探针组),将所选择的这些探针的位置彼此进行比较,并在待测大分子上形成所述感兴趣结构域的特异性标识;b)在将其上结合了步骤a)中所获得的探针的大分子扩散之后,检测线性化大分子上所结合的探针的位置并彼此比较,检测到感兴趣结构域的标识就表明所述感兴趣结构域在待测大分子上的存在,相反,没有检测到感兴趣结构域的标识或部分标识就表明在待测大分子上不存在所述感兴趣结构域或所述结构域的一部分。
颜色编码/探针标记。适用于本发明的可检测标记包括可通过光谱学、光化学、生物化学、免疫化学、电学、光学或化学方法检测到的任何组合物。在本发明中有用的标记包括用标记的链霉抗生物素蛋白缀合物染色的生物素,磁珠(如Dynabeads.TM.),荧光染料(例如荧光素、德克萨斯红、罗丹明、绿色荧光蛋白等,参见例如Molecular Probes,Eugene,Oreg.,USA),放射性标记(例如3H、125I、35S、14C或32P),酶(例如辣根过氧化物酶、碱性磷酸酶和ELISA中常用的其他酶),以及比色标记,例如胶体金(直径大小为40-80nm范围的金颗粒高效地散射绿光)或者有色玻璃或塑料珠(如聚苯乙烯珠、聚丙烯珠、乳胶珠等)。教导这些标记使用的专利包括美国专利No.3,817,837;3,850,752;3,939,350;3,996,345;4,277,437;4,275,149和4,366,241,它们通过引用并入本文。本领域技术人员可以用本文所公开的其他可检测标记代替颜色编码标记。
荧光标记是优选的,因为它提供具有低背景的极强信号。通过快速扫描程序,它还可以高分辨率和高灵敏度被光学检测到。
探针都可以用单个标记(例如单个荧光标记)进行标记。或者,在另一实施方案中,可以同时杂交不同的探针,其中每种探针具有不同的标记。例如,一个靶可以具有绿色荧光标记,第二个靶可以具有红色荧光标记。扫描步骤将区分红色标记结合的位点与绿色荧光标记结合的位点。可以彼此独立地分析每种探针(靶核酸)。
可以使用的合适色原包括吸收特定波长范围内的光的那些分子和化合物,以便能够观察颜色,或者备选地,当用特定波长或波长范围的辐射进行照射时会发光,例如荧光剂。
各种合适的染料都是可以获得的,主要选择被其周围环境吸收最少的深色染料。示例性染料类型包括喹啉染料、三芳基甲烷染料、吖啶染料、茜素染料(alizarine dye),酞类(phthalein)、昆虫染料、偶氮染料、蒽醌类染料(anthraquinoid dye)、花青染料、phenazathionium染料和吩(phenazoxonium)染料。
可以单独使用各种荧光剂,或者备选地,与猝灭剂分子结合使用。感兴趣的荧光剂属于具有某些主要官能团的各种类别。这些主要官能团包括1-和2-氨基萘,p,p'-二氨基二苯乙烯,芘类,季菲啶盐,9-氨基吖啶,p,p'-二氨基二苯甲酮亚胺,蒽类,氧杂羰花青,部花菁(marocyanine),3-氨基马萘雌酮(3-aminoequilenin),苝(perylene),双苯并唑,双-p-唑基苯,1,2-苯并吩嗪,视黄醇,双-3-氨基吡啶盐,嚏根草苷元(hellebrigenin),四环素,sterophenol,苯并咪唑基苯胺(benzimidzaolylphenylamine),2-氧-3-色原烯(chromen),吲哚,呫吨(xanthen),7-羟基香豆素,吩嗪(phenoxazine),水杨酸酯,毒毛旋花子苷元(strophanthidin),卟啉类,三芳基甲烷类以及黄素。
具有连接用官能团或者可被修饰来引入这些官能团的各种荧光化合物包括例如丹磺酰氯;荧光素(如3,6-二羟基-9-苯基呫吨氢醇);罗丹明异硫氰酸酯;N-苯基-1-氨基-8-磺酸萘;N-苯基-2-氨基-6-磺酸萘;4-乙酰胺基-4-异硫氰酸根合-二苯乙烯-2,2′-二磺酸;芘-3-磺酸;2-甲苯氨基萘-6-磺酸酯;N-苯基,N-甲基-2-氨基萘-6-磺酸酯;溴化乙锭;stebrine;金胺-0,2-(9′-蒽基)棕榈酸酯;丹磺酰基磷脂酰乙醇胺;N,N′-二(十八烷基)氧杂羰花青;N,N'-二己基氧杂羰花青;部花菁;4-(3′芘基)丁酸酯;d-3-氨基脱氧马萘雌酮;12-(9′-蒽基)硬脂酸酯;2-甲基蒽;9-乙烯基蒽;2,2′-(亚乙烯基-p-亚苯基)-双苯并唑;p-双[2-(4-甲基-5-苯基-唑基)]苯;6-二甲基氨基-1,2-苯并吩嗪;视黄醇;双(3′-氨基吡啶);1,10-癸烷二基二碘化物;hellibrienin的磺基萘基腙;氯四环素;N-(7-二甲基氨基-4-甲基-2-氧代-3-色烯基)马来酰亚胺;N-[p-(2-苯并咪唑基)-苯基]马来酰亚胺;N-(4-fluoranthyl)马来酰亚胺;双(高香草酸);刃天青;4-氯-7-硝基-2,1,3-苯并二唑;部花菁540;试卤灵;玫瑰红;和2,4-二苯基-3(2H)-呋喃酮。
特别地,根据本发明的荧光标记是1-氯-9,10-双(苯乙炔基)蒽,5,12-双(苯乙炔基)并四苯,9,10-双(苯乙炔基)蒽,吖啶橙,金胺O,苯并蒽酮,香豆素,4',6-二脒基-2-苯基吲哚(DAPI),溴化乙锭,荧光素,绿色荧光蛋白,Hoechst染色剂,印度黄,萤光素,藻胆素,藻红蛋白,罗丹明,红荧烯,茋,TSQ,德克萨斯红和伞形酮。
理想地,荧光剂应吸收高于约300nm、优选高于约350nm、更优选高于约400nm的光,通常发射光的波长比吸收光的波长高约10nm。应注意,结合染料的吸收和发射特征能够与未结合的染料区分开。因此,当提及染料的各种波长范围和特征时,旨在表明所用的染料,而不是在任意溶剂中未缀合和表征的染料。
荧光剂通常是优选的,因为通过用光照射荧光剂,我们可以获得多种发射。因此,单个标记就能提供多个可测量的事件。
根据本发明,当用荧光标记进行标记时,通过荧光检测进行信号读取,荧光标记探针被光激发,然后通过光电传感器(例如配备适当的发射滤波器的CCD照相机)检测激发的发射,捕获数字图像并允许进一步的数据分析。
可检测信号也可由化学发光源和生物发光源提供。化学发光源包括通过化学反应产生电子激发然后能够发射作为可检测信号的光或向荧光受体提供能量的化合物。已发现多个化合物家族在各种条件下提供化学发光。一个化合物家族是2,3-二氢-1,4-苯二甲酰肼。最受欢迎的化合物是鲁米诺,它是5-氨基化合物。该家族的其他成员包括5-氨基-6,7,8-三甲氧基-和二甲基氨基[ca]苯并类似物。可以用碱性过氧化氢或次氯酸钙和碱使这些化合物发光。另一化合物家族是2,4,5-三苯基咪唑,以洛芬碱(lophine)作为母体产品的通用名称。化学发光类似物包括对-二甲基氨基和-甲氧基取代物。化学发光也可以用草酸酯获得,通常是草酰基活性酯(例如对硝基苯基酯)和过氧化物(例如过氧化氢)在碱性条件下获得。备选地,可将萤光素与萤光素酶或光泽精(lucigenin)一起使用来提供生物发光。
自旋标记是由具有不成对电子自旋的报告分子所提供的,可以通过电子自旋共振(ESR)光谱法进行检测。示例性的自旋标记包括有机自由基,过渡金属配合物,特别是钒、铜、铁和锰等的配合物。示例性的自旋标记包括氮氧自由基。
可以在杂交之前或之后将标记添加到探针(或靶,特别是核酸)中。所谓的“直接标记”是在杂交之前直接附接或掺合到探针中的可检测标记。相反,所谓的“间接标记”在杂交后与杂交双链体相连。通常,间接标记与杂交前已附接到探针上的结合部分相连。因此,例如可以在杂交之前将探针生物素化。杂交后,抗生物素蛋白缀合的荧光团就会结合携带生物素的杂交双链体,提供易于检测的标记。关于标记核酸和检测所标记的杂交核酸的方法的详细综述参见Laboratory Techniques in Biochemistry and Molecular Biology,Vol.24:Hybridization With Nucleic Acid Probes,P.Tijssen编.Elsevier,N.Y.,(1993),通过引用将其并入本文。
标记可以直接附接或通过接头部分附接。通常,标记或接头标记附接的位点不限于任何特定位置。例如,可以根据需要在不干扰检测或杂交的任何位置将标记附接到核苷、核苷酸或其类似物上。例如,来自Clontech(Palo Alto,Calif.)的某些Label-ON试剂提供遍布寡核苷酸整个磷酸主链上的标记以及3'和5'末端的末端标记。如例如本文所示的,可以将标记附接到核糖环上的位置,或者可根据需要修饰甚至去除核糖。有用的标记试剂的碱基部分可包括天然存在的或以不干扰它们目的达到的方式修饰过的那些。修饰碱基包括但不限于7-脱氮A和G、7-脱氮-8-氮杂A和G以及其他杂环部分。
关于末端标记探针,在许多应用中直接标记探针而不必经历扩增、转录或其他转变步骤是有用的。通常,末端标记方法允许优化待标记核酸的大小。末端标记方法还减少了有时候与聚合酶辅助的标记方法相关联的序列偏倚(bias)。可以使用末端转移酶(TdT)进行末端标记。
也可通过将标记的寡核苷酸或其类似物连接到探针末端来实现末端标记。其他末端标记方法包括例如使用连接酶或末端转移酶为核酸形成标记的或未标记的“尾巴”。然后将加尾的核酸暴露于会优先结合尾部的标记部分。尾部和优先结合尾部的部分可以是聚合物,例如核酸、肽或糖类。尾部及其识别部分可以是允许两者之间的识别的任何部分,包括具有配体-底物关系的分子(例如半抗原、表位、抗体、酶及其底物),以及互补核酸及其类似物。
与尾部或尾部识别部分相关联的标记包括可检测部分。当尾部及其识别部分都被标记时,与每个部分相关联的相应标记本身可具有配体-底物关系。各标记还可包含能量转移试剂,例如具有不同光谱特征的染料。可以选择能量转移对以获得所需的组合光谱特征。例如,第一染料吸收的波长比第二染料吸收的波长短,当在该较短波长下吸收时,第一染料就能将能量转移到第二染料。然后第二染料发射的电磁辐射的波长就比单独用第一染料会发射的波长更长。能量转移试剂在双色标记方案中特别有用,例如在1996年12月23日提交的同时待审的美国专利申请(它是1995年9月15日提交的美国申请序列No.08/529,115的部分延续申请)和1996年9月13日提交的国际申请No.WO 96/14839(它也是1996年6月25日提交的美国申请序列No.08/670,118的部分延续申请)中提出的那些方案,美国申请序列No.08/670,118是1993年12月15日提交的美国申请序列No.08/168,904的分案,后者是1990年12月6日提交的美国申请序列No.07/624,114的延续申请。美国专利申请序列No.07/624,114是1990年6月7日提交的美国序列申请No.07/362,901的部分延续申请,通过引用将它们并入本文。
在这些引用专利的一个实施方案中,当用放射性标记进行标记时,通过放射性检测进行信号读取。可以用X射线胶片或磷成像仪进行放射性检测。根据本发明的放射性标记的例子是3H、125I、35S、14C或32P。
在引用专利的一个优选实施方案中,用一种或多种荧光标记对探针进行标记。在引用专利的另一优选实施方案中,用放射性标记对探针进行标记。
根据本发明,在用至少两种不同标记进行探针标记的情况下,感兴趣结构域的标识就是连续标记的结果。
本发明的颜色编码的GMC探针可用于通过分子梳检测基因组或感染性病毒DNA来诊断病毒感染,用于检测扩增的序列(例如BRCA基因座中的序列扩增),用于检测重排基因组DNA中的断点,用于基因组重排的检测、显现和作图(例如在乳腺癌或卵巢癌基因或者BRCA1或BRCA2基因座中),用于受损DNA或修复的DNA的检测、量化和作图。
靶核酸长度、探针长度和间距。除了染色体或其他感兴趣核酸的最大长度之外,使用本发明的GMC探针研究的靶DNA区域的长度没有上限。可以研究长度为至少1、10、20、30、40、50、60、70、80、90、100、500、750、1,000、2,000kb的区域。因此,GMC探针没有最大长度。在分子梳方法的情况下,检测分辨率可能需要长度至少为500kb的探针,例如,如实施例中所示的3kb或160kb。提供特征性或独特性探针模式的探针组中的GMC探针之间的缺口可以是0kb(例如,对于SMA、MLH1或PSM2区域)到对于重复探针模式或GMC组而言的200kb的范围。还考虑了至少1、10、20、30、40、50、60、70、80、90、100、500、750、1,000或超过2,000kb的更长缺口。
包含GMC探针的试剂盒。用于检测核酸(如基因组DNA)的至少一个感兴趣的结构域或基因座的试剂盒将包含根据本发明的颜色编码的GMC探针。其他成分可包括用于样品制备的设备和试剂,包括提供适用于分子梳的纯化的极高分子量DNA(例如中值大小为100kb)的DNA提取设备;用于分子梳的设备和试剂,例如乙烯基硅烷处理的玻璃表面(如盖玻片)和用于拉伸DNA的设备或系统;用于读取与GMC探针相接触的靶DNA的设备和装置(如扫描仪),用于分析、处理和存储这些数据的软件或计算机设备。试剂盒还可包括使用说明或者营销或促销材料。
杂交。如本文所使用的术语“杂交作用”、“杂交到”或“杂交”旨在描述中度严谨或高度严谨杂交条件,优选其中杂交和洗涤条件允许核苷酸序列彼此至少60%同源以保持彼此杂交。
优选地,条件要使至少约70%、更优选至少约80%、甚至更优选至少约85%、90%、95%或98%彼此同源的序列通常保持彼此杂交。严谨条件是本领域技术人员已知的,可以在Current Protocols in Molecular Biology,John Wiley&Sons,N.Y.(1989),6.3.1-6.3.6中找到。
在与优选序列进行最佳比对后,具有至少80%、优选85%、90%、95%和98%同一性百分比的核酸序列,旨在表明相对于参考核酸序列具有某些修饰的核酸序列,例如特别是缺失、截短、延伸、嵌合融合和/或取代,尤其是点取代。优选涉及其中序列编码与参照序列相同的氨基酸序列的序列,这与遗传密码的简并性相关,或者能够与参照序列特异性杂交的互补序列,优选在高严谨条件下特别是如下文所定义的条件下。
在高严谨条件下的杂交表示以这样的方式选择温度条件和离子强度条件,使得它们能够维持两个互补DNA片段之间的杂交。举例来说,出于定义上述多核苷酸片段的目的,杂交步骤的高严谨性条件有利地是如下的条件。
DNA-DNA或DNA-RNA杂交分两步进行:(1)在含有5倍SSC(1XSSC对应于0.15M NaCl+0.015M柠檬酸钠溶液)、50%甲酰胺、7%十二烷基硫酸钠(SDS)、10X Denhardt's、5%硫酸葡聚糖和1%鲑鱼精子DNA的磷酸盐缓冲液(20mM,pH7.5)中于42℃预杂交3小时;(2)在取决于探针大小的温度(即:对于探针大小>100个核苷酸来说为42℃)实际杂交20小时,然后在2倍SSC+2%SDS中于20℃洗涤20分钟两次,在0.1倍SSC+0.1%SDS中于20℃洗涤20分钟一次。对于探针大小>100个核苷酸的探针而言,最后一次洗涤是在0.1倍SSC+0.1%SDS中于60℃进行30分钟。根据Sambrook等(1989,Molecular cloning:a laboratory manual.2ndEd.Cold Spring Harbor)的教导,对于具有更大或更小大小的寡核苷酸而言,本领域技术人员可以调整用于已定义大小的多核苷酸的上述高严谨杂交条件。在一个实施方案中,探针为至少15个核苷酸、优选至少1kb、更优选1至10kb、甚至更优选4至10kb的寡核苷酸。由于梳理过的DNA的最大分辨率为1-4kb,因此根据本发明的探针优选至少4kb。在一些实施方案中,在大分子上结合探针之前或之后进行了大分子的线性化;在其他情况下,大分子的线性化是通过分子梳或Fiber Fish进行的。
遗传疾病和病症。可使用本发明的GMC探针结合例如基因组DNA分子梳来检测与遗传疾病和病症相关联的核酸。可使用本发明的GMC探针和方法进行检测、表征或量化的遗传疾病或病症包括但不限于软骨发育不全、α-1抗胰蛋白酶缺乏症、抗磷脂综合征、自闭症、常染色体显性遗传多囊肾病、乳腺癌、进行性神经性腓骨肌萎缩症(Charcot-Marie-Tooth)、结肠癌、猫叫综合征(Cri du chat)、克罗恩病、囊性纤维化、痛性肥胖病(DercumDisease)、唐氏综合征、眼球后退综合征(Duane Syndrome)、假肥大性肌营养不良(Duchenne Muscular Dystrophy)、因子V莱顿血友病(Factor V Leiden Thrombophilia)、家族性高胆固醇血症、面部肩胛骨肱骨营养不良(FSHD)、家族性地中海热、脆性X综合征、戈谢病(Gaucher Disease)、血色素沉积症、血友病、全前脑畸形(Holoprosencephaly)、亨廷顿病、克兰费尔特综合征(Klinefelter syndrome)、莱伯氏先天性黑朦症(LeberCongenital Amaurosis)、马方综合征(Marfan syndrome)、强直性肌营养不良、神经纤维瘤病、努南综合征(Noonan Syndrome)、成骨不全、帕金森病、苯丙酮尿症、波兰异常(PolandAnomaly)、卟啉病、早老症(Progeria)、前列腺癌、视网膜色素变性、重度联合免疫缺陷(SCID)、镰状细胞病、皮肤癌、脊髓性肌肉萎缩症、泰-萨克斯病、地中海贫血、三甲基胺尿症(Trimethylaminuria)、特纳综合征、颚心面综合征(Velocardiofacial Syndrome)、WAGR综合征和威尔逊氏病。
GMC探针(例如当涂在靶核酸上时产生特征性或独特模式的探针组)和本发明的方法可用于检测、表征、评估或量化多核苷酸、基因组、外显子、内含子或选择的基因中的基因组或基因编辑事件。特定种类的基因包括但不限于原核或真核基因或基因组,酵母或真菌基因组或基因,植物或藻类基因,无脊椎动物或脊椎动物基因,来自鱼类、两栖动物、爬行动物、鸟类(包括鸡、火鸡和鸭)的基因,哺乳动物基因包括驯养动物(如马、牛、母牛、山羊、绵羊、美洲驼、骆驼或猪)的基因。这些基因包括以下的任何一种:哺乳动物β珠蛋白基因(HBB)、γ珠蛋白基因(HBG1)、B细胞淋巴瘤/白血病11A(BCL11A)基因、Kruppel样因子1(KLF1)基因、CCR5基因、CXCR4基因、PPP1R12C(AAVS1)基因、次黄嘌呤磷酸核糖转移酶(HPRT)基因、白蛋白基因、因子VIII基因、因子IX基因、富含亮氨酸重复的激酶2(LRRK2)基因、亨廷顿蛋白(Htt)基因、视紫红质(RHO)基因、囊性纤维化跨膜传导调节蛋白(CFTR)基因、表面活性蛋白B基因(SFTPB)、T细胞受体α(TRAC)基因、T-细胞受体β(TRBC)基因、程序性细胞死亡1(PD1)基因、细胞毒性T淋巴细胞抗原4(CTLA-4)基因、人白细胞抗原(HLA)A基因、HLA B基因、HLA C基因、HLA-DPA基因、HLA-DQ基因、HLA-DRA基因、LMP7基因、抗原加工相关转运体(TAP)1基因、TAP2基因、TAP结合蛋白(tapasin)基因(TAPBP)、II类主要组织相容性复合物反式激活蛋白(CIITA)基因、肌萎缩蛋白基因(DMD)、糖皮质激素受体基因(GR)、IL2RG基因、290kDa的中心体蛋白(CEP290)、双同源框4(DUX4)和RFX5基因。这些基因还包括植物FAD2基因、植物FAD3基因、植物ZP15基因、植物KASII基因、植物MDH基因和植物EPSPS基因。
分子梳技术已在各种专利和科学出版物中公开过,例如U.S.6,303,296、WO9818959、WO 0073503、U.S.2006/257910、U.S.2004/033510、U.S.6,130,044、U.S.6,225,055、U.S.6,054,327、WO 2008/028931、WO 2010/035140以及(Michalet,Ekong等.1997;Herrick,Michalet等.2000;Herrick,Stanislawski等.2000;Gad,Aurias等.2001;Gad,Caux-Moncoutier等.2002;Gad,Klinger等.2002;Herrick,Jun等.2002;Pasero,Bensimon等.2002;Lebofsky和Bensimon 2003;Jun,Herrick等.2004;Caburet,Conti等.2005;Herrick,Conti等.2005;Lebofsky和Bensimon 2005;Lebofsky,Heilig等.2006;Patel,Arcangioli等.2006;Rao,Conti等.2007;Schurra和Bensimon 2009;Nguyen,Walrafen等.2011;Cheeseman,Rouleau等.2012;Mahiet,Ergani等.2012;Tessereau,Buisson等.2013;Cheeseman,Ropars等.2014;Tessereau,Lesecque等.2014;Vasale,Boyar等.2015)。这些参考文献的技术,特别是涉及分子梳或与其有关的技术,都通过引用上述出版物而并入本文。Bensimon等的美国专利No.6,303,296公开了DNA拉伸程序,Lebofsky等的WO 2008/028931也公开了分子梳程序。
从任何来源(从病毒、细菌到人类直到植物…)所提取的拉伸核酸提供了线性链和平行链的固定核酸,优选用受控拉伸因子固定在合适的表面(例如表面处理的玻璃载玻片)上。拉伸后,可以将能通过例如荧光显微镜检测的序列特异性探针进行杂交(Lebofsky,Heilig等.2006)。因此,可将特定序列在单分子水平上直接显现。荧光信号的长度和/或其编号以及它们在载玻片上的间距提供了探针的尺寸和相对间距的直接读数。
分子梳是能够直接显现单个核酸分子的技术并在DNA结构方面有许多应用,如物理作图(Michalet,Ekong等.1997;Tessereau,Buisson等.2013;Cheeseman,Ropars等.2014)和检测重排,包括参与结节性硬化的Ca2+活化的中性蛋白酶3基因的缺失和扩增等(Michalet,Ekong等,1997年)以及在赋予遗传性乳腺癌和卵巢癌综合征易感性的BRCA1和BRCA2基因中的缺失和扩增等(Gad,Aurias等.2001;Gad,Caux-Moncoutier等.2002;Gad,Klinger等.2002;Gad,Bieche等.2003;Cheeseman,Rouleau等.2012)。WO2014140788 A1和WO2014140789 A1分别公开了检测BRCA1基因座序列扩增和检测重排基因组序列断点的方法。WO2013064895 A1公开了使用分子梳高分辨率检测BRCA1和BRCA2基因中的基因组重排的方法,用于确定与这些重排相关联的疾病或病症的易感性,包括对卵巢癌或乳腺癌的易感性。
分子梳也已成功确定了例如21三体中的基因拷贝数(Herrick,Michalet等,2000),以说明重复区域(如人核糖体DNA(Caburet,Conti等.2005)、D4Z4(Nguyen,Walrafen等.2011)以及RNU2阵列(Tessereau,Buisson等.2013;Tessereau,Lesecque等.2014;Tessereau,Leone等.2015))的组织,并检测外源DNA整合(如病毒整合(Herrick,Conti等,2005年;Conti,Herrick等,2007年)。WO 2010/035140 A1公开了基于核酸拉伸和分子梳对人染色体4和10上的D4Z4串联重复阵列进行分析的方法。
分子梳也适用于用于表征DNA复制(Herrick,Stanislawski等.2000;Herrick,Jun等.2002;Lebofsky和Bensimon 2003;Lebofsky和Bensimon 2005;Lebofsky,Heilig等.2006;Bailis,Luche等.2008;Daboussi,Courbet等.2008;Dorn,Chastain等.2009;Schurra和Bensimon 2009)、DNA/蛋白质相互作用(Herrick和Bensimon 1999)以及转录(Gueroui,Place等.2002)的功能性研究。
下文所引用的专利描述了各种分子梳程序和适用于配置针对特定目的的分子梳程序的各个步骤。本领域技术人员可以基于本公开内容调整这些程序或其各个步骤,来检测、量化或以其他方式表征由CRISPR-Cas9、其他基于CRISPR或其他基因组或基因编辑程序所进行的基因组或基因编辑事件。
来自美国专利No.6,303,296的一个分子梳例子包括在支持物的表面S上比对核酸,其中所述方法包括:(a)提供具有表面S的支持物;(b)将表面S与核酸接触;(c)将核酸锚定到表面S上;(d)将表面S与第一溶剂A接触;(e)使第一溶剂A与介质B接触以形成A/B界面,其中所述介质B是气体或第二溶剂;(f)由于第一溶剂A、表面S和介质B之间的接触而形成三重线S/A/B(弯液面);以及(g)移动弯液面以比对表面上的核酸。
基于美国专利No.7,985,542公开内容的另一个例子包括检测待测大分子上至少一个感兴趣结构域存在的方法,该方法包括:a)确定感兴趣结构域上的至少三个靶区域,b)获得每种探针都靶向所述靶区域中的一个的至少三种探针的相应标记组,所述探针的位置是互相比较而进行选择的,并在至少两个不同编码的组之间进行选择而形成至少两个编码的序列,所述编码序列是结构域特异性的并且是待测大分子上所述感兴趣结构域上的具体标识;c)扩散大分子并将探针结合到大分子上,其中扩散步骤发生在结合步骤之前或之后,d)读取每个标记探针所给出的信号,每个信号都与所述一种探针的标记相关联,e)将所述信号转录成由连续探针之间的缺口大小所建立的编码序列,f)检测到感兴趣结构域的编码序列,所述序列表示了待测大分子上所述感兴趣结构域的存在,反之,未检测到感兴趣结构域的编码序列或部分编码序列就表示待测大分子上不存在所述感兴趣结构域或所述结构域的一部分。
基于美国专利No.7,732,143公开内容的第三个分子梳例子包括识别包含基因组断裂的遗传异常的方法,其中所述方法包括:(a)提供表面,已使用分子梳技术在该表面上比对了包含多个克隆的基因组DNA;(b)用对寻找遗传异常的基因组序列具有特异性的至少一种探针来接触基因组DNA;(c)检测至少一种探针和基因组DNA之间的杂交信号;(d)直接识别基因组中断裂的存在,或者通过将杂交信号所检测到的序列长度与使用不含断裂的对照基因组和(b)部分的至少一种探针所获得的杂交信号所检测到的序列长度相比来识别基因组中断裂的存在,以及(e)确定具有已定义探针长度的克隆数,其中将所确定的克隆数和杂交信号所检测到的序列长度转换成图表。
在该方法的一些实施方案中,分子梳、变性和杂交包括以下实验程序中的一个或多个。
分子梳。为进行人类基因组分析,将硅烷化的盖玻片浸泡在含有基因组DNA溶液(3μg/ml于500mM MES中,pH 5.5)的一次性梳理槽中,在室温温育5分钟,然后从使用分子梳系统的槽中取出盖玻片。在温育过程中,DNA分子通过其末端和疏水表面的相互作用而锚定在表面上。通过从槽中取出表面,空气和DNA溶液之间的界面相对于表面而移动,对留在槽中的分子施加恒定的拉力,同时暴露在空气中的DNA部分以不可逆的方式逐渐固定在表面上。然后用落射荧光显微镜检查具有梳理过的DNA的盖玻片,以便在必要时检查梳理特征。然后将盖玻片在60℃加热4小时。如果在-20℃对其进行防潮保护,它们可以保存几个月。在此后的变性程序之前,将盖玻片在一系列含有浓度增加的乙醇(70%、90%、100%)的乙醇浴中进行脱水。
变性和杂交。为进行每个盖玻片的探针制备,将标记有生物素、地高辛和/或荧光素的3-5ng/kb de探针与5-10μg的人DNA Cot1和10μg的鲱鱼精子DNA在20μl的杂交缓冲液(50%去离子甲酰胺//_2X SSC pH8.0,0.5%sarkozyl,0.5%SDS和30%的BlockAid封闭液(Thermofisher))中进行混合。将探针溶液沉积在干净的玻璃载玻片上,然后将梳理过的DNA盖玻片放在探针溶液的液滴上(探针溶液夹在两个玻璃表面之间)。将载玻片放在杂交仪(Dako)上,在90℃变性5分钟,然后在37℃温育过夜。
杂交探针的免疫检测。杂交后,将盖玻片小心地从载玻片上取下,在2xSSC pH8.0中于60℃洗涤3次,每次5分钟。免疫检测溶液(一张载玻片20μL)由BlockAid封闭液(ThermoFisher)中的4ng/μL BV480链霉抗生物素蛋白(BD Bioscience)、各为70ng/μL的Alexa Fluor 647缀合的IgG组分小鼠抗地高辛和Cy3IgG组分单克隆小鼠抗荧光素(Jackson Immunoresearch)所组成。将免疫检测液沉积在干净的玻璃载玻片上,然后将盖玻片的杂交侧放在液滴上。将载玻片在37℃的湿度室中温育30分钟。温育后,将盖玻片小心地从载玻片上取下,在具有1%吐温20的2x SSC中于室温下洗涤三次,每次5分钟。在1xPBS中洗涤一次盖玻片5分钟,然后在一系列乙醇浴(70%、90%和100%)中脱水每次1分钟。盖玻片可在4℃避光保存数天。
以上提及的这些专利中,没有一个考虑了将分子梳与CRISPR-Cas9样基因组或基因编辑进行组合使用,也没有考虑通过这种组合所获得的优势,包括通过本文所公开的单一测定法所提供的偏差避免和效率改善。
本发明人在本文中公开了探针模式设计背景下的工具,以便用分子梳技术来表征感兴趣的特定基因座。设计探针模式时遇到的限制有两个方面:(i)区段重复和重复元件的存在可能产生影响感兴趣区域(ROI)分析的信号;(ii)提取步骤中的DNA断裂可能使部分信号的定位出现问题。
本文所提出的方法通过将生物信息学和组合计算机模拟分析结合起来解决这两个技术问题。本算法的总体流程如图1所述,它描述了颜色编码的GMC设计工具的总体方案。它将靶区域或多个靶区域的序列或基因组坐标作为输入,并返回每个区域的颜色编码的探针模式的提议(proposition)列表。
算法的第一部分对感兴趣的遗传区域进行生物信息学分析,其工作流程详见图2。算法的生物信息学部分由以下部分组成:
(A)本算法将区域分成相同大小的更小片段,其大小值由参数所规定。根据所应用的标记技术,可以定义数千碱基的基因片段或几十个碱基对的寡核苷酸片段。如果明确规定了,本步骤将优化片段定义,以避免使用在线数据库(如RepeatMasker)设计的富含重复元件的序列;参见Jurka,J,2000;Smit AFA,1996-2010,每个都通过引用并入。不考虑合成或扩增所得片段的可行性限制。可以在输入中明确规定片段定义的具体限制,例如为一些片段赋予坐标或赋予无片段覆盖的子区域。
(B)使用多序列比对算法(如BLAST、BLAT、FASTA、MUSCLE或CLUSTAL W)来识别区段重复;参见Camacho等,2008,Kent,2002,Pearson和Lipman,1988,Edgar等,2004;Chenna等.2003;将它们全部通过引用并入。可以使用这些多序列比对程序中的任一种在本申请提交日之前的最新版本或者任何其他公开或商用版本。目前,在我们的方法中执行BLAST算法,如性能研究所表明的,它的输出最适合探针模式设计的应用。然而,还是可以使用基于多序列比对算法的任何程序。在不同的参照序列上先后开始比对算法。首先,在感兴趣区域开始比对来进行区域覆盖的片段优化(见步骤C)。然后,在步骤C之后,在完整的人类基因组(Rosenbloom,2015)上开始比对,以识别基因组中感兴趣区域之外的有问题的区段重复;见步骤D至F。
(C)覆盖感兴趣区域的片段数量是通过分析区域内的区段重复来优化的。将几乎完全被感兴趣区域的任何其他片段重复所覆盖的片段移除。此外,本步骤还识别了由任何其他区域片段的部分片段覆盖所产生的颜色限制列表。当颜色与片段相关联时,这个限制列表就为算法的组合部分提供了有用信息;见图5。定义片段移除限定或颜色限制定义的参数在表1中进行定义。
(D)这一步是对整个基因组上进行的基因组比对算法的结果进行后处理。要使用的参考基因组的版本可通过表1中所定义的参数来确定。步骤D扫描所有产生的重复,并在距离小于其长度组合的一定比例时进行合并;详细信息请参见图3。然后根据同源性和长度来筛选(filter)所产生的重复。该步骤的流程如图3所述,默认参数值在表1中列出。
(E)这一步识别了可能产生问题序列的重复,即可以在感兴趣区域之外产生信号,它们可能会被曲解为有关所述区域的信息。在探针模式应用于分子梳技术的情况下,当用固定大小的窗口扫描基因组,在该窗口中存在一定长度的重复序列时,就会识别出问题序列。考虑复制片段之间存在的重叠,以便不会在计算重复长度时将重叠计算两次。图4描述了工作流程和表1用于问题序列识别的参数。
(F)当需要移除问题序列时,这些问题序列中的重复片段将被列出,并使用人工定义的分数进行分选。每个片段的分选分数是以其在所有问题序列中重复出现的长度之和来计算的。将得分最高的片段依次从区域覆盖范围中移除,直至问题序列完全消失。
最后,设计工具的生物信息学部分返回要标记的片段列表以及包含ROI覆盖和排除片段的图表表现形式的PDF报告,所述片段列表确保不存在由于感兴趣区域的遗传特异性而产生的信号污染。
如上所述,可以通过在步骤(A)中明确坐标来限制片段定义。此外,还可以要求在计算中不移除这些片段并将其保留在最终列表中。在这种情况下,要从步骤(C)和(F)的片段移除中将这些片段排除。当片段存在的限制阻止问题序列的完全移除时,要发布警告并将留下的问题序列在PDF报告中列出。
表1:算法的生物信息学部分的参数列表
本发明人考虑并公开了以下改进。
如果存在由于片段存在限制而未移除的问题序列,算法将在需要时在这些序列附近添加片段,以便仍然能够区分ROI信号和由这些序列所产生的信号。事实上,在探针模式设计过程中,靶基因组区域之外的重复序列将在随后被特别标记,以便在下游分析过程中进行区分。
可将区域划分为片段(步骤A),以避免在每个片段中出现串联重复和反向重复。为此,将使用算法(如串联重复查找器(Tandem Repeat Finder)和反向重复查找器(InvertedRepeat Finder))对片段中串联重复和反向重复的分布进行分析(Benson,G.1999;Warburton等,2004)。因此,当ROI序列要求时,也可以将区域划分为不同大小的片段。
算法的第二部分设计了具有独特颜色模式的颜色编码的探针模式。换言之,它将可以被标记的片段列表(以及对这些片段的标记颜色的一组限制)转换为一系列区段,每个区段与特定的标记颜色相关联并由一个或多个片段所组成。无论探针模式在样品制备过程中是否因DNA断裂而片段化了,独特的颜色编码都允许对感兴趣区域的信号进行清晰定位。部分模式的独特性取决于ROI的总大小和所制备样品DNA的代表性长度。在给定的部分设计中,更长的ROI就需要更高的复杂性(例如更大数量的颜色区段),而实际的最高复杂程度是受所制备DNA样品的实际大小所限制的。区段模式的设计过程必须随后考虑ROI和所制备DNA的长度,以及区段长度和区段之间的距离。为了保证有效显现,对颜色区段的长度进行了限制,这些限制是专门用于探针标记和信号显现方法的。图5描述了算法的组合部分的流程。表2列出了用于探针模式设计的参数。
对ROI已研究过的生物现象的先验知识可能会妨碍探针模式的设计。例如,人们可能对检测特征性大重排的存在感兴趣。在这种情况下,最佳探针模式可包括从重排断点的精确位置开始和结束的一组区段。因此,有必要允许探针模式最优性的灵活定义。表3列出了可赋予设计的片段特异性限制的类型,表4列出了可用于在设计过程中选择序列的所有标准。
算法由以下部分组成:
(A)本子部分为每个ROI定义了一系列片段和缺口,每个片段和缺口都关联有名称和长度。当两个连续片段之间的距离大于参数值C1时就定义为缺口(见表2)。
(B)生成感兴趣区域上所有可能的连续片段组合。每个组合称为“区段”,每个区段根据以下规则定义:
·区段长度在参数值C2所给出的区间内;见表2。
·区段不能含有缺口。
此外,可要求片段的具体组合;见表3。
(Bbis)从所有可能的区段列表中生成区段序列。区段在ROI中的分布是由对区段之间的距离值、ROI的审定最小覆盖和每个区段可接受的重复元件数量的限制所定义的;分别参见表2的参数C3、C4和C5。
(C)对已定义的区段序列进行分选,并根据表4中所提供的一组可用标准进行选择。可以将一组标准结合起来,并将优先级赋予每个标准。因此,本算法提供了灵活的“最佳”探针模式定义,可根据所使用的实验方案类型或所研究的科学问题进行调整。
(D)颜色模式在本章节中定义为使任何颜色子模式都超过最小大小;见表2参数C6;且其反向子模式在全局颜色模式组中具有独特存在。可用颜色列表也可被具体规定,对最大颜色数没有任何限制;见表2参数C7。
(E)颜色模式与区段序列相关联,这样每个生成的探针模式都由一组收集在区段中的片段所定义,每个都与标记颜色相关联。
(F)本部分选择符合算法的生物信息学部分所识别的颜色限制的所得探针模式(见表3)。
最后,算法返回颜色区段列表,具有每个区段的基因组坐标及其片段组合。连续着色试剂的组合提供了检测靶区域的存在、缺失或修饰的独特标识。此外,也独特定义了这种连续着色元件序列的子部分,能够允许精确定位部分或全部的颜色编码组合。
表2:算法的组合部分参数列表
表3:算法的组合部分中对区段和颜色设计可使用的限制类型列表
表4:算法的组合部分中执行探针模式选择的标准列表。
本发明人考虑并公开以下特征和/或改进。
根据区段在感兴趣区域中的位置,定义了区段大小区间的不同参数值(即表2的C2)。在颜色模式的生成和选择以及所产生的探针模式中,将考虑ROI内部的片段重复有关的信息输入(D至F部分)。当感兴趣的大重排表征的先验知识可用时,不仅将可能在区段定义中考虑它(见表3步骤B),还可能在颜色模式生成中考虑它(步骤D)。因此,大重排所生成的颜色模式也会在ROI中具有独特存在。
对于复制动力学在ROI上的定位而言,稍微修改了探针模式设计用算法的组合部分的工作流程。对于这种具体测定而言,子模式的识别并不是基于颜色模式,而是基于区段之间缺口的长度模式;参见Lebofsky,2006。因此,D部分没有将可用颜色列表作为参数(表2的C7),而是用彼此之间有足够区别的缺口长度列表,它们在分子梳技术所产生的实验信号上将是容易识别的。
基因或基因组编辑。本文所公开的GMC探针和方法可有利地应用于分析和检测由基因或基因组编辑程序所产生的核酸修饰,或者用于检测未损伤的、损伤的或修复的核酸。具有代表性的但是不限制的基因和基因组编辑程序在下文中描述。
可以使用本发明的GMC探针和方法来评估DNA双链断裂的修复。DNA中的双链断裂(DSB)是真核细胞中的常见事件,可能诱导有害损伤,进而诱导基因组不稳定和/或细胞死亡。这些事件通常通过非同源末端连接(NHEJ)或同源重组(HR)途径进行修复(Takata,Sasaki等.1998)。本文所公开的GMC探针和方法可有利地用于检测、分析或量化由DSB所引起的对核酸(如基因组DNA)的修饰的方法。
经由NHEJ的基因组编辑通常会导致断裂部位的小缺失和/或插入(得失位)。NHEJ是容易出错的机制,它可以在没有模板的情况下通过对切割末端的直接连接来修复DSB。这可能产生移码突变,通过两种机制的结合可敲除基因功能:编码蛋白质的过早截短和无义介导的mRNA转录物降解。NHEJ可能发生在细胞周期的任何阶段。在高等真核生物中,NHEJ是主要的DSB修复系统,而不是HR(Bibikova,Golic等.2002;Puchta 2005;Lieber 2010;Lieber和Wilson 2010)。
HR依赖于断裂末端链侵入到同源序列中,并随后以模板依赖方式修复断裂(Szostak,Orr-Weaver等.1983)。HR可通过四种不同的保守和非保守机制进行调控:
基因转换(GC)。GC基本上是由重组受体部位的DSB形成所开始的。DSB末端被处理成具有单链DNA尾部,其中一条最终侵入未断裂DNA的双链中。然后,侵入的单链DNA尾部与未断裂模板链中的同源DNA段形成异源双链体。这种异源双链体的自由DNA末端引发了修复性DNA合成。在链延伸后,新合成的链从未断裂模板DNA上解离,并与原始断裂DNA退火。最后,单链DNA缺口被填满,随后是DNA切口的连接。在这个过程中,未断裂DNA链上的DNA序列被转换到断裂链上,由此就伴随了遗传信息的单向转移(Paques和Haber 1999;Allers和Lichten 2001;Allers和Lichten 2001)。
非等位基因同源重组(NAHR)。事实上,HR也可通过NAHR机制在高度相似的重复序列或种内同源基因组区段(如区段重复)之间异位发生。NAHR可发生在同一染色体上的同向重复序列之间,从而导致染色体缺失,如果它以分子间方式发生的话,就能够在另一染色体上产生相互重复。当NAHR发生在反向重复序列之间时,就会导致倒位(inversion)。NAHR是导致基因组变异和基因组紊乱的机制。
断裂诱导的复制(BIR)。当同源性仅限于一个末端时,采用BIR途径修复DSB。在这种情况下,使用重组来建立单向复制叉,可将供体模板复制到染色体末端(McEachern和Haber 2006;Llorente,Smith等.2008)。BIR机制是许多人类疾病和癌症中发现的一些区段重复(Payen,Koszul等.2008)、缺失、非相互易位和复杂重排(Hastings,Lupski等.2009)的产生原因。
单链退火(SSA)。SSA限于修复其两侧可短至30个核苷酸的同向重复的DNA断裂(Sugawara,Ira等.2000;Villarreal,Lee等.2012)。切除暴露同源序列的互补链,通过Rad1-Rad10内切核酸酶复合物(哺乳动物中为XPF-ERCC1)去除非同源单链尾部,它们重组导致含有重复序列单一拷贝的缺失。因此,SSA被认为是高诱变性的。
当将具有DSB两侧的同源序列的外源DNA供体与修饰核酸酶一起引入时,细胞机制将使用所提供的供体序列作为修复模板,从而在DSB部位或其附近产生精确的核苷酸改变(Rouet,Smih等.1994)。根据供体DNA的性质(单链寡核苷酸或质粒),同源区的长度可在70到数百个碱基对之间变化(Yang,Guell等.2013;Hendel,Kildebeck等.2014)。供体DNA能够用来引入精确的核苷酸取代或缺失、内源性基因标记以及靶向性基因添加(McMahon,Rahdar等.2012)。已有研究表明,通过在靶位点引入DSB,在哺乳动物细胞中通过HR进行基因靶向的效率提高了几个数量级(Rouet,Smih等.1994年;Choulika,Perrin等.1995年;Smih,Rouet等.1995)。
基因或基因组编辑。用改造的核酸酶进行的基因组编辑是允许对任何基因组DNA序列进行靶向修饰的技术(Baker 2012)。该技术依赖于通过上述HR或NHEJ机制由DNA DSB所激活的内源性细胞修复机制。本文所公开的GMC探针和方法可有利地用于检测、分析或量化对核酸(如基因组DNA)的修饰的方法,所述修饰是由基因组编辑所引起的,包括但不限于使用下述核酸酶的基因组编辑。
存在四种主要类型的核酸酶在特定位点创建靶向DNA DSB:锌指核酸酶(ZFn)、转录激活因子样效应物核酸酶(TALEN)、大范围核酸酶(meganucleases)和CRISPR/Cas9系统(综述于Maeder和Gersbach 2016;Merkert和Martin 2016)。
锌指核酸酶。基于锌指核酸酶(ZFN)的技术是基于FokI限制性内切核酸酶的DNA结合结构域和切割结构域彼此独立起作用的事实(Li,Wu等,1992)。因此,可以通过用锌指结构域取代FokI DNA结合结构域来产生具有新的结合特异性的嵌合核酸酶(Kim和Chandrasegaran,1994;Kim,Cha等,1996)。由于ZFN诱导的DSB可用于通过NHEJ或HR修饰基因组(Bibikova,Carroll等,2001;Porteus和Baltimore 2003),该技术可用于修饰人的体细胞和多能干细胞两者中的基因;参见通过引用并入的每篇文献。
TALEN。决定植物病原体黄单胞菌属(Xanthomonas)TALE蛋白的DNA结合特异性的简单一对一编码的发现,再次为新型DNA结合蛋白的模块化设计增加了令人兴奋的可能性(Boch,Scholze等.2009;Moscou和Bogdanove 2009)。DNA结合结构域包含重复的高度保守的33-34个氨基酸序列,其中第12位和第13位氨基酸大不相同。被称为重复可变双残基(RVD)的这两个位置是高度可变的,显示了与特定核苷酸识别的强相关性。氨基酸序列和DNA识别之间的这种关系允许选择包含合适RVD的重复区段组合来靶向特定区域。TALE作为可编程DNA结合结构域的这一发现很快就产生了TALEN工程化。与ZFN一样,TALE被融合到FokI内切核酸酶的催化结构域中,显示出作为二聚体切割其预期DNA靶点的功能(Christian,Cermak等.2010;Miller,Tan等.2011)。同样与ZFN相似的是,已经证明TALEN可有效地诱导人的体细胞和多能干细胞中的NHEJ和HR两者(综述于Vasileva,Shuvalov等.2015;Merkert和Martin 2016)。
大范围核酸酶。大范围核酸酶技术涉及对以大识别位点(12-40碱基对的双链DNA序列)为特征的天然归巢内切核酸酶的DNA结合特异性进行重新改造。目前已知六个带有保守结构基序的大范围核酸酶家族:LAGLIDADG、HNH、His-Cys盒、GYI-YIG、PD-(D/E)xk和Vsr样家族;参见Belfort和Roberts,1997,通过引用并入。归巢内切核酸酶的最大类是LAGLIDADG家族,其包括充分表征且常用的I-CreI和I-SceI酶(Cohen-Tannoudji,Robine等.1998;Chevalier和Stoddard 2001)。通过合理设计和选择的结合,这些归巢内切核酸酶可被重新改造来靶向新序列(Arnould,Perez等.2007;Grizot,Smith等.2009),并显示了在基因组编辑中使用大范围核酸酶的前景(Redondo,Prieto等.2008;Dupuy,Valton等.2013)。
CRISPR/Cas9系统。CRISPR-Cas RNA引导的核酸酶源自细菌中进化来防御侵入质粒和病毒的适应性免疫系统(Barrangou,Fremaux等.2007)。已从不同生物中识别出六种主要类型(I-VI型)的CRISPR系统,每种主要类型都有不同的亚型(Chylinski,Makarova等.2014;Makarova,Wolf等.2015)。在II型CRISPR系统中,目前已从化脓性链球菌(Streptococcus(S.)pyogenes)、嗜热链球菌(S.thermophilus)、脑膜炎奈瑟菌(Neisseriameningitidis)、金黄色葡萄球菌(S.aureus)和新凶手弗朗西丝菌(Francisellanovicida)表征了几种Cas9(Gasiunas,Barrangou等.2012;Jinek,Chylinski等.2012;Mali,Aach等.2013;Sampson,Saroj等.2013;Zhang,Heidrich等.2013;Ran,Cong等.2015;Hirano,Gootenberg等.2016)。
CRISPR核酸酶系统需要三个组分通过核酸间的沃森-克里克碱基配对来决定DNA切割的特异性:CRISPR相关(Cas)9蛋白、成熟CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)(Deltcheva,Chylinski等.2011)。已有研究表明,通过将crRNA和tracrRNA融合成单个指导RNA(gRNA),该系统可以减少为两个组分(Jinek,Chylinski等.2012)。要搜寻DNA靶标,Cas9核酸酶只需要与靶DNA碱基配对的gRNA上的20个核苷酸序列,以及与互补序列相邻的DNA原间隔相邻基序(PAM)(Marraffini和Sontheimer 2010;Jinek,Chylinski等.2012)。此外,通过改变gRNA较短部分的序列,可以实现将Cas9/gRNA复合体重新靶向到新位点。
尽管大多数Cas9具有相似的RNA引导的DNA结合DNA机制,但它们经常具有完全不同的PAM识别基序,这扩展了用于基因编辑和基因组操作的可靶向基因组序列。此外,一些类型的CRISPR系统可展现出不同的机制。例如,来自激烈火球菌(Pyrococcus furiosus)的III-B型CRISPR系统使用Cas复合物进行RNA定向的RNA切割,能够对细胞中的RNA进行靶向和调节(Hale,Zhao等.2009;Hale,Majumdar等.2012)。最近已表明,从普氏菌(Prevotela)和弗朗西斯菌(Francisella)分离到的蛋白Cpf1(V型)使用不含tracrRNA的短crRNA进行RNA引导的DNA切割,并且Cpf1介导的基因组靶向是有效且特异性的,可与化脓性链球菌Cas9相媲美(Zetsche,Gootenberg等.2015;Dong,Ren等.2016;Fonfara,Richter等.2016;Yamano,Nishimasu等.2016)。最后,来自沙氏纤毛菌(Leptotrichia Shahii)的VI-A型CRISPR效应物C2c2是RNA引导的RNA酶,可编程来敲除细菌中特定的mRNA(Abudayyeh,Gootenberg等.2016)。天然CRISPR/Cas系统的这种多样性可提供功能多样的一套编辑工具。
Cas9系统的变体也已开发出来。例如称为Cas9D10A的突变形式,它只具有能切割仅仅一条链的切口酶活性,并因此在与同源修复模板一起提供时就只激活HR途径(Cong,Ran等.2013)。通过使用一对靶向邻近位点的每条DNA链的Cas9D10A,Cas9D10A甚至能够增强基因编辑的特异性(Ran,Hsu等.2013)。仍具有结合DNA能力的核酸酶缺陷的Cas9(dCas9)被用来对基因组的任何区域进行序列特异性靶向而不进行切割。相反,通过与各种效应物结构域融合,dCas9能够用作基因沉默或激活工具(Maeder,Linder等.2013)或者与荧光蛋白融合时作为显现工具(Chen和Huang 2014)。
与上述ZNF、TALEN和大范围核酸酶不同,CRISPR/Cas系统不需要为每个DNA靶位点改造新的蛋白质。仅仅通过改变决定特异性的gRNA的短区域就能够靶向新位点。此外,因为Cas9蛋白不直接与gRNA偶联,该系统通过同时使用多个gRNA在几个基因座处诱导DSB而非常适合多路复用(multiplexing)。此后的许多研究证明,主要源自从化脓性链球菌分离到的II型CRISPR系统的CRISPR/Cas9系统可被改造用于哺乳动物细胞的有效基因修饰(Cho,Kim等.2013;Cong,Ran等.2013;Mali,Yang等.2013),以产生从蠕虫到猴子的转基因或基因敲除动物模型。下文提到的两个专利描述了CRISPR-Cas9或类似的基因组或基因编辑程序以及适用于这些程序的各个步骤。本领域技术人员基于本公开内容可以调整这些基因组或基因编辑程序或其各个步骤来修饰或编辑靶多核苷酸。
代表性的但不限于此的CRISPR系统包括由Zhang的美国专利No.8,795,965公开的系统,其包括改变至少一种基因产物的表达的方法,包括将包含一种或多种载体的改造的、非天然的簇状规则间隔短回文重复序列(CRISPR)--CRISPR相关(Cas)系统引入到含有和表达具有靶序列的DNA分子并编码基因产物的真核细胞中,所述载体包括:a)在真核细胞中可操作的第一调控元件,其可操作地连接到与靶序列杂交的编码CRISPR-Cas系统指导RNA的至少一种核苷酸序列上,和b)在真核细胞中可操作的第二调控元件,其可操作地连接到编码Ⅱ型Cas9蛋白的核苷酸序列上,其中组分(a)和(b)位于系统的相同或不同载体上,其中所述指导RNA包含嵌合RNA,并包括指导序列和反式激活cr(tracr)序列,由此引导RNA靶向靶序列且Cas9蛋白切割DNA分子,从而改变至少一种基因产物的表达;以及其中Cas9蛋白和指导RNA不是天然一起存在的。
另一个代表性的但不限于此的系统是由Frendewey等的美国专利No.9,288,208所描述的,其包括用于在小鼠ES细胞中感兴趣的基因组基因座处修饰基因组的活体外方法,包括:将小鼠ES细胞与Cas9蛋白、在感兴趣的基因组基因座处与CRISPR靶序列杂交的CRISPR RNA、tracrRNA以及大靶向载体(LTVEC)相接触,所述大靶向载体的大小至少为10kb且侧翼包含以下插入核酸:(i)与感兴趣的基因组基因座5'靶序列同源的5'同源臂;和(ii)与感兴趣的基因组基因座3'靶序列同源的3'同源臂,其中在LTVEC存在下将小鼠ES细胞与Cas9蛋白、CRISPR RNA和tracrRNA接触后,将小鼠ES细胞的基因组修饰成包含靶基因修饰,所述修饰包括感兴趣的基因组基因座区域的缺失(其中所述缺失为至少30kb)和/或在感兴趣的基因组基因座处插入插入核酸(其中所述插入为至少30kb)。其他代表性的但不限于此的系统是由WO 2014/089541所描述的,将其以引用方式并入,其包括治疗或修复血友病A相关基因的方法。当与下文所述的基因组或基因编辑程序结合使用时,本发明识别或量化、校正或修复基因的方法是特别有用的,因为分子梳容易检测到这些方法所进行的基因校正或者所提供的修复基因。
位于X染色体上的F8基因编码参与引起凝血的凝血级联的凝血因子(因子VIII)。因子VIII主要由肝脏细胞产生,在血流中以非活性形式循环,与血管性血友病因子(vonWillebrand factor)结合。受伤时,FVIII就被激活了。活化蛋白(FVIIIa)与凝血因子IX相互作用,引起凝血。F8基因的突变引起血友病A(HA)。已识别该基因的2100多个突变,包括点突变、缺失和插入。其中最常见的突变之一包括内含子22的倒位,导致重度HA。F8中的突变可导致功能异常的FVIII蛋白的产生,或者循环FVIII蛋白的量减少或缺乏,导致响应受伤的凝血能力的降低或缺失。在一方面,本发明涉及使用本文所述方法对血友病A患者的F8基因突变进行靶向和修复。发现约98%诊断为血友病A的患者都有F8基因突变(即内含子1和22的倒位、点突变、插入和缺失)。该方法可包括将一种或多种编码核酸酶的分离核酸引入到受试者的细胞中,所述核酸酶靶向含有引起血友病A的突变的F8基因部分,其中核酸酶在F8基因中产生双链断裂;并且包括(i)编码截短的FVIII多肽的核酸或者(ii)可操作地连接到编码截短的FVIII多肽的核酸上的天然F8 3'剪接接受体位点的供体序列的分离核酸,其中所述包括(i)编码截短的FVIII多肽的核酸或者(ii)可操作地连接到编码截短的FVIII多肽的核酸上的天然F8 3'剪接接受体位点的核酸的侧翼是与DNA中双链断裂上游和下游的核酸序列同源的核酸序列,其中与未修复的F8基因相比,所产生的修复基因在表达后赋予所编码的受试者FVIII蛋白改善的凝血功能。该方法还可涉及在患有FVIII缺乏且将被给予、正在给予或已被给予FVIII替代产品((r)FVIII)产品的受试者中诱导对(r)FVIII的免疫耐受,其包括将一种或多种编码核酸酶的核酸引入到受试者的细胞中,所述核酸酶靶向含有引起血友病A的突变的F8基因部分,其中核酸酶在F8基因中产生双链断裂;并且包括(i)编码截短的FVIII多肽的核酸或者(ii)可操作地连接到编码截短的FVIII多肽的核酸上的天然F8 3'剪接接受体位点的供体序列的分离核酸,其中所述包括(i)编码截短的FVIII多肽的核酸或者(ii)可操作地连接到编码截短的FVIII多肽的核酸上的天然F8 3'剪接接受体位点的核酸的侧翼是与DNA中双链断裂上游和下游的核酸序列同源的核酸序列,其中修复基因在表达后提供了对所给予的替代FVIII蛋白产品的免疫耐受诱导。任一这些方法都可使用的核酸酶是锌指核酸酶(ZFN)、转录激活因子样效应物核酸酶(TALEN)或CRISPR(簇状规则间隔短回文重复序列)相关(Cas)核酸酶。这两种方法都可以使用靶向F8基因的内含子22、靶向F8基因的内含子1、靶向外显子22/内含子22连接处或者靶向外显子1/内含子1连接处的核酸酶。任一这些方法都可靶向包含内含子22倒位突变的F8突变。
计算机实现。在一些实施方案中,将本文所公开的算法转录到软件中并在计算机上执行。对于需要设计大量GMC探针的较长的或复杂的靶区域或计划,人工选择GMC探针或人工分析所得数据可能是行不通的,例如,为基因组复杂区域的分子梳设计GMC探针并分析所得数据。计算机执行允许有效并及时的设计GMC探针,以及分析大量分子梳数据,这是人工分析所行不通的。用于分子梳扫描图像中荧光信号自动检测的方法以及用于检测大重排的分子梳数据的自动分析方法已分别在专利WO2017153848(2017年公开)和WO2017153844(2017年公开)中进行了描述。
图12图示说明了可实现本公开内容实施方案的计算机系统。上述实施方案的每项功能都可通过包括一个或多个处理电路的电路来实现。处理电路包括特别编程的处理器,例如如图12所示的处理器(CPU)600。处理电路还包括安排执行所述功能的设备,诸如专用集成电路(ASIC)和常规电路组件。
在图12中,设备699包括执行进程和实现算法的CPU 600,用来设计GMC探针或者用来对使用GMC探针从程序中所获得的上述分子梳数据进行分析。设备699可以是通用计算机或特定的专用机器。在一个实施方案中,当将处理器600编程来参与处理和分析分子梳数据和/或执行图12进程的一个或多个步骤时,设备699就成为特定的专用机器。
进程数据和指令可存储在存储器602中。这些进程和指令还可存储在存储介质磁盘604(如硬盘驱动器(HDD)或便携式存储介质)上,或者可以远程存储。指令可存储在CD、DVD、闪存、RAM、ROM、PROM、EPROM、EEPROM、硬盘或者与系统通信的任何其他设备(如服务器或计算机)上。换句话说,指令可存储在任何非暂时性计算机可读存储介质上,以便在计算机上执行。
此外,所讨论的实施方案可以作为实用应用、后台守护或操作系统组件或其组合提供,与CPU 600和操作系统(例如但不限于微软Windows、UNIX、Solaris、LINUX、安卓、苹果MAC-OS、苹果iOS和本领域技术人员已知的其他系统)一起执行。
CPU 600可以是本领域普通技术人员认可的任何类型的处理器。例如,CPU 600可以是美国英特尔公司的Xenon或酷睿(Core)处理器,或者美国AMD公司的皓龙(Opteron)处理器。CPU 600可以是具有ARM架构或任何其他类型架构的处理器。CPU 600可以是移动设备(例如手机/智能手机、平板电脑、个人数字助理(PDA)等)中的任何处理器。CPU 600还可以是乐器(例如音乐键盘等)中的任何处理器。
此外或作为备选,CPU 600可以在FPGA、ASIC、PLD上实现,或者使用分离逻辑电路实现,这是本领域普通技术人员会认可的。此外,CPU 600可作为多个处理器来实现,协同工作以并行执行本文所述进程的指令。
图12中的计算机699还包括网络控制器606,例如但不限于用于与网络650连接的网络接口卡。可以理解的是,网络650可以是公共网络(例如但不限于因特网)或者专用网络(如LAN或WAN网络)或其任何组合,还可包括PSTN或ISDN子网络。网络650还可以是有线网(如以太网)或者可以是无线网(如蜂窝网络,包括EDGE、3G和4G无线蜂窝系统)。无线网络还可以是WiFi、蓝牙或已知的任何其他无线通信形式。
计算机699还包括显示控制器608,例如但不限于用于与显示器610连接的图形适配器,该显示器610是例如但不限于LCD显示器。通用I/O接口612与显示器610上或与显示器610分开的键盘和/或鼠标614以及触摸屏面板616相连。通用I/O接口还连接到各种外围设备618,包括打印机和扫描仪。本文所讨论的外围元件可由示例性实施方案中的外围设备618所体现。
还可在计算机699中提供声音控制器620与扬声器/麦克风622连接,从而提供声音和/或音乐。扬声器/麦克风622也可用于接受口头语言作为命令。
用通信总线626将通用存储控制器624与存储介质磁盘604连接起来,通信总线可以是ISA、EISA、VESA、PCI或类似设备。为简洁起见,本文省略了显示器610、键盘和/或鼠标614以及显示控制器608、存储控制器624、网络控制器606、声音控制器620和通用I/O接口612的一般特征和功能的描述,因为这些特征都是已知的。
本发明的方法不能在不使用计算机的情况下进行,因为一些步骤包括使用比对算法(如BLAST)。在复杂基因组(如人或小鼠基因组)中搜索重复序列涉及在极长序列(即至少1兆碱基长)上进行极大量的复杂运算,因此不能人工进行。
可以使用公用网站进行BLAST算法,然后人工进行本发明方法的其他技术步骤。然而,与上述每一技术步骤的人工过程相比,本发明的自动化方法具有几个明显优点。首先,对一些靶区域的研究可能意味着要设计较长的颜色探针序列(高达30个,例如在2MB的区域中定位重复信号,参见以下实施例和图6),或者可能意味着要同时为几个靶区域设计探针序列。在这些情况下,要确保特定大小的任何部分序列的唯一性(unicity)而设计颜色序列(或多种颜色序列)就是一项复杂的任务,需要更有效地自动计算的数学运算。其次,自动化方法比人工操作的组合更为可靠。事实上,它可以防止人工处理数据文件过程中的人为错误,例如向在线工具界面上传和从其下载数据文件或者人工修改数据表。此外,人对比对结果的选择和重复子序列的定义可能是主观的,并且人的分析容易出现不同的主题特异性偏差或错误。通过这一创新的自动化方法,所有参数都是一次性固定的,结果将是稳定的且可在任何时候与任何一组靶区域进行比较。
最后,自动化方法只需要几个小时就全部完成,而所有技术步骤的人工处理可能需要几天时间,这取决于在感兴趣区域之外所发现的重复序列的数量以及必须独特定义的颜色序列的大小。自动化方法的计算时间仍然可以通过使用GPU优化代码或者通过云上连接计算机网络上的进程并行而大大加快,而不需要对所提出的方法进行任何修改。
与以前所使用的基因组摩尔斯码方法相比,本发明的自动化方法也非常节省时间。事实上,以前方法所产生的GMC探针无法保证产生独特可识别的实验信号,从而可能产生无法解释的结果。因此,在这种情况下,从GMC探针所获得的实验结果就没有有用信息,就需要带有另外的具体限制的新设计(参见下文所述的HNPCC区域研究的例子)。本文提出的自动化方法能够直接跳到第二次优化设计,节省了第一次GMC设计和产生无法解释结果的第一组实验的全部时间和资源付出。
实施例
用于表征2兆碱基区域上的复制动力学的探针模式
用于研究复制动力学的分子梳测定结合了由复制事件所产生的双色荧光信号和基于探针之间的空间长度编码的单色探针模式,使复制信号能够定位到感兴趣区域上[Lebofsky,2006]。在该具体例子中,排除了区段重复并且计算了具有不同数量探针(分别为16和30种)的两种探针模式。除了“探针长度”和“缺口大小”参数分别设定为3000bp和200000bp,设计算法的生物信息学部分的参数值是表1中默认的定义值。这两个参数用于定义对实验信号的下游分析带来问题的靶区域之外的重复序列。修改参数值以模拟用于复制信号定位的探针模式的特定特征,即由于探针之间的大缺口所导致的低探针密度。此外,使用了设计算法的组合部分的修改版本,以便计算缺口长度的独特序列而不是独特的颜色编码序列。缺口值固定为20、35、50、65、80、95、110、125、140、155、170、185或200kb。图6提供了用于在染色体7的2兆碱基区域上定位复制信号的单色探针模式。表5和表6列出了所有探针坐标(相对于靶区域)和两种探针模式的缺口长度。荧光探针之间的距离能够允许从分子梳信号重建基因座。可以使用缺口值的模式将包含至少3种探针的每个信号都清晰地定位在感兴趣区域上。每种探针测量12kb,每个缺口测量20kb和200kb之间。参见图6,它显示了DNA探针在感兴趣区域杂交的相对位置。探针的颜色是图形形式呈现的,且并不限制实验过程的颜色选择。使用基因组浏览器在线工具获得图形;参见Genome Browser(2017)。
表5:含有16种探针的探针模式在2兆碱基的靶区域上的探针相对坐标。最后一列精确了每次探测之前的缺口千碱基长度(kb)。
表6:含有30种探针的探针模式在2兆碱基的靶区域上的探针相对坐标。最后一列精确了每次探测之前的缺口千碱基长度(kb)。
用于检测HNPCC区域大重排的探针模式。将GMC方法应用于研究包含2个参与遗传性非息肉性结肠癌(HNPCC)的基因MLH1和PMS2的区域中的大重排。基于专利(参见Komatsu,2016)中所描述的关于检测大重排的方法的限制来设计2种探针模式组。这些探针模式在Genomic Vision(GV,2016)网站上是可见的,并显示在图7A和7B中。用这些探针模式的同时杂交来产生分子梳实验。在实验信号的下游分析过程中,所设计的探针模式对于研究相同实验过程中两者都覆盖区域的大重排来说似乎不是最佳的。实际上,由于分子梳理技术的提取步骤过程中的DNA片段化,实验信号通常仅提供关于探针模式的局部部分的信息。然而,这些探针模式不允许用来自部分信号的探针颜色和长度信息有效地重建区域。
图8显示了通过在相同盖玻片上MLH1和PMS2两者的探针的分子梳以及杂交所获得的实验信号的例子,其中颜色模式和长度模式不能确定它来自哪个DNA区域。实际上,40kb长度的信号覆盖7种颜色探针的模式,可对应于PMS2探针模式的子部分(图8中的信号图像上方)或MLH1探针模式的子部分(图8中的信号下方)。这种模糊颜色模式的例子不是孤立的,类似地,17种可变长度的其他部分探针模式(来自3到8种探针的组合)在完整的探针模式上有几次出现。因此,仅包含上述18种模糊的部分探针模式之一的实验信号不能独特地定位在感兴趣区域上,必须从分子梳实验的下游分析过程中排除,从而减少实验结果组的信息容量。
此外,在下游分析过程中已经观察到,在覆盖PMS2基因的探针模式的前35kb也在感兴趣区域之外重复,即是在根据GRCh19/hg19人类基因组染色体7上的800,000千碱基(kb)上重复。这种区段重复就因此而产生了来自PMS2探针在重复序列上杂交的伪实验信号。图9描述了覆盖PMS2基因的探针模式的前35kb的这种区段重复以及由重复所产生的探针模式。因此,由重复区域所产生的包含至少3种探针的任何实验信号都可能被错误解释为源自感兴趣区域。实验信号定位中的这种模糊性使得对用于分析靶区域大重排的实验数据进行正确解释的可能性进一步复杂化。
我们在图10显示了用本文件中所描述的探针模式设计方法在相同的感兴趣区域上设计的探针模式例子。表7和表8分别列出了用于MLH1和PMS2区域的探针坐标、长度和颜色。
表7:用于染色体3中MLH1区域的探针模式的探针坐标、长度和颜色。根据GRCh19/hg19人类基因组报告坐标。
表8:用于染色体7中PMS2区域的探针模式的探针坐标、长度和颜色。根据GRCh19/hg19人类基因组报告坐标。
每种探针测量5.7kb到12.2kb,缺口长度介于0kb和7.8kb之间。本文件所描述的设计算法的算法部分已经用表1中定义的默认参数值在MLH1和PMS2遗传区域上进行,并具有保留感兴趣区域之外的重复序列的限制。实际上,在这种情况下,我们决定保留PMS2的前35kb的重复序列,尽管它是由算法所识别的。然而,在设计算法的组合部分中,我们使用表3中列出的对区段位置的限制在重复序列中仅设计了2种探针。此外,我们将表2的参数C6的值设为3,颜色列表参数C7设为由颜色蓝色、红色和绿色组成,我们设定了表2的其他参数,以便对颜色探针模式设计的影响最小。然后,该设计方法确保从图10中定义的探针模式并包含至少3种探针所获得的任何实验信号都提供用于分析大重排的清晰且相关的信息。实际上,在设计中已经考虑到3种探针的每种颜色模式在感兴趣区域中都是独特的。此外,该方法考虑了区段重复的存在,使重复区域最多只包含2种探针。
如上所示,基于GMC方法所设计的探针模式产生了多达24种类型的实验信号(包含3种或更多探针的模式),所述实验信号可能被错误解释并影响大重排研究(18种是由于ROI中出现多种模式,6种是由于ROI之外的区段重复)。这里所描述的探针模式方法确保了用新设计的探针模式就可以清晰地解释包含至少3种探针的每个实验信号。
用于表征SMA区域的探针模式。脊髓性肌萎缩的基因座(SMA基因座)是复杂的遗传区域,含有大量的大区段重复,这就使得使用测序方法来重建基因座非常困难。图11A提供了使用本文件所描述的设计方法计算的用于表征SMA基因座的探针模式。使用算法的生物信息学部分的默认参数值以及保留感兴趣区域之外的重复序列的限制来开始设计算法。应用最后一个限制是因为用于重建SMA基因座的分析方法仅考虑极长的实验信号(大于500kb),并因此就自动排除了来自感兴趣区域之外的重复序列的信号。对于算法的组合部分而言,我们将颜色序列参数C7设为包含颜色红色、蓝色、绿色、品红色、黄色和青色,并且我们设定了表2中的所有其他参数,以便对颜色探针模式设计的影响最小。我们还基于保证独特颜色编码所需的最小区段序列长度来进行探针模式选择(参见表4)。探针长度介于3kb和170kb之间。图11A描述了根据GRCh38/hg38人类基因组(Rosenbloom等,2015)的DNA探针的相对位置。定位在SMA基因座上的基因的相对位置表示在探针模式下方。图11B提供了通过探针模式的分子梳和杂交所获得的用于SMA基因座表征的实验信号的例子。人工将信号彼此比对,以便重建完整的SMA探针模式。使用该探针模式的分子梳实验能够允许对SMA基因座进行新的精确表征并发现未登记的CNV;Pierret等,2016。
用于分析基因与其假基因之间大重排的探针模式。
已经用本发明方法定义了探针模式,用于研究人类基因组染色体1的遗传区域中所有遇到的重排,该区域包含主基因和5个假基因,其顺序和存在随个体变化。使用算法的生物信息学部分的默认参数值以及移除基因和假基因位置之间的探针片段的限制来开始设计算法。对于算法的组合部分而言,我们在可能的情况下要求每个基因或假基因具有一个探针区段或者至少一种颜色,我们将颜色序列参数C7设为包含颜色红色、蓝色、绿色、品红色、黄色和青色,并且我们设定了表2中的所有其他参数,以便对颜色探针模式设计的影响最小。图13A提供了为分析基因及其5个假基因之间的大重排而计算出的探针模式。要合成的探针的颜色模式显示为称为“探针位置”的下方探针模式。考虑了感兴趣区域内的重复,由已定义探针所产生的区域覆盖显示为称为“探针覆盖”的上方探针模式。明确了DNA探针在感兴趣区域上的相对位置。将基因和假基因的相对位置定位在靶基因座上并表示在探针模式下方。在图中,“GENE”代表感兴趣的基因,“PSGE1”、“PSGE2”、“PSGE3”、“PSGE4”和“PSGE5”代表“GENE”基因的5个假基因。使用基因组浏览器在线工具获得探针模式的图形表现形式;参见Genome Browser(2017)。表9列出了用于感兴趣的染色体1区域的探针坐标、长度和颜色。
表9:用于染色体1靶区域的探针模式的探针坐标、长度和颜色。探针长度以千碱基(kb)列出。探针坐标是对感兴趣区域的相对坐标。
图13B提供了通过探针模式的分子梳和杂交所获得的实验信号的例子,用于分析包含基因及其5个假基因的区域中的大重排。
前述公开内容提供了具体实施方案的例子。如本领域技术人员将理解的,本文所公开的方式、方法、技术、材料、设备等可以体现在如本领域技术人员所理解的另外的实施方案中,本申请旨在包含和包括这些变型。因此,本公开内容是说明性的,不应视为限制权利要求的范围。本发明的非限制性实施方案包括:
1.用于设计颜色编码的遗传摩尔斯码(“GMC”)探针的方法,
(i)其包括:
(A)识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,
(B)通过定义一组子序列来细分感兴趣的靶区域的序列,
(C)在感兴趣的靶区域内的已定义子序列组中识别重复子序列,
(D)设计结合到感兴趣的全长核酸靶区域上的最小GMC探针组,其中所述设计的GMC探针在结合到感兴趣的核酸靶区域时产生独特性或特征性颜色模式;以及
(E)合成所述设计的GMC探针;或者备选地,
(ii)其包括
(A)识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,
(B)通过定义一组子序列来细分感兴趣的靶区域的序列,
(C)在感兴趣的靶区域内的已定义子序列组中识别重复子序列,
(D)设计结合感兴趣的核酸靶区域但不结合重复子序列或者用一种或多种特定颜色识别重复序列的GMC探针,其中所述设计的GMC探针在结合到感兴趣的核酸靶区域时产生独特性或特征性颜色模式;以及
(E)任选地,合成所述设计的GMC探针。
2.实施方案1所述的方法,还包括(F)将设计和合成的探针结合到基因组DNA分子上。
3.实施方案1或2所述的方法,还包括识别感兴趣的靶区域序列之外的重复子序列和(D)设计结合感兴趣的核酸靶区域和相邻区域但不结合重复子序列的GMC探针,其中所述设计的GMC探针在与感兴趣的核酸靶区域和相邻区域结合时,产生独特性或特征性颜色模式。
4.实施方案1、2或3中任一个所述的方法,其中GMC探针结合感兴趣的核酸靶区域和感兴趣区域之外的与重复子序列相邻的额外核酸区域,从而形成能够用单一颜色统一编码的更长子序列,以便可以将所设计的GMC探针与感兴趣的靶区域中更小的已定义的细分子序列与感兴趣的靶区域序列之外的伪序列区分开来。
5.实施方案1至4中任一个所述的方法,还包括使用RepeatMasker或另一生物信息学数据库来识别感兴趣的核酸靶区域序列中的散布重复和/或低复杂度序列。
6.实施方案1至5中任一个所述的方法,还包括使用BLAST、BLAT、FASTA、MUSCLE、CLUSTAL或另一基因组组装算法来识别感兴趣的核酸靶区域序列中的区段重复。
7.实施方案1至6中任一个所述的方法,其中核酸分子是DNA。
8.实施方案1至7中任一个所述的方法,其中核酸分子是基因组DNA。
9.实施方案1至7中任一个所述的方法,其中核酸分子是cDNA。
10.实施方案1至6中任一个所述的方法,其中核酸分子是RNA。
11.实施方案1至10中任一个所述的方法,还包括测序感兴趣的核酸靶区域。
12.实施方案1至11中任一个所述的方法,其中感兴趣的核酸靶区域的序列是获自序列数据库或由核酸登录号给出的序列。
13.实施方案1至12中任一个所述的方法,其中选择GMC探针的颜色编码,以便在与感兴趣的核酸靶区域杂交时提供独特颜色模式。
14.实施方案1至13中任一个所述的方法,其中GMC探针的颜色编码是由为靶序列生成独特颜色编码的算法所提供的,从而允许来自靶序列中一个或多个感兴趣的基因座信号的清晰定位,无论靶核酸在提取过程中是否因DNA断裂而被片段化;其中所述独特颜色编码清晰地将靶序列从同一基因组、染色体或其他核酸样品的其他序列中识别出来。
15.实施方案1至14中任一个所述的方法,其中重复子序列是选自末端重复、串联重复(可以是同向重复或反向重复)、卫星DNA(例如着丝粒或异染色质中所发现的)、小卫星DNA(例如约10至60个碱基对的重复单元)、微卫星DNA(例如6-8个或小于10个碱基对的重复单元,包括端粒中所发现的那些)、散布重复或散布核元件(包括DNA转座子(HERV)、反转录转座子、LTR反转录转座子、非LTR反转录转座子(包括SINE、LINE和SVA))中的至少一种。
16.实施方案1-15中任一个所述的方法,其中靶核酸序列是染色体或基因组DNA的子序列,并且其中颜色编码的GMC探针组还包括杂交到感兴趣的核酸靶区域所述子序列之外的重复或非重复序列上的颜色编码的探针。
17.实施方案1-16中任一个所述的方法,其中颜色编码的GMC探针组还包括识别基因组DNA区域感兴趣的核酸靶区域之外的重复序列的探针,并且任选地在子序列下游分析过程中将这些重复序列与感兴趣的靶核酸区域的重复序列区分开来。
18.实施方案1至17中任一个所述的方法,其中靶核酸序列是与遗传疾病、病症或其他病况相关联的。
19.实施方案1至18中任一个所述的方法,其中颜色编码的GMC探针独特地识别与复制、核酸修复或核酸表观遗传学相关联的靶基因座。
20.实施方案1至19中任一个所述的方法,其中颜色编码的GMC探针独特地识别与遗传疾病、病症或其他病况相关联的靶序列和/或独特地识别与正常表型相关联的靶序列。
21.通过根据实施方案1至20中任一个的方法所设计的GMC探针,特别是颜色编码或标记的GMC探针。
22.用于分子梳的方法,其包括将感兴趣的核酸分子与根据实施方案21的GMC探针进行接触。
23.实施方案22所述的方法,其中GMC探针对感兴趣序列的核酸靶区域的特异性高于在不缺失重复子序列和/或不设计针对靶区域之外的重复子序列附近的额外探针的情况下设计的GMC探针,它们能够用单一颜色统一编码。
24.用于制备基因组摩尔斯码(“GMC”)探针组的方法,其与感兴趣的核酸靶区域的非重复基因座杂交并在杂交时产生独特性或特征性颜色模式,其包括:
获得感兴趣的核酸靶区域或其包含靶核酸序列的部分的序列,
分析序列并识别含有重复序列的子序列,以及
产生不与一个或多个所识别重复子序列杂交的颜色编码的GMC探针组。
25.实施方案24的方法,其中核酸分子是DNA。
26.实施方案24或25的方法,其中核酸分子是基因组DNA。
27.实施方案24或25的方法,其中核酸分子是cDNA。
28.实施方案24的方法,其中核酸分子是RNA。
29.实施方案24-28中至少一个所述的方法,还包括对核酸分子或其包含靶核酸序列的部分进行测序。
30.实施方案24-29中至少一个所述的方法,其中核酸分子或包含靶核酸序列的部分的序列是获自序列数据库或由核酸登录号所给出的序列。
31.实施方案24-30中至少一个所述的方法,其中使用生物信息学程序来分析靶序列。
32.实施方案24-31中至少一个所述的方法,其中使用BLAST、BLAT、FASTA、MUSCLE、CLUSTAL、串联重复查找器(Benson,Nuc.Acid Res.27(2):573:1999)或其他类似程序来分析核酸分子的序列。每个这些程序在申请日前的最新版本以及过去版本都是本领域技术人员已知的,也通过引用并入本文。
33.实施方案24-32中至少一个所述的方法,其中使用生成靶序列独特颜色编码的算法来产生颜色编码的GMC探针组,其不包含已被排除的重复序列或子序列,从而允许来自靶序列中感兴趣的基因座信号的清晰定位,无论靶核酸在提取过程中是否因DNA断裂而被片段化;其中所述独特颜色编码清晰地从同一分离核酸样品的其他序列中识别出靶序列。
34.实施方案24-33中至少一个所述的方法,其中颜色编码的GMC探针组不与相应于靶序列的靶核酸分子部分的至少一个重复区域杂交。
35.实施方案24-34中至少一个所述的方法,其中颜色编码的GMC探针组不与相应于靶序列的靶核酸分子部分的任何重复区域杂交。
36.实施方案24-35中至少一个所述的方法,其中颜色编码的GMC探针组中的至少一个成员结合靶序列中的重复序列。
37.实施方案24-36中至少一个所述的方法,其中重复子序列是选自末端重复、串联重复(可以是同向或反向重复)、卫星DNA(例如着丝粒或异染色质中所发现的)、小卫星DNA(例如约10至60个碱基对的重复单元)、微卫星DNA(例如6-8个或小于10个碱基对的重复单元,包括端粒中所发现的那些)、散布重复或散布核元件(包括DNA转座子(HERV)、反转录转座子、LTR反转录转座子、非LTR反转录转座子(包括SINE、LINE和SVA))中的至少一种。
38.实施方案24-37中至少一个所述的方法,其中靶核酸序列是染色体或基因组DNA的子序列,并且其中颜色编码的GMC探针组还包括杂交到染色体或基因组DNA所述子序列之外的重复或非重复序列上的颜色编码的探针。
39.实施方案24-38中至少一个所述的方法,其中颜色编码的GMC探针组还包含识别靶基因组区域之外的重复序列的探针,并且任选地在子序列下游分析过程中将这些重复序列与靶基因组区域的序列区分开。
40.实施方案24-39中至少一个所述的方法,其中靶核酸序列是与遗传疾病、病症或其他病况相关联的。
41.实施方案24-40中至少一个所述的方法,其中颜色编码的探针组独特地识别与复制、核酸修复或核酸表观遗传学相关联的靶基因座。
42.实施方案24-41中至少一个所述的方法,其中颜色编码的探针组独特地识别与遗传疾病、病症或其他病况相关联的靶序列和/或独特地识别与正常表型相关联的靶序列。
43.实施方案24-42中至少一个所述的方法,还包括将靶核酸分子与颜色编码的GMC探针组进行接触。
44.实施方案24-34中至少一个所述的方法,还包括使用颜色编码的探针组进行分子梳。
45.通过根据实施方案24-44的中任一个的方法所设计的GMC探针,特别是颜色编码或标记的GMC探针。
46.用于设计颜色编码的GMC探针的方法,其包括:
(A)识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,
(B)通过定义一组子序列来细分感兴趣的靶区域的序列,
(C)在已定义的子序列组中识别重复子序列,
(D)识别感兴趣的靶区域序列之外的重复子序列,
(E)与感兴趣的核酸靶区域(其中缺失了重复子序列)结合或者与感兴趣的核酸靶区域和感兴趣区域之外的重复子序列相邻的额外核酸区域两者都结合的GMC探针,从而形成可以用单一颜色统一编码的更长子序列,以便能够将所设计的GMC探针与感兴趣的靶区域中更小的已定义的细分子序列与感兴趣的靶区域序列之外的伪序列区分开来,
(F)选择编码GMC探针的独特颜色模式,并任选地合成或以其他方式产生GMC探针。
47.实施方案46所述的方法,其中使用RepeatMasker或另一生物信息学数据库来识别感兴趣的核酸靶区域中的散布重复和/或低复杂度序列。
48.实施方案46或47中任一个所述的方法,还包括使用BLAST、BLAT、FASTA、MUSCLE、CLUSTAL或另一基因组组装算法来识别感兴趣的核酸靶区域序列中的区段重复。在描述可能随时间更新的算法、计算机程序、数据库或登记号的模糊情形中,应该使用最接近本公开的申请日的最新可用版本。
49.通过根据实施方案46-48中任一个的方法所设计或产生的GMC探针,特别是颜色编码或标记的GMC探针。
50.用于分子梳的方法,其包括将感兴趣的核酸分子与根据实施方案21、45、49、52或59中任一个的GMC探针接触。
51.用于移除有问题的核酸子序列的方法,这些子序列可能被曲解为关于包含它们的感兴趣区域的有用信息;所述方法包括:
(A)通过定义一组更小的片段来分析感兴趣区域的序列,更小片段的长度由长度参数定义,避免使用在线数据库(如RepeatMasker)的富含重复元件的序列;
(B)使用BLAST、BLAT、FASTA、MUSCLE、CLUSTAL或另一基因组组装或多序列比对算法来识别所述更小片段组中的区段重复;
(C)从片段组中移除可被来自其他片段的重复完全覆盖的片段,并且任选地识别用于对剩余片段进行颜色编码的颜色限制;
(D)当重复的距离小于其长度组合的一定比例时,合并由基因组组装算法所识别的分开的重复,并基于所选参数值通过同源性和长度筛选重复;
(E)使用RepeatMasker或另一生物信息学程序选择其长度以使包含了含重复子序列的片段的片段数最小化;
(F)将区域划分为由参数所规定的更小片段。根据所应用的标记技术,可以定义几千碱基的遗传片段或几十个碱基对的寡核苷酸片段。如果明确规定了,该步骤优化片段定义以避免使用在线数据库(如RepeatMasker[Jurka,J,2000;Smit AFA,1996-2010])设计的富含重复元件的序列。不考虑合成或扩增所得片段的可行性限制。
52.颜色编码或标记的GMC探针,其排除作为区段重复一部分的多核苷酸序列和/或当与靶DNA序列中的感兴趣区域结合时生成模式,使得能够区分靶DNA序列上的感兴趣区域和重复的基因座;其中,颜色编码的GMC探针对靶核酸序列的特异性高于没有缺失重复子序列和/或没有设计与感兴趣区域之外的重复子序列相邻的额外探针情况下所设计的GMC探针的特异性,它们能够用单一颜色统一编码。
53.已结合到实施方案21、45、49、52或59所述的颜色编码或标记的GMC探针上的靶核酸,其表现出特征性或独特的颜色或标记模式。
54.根据实施方案21、45、49或52的颜色编码或标记的GMC探针的用途,用于检测与复制、核酸修复或核酸表观遗传学相关联的一个或多个靶基因座,或者用于检测与遗传疾病、病症或其他病况相关联的靶序列和/或独特地识别与正常表型相关联的靶序列,以及任选地用于诊断与基因组DNA的特定排列或重排相关联的疾病、病症或病况。
55.用于产生颜色编码的探针模式的方法,包括以下步骤:
(A)识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,
(B)通过定义一组子序列来细分感兴趣的靶区域的序列,
(C)识别已定义的子序列组中的重复子序列,
(D识别感兴趣的靶区域序列之外的重复子序列,
(E)设计与感兴趣的核酸靶区域结合并产生特征性或独特性颜色模式但缺失了重复子序列的GMC探针,和/或与感兴趣的核酸靶区域和感兴趣区域之外的重复子序列相邻的额外核酸区域两者都结合的GMC探针,从而形成能够用单一颜色统一编码的更长子序列,以便能够将所设计的GMC探针与感兴趣的靶区域中更小的已定义的细分子序列与感兴趣的靶区域序列之外的伪序列区分开来,
(F)选择GMC探针的独特颜色编码模式,以及
(G)将所述颜色编码的GMC探针与感兴趣的靶核酸区域接触,从而将感兴趣的靶核酸区域涂上特征性或独特性颜色模式,
(H)分析步骤(G)中所获得的杂交产物。
56.实施方案55的方法,其中在所有区域上保证了部分颜色模式的唯一性。
57.实施方案55的方法,其中所述步骤A至H还考虑用于定义GMC探针的多个靶区域之间的交叉重复。
58.实施方案1-20、22-44、46-48、50、51、54-57中任一项所述的方法,其中将方法同时应用于多个靶区域或多个核酸序列。
59.为确保含有颜色编码的探针子部分的GMC探针部分序列的唯一性而设计的颜色编码或标记的GMC探针,当与靶DNA或核酸序列中的感兴趣区域结合时,能够清晰地确定GMC探针上的部分GMC序列的基因座定位;其中,颜色编码的GMC探针的部分核苷酸序列对靶核酸序列的特异性高于在没有分析和限制这些部分序列唯一性的情况下所设计的GMC探针的特异性。
60.根据实施方案21、45、49、52和/或59所述的颜色编码或标记的GMC探针用于检测由基因编辑方法所产生的预期缺失和脱靶重排或遗传修饰的用途。
61.用于检测基因组DNA或其他靶核酸中至少一个感兴趣的结构域或基因座的试剂盒,其含有根据实施方案21、45、49、52或59所述的颜色编码或标记的GMC探针,以及任选的用于样品制备的设备和试剂,例如提供适用于分子梳的纯化的极高分子量(例如100kb的中位数大小)DNA的DNA提取设备;用于分子梳的设备和试剂,例如乙烯基硅烷处理的玻璃表面(例如盖玻片)和用于拉伸DNA的设备或系统;用于读取与GMC探针接触的靶DNA的设备和装置(例如扫描仪),用于分析、处理和存储这些数据的软件或计算机设备,包装材料和/或使用说明。
62.根据实施方案21、45、49、52或59所述的颜色编码或标记的GMC探针用于检测脊髓性肌萎缩基因座(SMA基因座)的用途。
63.根据实施方案21、45、49、52或59所述的颜色编码或标记的GMC探针用于检测遗传性非息肉性结肠癌(HNPCC)所涉及的区域、特别是包括HNPCC所涉及的两种基因MLH1和PMS2的区域中的核酸大重排的用途。
术语。本文所使用的术语仅用于描述特定实施方案的目的,并不旨在限制本发明。
本文所使用的标题(例如“背景技术”和“发明内容”)和子标题仅旨在用于本发明主题的一般性组织,并不旨在限制本发明的公开内容或其任何方面。特别地,“背景技术”中所公开的主题可以包括新技术,可以不构成现有技术描述。在“发明内容”中公开的主题不是对技术的整个范围或其任何实施方案的详尽或完整公开。在本说明书的章节内对材料具有特定用处的分类或讨论是为了方便而进行的,不应推断当该材料在任何给定组合中使用时必须一定或只能根据其在本文中的分类起作用。
如本文所使用的单数形式“一个”、“一种”和“这个/这种”也旨在包括复数形式,除非上下文另有明确说明。
还要理解的是,当在本说明书中使用时,术语“包括”和/或“包含”具体规定了所述特征、步骤、操作、元件和/或组分的存在,但并不排除一个或多个其他特征、步骤、操作、元件、组分和/或其分组的存在或添加。
如本文所使用的,术语“和/或”包括一个或多个所列相关项目的任意和所有组合,并且可以缩写为“/”。
通过删除http:或通过在www之前插入空格或下划线空格来禁用链接。在一些情况下,通过“最后访问”日期的链接可获得的文本可以通过引用并入。
如本说明书和权利要求书中所使用的,包括如实施例中所使用的且除非另有明确规定,所有数字都可以看成如同以“基本上”、“大约”或“约”措辞开头一样,即使该术语并未明确出现。当描述幅度和/或位置以表明所描述的数值和/或位置在合理的预期值和/或位置范围内时,可以使用短语“大约”或“约”。例如,数值可以是所述数值(或数值范围)的+/-0.1%、所述数值(或数值范围)的+/-1%、所述数值(或数值范围)的+/-2%、所述数值(或数值范围)的+/-5%、所述数值(或数值范围)的+/-10%、所述数值(或数值范围)的+/-15%、所述数值(或数值范围)的+/-20%等。本文所述的任何数值范围旨在包括其中所含的所有子范围或中间值。
对具体参数(例如温度、分子量、重量百分比等)的数值和数值范围的公开不排除对本文有用的其他数值和数值范围。可以预想的是,给定参数的两个或更多个具体示例数值可以确定参数可要求的数值范围的端点。例如,如果参数X在本文中举例为具有数值A且还举例为具有数值Z,则可以预期参数X可以具有从大约A到大约Z的数值范围。类似地,可以预期公开参数的两个或者更多个数值范围(无论这些范围是嵌套的、有重叠的还是截然不同的)就包括了使用所公开范围的端点可以要求的数值范围的所有可能组合。例如,如果参数X在本文中示例为具有1-10范围内的值,则它还描述了参数X的子范围,包括1-9、1-8、1-7、2-9、2-8、2-7、3-9、3-8、3-7、2-8、3-7、4-6或7-10、8-10或9-10仅作为例子。范围包括其端点以及端点内的值,例如范围0-5包括0、>0、1、2、3、4、<5和5。
如本文所使用的词语“优选的”和“优选地”是指在某些情况下提供某些益处的技术实施方案。然而,在相同或其他情况下,其他实施方案也可以是优选的。此外,对一个或多个优选实施方案的描述并不意味着其他实施方案是无用的,且并不旨在将其他实施方案排除在本技术的范围之外。如本文所提及的,除非另有具体规定,否则所有组成百分比均以总组合物的重量计。如本文所使用的词语“包括”及其变体旨在是非限制性的,使得列表项目的列举不排除可能在本技术的材料、组合物、设备和方法中也有用的其他类似项目。类似地,术语“能够”和“可以”及其变体旨在是非限制性的,使得实施方案能够或可以包括某些元件或特征的描述并不排除不包含那些元件或特征的本发明其他实施方案。
尽管本文可以使用术语“第一”和“第二”来描述各种特征/元件(包括步骤),但是这些特征/元件不应受这些术语的限制,除非上下文另有说明。可使用这些术语将一个特征/元件与另一个特征/元件区分开。因此,下文讨论的第一特征/元件可以被称为第二特征/元件,同样地,下文讨论的第二特征/元件可以被称为第一特征/元件,而不会背离本发明的教导。
当特征或元件在本文中被称为在另一特征或元件的“上面”时,它可以直接在另一特征或元件的上面,或者也可以存在介于中间的特征和/或元件。相反,当特征或元件被称为“直接”在另一特征或元件“上面”时,则不存在介于中间的特征或元件。还应当理解,当特征或元件被称为“连接”、“附接”或“偶联”到另一特征或元件时,它可以直接连接、附接或偶联到另一特征或元件,或者可以存在介于中间的特征或元件。相反,当特征或元件被称为“直接连接”、“直接附接”或“直接偶联”到另一特征或元件时,则不存在介于中间的特征或元件。尽管对一个实施方案进行了描述或显示,但是如此描述或显示的特征和元件可以应用于其他实施方案。本领域技术人员还将理解,提及与另一特征“相邻”设置的结构或特征可具有与相邻特征重叠或位于相邻特征之下的部分。
尽管描述和具体实施例表明了本技术的实施方案,但是它们仅用于说明的目的,并不旨在限制本技术的范围。此外,具有所述特征的多个实施方案的描述并不旨在排除具有额外特征的其他实施方案或者包括所述特征的不同组合的其他实施方案。提供的具体实施例是用于说明如何制备和使用本技术的组合物和方法的目的,并且除非另有明确说明,并不旨在表明本技术的给定实施方案已经或尚未制备或测试。
本说明书中提及的所有出版物和专利申请均通过引用以其整体并入本文,其程度就如同每个单独的出版物或专利申请被具体和单独地表明通过引用并入,特别引用的是出现了通过引用并入的说明书的同一句子、段落、页面或章节中所出现的公开内容。
本文的参考文献引用并不构成对这些参考文献是现有技术或与本文公开技术的可专利性具有任何关联的承认。对所引用的参考文献内容的任何讨论仅旨在提供对参考文献的作者所作出断言的一般概述,并不构成对这些参考文献的内容准确性的承认。
参考文献
Lebofsky,Ronald等."DNA replication origin interference increases thespacing between initiation events in human cells."Molecular biology of thecell 17.12(2006):5337-5345.
Gad,Sophie等."Color bar coding the BRCA1gene on combed DNA:a usefulstrategy for detecting large gene rearrangements."Genes,Chromosomes andCancer 31.1(2001):75-84.
Gad,Sea等."Bar code screening on combed DNA for large rearrangementsof the BRCA1and BRCA2genes in French breast cancer families."Journal ofmedical genetics 39.11(2002):817-821.
Puget,Nadine等."Distinct BRCA1rearrangements involving theBRCA1pseudogene suggest the existence of a recombination hot spot."TheAmerican Journal of Human Genetics 70.4(2002):858-865.
Gad,Sophie等."Identification of a large rearrangement of theBRCA1geneusing color bar code on combed DNA in an American breast/ovarian cancerfamily previously studied by direct sequencing."Journal of medical genetics38.6(2001):388-392.
Cheeseman,Kevin等."A diagnostic genetic test for the physical mappingof germline rearrangements in the susceptibility breast cancer genes BRCA1andBRCA2."Human mutation 33.6(2012):998-1009.
Michalet,Xavier等."Dynamic molecular combing:stretching the wholehuman genome for high-resolution studies."Science 277.5331(1997):1518-1523.
Herrick,John等."Quantifying single gene copy number by measuringfluorescent probe lengths on combed genomic DNA."Proceedings of the NationalAcademy of Sciences 97.1(2000):222-227.
Beliveau,Brian J.等."Versatile design and synthesis platform forvisualizing genomes with Oligopaint FISH probes."Proceedings of the NationalAcademy of Sciences 109.52(2012):21301-21306.
Bienko,Magda等."A versatile genome-scale PCR-based pipeline for high-definition DNA FISH."Nature methods 10.2(2013):122-124.
Komatsu,Jun等.(2016)Method for identifying or detecting genomicrearrangements in a biological sample.美国专利9,133,514B2.Genomic Vision(Bagneux,FR).
Lebofsky,Ronald等.(2007)Genomic Morse code.美国专利7985542B2:InstitutPasteur(Paris,FR).
Jing,Junping等.“Automated high resolution optical mapping usingarrayed,fluid-fixed DNA molecules”Proceedings of the National Academy ofSciences 95(1998):8046-51
Swennenhuis,Joost F.等."Construction of repeat-free fluorescence insitu hybridization probes."Nucleic acids research 40.3(2012):e20-e20.
Gal,Joseph G和Pardue,Marie Lou.“Formation and detection of RNA-DNAhybrid molecules in cytological preparations”Proceedings of the NationalAcademy of Sciences 63.2(1969):378-83.
Bauman,J.G.J等.“A new method for fluorescence microscopicallocalization of specific DNA sequences by in situ hybridization offluorochrome-labelled RNA”Experimental Cell Research 128.2(1980):485-90.
McCaffrey,Jennifer等."CRISPR-CAS9D10A nickase target-specificfluorescent labeling of double strand DNA for whole genome mapping andstructural variation analysis."Nucleic acids research(2015):gkv878.
Flicek,Paul和Ewan Birney."Sense from sequence reads:methods foralignment and assembly."Nature methods 6(2009):S6-S12.
Hastie,Alex R.等."Rapid genome mapping in nanochannel arrays forhighly complete and accurate de novo sequence assembly of the complexAegilops tauschii genome."PloS one 8.2(2013):e55864.
Pearson WR,Lipman DJ.Improved tools for biological sequencecomparison.Proc Natl Acad Sci U S A.1988Apr;85(8):2444-8.
Kent WJ.BLAT-the BLAST-like alignment tool.Genome Res.2002Apr;12(4):656-64
Jurka J.Repbase update:a database and an electronic journal ofrepetitive elements.Trends Genet.2000Sep;16(9):418-420.PMID:10973072
Smit AFA,Hubley R,Green P.RepeatMasker Open-3.0.http://_www.repeatmasker.org.1996-2010.
Edgar,Robert C."MUSCLE:multiple sequence alignment with high accuracyand high throughput."Nucleic acids research 32.5(2004):1792-1797.
Chenna,Ramu等."Multiple sequence alignment with the Clustal series ofprograms."Nucleic acids research 31.13(2003):3497-3500.
Benson,Gary."Tandem repeats finder:a program to analyze DNAsequences."Nucleic acids research 27.2(1999):573.
Warburton,Peter E.等."Inverted repeat structure of the human genome:the X-chromosome contains a preponderance of large,highly homologous invertedrepeats that contain testes genes."Genome research 14.10a(2004):1861-1869.
Komatsu,Jun等.(2016)Method for identifying or detecting genomicrearrangements in a biological sample.美国专利9,133,514B2.Genomic Vision(Bagneux,FR).
Lebofsky,Ronald等.(2007)Genomic morse code.美国专利7985542B2:InstitutPasteur(Paris,FR)
Pierret M.等.Molecular combing reveals structural variations in theSpinal Muscular Atrophy locus in African-American population.;(Abstract/Program 850W).Presented at the 66th Annual Meeting of The American Society ofHuman Genetics,日期,地点(例如2016年10月19日,加拿大温哥华)。
Rosenbloom KR等.The UCSC Genome Browser database:2015 update.NucleicAcids Res.(2015)Jan
GV(2016)http://_www.genomicvision.com/products/genetic-tests/hnpcc/(2016年11月28日最后访问)
通过网址https://_genome.ucsc.edu/所描述的Genome Browser(2017),并通过引用该网址的可用文字而并入(2017年11月23日最后访问)。

Claims (23)

1.设计颜色编码的遗传摩尔斯码(“GMC”)探针的方法,其包括:
(A)识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,
(B)通过定义一组子序列来细分感兴趣的靶区域的序列,
(C)在感兴趣的靶区域内的已定义子序列组中识别重复子序列,
(D)设计结合到感兴趣的全长核酸靶区域的GMC探针最小组,
其中所述设计的GMC探针在结合到感兴趣的核酸靶区域时产生独特性或特征性颜色模式;以及
(E)合成所述设计的GMC探针。
2.根据权利要求1所述的方法,还包括(F)将设计并合成的探针结合到基因组DNA分子上。
3.根据权利要求1或2所述的方法,还包括识别感兴趣的靶区域序列之外的重复子序列和(D)设计结合到感兴趣的核酸靶区域和相邻区域但不结合到重复子序列上的GMC探针,或者用一种或多种特定颜色识别重复序列的GMC探针,其中所述设计的GMC探针在与感兴趣的核酸靶区域和相邻区域结合时,产生独特性或特征性颜色模式。
4.根据权利要求1至3中任一项所述的方法,还包括使用RepeatMasker或另一生物信息学数据库来识别感兴趣的核酸靶区域序列中的散布重复和/或低复杂度序列。
5.根据权利要求1至4中任一项所述的方法,还包括使用BLAST、BLAT、FASTA、MUSCLE、CLUSTAL或另一基因组组装算法来识别感兴趣的核酸靶区域序列中的区段重复。
6.根据权利要求1至5中任一项所述的方法,其中选择GMC探针的颜色编码,以便在与感兴趣的核酸靶区域杂交时提供独特颜色模式。
7.根据权利要求1至6中任一项所述的方法,其中GMC探针的颜色编码是由为靶序列生成独特颜色编码的算法所提供的,从而允许来自靶序列中一个或多个感兴趣的基因座的信号的清晰定位,无论靶核酸在提取过程中是否因DNA断裂而被片段化;其中所述独特颜色编码清晰地将靶序列从来自同一基因组、染色体或其他核酸样品的其他序列中识别出来。
8.根据权利要求1至7中任一项所述的方法,其中重复子序列是选自末端重复、串联重复、同向重复、反向重复、卫星DNA、小卫星DNA、微卫星DNA、散布重复或散布核元件、DNA转座子(HERV)、反转录转座子、LTR反转录转座子、非LTR反转录转座子、SINE、LINE和SVA中的至少一种。
9.根据权利要求1至8中任一项所述的方法,其中靶核酸序列是染色体或基因组DNA的子序列,并且其中颜色编码的GMC探针组还包括杂交到感兴趣的核酸靶区域所述子序列之外的重复或非重复序列上的颜色编码的探针。
10.根据权利要求1至9中任一项所述的方法,其中颜色编码的GMC探针组还包括识别基因组DNA区域感兴趣的核酸靶区域之外的重复序列的探针,并且任选地在子序列下游分析过程中将这些重复序列与感兴趣的靶核酸区域的重复序列区分开来。
11.根据权利要求1至10中任一项所述的方法,其中靶核酸序列是与遗传疾病、病症或其他病况相关联的。
12.根据权利要求1至11中任一项所述的方法,其中颜色编码的GMC探针独特地识别与复制、核酸修复或核酸表观遗传学相关联的一个或多个靶基因座。
13.根据权利要求1至12中任一项所述的方法,其中颜色编码的GMC探针独特地识别与遗传疾病、病症或其他病况相关联的靶序列和/或独特地识别与正常表型相关联的靶序列。
14.通过根据权利要求1至13的中任一项的方法所设计或产生的颜色编码或标记的GMC探针。
15.用于分子梳的方法,其包括将感兴趣的核酸分子与根据权利要求14的GMC探针进行接触。
16.根据权利要求15的方法,其中所述GMC探针对感兴趣序列的核酸靶区域的特异性高于在不缺失重复子序列和/或不设计针对靶区域之外的重复子序列附近的额外探针情况下设计的GMC探针,它们能够用单一颜色统一编码。
17.产生颜色编码的探针模式的方法,其包括步骤:
(A)识别基因组、染色体或其他核酸样品中感兴趣的核酸靶区域的序列,
(B)通过定义一组子序列来细分感兴趣的靶区域的序列,
(C)在已定义的子序列组中识别重复子序列,
(D)识别感兴趣的靶区域序列之外的重复子序列,
(E)设计结合感兴趣的核酸靶区域并产生特征性或独特性颜色模式但缺失重复子序列的GMC探针,和/或结合感兴趣的核酸靶区域和与感兴趣区域之外的重复子序列相邻的额外核酸区域两者的GMC探针,从而形成能够用单一颜色进行统一编码的更长子序列,以便能够将设计的GMC探针与感兴趣的靶区域中更小的已定义的细分子序列与感兴趣的靶区域序列之外的伪序列区分开来,
(F)选择编码所述GMC探针的独特颜色模式,以及
(G)将所述颜色编码的GMC探针与感兴趣的靶核酸区域接触,
从而将感兴趣的靶核酸区域涂上特征性或独特性颜色模式,
(H)分析步骤(G)所获得的杂交产物。
18.根据权利要求17所述的方法,其中对所有区域都保证了部分颜色模式的唯一性。
19.根据权利要求17所述的方法,其中所述步骤A至H还考虑用于定义GMC探针的多个靶区域之间的交叉重复。
20.根据权利要求17所述的方法,其中将所述方法同时应用于多个靶区域或多个核酸序列。
21.根据权利要求14所述的颜色编码或标记的GMC探针用于检测脊髓性肌萎缩基因座(SMA基因座)的用途。
22.根据权利要求14所述的颜色编码或标记的GMC探针用于检测遗传性非息肉性结肠癌(HNPCC)所涉及的区域、特别是包括HNPCC所涉及的两种基因MLH1和PMS2的区域中的核酸大重排的用途。
23.用于检测基因组DNA或其他靶核酸中至少一个感兴趣的结构域或基因座的试剂盒,其含有根据权利要求14所述的颜色编码或标记的GMC探针,以及任选的用于样品制备的设备和试剂,例如提供适用于分子梳的纯化的极高分子量(例如100kb的中位数大小)DNA的DNA提取设备;用于分子梳的设备和试剂,例如乙烯基硅烷处理的玻璃表面(例如盖玻片)和用于拉伸DNA的设备或系统;用于读取与GMC探针接触的靶DNA的设备和装置(例如扫描仪),用于分析、处理和存储这些数据的软件或计算机设备,包装材料和/或使用说明。
CN201780084459.6A 2016-11-29 2017-11-29 设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷酸序列的方法 Pending CN110199031A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662427580P 2016-11-29 2016-11-29
US62/427,580 2016-11-29
PCT/IB2017/001600 WO2018100431A1 (en) 2016-11-29 2017-11-29 Method for designing a set of polynucleotide sequences for analysis of specific events in a genetic region of interest

Publications (1)

Publication Number Publication Date
CN110199031A true CN110199031A (zh) 2019-09-03

Family

ID=61017946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780084459.6A Pending CN110199031A (zh) 2016-11-29 2017-11-29 设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷酸序列的方法

Country Status (5)

Country Link
US (1) US20180150597A1 (zh)
EP (1) EP3548637A1 (zh)
CN (1) CN110199031A (zh)
IL (1) IL266968A (zh)
WO (1) WO2018100431A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190140918A (ko) * 2017-03-15 2019-12-20 더 브로드 인스티튜트, 인코퍼레이티드 바이러스 검출을 위한 crispr 이펙터 시스템 기반 진단
CN115346608B (zh) * 2022-06-27 2023-05-09 北京吉因加科技有限公司 一种构建病原生物基因组数据库的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013064895A1 (en) * 2011-10-31 2013-05-10 Genomic Vision Methods for the detection, visualization and high resolution physical mapping of genomic rearrangements in breast and ovarian cancer genes and loci brca1 and brca2 using genomic morse code in conjunction with molecular combing
WO2013064896A1 (en) * 2011-10-31 2013-05-10 Genomic Vision Method for identifying or detecting genomic rearrangements in a biological sample

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
FR2716263B1 (fr) 1994-02-11 1997-01-17 Pasteur Institut Procédé d'alignement de macromolécules par passage d'un ménisque et applications dans un procédé de mise en évidence, séparation et/ou dosage d'une macromolécule dans un échantillon.
ZA959469B (en) 1994-11-15 1996-05-15 South African Druggists Ltd Pharmaceutical composition
FR2737574B1 (fr) 1995-08-03 1997-10-24 Pasteur Institut Appareillage d'alignement parallele de macromolecules et utilisation
FR2755149B1 (fr) 1996-10-30 1999-01-15 Pasteur Institut Procede de diagnostic de maladies genetiques par peignage moleculaire et coffret de diagnostic
US6248537B1 (en) 1999-05-28 2001-06-19 Institut Pasteur Use of the combing process for the identification of DNA origins of replication
US7985542B2 (en) 2006-09-07 2011-07-26 Institut Pasteur Genomic morse code
EP2175037B1 (en) 2008-09-26 2017-10-11 Genomic Vision Method for analyzing D4Z4 tandem repeat arrays of nucleic acid and kit therefore
JP2013524806A (ja) 2010-04-23 2013-06-20 ゲノミク ビジョン 分子コーミングを用いるゲノムdna及び感染性ウイルスdnaの検出によるウイルス感染の診断
WO2012038831A2 (en) 2010-09-24 2012-03-29 Genomic Vision A method for detecting, quantifying and mapping damage and/or repair of dna strands
BR112015013311A2 (pt) 2012-12-07 2017-11-14 Haplomics Inc indução de tolerancia e reparação de mutação do fator 8
KR20150105635A (ko) 2012-12-12 2015-09-17 더 브로드 인스티튜트, 인코퍼레이티드 서열 조작을 위한 crispr-cas 성분 시스템, 방법 및 조성물
US20160040220A1 (en) 2013-03-15 2016-02-11 Genomic Vision Methods for the detection of breakpoints in rearranged genomic sequences
US10036071B2 (en) 2013-03-15 2018-07-31 Genomic Vision Methods for the detection of sequence amplification in the BRCA1 locus
US9288208B1 (en) 2013-09-06 2016-03-15 Amazon Technologies, Inc. Cryptographic key escrow
EP3427183A1 (en) 2016-03-10 2019-01-16 Genomic Vision Method of curvilinear signal detection and analysis and associated platform
EP3427171A1 (en) 2016-03-10 2019-01-16 Genomic Vision Method for analyzing a sequence of target regions and detect anomalies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013064895A1 (en) * 2011-10-31 2013-05-10 Genomic Vision Methods for the detection, visualization and high resolution physical mapping of genomic rearrangements in breast and ovarian cancer genes and loci brca1 and brca2 using genomic morse code in conjunction with molecular combing
WO2013064896A1 (en) * 2011-10-31 2013-05-10 Genomic Vision Method for identifying or detecting genomic rearrangements in a biological sample

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KEVIN CHEESEMAN ET AL: "A diagnostic genetic test for the physical mapping of germline rearrangements in the susceptibility breast cancer genes BRCA1 and BRCA2", 《HUMAN MUTATION》 *

Also Published As

Publication number Publication date
EP3548637A1 (en) 2019-10-09
US20180150597A1 (en) 2018-05-31
WO2018100431A1 (en) 2018-06-07
IL266968A (en) 2019-07-31

Similar Documents

Publication Publication Date Title
Kraft et al. Serial genomic inversions induce tissue-specific architectural stripes, gene misexpression and congenital malformations
US20230050461A1 (en) Methods and compositions for screening and treating developmental disorders
Tang et al. CTCF-mediated human 3D genome architecture reveals chromatin topology for transcription
CN103392182B (zh) 用于发现遗传疾病中致病突变的系统和方法
Lynn et al. Variation in human meiotic recombination
Dong et al. Identification of balanced chromosomal rearrangements previously unknown among participants in the 1000 Genomes Project: implications for interpretation of structural variation in genomes and the future of clinical cytogenetics
Rutledge et al. Genetic differentiation of eastern wolves in Algonquin Park despite bridging gene flow between coyotes and grey wolves
Mahdieh et al. An overview of mutation detection methods in genetic disorders
US7303880B2 (en) Microdissection-based methods for determining genomic features of single chromosomes
DE69920032T2 (de) Methoden, software und apparate zur identifizierung genomischer bereiche, die ein gen umfassen, das mit einem nachweisbaren merkmal assoziiert ist
US20180073076A1 (en) Methods and compositions for screening and treating developmental disorders
Bocklandt et al. Bionano genome mapping: high-throughput, ultra-long molecule genome analysis system for precision genome assembly and haploid-resolved structural variation discovery
Dockery et al. Target 5000: target capture sequencing for inherited retinal degenerations
Whelan et al. Findings from a genotyping study of over 1000 people with inherited retinal disorders in Ireland
JP2005521930A5 (zh)
Poot et al. Prevalence and phenotypic impact of Robertsonian translocations
Kratochwil et al. An intronic transposon insertion associates with a trans-species color polymorphism in Midas cichlid fishes
JP2020519254A (ja) 遺伝子サンプルを識別且つ区別するためのシステムと方法
Ishmukhametova et al. Comprehensive oligonucleotide array-comparative genomic hybridization analysis: new insights into the molecular pathology of the DMD gene
JP2023504588A (ja) 染色体異常を検出するための高分解能スペクトル染色体バンディング法
CN110199031A (zh) 设计用于分析感兴趣的遗传区域中的特定事件的一组多核苷酸序列的方法
Caputo et al. 5′ region large genomic rearrangements in the BRCA1 Gene in French families: identification of a Tandem triplication and nine distinct deletions with five recurrent breakpoints
Donaldson et al. Classical, Molecular, and Genomic Cytogenetics of the Pig, a Clinical Perspective
Litvinov et al. A convenient co-dominant marker for height-reducing ddw1 allele useful for marker-assisted selection
Zhigalina et al. FISH diagnostics of chromosomal translocation with the technology of synthesis of locus-specific DNA probes based on long-range PCR

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination