CN114026644A - 通过测序进行核型分析的系统和方法 - Google Patents

通过测序进行核型分析的系统和方法 Download PDF

Info

Publication number
CN114026644A
CN114026644A CN202080033103.1A CN202080033103A CN114026644A CN 114026644 A CN114026644 A CN 114026644A CN 202080033103 A CN202080033103 A CN 202080033103A CN 114026644 A CN114026644 A CN 114026644A
Authority
CN
China
Prior art keywords
subject
machine learning
learning model
chromosomal structural
contact matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080033103.1A
Other languages
English (en)
Inventor
S·沙利文
B·纳尔逊
M·普锐斯
Z·克伦博格
S·埃克
I·利亚奇科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Phase Genomics
Original Assignee
Phase Genomics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Phase Genomics filed Critical Phase Genomics
Publication of CN114026644A publication Critical patent/CN114026644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)

Abstract

本公开涉及用于使用染色体构象捕获数据鉴别受试者中的染色体结构变异、将所述染色体结构变异与疾病或病症相关联的方法和系统,以及治疗所述疾病或病症的方法。

Description

通过测序进行核型分析的系统和方法
技术领域
背景技术
数十年来,临床医生使用遗传测试来鉴别造成孟德尔病(Mendelian disease)、癌症、自闭症和其它人类疾病的染色体结构变异或基因组异常。类似的测试也用于农业、兽医、研究和其它目的。鉴别大规模结构变异(SV)的最常见测试是核型分析,由此浓缩中期染色体并使用各种染色和显微镜技术进行目视检查。。可确认特定基因座处的基因组重排的第二相关技术是荧光原位杂交(FISH)。核型分析和FISH都是劳动密集、耗时的,并且需要高度专业化的训练,从而限制了这些方法的处理量和效率。此外,核型分析方法受到其分辨率和获得活跃分裂细胞的需要的限制,这在临床环境中对于液体癌症(例如血液和淋巴癌)来说可能是困难的。因此,需要准确且快速地鉴别染色体结构变异的额外方法。
发明内容
本文提供了在任何生物体、组织或细胞类型中使用染色体构象捕获技术鉴别染色体结构变异的系统和方法。在本公开的系统和方法的一些实施例中,染色体结构变异是本领域已知和描述的。在一些替代实施例中,染色体结构变异是新颖的。本公开进一步提供用于将染色体结构变异与生物信息,如相关疾病或病症、基因表达和推荐治疗相关联,且使用此信息治疗受试者的疾病或病症的系统和方法。
因此,本公开提供治疗具有染色体结构变异的受试者的方法,其包含:(a)接收来自受试者的样品的测试读段集;(b)将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;(c)训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;(d)在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述映射读段集;(e)基于将所述机器学习模型应用于来自所述受试者的所述映射读段集来计算所述受试者具有已知染色体结构变异的似然度;和(f)基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。在一些实施例中,方法包含从测试读段集、来自健康受试者的读段集和对应于已知染色体结构变异的读段集生成几何数据结构。
在本公开的方法的一些实施例中,方法包含(a)接收来自受试者的样品的测试读段集;(b)将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;(c)从所述映射读段集生成几何数据结构;(d)训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;(e)在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述几何数据结构;(f)基于将所述机器学习模型应用于来自所述受试者的所述几何数据结构来计算所述受试者具有已知染色体结构变异的似然度;和(g)基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。
在本公开的方法的一些实施例中,已知染色体结构变异各自在受试者中引起疾病或病症。在一些实施例中,所述方法进一步包含如果所述核型指示所述受试者具有所述已知染色体结构变异,则治疗所述受试者的由所述已知染色体结构引起的所述疾病或病症。
在本公开的方法的一些实施例中,染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接(例如
Figure BDA0003333717570000021
)、原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在Pacific Biosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
本公开提供用于确定受试者是否具有已知染色体结构变异体的系统。
在本公开的系统的一些实施例中,所述系统包含:(a)计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:(i)用于接收来自所述受试者的样品的测试读段集的指令,其中所述测试读段集通过染色体构象分析技术生成;(ii)用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;(iii)用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的所述测试读段集的指令,其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;(iv)用于基于将所述机器学习模型应用于所述测试读段集而计算所述测试读段集含有已知染色体结构变异的似然度的指令;和(v)用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;和(b)处理器,所述处理器被配置成执行包含以下的步骤:(i)接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
在本公开的系统的一些实施例中,所述系统包含:(a)计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:(i)用于接收来自所述受试者的样品的测试读段集的指令,其中所述测试读段集通过染色体构象分析技术生成;(ii)用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;(iii)用于从所述映射读段集生成几何数据结构的指令;(iv)用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的测试读段集的所述几何数据结构的指令,其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;(v)用于基于将所述机器学习模型应用于所述测试读段集而计算来自测试读段集的所述几何数据结构含有已知染色体结构变异的似然度的指令;和(vi)用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;以及(b)处理器,所述处理器被配置成执行包含以下的步骤:(i)接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
本公开提供鉴别受试者的染色体结构变异的方法,其包含:(a)训练第一机器学习模型以检测包含至少一个染色体结构变异的第一接触矩阵的至少一个区域;(b)通过所述第一机器学习模型从受试者接收第一接触矩阵,其中所述接触矩阵通过染色体构象分析技术产生;(c)将所述第一机器学习模型应用于所述第一接触矩阵以鉴别含有至少一个染色体结构变异的所述第一接触矩阵的至少一个区域;(d)将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始位置和结束的边界框,以及标记;(e)训练第二机器学习模型以将所述至少一个染色体结构变异与生物信息相关联;(f)通过所述第二机器学习模型接收由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;和(g)在训练所述第二机器学习模型之后应用所述第二机器学习模型;从而鉴别所述受试者的每个染色体结构变异和与每个染色体结构变异相关的所述生物信息。
本公开提供用于鉴别受试者的染色体结构变异的系统,其包含:(a)存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令包含:(i)用于将来自受试者的第一接触矩阵导入到第一机器学习模型中的指令,其中所述第一接触矩阵是通过染色体构象分析技术产生;(ii)用于将所述第一机器学习模型应用于所述接触矩阵以检测包含至少一个染色体结构变异的所述第一接触矩阵的至少一个区域的指令;(iii)用于将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始和结束的边界框以及标记的指令;(iv)用于通过第二机器学习模型接收由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记的指令;和(v)用于应用所述第二机器学习模型的指令,其中所述第二机器学习模型被训练成将染色体结构变异与生物信息相关联,且其中应用所述第二机器学习模型在训练所述第二机器学习模型之后发生;和(b)处理器,所述处理器被配置成执行包含以下的步骤:(i)接收至少包含来自所述受试者的所述第一接触矩阵和参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
本公开提供检测受试者的染色体结构变异的方法,其包含:(a)接收接触矩阵,其中所述接触矩阵通过应用于来自所述受试者的样品的染色体构象分析技术产生;(b)将所述接触矩阵表示为图像,其中所述图像中的每个像素的强度表示所述接触矩阵中的两个基因组位置之间的连接密度;和(c)将图像处理应用于所述图像;从而检测所述受试者的染色体结构变异。
本公开提供包含以下的方法:(a)使来自受试者的样品与稳定剂接触,其中所述样品包含核酸;(b)将所述核酸裂解成至少包含第一区段和第二区段的多个片段;(c)在接合处附接所述第一区段和所述第二区段以生成包含附接区段的多个片段;(d)在包含附接区段的所述多个片段的所述接合处的每一侧上获得至少一些序列以生成多个读段;和(e)应用本文所述的任何机器学习模型。
附图说明
专利或申请文件至少包含一张彩图。根据请求并支付必要的费用后,专利局将提供带有彩图的本专利或专利申请公开案的副本。
图1是展示来自急性骨髓性白血病(AML)样品的前七个染色体的接触矩阵的Hi-C邻近接触图。虚线表示染色体边界。易位呈现为染色体对1-5、2-6和4-6之间的非对角矩形框。
图2是示出本公开的示例性通过测序进行核型分析(KBS)实施例的图。左侧,将生物学和/或临床数据集用作训练一个或多个模型的输入,所述生物学和/或临床数据集可包括变异、健康或模拟的染色质构象数据,以及关于那些样品或正在分析的生物体的临床或生物学数据。顶部,需要KBS分析的新临床或研究样品由染色质构象捕获方案处理,所述方案在测序、比对和其它处理之后生成染色质构象捕获数据集。这些数据作为输入提供到经过训练的模型,其检测变异和其显著性。最终从分析结果生成人类可读报告。
图3是说明根据一个实施例的变异鉴别系统的框图。
图4A-C是示出本公开的示例性通过测序进行核型分析实施例的图,其可用于对人类样品中的已知结构变异进行基因分型。(A)健康样品用Hi-C方案处理且与人类基因组比对,产生接触矩阵。接触矩阵用于训练负二项分布(NBD)模型。(B)手动整理含有具有已知临床显著性的变异的数据库。变异表示为基因组带,类似于经典核型分析中使用的命名法。(C)新临床或研究样品用Hi-C方案处理,并且遵循与(A)中的训练样品相同的方法与人类基因组比对。KBS变异检测器使用NBD模型计算每个已知变异存在于样品中的似然度。所有检测到的已知变异由KBS变异检测器输出,包括其来自临床数据的显著性。生成类似于基于经典核型的细胞遗传学报告的人类可读报告。
图5A-C是示出本公开的示例性通过测序进行核型分析实施例的图,其可用于任何生物体的通用变异检测和注释。(A)含有已知变异(但不一定是具有已知显著性的变异)的样品用Hi-C处理且与参考或草案基因组比对,从而产生接触矩阵。样品中的每个变异是已知的,并且用于标记变异的类型。来自样品的接触矩阵以分辨率的混合物用于训练卷积神经网络(CNN),以检测样品中变异的存在和类型。(B)关于含有已知临床或生物学显著性的结构变异的样品的数据用Hi-C方案处理且与参考或草案组合比对,从而产生接触矩阵。临床或生物学数据,例如诊断、结果、药物/治疗反应、代谢效应和其它相关数据用于训练k最近邻模型(KNN),以将接触矩阵特征与临床或生物学特征相关联。(C)新临床或研究样品用Hi-C方案处理,并且遵循与(A)和(B)中的训练样品相同的方法与参考或草案基因组比对。KBS变异检测器递归地使用CNN,在分类步骤之间产生增加分辨率接触矩阵,以精确地鉴别所需分辨率的结构变异。然后使用KNN模型对所有检测到的已知变异进行分类,以预测变异的临床和/或生物学意义。从结果生成类似于基于经典核型的细胞遗传学报告的人类可读报告。
图6示出了已经使用本公开的方法分析的来自癌症样品的接触矩阵。对于癌症样品,在chr3内检测到角点(X)。这些角点对应于染色体上检测到的结构变异。x轴和y轴上的单位是兆碱基。
图7示出模拟的Hi-C热图数据。通过将合成结构变异突变引入人类基因组中并根据反映Hi-C方案的理论特征的统计模型随机生成邻近连接相互作用来生成数据。主对角线外的红色矩形说明此变异发生的位置,第二主要应用将其标记为从7号染色体到12号染色体的易位,具有0.98置信度。
图8示出了作为图像的染色体构象捕获接触矩阵的示例性可视化。
图9示出了通过白血病样品中的通过测序进行核型分析方法检测到的事件。
图10是表示准备好供KBS变异检测器使用的经处理矩阵的图像。原始Hi-C连接密度在矩阵的右上半部中示出,并且归一化的Hi-C矩阵在矩阵的左下半部上示出。(A)原始Hi-C连接数据示出关于基因组结构的许多细节,例如不平衡易位从其移动染色体的一个拷贝的一部分的位置的特征。(B)归一化的Hi-C连接数据强调数据集的异常方面,例如染色体间易位。
图11是示出复杂易位给基于Hi-C的结构变化调用程序带来挑战的图像。放大到Hi-C矩阵中示出来自chr2<->chr6和chr4<->chr6的相互易位产生增加的chr2:<->chr4相互作用信号。
具体实施方式
本文提供了使用染色质构象捕获技术鉴别染色体结构变异的计算方法和系统。在一些实施例中,本公开进一步提供用于将染色体结构变异与关于染色体结构变异的生物信息(例如,临床数据)相关联的系统和方法。
染色质构象捕获方法,例如3-C、4-C、5-C和Hi-C在完整细胞内部紧密地物理连接DNA分子。这些方法测量两个基因座在体内空间中共结合的频率。接着通过将高通量测序读段从染色质构象捕获文库映射到草案或参考基因组而从染色质构象捕获数据计算二维接触矩阵(图1)。在接触矩阵中,源自相同染色体的基因座具有比不同染色体上的基因座更高的相互作用频率,并且相同染色体上的相邻基因座具有比该染色体上的远端基因座更高的相互作用频率。由于个体的细胞群体内的等位基因变异以及个体出生时或一生中获得的突变,每个个体的基因组表现出略微不同的接触矩阵。这些差异被称为变异。通过将接触矩阵可视化为接触图,可以用肉眼看到一些变异。可通过计算分析接触矩阵来检测其它变异。这些变异包括但不限于平衡和不平衡的易位、倒位和拷贝数变异,例如插入、缺失、重复扩增和其它复杂事件。已知一些变异具有临床显著性,即与疾病和/或治疗过程相关。其它变异具有未知的临床显著性,或为新颖的(本领域先前未描述)。染色质构象数据以及本文公开的方法和系统提供了描述具有已知临床显著性的变异以及发现具有未知临床显著性的变异和新颖变异的手段。
本公开的通过测序进行核型分析(KBS)方法在核型分析或核型样数据将有用的临床和研究场景中使用染色质构象数据。此方法包括多个主要应用。首先,KBS方法能够鉴别通过细胞遗传学方法可观测到的人类基因组重排,并且测试已知临床可报告变异的存在,实际上产生与核型分析相同的可操作信息,但具有高度不同、强大的手段。其次,KBS方法能够分析任何样品以检测任何结构变异,并且使用关于被采样的生物体中的结构变异的任何所提供的数据对这些变异进行分类。
受试者
本公开提供了用于鉴别受试者的一个或多个染色体结构变异的方法和系统。
本公开的受试者可以是任何生物体。在一些实施例中,受试者是真核生物。在一些实施例中,受试者是后生动物。在一些实施例中,受试者是脊椎动物。在一些实施例中,受试者是哺乳动物。在一些实施例中,受试者是人类、猴、类动物、兔、豚鼠、沙鼠、大鼠或小鼠。在一些实施例中,受试者是农业动物。示例性农业动物包括马、绵羊、牛、猪和鸡。在一些实施例中,受试者是作为宠物饲养的动物(兽医受试者)。示例性宠物包括狗和猫。
在一些实施例中,受试者是人类。
在一些实施例,特别是其中受试者是人类的那些实施例中,受试者具有由受试者的一个或多个染色体结构变异引起的疾病或病症的一种或多种症状。在一些实施例中,染色体结构变异是本领域已知的引起疾病或病症,或影响引起疾病或病症的一个或多个基因的功能的染色体结构变异。在替代实施例中,染色体结构变异是新型染色体结构变异,即先前未在本领域中描述的变异。本公开提供了鉴别新型和已知染色体结构变异两者的系统和方法。
本公开提供了用于鉴别从受试者的任何组织或细胞类型分离或衍生的细胞中的一个或多个染色体结构变异的方法和系统。在一些实施例中,组织是受试者的健康组织,例如健康血液、皮肤、骨髓、肝、肾、神经组织或肌肉。在一些实施例中,组织具有疾病或病症的一种或多种症状。在一些实施例中,疾病或病症是癌症,并且组织包含癌细胞。在一些实施例中,癌症包含实体肿瘤,并且组织包含肿瘤细胞。在一些实施例中,癌症包含液体肿瘤,并且组织包含白细胞、血液祖细胞、干细胞或骨髓细胞。在一些实施例中,组织含有包含一个或多个染色体结构变异的细胞和不包含一个或多个染色体结构变异的细胞的混合物。
如本文所用,“健康受试者”不具有临床显著的染色体结构变异或由未知结构变异引起的疾病的病征或症状,或者不怀疑具有所述临床显著的染色体结构变异或疾病。来自健康受试者的样品的染色体构象测序信息可例如用于训练本文所述的机器学习模型,或用于比较目的。健康受试者可以是基因组已经通过独立方法,例如常规核型分析或FISH来分析CSV的那些受试者。在一些情况下,健康样品可含有CSV,例如与使用本文所述的方法分析的疾病或病症无关的CSV,或被认为对受试者的健康具有最小影响的CSV。
“健康样品”包括来自健康受试者的样品。“健康样品”还包括来自患有疾病或病症的受试者的样品,但健康样品来自不受疾病或病症影响的组织。例如,如果受试者患有癌症,则可使用本文所述的方法分析来自癌症肿瘤的测试样品的染色体结构变异,并且与来自相同受试者的不具有肿瘤的组织的健康样品进行比较。
染色体结构变异
本公开提供了用于鉴别受试者的一个或多个染色体结构变异的方法和系统。
如本文所用,术语“染色体”是指包含细胞基因组的全部或一部分的染色质复合物。细胞的基因组通常的特征在于其核型,其为包含细胞基因组的所有染色体的集合。细胞的基因组可包含一个或多个染色体。在人类中,每个染色体具有短臂(称为“p”代表“piit”)和长臂(称为“q”代表“queue”)。
每个染色体臂被分成区域或细胞遗传带,所述区域或细胞遗传带可使用显微镜在常规核型中看到。带被标记为p1、p2、p3等,从着丝粒朝向端粒计数。带内的较高分辨率子带有时也用于鉴别染色体中的区域。子带也从着丝粒朝向端粒编号。关于染色体带和染色体命名的信息可见于Strachan,T.和Read,A.P.1999.人类分子遗传学(Human MolecularGenetics),第2版New York:John Wiley&Sons的第37-39页。
术语“核酸”、“多核苷酸”和“寡核苷酸”可互换使用,并且指呈单股或双股形式的脱氧核糖核苷酸或核糖核苷酸聚合物。出于本公开的目的,这些术语不应被解释为关于聚合物的长度的限制。所述术语可涵盖天然核苷酸的已知类似物,以及在碱基、糖和/或磷酸部分中修饰的核苷酸。一般来说,特定核苷酸的类似物具有相同的碱基配对特异性(例如,A的类似物将与T碱基配对。具有特定身份和顺序的脱氧核糖核酸(DNA)的多核苷酸在本文中也称为“DNA序列”。染色体包含与蛋白质(例如组蛋白)复合的多核苷酸。
如本文所用,术语“结构变异”、“染色体结构变异”、“CSV”或“SV”是指个体的染色体相对于相同物种内或密切相关物种内的其它个体的基因组中的染色体的结构差异。染色体结构的差异涵盖染色体中DNA序列的排列和同一性的差异。染色体中DNA序列的排列差异包括DNA序列相对于其它序列在染色体上的位置差异(例如易位)和相对于其它序列的取向差异(例如倒置)。沿着染色体的DNA序列同一性的差异可包括新序列或缺失序列,例如通过从一个染色体到另一个非同源染色体的移动序列。
染色体结构变化大小可较小或较大,涵盖数十个碱基对、数百个碱基对、千碱基、兆碱基,或甚至个别染色体的很大一部分(例如一半、三分之一或四分之三)。染色体结构变化的所有大小都在本公开的范围内。
存在多种类型的染色体结构变异,所有染色体结构变异都被设想为在本公开的方法和系统的范围内。染色体结构变异类型的非限制性实例包括易位、平衡易位、不平衡易位、复杂易位、倒位、缺失、重复、重复扩增或环。
如本文所用,术语“易位”是指在非同源染色单体之间、在同一染色单体上的两个或更多个位置之间、或在并非由减数分裂期间的交叉所致的同源染色体之间的DNA序列的交换。易位可产生基因融合体,其在通常彼此不相邻的两个基因接近时发生。替代地或另外,易位可通过破坏易位边界处的基因来破坏基因功能。例如,易位可将开放阅读框(ORF)与远端调节元件分离,或使开放阅读框接近新的调节元件,从而影响基因表达。替代地或另外,易位的断点可发生在基因的中间,由此产生基因截短。“断点”是指染色体在易位期间裂解染色体的点或区域。“断点接合”是指染色体的不同部分参与易位接合的染色体的区域。替代地或另外,易位可通过将这些基因移动到细胞核中的新染色质环境来影响易位内所含的一个或多个基因的表达,例如通过将DNA序列从强基因表达区(例如,常染色质)移动到低基因表达区(例如,异染色质)或反之亦然。取决于易位,易位对基因表达没有影响,可影响单个基因,或可影响多个基因。
如本文所用,术语“平衡易位”是指非同源染色单体之间,或并非由减数分裂期间的交叉所致的同源染色单体之间的DNA相互交换。“平衡易位”是在易位期间不损失遗传物质,但在交换期间保留所有遗传物质的易位。在“不平衡易位”中,在交换期间存在遗传物质的损失。
如本文所用,术语“相互易位”是指涉及两个断裂染色体之间的片段相互交换的易位。在相互易位中,一个染色体的一部分与另一染色体的部分联合。
如本文所用,术语“变异易位”、“异常易位”或“复杂易位”是指第三染色体参与第一易位之后的二次重排。
易位可以是染色体内(重排断点在同一染色体内发生)或染色体间(重排断点在两个不同的染色体之间)。
如本文所用,术语“倒位”是指相同染色体内的DNA序列的重排。倒位改变染色体内DNA序列的方向。
如本文所用,术语“缺失”是指DNA序列的损失。缺失可以是任何大小,范围从几个核苷酸到整个染色体。易位经常伴有缺失,例如在易位断点处。
如本文所用,术语“重复”是指DNA序列的重复(例如,基因组含有DNA序列的三个拷贝而不是两个)。重复可以是任何大小,范围从几个核苷酸到整个染色体。易位经常伴有重复。
如本文所用,术语“重复扩增”是指基因组中具有受试者之间的可变拷贝数的串联重复序列。当重复序列的重复次数大于平均数目时,重复序列已扩增。重复序列可包含2、3、4、5、6、7、8、9、10个或更多个重复核苷酸。扩增的重复与多种遗传病症相关,包括但不限于亨廷顿氏病、脊髓小脑共济失调、脆性X综合征、肌强直性营养不良、弗里德赖希共济失调和青少年肌阵挛性癫痫。
可使用本公开的方法和系统鉴别所有类型的染色体结构变异。
在一些实施例中,通过本公开的方法和系统鉴别的染色体结构变异是本领域已知的染色体变异。例如,通过本公开的方法鉴别的染色体结构变异是先前已经描述和表征的染色体结构变异。本领域的染色体结构变异的描述包括使用本领域已知的技术,例如通过核型分析、测序或DNA印迹来映射染色体结构变异的一个或多个断点。在其中已知染色体结构变异引起疾病或病症的那些实施例中,已知染色体结构变异的描述包括临床数据,例如症状、预后和推荐的治疗过程。
在一些实施例中,通过本公开的方法和系统鉴别的染色体结构变异是新颖染色体变异。新颖染色体结构变异是本领域先前尚未描述的变异。新颖染色体结构变异可类似于本领域已知的染色体结构变异。例如,染色体结构变异可以是复发性的,因为相似变异在多个个体中独立地发生,并且新颖的是,具有复发性变异的每个个体包含具有略微不同的断点的变异。在一些实施例中,新颖染色体结构变异具有与本领域已知的染色体结构变异的断点相比类似放置的一个或多个断点。类似放置的断点包含在本领域中已知的染色体结构变异的断点的50bp内、100bp内、500bp内、1kb内、5kb内、10kb内、20kb内、50kb内、100kb内、200kb内或500kb内或1Mb内的断点。在一些实施例中,新颖染色体结构变异具有与本领域已知的染色体结构变异的断点相同的一个或多个断点,以及与本领域已知的染色体结构变异的断点不相同的一个或多个断点。在一些实施例中,新颖染色体结构变异不具有与本领域已知的染色体结构变异相似或相同的断点。
染色体结构变异的表示
本公开提供了用于鉴别受试者的一种或多种染色体结构变异,并且以本领域普通技术人员(例如,临床医生、医生、患者或研究员)可容易地解释的方式表示染色体结构变异或变异的系统和方法。
在一些实施例中,染色体结构变异表示为核型。核型分析是用于鉴别染色体结构变异的传统方法。在核型分析中,细胞发育在中期期间被停滞,结合的染色单体被提取、染色和拍照,并且使用染色体的细胞遗传带模式来映射染色单体的结构特性。核型分析昂贵、费时且分辨率有限。传统的核型分析依赖于核型内的细胞遗传带和子带来映射染色体结构变异的边界,因此不能分辨比通常具有约5Mb的最小分辨率的核型的细胞遗传带更精细(更小)的染色体结构变异。相比之下,本公开的系统和方法能够实现比传统核型更精细至少1,000的分辨率。
核型分析中使用的一种方法是流式细胞术(FC)和荧光原位杂交(FISH),其可用于检测细胞周期的任何阶段中的非整倍体。使用FISH鉴别使用荧光探针的染色单体上特定DNA序列的物理位置。FISH探针是连接至荧光团的短DNA寡核苷酸。杂交后的FISH探针可使用光学显微镜伴随荧光团激发来可视化。当使用具有不同荧光团颜色的两个或更多个FISH探针时,可估计两个基因座之间的粗略距离和取向。这种方法的一个优点是,其价格低于核型分析,但成本仍然足够高,以至于通常仅测试少量染色体(对于人类,通常是染色体13、18、21、X、Y;有时还测试8、9、15、16、17、22)。相比之下,本公开的系统和方法可快速且廉价地对受试者中的所有染色体进行核型分析。此外,FISH具有低水平的特异性。使用FISH分析15个细胞,可以95%置信度检测19%的嵌合。随着嵌合水平降低,以及待分析的细胞数量减少,测试的可靠性变得低得多。当分析单个细胞时,估计测试的假阴性率高达15%。因此,对于具有较高处理量、较低成本和较高准确性的方法,例如本文提供的方法存在极大需求。
传统核型结果可表示为核型扩散,其为核型中分析的所有染色体的图像,经染色以鉴别细胞遗传带并以有序对排列。虽然本公开的方法提供了优于传统核型的分辨率,但通过本公开的方法鉴别的染色体结构变异可表示为核型或核型扩散。这有利于由医生和临床医生解读本公开的染色体结构变异数据,他们可能更熟悉和经过训练以基于传统核型来鉴别染色体结构变异。
在一些实施例中,本公开的染色体结构变异表示为核型。
在一些实施例中,通过本公开的方法和系统鉴别的染色体结构变异表示为边界矩形。在一些实施例中,所述边界矩形包含染色体结构变异的基因组中的起始位置和结束位置,以及标记。
在一些实施例中,通过本公开的方法和系统鉴别的染色体结构变异表示为基因组坐标和标记。
在一些实施例中,标记包含通过本公开的方法和系统鉴别的染色体结构变异的类型。例如,标记将染色体结构变异鉴别为易位、平衡易位、倒位、缺失、重复或环。
在一些实施例中,标记鉴别与通过本公开的方法和系统鉴别的染色体结构变异相关的生物信息。例如,标记指示哪些疾病或病症与染色体结构变异相关、哪些基因受影响和/或治疗过程。
在一些实施例中,标记包含通过本公开的系统和方法鉴别的染色体结构变异的基因组坐标。
在一些实施例中,标记包含关于已由第一机器学习模型产生的染色体结构变异的信息,其用作第二机器学习模型的输入。例如,第一机器学习机器学习模型鉴别并标记一个或多个染色体结构变异,并且第二机器学习机器学习模型将所鉴别的染色体结构变异与相关生物信息相关联。在一些实施例中,第一机器学习机器学习模型是似然分类器,其使用被训练成从染色体构象捕获数据鉴别染色体结构变异的卷积神经网络。在一些实施例中,第二机器学习模型是使用来自已知染色体结构变化的临床标记数据训练的递归神经网络或感测检测器。
临床染色体结构变异
本公开提供了用于鉴别受试者的一个或多个染色体结构变异,并且进一步将一个或多个染色体结构变异与相关生物信息相关联的方法和系统。相关生物信息包括但不限于变异的临床显著性、相关疾病或病症、其症状、相关基因和/或基因突变、染色体结构变异对基因表达的影响,以及推荐的治疗过程或疗法。
在一些实施例中,通过本公开的系统和方法鉴别的染色体结构变异引起一种或多种疾病或病症。
在一些实施例中,引起疾病或病症的染色体结构变异是遗传性的,即染色体结构变异经由生殖系从亲代传输到后代。所有遗传的染色体结构变异都在本公开的系统和方法的范围内。
在其它替代实施例中,引起疾病或病症的染色体结构变异是体细胞,即染色体结构变异在个体的细胞中从头产生。取决于在发育中何时产生体细胞染色体结构变异,体细胞染色体结构变异可出现于生物体中的所有细胞(染色体结构变异产生于第一细胞分裂之前),或可出现于生物体中的细胞的子集中(染色体结构变异在发育后期或成人中发生)。每个细胞中可能发生的示例性病症包括非整倍性,例如特纳综合征(X染色体单体性)和唐氏综合征(第21对染色体三体症)。
由产生于缺失单倍体不足引起的示例性病症包括威廉姆斯综合征(Williamssyndrome)、兰格-吉迪翁综合征(Langer-Giedion syndrome)、米勒-迪克综合征(Miller-Dieker syndrome)和迪乔治/腭心面综合征(DiGeorge/velocardiofacial syndrome)。所有体细胞染色体结构变异都在本公开的系统和方法的范围内。
在一些实施例中,由染色体结构变异引起的疾病或病症由受试者中从头发生的染色体结构变异引起。在一些实施例中,从头发生的染色体结构变异是复发性结构变异。许多染色体结构变异是复发性的,因为相同或类似的染色体结构变异在多个个体中从头发生。这些个体不一定相关。在许多情况下,复发性染色体结构变异由侧接节段重复介导的非等位基因同源重组引起。在非等位基因同源重组中,在非同源DNA序列,例如含有相似重复DNA序列的DNA序列之间的不当交叉导致串联或直接重复和缺失。由复发性染色体结构变异引起的疾病和病症的非限制性实例包括在恰克马利牙病(Charcot Maria Tooth disease)、易患压力性麻痹的遗传性神经病变、普拉德威利(Prader Wili)、安格尔曼(Angelman)、史密斯马格尼斯(Smith Magenis)、迪乔治/腭心面(DGS/VCFS)、威廉姆斯比伦斯(WilliamsBeurens)和索托氏(Sotos)综合征。
染色体结构变异的数据库是本领域普通技术人员已知的。例如,关于染色体结构变异和其相关疾病和病症以及这些疾病和病症的治疗的生物信息可以在在线人类孟德尔遗传(www.omim.org)、癌症中的染色体畸变和基因融合的Mitelman数据库(cgap.nci.nih.gov/Chromosomes/Mitelman)和NCBI数据库(www.ncbi.nlm.nih.gov/clinvar?term=300005[MIM])中找到。
表1中示出了与染色体结构变异相关的示例性疾病和病症。
表1.与染色体结构变异相关的疾病和基因
Figure BDA0003333717570000141
Figure BDA0003333717570000151
Figure BDA0003333717570000161
Figure BDA0003333717570000171
Figure BDA0003333717570000181
染色体结构变异和相关疾病和病症也由美国国家卫生研究所遗传病和罕见病信息中心(rarediseases.info.nih.gov/diseases/diseases-by-category/36/chromosome-disorders)描述。具有临床显著性的染色体结构变异包括但不限于15q13.3微缺失综合征、16p11.2缺失综合征、17q23.1q23.2微缺失综合征、1q重复、1q21.1微缺失综合征、22q11.2缺失综合征、22q11.2重复综合征、2q23.1微缺失综合征、2q37缺失综合征、47XXX综合征、47,XYY综合征、49,XXXXX综合征、猫眼综合征、染色体1、单亲二体性1q12 q21、染色体10p缺失、染色体10p重复、染色体10q缺失、染色体10q重复、染色体11p缺失、染色体11p重复、染色体11q缺失、染色体11q重复、染色体12p缺失、染色体12p重复、染色体12q缺失、染色体12q重复、染色体13q缺失、染色体13q重复、染色体14q缺失、染色体14q重复、染色体15q缺失、染色体15q重复、染色体16三体性、染色体16p缺失、染色体16p重复、染色体16q缺失、染色体17p缺失、染色体17p重复、染色体17q重复、染色体18p缺失、染色体18p四体性、染色体19p缺失、染色体19p重复、染色体19q缺失、染色体19q重复、染色体1p缺失、染色体1p重复、染色体1p36缺失综合征、染色体1q缺失、染色体1q21.1重复综合征、染色体20三体性、染色体20p缺失、染色体20p重复、染色体20q缺失、染色体20q重复、染色体21q缺失、染色体21q重复、染色体22q缺失、染色体2p缺失、染色体2p重复、染色体2q缺失、染色体2q重复、染色体2q24微缺失综合征、染色体3p缺失、染色体3p重复、染色体3p综合征、染色体3q缺失、染色体3q重复、染色体3q29微重复综合征、染色体4p缺失、染色体4p重复、染色体4q缺失、染色体4q重复、染色体5p缺失、染色体5p重复、染色体5q缺失、染色体5q重复、染色体6p缺失、染色体6p重复、染色体6q缺失、染色体6q重复、染色体6q25微缺失综合征、染色体7p缺失、染色体7p重复、染色体7q缺失、染色体7q重复、染色体8p缺失、染色体8p重复、染色体8p23.1缺失、染色体8q缺失、染色体8q重复、染色体9倒位-非罕见病、染色体9p缺失、染色体9p重复、染色体9q缺失、染色体9q重复、染色体Xq重复、染色体Xq28缺失综合征、二倍体-三倍体嵌合、远端染色体18q缺失综合征、伊曼纽尔综合征(Emanuel syndrome)、雅各布森综合征(Jacobsensyndrome)、克莱夫斯特拉综合征(Kleefstra syndrome)、库伦德弗里斯综合征(Koolen deVries syndrome)、嵌合体单体性18、嵌合体单体性22、嵌合体三体性13、嵌合体三体性14、嵌合体三体性22、嵌合体三体性7、嵌合体三体性8、嵌合体三体性9、纳布卢斯面具样面部综合征(Nablus mask-like facial syndrome)、帕利斯特-基利安(Pallister-Killian)嵌合体综合征、Y部分缺失、波托-奇沙弗(Potocki-Shaffer)综合征、近端染色体18q缺失综合征、重组染色体8综合征、环状染色体1、环状染色体10、环状染色体11、环状染色体12、环状染色体13、环状染色体14、环状染色体15、环状染色体16、环状染色体17、环状染色体18、环状染色体19、环状染色体2、环状染色体20、环状染色体21、环状染色体22、环状染色体3、环状染色体4、环状染色体5、环状染色体6、环状染色体7、环状染色体8、环状染色体9、史密斯-马格尼斯综合征、四体性9p、四体性X、三倍体性、三体性13、三体性17嵌合、三体性2嵌合、特纳综合症、伍尔夫-赫希霍恩(Wolf-Hirschhorn)综合征、X连锁自闭症易感性-4、Y染色体不孕症及Y染色体着丝粒倒位。
在一些实施例中,染色体结构变异不出现在受试者的每个细胞中。在一些实施例中,具有一个或多个染色体结构变异的细胞是受试者的癌细胞。患有癌症的受试者可含有具有一个或多个染色体结构变异的癌细胞,而受试者的非癌性细胞不具有染色体结构变异,或不具有与在受试者的癌细胞中所见相同的染色体结构变异。
癌症是由恶性肿瘤细胞的增殖引起的疾病,例如肿瘤、赘瘤、癌瘤、肉瘤、母细胞瘤、白血病、淋巴瘤等。可使用本文所述的方法分析的癌症包括实体瘤和液体肿瘤。例如,癌症包括但不限于间皮瘤、白血病和淋巴瘤,如皮肤T细胞淋巴瘤(CTCL)、非皮肤外周T细胞淋巴瘤、与人类T细胞淋巴病毒(HTLV)相关的淋巴瘤,如成人T细胞白血病/淋巴瘤(ATLL)、B细胞淋巴瘤、急性非淋巴细胞性白血病、慢性淋巴细胞性白血病、慢性骨髓性白血病、急性骨髓性白血病、淋巴瘤和多发性骨髓瘤、非霍奇金淋巴瘤、急性淋巴白血病(ALL)、慢性淋巴白血病(CLL)、霍奇金氏淋巴瘤、伯基特淋巴瘤、成人T细胞白血病淋巴瘤、急性骨髓性白血病(AML)、慢性骨髓性白血病(CML)或肝细胞癌。其它实例包括骨髓增生异常综合征、儿童实体肿瘤,如脑肿瘤、成神经细胞瘤、成视网膜细胞瘤、维尔姆斯瘤、骨肿瘤和软组织肉瘤、成人常见的实体肿瘤,如头颈癌(例如口腔、喉、鼻咽和食道)、泌尿生殖系统癌(例如前列腺、膀胱、肾、子宫、卵巢、睾丸)、肺癌(例如小细胞和非小细胞)、乳腺癌、胰腺癌、黑素瘤和其它皮肤癌、胃癌、脑肿瘤、涉及戈林综合征(Gorlin's syndrome)的肿瘤(例如成髓细胞瘤、脑膜瘤等)和肝癌。
大多数癌症在癌症发展期间获得一种或多种克隆染色体结构变异,其可通过本公开的系统和方法鉴别。在许多情况下,复发性染色体结构变异与特定形态和临床疾病特征相关。癌细胞中的结构变异可影响原癌基因和肿瘤抑制因子的表达和/或功能。癌细胞中的结构变异还可以促进癌症本身的进展,因为由染色体结构变异引起的突变和基因表达变化促进肿瘤细胞的生长和侵袭性增加以及肿瘤血管形成。鉴别癌症样品中的癌细胞中的特定染色体结构变异允许更有效地选择癌症疗法。这些疗法可针对与癌细胞中的特定染色体结构变异相关的基因表达和癌症病理的变化进行定制。因此,快速且有效地鉴别癌症中的染色体结构变异是癌症诊断和治疗武器库的关键部分。
在一些实施例中,癌细胞中的结构变异产生促进癌症进展的新颖融合蛋白。引起与癌症相关的融合蛋白的染色体结构变异的非限制性、示例性列表描述于Hasty,P.和Montagna,C.(2014)《分子与细胞肿瘤学(Mol.Cell.Oncol.)》:e29904中且如下所示:
表2.产生与癌症相关之融合蛋白的染色体结构变异和靶向疗法
Figure BDA0003333717570000211
目前,在癌症基因组解剖项目(cgap.nci.nih.gov/Chromosomes/Mitelman)中记录了21,477个基因融合体和69,134个病例,所有这些都被设想为属于本公开的范围。与癌症相关的染色体结构变异的其它非限制性实例描述于Bernhein,A.癌症细胞遗传学:从染色体到序列(Cytogenetics of cancers:from chromosome to sequence).2010分子肿瘤学(Molecular Oncology)4(4):309-322中,且展示于下表3中。对应于已知CSV的靶向疗法和疗法临床试验可在www.mycancergenome.org找到,其内容以引用的方式并入本文中。在表3中,按顺序列出变异和对应基因的列表。
表3.与癌症相关的染色体变异的实例
Figure BDA0003333717570000221
Figure BDA0003333717570000231
Figure BDA0003333717570000241
Figure BDA0003333717570000251
Figure BDA0003333717570000261
Figure BDA0003333717570000271
在一些实施例中,癌细胞中的染色体结构变异导致基因调节和基因表达的变化,其促进癌症的进展。染色体结构变异可导致一种或多种肿瘤抑制因子的下调,所述肿瘤抑制因子是保护细胞免于癌症的基因。例如,具有肿瘤抑制剂附近的断点的染色体结构变异可将肿瘤抑制因子的编码序列与调节元件分离。或者或另外,染色体结构变异可导致一种或多种原癌基因转化为促进癌症进展的癌基因。例如,具有原癌基因附近的断点的染色体结构变异可使原癌基因接近新型调节元件,导致表达上调。可由本公开的染色体结构变异下调的示例性肿瘤抑制因子包括但不限于p53、Rb、PTEN、INK4、APC、MADR2、BRCA1、BRCA2、WT1、DPC4和p21。可由本公开的染色体结构变异上调的示例性致癌基因包括但不限于Abl1、HER-2、c-KIT、EGFR、VEGF、B-Raf、细胞周期蛋白D1、K-ras、β-连环蛋白、细胞周期蛋白E、Ras、Myc和MITF。影响原癌基因和肿瘤抑制基因的所有染色体结构元件都被设想为在本公开的系统和方法的范围内。
染色体构象捕获
本文提供使用染色体构象捕获技术鉴别受试者的一个或多个染色体结构变异的系统和方法。
术语“染色体构象捕获”和“染色体构象分析”在本文中可互换使用。
本公开的方法可使用从组织样品(例如,癌性或正常组织或细胞)生成的标准染色质构象数据,例如Hi-C数据。计算方法涉及一个或多个机器学习模型的训练,可用于多于一种主要应用中。选择的一个或多个机器学习模型可包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机模型、专家系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型、蒙特卡洛模型或其它机器学习模型,以及将观察到的数据拟合到概率模型(例如似然模型)的模型。所述一个或多个机器学习模型可包括基于标记的训练数据训练的监督机器学习模型,和/或可包括基于未标记的训练数据训练的非监督机器学习模型。训练数据,例如标记的训练数据和/或未标记的训练数据可从真实生物样品、可具有模拟突变的模拟基因组生成,或者可使用另一种算法,例如生成对抗网络中使用的算法生成。训练数据包含染色质构象数据或由其得出的数据(例如接触矩阵,并且可以被归一化、过滤、压缩或平滑化)以及关于与所述数据相关的效应、特性、影响或结果的临床或生物信息。
在本公开的系统和方法的一些实施例中,所述系统和方法包含使用染色体构象捕获数据训练的一个或多个机器学习模型。在一些实施例中,使用以实验方式确定的染色体构象捕获数据训练一个或多个机器学习模型。在一些实施例中,使用模拟的染色体构象捕获数据训练一个或多个机器学习模型。在一些实施例中,使用以实验方式确定的和模拟的染色体构象捕获数据的组合来训练一个或多个机器学习模型。
在一些实施例中,用于训练一个或多个机器学习机器学习模型的染色体构象捕获数据包含以实验方式确定的染色体构象捕获数据。在一些实施例中,以实验方式确定的染色体构象捕获数据包含来自健康受试者的多个读段集。在一些实施例中,以实验方式确定的染色体构象捕获数据包含来自具有已知染色体结构变异的受试者的多个读段集。
染色体构象数据由在空间上极接近的基因组的化学交联区域生成。然后将交联的DNA消化且连接以生成染色质/DNA复合物,其可通过高通量测序鉴别。将所得序列读段映射到基因组,例如参考基因组,以确定在用于生成初始样品的细胞群内发生的各相互作用的频率。与两个基因座在空间上不极为接近的情况相比,当两个基因座在空间上极为接近时,其将生成更多包含映射两个基因座的DNA序列的读段。
以实验方式确定的染色体构象捕获数据可形成由系统用于执行本文所述的方法的输入文件的一部分。读段集可通过基于染色质相互作用技术或染色体构象分析技术的任何合适的方法产生。可根据本文所述的实施例使用的染色体构象分析技术可包括但不限于染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP;例如交联ChIP(XChIP)、天然ChIP(NChIP))、ChIP-Loop、基因组构象捕获(GCC)(例如Hi-C,6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接(例如
Figure BDA0003333717570000291
)、原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在Pacific Biosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C和Hybrid Capture Hi-C。在一些实施例中,数据集使用全基因组染色质相互作用方法,例如Hi-C生成。
在一些实施例中,染色体构象数据可从细胞群生成。在一些实施例中,染色体构象捕获数据通过染色质构象捕获(3C)生成。3C用于通过定量在3-D空间中邻近的基因组基因座之间的相互作用来分析细胞中的染色质的组织。3C定量单对基因组基因座之间的相互作用。在一些实施例中,染色体构象捕获数据通过环化染色质构象捕获(4C)生成。4C捕获一个基因座与所有其它基因组基因座之间的相互作用。在一些实施例中,染色体构象捕获数据通过碳拷贝染色体构象捕获(5C)生成。5C检测给定区域内的所有限制片段之间的相互作用。在一些实施例中,所述区域为1兆碱基或更小。在一些实施例中,染色体构象捕获数据通过染色质免疫沉淀(ChIP;例如交联ChIP(XChIP)、天然ChIP(NChIP))生成。在一些实施例中,染色体构象捕获数据由ChIP-Loop生成。在一些实施例中,基于染色质免疫沉淀的方法并有基于染色质免疫沉淀(chIP)的富集和染色质邻近连接,以确定长程染色质相互作用。在一些实施例中,染色体构象捕获数据由Hi-C生成。Hi-C使用高通量测序来查找映射到所有相互作用的基因座对中的两个搭配物的片段的核苷酸序列。在一些实施例中,染色体构象捕获数据由Catch-C生成。Capture-C选择并富集涉及活性和无活性启动子的全基因组、长程接触。在一些实施例中,染色体构象捕获数据由SPLiT-seq生成。SPLiT-seq为可用于转录组谱单细胞的技术。在一些实施例中,染色体构象捕获数据由核连接分析(NLA)生成。与3C类似,NLA可用于在基于邻近度的连接之后确定DNA的环化频率。在一些实施例中,染色体构象捕获数据由多联体连接分析(COLA)生成。COLA是基于Hi-C的方案,其使用CviJI限制酶来消化染色质。在一些实施例中,与传统的Hi-C相比,使用COLA产生更小的片段。在一些实施例中,染色体构象捕获数据由靶标下的裂解和使用核酸酶释放(CUT&RUN)生成。CUT&RUN使用靶向核酸酶策略进行DNA结合位点的高分辨率映射。例如,CUT&RUN可以使用抗体靶向的染色质剖析方法,其中与蛋白A连接的核酸酶结合至所选抗体并且切割紧邻的DNA,从而释放与抗体靶标结合的DNA。CUT&RUN可以原位进行。CUT&RUN可以产生精确的转录因子或组蛋白修饰谱,以及绘制长程基因组相互作用。在一些实施例中,染色体构象捕获数据由DNA酶Hi-C生成。DNA酶Hi-C使用DNA酶I进行染色质片段化,并且可以克服常规Hi-C方案中的限制酶相关限制。在一些实施例中,染色体构象捕获数据由Micro-C生成。Micro-C使用微球菌核酸酶将染色质片段化为单核小体。在一些实施例中,染色体构象捕获数据由HybridCapture Hi-C生成。Hybrid Capture Hi-C组合靶向基因组捕获和Hi-C以靶向所选的基因组区域。
在一些替代实施例中,染色体构象捕获数据可从单个细胞生成。例如,染色体构象捕获数据可以使用单细胞Hi-C(scHi-C)或组合单细胞Hi-C生成。单细胞Hi-C是Hi-C通过包括核内连接而针对单细胞分析的适应。组合单细胞Hi-C是一种改进的单细胞Hi-C方案,其增加了独特的细胞索引,以在每次分析中测量数千个单细胞的染色质可及性。
在一些实施例中,染色体构象捕获数据可从原位,即在完整细胞核中进行的基于邻近连接的方案生成。
在一些实施例中,染色体构象捕获数据可从体外进行的基于邻近连接的方案生成。示例性基于体外的方案包括来自Dovetail Genomics的
Figure BDA0003333717570000301
其使用高分子量DNA作为起始材料。在一些实施例中,输入DNA为约20-200kbp。在一些实施例中,输入DNA为约50kbp。
在一些实施例中,生成染色体构象捕获数据包含:(a)使来自受试者的样品与稳定剂接触,其中所述样品包含核酸;(b)将所述核酸裂解成至少包含第一区段和第二区段的多个片段;(c)在接合处附接所述第一区段和所述第二区段以生成包含附接区段的多个片段;(d)在包含附接区段的所述多个片段的所述接合处的每一侧上获得至少一些序列以生成多个读段;以及(e)将本文所述的任何机器学习模型应用于来自所述受试者的多个读段。
在一些实施例中,核酸包含基因组DNA。例如,核酸包含从来自受试者的样品提取的基因组DNA。
在一些实施例中,稳定剂包含紫外光或化学固定剂。示例性化学固定剂包括甲醛。
在一些实施例中,裂解核酸包含机械裂解或酶裂解。机械裂解可通过剪切来实现,例如用超声发生器。酶裂解的示例性方法包括通过限制酶消化。
在一些实施例中,附接第一区段和第二区段包含连接。例如,所述方法可包括在逆转稳定剂或交联剂之前,分子内连接以附接片段。
可使用本领域已知的任何测序方法或下一代测序平台生成供本公开的方法和系统使用的染色体构象捕获数据。例如,可通过邻近连接产生染色体构象捕获数据,随后在Oxford Nanopore机器(Pore-C)、Pacific Biosciences机器(SMRT-C)、Roche/454测序平台、ABI/SOLiD平台或Illumina/Solexa测序平台上进行测序。
在本公开的系统和方法的一些实施例中,所述方法包含将由染色体构象捕获生成的读段映射到基因组上。在一些实施例中,所述读段集可与基因组比对,本领域已知的任何合适的比对方法、算法或软件包。可用于将读段集与组合比对的合适的短读段序列比对软件包括但不限于:BarraCUDA、BBMap、BFAST、BLASTN、BLAT、Bowtie、HIVE-hexagon、BWA、BWA-PSSM、BWA-mem、CASHX、Cloudburst、CUDA-EC、CUSHAW、CUSHAW2、CUSHAW2-GPU、CUSHAW3、drFAST、ELAND、ERNE、GASSST、GEM、Genalice MAP、Geneious Assembler、GensearchNGS、GMAP和GSNAP、GNUMAP、IDBA-UD、iSAAC、LAST、MAQ、mrFAST和mrsFAST、MOM、MOSAIK、Novoalign&NovoalignCS、NextGENe、NextGenMap、Omixon、PALMapper、Partek、PASS、PerM、PRIMEX、QPalma、RazerS、REAL、cREAL、RMAP、rNA、RTG Investigator、Segemehl、SeqMap、Shrec、SHRiMP、SLIDER、SOAP、SOAP2、SOAP3、SOAP3-dp、SOCS、SSAHA、SSAHA2、Stampy、SToRM、subread和Subjunc、Taipan、UGENE、VelociMapper、XpressAlign和Zoom。
在本公开的系统和方法的一些实施例中,所述方法进一步包含在应用本文所述的机器学习模型之前滤出与参考基因组比对不佳的读段。在一些实施例中,方法包含滤出训练数据集中比对不佳的读段。在一些实施例中,方法包含滤出来自受试者的数据中比对不佳的读段。在一些实施例中,滤出读段包含将染色体构象捕获读段映射到参考基因组上,且滤出低质量比对数据。例如,可使用BWA-mem将读段与参考基因组比对,且排除小于MQ 20的低质量比对数据。
在一些实施例中,使用模拟的染色体构象捕获数据训练一个或多个机器学习模型。在一些实施例中,模拟的染色体构象捕获数据模拟一个或多个染色体结构变异。在一些实施例中,模拟的染色体构象捕获数据模拟来自不具有染色体结构变异的受试者的染色体构象捕获数据。在一些实施例中,来自不具有染色体结构变异的受试者的模拟染色体构象捕获数据包含受试者的基因组的所有区域。
本文描述了模拟染色体构象捕获数据的方法。鉴于对大量样品测序的高成本,使用涵盖受试者的全基因组的模拟染色体构象捕获数据来训练本文公开的方法中使用的机器学习模型是有成本效益且有利的。此外,使用模拟数据来模拟没有染色体结构变异t的受试者全基因组防止在机器学习模型的训练期间数据的过度拟合,并确保本文公开的机器学习模型将识别“零”模型,即当受试者的基因组中的所有区域不存在染色体结构变异时。
在本公开的方法和系统的一些实施例中,染色体构象捕获数据表示为几何数据结构。表示为几何数据结构的染色体构象捕获数据可用于训练本文所述的机器学习模型。来自受试者,例如具有或疑似具有染色体结构变异的受试者的染色体构象捕获数据可表示为几何数据结构,且使用本文所述的机器学习模型鉴别染色体结构变异。
在本公开的方法和系统的一些实施例中,染色体构象捕获数据表示为矩阵。在一些实施例中,矩阵是接触矩阵。接触矩阵是存储基因组(例如,与受试者物种匹配的参考基因组)中的基因座对之间的相互作用数据的矩阵。可通过以下步骤生成本公开的接触矩阵:(i)对来自所述受试者的样品执行染色体构象分析技术以生成读段集;(ii)将来自所述受试者的所述读段集与参考基因组比对;以及(iii)将所述比对的读段集转换为接触矩阵。在一些实施例中,将比对的读段集转换为接触矩阵进一步包含(iv)将读段分组至基因组区域中;和(v)通过块组的大小、块组中的接触相互作用的总体丰度和/或存在于那些块组中的限制性基序或其它所关注DNA序列的出现频率来归一化基质。替代地或另外,可使用迭代校正、加权、噪声建模、信号到百分比域的转换、使用诸如平均值、中值或百分位数的统计度量、低通、高通或中通滤波器的应用或其它统计技术,针对实验、生物、技术或其它形式的噪声或误差校正矩阵。在本公开的示例性接触矩阵中,每一行和列对应于基因组(例如,对应于受试者的基因组的参考基因组)中的位置,分组到特定核苷酸分辨率,并且输入到所述矩阵的每个单元的值对应于映射到行和列基因组位置的染色体构象捕获读数的数目(即,这两个基因座的相互作用频率)。在一些实施例中,接触矩阵针对块组中存在的限制基序的数目进行归一化,并且执行迭代校正。接触矩阵的示例性可视化在图8中示出。
在一些实施例中,受试者的基因组被分成连续核苷酸的块组,并且接触矩阵中的每个单元代表连续核苷酸的块组。在一些实施例中,接触矩阵的每个单元包含受试者的基因组的100bp至20,000,000bp。在一些实施例中,接触矩阵的每个单元包含受试者的基因组的10,000bp至10,000,000bp。在一些实施例中,接触矩阵的每个单元包含受试者的基因组的5,000,000bp、受试者的基因组的4,000,000bp、受试者的基因组的3,000,000bp、受试者的基因组的2,000,000bp、受试者的基因组的1,000,000bp、受试者的基因组的500,000bp、受试者的基因组的400,000bp、受试者的基因组的300,000bp、受试者的基因组的200,000bp、受试者的基因组的100,000bp、受试者的基因组的10,000bp、受试者的基因组的5,000bp、受试者的基因组的1,000bp、受试者的基因组的500bp或受试者的基因组的100bp。
在一些实施例中,接触矩阵的每个单元包含受试者的基因组的3,000,000bp。
在一些实施例中,接触矩阵的每个单元包含受试者的基因组的1,000bp。
在一些实施例中,接触矩阵的每个单元包含受试者的基因组的100bp。
在一些实施例中,接触矩阵包含受试者的整个基因组。
在一些替代实施例中,接触矩阵包含受试者的基因组的一部分(例如染色体,或染色体的一部分)。在一些实施例中,接触矩阵包含受试者的基因组的一部分,其对应于已经使用本公开的系统和方法鉴别的染色体结构变异周围的边界框。
在一些实施例中,接触矩阵为平均接触矩阵、中值接触矩阵或具有百分位数截止的接触矩阵。在一些实施例中,平均接触矩阵的分辨率为每单元100bp至每单元10,000,000bp。
在本公开的方法和系统的一些实施例中,染色体构象捕获数据表示为图像。在一些实施例中,接触矩阵表示为图像。示例性图像表示包含热图。在示例性热图中,分组到特定分辨率的基因组位置沿着X和Y坐标绘制,并且每个单元或像素的不透明度与由在X和Y坐标位置处的基因座表示的相互作用频率直接相关。
在本公开的方法和系统的一些实施例中,染色体构象捕获数据表示为几何数据结构。在一些实施例中,几何数据结构包含k维树(k-d树)。k-d树是本领域的普通技术人员将熟悉的空间划分数据结构。
在一些实施例中,k-d树是二维k-d树。例如,来自接触矩阵的数据可转换为k-d树。
在一些实施例中,2-d k-d树的第一轴线表示第一基因组区域,且k-d的第二轴线表示第二基因组位置,且k-d树表示来自用于训练本公开的机器学习模型(例如分类器机器学习模型)的读段集或来自受试者的读段集或两者的读段集中的每一个的任何两个基因组位置之间的连接频率。
在本公开的2D k-d树中,两个轴表示基因组位置,例如在对应于受试者的参考基因组中,并且k-d中包含的信息包含在每个轴上的每个区域之间映射的读段对的数目(连接频率)。这种布置允许使用O(log(n))以计算有效的方式辨别基因组中的所有基因座之间的所有结构关系,甚至是没有任何实际数据的区域。
k-d树的一个优点是与传统接触矩阵不同,其可以任意分辨率访问,而不需要以新的分辨率重新计算接触矩阵。例如,使用本公开的方法,可首先在全基因组范围内询问整个k-d树,以鉴别可包含染色体结构变异的所关注区域。然后,可以越来越精细的分辨率询问所关注区域,直到染色体结构变异的边界被定义为适当的分辨率。在一些实施例中,分辨率包含500,000bp分辨率、100,000bp分辨率、50,000bp分辨率、10,000bp分辨率、1,000bp分辨率、500bp分辨率或100bp分辨率。询问k-d的分辨率可针对已知的染色体结构变异进行调整。例如,较大的变异可用较粗的分辨率鉴别,而较小的变异需要更精细的分辨率。使用这些技术,染色体结构变异的边界可分辨到500,000bp内、100,000bp内、50,000bp内、10,000bp内、1,000bp内、500bp内或100bp内。这可以指示例如染色体结构变异是否可能例如通过截断基因来影响基因在其边界处的功能。因此,k-d树提供优良的分辨率和缩放比例,并且比传统接触矩阵需要更少的密集计算。
机器学习模型
本文公开治疗具有染色体结构变异的受试者的方法。在一些实施例中,所述方法包含:(a)接收来自受试者的样品的测试读段集;(b)将来自所述受试者的所述读段集与参考基因组比对;(c)训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;(d)在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述映射读段集;(e)基于将所述机器学习模型应用于来自所述受试者的所述映射读段集来计算所述受试者具有已知染色体结构变异的似然度;和(f)基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。
在一些实施例中,方法包含从测试读段集、来自健康受试者的读段集和对应于已知染色体结构变异的读段集生成几何数据结构。机器学习模型可被训练成鉴别或区分对应于来自健康受试者的读段集和对应于已知染色体结构变异的读段集的几何数据结构。如本文所述的经过训练的机器学习模型可应用于来自受试者的测试读段集的几何数据结构,以鉴别受试者的染色体结构变异。
本文提供了用于应用本公开的方法以鉴别受试者的结构变异的系统。
图3是说明根据一个实施例的变异鉴别系统300的框图。变异鉴别系统300可包括变异鉴别装置301(在本文中也称为“变异检测装置”),其用于响应于来自样品或样品集合(例如,临床样品的集合、研究样品的集合等)的信息而生成和报告具有显著性的检测到的变异。来自样品或一组样品的信息包括通过染色体捕获技术和/或接触矩阵等产生的测序信息。来自样品或一组样品的信息可呈存储在本文所述的存储器中的计算机数据的形式。变异鉴别装置301可以是基于硬件的计算装置和/或多媒体装置,例如计算机、笔记本电脑、智能手机、平板电脑等。变异鉴别装置301可以通信耦合到网络350,并且经由网络350进一步与一组数据库360通信。
变异鉴别装置301包括存储器302、通信接口303和处理器304。变异鉴别装置301可从数据源接收一组样品信息。数据源可包括例如一组数据库360、文件系统、通信耦合到变异鉴别装置301的外围设备等。变异鉴别装置301可响应于变异鉴别装置301的用户提供开始鉴别该组样品的变异的指示而从数据源接收该组样品信息。
变异鉴别装置301的存储器302可以是例如存储器缓冲器、随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器、闪存驱动器、安全数字(SD)存储卡、外部硬盘驱动器、通用闪存存储(UFS)装置等。存储器302可存储例如一个或多个软件模块和/或代码,其包括使处理器304执行一个或多个过程或功能的指令(例如,第一机器学习模型316、第二机器学习模型321、报告生成器325等)。存储器302可存储与第一机器学习模型316和/或第二机器学习模型321相关(例如,通过执行其而生成)的文件集。与第一机器学习模型316和/或第二机器学习模型321相关的文件集可包括在变异鉴别装置301的操作期间由第一机器学习模型316和/或第二机器学习模型321生成的数据。例如,与第一机器学习模型316和/或第二机器学习模型321相关联的文件集可包括临时变量、返回存储器地址、变量、机器学习模型的图形(例如算术运算的集合或供机器学习模型使用的算术运算的集合的表示)、图形的元数据、资产(例如外部文件)、电子签名(例如指定导出的机器学习模型的类型,以及输入/输出张量)等,在机器学习模型的操作期间生成。
变异鉴别装置301的通信接口303可以是可操作地耦合到处理器304和/或存储器302的变异鉴别装置301的硬件组件。通信接口303可以可操作地耦合到处理器304并供处理器304使用。通信接口303可以是例如网络接口卡(NIC)、Wi-FiTM模块、
Figure BDA0003333717570000361
模块、光通信模块和/或任何其它合适的有线和/或无线通信接口。通信接口303可以被配置成将变异鉴别装置301连接到网络350。在一些情况下,通信接口303可促进经由网络350接收或传输数据。更具体地,在一些实施方案中,通信接口303可促进从样品或样品集合接收/传输来自/发送至数据库的集合的信息,每个数据库经由网络350通信地耦合到变异鉴别装置301。在一些情况下,经由通信接口303接收的数据可由处理器304处理或存储在存储器302中,如本文进一步详细描述。
处理器304可以是例如基于硬件的集成电路(IC)或配置成运行或执行指令集或代码集的任何其它合适的处理装置。例如,处理器304可包括通用处理器、中央处理单元(CPU)、加速处理单元(APU)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、神经网络处理器(NNP)等。处理器304通过系统总线可操作地耦合到存储器302。
网络350可以是服务器和/或计算装置的数字电信网络。网络上的服务器和/或计算装置可经由一个或多个有线或无线通信网络(未示出)连接,以共享例如数据或计算能力的资源。网络350的服务器和/或计算装置之间的有线或无线通信网络可包括一个或多个通信信道,例如,射频(RF)通信信道、光纤通信信道、电子通信信道等。网络350可以是例如互联网、企业内部网、局域网(LAN)、广域网(WAN)、城域网(MAN)等。
数据库360的集合可包括数据库,例如外部硬盘驱动器、外部计算装置、云数据库服务等。数据库360的集合各自具有存储器361、通信接口363和处理器362,其可在结构上和/或功能上分别类似于存储器302、通信接口303和处理器304。数据库360的集合可经由网络350通信地耦合到变异鉴别装置。
处理器304可包括数据准备模块310、通过测序进行核型分析的变异检测器315、第一机器学习模型316和报告生成器325。处理器304可任选地包括通过测序进行核型分析的变异分析仪320、第二机器学习模型321。数据准备模块310、通过测序进行核型分析的变异检测器315、第一机器学习模型316、通过测序进行核型分析的变异分析仪320、第二机器学习模型321和报告生成器325中的每一个可以是存储在存储器302中并由处理器304执行的软件。例如,使第一机器学习模型321从文档生成布局的代码可存储在存储器302中并由处理器304执行。类似地,数据准备模块310、通过测序进行核型分析的变异检测器315、第一机器学习模型316、通过测序进行核型分析的变异分析仪320、第二机器学习模型321和报告生成器325中的每一个可以是基于硬件的装置。例如,使第二机器学习模型321为样品或样品集合中的一组检测到的变异生成一组显著性值的过程可在IC芯片上实施。
数据准备模块310可以从存储器302和/或从数据库360的集合接收来自样品或样品集合的信息。来自样品或样品集合的信息可以在训练和/或执行第一机器学习模型316和/或第二机器学习模型321之前由数据准备模块310进行预处理。在一些情况下,数据准备模块310可将来自样品或样品集合的信息分类为来自健康个体的样品的集合、临床样品的集合、研究样品的集合、已知变异位置的集合、具有已知临床显著性的变异的样品的集合等。数据准备模块310可扫描处理来自样品或样品集合的信息,例如以与参考或草案基因组比对,或生成训练接触矩阵。来自样品集合的样品的信息中的每个变异是已知的,并且用于标记变异的类型。
在一些情况下,数据准备模块310可将来自样品或样品集合的测序读段或接触矩阵归一化为常用格式和/或常用标度。例如,准备模块310可将表示来自样品或样品集合的信息的图像集合归一化为256个像素×256个像素的常用图像大小和标签图像文件格式(TIFF)的常用图像文件格式。在一些情况下,数据准备模块310可生成训练数据。训练数据可以是经标记训练数据,其将来自样品或样品集合的信息的第一类数据与来自样品或样品集合的信息的第二类数据相关联。例如,经标记训练数据可以是临床样品的集合,每个临床样品与来自已知变异的集合的变异相关联。
通过测序进行核型分析的变异检测器315从数据准备模块310接收训练接触矩阵,并训练第一机器学习模型316。在一些情况下,来自样品或样品集合的信息的接触矩阵可以分辨率的混合物用于训练第一机器学习模型316,例如卷积神经网络(CNN)。可执行第一机器学习模型316以鉴别样品中变异的存在和类型。在一些情况下,通过测序进行核型分析的变异检测器315可递归地执行第一机器学习模型316,在分类步骤之间产生增加的分辨率接触矩阵,以精确地鉴别所需分辨率的结构变异。
在一些实施例中,通过测序进行核型分析的变异分析仪320从具有已知临床显著性的变异的样品集合接收信息,例如来自数据准备模块310的诊断、结果、药物/治疗反应、代谢效应等,并且训练第二机器学习模型321。使用数据准备模块310和/或通过测序进行核型分析的变异分析仪320,用Hi-C协议处理含有已知临床或生物显著性的结构变异的样品的信息且将其与参考或草案组合比对,从而产生接触矩阵。来自具有已知临床显著性的变异的样品集合的信息用于训练第二机器学习模型,例如k最近邻模型(KNN)。可执行第二机器学习模型321以将接触矩阵特征和/或变异与临床或生物特征和/或临床显著性相关联。报告生成器325可接收来自第一机器学习模型316的鉴别变异的集合以及第二机器学习模型321的鉴别变异的临床显著性的集合,并生成报告,所述报告经由图形用户接口(GUI)向变异鉴别装置301的用户呈现鉴别变异的集合和/或鉴别变异的临床显著性的集合。
在使用中,变异鉴别装置301可在数据准备模块310处接收来自临床显著性未知的新临床样品集合和/或新研究样品集合的信息。数据准备模块310可对来自新临床样品集合和/或新研究样品集合的信息进行分类,并且例如通过与参考或草案基因组比对来处理新临床样品集合和/或新研究样品集合。通过测序进行核型分析的变异检测器315递归地使用第一机器学习模型316(例如,CNN模型),在分类步骤之间产生增加分辨率的接触矩阵,以精确地鉴别所需分辨率的结构变异的集合。接着使用通过测序进行核型分析的变异分析仪320的第二机器学习模型321(例如,KNN模型)对来自结构变异的集合的每个结构变异进行分类,以预测结构变异的集合的临床显著性和/或生物显著性的集合。最后,报告生成器325从结构变异的集合和/或结构变异的集合的临床显著性和/或生物学显著性的集合生成人类可读报告(例如,类似于基于经典核型的细胞遗传学报告)。
在一些实施例中,第一机器学习模型和/或第二机器学习模型可包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机、导出系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型、蒙特卡洛模型、似然模型等。
本公开提供鉴别受试者的染色体结构变异的方法,其包含:(a)训练第一机器学习模型以检测包含至少一个染色体结构变异的第一接触矩阵的至少一个区域;(b)通过所述第一机器学习模型从受试者接收第一接触矩阵,其中所述接触矩阵通过染色体构象分析技术产生;(c)将所述第一机器学习模型应用于所述第一接触矩阵以鉴别含有至少一个染色体结构变异的所述第一接触矩阵的至少一个区域;(d)将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始和结束的边界框,以及标记;(e)训练第二机器学习模型以将所述至少一个染色体结构变异与生物信息相关联;(f)将由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记导入到所述第二机器学习模型中;和(g)在训练所述第二机器学习模型之后,将所述第二机器学习模型应用于由所述第一机器学习分类器鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;从而鉴别所述受试者的每个染色体结构变异和与每个染色体结构变异相关的所述生物信息。在一些实施例中,所述方法在步骤(d)之后且在步骤(e)之前进一步包含:(i)生成第二接触矩阵,其中所述第二接触矩阵包含边界框的起始和结束基因组位置,且其中所述第二接触矩阵的分辨率比所述第一接触矩阵的分辨率更精细;(ii)将所述第一机器学习模型应用于所述第二接触矩阵以检测含有所述至少一个染色体结构变异的所述第二接触矩阵的至少一个区域;以及(iii)将所述至少一个染色体结构变异表达为包含所述至少一个染色体结构变异的起始和结束基因组位置的第二边界框,以及所述标记,其中所述第二边界框包含比所述边界框更高的分辨率。
在一些实施方案中,第一机器学习模型和/或第二机器学习模型可包括一种类型的神经网络,例如,密集层神经网络、残差神经网络、卷积神经网络、递归神经网络等。神经网络模型可以被配置成包括输入层、输出层和隐藏层的集合。隐藏层的集合可进一步包括归一化层的集合、密集层的集合、卷积层的集合、池化层的集合、活化层的集合、漏失层的集合等。在训练阶段,神经网络模型可被配置成接收接触矩阵的集合、来自具有已知变异(例如具有已知临床显著性的变异)的样品的测序读段的集合、对应于染色体结构变异或野生型染色体的模拟测序读段等作为输入,呈一批数据的形式,作为输入层的输入向量,并生成输出。可基于输入迭代地训练神经网络模型,且通过将输出与变异和具有显著性的变异进行比较来生成经过训练的神经网络模型。在验证阶段和/或执行阶段,接着可执行经过训练的神经网络模型以生成估计输出,所述估计输出密切预测样品和/或接触矩阵的变异和/或具有显著性的变异。
在一些实施方案中,第一机器学习模型包含卷积神经网络(CNN)。CNN是经常用于分析视觉图像的一类深度神经网络。本公开的CNN采用输入接触矩阵,并将重要性(可学习权重和偏差)分配至接触矩阵中的各个方面/对象,并且能够区分来自具有和不具有染色体结构变异的数据集的接触矩阵以及变异的类型和位置。在一些实施例中,CNN通过应用不同维度的一系列卷积滤波器、池化操作、漏失操作等来捕获接触矩阵中的关系。卷积滤波器可学习接触矩阵中的局部模式。使用卷积滤波器鉴别的局部模式可以是平移不变的。例如,如果出现在测试接触矩阵的第二位置(任何地方),则可鉴别在训练接触矩阵的第一位置鉴别的局部模式。此外,可在接触矩阵中的模式的空间层次结构上训练卷积滤波器,以学习数据中高度复杂的模式。例如,CNN的第一卷积层可在接触矩阵的模式上训练,而CNN的第二卷积层可在CNN的第一卷积层的模式上训练,依此类推。
适用于本公开的方法的示例性CNN架构包括resnet-50和RetinaNet。
在一些实施例中,CNN在由模拟和/或生物样品生成的接触矩阵上训练。在一些实施例中,训练CNN包含:(i)由CNN接收第一训练数据集,其中所述训练数据集包含从模拟和/或生物样品生成的接触矩阵;(ii)使用迁移学习将预训练模型应用于所述CNN;和(iii)用第二训练数据集重新训练所述CNN,其中所述第二训练数据集包含来自生物样品的接触矩阵。在一些实施例中,第一训练数据集包含来自不具有染色体结构变异的受试者的接触矩阵或由其组成。在替代实施例中,第一训练数据集包含来自具有染色体结构变异的受试者的至少一个接触矩阵。在另外的替代实施例中,第一训练数据集含有包含多个染色体结构变异的接触矩阵。在一些实施例中,第一训练数据集包含全基因组接触矩阵和包含基因组部分或基本上由其组成的接触矩阵。
如本文所用,“转移学习”是指机器学习过程,其中针对第一任务开发的模型重新用作用于开发第二任务的模型的起点。当训练神经网络时,应用转移学习节约了时间和计算能力。将迁移学习应用于CNN的方法对于本领域的普通技术人员将是显而易见的。
在一些实施例中,第二机器学习模型包含递归神经网络、感测检测器或k-最近邻模型,其全部都将是本领域普通技术人员已知的。
在一些实施例中,第二机器学习模型包含感测检测器。感测检测器有时也被称作文本分类器或文本标记,是一种类型的机器学习分类器,其经过训练且用于基于含义对文本进行分类。感测检测器可包括Naive Bayes模型、支持向量机模型、深度学习模型、卷积神经网络模型、递归神经网络模型和/或组合机器学习和基于规则的系统的混合系统。
循环神经网络(RNN)是一类机器学习模型,其中网络中节点之间的连接沿着时间序列形成定向图。实际上,节点之间的循环允许信息在网络中保持(例如,记忆)。因此,RNN通常非常有效地处理顺序数据、时间序列、对时间序列进行分类和/或处理数据顺序具有重要意义的数据。
k-最近邻模型是一种机器学习模型,用于对数据进行分类和回归。k-最近邻模型能够鉴别数据属于哪个或哪些类别,并且还估计数据集中变量之间的关系。在一些实施例中,k最近邻模型是在训练数据集上训练的监督机器学习模型。
在一些实施例中,感测检测器使用来自已知染色体结构变异的临床标记数据、诊断数据、临床结果数据、药物或治疗反应数据或代谢数据来训练。此类数据的来源是本领域普通技术人员容易知道的。
在一些实施例中,机器学习模型是似然模型分类器。似然模型分类器是一种类型的监督机器学习分类器,如本文进一步详细描述。
本公开提供训练似然模型分类器的方法,其包含(i)将来自健康受试者的多个读段集接收到所述似然模型分类器中;(i)将对应于已知染色体结构变异的多个读段集接收到所述似然模型分类器中;(iii)将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;(iv)按基因组位置划分来自(i)和(ii)的读段集;(v)将来自(iv)的划分读段集转换为几何数据结构;(vi)使用负二项分布模型对来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率进行建模;以及(vii)训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。
本公开提供训练似然模型分类器的方法,其包含(i)将从来自健康受试者的读段集生成的多个几何数据结构接收到所述机器学习模型中;(ii)将从对应于已知染色体结构变异的读段集生成的多个几何数据结构接收到所述机器学习模型中;(iii)将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;(iv)使用负二项分布模型对来自(i)和(ii)的所述读段集的任何两个基因组位置之间的连接频率进行建模;以及(v)训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。在训练所述分类器之前处理所述读段集可尤其包括将读段映射到参考基因组,排除映射不良的读段,以及从来自健康受试者的读段集或对应于已知染色体结构变异的读段集生成几何数据结构。生成几何数据结构可包括(i)按基因组位置划分读段集;和(ii)将所述划分的读段集转换为几何数据结构。
通过导入标记的训练数据来训练似然模型分类器。在一些实施例中,训练数据包含将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记。在一些实施例中,训练数据包含来自健康受试者的多个读段集和对应于已知染色体结构变异的多个读段集。在一些实施例中,训练数据包含从来自健康受试者的读段集生成的多个几何数据结构和从对应于已知染色体结构变异的读段集生成的多个几何数据结构。读段集可以是模拟的、以实验方式确定的或两者的混合物。在一些实施例中,来自健康受试者的读段集包含对应于每个已知染色体结构变异的基因组位置的读段。这允许似然模型分类器针对所有已知染色体结构变异的所有位置模拟零分布(无CSV)的连接频率的分布。在一些优选实施例中,训练数据包含独立同分布的读段集。在一些实施例中,导入的训练数据由基因组位置划分,并转换为几何数据结构,例如2-d k-d树或矩阵。
在一些实施例中,假设来自受试者的测试数据中的某一概率分布,并且在训练阶段期间计算其所需参数(例如概率模型)。在一些实施例中,由训练数据确定似然模型分类器所用的概率模型。示例性概率模型包括柏努利(Bernoulli)模型、二项模型、负二项模型、多项模型、高斯(Gaussian)模型或泊松分布(Poisson distribution)。
在一些实施例中,概率模型包含负二项分布。负二项分布优于其它模型,因为其可以解释读取计数数据的过度分散。
在似然模型分类器的学习阶段,输入是训练数据,且输出是似然模型分类器所需的参数。示例性参数包括最大似然估计(MLE)、贝叶斯估计(最大后验概率)或损失准则优化。
在训练之后,将似然模型分类器应用于来自受试者的映射染色体构象捕获读段集。在一些实施例中,应用似然模型分类器包含将来自所述受试者的经转换和划分的测试读段集拟合到零模型且拟合到每个已知染色体结构变异的替代模型。在一些实施例中,零模型是在不具有已知染色体结构变异的受试者中所见的连接频率的分布。在拟合到零模型时,似然模型分类器通过寻找零模型的不存在来鉴别已知染色体结构变异,所述零模型是健康受试者中发现的每对基因座之间的连接频率的分布,而不是寻找已知染色体结构变异的存在。在一些实施例中,将来自受试者的经转换和划分的测试读段集拟合到零模型包含跨越整个基因组的拟合。在一些替代实施例中,所述拟合包含跨越对应于每个已知染色体或亚染色体结构变异的边界矩形的基因组的一部分的拟合。
在一些实施例中,方法包含计算将经转换和划分的测试读段集拟合到零模型与每个已知染色体结构变异的替代模型的似然比。似然比检验是用于比较两个统计模型,即零模型(无CSV)和替代模型(存在已知CSV)的拟合优度的统计检验。所述检验基于两个模型的似然比,并且表示数据在一个模型下的可能性比另一个模型高多少倍。计算似然比或对数似然比,或按常数因子缩放的这些比值的变换的方法是本领域普通技术人员熟知的。在一些实施例中,邻近信号在矩阵中表示,或在矩阵的矩形子区中可进一步细分为关于焦点坐标的象限(x,y)。在一些实施例中,矩阵中的数据被分组。在此类实施例中,可开发理论模型以描述各种结构变异的预期邻近信号变化,包括平衡易位、不平衡易位、倒位、插入、缺失或其它拷贝数变异。此类理论模型可包括使用β、γ、二项式、负二项式、双峰、多峰、经验拟合样条、泊松(Poisson)、狄利克雷(Dirichlet)、均匀、线性、二次、多项式、指数、对数、三角形、幂律、贝叶斯(Bayesian)或其它合适的分布或其任何组合,以模拟在以下区域之间的邻近信号或其分配:理论上在同一染色体上、在不同染色体上、在同一染色体上且其之间具有给定距离或距离范围、在同一染色体上具有给定相对排列或具有任何其它相对于彼此的理论结构排列。在此类实施例中,理论模型可基于单个样品中的数据进行训练,针对多样品训练集进行训练,或使用人工配置的或固定的参数进行调整。在此类实施例中,可通过测量给定模型的观察数据的似然度来计算给定理论模型存在并且以焦点坐标为中心的似然度。在此类实施例中,一系列此类理论模型,反映了存在的各种类型的结构变化的预期邻近信号,可针对给定区域中观察到的邻近信号进行测试,并且可扫描一个区域以使用最大似然梯度下降、Nelder-Mead法、Broyden-Fletcher-Goldfarb-Shanno(BFGS)法、二分搜索、穷举搜索、熵最小化技术或任何其它合适的优化或最小化技术寻找在不同焦点坐标处可能的变异调用。在此类实施例中,可将多个理论模型与焦点的组合进行比较,以鉴别给定区域中的多于一个结构变异,从而产生表示特定焦点坐标处的特定调用变异的拟合模型集合。在此类实施例中,拟合模型可使用赤池信息准则(Akaike information criterion,AIC)、贝叶斯信息准则(Bayesian information criterion,BIC)、偏差信息准则(DIC)或任何其它合适的信息准则度量来加权,以便选择产生观察到的数据,从而控制邻近信号中的自然变异、背景或噪声,并减少假阳性或假阴性变异调用的可能性的焦点坐标和调用变异的最可能组合。在一些实施例中,当已知染色体变异的似然比小于0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002或0.0001时,确定所述受试者具有已知染色体结构变异。在一些实施例中,似然比大于75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。在一些实施例中,似然比表示为对数似然比。
基于图像处理的方法
本公开提供用于使用来自受试者的表示为图像的染色体构象数据鉴别受试者的染色体结构变异的系统和方法。
在一些实施例中,所述方法包含(a)接收接触矩阵,其中所述接触矩阵通过应用于来自受试者的样品的染色体构象分析技术产生;(b)将所述接触矩阵表示为图像,其中所述图像中的每个像素的强度表示所述接触矩阵中的两个基因组位置之间的连接密度;和(c)将图像处理应用于所述图像;从而检测所述受试者的染色体结构变异。
在一些实施例中,图像是接触矩阵的热图表示。例如,热图中的每个像素表示接触矩阵的单元,每个单元表示受试者的基因组的5至500kbp邻接核苷酸(“块组”),并且每个像素的强度与两个基因座之间的相互作用频率成比例。
在一些实施例中,每个像素表示受试者的基因组的5-500kbp。
在一些实施例中,每个像素表示受试者的基因组的40kbp。
在一些实施例中,图像处理包含(i)对图像应用全局归一化;(ii)将第一阈值应用于所述图像;(iii)鉴别对应于染色体比较的所述图像的子区;(iv)将第二阈值应用于每个子区;(v)对每个子区进行去噪;(vi)将边缘和/或角点检测算法应用于所述图像;(vii)应用至少一个滤波器以去除假阳性;以及(viii)确定所述图像中的所有染色体结构变异的基因组位置。
在一些实施例中,(vi)的应用边缘和/或角点检测算法包含将边缘和/或角点检测算法应用于每个子区(即,每个染色体比较)。
在一些实施例中,(i)的全局归一化包含将权重矩阵拟合到图像。在一些实施例中,权重矩阵中的每个单元对应于图像中的像素。在一些实施例中,权重矩阵从接触矩阵生成,所述接触矩阵从健康样品生成,并且拟合权重矩阵包含从图像中减去来自健康受试者的图像。在一些实施例中,从图像中排除图像的顺式染色体对角线的10-300kbp内的像素。图像中的顺式染色体对角线和与其相邻的像素表示健康受试者中的基因座对,其为相同基因座或彼此紧邻。顺式染色体对角线和与其相邻的像素因此具有高相互作用频率(和对应的像素强度)在一些实施例中,从图像减去权重矩阵使所述图像的每行和每列像素的总和最小化。在一些实施例中,从图像减去权重矩阵使所述图像的每行和每列像素的总和最小化,排除图像的顺式染色体对角线的10-300kbp内的像素。
在一些实施例中,来自健康样品的接触矩阵使用模拟读段集、理论读段集或从不具有疾病或病症的健康组织以实验方式确定的读段集生成。在一些实施例中,健康组织来自一个受试者或患者。在一些实施例中,健康组织来自多个健康受试者。在一些实施例中,来自健康样品的接触矩阵是参考接触矩阵,例如来自不具有染色体结构变异的受试者的许多接触矩阵的平均值。
在一些实施例中,所述方法进一步包含计算每个像素的平衡相互作用密度。通过归一化和校正用于测序覆盖度、序列特征(如限制酶或其它特定基序)、丰度、背景信号、噪声或变异的相互作用密度来计算平衡相互作用密度。在一些实施例中,使用每个像素的平衡密度相互作用计算全局阈值。
在一些实施例中,第一阈值包含全局阈值。全局阈值是对整个图像施加的阈值。全局阈值假设图像中的像素强度具有双峰分布,并且可以通过简单操作从图像中的一个或多个对象减去背景,所述简单操作将图像值与分隔两组像素的阈值T进行比较。
在一些实施例中,图像或矩阵由来自包含疾病、病症或其它所关注表型的组织的样品生成,并且第二图像或矩阵由来自不包含所述疾病、病症或表型的健康组织的样品生成。在一些实施例中,来自健康组织的样品可来自健康组织,所述健康组织来自获得包含疾病、病症或其它表型的样品的同一人的身体上的其它地方。在一些实施例中,来自健康组织的样品来自一个或多个单独的健康个体,或来自一个或多个理论模型。当给定图像或矩阵的多于一个数据源可用时,可使用平均、求和、乘法、单值分解或其它算术或线性代数方法组合来自多个源的数据。在一些实施例中,从来自健康组织的样品生成的图像或矩阵包含参考图像或矩阵。然后,可通过减去、划分或以其它方式将一个图像或矩阵与另一个图像或矩阵进行比较来生成第三图像或矩阵;此所得图像或矩阵反映两个较早图像或矩阵之间的偏差,并且因此特别突显了疾病、病症或其它表型组织与健康组织之间的差异。
在一些实施例中,来自疾病、病症或其它表型组织以及来自健康组织的图像或矩阵不组合,而是作为两个群体保存。可使用本征分解、协方差分析、每像素z得分或其它线性代数方法来比较群体。
在一些实施例中,边缘和/或角点检测算法包含哈里斯角点法(Harris cornermethod)、罗伯茨交叉法(Roberts cross method)、霍夫变换(Hough transform)、导数计算、沙尔滤波器(Scharr filter)、索贝尔滤波器(Sobel filter)或本领域已知的其它此类方法,或其组合。
在一些实施例中,用于去除假阳性的至少一个滤波器包含对角线路径查找器、非最大抑制滤波器、邻阈值、其它此类方法或其组合。对角路径查找器是一种迭代算法,其执行梯度爬山(例如接触矩阵或其图像中的Hi-C相互作用频率梯度)并且在非最大抑制条件下检查其是否找到图像的主对角线。如果对角线路径查找器遇到主对角线,则由于统计邻近信号的变化(假阳性)而将调用视为假的。此过程依赖于真实调用将是位于接触矩阵或其图像的主对角线之外的局部最大值的预期。哈里斯角点法使用类似技术来识别其何时发现两个角点彼此如此接近以致其实际上恰好是相同角点,且其呈现为两个点是伪影。
治疗方法
本文提供了治疗患有由染色体结构变异引起的疾病或病症的受试者的方法。所述方法包含使用本公开的系统和方法鉴别染色体结构变异,使用本公开的系统和方法将鉴别的染色体结构变异与相关生物信息相关联,推荐治疗过程,并向受试者施用所述治疗。
通过全面鉴别染色体结构变异并将这些变异与疾病和病症以及治疗方法相关联,本公开的系统和方法允许临床医生和医生针对个别受试者定制治疗。例如,在一些癌症中发现的染色体结构变异与特定癌症疗法的更好或更差的临床结果相关联。在一个特定实例中,本公开的方法可用于鉴别ERBB2(表皮生长因子受体2或HER2)拷贝数增加的乳腺癌,ERBB2可用EGFR抑制剂靶向作为推荐治疗过程的一部分。表3和4中示出了靶向癌症疗法的另外的非限制性实例。
表4.受染色体结构变异和靶向疗法影响的基因和途径。
Figure BDA0003333717570000471
引起疾病或病症的任何染色体结构变异均被设想为属于病症的范围内。
用推荐治疗方案引起疾病或病症之任何染色体结构变异均被设想为属于病症的范围内。
例如针对与染色体结构变异相关或由染色体结构变异引起的特定癌症的推荐治疗包括但不限于化学疗法、放射疗法、小分子、组合疗法、靶向癌症疗法、免疫疗法等。
化学疗法包括使用烷基化剂(如环磷酰胺或替莫唑胺)、抗代谢物(如5-氟尿嘧啶或吉西他滨)、抗肿瘤抗生素(多柔比星、柔红霉素)、拓扑异构酶抑制剂(例如依托泊苷、伊立替康、托泊替康)、有丝分裂抑制剂(例如多西紫杉醇、紫杉醇、长春碱)、基于铂的疗法(例如奥沙利铂、卡铂)或其组合。
靶向癌症疗法可靶向与使用本文的方法鉴别的CSV相关或由其涵盖的特定生物标记。靶向疗法可包括施用小分子,如酪氨酸激酶抑制剂(例如伊马替尼、吉非替尼、埃罗替尼、索拉非尼、舒尼替尼、达沙替尼、拉帕替尼、尼罗替尼、硼替佐米)、Janus激酶抑制剂(例如托法替尼)、ALK抑制剂(例如克卓替尼)、Bcl-2抑制剂(例如奥巴克拉、那维克拉)、PARP抑制剂(例如依尼帕瑞、奥拉帕尼)、PI3K抑制剂(例如哌立福辛)、VEGFR2抑制剂(例如阿帕替尼)、Braf抑制剂(例如维罗非尼、达拉非尼)、MEK抑制剂(例如曲美替尼)、CDK抑制剂、Hsp90抑制剂和丝氨酸/苏氨酸激酶抑制剂(例如坦罗莫司、依维莫司、维罗非尼、曲美替尼、达拉非尼)。
免疫疗法可包括过继细胞疗法,例如嵌合抗原受体(CAR)T细胞疗法。免疫疗法可包括抗体疗法,例如施用派立珠单抗、利妥昔单抗、曲妥珠单抗、阿仑单抗、西妥昔单抗、贝伐珠单抗或伊匹单抗。
计算机系统和软件
本文描述的方法可以在计算机系统的上下文中使用,或作为存储在计算机可读存储介质中的软件或计算机可执行指令的一部分。
在一些实施例中,系统(例如计算机系统)可用于实施本发明的一些实施例的某些特征。例如,在某些实施例中,提供用于训练机器学习模型的系统(例如计算机系统)。
在某些实施例中,所述系统可包括一个或多个存储器和/或存储装置。存储器和存储装置可以是一个或多个计算机可读存储介质,其可以存储实施本发明的各种实施例的至少部分的计算机可执行指令。在一个实施例中,所述系统可包括存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令包括但不限于以下中的一者或两者:(i)用于导入来自受试者的样品的测试读段集的指令,其中所述测试读段集通过染色体构象分析技术生成;(ii)用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;(iii)用于将机器学习模型应用于来自所述受试者的所述测试读段集的指令,其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;(iv)用于计算所述测试读段集含有已知染色体结构变异的似然度的指令;和(v)用于生成所述受试者的核型的指令。在一个替代实施例中,所述系统可包括存储计算机可执行指令的计算机可读存储介质,所述计算机可执行指令包括但不限于以下中的一者或两者:(i)用于将来自受试者的第一接触矩阵导入到第一机器学习模型中的指令,其中所述第一接触矩阵是通过染色体构象分析技术产生;(ii)用于将所述第一机器学习模型应用于所述接触矩阵以检测包含至少一个染色体结构变异的所述第一接触矩阵的至少一个区域的指令;(iii)用于将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始和结束的边界框以及标记的指令;(iv)用于将由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记导入至第二机器学习模型中的指令;和(v)用于应用所述第二机器学习模型的指令,其中所述第二机器学习模型被训练成将染色体结构变异与生物信息相关联。此类指令可根据上文实施例中描述的方法来执行。
在某些实施例中,所述系统可包括处理器,所述处理器被配置成执行包括但不限于以下的一个或多个步骤:(i)接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。在一个替代实施例中,所述系统可包括处理器,所述处理器被配置成执行包括但不限于以下的一个或多个步骤:(i)接收至少包含来自所述受试者的第一接触矩阵和参考基因组的输入文件集;和(ii)执行存储在所述计算机可读存储介质中的所述计算机可执行指令。输入文件集可包括但不限于包括由染色体构象分析技术(例如上文所述的Hi-C)生成的读段集的文件;包括参考基因组的一个或多个文件、包含实验或模拟染色体构象捕获读段的用于第一机器学习模型或第二机器学习模型的一个或多个训练数据集、从染色体构象捕获数据集生成的图像、源自受试者的用于分析的实验染色体构象捕获数据集、包含已知染色体结构变异的列表以及与染色体结构变异相关的临床和/或生物信息。所述步骤可根据上文实施例中描述的方法执行。
计算机系统可以是服务器计算机、客户端计算机、个人电脑(PC)、用户装置、平板PC、笔记本电脑、个人数字助理(PDA)、蜂窝式电话、iPhone、iPad、黑莓(Blackberry)、处理器、电话、网络设备、网络路由器、交换机或网桥、控制台、手持控制台、(手持)游戏装置、音乐播放器、任何便携式、移动、手持式装置、可穿戴装置或任何能够执行一组指令(顺序或以其它方式)的机器,所述指令指定所述机器要采取的操作。
计算系统可包括一个或多个中央处理单元(“处理器”)、存储器、输入/输出装置,例如键盘和指向装置、触摸装置、显示装置、存储装置,例如磁盘驱动器,以及连接到互连件的网络适配器,例如网络接口。
根据一些方面,互连件是表示由适当网桥、适配器或控制器连接的任何一个或多个单独的物理总线、点对点连接或两者的抽象。因此,互连件可包括例如系统总线、外围组件互连(PCI)总线或PCI-Express总线、超传输或工业标准结构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(12C)总线或电气电子工程师学会(IEEE)标准1394总线,也称为
Figure BDA0003333717570000501
另外,数据结构和消息结构可被存储或经由数据传输介质,例如通信链路上的信号来传输。可使用各种通信链路,例如互联网、局域网、广域网或点对点拨号连接。因此,计算机可读介质可包括计算机可读存储介质,例如非暂时性介质,和计算机可读传输介质。
存储在存储器中的指令可实施为软件和/或固件,以编程一个或多个处理器以执行上述动作。在本发明的一些实施例中,此类软件或固件可通过计算系统,例如通过网络适配器从远程系统下载而最初提供至处理系统。
本文中介绍的本发明的各种实施例可通过例如可编程电路,例如一个或多个微处理器来实现,所述微处理器用软件和/或固件编程,完全在专用固线式(即不可编程)电路中,或以此类形式的组合来实现。专用固线式电路可呈例如一个或多个ASIC、PLD、FPGA等的形式。
详细描述的一些部分可根据算法来呈现,所述算法可以是对计算机存储器内的数据位的操作的符号表示。这些算法描述和表示是数据处理领域技术人员用于最有效地将其工作的实质传达给本领域技术人员的那些方法。在本文中,且一般将算法构想为产生所要结果的自恰操作序列。操作是需要物理量的物理操纵的那些操作。通常(尽管未必),这些量呈能够被存储、转移、组合、比较和以其它方式操纵的电或磁信号的形式。主要出于常用的原因,已证实将这些信号称为位、值、元件、符号、字符、术语、编号等有时是方便的。
本文呈现的算法和显示在本质上与任何特定的计算机或其它设备无关。根据本文的教导,各种通用系统可以与程序一起使用,或可以证明构造更专用的设备以执行一些实施例的方法是方便的。
此外,虽然已经在功能完备的计算机和计算机系统的上下文中描述了实施例,但是本领域技术人员将理解,各个实施例能够以各种形式作为程序产品分发,并且无论用于实际影响分发的特定类型的机器或计算机可读介质如何,本公开都同样适用。
机器可读存储介质、机器可读介质或计算机可读(存储)介质的另外实例尤其包括但不限于可记录类型介质,如易失性和非易失性存储器装置、软盘和其它可移动磁盘、硬盘驱动器、光盘(例如光盘只读存储器(CD ROMS)、数字多功能光盘(DVD)等),以及传输类型介质,如数模通信链路。
列举的实施例
本发明可通过参考以下列举的说明性实施例来定义:
1.一种治疗具有染色体结构变异的受试者的方法,其包含:
a.接收来自所述受试者的样品的测试读段集;
b.将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;
c.训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;
d.在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述映射读段集;
e.基于将所述机器学习模型应用于来自所述受试者的所述映射读段集来计算所述受试者具有已知染色体结构变异的似然度;和
f.基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;
其中所述测试读段集、来自健康受试者的读段集和对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。
2.根据实施例1所述的方法,其中所述已知染色体结构变异在受试者中引起疾病或病症。
3.根据实施例1或2所述的方法,其进一步包含如果核型指示受试者具有所述已知染色体结构变异,则治疗所述受试者的由已知染色体结构引起的疾病或病症。
4.根据实施例1-3中任一项所述的方法,其中所述机器学习模型包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机、导出系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型、蒙特卡洛模型或似然模型。
5.根据实施例1-3中任一项所述的方法,其中所述机器学习模型是似然模型分类器。
6.根据实施例5所述的方法,其中在步骤(c)中训练所述似然模型分类器包含:
i.将来自健康受试者的多个读段集接收到所述机器学习模型中;
ii.将对应于已知染色体结构变异的多个读段集导入到所述机器学习模型中;
iii.将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;
iv.按基因组位置划分来自(i)和(ii)的读段集;
v.将来自(iv)的划分的读段集转换为几何数据结构;
vi.使用负二项分布模型对来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率进行建模;和
vii.训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,
其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。
7.根据实施例6所述的方法,其中所述几何数据结构表示来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率。
8.根据实施例6或7所述的方法,其中所述划分步骤(iv)将来自(i)和(ii)的所述读段集划分成对应于核型中的细胞遗传带的基因组位置。
9.根据实施例8所述的方法,其中所述核型中的细胞遗传带包含每个带约5Mb的分辨率。
10.根据实施例6-9中任一项所述的方法,其中以实验方式确定对应于(ii)中的已知染色体结构变异的至少一个读段集。
11.根据实施例6-9中任一项所述的方法,其中模拟对应于(ii)中的已知染色体结构变异的至少一个读段集。
12.根据实施例6-11中任一项所述的方法,其中(i)中的来自健康受试者的至少一个读段集包含模拟读段集、理论读段集或从健康组织以实验方式确定的读段集。
13.根据实施例12所述的方法,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。
14.根据实施例6-13中任一项所述的方法,其中所述来自健康受试者的读段集包含对应于每个已知染色体结构变异的基因组位置的读段。
15.根据实施例6-14中任一项所述的方法,其中所述几何数据结构是k维树(k-d树)。
16.根据实施例15所述的方法,其中所述k-d树是2维(2-d)k-d树。
17.根据实施例16所述的方法,其中所述k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率。
18.根据实施例15-17中任一项所述的方法,其中所述k-d树可编码任意分辨率。
19.根据实施例18所述的方法,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
20.根据实施例6-14中任一项所述的方法,其中所述几何数据结构是矩阵。
21.根据实施例20所述的方法,其中接触矩阵的每个单元表示来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率。
22.根据实施例21所述的方法,其中所述矩阵的每个单元包含所述受试者的基因组的约100万至1000万个碱基对(bp)。
23.根据实施例21所述的方法,其中所述矩阵的每个单元包含所述受试者的基因组的约300万个bp。
24.根据实施例6-23中任一项所述的方法,其中步骤(iii)的所述标记将所述已知染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
25.根据实施例1-24中任一项所述的方法,其进一步包含在应用所述机器学习模型之前滤出所述测试读段集中与参考基因组比对不佳的读段。
26.根据实施例1-25中任一项所述的方法,其进一步包含在应用所述机器学习模型之前按基因组位置划分来自所述受试者的所述测试读段集,且将所述划分的测试读段集转换为几何数据结构。
27.根据实施例26所述的方法,其中在步骤(d)应用所述机器学习模型包含将来自所述受试者的所述经转换和划分的测试读段集拟合到零模型且拟合到每个已知染色体结构变异的替代模型。
28.根据实施例27所述的方法,其中所述拟合包含跨越整个基因组的拟合。
29.根据实施例26所述的方法,其中所述拟合包含跨越对应于每个已知染色体或亚染色体结构变异的边界矩形的基因组的一部分的拟合。
30.根据实施例6-29中任一项所述的方法,其中步骤(e)包含计算将所述经转换和划分的测试读段集拟合到所述零模型与每个已知染色体结构变异的所述替代模型的似然比。
31.根据实施例30所述的方法,其中当所述已知染色体变异的似然比小于0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002或0.0001时,确定所述受试者具有已知染色体结构变异。
32.根据实施例30所述的方法,其中所述似然比大于75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。
33.根据实施例30所述的方法,其中所述似然比表示为对数似然比。
34.根据实施例1-33中任一项所述的方法,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure BDA0003333717570000541
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在PacificBiosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
35.根据实施例1-34中任一项所述的方法,其中所述受试者患有癌症。
36.根据实施例35所述的方法,其中所述样品来自肿瘤。
37.根据实施例36所述的方法,其中所述肿瘤为实体肿瘤或液体肿瘤。
38.一种确定受试者是否具有已知染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于接收来自所述受试者的样品的测试读段集的指令;
其中所述测试读段集通过染色体构象分析技术生成;
ii.用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;
iii.用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的所述测试读段集的指令,
其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集;
iv.用于基于将所述机器学习模型应用于所述测试读段集而计算所述测试读段集含有已知染色体结构变异的似然度的指令;和
v.用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;和
b.处理器,所述处理器被配置成执行包含以下的步骤:
i.接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集,和
ii.执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
39.根据实施例38所述的系统,其中所述计算机可执行指令进一步包含用于接收训练数据集的指令和用于训练所述机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的指令。
40.根据实施例38或39所述的系统,其中所述处理器进一步被配置成执行训练所述机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的步骤。
41.根据实施例38至40中任一项所述的系统,其中所述已知染色体结构变异各自在受试者中引起疾病或病症。
42.根据实施例38-41中任一项所述的系统,其中所述机器学习模型包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机、导出系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型、蒙特卡洛模型或似然模型。
43.根据实施例38-41中任一项所述的系统,其中所述机器学习模型是似然模型分类器。
44.根据实施例43所述的系统,其中训练所述似然模型分类器包含:
i.将来自健康受试者的多个读段集接收到所述机器学习模型中;
ii.将对应于已知染色体结构变异的多个读段集接收到所述机器学习模型中;
iii.将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;
iv.按基因组位置划分来自(i)和(ii)的读段集;
v.将来自(iv)的划分的读段集转换为几何数据结构;
vi.使用负二项分布模型对来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率进行建模;和
vii.训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,
其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。
45.根据实施例44所述的系统,其中所述几何数据结构表示来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率。
46.根据实施例44或45所述的系统,其中所述划分步骤(iv)将来自(i)和(ii)的所述读段集划分成对应于核型中的细胞遗传带的基因组位置。
47.根据实施例46所述的系统,其中所述核型中的细胞遗传带包含每个带约5Mb的分辨率。
48.根据实施例44-47中任一项所述的系统,其中以实验方式确定对应于(ii)中的已知染色体结构变异的至少一个读段集。
49.根据实施例44-47中任一项所述的系统,其中模拟对应于(ii)中的已知染色体结构变异的至少一个读段集。
50.根据实施例44-49中任一项所述的系统,其中(i)中的来自健康受试者的至少一个读段集包含模拟读段集、理论读段集或从健康组织以实验方式确定的读段集。
51.根据实施例50所述的系统,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。
52.根据实施例44-51中任一项所述的系统,其中所述来自健康受试者的读段集包含对应于每个已知染色体结构变异的基因组位置的读段。
53.根据实施例44-52中任一项所述的系统,其中所述几何数据结构是k维树(k-d树)。
54.根据实施例53所述的系统,其中所述k-d树是2维(2-d)k-d树。
55.根据实施例54所述的系统,其中所述2-d k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率。
56.根据实施例53-55中任一项所述的系统,其中所述2-d k-d树可编码任意分辨率。
57.根据实施例56所述的系统,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
58.根据实施例44-52中任一项所述的系统,其中所述几何数据结构是矩阵。
59.根据实施例58所述的系统,其中所述矩阵的每个单元表示来自(i)和(ii)的读段集中的每一个的任何两个基因组位置之间的连接频率。
60.根据实施例59所述的系统,其中所述矩阵的每个单元包含所述受试者的基因组的约100万至1000万个bp。
61.根据实施例59所述的系统,其中所述矩阵的每个单元包含所述受试者的基因组的约300万个bp。
62.根据实施例44-61中任一项所述的系统,其中步骤(iii)的所述标记将所述已知染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
63.根据实施例39-62中任一项所述的系统,其进一步包含在应用所述机器学习模型之前滤出所述测试读段集中与参考基因组比对不佳的读段。
64.根据实施例39-63中任一项所述的系统,其进一步包含在应用所述机器学习模型之前按基因组位置划分来自所述受试者的所述测试读段集,且将所述划分的测试读段集转换为几何数据结构。
65.根据实施例64所述的系统,其中应用所述机器学习模型包含将来自所述受试者的所述经转换和划分的测试读段集拟合到零模型且拟合到每个已知染色体结构变异的替代模型。
66.根据实施例65所述的系统,其中所述拟合包含跨越整个基因组的拟合。
67.根据实施例65所述的系统,其中所述拟合包含跨越对应于每个已知染色体或亚染色体结构变异的边界矩形的基因组的一部分的拟合。
68.根据实施例44-67中任一项所述的系统,其中计算似然度包含计算将所述经转换和划分的测试读段集拟合到所述零模型与每个已知染色体结构变异的所述替代模型的似然比。
69.根据实施例68所述的系统,其中当所述已知染色体变异的似然比小于0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002或0.0001时,确定所述受试者具有已知染色体结构变异。
70.根据实施例68所述的系统,其中所述似然比大于75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。
71.根据实施例68所述的系统,其中所述似然比表示为对数似然比。
72.根据实施例38-71中任一项所述的系统,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure BDA0003333717570000581
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在PacificBiosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
73.根据实施例38-72中任一项所述的系统,其中所述受试者患有癌症。
74.根据实施例73所述的系统,其中所述样品来自肿瘤。
75.根据实施例74所述的系统,其中所述肿瘤为实体肿瘤或液体肿瘤。
76.一种鉴别受试者的染色体结构变异的方法,其包含:
a.训练第一机器学习模型以鉴别包含至少一个染色体结构变异的第一接触矩阵的至少一个区域;
b.通过所述第一机器学习模型从受试者接收所述第一接触矩阵,其中所述第一接触矩阵是通过染色体构象分析技术产生;
c.将所述第一机器学习模型应用于所述第一接触矩阵以鉴别含有至少一个染色体结构变异的所述第一接触矩阵的至少一个区域;
d.将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始位置和结束位置的边界框,以及标记;
e.训练第二机器学习模型以将所述至少一个染色体结构变异与生物信息相关联;
f.通过所述第二机器学习模型接收由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;和
g.在训练所述第二机器学习模型之后,将所述第二机器学习模型应用于由所述第一机器学习分类器鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;
从而鉴别所述受试者的每个染色体结构变异和与所述受试者的每个染色体结构变异相关的所述生物信息。
77.根据实施例76所述的方法,其中所述第一接触矩阵的每个单元包含所述受试者的基因组的约100bp至10,000,000bp。
78.根据实施例76或77所述的方法,其中所述第一接触矩阵包含所述受试者的整个基因组。
79.根据实施例76-78中任一项所述的方法,其在步骤(d)之后且在步骤(e)之前进一步包含:
i.生成第二接触矩阵,
其中所述第二接触矩阵包含所述边界框的起始和结束基因组位置,且
其中所述第二接触矩阵的分辨率比所述第一接触矩阵的分辨率更精细;
ii.将所述第一机器学习模型应用于所述第二接触矩阵以鉴别含有所述至少一个染色体结构变异的所述第二接触矩阵的至少一个区域;和
iii.将所述至少一个染色体结构变异表达为包含所述至少一个染色体结构变异的第二起始和第二结束基因组位置的第二边界框,以及所述标记,
其中所述第二边界框包含比所述边界框更高的分辨率。
80.根据实施例79所述的方法,其进一步包含重复步骤(i)、(ii)和(iii)直至达到接触矩阵的每单元至少500,000bp、每单元至少100,000bp、每单元至少50,000bp、每单元至少10,000bp、每单元至少1,000bp、每单元至少500bp或每单元至少100bp的分辨率为止。
81.根据实施例76-80中任一项所述的方法,其中所述第一接触矩阵包含可以任意分辨率访问的数据结构。
82.根据实施例81所述的方法,其中所述数据结构包含k维树(k-d树)。
83.根据实施例82所述的方法,其中所述k-d树是2维(2-d)k-d树。
84.根据实施例83所述的方法,其中所述2-d k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示任何两个基因组位置之间的连接频率。
85.根据实施例82-84中任一项所述的方法,其中所述2-d k-d树可编码任意分辨率。
86.根据实施例85所述的方法,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
87.根据实施例76-86中任一项所述的方法,其中所述第一接触矩阵为平均接触矩阵、中值接触矩阵或具有百分位数截止的接触矩阵。
88.根据实施例87所述的方法,其中所述平均接触矩阵具有每单元100bp至每单元10,000,000bp的分辨率。
89.根据实施例76-88中任一项所述的方法,其中所述标记将所述染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
90.根据实施例76-89中任一项所述的方法,其中所述第一机器学习模型包含卷积神经网络(CNN)。
91.根据实施例90所述的方法,其中训练第一机器学习模型包含对由模拟和/或生物样品生成的接触矩阵训练CNN。
92.根据实施例91所述的方法,其中训练所述CNN包含:
i.由所述CNN接收第一训练数据集,
其中所述训练数据集包含由模拟和/或生物样品生成的接触矩阵;
ii.使用迁移学习将预训练模型应用于所述CNN;和
iii.用第二训练数据集重新训练所述CNN,
其中所述第二训练数据集包含来自生物样品的接触矩阵或由其组成。
93.根据实施例92所述的方法,其中所述第一训练数据集包含来自不具有染色体结构变异的受试者的接触矩阵或由其组成。
94.根据实施例92所述的方法,其中所述第一训练数据集包含来自具有染色体结构变异的受试者的至少一个接触矩阵。
95.根据实施例92所述的方法,其中所述第一训练数据集含有包含多个染色体结构变异的接触矩阵。
96.根据实施例93-95中任一项所述的方法,其中所述第一训练数据集包含全基因组接触矩阵和由基因组的一部分组成的接触矩阵。
97.根据实施例76-96中任一项所述的方法,其中来自所述受试者的所述第一接触矩阵如下地生成:
a.对来自所述受试者的样品执行染色体构象分析技术以生成读段集;
b.将来自所述受试者的所述读段集与参考基因组比对;和
c.将所述比对的读段集转换为接触矩阵。
98.根据实施例97所述的方法,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure BDA0003333717570000611
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在Pacific Biosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
99.根据实施例97或98所述的方法,其进一步包含在将来自所述受试者的所述比对的读段集转换为所述接触矩阵之前滤出来自所述受试者的所述读段集中与参考基因组比对不佳的读段。
100.根据实施例76-99中任一项所述的方法,其中所述第二机器学习模型包含递归神经网络、感测检测器或k-最近邻模型。
101.根据实施例100所述的方法,其中所述感测检测器使用来自已知染色体结构变异的临床标记数据、诊断数据、临床结果数据、药物或治疗反应数据或代谢数据来训练。
102.根据实施例76-101中任一项所述的方法,其中所述第二机器学习模型将所述染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
103.根据实施例76-102中任一项所述的方法,其中所述生物信息包含一个或多个基因、诊断、患者结果、代谢效应、药物靶标、药物反应、治疗过程或其组合。
104.根据实施例103所述的方法,其中所述受试者患有由至少一个染色体结构变异引起的疾病或病症。
105.根据实施例104所述的方法,其中所述方法包含治疗所述受试者的由至少一个染色体结构变异引起的疾病或病症。
106.根据实施例76-105中任一项所述的方法,其中所述受试者患有癌症。
107.根据实施例106所述的方法,其中来自所述受试者的所述第一接触矩阵来自癌症样品。
108.根据实施例107所述的方法,其中所述癌症为实体肿瘤或液体肿瘤。
109.一种鉴别受试者的染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于通过第一机器学习模型从受试者接收第一接触矩阵的指令,
其中所述第一接触矩阵是通过染色体构象分析技术产生;
ii.用于将所述第一机器学习模型应用于所述接触矩阵以鉴别包含至少一个染色体结构变异的所述第一接触矩阵的至少一个区域的指令;
iii.用于将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始和结束的边界框以及标记的指令;
iv.用于将由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记接收至第二机器学习模型中的指令;和
v.用于应用所述第二机器学习模型的指令,其中所述第二机器学习模型被训练成将染色体结构变异与生物信息相关联,且其中应用所述第二机器学习模型在训练所述第二机器学习模型之后发生;和
b.处理器,所述处理器被配置成执行包含以下的步骤:
i.接收至少包含来自所述受试者的所述第一接触矩阵的输入文件集;和
ii.执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
110.根据实施例109所述的系统,其中所述计算机可执行指令进一步包含用于训练第一机器学习模型以检测含有染色体结构变异的接触矩阵的至少一个区域的指令。
111.根据实施例110所述的系统,其中所述输入文件集进一步包含用于所述第一机器学习模型的第一训练数据集。
112.根据实施例109-111中任一项所述的系统,其中所述计算机可执行指令进一步包含用于训练第二机器学习模型以将染色体结构变异与已知生物信息相关联的指令。
113.根据实施例112所述的系统,其中所述输入文件集进一步包含用于所述第二机器学习模型的第二训练数据集。
114.根据实施例101-114中任一项所述的系统,其中所述第一接触矩阵的每个单元包含所述受试者的所述基因组的约100bp至10,000,000bp。
115.根据实施例109-114中任一项所述的系统,其中所述第一接触矩阵包含所述受试者的整个基因组。
116.根据实施例109-115中任一项所述的系统,其在步骤(d)之后且在步骤(e)之前进一步包含:
i.生成第二接触矩阵,其中所述第二接触矩阵包含所述边界框的起始和结束基因组位置,且
其中所述第二接触矩阵的分辨率比所述第一接触矩阵的分辨率更精细;
ii.将所述第一机器学习模型应用于所述第二接触矩阵以鉴别含有所述至少一个染色体结构变异的所述第二接触矩阵的至少一个区域;和
iii.将所述至少一个染色体结构变异表达为包含所述至少一个染色体结构变异的第二起始和第二结束基因组位置的第二边界框,以及所述标记,
其中所述第二边界框包含比所述边界框更高的分辨率。
117.根据实施例116所述的系统,其进一步包含重复步骤(i)、(ii)和(iii)直至达到接触矩阵的每单元至少500,000bp、每单元至少100,000bp、每单元至少50,000bp、每单元至少10,000bp、每单元至少1,000bp、每单元至少500bp或每单元至少100bp的分辨率为止。
118.根据实施例109-117中任一项所述的系统,其中所述第一接触矩阵包含可以任意分辨率访问的数据结构。
119.根据实施例118所述的系统,其中所述数据结构包含k维树(k-d树)。
120.根据实施例119所述的系统,其中所述k-d树是2维(2-d)k-d树。
121.根据实施例120所述的系统,其中所述2-d k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示任何两个基因组位置之间的连接频率。
122.根据实施例119-121中任一项所述的系统,其中所述2-d k-d树可编码任意分辨率。
123.根据实施例122所述的系统,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
124.根据实施例109-123中任一项所述的系统,其中所述第一接触矩阵为平均接触矩阵、中值接触矩阵或具有百分位数截止的接触矩阵。
125.根据实施例124所述的系统,其中所述平均接触矩阵具有每单元100bp至每单元10,000,000bp的分辨率。
126.根据实施例109-125中任一项所述的系统,其中所述标记将所述染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
127.根据实施例109-126中任一项所述的系统,其中所述第一机器学习模型包含卷积神经网络(CNN)。
128.根据实施例127所述的系统,其中训练第一机器学习模型包含对由模拟和/或生物样品生成的接触矩阵训练CNN。
129根据实施例128所述的系统,其中训练所述CNN包含:
i.由所述CNN接收第一训练数据集,其中所述训练数据集包含从模拟和/或生物样品生成的接触矩阵;
ii.使用迁移学习将预训练模型应用于所述CNN;和
iii.用第二训练数据集重新训练所述CNN,其中所述第二训练数据集包含来自生物样品的接触矩阵或由其组成。
130.根据实施例129所述的系统,其中所述第一训练数据集包含来自不具有染色体结构变异的受试者的接触矩阵或由其组成。
131.根据实施例129所述的系统,其中所述第一训练数据集包含来自具有染色体结构变异的受试者的至少一个接触矩阵。
132.根据实施例129所述的系统,其中所述第一训练数据集含有包含多个染色体结构变异的接触矩阵。
133.根据实施例129-131中任一项所述的系统,其中所述第一训练数据集包含全基因组接触矩阵和由基因组的一部分组成的接触矩阵。
134.根据实施例109-133中任一项所述的系统,其中来自所述受试者的所述第一接触矩阵如下地生成:
a.对来自所述受试者的样品执行染色体构象分析技术以生成读段集;
b.将来自所述受试者的所述读段集与参考基因组比对;和
c.将所述比对的读段集转换为接触矩阵。
135.根据实施例134所述的系统,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure BDA0003333717570000651
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在Pacific Biosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
136.根据实施例134或135所述的系统,其进一步包含在将来自所述受试者的所述比对的读段集转换为所述接触矩阵之前滤出来自所述受试者的所述读段集中与所述参考基因组比对不佳的读段。
137.根据实施例109-136中任一项所述的系统,其中所述第二机器学习模型包含递归神经网络或感测检测器。
138.根据实施例137所述的系统,其中所述感测检测器使用来自已知染色体结构变异的临床标记数据来训练。
139.根据实施例109-136中任一项所述的系统,其中所述第二机器学习模型将所述染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
140.根据实施例109-139中任一项所述的系统,其中所述生物信息包含一个或多个基因、诊断、患者结果、代谢效应、药物靶标、药物反应、治疗过程或其组合。
141.根据实施例140所述的系统,其中所述受试者患有由至少一个染色体结构变异引起的疾病或病症。
142.根据实施例109-141中任一项所述的系统,其中所述受试者患有癌症。
143.根据实施例1441所述的系统,其中来自所述受试者的所述第一接触矩阵来自癌症样品。
144.根据实施例143所述的系统,其中所述癌症为实体肿瘤或液体肿瘤。
145.一种鉴别受试者的染色体结构变异的方法,其包含:
a.接收接触矩阵,其中所述接触矩阵通过应用于来自所述受试者的样品的染色体构象分析技术产生;
b.将所述接触矩阵表示为图像,其中所述图像中的每个像素的强度表示所述接触矩阵中的两个基因组位置之间的连接密度;和
c.将图像处理应用于所述图像;
从而检测所述受试者的染色体结构变异。
146.根据实施例145所述的方法,其中每个像素表示所述受试者的基因组的5-500千碱基对(kbp)。
147.根据实施例145所述的方法,其中每个像素表示所述受试者的基因组的40kbp。
148.根据实施例145-147中任一项所述的方法,其中步骤(c)中的图像处理包含:
i.将全局归一化应用于所述图像;
ii.将第一阈值应用于所述图像;
iii.鉴别对应于染色体比较的所述图像的子区;
iv.将第二阈值应用于每个子区;
v.对每个子区进行去噪;
vi.将边缘和/或角点检测算法应用于所述图像;
vii.应用至少一个滤波器以去除假阳性;和
viii.确定所述图像中的所有染色体结构变异的基因组位置。
149.根据实施例148所述的方法,其中(vi)的应用边缘和/或角点检测算法包含将边缘和/或角点检测算法应用于每个子区。
150.根据实施例148所述的方法,其中(i)的所述全局归一化包含将权重矩阵拟合到所述图像。
151.根据实施例148所述的方法,其中所述矩阵中的每个单元对应于所述图像中的像素。
152.根据实施例151所述的方法,其中拟合权重矩阵包含
i.从健康样品生成接触矩阵;
ii.将来自健康受试者的所述接触矩阵表示为来自所述健康受试者的图像;和
iii.从所述图像减去来自所述健康受试者的图像,
其中排除所述图像的顺式染色体对角线的10-300kbp内的像素。
153.根据实施例152所述的方法,其中来自健康样品的接触矩阵使用模拟读段集、理论读段集或从健康组织以实验方式确定的读段集生成。
154.根据实施例153所述的方法,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。
155.根据实施例153所述的方法,其中来自健康样品的接触矩阵包含参考矩阵。
156.根据实施例152所述的方法,其中从所述图像减去权重矩阵使所述图像的每行和每列像素的总和最小化。
157.根据实施例148-156中任一项所述的方法,其进一步包含计算每个像素的平衡交互密度。
158.根据实施例148-157中任一项所述的方法,其中所述第一阈值包含全局阈值。
159.根据实施例158所述的方法,其中所述全局阈值使用每个像素的平衡密度交互来计算。
160.根据实施例148-159中任一项所述的方法,其中所述边缘和/或角点检测算法包含哈里斯角点法、罗伯茨交叉法、霍夫变换或其组合。
161.根据148-160中任一项所述的方法,其中用于去除假阳性的所述至少一个滤波器包含对角线路径查找器、非最大抑制滤波器、邻阈值或其组合。
162.根据实施例145-161中任一项所述的方法,其中所述染色体结构变异为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
163.根据实施例145-162中任一项所述的方法,其中所述受试者患有由所述染色体结构变异引起的疾病或病症。
164.根据实施例163所述的方法,其进一步包含治疗所述受试者的由所述染色体结构变异引起的疾病或病症。
165.根据实施例145-164中任一项所述的方法,其中染色体构象分析技术染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure BDA0003333717570000681
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在PacificBiosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
166.根据实施例145-165中任一项所述的方法,其中所述受试者患有癌症。
167.根据实施例166所述的方法,其中所述样品来自肿瘤。
168.根据实施例167所述的方法,其中所述肿瘤为实体肿瘤或液体肿瘤。
169.一种鉴别受试者的染色体结构变异的系统,其中所述系统被配置成应用根据实施例145-165中任一项所述的方法。
170.一种鉴别受试者的染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于接收接触矩阵的指令,其中所述接触矩阵通过应用于来自所述受试者的样品的染色体构象分析技术产生;
ii.用于将所述接触矩阵表示为图像的指令,其中所述图像中的每个像素的强度表示所述接触矩阵中的两个基因组位置之间的连接密度;和
iii.用于将图像处理应用于所述图像的指令;和
b.处理器,所述处理器被配置成执行以下步骤:执行用于接收第一接触矩阵、将所述接触矩阵表示为图像以及将图像处理应用于所述图像的所述计算机可执行指令,所述指令存储在所述计算机可读存储介质中;
从而检测所述受试者的染色体结构变异。
171.一种方法,其包含:
a.使来自受试者的样品与稳定剂接触,其中所述样品包含核酸;
b.将所述核酸裂解成至少包含第一区段和第二区段的多个片段;
c.在接合处附接所述第一区段和所述第二区段以生成包含附接区段的多个片段;
d.在包含附接区段的所述多个片段的所述接合处的每一侧上获得至少一些序列以生成多个读段;和
e.应用根据实施例1-38、76-108或145-168中任一项所述的方法。
172.根据实施例171所述的方法,其中所述核酸包含基因组DNA。
173.根据实施例172所述的方法,其中所述稳定剂包含紫外光或化学固定剂。
174.根据实施例173所述的方法,其中所述化学固定剂包含甲醛。
175.根据实施例171-174中任一项所述的方法,其中裂解所述核酸包含机械裂解或酶裂解。
176.根据实施例171-175中任一项所述的方法,其中附接所述第一区段和所述第二区段包含连接。
177.根据实施例171-176中任一项所述的方法,其中在所述接合处的每一侧上获得至少一些序列包含高通量测序。
178.一种治疗具有染色体结构变异的受试者的方法,其包含:
a.接收来自所述受试者的样品的测试读段集;
b.将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;
c.从所述映射读段集生成几何数据结构;
d.训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;
e.在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述几何数据结构;
f.基于将所述机器学习模型应用于来自所述受试者的所述几何数据结构来计算所述受试者具有已知染色体结构变异的似然度;和
g.基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;
其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集通过染色体构象分析技术生成。
179.根据实施例178所述的方法,其中所述已知染色体结构变异在受试者中引起疾病或病症。
180.根据实施例178或179所述的方法,其进一步包含如果核型指示受试者具有所述已知染色体结构变异,则治疗所述受试者的由已知染色体结构引起的疾病或病症。
181.根据实施例178-180中任一项所述的方法,其中所述机器学习模型包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机、导出系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型、蒙特卡洛模型或似然模型。
182.根据实施例178-180中任一项所述的方法,其中所述机器学习模型是似然模型分类器。
183.根据实施例182所述的方法,其中在步骤(c)中训练所述似然模型分类器包含:
i.将从来自健康受试者的读段集生成的多个几何数据结构接收到所述机器学习模型中;
ii.将从对应于已知染色体结构变异的读段集生成的多个几何数据结构接收到所述机器学习模型中;
iii.将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;
iv.使用负二项分布模型对来自(i)和(ii)的所述读段集的任何两个基因组位置之间的连接频率进行建模;和
v.训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,
其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。
184.根据实施例178-183中任一项所述的方法,其中生成来自所述测试读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集的所述几何数据结构包含:
i.按基因组位置划分所述读段集;和
ii.将所述划分的读段集转换为几何数据结构。
185.根据实施例183或184所述的方法,其中所述几何数据结构表示读段集中的每一个的任何两个基因组位置之间的连接频率。
186.根据实施例184或185所述的方法,其中所述划分步骤将所述读段集划分成对应于核型中的细胞遗传带的基因组位置。
187.根据实施例186所述的方法,其中所述核型中的细胞遗传带包含每个带约5Mb的分辨率。
188.根据实施例183-187中任一项的方法,其中以实验方式确定对应于(ii)中的已知染色体结构变异的至少一个读段集。
189.根据实施例183-187中任一项的方法,其中模拟对应于(ii)中的已知染色体结构变异的至少一个读段集。
190.根据实施例183-188中任一项的方法,其中(i)中的来自健康受试者的至少一个读段集包含模拟读段集、理论读段集或从健康组织以实验方式确定的读段集。
191.根据实施例190所述的方法,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。
192.根据实施例183-191中任一项所述的方法,其中来自健康受试者的所述读段集包含对应于每个已知染色体结构变异的基因组位置的读段。
193.根据实施例183-192中任一项所述的方法,其中所述几何数据结构是k维树(k-d树)。
194.根据实施例193所述的方法,其中所述k-d树是2维(2-d)k-d树。
195.根据实施例193所述的方法,其中所述k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示所述来自所述受试者的读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集的任何两个基因组位置之间的连接频率。
196.根据实施例193-195中任一项所述的方法,其中所述k-d树可编码任意分辨率。
197.根据实施例196所述的方法,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
198.根据实施例178-192中任一项所述的方法,其中所述几何数据结构是矩阵。
199.根据实施例198所述的方法,其中所述矩阵的每个单元表示所述来自所述受试者的读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集中的每一个的任何两个基因组位置之间的连接频率。
200.根据实施例199所述的方法,其中所述矩阵的每个单元包含所述受试者的基因组的约100万至1000万个碱基对(bp)。
201.根据实施例199所述的方法,其中所述矩阵的每个单元包含所述受试者的基因组的约300万个bp。
202.根据实施例183-201中任一项所述的方法,其中步骤(iii)的所述标记将所述已知染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
203.根据实施例178-202中任一项所述的方法,其进一步包含在应用所述机器学习模型之前滤出所述测试读段集中与参考基因组比对不佳的读段。
204.根据实施例203所述的方法,其中步骤(e)的应用所述机器学习模型包含将来自所述受试者的所述测试读段集的所述几何数据结构拟合到零模型且拟合到每个已知染色体结构变异的替代模型。
205.根据实施例204所述的方法,其中所述拟合包含跨越整个基因组的拟合。
206.根据实施例204所述的方法,其中所述拟合包含跨越对应于每个已知染色体或亚染色体结构变异的边界矩形的基因组的一部分的拟合。
207.根据实施例183-206中任一项所述的方法,其中步骤(f)包含计算将所述经转换和划分的测试读段集拟合到所述零模型与每个已知染色体结构变异的所述替代模型的似然比。
208.根据实施例207所述的方法,其中当所述已知染色体变异的似然比小于0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002或0.0001时,确定所述受试者具有已知染色体结构变异。
209.根据实施例207所述的方法,其中所述似然比大于75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。
210.根据实施例209所述的方法,其中所述似然比表示为对数似然比。
211.根据实施例178-210中任一项所述的方法,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure BDA0003333717570000731
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在PacificBiosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
212.根据实施例178-211中任一项所述的方法,其中所述受试者患有癌症。
213.根据实施例212所述的方法,其中所述样品来自肿瘤。
214.根据实施例213所述的方法,其中所述肿瘤为实体肿瘤或液体肿瘤。
215.一种确定受试者具有染色体结构变异的系统,其中所述系统被配置成应用根据实施例178-214中任一项所述的方法。
216.一种确定受试者是否具有已知染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于接收来自所述受试者的样品的测试读段集的指令,其中所述测试读段集通过染色体构象分析技术生成;
ii.用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;
iii.用于从所述映射读段集生成几何数据结构的指令;
iv.用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的测试读段集的所述几何数据结构的指令,
其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;
v.用于基于将所述机器学习模型应用于所述测试读段集而计算来自测试读段集的所述几何数据结构含有已知染色体结构变异的似然度的指令;和
vi.用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;和
b.处理器,所述处理器被配置成执行包含以下的步骤:
ii.接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集,和
ii.执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
以下实施例旨在说明本发明的各种实施例。因此,所论述的具体实施例不应解释为对本发明范围的限制。对本领域的技术人员将显而易见的是,可以在不脱离本发明的范围的情况下作出各种等效物、变化和修改,且应理解,此类等效实施例将包括在本文中。此外,本公开中所引用的所有参考文献均以全文引用的方式并入本文中,如同在本文中充分阐述一般。
实例
实例1:对具有已知显著性的人类结构变异进行基因分型
在一个实施方案中(图4A-C),创建似然模型分类器,且用于鉴别人类样品中具有已知临床显著性的变异。使用源自模拟样品和生物样品两者的Hi-C数据来训练似然模型分类器,反映样品中存在的结构变化。通过提供来自训练集之外的临床或研究样品的Hi-C数据,用似然模型分类器检测变异。似然模型分类器将所有变异表示为边界矩形,所述边界矩形编码结构变异的起始位置和结束位置(在基因组带中),带有标记。标记可描述变异的性质,例如平衡或不平衡的易位、倒位或插入、缺失或重复扩增。具有已知临床显著性的变异的列表也输入到似然模型分类器中,其中所有临床相关事件的整个集合被整理到数据库中。将Hi-C数据分组到细胞遗传带中,并转换为几何数据结构(例如KD-Tree),其可被快速查询以定量任何两个基因组区域之间的连接数目。
为了递归地构建KD-Tree,使用C中的以下函数。该函数调用qsort在交替维度上对kd_node进行排序,每次调用的运行时为O(n log n)。每次迭代均记录所排序的数据的范围。函数采用数组头指针[t]并构建2D KD-Tree。函数采用以下参数,定义如下:t-kd_node;start-kd_node数组的索引;end-kd_node数组的长度;dim–维度0==x;1==y。return语句是2D KD树的根。一旦构建了KD-Tree,“qsort”就用于沿着维度进行排序,从而缩小范围。使用“mid”计算数组的中点。最后,如果还剩下节点,则构建更多子树。
KD-Tree如下地递归构建:
Figure BDA0003333717570000751
可快速查询KD-Tree以定量任何两个基因组区域之间的连接数目。下文描述用于递归查询KD-Tree以查找两个基因座之间的Hi-C连接的数目的C函数。此函数的运行时复杂度是O(sqrt(n)+K),其中n是树中的节点的数目,K是报告节点(即,具有连接的节点)的数目。此函数查询边界框X_0、X_1、y_0、y_1,并返回在指定范围内的数据的数目。函数采用以下参数,定义如下:node-kd_node*树的根;range–您希望查询的uint32_t的数组指针;dim-起始维度;c-计数。如果查询有效,函数返回1,否则返回0。“contained”函数检查查询是否在边界框内。然后将搜索精简到<o(n)。搜索节点左边和右边的范围。所述范围也包含在内,因此搜索两个节点。
如下地查询KD-tree:
Figure BDA0003333717570000752
Figure BDA0003333717570000761
为了准确测试每个可能的已知变异,使用负二项分布在针对所述变异的训练数据中模拟Hi-C相互作用的频率。与泊松分布不同,负二项可解释计数数据的过度分散。对于已知显著性的边界框的每个变异,模型跨越许多健康对照样品训练,因此学习零分布。在使用所述模型测试的临床或研究样品中,生成并映射Hi-C数据,然后计算具有两个自由度的已知显著性的每个变异的似然比测试(LRT)。此比率用于确定每个事件在样品中真实存在或不存在的几率。
这种方法的结果汇总在一份报告,例如PDF小册子中,将返回给用户。重要的是,报告中的数据和可视化将包括与遗传咨询师和临床医生通常看到的标准核型或FISH报告中的信息类似的信息,即使它们不是用这些方法生成的。
以下步骤概述了第一主要KBS应用程序的程序:
1.将Hi-C数据映射到人类参考基因组(使用BWA-mem)。
2.滤出低质量比对数据(<MQ 20)。
3.将hi-c基因组位置转换为KD-Tree。
4.拟合似然比模型。
5.测试新样品的统计显著性。
6.生成报告。
实例2:使用卷积神经网络(CNN)检测和注释生物体中的所有结构变异
在另一个KBS实施方案中(图5A-C),创建深度学习模型的集合并且用于鉴别生物体中的任何结构变异,以及基于已知的临床或生物学数据为变异分配可能的动作、解释或含义。此实施方案包括两个机器学习模型。
在此实例中,第一机器学习模型是卷积神经网络(CNN),其接收接触矩阵作为输入。此矩阵可以被平均至分辨率,使得将矩阵馈入CNN中将是计算上可行的(例如,矩阵中的每个单元表示1,000,000个碱基对),或连续可扩展的数据结构(例如针对第一主要应用描述的KD-tree数据结构)。第一机器学习模型检测似乎含有结构变异的接触矩阵区域,在基因组坐标中表示为边界框,并且还预测变异的标记(例如平衡或不平衡易位、倒位、插入、缺失、重复扩增)。替代地,标记可以是对变异的描述,其对变异本身的类型进行定性预测,但输入到第二机器学习模型中。
可用于此应用程序的CNN可用以下Python代码来定义。此代码在Keras中以TensorFlow后端作为自定义CNN类别实施。函数full_model(self,input_shape=(1000,1000,3),classes=5,verbose=False)构建完整ResNet50模型。它采用自变量input_shape((int,int,int)),即数据集图像的形状。元组(或列表)中必须有2个int。它还使用自变量类(int),其为类的数目且默认为1。它返回Keras.models.Model,其为配置的ResNet50模型。X_input将输入定义为具有形状input_shape的张量。然后,它分5个阶段进行,如下所示。输出层制造单独的层,且接着将其连接起来,从而允许在输出层中使用不同的激活。输出层的标记为contains_event、global_variant_start、global_variant_end、insertion_point和is_translocation。
Figure BDA0003333717570000771
Figure BDA0003333717570000781
Figure BDA0003333717570000791
可用于本应用程序的CNN可在Python中编译和训练,如下所述。compile(self)编译self.model,以便其准备好运行。train(self,X_train,Y_train,epochs=20,batch_size=32)使用X_train和Y_train训练self.model,使用大小为batch_size的小批量,并且训练期数等于epochs。X_train和Y_train应完全归一化,并且在调用此方法之前准备好用于训练。其采用以下参数:X_train(np.vector[images])是要训练的图像的输入numpy向量。Y_train(np.vector[np.vector[int]])是训练图像的标记。epochs(int)是要运行的训练期的数量,且batch.size(int)是要运行的小批量的大小。
Figure BDA0003333717570000801
模拟样品和生物样品都用于训练此机器学习模型。首先,使用通过含有所有模拟样品的数据集生成的接触矩阵来训练机器学习模型,所述数据集可能与来自生物样品的少数数据组合。接触矩阵既可在全基因组范围内进行训练,也可以多种分辨率放大到矩阵的部分。
接下来,通过清除网络最后几层中的边缘权重来执行转移学习,并且使用相同方法重新训练网络,但使用完全来自生物来源的数据。此转移学习步骤有助于减少训练模型所需的真实生物学数据的量,这对于整体设计是重要且有利的,因为获得关于数万个或更多个实际癌症样品的详细数据将是昂贵(仅测序成本就要至少大约2000万美元)、耗时且或许甚至不可能的。
一旦机器学习模型获得了一组在全基因组范围内检测到变异的区域,一个互补的子程序就会生成一个接触图,所述接触图通过以更精细的分辨率生成一个新的子矩阵来放大接触矩阵中检测到变异的部分。对于包括平均数据的接触矩阵,此过程生成表示较小区域平均值的子矩阵(例如,一个单元表示100,000bp而不是1,000,000bp的平均值)。对于连续按比例缩放的接触矩阵,例如由KD-tree表示的接触矩阵,子程序将通过在连续尺度上为每个感兴趣区域选择缩放因子来进行放大。机器学习模型再次在这些子矩阵上运行,以细化边界框的估计,并在必要时更正变量标记。递归地重复此过程,直到获得令人满意的精度,使得无需大量CNN即能够利用Hi-C数据的高分辨率。例如,通过从表示10,000,000bp的矩阵中的每个单元开始,且递归地生成越来越精细的子矩阵,直到矩阵中的每个单元表示1,000bp为止,此递归过程用含有300×300个输入矩阵的网络在人类基因组上实现1,000bp甚至更精细的分辨率。相反,如果没有递归步骤,人类基因组上的1,000bp分辨率将需要30,000×30,000个输入矩阵。这表示所需的输入节点数量增加了10,000倍,并大大增加了网络更深层次的复杂性,这无疑使其成本极高,并可能将其推向在当前技术水平下无法计算的领域。
一旦第一机器学习模型已经检测到并标记变异,第二机器学习模型就用于将变异与已知的临床或生物信息相关联。第二机器学习模型是k最近邻(KNN)模型,其将以基因组坐标表示的特定变异的边界框与与所述变异相关的整理的临床或生物学数据相关联。此数据与实例1中使用的数据基本上相似,但以基因组坐标而不是基因组带表示,并且不限于人类样品。仅使用来自生物来源的接触矩阵来训练第二机器学习模型,其中数据用已知临床或生物信息,例如特定诊断、患者结果、代谢效应、相关药物靶标/反应和其它可操作或相关数据进行标记。
在样品上运行每个机器学习模型后,结果将汇总在一个报告,例如PDF小册子中,将返回给用户。重要的是,报告中的数据和可视化将包括与遗传咨询师和临床医生通常看到的标准核型或FISH报告中的信息类似的信息,即使它们不是用这些方法生成的。
以下步骤概述了此实例的程序:
1.将Hi-C数据映射到生物体的草案或参考基因组(使用BWA-mem)。
2.滤出低质量比对数据(<MQ 20)。
3.将Hi-C基因组位置转换为接触图。
4.使用CNN机器学习模型来检测和标记变异。
5.重复3和4,直到获得所需分离度,或无法进行进一步改进。
6.使用第二机器学习模型用相关临床或生物学数据标记每个变异。
7.生成报告。
实例3:使用边缘检测算法检测和注释生物体中的所有结构变异
这是一个多面方法,其将一对染色体之间的Hi-C连接密度表示为图像中的像素,然后使用一系列图像处理技术和新颖算法来鉴别易位边界框和插入点。将包括全局归一化、全局阈值和逐图像去噪的预处理步骤应用于图像,且接着使用三种边缘/角点检测算法/模块(哈里斯角点法、罗伯茨交叉、霍夫变换)来鉴别信号强度梯度中的较大变化并将那些信号转换为边界框(结构变异调用)。应用额外滤波器以去除假阳性,包括用于消除接近重叠群内图像的对角线的假检测的新颖递归算法。
假阳性过滤技术是非平凡的,并且对于准确性至关重要。下文所述的对角线路径查找器(DPF)是此方法中使用的减少假阳性的算法。对角线路径查找器在Python中实现。此算法用于确定可能的易位是否是染色体间的。对角线路径查找器的工作原理是遍历所有可能的Hi-C梯度路径。如果没有路径到达接触矩阵的主对角线,则易位是染色体间的。给定Hi-C数据的上三角形矩阵的行r和列c,“has_path_to_diag”确定此处是否是通往仅由强度>=mat[r,c]的单元组成的对角线的路径。函数has_path_to_diag(mat,r,c,val=None,exclude=None)具有以下参数:mat(np.array):强度值的2-D数组;r(int):起点的行索引;c(int):起点的列索引;val(float):起点的强度;exclude(set((int,int))):已探索的(行,列)元组的集合。函数returns:has_path(bool),其指示是否存在通向对角线的路径;以及exclude set((int,int)),其为已探索的(行,列)元组的集合。
Figure BDA0003333717570000821
Figure BDA0003333717570000831
最后,我们以标准变异调用格式(VCF)输出一组易位调用。原型代码已经对临床数据产生了可靠调用。边缘检测算法的结果可见于图7中,其中已鉴别出七个新型从头大规模染色体内事件。图6中示出了展示来自癌症样品的染色体3的接触矩阵的示例性图像。标记的角点对应于染色体上的结构变异。
本实施例中执行的步骤可概括如下:
1)以压缩的稀疏矩阵表示(40Kbp块组)存储相互作用
2)拟合一组迫使行和列的总和接近零的权重(忽略对角线100Kbp内的块组),并使用这些权重来计算每个块组的平衡相互作用密度
3)使用平衡相互作用密度计算全局阈值
a)顺式染色体对的每个对角线的中值
b)使用距对角线X bp的块组的中值平衡相互作用密度Y作为角点的最小阈值(例如4Mbp)。
4)对于矩阵的每个子区(染色体比较)
a)将平衡密度值裁剪为2*Y(防止对角线冲洗信号)
b)去噪子矩阵(使用双边方法保留边缘)
c)使用所得像素强度值(Z)
d)检测角点(哈里斯角点法或罗伯茨交叉*Z)
e)过滤假阳性
f)非最大抑制(去除单个峰值具有多个调用的情况)
g)对角线爬升(去除对角线附近的假、强边缘的调用,同时保留倒位)
h)邻阈值(从单个热像素中去除调用)
5)以VCF格式重建易位调用
6)在PDF报告中总结事件。
实例4:在染色体构象捕获数据中模拟染色体结构变异
鉴于测序大量样品的高成本,使用模拟Hi-C训练本文所公开的方法中使用的机器学习模型可能是有利的。下文描述了Python中的一种方法,其初始化能够模拟结构变异的类别,例如癌症突变和平衡易位、不平衡易位、插入和缺失,并且基于这些模拟结构变异生成模拟Hi-C数据。
类别HiCSimulator模拟HiC数据。其具有以下特性:fai(str):用于初始化模拟器的fai;gv(list):基因组载体;chrom_bin_lengths(str:int):每个染色体的长度,以块组计;bin_size(int):要制造的块组的大小;reads(int):要模拟的重叠群内读段的数量;background_reads(int):要模拟的重叠群间读段的数量;max_coordinate(int):组合中的最大坐标,用于将bp转换为像素模拟,默认为读段的0.1%;chrom_bounds(dict[tuple[int,int]):每个染色体的全局开始和结束坐标。如下地初始化类别HiCSimulator:
Figure BDA0003333717570000841
Figure BDA0003333717570000851
Customer HiCSimulator类别用于例如模拟癌症突变等结构变异,并根据Python中Hi-C协议的生化特征的统计模型,基于这些模拟结构变异来模拟Hi-C数据。
Figure BDA0003333717570000852
Figure BDA0003333717570000861
Figure BDA0003333717570000871
Figure BDA0003333717570000881
Figure BDA0003333717570000891
Figure BDA0003333717570000901
实例5:比较通过测序进行核型分析(KBS)方法与用于检测染色体结构变异的其它方法
使用来自白血病样品的数据,将基于深度学习的通过测序进行核型分析(KBS)方法与用于检测Hi-C数据集中的结构变异的其它三种当前方法进行比较。这些包括以下方法:
-hic_breakfinder(描述于Dixon,Jesse R等人“癌症基因组结构变化的综合检测和分析(Integrative detection and analysis of structural variation in cancergenomes).”《自然·遗传学(Nature genetics)》第50卷,10(2018):1388-1398.doi:10.1038/s41588-018-0195-8中),
-CNVnator(描述于Abyzov,Alexej等人“CNVnator:一种从家族和群体基因组测序中发现、基因分型和表征典型和非典型CNV的方法(CNVnator:an approach to discover,genotype,and characterize typical and atypical CNVs from family andpopulation genome sequencing).”《基因组研究(Genome research)》21.6(2011):974-984中),以及
-HiNT(描述于Wang,Su等人“HiNT:一种用于检测来自Hi-C数据的拷贝数变化和易位的计算方法(HiNT:a computational method for detecting copy number variationsand translocations from Hi-C data).”《生物档案(biorxiv)》(2019):657080中)。
与基于深度学习的KBS方法相反,这些工具都使用人类定义的算法来识别结构变异的特征。Hic_breakfinder聚合并过滤了3种不同工具的结果:DELLY、Lumpy和Control-FREEC。DELLY对比对和kmer数据使用动态编程方法。Lumpy使用比对来鉴别序列数据中的在参考基因组中不相邻的相邻碱基对,并且计算反映相对于参考的实际差异的碱基对的概率分布。Control-FREEC估算拷贝数,且用于细化由DELLY或Lumpy发出的调用,并尝试鉴别缺失。CNVnator寻找覆盖范围的变化,以鉴别拷贝数变异的变化,这是标准方法。CNVator通过分区方案细化标准方法,从而能够处理覆盖范围内的噪声/变化,并校正GC含量。HiNT以类似于CNVnator的方法检测拷贝数变异,除了其尝试校正GC含量、可映射性和限制性片段长度。为了找到易位,其通过查看1维Hi-C数据来鉴别可能的SV区域,然后检查与那些区域对齐的读段。与这些方法相反,KBS学习不同种类的变异是什么样子,而不是定义在不存在结构变异的情况下数据是什么样子的模型。然后,KBS计算给定数据集中存在变异的概率。
先前针对此样品进行核型分析和FISH分析,提供了预期样品中存在变异的基本事实。下表5示出了使用传统细胞遗传学检测的变异,以及通过每种基于Hi-C的方法对它们的检测效果。在表5中,“计数”是指计数真阳性和假阳性,漏失任何大小的事件的权重相等。“bp”是指按事件大小对这些调用加权,因此漏失1兆碱基调用比漏失1千碱基调用“更糟”1000倍。
表5.KBS与其它方法的比较
Figure BDA0003333717570000921
表5中的数据示出KBS、CNVator、hic_breakfinder和HiNT如何针对也进行1次FISH测试的真实核型数据集执行。通常,CNVator、hic_breakfinder和HiNT方法不如核型分析全面,并且具有比FISH更粗略的分辨率。此外,Hic_breakfinder难以检测缺失、插入或非整倍体。CNVnator无法检测易位。HiNT声称能够进行两者,但所述方法缺乏实际能力,如从表5可见。此外,只有KBS是学习模型,这意味着随着时间推移,其性能将随着其访问更多数据而提高。表5中的结果使用仅用10,000个模拟Hi-C数据集训练的KBS系统生成。
KBS方法对检测结构变异展示出显著更好的灵敏度,特别是在基于每个变异所影响的碱基对的数目对每个变异加权时。此外,其错误发现率明显优于其它方法中的两种,并且具有较好错误发现率的唯一其它方法具有非常差的灵敏度,也仅检测到八个真实事件中的一个。
图9示出了由白血病样品中的KBS检测到的事件。沿着图9的顶部边缘的三个红色框是表5中列出的三个假阳性,其似乎与染色体1的共同生物特征有关。由于KBS是基于深度学习的,因此使用更多数据训练系统可能会通过学习来降低错误发现率,因为KBS被训练以了解哪些模式属于正常生物变异。
下表6将KBS系统的能力与市场上可比的细胞遗传学方法进行比较。KBS方法表示与临床环境中可用的当前测试相比的显著改进。这些方法包括常规核型分析、FISH和染色体微阵列(CMA)。
表6.KBS相对于当前细胞遗传学方法
Figure BDA0003333717570000931
实例6:卷积神经网络(CNN)模型设计
两种常见的CNN架构resnet-50和RetinaNet为检测Hi-C矩阵中的结构变异提供了合适的起点。
在修改的resnet-50网络中使用小型模拟Hi-C数据集,在检测样品中不平衡易位的存在时实现了96.5%的准确度,损失为3.29%。鉴别此类易位的边界框的准确度为59.5%,且损失为3.58%。
在RetinaNet中测试相同的数据,对于检测超过1Mbp的位置模拟事件,实现了超过95%的平均精度。这些结果表明,尽管仅使用少量模拟数据和相对未修改的CNN,但使用此方法可实现至少与核型分析相当的性能。通过额外训练数据、定制CNN模型(包括测试其它网络方法,例如由yolo-v3;Redmon,J.和Farhadi,A.,2018.Yolov3:一种渐进式改进(Yolov3:An incremental improvement).arXiv preprint arXiv:1804.02767说明)以及最佳超参数的鉴别,模型性能将得到改进。由于用CNN识别事件的性质,CNN进行的每次调用的变异类别标记和置信度得分可用于对事件进行分类并滤出低置信度事件,以提高灵敏度和特异性。
实例7:训练机器学习模型
获取足够的高质量标记数据对于实施深度学习系统至关重要,这在基因组学中可能是一个昂贵且具有挑战性的问题。为了解决这些问题,将使用模拟Hi-C数据和现实世界Hi-C数据的组合在两阶段转移学习过程中训练CNN。
首先,将通过在人类参考基因组中随机产生结构变异(SV)和拷贝数变异(CNV)并随后模拟来自这些SV和CNV的Hi-C数据来生成模拟阳性样品。由于这些样品中的变化将以计算方式生成,因此也有可能为其提供精确标记,以详述在模拟Hi-C数据内已表示的变化。另外,将生成模拟数据集以向CNN提供阴性对照。
在大量(必要时,数百万或更多)模拟样品上训练CNN之后,将通过清除最后一层至两层CNN中的权重,并且仅使用来自较少量健康和肿瘤组织样品(约500)的实际Hi-C数据重新训练那些层上的权重来执行转移学习。此方法允许使用相对便宜的模拟数据来训练网络以检测Hi-C数据集中的基本特征,同时使用更昂贵的现实世界数据来训练它如何从这些特征外推真实的SV和CNV调用。
实例8:相对于健康细胞归一化Hi-C数据且鉴别精细变异
原始Hi-C数据可用于鉴别染色质结构以及CNV,例如缺失和重复中的细微变化。然而,天然染色质结构,例如拓扑关联域(TAD)和A/B区室可产生假阳性,并且因此,分析Hi-C数据的此类方法通常包括归一化程序以排除此类影响。Hi-C数据集的对称性质允许生成反映Hi-C数据的原始和归一化型式的矩阵,其中通过将原始Hi-C矩阵除以从健康组织生成的背景模型来生成归一化型式(图10)。
为了能够实现至少与FISH(105bp)一样精细的变异的分辨率而不需要CNN具有数百万个输入节点,将在多个尺度下生成Hi-C数据并对其进行递归分析。最初,将通过将矩阵分解为数百到数千个块组而在全基因组层面生成和检查矩阵(确切的初始块组大小是初始分辨率与性能之间的折衷,这将通过实验确定)。将在初始矩阵中通过CNN识别可能的SV和CNV的边界框。对于每个这样的边界框,将生成附加矩阵,所述附加矩阵以更精细的分辨率放大到边界框的坐标,其中具体分辨率由边界框的大小和CNN的输入层中的节点的数目确定。每个这样的矩阵将且通过传回CNN以生成一个或多个精细化边界框坐标。此过程将递归地重复,直到获得所需分辨率(10kb),或边界框无法进一步细化。以此方式,放大使得能够对超出其它分析方法的能力的复杂结构变异进行精细分析(图11)。通过确保训练数据包括复杂变异的标记实例,CNN将有机会学习如何从其Hi-C模式识别此类事件。

Claims (98)

1.一种治疗具有染色体结构变异的受试者的方法,其包含:
a.接收来自所述受试者的样品的测试读段集;
b.将来自所述受试者的所述测试读段集与参考基因组进行比对,以产生来自所述受试者的映射读段集;
c.从所述映射读段集生成几何数据结构;
d.训练机器学习模型以区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;
e.在训练所述机器学习模型之后,将所述机器学习模型应用于来自所述受试者的所述几何数据结构;
f.基于将所述机器学习模型应用于来自所述受试者的所述几何数据结构来计算所述受试者具有已知染色体结构变异的似然度;和
g.基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型;
其中所述测试读段集、所述来自健康受试者的读段集和所述对应于已知染色体结构变异的读段集是通过染色体构象分析技术生成。
2.根据权利要求1所述的方法,其中所述已知染色体结构变异在受试者中引起疾病或病症。
3.根据权利要求1或2所述的方法,其进一步包含如果所述核型指示所述受试者具有所述已知染色体结构变异,那么治疗所述受试者中的由所述已知染色体结构引起的疾病或病症。
4.根据权利要求1至3中任一项所述的方法,其中所述机器学习模型包括深度学习模型、梯度下降模型、图形网络模型、神经网络模型、支持向量机、导出系统模型、决策树模型、逻辑回归模型、聚类模型、马尔可夫模型(Markov model)、蒙特卡洛模型(Monte Carlomodel)或似然模型。
5.根据权利要求1至3中任一项所述的方法,其中所述机器学习模型是似然模型分类器。
6.根据权利要求5所述的方法,其中在步骤(d)中训练所述似然模型分类器包含:
i.将从来自健康受试者的读段集生成的多个几何数据结构接收到所述机器学习模型中;
ii.将从对应于已知染色体结构变异的读段集生成的多个几何数据结构接收到所述机器学习模型中;
iii.将每个已知染色体结构变异表示为包含所述染色体结构变异的基因组中的起始位置和结束位置的边界矩形,以及标记;
iv.使用负二项分布模型对来自(i)和(ii)的所述读段集的任何两个基因组位置之间的连接频率进行建模;和
v.训练所述负二项分布模型以识别来自健康受试者的所述多个读段集的零分布,
其中所述负二项分布模型被训练成识别每个已知染色体结构变异的所述边界矩形处的零分布。
7.根据权利要求1至6中任一项所述的方法,其中生成来自所述测试读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集的所述几何数据结构包含:
i.按基因组位置划分所述读段集;和
ii.将所述划分的读段集转换为几何数据结构。
8.根据权利要求6或7所述的方法,其中所述几何数据结构表示读段集中的每一个的任何两个基因组位置之间的连接频率。
9.根据权利要求7或8所述的方法,其中所述划分步骤将所述读段集划分成对应于核型中的细胞遗传带的基因组位置。
10.根据权利要求9所述的方法,其中所述核型中的所述细胞遗传带包含每个带约5Mb的分辨率。
11.根据权利要求6至10中任一项所述的方法,其中以实验方式确定对应于(ii)中的已知染色体结构变异的至少一个读段集。
12.根据权利要求6至10中任一项所述的方法,其中模拟对应于(ii)中的已知染色体结构变异的至少一个读段集。
13.根据权利要求6至12中任一项所述的方法,其中(i)中的来自健康受试者的至少一个读段集包含模拟读段集、理论读段集或从健康组织以实验方式确定的读段集。
14.根据权利要求13所述的方法,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。
15.根据权利要求6至14中任一项所述的方法,其中来自健康受试者的所述读段集包含对应于每个已知染色体结构变异的所述基因组位置的读段。
16.根据权利要求1至15中任一项所述的方法,其中所述几何数据结构是k维树(k-d树)。
17.根据权利要求16所述的方法,其中所述k-d树是2维(2-d)k-d树。
18.根据权利要求17所述的方法,其中所述k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示所述来自所述受试者的读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集的任何两个基因组位置之间的连接频率。
19.根据权利要求16至18中任一项所述的方法,其中所述k-d树可编码任意分辨率。
20.根据权利要求19所述的方法,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
21.根据权利要求1至15中任一项所述的方法,其中所述几何数据结构是矩阵。
22.根据权利要求21所述的方法,其中所述矩阵的每个单元表示所述来自所述受试者的读段集、所述来自健康受试者的读段集或所述对应于已知染色体结构变异的读段集中的每一个的任何两个基因组位置之间的连接频率。
23.根据权利要求22所述的方法,其中所述矩阵的每个单元包含所述受试者的所述基因组的约100万至1000万个碱基对(bp)。
24.根据权利要求22所述的方法,其中所述矩阵的每个单元包含所述受试者的所述基因组的约300万个bp。
25.根据权利要求6至24中任一项所述的方法,其中步骤(iii)的所述标记将所述已知染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
26.根据权利要求1至25中任一项所述的方法,其进一步包含在生成所述几何数据结构之前滤出所述测试读段集中与所述参考基因组比对不佳的读段。
27.根据权利要求26所述的方法,其中步骤(e)的应用所述机器学习模型包含将来自所述受试者的所述测试读段集的所述几何数据结构拟合到零模型且拟合到每个已知染色体结构变异的替代模型。
28.根据权利要求27所述的方法,其中所述拟合包含跨越整个基因组的拟合。
29.根据权利要求26所述的方法,其中所述拟合包含跨越对应于每个已知染色体或亚染色体结构变异的边界矩形的基因组的一部分的拟合。
30.根据权利要求6至29中任一项所述的方法,其中步骤(f)包含计算将所述经转换和划分的测试读段集拟合到所述零模型与每个已知染色体结构变异的所述替代模型的似然比。
31.根据权利要求30所述的方法,其中当所述已知染色体变异的所述似然比小于0.5、0.45、0.40、0.35、0.30、0.25、0.20、0.15、0.10、0.09、0.08、0.07、0.06、0.05、0.04、0.03、0.02、0.01、0.009、0.008、0.007、0.006、0.005、0.003、0.002、0.001、0.0009、0.0008、0.007、0.006、0.005、0.0004、0.0003、0.0002或0.0001时,确定所述受试者具有已知染色体结构变异。
32.根据权利要求30所述的方法,其中所述似然比大于75%、80%、85%、90%、95%、96%、97、98%、99%、99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%或99.9%。
33.根据权利要求30所述的方法,其中所述似然比表示为对数似然比。
34.根据权利要求1至33中任一项所述的方法,其中染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure FDA0003333717560000041
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在PacificBiosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
35.根据权利要求1至34中任一项所述的方法,其中所述受试者患有癌症。
36.根据权利要求35所述的方法,其中所述样品来自肿瘤。
37.根据权利要求36所述的方法,其中所述肿瘤为实体肿瘤或液体肿瘤。
38.一种确定受试者是否具有已知染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于接收来自所述受试者的样品的测试读段集的指令;
其中所述测试读段集是通过染色体构象分析技术生成;
ii.用于将来自所述受试者的所述测试读段集映射到参考基因组上的指令;
iii.用于从所述映射读段集生成几何数据结构的指令;
iv.用于在训练机器学习模型之后将所述机器学习模型应用于来自所述受试者的测试读段集的所述几何数据结构的指令,
其中所述机器学习模型被训练成区分来自健康受试者的读段集与对应于已知染色体结构变异的读段集的几何数据结构;
v.用于基于将所述机器学习模型应用于所述测试读段集来计算来自测试读段集的所述几何数据结构含有已知染色体结构变异的似然度的指令;和
vi.用于基于所述受试者具有所述已知染色体结构变异的似然度生成所述受试者的核型的指令;和
b.处理器,所述处理器被配置成执行包含以下的步骤:
i.接收包含来自所述受试者的所述测试读段集和所述参考基因组的输入文件集,和
ii.执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
39.一种鉴别受试者的染色体结构变异的方法,其包含:
a.训练第一机器学习模型以鉴别包含至少一个染色体结构变异的第一接触矩阵的至少一个区域;
b.通过所述第一机器学习模型从受试者接收所述第一接触矩阵,
其中所述第一接触矩阵是通过染色体构象分析技术产生;
c.将所述第一机器学习模型应用于所述第一接触矩阵以鉴别含有至少一个染色体结构变异的所述第一接触矩阵的至少一个区域;
d.将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始位置和结束位置的边界框,以及标记;
e.训练第二机器学习模型以将所述至少一个染色体结构变异与生物信息相关联;
f.通过所述第二机器学习模型接收由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;和
g.在训练所述第二机器学习模型之后,将所述第二机器学习模型应用于由所述第一机器学习分类器鉴别的所述至少一个染色体结构变异的所述边界框和所述标记;
从而鉴别所述受试者的每个染色体结构变异和与所述受试者的每个染色体结构变异相关的所述生物信息。
40.根据权利要求39所述的方法,其中所述第一接触矩阵的每个单元包含所述受试者的所述基因组的约100bp至10,000,000bp。
41.根据权利要求39或40所述的方法,其中所述第一接触矩阵包含所述受试者的整个基因组。
42.根据权利要求39至41中任一项所述的方法,其在步骤(d)之后且在步骤(e)之前进一步包含:
i.生成第二接触矩阵,
其中所述第二接触矩阵包含所述边界框的起始和结束基因组位置,且
其中所述第二接触矩阵的分辨率比所述第一接触矩阵的分辨率更精细;
ii.将所述第一机器学习模型应用于所述第二接触矩阵以鉴别含有所述至少一个染色体结构变异的所述第二接触矩阵的至少一个区域;和
iii.将所述至少一个染色体结构变异表达为包含所述至少一个染色体结构变异的第二起始和第二结束基因组位置的第二边界框,以及所述标记,
其中所述第二边界框包含比所述边界框更高的分辨率。
43.根据权利要求42所述的方法,其进一步包含重复步骤(i)、(ii)和(iii)直至达到所述接触矩阵的每单元至少500,000bp、每单元至少100,000bp、每单元至少50,000bp、每单元至少10,000bp、每单元至少1,000bp、每单元至少500bp或每单元至少100bp的分辨率为止。
44.根据权利要求39至43中任一项所述的方法,其中所述第一接触矩阵包含可以任意分辨率访问的数据结构。
45.根据权利要求44所述的方法,其中所述数据结构包含k维树(k-d树)。
46.根据权利要求45所述的方法,其中所述k-d树是2维(2-d)k-d树。
47.根据权利要求46所述的方法,其中所述2-d k-d树的第一轴线表示第一基因组区域,且所述k-d的第二轴线表示第二基因组位置,且其中所述k-d树表示任何两个基因组位置之间的连接频率。
48.根据权利要求45至47中任一项所述的方法,其中所述2-d k-d树可编码任意分辨率。
49.根据权利要求48所述的方法,其中基于已知染色体结构变异的大小来选择所述任意分辨率。
50.根据权利要求39至49中任一项所述的方法,其中所述第一接触矩阵为平均接触矩阵、中值接触矩阵或具有百分位数截止的接触矩阵。
51.根据权利要求50所述的方法,其中所述平均接触矩阵具有每单元100bp至每单元10,000,000bp的分辨率。
52.根据权利要求39至51中任一项所述的方法,其中所述标记将所述染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
53.根据权利要求39至52中任一项所述的方法,其中所述第一机器学习模型包含卷积神经网络(CNN)。
54.根据权利要求53所述的方法,其中训练所述第一机器学习模型包含针对由模拟和/或生物样品生成的接触矩阵训练所述CNN。
55.根据权利要求54所述的方法,其中训练所述CNN包含:
i.由所述CNN接收第一训练数据集,
其中所述训练数据集包含由模拟和/或生物样品生成的接触矩阵;
ii.使用迁移学习将预训练模型应用于所述CNN;和
iii.用第二训练数据集重新训练所述CNN,
其中所述第二训练数据集包含来自生物样品的接触矩阵或由其组成。
56.根据权利要求55所述的方法,其中所述第一训练数据集包含来自不具有染色体结构变异的受试者的接触矩阵或由其组成。
57.根据权利要求55所述的方法,其中所述第一训练数据集包含来自具有染色体结构变异的受试者的至少一个接触矩阵。
58.根据权利要求55所述的方法,其中所述第一训练数据集含有包含多个染色体结构变异的接触矩阵。
59.根据权利要求56至58中任一项所述的方法,其中所述第一训练数据集包含全基因组接触矩阵和由基因组的一部分组成的接触矩阵。
60.根据权利要求39至59中任一项所述的方法,其中来自所述受试者的所述第一接触矩阵是如下地生成:
a.对来自所述受试者的样品执行染色体构象分析技术以生成读段集;
b.将来自所述受试者的所述读段集与参考基因组比对;和
c.将所述比对的读段集转换为接触矩阵。
61.根据权利要求60所述的方法,其中所述染色质构象分析技术包含染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure FDA0003333717560000081
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在Pacific Biosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
62.根据权利要求60或61所述的方法,其进一步包含在将来自所述受试者的所述比对的读段集转换为所述接触矩阵之前滤出来自所述受试者的所述读段集中与所述参考基因组比对不佳的读段。
63.根据权利要求39至62中任一项所述的方法,其中所述第二机器学习模型包含递归神经网络、感测检测器或k-最近邻模型。
64.根据权利要求63所述的方法,其中所述感测检测器是使用来自已知染色体结构变异的临床标记数据、诊断数据、临床结果数据、药物或治疗反应数据或代谢数据来训练。
65.根据权利要求39至64中任一项所述的方法,其中所述第二机器学习模型将所述染色体结构变异鉴别为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
66.根据权利要求39至65中任一项所述的方法,其中所述生物信息包含一个或多个基因、诊断、患者结果、代谢效应、药物靶标、药物反应、治疗过程或其组合。
67.根据权利要求66所述的方法,其中所述受试者患有由所述至少一个染色体结构变异引起的疾病或病症。
68.根据权利要求67所述的方法,其中所述方法包含治疗所述受试者的由所述至少一个染色体结构变异引起的所述疾病或病症。
69.根据权利要求39至68中任一项所述的方法,其中所述受试者患有癌症。
70.根据权利要求69所述的方法,其中来自所述受试者的所述第一接触矩阵是来自癌症样品。
71.根据权利要求70所述的方法,其中所述癌症为实体肿瘤或液体肿瘤。
72.一种鉴别受试者的染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于通过第一机器学习模型从受试者接收第一接触矩阵的指令,
其中所述第一接触矩阵是通过染色体构象分析技术产生;
ii.用于将所述第一机器学习模型应用于所述接触矩阵以鉴别包含至少一个染色体结构变异的所述第一接触矩阵的至少一个区域的指令;
iii.用于将由所述第一机器学习模型鉴别的每个染色体结构变异表达为包含基因组中的起始和结束的边界框以及标记的指令;
iv.用于将由所述第一机器学习模型鉴别的所述至少一个染色体结构变异的所述边界框和所述标记接收至第二机器学习模型中的指令;和
v.用于应用所述第二机器学习模型的指令,
其中所述第二机器学习模型被训练成将染色体结构变异与生物信息相关联,且其中应用所述第二机器学习模型是在训练所述第二机器学习模型之后发生;和
b.处理器,所述处理器被配置成执行包含以下的步骤:
i.接收至少包含来自所述受试者的所述第一接触矩阵的输入文件集;和
ii.执行存储在所述计算机可读存储介质中的所述计算机可执行指令。
73.一种鉴别受试者的染色体结构变异的方法,其包含:
a.接收接触矩阵,
其中所述接触矩阵是通过应用于来自所述受试者的样品的染色体构象分析技术产生;
b.将所述接触矩阵表示为图像,
其中所述图像中的每个像素的强度表示所述接触矩阵中的两个基因组位置之间的连接密度;和
c.将图像处理应用于所述图像;
从而检测所述受试者的染色体结构变异。
74.根据权利要求73所述的方法,其中每个像素表示所述受试者的基因组的5-500千碱基对(kbp)。
75.根据权利要求73所述的方法,其中每个像素表示所述受试者的基因组的40kbp。
76.根据权利要求73至75中任一项所述的方法,其中步骤(c)中的所述图像处理包含:
i.将全局归一化应用于所述图像;
ii.将第一阈值应用于所述图像;
iii.鉴别对应于染色体比较的所述图像的子区;
iv.将第二阈值应用于每个子区;
v.对每个子区进行去噪;
vi.将边缘和/或角点检测算法应用于所述图像;
vii.应用至少一个滤波器以去除假阳性;和
viii.确定所述图像中的所有染色体结构变异的基因组位置。
77.根据权利要求76所述的方法,其中(vi)的应用边缘和/或角点检测算法包含将所述边缘和/或角点检测算法应用于每个子区。
78.根据权利要求76所述的方法,其中(i)的所述全局归一化包含将权重矩阵拟合到所述图像。
79.根据权利要求76所述的方法,其中所述矩阵中的每个单元对应于所述图像中的像素。
80.根据权利要求79所述的方法,其中拟合权重矩阵包含
i.从健康样品生成接触矩阵;
ii.将来自健康受试者的所述接触矩阵表示为来自所述健康受试者的图像;和
iii.从所述图像减去来自所述健康受试者的图像,
其中排除所述图像的顺式染色体对角线的10-300kbp内的像素。
81.根据权利要求80所述的方法,其中来自健康样品的所述接触矩阵是使用模拟读段集、理论读段集或从健康组织以实验方式确定的读段集生成。
82.根据权利要求81所述的方法,其中所述健康组织包含来自所述受试者的不具有所述疾病或病症的组织。
83.根据权利要求81所述的方法,其中来自所述健康样品的所述接触矩阵包含参考矩阵。
84.根据权利要求80所述的方法,其中从所述图像减去所述权重矩阵使所述图像的每行和每列像素的总和最小化。
85.根据权利要求80至84中任一项所述的方法,其进一步包含计算每个像素的平衡交互密度。
86.根据权利要求76至85中任一项所述的方法,其中所述第一阈值包含全局阈值。
87.根据权利要求86所述的方法,其中所述全局阈值是使用每个像素的平衡密度交互来计算。
88.根据权利要求76至87中任一项所述的方法,其中所述边缘和/或角点检测算法包含哈里斯角点法(Harris corner method)、罗伯茨交叉法(Roberts cross method)、霍夫变换(Hough transform)或其组合。
89.根据76至88中任一项所述的方法,其中用于去除假阳性的所述至少一个滤波器包含对角线路径查找器、非最大抑制滤波器、邻阈值或其组合。
90.根据权利要求73至89中任一项所述的方法,其中所述染色体结构变异为平衡易位、不平衡易位、倒位、插入、缺失、重复扩增或其组合。
91.根据权利要求73至90中任一项所述的方法,其中所述受试者患有由所述染色体结构变异引起的疾病或病症。
92.根据权利要求91所述的方法,其进一步包含治疗所述受试者的由所述染色体结构变异引起的所述疾病或病症。
93.根据权利要求73至92中任一项所述的方法,其中所述染色体构象分析技术染色质构象捕获(3C)、环化染色质构象捕获(4C)、碳拷贝染色体构象捕获(5C)、染色质免疫沉淀(ChIP)、ChIP-Loop、Hi-C、组合3C-ChIP-克隆(6C)、Capture-C、Split-pool条形码(SPLiT-seq)、核连接分析(NLA)、单细胞Hi-C(scHi-C)、组合单细胞Hi-C、多联体连接分析(COLA)、靶标下的裂解和使用核酸酶释放(CUT&RUN)、体外邻近连接
Figure FDA0003333717560000111
原位邻近连接(原位Hi-C)、邻近连接接着在Oxford Nanopore机器上测序(Pore-C)、在PacificBiosciences机器上测序的邻近连接(SMRT-C)、DNA酶Hi-C、Micro-C或Hybrid Capture Hi-C。
94.一种鉴别受试者的染色体结构变异的系统,其包含:
a.计算机可读存储介质,其存储计算机可执行指令,所述计算机可执行指令包含:
i.用于接收接触矩阵的指令,
其中所述接触矩阵是通过应用于来自所述受试者的样品的染色体构象分析技术产生;
ii.用于将所述接触矩阵表示为图像的指令,
其中所述图像中的每个像素的强度表示所述接触矩阵中的两个基因组位置之间的连接密度;和
iii.用于将图像处理应用于所述图像的指令;和
b.处理器,所述处理器被配置成执行以下步骤:执行用于接收第一接触矩阵、将所述接触矩阵表示为图像以及将图像处理应用于所述图像的所述计算机可执行指令,所述指令存储在所述计算机可读存储介质中;
从而检测所述受试者的染色体结构变异。
95.根据权利要求73至94中任一项所述的方法,其中所述受试者患有癌症。
96.根据权利要求95所述的方法,其中所述样品来自肿瘤。
97.根据权利要求96所述的方法,其中所述肿瘤为实体肿瘤或液体肿瘤。
98.一种方法,其包含:
a.使来自受试者的样品与稳定剂接触,其中所述样品包含核酸;
b.将所述核酸裂解成至少包含第一区段和第二区段的多个片段;
c.在接合处附接所述第一区段和所述第二区段以生成包含附接区段的多个片段;
d.在包含附接区段的所述多个片段的所述接合处的每一侧上获得至少一些序列以生成多个读段;和
e.应用根据权利要求1至37、39至71或73至96中任一项所述的方法。
CN202080033103.1A 2019-03-28 2020-03-27 通过测序进行核型分析的系统和方法 Pending CN114026644A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962825499P 2019-03-28 2019-03-28
US62/825,499 2019-03-28
PCT/US2020/025528 WO2020198704A1 (en) 2019-03-28 2020-03-27 Systems and methods for karyotyping by sequencing

Publications (1)

Publication Number Publication Date
CN114026644A true CN114026644A (zh) 2022-02-08

Family

ID=72610735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080033103.1A Pending CN114026644A (zh) 2019-03-28 2020-03-27 通过测序进行核型分析的系统和方法

Country Status (8)

Country Link
US (1) US20220180964A1 (zh)
EP (1) EP3948872A4 (zh)
JP (1) JP2022526440A (zh)
CN (1) CN114026644A (zh)
AU (1) AU2020248338A1 (zh)
CA (1) CA3135026A1 (zh)
SG (1) SG11202110655UA (zh)
WO (1) WO2020198704A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611164A (zh) * 2022-03-18 2022-06-10 广州威创信息技术有限公司 一种基于大数据的信息安全管理系统
CN115188413A (zh) * 2022-06-17 2022-10-14 广州智睿医疗科技有限公司 一种染色体核型分析模块

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3765634A4 (en) 2018-03-16 2021-12-01 Scipher Medicine Corporation METHODS AND SYSTEMS FOR PREDICTING THE RESPONSE TO ANTI-TNF THERAPIES
GB2603294A (en) 2019-06-27 2022-08-03 Scipher Medicine Corp Developing classifiers for stratifying patients
US11651862B2 (en) * 2020-12-09 2023-05-16 MS Technologies System and method for diagnostics and prognostics of mild cognitive impairment using deep learning
CN112257692B (zh) * 2020-12-22 2021-03-12 湖北亿咖通科技有限公司 一种行人目标的检测方法、电子设备及存储介质
TWI783699B (zh) * 2021-02-09 2022-11-11 國立臺灣大學 一種判別源自不同個體之基因的方法及其深度學習模型
WO2022197968A1 (en) * 2021-03-19 2022-09-22 Scipher Medicine Corporation Methods of classifying and treating patients
CN113156390B (zh) * 2021-03-19 2023-09-08 深圳航天科技创新研究院 雷达信号处理方法及设备、计算机可读存储介质
CN113298855B (zh) * 2021-05-27 2021-12-28 广州柏视医疗科技有限公司 基于自动勾画的图像配准方法
CN113589191B (zh) * 2021-07-07 2024-03-01 郴州雅晶源电子有限公司 一种电源故障诊断系统及方法
CN113762335B (zh) * 2021-07-27 2022-05-13 北京交通大学 一种基于不确定性的智能系统测试数据生成方法
CN116583905B (zh) * 2021-11-23 2024-05-10 染色质(北京)科技有限公司 生成增强Hi-C矩阵的方法、识别增强Hi-C矩阵中结构染色质像差的方法及可读介质
WO2023172882A2 (en) * 2022-03-07 2023-09-14 Arima Genomics, Inc. Methods and compositions for identifying structural variants
WO2023172923A2 (en) * 2022-03-08 2023-09-14 BioSkryb Genomics, Inc. Systems and methods relating to bioinformatics
WO2024006744A2 (en) * 2022-06-28 2024-01-04 Foundation Medicine, Inc. Methods and systems for normalizing targeted sequencing data
CN115082474B (zh) * 2022-08-22 2023-03-03 湖南自兴智慧医疗科技有限公司 一种基于同源同类染色体信息的染色体分割方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2563937A1 (en) * 2011-07-26 2013-03-06 Verinata Health, Inc Method for determining the presence or absence of different aneuploidies in a sample
AU2015267190B2 (en) * 2014-05-30 2020-10-01 Sequenom, Inc. Chromosome representation determinations
US9984201B2 (en) * 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
JP6765433B2 (ja) * 2016-02-12 2020-10-07 リジェネロン・ファーマシューティカルズ・インコーポレイテッドRegeneron Pharmaceuticals, Inc. 異常な核型の検出のための方法
GB201608000D0 (en) * 2016-05-06 2016-06-22 Oxford Biodynamics Ltd Chromosome detection

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114611164A (zh) * 2022-03-18 2022-06-10 广州威创信息技术有限公司 一种基于大数据的信息安全管理系统
CN114611164B (zh) * 2022-03-18 2022-10-11 昆山华东信息科技有限公司 一种基于大数据的信息安全管理系统
CN115188413A (zh) * 2022-06-17 2022-10-14 广州智睿医疗科技有限公司 一种染色体核型分析模块
WO2023240820A1 (zh) * 2022-06-17 2023-12-21 广州智睿医疗科技有限公司 一种染色体核型分析模块

Also Published As

Publication number Publication date
CA3135026A1 (en) 2020-10-01
US20220180964A1 (en) 2022-06-09
EP3948872A4 (en) 2023-04-26
SG11202110655UA (en) 2021-10-28
EP3948872A1 (en) 2022-02-09
WO2020198704A1 (en) 2020-10-01
JP2022526440A (ja) 2022-05-24
AU2020248338A1 (en) 2021-11-18

Similar Documents

Publication Publication Date Title
CN114026644A (zh) 通过测序进行核型分析的系统和方法
AU2019206709B2 (en) Deep learning-based variant classifier
JP6749972B2 (ja) 遺伝子の変動の非侵襲性評価のための方法および処理
Zhang Advanced analysis of gene expression microarray data
AU2021257920A1 (en) Variant classifier based on deep neural networks
Armstrong et al. Microarray data analysis: from hypotheses to conclusions using gene expression data
WO2019200338A1 (en) Variant classifier based on deep neural networks
CA3160566A1 (en) Systems and methods for predicting homologous recombination deficiency status of a specimen
JP2023507252A (ja) パッチ畳み込みニューラルネットワークを用いる癌分類
Rajkumar et al. EcSeg: semantic segmentation of metaphase images containing extrachromosomal DNA
Scharpf et al. Statistical modeling and visualization of molecular profiles in cancer
Wang et al. De-noising spatial expression profiling data based on in situ position and image information
Chakraborty et al. dcHiC: differential compartment analysis of Hi-C datasets
Wang et al. De-noising Spatial Transcriptomics Data Based on Position and Image Information
US20220403371A1 (en) Chromosome conformation capture from tissue samples
Kim et al. A method for generating new datasets based on copy number for cancer analysis
WO2023081260A1 (en) Systems and methods for cell-type identification
Wang et al. Mining raw gene expression microarray data for analyzing synchronous and metachronous liver metastatic lesions from colorectal cancer
Kiviaho Spatial chromatin accessibility: a computational method for single cell ATAC-seq and spatial transcriptomics data integration
NZ791625A (en) Variant classifier based on deep neural networks
Grużdź et al. Interactive SOM-based gene grouping: An approach to gene expression data analysis
Ververa et al. Prioritization of Candidate Disease Genes using Microarray Data and Functional Relations
Kim et al. Research Article A Method for Generating New Datasets Based on Copy Number for Cancer Analysis
Myers Context-sensitive methods for learning from genomic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40060783

Country of ref document: HK