CN112802548A - 单样本全基因组预测等位基因特异性拷贝数变异的方法 - Google Patents
单样本全基因组预测等位基因特异性拷贝数变异的方法 Download PDFInfo
- Publication number
- CN112802548A CN112802548A CN202110020493.5A CN202110020493A CN112802548A CN 112802548 A CN112802548 A CN 112802548A CN 202110020493 A CN202110020493 A CN 202110020493A CN 112802548 A CN112802548 A CN 112802548A
- Authority
- CN
- China
- Prior art keywords
- copy number
- number variation
- allele
- sample
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种单样本全基因组预测等位基因特异性拷贝数变异的方法,该方法包括:分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。本发明只需要单样本,无需配对的正常样本,所需待测样本的测序深度低,检测准确度高,可检测低肿瘤纯度样本的同源重组缺陷。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种单样本全基因组预测等位基因特异性拷贝数变异的方法。
背景技术
近年来,随着聚ADP核糖聚合酶抑制剂(Poly ADP-ribose Polymeraseinhibitors,PARPi)的出现和应用,卵巢癌等其他癌症患者维持治疗取得了较大突破,BRCA突变和同源重组缺陷(Homologous Recombination Deficiency,HRD)状态作为标志物的指导作用在临床实践应用中日益凸显。临床上PARP抑制剂获益人群从BRCA突变患者扩展到HRD阳性人群,也就意味着,更多癌症患者有机会从PARP抑制剂的治疗中获益。同时,药物适用癌种也从卵巢癌扩展到乳腺癌、前列腺癌、胰腺癌、膀胱癌等实体瘤患者。
目前,市面上针对PARP抑制剂相关生物标志物检测的策略主要有如下三种:1)BRCA1/2基因检测;2)同源重组修复通路基因检测;3)HRD检测。其中第三种检测方法获益人群最高,约为70%。针对HRD的检测方法,虽然有不同的策略和决策,但是检测基因组杂合性缺失(Loss of Heterozygosity,LOH)、端粒等位基因不平衡(Telomeric AllelicImbalance,TAI)、大片段迁移(Large-scale state Transition,LST)三个基因组不稳定性指标来计算HRD评分策略的准确度高且被广泛接受。
HRD的检测主要有两种,探针捕获高密度芯片和高深度全基因组测序(30×)。全基因组测序检测HRD主要优点是:1)没有芯片捕获偏好;2)覆盖全基因的所有位点;3)无人群位点偏好性。但缺点是需要进行高深度测序,造成测序成本较高;低深度测序策略只能准确分析LST(Large-scale state Transition,大片段迁移)指标,假阴性高;对于肿瘤纯度低的样本需要更高的测序深度,进一步增加成本。
发明内容
根据第一方面,在一些实施例中,提供一种单样本全基因组预测等位基因特异性拷贝数变异的方法,包括:
分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。
根据第二方面,在一些实施例中,提供一种单样本全基因组检测同源重组缺陷的方法,包括:
等位基因特异性拷贝数变异预测步骤,包括根据第一方面所述方法获得待测样本中染色体每个区段的等位基因特异性拷贝数变异信息;
同源重组缺陷预测步骤,包括根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
根据第三方面,在一些实施例中,提供一种单样本全基因组预测等位基因特异性拷贝数变异的系统,包括:
等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。
根据第四方面,在一些实施例中,提供一种单样本全基因组检测同源重组缺陷的系统,包括:
等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息;
同源重组缺陷预测装置,用于根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
根据第五方面,在一些实施例中,提供一种单样本全基因组检测同源重组缺陷的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现第一方面和/或第二方面所述的方法。
根据第六方面,在一些实施例中,提供一种计算机可读存储介质,其上存储有程序,所述程序能够被处理器执行以实现第一方面和/或第二方面所述的方法。
依据上述实施例的单样本全基因组预测等位基因特异性拷贝数变异及其检测同源重组缺陷的方法,只需要单样本,无需配对的正常样本,所需待测样本的测序深度低,检测准确度高,可检测低肿瘤纯度样本的同源重组缺陷。
附图说明
图1显示为一种实施例的单样本全基因组检测同源重组缺陷的流程图;
图2显示为一种实施例的AA型候选信号位点BAF分布图;
图3显示为一种实施例的AB型候选信号位点BAF分布图;
图4显示为一种实施例中使用十乘交叉对训练模型数据的检验结果图;
图5显示为一种实施例的相关性曲线图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
术语解释
LOH:Loss of heterozygosity,杂合性缺失,是指位于一对同源染色体上的相同基因座位的两个等位基因中的一个(或其中部分核苷酸片段)发生缺失,与之配对的染色体上仍然存在。
cnLOH:Copy neutral LOHs,拷贝中性LOH,亦称拷贝中性杂合性缺失,。
WGS:Whole genome sequence,全基因组测序。
HRD:Homologous Recombination Deficiency,同源重组缺陷。
CNV:Copy number variations,基因拷贝数变异。
TCNV:Total copy number alterations,总拷贝数变异。
ASCNV:Allele-specific copy number alterations,等位基因特异性拷贝数变异。
BAF:B allele frequency,次等位基因频率,是指在给定群体中,第二常见的基因型(次等位基因)出现的基因频率就称为次等位基因频率。
TAI:Telomeric Allelic Imbalance,端粒等位基因不平衡。
LST:Large-scale state Transition,大片段迁移。
WGD:whole genome duplication,全基因组复制,亦称全基因组重复。
reads:读段,测序仪产生的核苷酸序列被称为“读段”。序列读段长度可以在几十到几千个核苷酸之间。
mutil allele位点:在种群中,同源染色体的相同位点上,可以存在两种以上的等位基因,遗传学上把这种等位基因称为复等位基因,即multiple alleles,亦称复等位基因位点。
测序深度:测序得到的碱基总量(bp)与基因组大小(Genome)的比值。例如,测序深度为10×,表示测序得到的碱基总量(bp)与基因组大小(Genome)的比值为10。
本文中,突变(mutation)是指生物体基因组、病毒基因组或染色体外DNA基因组核苷酸序列的改变。“突变”、“变异”可互换使用。
在一些实施例中,本发明的目的是提供一种基于机器学习算法的低深度(测序深度可以为10×)单样本全基因组多指标的HRD分析方法。
根据第一方面,在一些实施例中,提供一种单样本全基因组预测等位基因特异性拷贝数变异的方法,包括:
分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。
在一些实施例中,如果总拷贝数变异信息为奇数区间,则等位基因等位基因A=1,等位基因等位基因B=N-1;其中,N为该区间的总拷贝数变异信息。
在一些实施例中,如果总拷贝数变异信息为0区间,则等位基因A=0,等位基因B=0。
在一些实施例中,如果染色体区段的总拷贝数变异信息为非0偶数区间,通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括:按照滑动窗口对总拷贝数变异信息进行切割,并独立预测各个滑动窗口的拷贝数变异类型,然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息。
在一些实施例中,所述滑动窗口的长度为2Mb-3Mb。1Mb=1000kb=1000000bp。
在一些实施例中,所述滑动窗口的长度为2Mb或3Mb。
在一些实施例中,获取滑动区间内的候选信号位点的次等位基因频率信息分布,然后提取次等位基因频率信息分布曲线矩阵值,将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合,将整合结果输入模型,使用模型预测得到该区间的基因拷贝数变异类型,然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息。
在一些实施例中,按以下规则将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息:
1)如果模型预测的基因拷贝数变异类型为AA,则等位基因A=0,等位基因B=N,其中,N为该区间的总拷贝数变异信息;
2)如果模型预测的基因拷贝数变异类型为AB,则等位基因A=等位基因B=N/2,其中,N为该区间的总拷贝数变异信息。
在一些实施例中,所述候选信号位点需满足以下条件中的至少一种:
1)该位点为杂合位点;
2)位点测序深度大于6;
3)该位点为非复等位基因位点(即非mutil allele位点);
4)该位点的比对质量值大于10,比对质量值MAPQ=-10*log10{mapping出错的概率},比对质量值越大,则正确几率越大;
5)该位点不在黑名单区间上;
6)该位点与相邻的候选信号位点距离大于30bp。
在一些实施例中,所述候选信号位点需满足条件1)至条件6)中的全部。
在一些实施例中,所述黑名单区间包括但不限于染色体上重复序列区域、端粒重复区域。
在一些实施例中,所述待测样本的测序数据的测序深度≥8×。在另一些实施例中,所述待测样本的测序数据的测序深度≥9×。在另一些实施例中,所述待测样本的测序数据的测序深度≥10×。该测序数据为低深度测序数据。在一些实施例中,所述待测样本的测序数据的测序深度为8×至29×的任意一个测序深度,具体可以包括但不限于8×、9×、10×、11×、12×、13×、14×、15×、16×、17×、18×、19×、20×、21×、22×、23×、24×、25×、26×、27×、28×、29×。
在一些实施例中,所述待测样本包括但不限于肿瘤组织样本、血液细胞游离DNA样本、其他体液细胞游离DNA样本中的至少一种。
在一些实施例中,所述待测样本来源于人体。
在一些实施例中,所述待测样本的测序数据为全基因组测序数据。
在一些实施例中,所述待测样本的测序数据依次经过过滤、比对到参考基因组、质控,得到可用于后续分析的测序数据。
在一些实施例中,过滤参数包括但不限于如下参数中的至少一种:Q20>80%、N<5%,满足过滤参数的测序数据进入下一步骤(即比对到参考基因组)。
在一些实施例中,过滤参数同时包括:Q20>80%,N<5%。也即是说,同时满足这两个条件的数据才进入后续的比对步骤。
Q20是指读段中碱基质量值大于20的百分比。
N是指读段中未检出的碱基的占比。
在一些实施例中,质控参数包括但不限于如下参数中的至少一种:比对率≥90%、测序数据量≥9×、基因组覆盖度(5×深度)≥60%的样本。满足质控参数的测序数据为质控合格的数据,用于后续分析。
在一些实施例中,质控参数包括如下参数中的全部:比对率≥90%、测序数据量≥9×、基因组覆盖度(5×深度)≥60%的样本。
在一些实施例中,所述模型包括但不限于机器学习模型。
在一些实施例中,所述模型包括但不限于分类模型、聚类模型、回归模型中的至少一种。
在一些实施例中,所述模型的算法包括但不限于K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机(SVM)、神经网络、AdaBoost中的至少一种。
在一些实施例中,模型构建成功之后,可重复使用。
在一些实施例中,所述模型的构建方法包括:
信息提取步骤,包括分析比对到参考基因组的肿瘤样本和相应的正常样本的测序数据,提取等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,将这些信息作为答案集,根据等位基因特异性拷贝数变异信息,获得总拷贝数变异信息为非0偶数区间的测序数据的起点、终点以及拷贝数变异类型;
不同纯度肿瘤样本制备步骤,包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中,降低肿瘤纯度,获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集,将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值,以各个样本的等位基因特异性拷贝数变异信息作为标签,构建得到机器学习模型。
在一些实施例中,所述机器学习模型为二分类机器学习模型。
在一些实施例中,所述次等位基因频率分布信息为次等位基因频率分布曲线矩阵值。
在一些实施例中,所述模拟样本数据集中候选信号位点需满足以下条件中的至少一种:
1)该位点为杂合位点;
2)位点测序深度大于6;
3)该位点为非复等位基因位点;
4)该位点的变异质量值大于10;
5)该位点不在黑名单区间上;
6)该位点与相邻的候选信号位点距离大于30bp。
在一些实施例中,所述候选信号位点需满足条件1)至条件6)中的全部。
在一些实施例中,所述不同肿瘤纯度的样本为不同梯度肿瘤纯度的样本。梯度可以包括但不限于0.05、0.1、0.2等等。
在一些实施例中,模型的构建方法中,所述肿瘤样本但不限于肿瘤组织样本、血液细胞游离DNA样本、其他体液细胞游离DNA样本中的至少一种。
在一些实施例中,模型的构建方法中,所述相应的正常样本包括但不限于癌旁组织样本、血细胞样本、其他正常细胞样本中的至少一种。
在一些实施例中,模型的构建方法中,所述相应的正常样本是指与肿瘤样本来源于同一生物体的样本。
在一些实施例中,模型的构建方法中,所述肿瘤样本、相应的正常样本的测序数据均为全基因组测序数据。
在一些实施例中,模型的构建方法中,所述肿瘤样本、相应的正常样本的测序深度≥10×。
在一些实施例中,信息提取步骤中,先依次对肿瘤样本、相应的正常样本的测序数据进行过滤、对比到参考基因组、质控,得到可用于后续分析的比对数据。
在一些实施例中,过滤参数包括但不限于如下参数中的至少一种:Q20>80%,N<5%。满足过滤参数条件的测序数据进入下一步骤,即比对到参考基因组。
在一些实施例中,过滤参数包括如下参数中的全部:Q20>80%,N<5%。
在一些实施例中,质控参数包括但不限于比对率≥90%。满足质控参数条件的测序数据为质控合格的数据,用于后续的分析。
需要说明的是,比对到参考基因组的待测样本的测序数据是离体样本的测序数据,因此,不是以有生命的人体为对象;并且,等位基因特异性拷贝数变异预测结果和/或后续的同源重组缺陷预测步骤预测得到的待测样本的结果(即待测样本是否存在同源重组缺陷)只是中间结果,供后续的疾病诊断参考,属于中间参考信息,不是最终的诊断结果,在实际应用中,在利用本发明的方法预测待测样本是否存在同源重组缺陷之后,还需要结合受试者当前的主观感受症状、既往病史、家族遗传史等信息,才能得出最后的诊断结果或健康状况。单纯根据本发明的等位基因特异性拷贝数变异预测结果和/或同源重组缺陷预测步骤预测得到的结果是不能直接得到专利法意义上的诊断结果的。因此,本发明的技术方案不属于疾病的诊断方法,更不属于疾病的治疗方法。并且,本发明还可用于科研中相关疾病候选药物和/或候选新药的筛选等其他非诊断、非治疗目的。
根据第二方面,在一些实施例中,提供一种单样本全基因组检测同源重组缺陷的方法,包括:
等位基因特异性拷贝数变异预测步骤,包括根据第一方面所述方法获得待测样本中染色体每个区段的等位基因特异性拷贝数变异信息;
同源重组缺陷预测步骤,包括根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
在一些实施例中,所述综合值是指大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的总和。
在一些实施例中,获得所述综合值之后,根据全基因组复制信息,对所述综合值进行修正,得到修正值,根据所述修正值,预测待测样本是否存在同源重组缺陷。
在一些实施例中,对所述综合值进行修正的方法如下:获得大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值raw HRD score之后,利用全基因组复制信息对该综合值进行修正,当全基因组复制信息WGD=0时,取最优阈值C1,当全基因组复制信息WGD=0时,取最优阈值C2,修正值HRD score=raw HRD score-WGD*(C1-C2)。
在一些实施例中,得到修正值之后,根据所述修正值与预设的同源重组缺陷阳性阈值之间的大小关系,预测待测样本是否存在同源重组缺陷。
在一些实施例中,如果修正值>同源重组缺陷阳性阈值,则预测待测样本中存在同源重组缺陷。
在一些实施例中,如果修正值≤同源重组缺陷阳性阈值,则预测待测样本中不存在同源重组缺陷。
在一些实施例中,所述同源重组缺陷阳性阈值为[38-42]。同源重组缺陷阳性阈值具体可以包括但不限于38、39、40、41、42等等。此处仅仅是示例性列举,本领域技术人员可以根据需要设置具体的比对参考值。
根据第三方面,在一些实施例中,提供一种单样本全基因组预测等位基因特异性拷贝数变异的系统,包括:
等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。
根据第四方面,在一些实施例中,提供一种单样本全基因组检测同源重组缺陷的系统,包括:
等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息;
同源重组缺陷预测装置,用于根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
根据第五方面,在一些实施例中,提供一种单样本全基因组检测同源重组缺陷的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现第一方面和/或第二方面所述的方法。
根据第六方面,在一些实施例中,提供一种计算机可读存储介质,其上存储有程序,所述程序能够被处理器执行以实现第一方面和/或第二方面所述的方法。
在一些实施例中,如图1所示,本发明可分为如下三个模块:
1.模型构建模块
首先利用高深度配对样本的测序数据分析得到对应样本的ASCNV结果,标记候选区间和CNV类型作为答案集。然后利用配对的正常样本(即normal样本)稀释对应的肿瘤样本,提取稀释样本的候选BAF特征并按照答案集CNV类型进行标记,增加肿瘤纯度信息和WGD信息,构建机器学习模型。
2.分析预测模块
对低深度全基因组测序样本进行分析,获得肿瘤纯度信息、WGD信息以及TCNV信息。如果TCNV为奇数区间、0区间,则直接推算出ASCNV;如果TCNV为非0偶数区间(即TCNV=2N,N≥1),则提取TCNV=2N(N≥1)区域的BAF特征,作为机器模型的输入,并预测CNV类型,再转换成ASCNV信息。
3.HRD检测模块
整合测试样本的ASCNV信息,分别计算LST、LOH、TAI三个指标数值。最后三个指标相加作为HRD score,并借助测试样本的WGD信息进行修正。
在一些实施例中,本发明只需10×全基因测序深度的待测样本测序数据,甚至可以低至8×,所需样本测序深度低,成本低,且无人群特异性和捕获偏好性。
在一些实施例中,本发明检测时为单样本,无需配对的正常样本。
在一些实施例中,本发明分析LST、LOH、TAI三个指标,准确度高。
在一些实施例中,本发明适用范围广,样本肿瘤纯度LOD(检测限)低至0.2,可实现低肿瘤纯度样本的检测。
在一些实施例中,本发明的产品升级较为容易,不受位点设计限制。
实施例1
本实施例中,tumor样本是指肿瘤样本,normal样本是指正常样本。
如图1所示,本实施例的各模块步骤如下:
1、模型构建模块
本实施例收集了148例配对肿瘤样本(即每个肿瘤样本与同一个体来源的正常样本配对,肿瘤样本为肿瘤组织样本,正常样本为癌旁组织样本)高深度全基因组测序数据(测序深度为30×)。其中涵盖了健康人(健康人的肿瘤为结节或良性的肿瘤)和四大癌种(卵巢癌、乳腺癌、前列腺癌、膀胱癌)。数据质量过滤(Q20>80%,N<5%);使用BWA软件比对到人类参考基因组hg19,评估样本的污染率,去掉污染率高的样本(具体是去掉比对率<90%的样本),所得的剩余样本用于后续分析。
对于剩余配对样本,使用专业软件分析(软件可以是GATK、Accucopy、freeC等等,本实施例为freeC)等位基因特异性拷贝数变异(ASCNV)信息、肿瘤纯度信息和WGD信息,这些结果作为答案集。根据ASCNV信息获得“偶数拷贝候选区间”(偶数拷贝候选区间,即该区间的总拷贝突变数(TCNV)为2N(N≥1))的起点、终点以及CNV类型。
CNV类型包含AA型或AB型;AA型表示cnLOH,即等位基因A=0或者等位基因B=0;AB型表示等位基因A≠0且等位基因B≠0。
对剩余配对样本进行稀释,具体是将与肿瘤样本来源于同一个体的正常样本的读段(reads)按照特定比例混入到肿瘤样本数据中,降低肿瘤纯度,从而获得含有不同梯度肿瘤纯度(按照step=0.05获得梯度样本,如肿瘤纯度等于0.9的,则梯度纯度为[0.9,0.85,0.8,0.75,0.7,...,0.15,0.1])的模拟样本集,且模拟样本集的数据深度为10×。
不同CNV类型的BAF(次等位基因频率)分布不同,因此,根据各个梯度纯度样本的BAF分布,判断CNV类型,例如,如图2所示,其中横坐标为BAF,纵坐标为密度分布指数。cnLOH型候选信号位点BAF分布在0.2和0.4均存在高峰,依据图2可以判断“偶数拷贝候选区间”的CNV类型为AA型,即cnLOH型。
如图3所示,其中横坐标为BAF,纵坐标为密度分布指数。若“偶数拷贝候选区间”的CNV类型为AB型,则候选信号位点BAF仅在0.4均存在高峰。
因此,可通过BAF的分布曲线判断“偶数拷贝候选区间”的CNV类型,CNV类型即为模型的预测结果,然后将预测结果转换为ASCNV结果。
二分类模型的构建方法具体如下:获取样本集的偶数拷贝候选区间的候选信号位点BAF分布。候选信号位点需同时满足以下条件:1.杂合位点;2.位点测序深度大于6;3.非复等位基因位点;4.突变质量值大于10;5.不在黑名单区间上(后续分析预测模块的黑名单区间与此处的黑名单相同);6.相邻信号位点距离大于30bp。黑名单区间包括指染色体上重复序列区域、端粒重复区域等等,黑名单区间的确定可参考文献《The ENCODE Blacklist:Identification of Problematic Regions of the Genome》(作者:Haley M.Amemiya,Anshul Kundaje&Alan P.Boyle,在线公开时间:2019年6月7日,文献网址:https://www.nature.com/articles/s41598-019-45839-z)。
部分黑名单区间如表1所示。X染色体、Y染色体以及1至22号染色体上均有黑名单区间,本实施例共有2132个黑名单区间。
表1
染色体 | 起点 | 终点 | 染色体 | 起点 | 终点 | 染色体 | 起点 | 终点 | 染色体 | 起点 | 终点 |
X | 969238 | 970836 | X | 48863969 | 48864276 | X | 100645999 | 100667285 | X | 147546228 | 147546948 |
X | 1437739 | 1438052 | X | 49008986 | 49009277 | X | 104048595 | 104049120 | X | 147903688 | 147903972 |
Y | 2709527 | 2800041 | X | 54249757 | 54250495 | X | 107386780 | 107682727 | X | 150161974 | 150162564 |
X | 2976264 | 2976543 | X | 56269370 | 56269842 | X | 107683074 | 107940775 | X | 152163780 | 152164039 |
Y | 5661341 | 5661778 | X | 63430570 | 63430866 | X | 109096541 | 109097148 | X | 152669306 | 152669599 |
Y | 7192338 | 7192636 | X | 67819926 | 67820315 | X | 110859125 | 110859401 | X | 152927611 | 152928147 |
X | 12413876 | 12414286 | X | 69441858 | 69442164 | X | 110867438 | 110867954 | X | 152931681 | 152931970 |
X | 13592865 | 13593185 | X | 70182814 | 70183143 | X | 112099102 | 112099388 | X | 153618315 | 153637504 |
X | 13614355 | 13614667 | X | 70304339 | 70304637 | X | 113219603 | 113219893 | X | 153724167 | 153724463 |
Y | 14365457 | 14366162 | X | 71264395 | 71264742 | X | 113824088 | 113824403 | X | 153724534 | 153724819 |
Y | 14394177 | 14394465 | X | 71418562 | 71418898 | X | 114432995 | 114433312 | 1 | 1340841 | 1341132 |
X | 16216551 | 16217412 | X | 71443094 | 71443403 | X | 115108801 | 115109100 | 1 | 3699379 | 3699673 |
X | 16557262 | 16557562 | X | 71475529 | 71497150 | X | 117280026 | 117280524 | 1 | 6241329 | 6269449 |
X | 18933365 | 18933653 | X | 72755339 | 72756077 | X | 118568482 | 118568781 | 1 | 8335184 | 8335438 |
X | 20470226 | 20470549 | X | 73462445 | 73462736 | X | 118920467 | 118925606 | 1 | 9039637 | 9039933 |
X | 22072271 | 22072551 | X | 73610527 | 73610822 | X | 121672106 | 121673313 | 1 | 10007376 | 10007694 |
Y | 22918050 | 22942918 | X | 73629353 | 73629935 | X | 122844694 | 122844982 | 1 | 10366523 | 10366813 |
X | 23854761 | 23855459 | X | 73673458 | 73673691 | X | 127447259 | 127448026 | 1 | 10450059 | 10450353 |
X | 25078768 | 25079056 | X | 74604181 | 74604663 | X | 127972419 | 127972812 | 1 | 10676893 | 10677170 |
Y | 26357107 | 26357382 | X | 77140874 | 77141127 | X | 128542359 | 128542598 | 1 | 11293020 | 11293169 |
X | 36392908 | 36393298 | X | 78018723 | 78019396 | X | 130268062 | 130268364 | 1 | 12096799 | 12097071 |
X | 39645780 | 39646077 | X | 81761883 | 81762261 | X | 133741187 | 133741662 | 1 | 19646299 | 19646554 |
X | 39724678 | 39725142 | X | 92828833 | 92829578 | X | 133784860 | 133785441 | 1 | 19750878 | 19751163 |
X | 40794198 | 40795117 | X | 94934129 | 94934626 | X | 135873223 | 135873939 | 1 | 19934608 | 19935062 |
X | 41204835 | 41205129 | X | 95278359 | 95278644 | X | 136677424 | 136677710 | 1 | 20297462 | 20297760 |
X | 41496727 | 41497012 | X | 95450476 | 95450616 | X | 137479510 | 137479787 | 1 | 20852482 | 20853244 |
X | 41542424 | 41542719 | X | 95665431 | 95665781 | X | 139168014 | 139168307 | 1 | 21330043 | 21330427 |
X | 44508375 | 44508965 | X | 96596045 | 96596341 | X | 139553031 | 139553439 | 1 | 22305444 | 22305729 |
X | 44632021 | 44632307 | X | 97506677 | 97507541 | X | 142178133 | 142178463 | 1 | 22313974 | 22314268 |
X | 47140214 | 47140462 | X | 100594905 | 100595922 | X | 142285034 | 142285377 | 1 | 22330078 | 22330361 |
X | 47700362 | 47701101 | X | 100645812 | 100651105 | X | 144138628 | 144138957 | 1 | 22337143 | 22337437 |
提取BAF分布曲线矩阵值,增加肿瘤纯度值和WGD值作为机器学习输入特征值,以专业软件(可以是GATK、Accucopy、freeC等任一软件,本实施例为freeC)分析得到的样本等位基因特异性拷贝数变异(ASCNV)作为参考标签(AA为0,AB为1),构建二分类机器学习模型(机器学习模型包括朴素贝叶斯模型、决策树模型、SVM模型等)。对训练模型数据,使用十乘交叉检验模型的健壮性,结果如图4所示,图4中,横坐标为特异性(%),即Specificity(%),纵坐标为灵敏度(%),即Sensitivity(%),AUC(Area Under Curve)为ROC曲线(receiver operating characteristic curve,接收者操作特征曲线)下与坐标轴围成的面积。从图4可以看出,特异性高达91.1%,灵敏度高达95.8%,曲线下面积(AUC)高达98.0%,说明模型的健壮性非常好。
2、分析预测模块
获得测试样本(即单肿瘤样本,不再需要配对正常样本)的低深度(测序深度为10×)全基因组测序数据后,进行数据质量过滤(过滤参数为:Q20>80%,N<5%);并比对到人类参考基因组上,根据比对率、测序数据量以及覆盖度进行质控,比对率<90%,或测序数据量小于9×,或者基因组覆盖度(5×深度)小于60%的样本为不合格样本,也即是说,只要样本不满足前述三个条件中的任一条件,即判定为不合格样本,应重新采样或重新测序,同时满足比对率≥90%、测序数据量≥9×、基因组覆盖度(5×深度)≥60%的样本为质控合格的样本,进入后续分析步骤。
使用专业软件(可以是Accucopy、freeC、ACE等等,本实施例使用的是freec软件)分析测试样本,得到肿瘤纯度、WGD和TCNV结果。然后根据染色体不同区段的TCNV进行分类处理,转换成ASCNV结果。
由于测试样本为低深度(10×)全基因组测序数据,因此,软件分析得到的ASCNV不可信,但TCNV可信。若染色体部分区段TCNV为奇数区间或为0区间,则可直接推算出ASCNV,即等位基因A和等位基因B数值;另外一些染色体区段TCNV为非0偶数区间,则需通过模型构建模块中构建的模型进行预测,得到该区间的ASCNV,作为HRD检测模块的输入值之一。
具体如下:
1)如果TCNV为奇数区间,则等位基因A=1,等位基因B=N-1;其中,N为该区间TCNV拷贝数;
2)如果TCNV为0区间,则等位基因A=0,等位基因B=0;
3)如果TCNV为非0偶数区间,则按照滑动窗口进行切割并独立预测,其中,窗口=2Mb,2Mb=2000kb=2000000bp。
TCNV为非0偶数区间时,按照滑动窗口进行切割并独立预测的具体操作如下:获取滑动区间内的候选信号位点BAF分布,候选信号位点需同时满足以下条件:1.杂合位点;2.位点测序深度大于6;3.非复等位基因位点;4.突变质量值大于10;5.不在黑名单区间上(黑名单区间包括指染色体上重复序列区域、端粒重复区域等等);6.相邻信号位点距离大于30bp。然后提取BAF分布曲线矩阵值,与肿瘤纯度值和WGD值整合作为机器学习。并利用训练模型进行预测,预测结果即为该区间的CNV类型。按以下规则转换成ASCNV结果:
1)如果CNV预测类型为AA,则等位基因A=0,等位基因B=N,其中,N为该区间TCNV拷贝数。
2)如果CNV预测类型为AB,则等位基因A=等位基因B=N/2,其中,N为该区间TCNV拷贝数。
3、HRD检测模块
整合上述三部分结果(即TCNV分别为奇数区间、0区间、非0偶数区间的ASCNV结果),获得测试样本染色体每个区段的ASCNV结果,转换成scarHRD软件的输入格式,使用scarHRD软件分别计算LST score、LOH score、TAI score,并汇总获得raw HRD score。LSTscore表示大片段迁移分数,LOH score表示杂合性缺失分数,TAI score表示端粒等位基因不平衡分数。
raw HRD score=LST score+LOH score+TAI score。
最后根据先验知识,利用WGD对raw HRD score进行修正。例如,当WGD=0时,可以取一个最优阈值C1,当WGD=1时,可以取一个最优阈值C2,公式为:
HRD score=raw HRD score-WGD*(C1-C2)。
本实施例中,设定同源重组缺陷阳性阈值为42,如果最终HRD score大于42,则判断为HRD阳性,该样本可作为PARP获益群体样本。
采用上述方法进行如下样本检测实验。
低肿瘤纯度样本检测实验
取两例肿瘤样本,编号分别为179008702TD、189006257TD,样本179008702TD的肿瘤纯度为0.5(通过Freec和ACE等软件分析得到的肿瘤纯度),样本189006257TD的肿瘤纯度为0.8。对两例肿瘤样本进行稀释,具体是将癌旁样本(与对应的肿瘤样本来自同一受试者)的reads按照特定比例混入到肿瘤样本数据中,降低肿瘤纯度,从而获得梯度肿瘤纯度(按照step=0.1获得梯度样本,如肿瘤纯度等于0.9的,梯度纯度为[0.8,0.7,...,0.2,0.1])的模拟样本集,且模拟样本集的数据深度为10×。
对不同肿瘤纯度梯度的低深度全基因组测序数据,通过本实施例的方法计算得到HRDscore,样本179008702TD的不同肿瘤纯度梯度的数据结果如表2所示,样本189006257TD的不同肿瘤纯度梯度的数据结果如表3所示。
表2
表3
样本编号 | 肿瘤纯度 | LOH | NtAI | LST | SUM |
189006257TD | 0.1 | 13 | 23 | 19 | 55 |
189006257TD | 0.2 | 14 | 19 | 25 | 58 |
189006257TD | 0.3 | 16 | 20 | 25 | 61 |
189006257TD | 0.4 | 16 | 23 | 27 | 66 |
189006257TD | 0.5 | 16 | 23 | 26 | 65 |
189006257TD | 0.6 | 16 | 23 | 26 | 65 |
189006257TD | 0.7 | 15 | 23 | 26 | 64 |
189006257TD | 0.8 | 16 | 23 | 28 | 67 |
对肿瘤LOD(检测限)进行测试,从表2、表3的数据结果可以看出,肿瘤纯度在0.2时,HRD score依然稳定,说明样本肿瘤纯度LOD(检测限)低至0.2。
本实施例方法与配对WES检测的HRD score一致性评估实验如下:
取23例配对样本(肿瘤和癌旁组织)的WES测序数据,通过GATK软件分析获得变异信息,再通过ScarHRD软件计算HRDscore,作为对比例。
取上述23例单肿瘤样本的低深度全基因组测序数据,通过本实施例的方法检测得到HRD score,将该检测结果与配对WES检测的HRD score比较,图5所示为本实施例的方法的HRD score和配对WES检测的HRD score相关性曲线图,图5中,横坐标Pair-WES HRDscore为23例配对样本(肿瘤组织和癌旁组织)的WES测序数据的检测结果,纵坐标WGS HRDscore为使用本实施例的方法对23例单肿瘤样本的低深度全基因组测序数据进行检测的结果,可见,R2=0.8921,说明本实施例的方法与对比例的方法的检测结果相关性非常高,从而说明两种方法的一致性强。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种单样本全基因组预测等位基因特异性拷贝数变异的方法,其特征在于,包括:
分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。
2.如权利要求1所述的方法,其特征在于,如果总拷贝数变异信息为奇数区间,则等位基因A=1,等位基因B=N-1;其中,N为该区间的总拷贝数变异信息;如果总拷贝数变异信息为0区间,则等位基因A=0,等位基因B=0。
3.如权利要求1所述的方法,其特征在于,如果染色体区段的总拷贝数变异信息为非0偶数区间,通过模型预测得到该区间的等位基因特异性拷贝数变异信息的方法包括:按照滑动窗口对总拷贝数变异信息进行切割,并独立预测各个滑动窗口的拷贝数变异类型,然后将所述拷贝数变异类型转换为等位基因特异性拷贝数变异信息;
和/或,滑动窗口的长度为2Mb-3Mb;
和/或,获取滑动区间内的候选信号位点的次等位基因频率信息分布,然后提取次等位基因频率信息分布曲线矩阵值,将所述次等位基因频率信息分布曲线矩阵值与肿瘤纯度信息、全基因组复制信息整合,将整合结果输入模型,使用模型预测得到该区间的基因拷贝数变异类型,然后将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息;
和/或,按以下规则将所述基因拷贝数变异类型转换为等位基因特异性拷贝数变异信息:
1)如果模型预测的基因拷贝数变异类型为AA,则等位基因A=0,等位基因B=N,其中,N为该区间的总拷贝数变异信息;
2)如果模型预测的基因拷贝数变异类型为AB,则等位基因A=等位基因B=N/2,其中,N为该区间的总拷贝数变异信息;
和/或,所述候选信号位点需满足以下条件中的至少一种:
1)该位点为杂合位点;
2)位点测序深度大于6;
3)该位点为非复等位基因位点;
4)该位点的变异质量值大于10;
5)该位点不在黑名单区间上;
6)该位点与相邻的候选信号位点距离大于30bp;
和/或,所述候选信号位点需满足条件1)至条件6)中的全部;
和/或,所述黑名单区间包括染色体上重复序列区域、端粒重复区域;
和/或,所述待测样本的测序数据的测序深度≥8×;
和/或,所述待测样本的测序数据的测序深度为8×至29×,包括边界值;
和/或,所述待测样本选自肿瘤组织样本、血液细胞游离DNA样本中的至少一种;
和/或,所述待测样本来源于人体;
和/或,所述待测样本的测序数据为全基因组测序数据;
和/或,所述待测样本的测序数据依次经过过滤、比对到参考基因组、质控,得到可用于后续分析的测序数据。
4.如权利要求1所述的方法,其特征在于,所述模型包括机器学习模型;
和/或,所述模型选自分类模型、聚类模型、回归模型中的至少一种;
和/或,所述模型的算法选自K近邻、朴素贝叶斯分类器、逻辑回归、决策树、随机森林、支持向量机、神经网络、AdaBoost中的至少一种;
和/或,所述模型的构建方法包括:
信息提取步骤,包括分析比对到参考基因组的肿瘤样本和相应的正常样本的测序数据,提取等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,将这些信息作为答案集,根据等位基因特异性拷贝数变异信息,获得总拷贝数变异信息为非0偶数区间的测序数据的起点、终点以及拷贝数变异类型;
不同纯度肿瘤样本制备步骤,包括将正常样本的测序数据混入同一生物体来源的肿瘤样本的测序数据中,降低肿瘤纯度,获得由不同肿瘤纯度的样本测序数据组成的模拟样本数据集,将模拟样本数据集中候选信号位点的次等位基因频率分布信息、肿瘤纯度信息、全基因组复制信息作为机器学习输入特征值,以各个样本的等位基因特异性拷贝数变异信息作为标签,构建得到机器学习模型;
和/或,所述机器学习模型为二分类机器学习模型;
和/或,所述次等位基因频率分布信息为次等位基因频率分布曲线矩阵值;
和/或,所述模拟样本数据集中候选信号位点需满足以下条件中的至少一种:
1)该位点为杂合位点;
2)位点测序深度大于6;
3)该位点为非复等位基因位点;
4)该位点的变异质量值大于10;
5)该位点不在黑名单区间上;
6)该位点与相邻的候选信号位点距离大于30bp;
和/或,所述不同肿瘤纯度的样本为不同梯度肿瘤纯度的样本;
和/或,模型的构建方法中,所述肿瘤样本选自肿瘤组织样本、血液细胞游离DNA样本中的至少一种,所述相应的正常样本选自癌旁组织样本、血细胞样本中的至少一种;
和/或,模型的构建方法中,所述相应的正常样本是指与肿瘤样本来源于同一生物体的样本;
和/或,模型的构建方法中,所述肿瘤样本、相应的正常样本的测序数据均为全基因组测序数据;
和/或,模型的构建方法中,所述肿瘤样本、相应的正常样本的测序深度≥10×。
和/或,信息提取步骤中,先依次对肿瘤样本的测序数据进行过滤、对比到参考基因组、质控,得到可用于后续分析的比对数据。
5.一种单样本全基因组检测同源重组缺陷的方法,其特征在于,包括:
等位基因特异性拷贝数变异预测步骤,包括根据权利要求1-4任意一项所述方法获得待测样本中染色体每个区段的等位基因特异性拷贝数变异信息;
同源重组缺陷预测步骤,包括根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
6.如权利要求5所述的方法,其特征在于,所述综合值是指大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的总和;
和/或,获得所述综合值之后,根据全基因组复制信息,对所述综合值进行修正,得到修正值,根据所述修正值,预测待测样本是否存在同源重组缺陷;
和/或,对所述综合值进行修正的方法如下:获得大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值raw HRD score之后,利用全基因组复制信息对该综合值进行修正,当全基因组复制信息WGD=0时,取最优阈值C1,当全基因组复制信息WGD=0时,取最优阈值C2,修正值HRD score=raw HRD score-WGD*(C1-C2);
和/或,得到修正值之后,根据所述修正值与预设的同源重组缺陷阳性阈值之间的大小关系,预测待测样本是否存在同源重组缺陷;
和/或,如果修正值>同源重组缺陷阳性阈值,则预测待测样本中存在同源重组缺陷;
和/或,如果修正值≤同源重组缺陷阳性阈值,则预测待测样本中不存在同源重组缺陷;
和/或,所述同源重组缺陷阳性阈值为[38-42]。
7.一种单样本全基因组预测等位基因特异性拷贝数变异的系统,其特征在于,包括:
等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息。
8.一种单样本全基因组检测同源重组缺陷的系统,其特征在于,包括:
等位基因特异性拷贝数变异预测装置,用于分析比对到参考基因组的待测样本的测序数据,提取肿瘤纯度信息、全基因组复制信息和总拷贝数变异信息,然后根据染色体每个区段的总拷贝数变异信息进行分类处理,将总拷贝数变异信息转换成等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为奇数区间或0区间,则直接推算出等位基因特异性拷贝数变异信息,如果染色体区段的总拷贝数变异信息为非0偶数区间,则通过模型预测得到该区间的等位基因特异性拷贝数变异信息;
同源重组缺陷预测装置,用于根据待测样本中染色体每个区段的等位基因特异性拷贝数变异信息、肿瘤纯度信息和全基因组复制信息,计算得到大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数,根据大片段迁移分数、杂合性缺失分数、端粒等位基因不平衡分数的综合值,判断待测样本是否存在同源重组缺陷。
9.一种单样本全基因组检测同源重组缺陷的装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1-6任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有程序,所述程序能够被处理器执行以实现如权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020493.5A CN112802548B (zh) | 2021-01-07 | 2021-01-07 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110020493.5A CN112802548B (zh) | 2021-01-07 | 2021-01-07 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112802548A true CN112802548A (zh) | 2021-05-14 |
CN112802548B CN112802548B (zh) | 2021-10-22 |
Family
ID=75809025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110020493.5A Active CN112802548B (zh) | 2021-01-07 | 2021-01-07 | 单样本全基因组预测等位基因特异性拷贝数变异的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112802548B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257346A (zh) * | 2021-06-28 | 2021-08-13 | 北京橡鑫生物科技有限公司 | 一种基于低深度WGS评估HRD score的方法 |
CN113539355A (zh) * | 2021-07-15 | 2021-10-22 | 云康信息科技(上海)有限公司 | 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用 |
CN113658638A (zh) * | 2021-08-20 | 2021-11-16 | 江苏先声医学诊断有限公司 | 一种基于ngs平台的同源重组缺陷的检测方法和质控体系 |
CN113889187A (zh) * | 2021-09-24 | 2022-01-04 | 上海仁东医学检验所有限公司 | 单样本等位基因拷贝数变异检测方法、探针组和试剂盒 |
CN114067908A (zh) * | 2021-11-23 | 2022-02-18 | 深圳基因家科技有限公司 | 一种评估单样本同源重组缺陷的方法、装置和存储介质 |
CN114067909A (zh) * | 2021-11-23 | 2022-02-18 | 深圳基因家科技有限公司 | 一种矫正同源重组缺陷评分的方法、装置和存储介质 |
CN114242170A (zh) * | 2021-12-21 | 2022-03-25 | 深圳吉因加医学检验实验室 | 一种同源重组修复缺陷的评估方法、装置和存储介质 |
CN114242164A (zh) * | 2021-12-21 | 2022-03-25 | 苏州吉因加生物医学工程有限公司 | 一种全基因组复制的分析方法、装置和存储介质 |
CN115631789A (zh) * | 2022-10-25 | 2023-01-20 | 哈尔滨工业大学 | 一种基于泛基因组的群体联合变异检测方法 |
CN116343923A (zh) * | 2023-03-21 | 2023-06-27 | 哈尔滨工业大学 | 一种基因组结构变异同源性识别方法 |
CN116863998A (zh) * | 2023-06-21 | 2023-10-10 | 扬州大学 | 一种基于遗传算法的全基因组预测方法及其应用 |
CN117497056A (zh) * | 2024-01-03 | 2024-02-02 | 广州迈景基因医学科技有限公司 | 一种无对照hrd检测方法、系统及装置 |
CN117524301A (zh) * | 2024-01-04 | 2024-02-06 | 北京泛生子基因科技有限公司 | 一种拷贝数变异的检测方法、装置以及计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106676178A (zh) * | 2017-01-19 | 2017-05-17 | 北京吉因加科技有限公司 | 一种评估肿瘤异质性的方法及系统 |
CN106778073A (zh) * | 2017-01-19 | 2017-05-31 | 北京吉因加科技有限公司 | 一种评估肿瘤负荷变化的方法和系统 |
CN107287285A (zh) * | 2017-03-28 | 2017-10-24 | 上海至本生物科技有限公司 | 一种预测同源重组缺失机制及患者对癌症治疗响应的方法 |
CN107423534A (zh) * | 2016-05-24 | 2017-12-01 | 郝柯 | 基因组拷贝数变异的检测方法和系统 |
CN111462823A (zh) * | 2020-04-08 | 2020-07-28 | 西安交通大学 | 一种基于dna测序数据的同源重组缺陷判定方法 |
-
2021
- 2021-01-07 CN CN202110020493.5A patent/CN112802548B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107423534A (zh) * | 2016-05-24 | 2017-12-01 | 郝柯 | 基因组拷贝数变异的检测方法和系统 |
CN106676178A (zh) * | 2017-01-19 | 2017-05-17 | 北京吉因加科技有限公司 | 一种评估肿瘤异质性的方法及系统 |
CN106778073A (zh) * | 2017-01-19 | 2017-05-31 | 北京吉因加科技有限公司 | 一种评估肿瘤负荷变化的方法和系统 |
CN107287285A (zh) * | 2017-03-28 | 2017-10-24 | 上海至本生物科技有限公司 | 一种预测同源重组缺失机制及患者对癌症治疗响应的方法 |
CN111462823A (zh) * | 2020-04-08 | 2020-07-28 | 西安交通大学 | 一种基于dna测序数据的同源重组缺陷判定方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113948151B (zh) * | 2021-06-28 | 2022-07-05 | 北京橡鑫生物科技有限公司 | 一种低深度wgs下机数据的处理方法 |
CN113257346B (zh) * | 2021-06-28 | 2021-10-19 | 北京橡鑫生物科技有限公司 | 一种基于低深度WGS评估HRD score的方法 |
CN113948151A (zh) * | 2021-06-28 | 2022-01-18 | 北京橡鑫生物科技有限公司 | 一种低深度wgs下机数据的处理方法 |
CN113257346A (zh) * | 2021-06-28 | 2021-08-13 | 北京橡鑫生物科技有限公司 | 一种基于低深度WGS评估HRD score的方法 |
CN114999568A (zh) * | 2021-06-28 | 2022-09-02 | 北京橡鑫生物科技有限公司 | 一种端粒等位基因不平衡tai的计算方法 |
CN113539355A (zh) * | 2021-07-15 | 2021-10-22 | 云康信息科技(上海)有限公司 | 预测cfDNA的组织特异性来源及相关疾病概率评估系统及应用 |
CN113658638A (zh) * | 2021-08-20 | 2021-11-16 | 江苏先声医学诊断有限公司 | 一种基于ngs平台的同源重组缺陷的检测方法和质控体系 |
CN113889187A (zh) * | 2021-09-24 | 2022-01-04 | 上海仁东医学检验所有限公司 | 单样本等位基因拷贝数变异检测方法、探针组和试剂盒 |
CN113889187B (zh) * | 2021-09-24 | 2022-12-06 | 上海仁东医学检验所有限公司 | 单样本等位基因拷贝数变异检测方法、探针组和试剂盒 |
CN114067908A (zh) * | 2021-11-23 | 2022-02-18 | 深圳基因家科技有限公司 | 一种评估单样本同源重组缺陷的方法、装置和存储介质 |
CN114067909B (zh) * | 2021-11-23 | 2022-08-30 | 北京吉因加医学检验实验室有限公司 | 一种矫正同源重组缺陷评分的方法、装置和存储介质 |
CN114067909A (zh) * | 2021-11-23 | 2022-02-18 | 深圳基因家科技有限公司 | 一种矫正同源重组缺陷评分的方法、装置和存储介质 |
CN114242164A (zh) * | 2021-12-21 | 2022-03-25 | 苏州吉因加生物医学工程有限公司 | 一种全基因组复制的分析方法、装置和存储介质 |
CN114242170A (zh) * | 2021-12-21 | 2022-03-25 | 深圳吉因加医学检验实验室 | 一种同源重组修复缺陷的评估方法、装置和存储介质 |
CN115631789B (zh) * | 2022-10-25 | 2023-08-15 | 哈尔滨工业大学 | 一种基于泛基因组的群体联合变异检测方法 |
CN115631789A (zh) * | 2022-10-25 | 2023-01-20 | 哈尔滨工业大学 | 一种基于泛基因组的群体联合变异检测方法 |
CN116343923A (zh) * | 2023-03-21 | 2023-06-27 | 哈尔滨工业大学 | 一种基因组结构变异同源性识别方法 |
CN116343923B (zh) * | 2023-03-21 | 2023-12-08 | 哈尔滨工业大学 | 一种基因组结构变异同源性识别方法 |
CN116863998A (zh) * | 2023-06-21 | 2023-10-10 | 扬州大学 | 一种基于遗传算法的全基因组预测方法及其应用 |
CN116863998B (zh) * | 2023-06-21 | 2024-04-05 | 扬州大学 | 一种基于遗传算法的全基因组预测方法及其应用 |
CN117497056A (zh) * | 2024-01-03 | 2024-02-02 | 广州迈景基因医学科技有限公司 | 一种无对照hrd检测方法、系统及装置 |
CN117497056B (zh) * | 2024-01-03 | 2024-04-23 | 广州迈景基因医学科技有限公司 | 一种无对照hrd检测方法、系统及装置 |
CN117524301A (zh) * | 2024-01-04 | 2024-02-06 | 北京泛生子基因科技有限公司 | 一种拷贝数变异的检测方法、装置以及计算机可读介质 |
CN117524301B (zh) * | 2024-01-04 | 2024-04-09 | 北京泛生子基因科技有限公司 | 一种拷贝数变异的检测方法、装置以及计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112802548B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112802548B (zh) | 单样本全基因组预测等位基因特异性拷贝数变异的方法 | |
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
EP4073805B1 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
Kim et al. | rSW-seq: algorithm for detection of copy number alterations in deep sequencing data | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
CN112086129B (zh) | 预测肿瘤组织cfDNA的方法及系统 | |
JP2023535962A (ja) | 低カバレッジ次世代シーケンシングデータにおける相同修復欠損などの染色体空間不安定性を同定する方法 | |
KR20020075265A (ko) | 임상 진단 서비스를 제공하는 방법 | |
CN110910957A (zh) | 一种基于单肿瘤样本高通量测序微卫星不稳定性探测位点筛选方法 | |
CN111968701A (zh) | 检测指定基因组区域体细胞拷贝数变异的方法和装置 | |
CN110846411A (zh) | 一种基于二代测序的单独肿瘤样本区分基因突变类型的方法 | |
KR20190085667A (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN112837748A (zh) | 一种区分不同解剖学起源肿瘤的系统及其方法 | |
CN114990202B (zh) | Snp位点在评估基因组异常的应用及评估基因组异常的方法 | |
CN116741272A (zh) | 基于基因组突变特征及基因集表达特征的卵巢癌hrd分型系统及方法 | |
CN114067908B (zh) | 一种评估单样本同源重组缺陷的方法、装置和存储介质 | |
US11535896B2 (en) | Method for analysing cell-free nucleic acids | |
WO2019237230A1 (zh) | 确定待测样本类型的方法及系统 | |
CN113674802B (zh) | 一种基于甲基化测序数据进行变异检测的方法及装置 | |
Andre et al. | A deep learning approach for improved detection of homologous recombination deficiency from shallow genomic profiles | |
WO2024140368A1 (zh) | 一种样本交叉污染的检测方法和装置 | |
WO2024027591A1 (zh) | 一种多癌种甲基化检测试剂盒及其应用 | |
EP4297037A1 (en) | Device for determining an indicator of presence of hrd in a genome of a subject | |
Chen | Computational Methods for Characterizing Gene Expression Profiles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220413 Address after: Room 2011, unit 201, building B11, bio nano Park, No. 218, Xinghu street, Suzhou Industrial Park, Suzhou, Jiangsu 215000 Patentee after: Suzhou jiyinga medical laboratory Co.,Ltd. Address before: 518000 floor 1-2, building 5, 14 Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province Patentee before: Shenzhen guiinga Medical Laboratory |
|
TR01 | Transfer of patent right |