CN109903811A - 一种无对照体细胞突变检测方法及装置 - Google Patents
一种无对照体细胞突变检测方法及装置 Download PDFInfo
- Publication number
- CN109903811A CN109903811A CN201910395409.0A CN201910395409A CN109903811A CN 109903811 A CN109903811 A CN 109903811A CN 201910395409 A CN201910395409 A CN 201910395409A CN 109903811 A CN109903811 A CN 109903811A
- Authority
- CN
- China
- Prior art keywords
- clone
- information
- subclone
- mutation
- gene locus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种无对照体细胞突变检测方法,所述方法无需正常组织对照,包括以下步骤:获取待测样本的突变基因位点的检测数据;基于聚类算法对突变基因位点进行相似聚类;注释各亚克隆内各突变基因位点;建立亚克隆预测模型;将各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类。在肿瘤治疗时,如果没有找到驱动突变而盲目治疗,靶向治疗效果较差,采用本发明可筛选出第一克隆即驱动克隆,进一步的即筛选出驱动突变,有助于根据驱动突变更加有针对性地选择合适的治疗药物和治疗方案,提高肿瘤的治疗效果。
Description
技术领域
本发明涉及一种基因检测领域,特别是涉及一种无对照体细胞突变检测方法及装置。
背景技术
癌症基因组的临床与基础研究的分析的关键步骤是鉴定肿瘤中的体细胞突变。通常采用的方式是通过将肿瘤基因组与源自自体的正常组织的参考基因组序列进行比较来完成。但是,很多情况下,无法取得匹配的正常组织用于比较。例如,回顾性研究中取得的组织标本很多情况下无法获取正常组织对照。同时,临床应用中虽然多数情况下可以同时对对照和肿瘤样本进行测序,但是此种方案会增加相应的实验与分析成本。因此,通过对只有肿瘤组织获取的高通量测序数据进行分析,借助合理的生物统计学模型得到准确的体细胞突变结果一方面将会对临床与基础研究起到促进作用,另一方面将减低实验和分析成本。
对于此种问题,存在类似的技术解决方案,主要基于的原理为体细胞的突变丰度VAF和胚系突变VAF在大多数情况下存在差异。故采用突变丰度VAF对体细胞突变和胚系突变进行分类。但是此方案在肿瘤纯度较高的情况下容易产生假阴性和或假阳性的问题,同时会受到基因扩增等因素的干扰,导致准确性无法进一步提高。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种无对照体细胞突变检测方法及装置,用于解决现有技术中体细胞突变检测准确性差的问题。
为实现上述目的及其他相关目的,本发明第一方面提供一种无对照体细胞突变检测方法,所述方法无需正常组织对照,所述方法包括以下步骤:
S1:获取待测样本的突变基因位点的检测数据;
S2:根据所述突变基因位点的检测数据信息,基于聚类算法对突变基因位点进行相似聚类,即形成亚克隆分层;
S3:注释各亚克隆内各突变基因位点;
S4:建立亚克隆预测模型;
S5:将步骤S3得到的各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类;所述第一克隆是指肿瘤的驱动克隆,所述第二克隆是指过客克隆,所述第三克隆为不携带体细胞突变的集合。
本发明第二方面提供一种无对照体细胞突变检测装置,所述装置无需正常组织对照,所述装置至少包括:
获取模块,用于获取待测样本的突变基因位点的检测数据;
分层模块,用于根据所述突变基因位点的检测数据信息,基于聚类算法对突变基因位点进行相似聚类,即形成亚克隆分层;
注释模块,用于注释各突变基因位点;
建模模块,用于建立亚克隆预测模型;
预测模块,用于将注释模块得到的各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类;所述第一克隆是指肿瘤的驱动克隆,所述第二克隆是指过客克隆,所述第三克隆为不携带体细胞突变的集合。
本发明第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述无对照体细胞突变检测方法。
本发明第四方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述无对照体细胞突变检测方法的步骤。
本发明第五方面提供一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述的无对照体细胞突变检测方法。
如上所述,本发明的无对照体细胞突变检测方法及装置,具有以下有益效果:
本发明整合碱基置换突变和基因拷贝数对突变进行亚克隆分层。在克隆分层的基础上进一步整合突变上下文信息,突变所在区域的丰度信息以及突变的人群遗传学特征对亚克隆进行分类。通过多个层次上的信息整合达到准确鉴别第一克隆,第二克隆和第三克隆的效果,且无需正常组织对照,方便快捷,降低成本;在肿瘤治疗时,如果没有找到驱动突变而盲目治疗,靶向治疗效果较差,采用本发明可筛选出第一克隆即驱动克隆,进一步的即筛选出驱动突变,有助于根据驱动突变更加有针对性地选择合适的治疗药物和治疗方案,提高肿瘤的治疗效果。
附图说明
图1.1显示为第一克隆,第二克隆和第三克隆的关系图。
图1.2显示为本发明一实施例中无对照体细胞突变检测方法示意图。
图1.3显示为一实施例中非小细胞肺癌病人肺癌组织的游离核酸突变基因位点的检测数据结果图。
图2显示为本发明一实施例中体细胞突变检测装置示意图。
图3显示为本发明一实施例中电子终端示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1.1至图3。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,虽图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
体细胞突变(SNV):是指除性细胞外的体细胞发生的突变。不会造成后代的遗传改变,却可以引起某些细胞的遗传结构发生改变。
胚系突变(SNP):遗传性基因缺陷是通过卵子或精子传递的,所有的胚胎细胞都含有同样的遗传缺陷,这种缺陷存在于生殖细胞内,代代相传。
第一克隆是指肿瘤的驱动克隆,肿瘤细胞具有选择性生长优势的基因突变被称为驱动突变(drivers mutation),是肿瘤发生的病因因素,能被正选择,驱动正常细胞向增殖癌细胞的转化,所述包含驱动突变的集合为驱动克隆。
第二克隆是指过客克隆,肿瘤的进一步发展变化中产生的新发突变组成的克隆,所述新发突变的集合为过客克隆。
第三克隆即为胚系克隆,驱动克隆和过客克隆为肿瘤细胞特有的体细胞突变的集合,胚系克隆为不携带体细胞突变的集合。
以非小细胞肺癌病人肺癌组织为例,所述第一克隆,第二克隆和第三克隆的关系如图1.1所示。正常组织细胞EGFR E19发生突变形成肿瘤细胞,则EGFR E19突变为第一克隆;上述肿瘤细胞继续发生突变,则继续发生的突变为第二克隆1、2,产生突变的肿瘤细胞仍可继续突变,则再次发生的突变为第二克隆3,以此类推。第二克隆的代表类型有AKT突变或KMT2D突变。
如图1.2所示,展示本发明提供的无对照体细胞突变检测方法的示意图。所述方法无需正常组织对照,所述方法至少包括以下步骤:
S11:获取待测样本的突变基因位点的检测数据;
S12:根据所述突变基因位点的检测数据信息,基于聚类算法对突变基因位点进行相似聚类,即形成亚克隆分层;
S13:注释各亚克隆内各突变基因位点;
S14:建立亚克隆预测模型;
S15:将步骤S13得到的各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类;所述第一克隆是指肿瘤的驱动克隆,所述第二克隆是指过客克隆,所述第三克隆为不携带体细胞突变的集合。
在一种实施方式中,步骤S11中,所述突变基因位点的检测数据包括碱基置换突变信息和拷贝数变异信息;
根据突变基因位点的碱基置换突变信息和拷贝数变异信息,可以所述突变基因位点准确聚类。
本发明所述的待测样本为单个个体的检测数据。无需获取多个个体的肿瘤群体的肿瘤突变数据。对于个体化医疗有更加具体和精准的指导作用。
在一种实施方式中,步骤S11中,获取待测样本的突变基因位点的检测数据的方法可包括如下步骤:
1.测序下机数据通过BCL2fastq软件,利用样本的标签序列(index)信息从测序BCL数据中分离样本数据并转换成fastq文件;
2.fastq文件通过BWA算法比对到人类参考基因组得到记录比对信息的SAM文件,并利用samtools软件转换为BAM 文件;
3.使用varscan2算法鉴别出样本的突变和拷贝数变异,得到样本的突变信息和拷贝数变异信息,即突变基因位点的检测数据。
步骤1中,所述下机数据是指通过高通量测序技术(Next GenerationSequencing)得到的数据。
步骤2中,所述人类参考基因组可以为UCSC数据库(http://genome.ucsc.edu/)中的GRCH37,即hg19参考基因组。
以非小细胞肺癌病人肺癌组织的游离核酸为例,突变基因位点的检测数据结果如图1.3所示。所述结果中包括突变位置,突变序列和突变功能注释信息。
所述软件和算法均为现有技术,故不再赘述。
步骤S12中,所述聚类算法选自K-Means聚类算法,即K平均聚类算法。K-means算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
K平均聚类的步骤如下:1.初始化k个聚类中心;2.寻找离每个数据最近的聚类中心,将数据赋到中心所代表的类;3.根据得到的类划分,重新计算k个聚类中心;4.重复步骤2和3直到聚类中心不再改变。这是劳埃德(Lloyd)循环过程,这个过程本质上是使得聚类中心到对应的每个数据的距离的平方和最小。
所述K-Means聚类算法可采用R 软件kmeans函数实现。
亚克隆分层是指将同一样本中相似的突变聚类成集合,所述集合即为亚克隆。
进一步的,步骤S13中,注释信息选自突变的人群分布信息,癌种特异的突变分布信息和突变功能信息中的一种或多种。
优选为突变的人群分布信息,癌种特异的突变分布信息和突变功能信息。
在一种实施方式中,所述人群分布信息来自千人基因组计划数据库,即1000Genomes Project,公开了1092个人的基因组数据。可通过官方网址(http:// www.internationalgenome.org/)获得。
在一种实施方式中,癌种特异的突变分布信息来自Cosmic数据库,即theCatalogue Of Somatic Mutations In Cancer。可通过官方网址(https:// cancer.sanger.ac.uk/cosmic)获得。
突变功能使用SnpEff软件注释获得。
步骤S14中,基于增强学习算法建立所述亚克隆预测模型。
所述增强学习算法选自AdaBoost算法。AdaBoost算法属于一种迭代算法,针对同一训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强大的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。
本发明中,利用AdaBoost算法,将已知体细胞突变信息的各个样本的突变的基因位点的注释信息转化合并成一个文件,每行一个样本,形成一个输入的特征集文件;将所述输入的特征集文件读入,以所述突变的基因位点属于第一克隆,第二克隆和第三克隆的哪一类作为目标值,以所述特征集文件中的注释信息作为特征进行增强学习模型(pythonAdaBoost 软件包)的拟合,利用cross-validation(交叉验证)得到最优的参数,得到亚克隆预测模型。
所述亚克隆预测模型可以根据各亚克隆内各突变基因位点的注释信息,分析确定各亚克隆的注释信息,进而预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类。
本发明所述方法无需预先确定胚系突变,而可直接筛选出个体的与肿瘤相关的突变,即驱动突变。
本发明可采用单个算法建立预测模型,无需整合多个算法建立预测模型。
如图2所示,展示本发明一实施例中无对照体细胞突变检测装置,所述装置无需正常组织对照,所述装置至少包括:
获取模块,用于获取待测样本的突变基因位点的检测数据;
分层模块,用于根据所述突变基因位点的检测数据信息,基于聚类算法对突变基因位点进行相似聚类,即形成亚克隆分层;
注释模块,用于注释各亚克隆内各突变基因位点;
建模模块,用于建立亚克隆预测模型;
预测模块,用于将注释模块得到的各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类;所述第一克隆是指肿瘤的驱动克隆,所述第二克隆是指过客克隆,所述第三克隆为不携带体细胞突变的集合。
在一种实施方式中,获取模块中,所述突变基因位点的检测数据包括碱基置换突变信息和拷贝数变异信息;
在一种实施方式中,获取模块中,获取待测样本的突变基因位点的检测数据的方法可包括如下步骤:
1.测序下机数据通过BCL2fastq软件,利用样本的标签序列(index)信息从测序BCL数据中分离样本数据并转换成fastq文件;
2.fastq文件通过BWA算法比对到人类参考基因组得到记录比对信息的SAM文件,并利用samtools软件转换为BAM 文件;
3.使用varscan2算法鉴别出样本的突变和拷贝数变异,得到样本的突变信息和拷贝数变异信息,即突变基因位点的检测数据。
步骤1中,所述下机数据是指通过高通量测序技术(Next GenerationSequencing)得到的数据。
步骤2中,所述人类参考基因组可以为UCSC数据库(http://genome.ucsc.edu/)中的GRCH37,即hg19参考基因组。
分层模块中,所述聚类算法选自K-Means聚类算法,即K平均聚类算法。K-means算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
K平均聚类的步骤如下:1.初始化k个聚类中心;2.寻找离每个数据最近的聚类中心,将数据赋到中心所代表的类;3.根据得到的类划分,重新计算k个聚类中心;4.重复步骤2和3直到聚类中心不再改变。这是劳埃德(Lloyd)循环过程,这个过程本质上是使得聚类中心到对应的每个数据的距离的平方和最小。
所述K-Means聚类算法可采用R 软件kmeans函数实现。
亚克隆分层是指将同一样本中相似的突变聚类成集合,所述集合即为亚克隆。
进一步的,注释模块中,注释信息选自突变的人群分布信息,癌种特异的突变分布信息和突变功能信息中的一种或多种。
优选为突变的人群分布信息,癌种特异的突变分布信息和突变功能信息。
突变功能使用SnpEff软件注释获得。
建模模块中,基于增强学习算法建立所述亚克隆预测模型。
所述增强学习算法选自AdaBoost算法。
本发明中,利用AdaBoost算法,将已知体细胞突变信息的各个样本的突变的基因位点的注释信息转化合并成一个文件,每行一个样本,形成一个输入的特征集文件;将所述输入的特征集文件读入,以所述突变的基因位点属于第一克隆,第二克隆和第三克隆的哪一类作为目标值,以所述特征集文件中的注释信息作为特征进行增强学习模型(pythonAdaBoost 软件包)的拟合,利用cross-validation(交叉验证)得到最优的参数,得到亚克隆预测模型。
由于本实施例中的装置与前述方法实施例的原理基本相同,在上述方法和装置实施例中,对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用,不再重复赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在某一个芯片中实现,此外,也可以以程序代码的形式存储于存储器中,由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
在本发明的一些实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述无对照体细胞突变检测方法。
在本发明的一些实施例中,还提供了一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述无对照体细胞突变检测方法的步骤。
在本发明的一些实施例中,还提供了一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行实现前述无对照体细胞突变检测方法。
如图3所示,展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35;存储器32和通信接口34通过系统总线35与处理器31和通信器33连接并完成相互间的通信,存储器32用于存储计算机程序,通信器34、通信接口34用于和其他设备进行通信,处理器31和通信器33用于运行计算机程序,使电子终端执行如上图像分析方法的各个步骤。
上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行 指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
可行性验证:
目前,区分体细胞突变的标准方法是通过同时测定统一病人的肿瘤组织和正常对照组织(白细胞),使用mutect算法鉴别出体细胞突变。因此通过测定10对此类样本,鉴别出真实的体细胞突变。与通过本发明所述方法预测出的体细胞突变进行比较,验证方法的准确性。
以非小细胞肺癌病人肺癌组织为例:
标准方法共检出体细胞突变135个,采用本发明所述方法,检出相同体细胞突变126个,敏感度93%,阳性预测率90%,与标准结果基本一致,本发明所述方法具有误差较小,准确性高。
综上所述,本发明整合碱基置换突变和基因拷贝数对突变进行亚克隆分层。在克隆分层的基础上进一步整合突变上下文信息,突变所在区域的丰度信息以及突变的人群遗传学特征对亚克隆进行分类。通过多个层次上的信息整合达到准确鉴别体细胞突变和胚系突变的效果,且无需正常组织对照,方便快捷。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种无对照体细胞突变检测方法,所述方法无需正常组织对照,所述方法至少包括以下步骤:
S1:获取待测样本的突变基因位点的检测数据;
S2:根据所述突变基因位点的检测数据信息,基于聚类算法对突变基因位点进行相似聚类,即形成亚克隆分层;
S3:注释各亚克隆内各突变基因位点;
S4:建立亚克隆预测模型;
S5:将步骤S3得到的各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类;所述第一克隆是指肿瘤的驱动克隆,所述第二克隆是指过客克隆,所述第三克隆为不携带体细胞突变的集合。
2.如权利要求1所述的无对照体细胞突变检测方法,其特征在于,还包括以下特征中的一项或多项:
步骤S1中,所述突变基因位点的检测数据包括碱基置换突变信息和拷贝数变异信息;
步骤S2中,所述聚类算法选自K-Means聚类算法;
步骤S3中,注释信息选自突变的人群分布信息,癌种特异的突变分布信息和突变功能信息中的一种或多种;
步骤S4中,基于增强学习算法建立所述亚克隆预测模型。
3.如权利要求2所述的无对照体细胞突变检测方法,其特征在于:
e. 当包括特征a时,步骤S1中,获取待测样本的突变基因位点的检测数据的方法包括如下步骤:
1)测序下机数据通过BCL2fastq软件,利用样本的标签序列信息从测序BCL数据中分离样本数据并转换成fastq文件;
2)fastq文件通过BWA算法比对到人类参考基因组得到记录比对信息的SAM文件,并利用samtools软件转换为BAM 文件;
3)使用varscan2算法鉴别出样本的突变和拷贝数变异,得到样本的突变信息和拷贝数变异信息,即突变基因位点的检测数据;
f. 当包括特征d时,所述增强学习算法选自AdaBoost算法。
4.如权利要求3所述的无对照体细胞突变检测方法,其特征在于,当包括特征f时,利用AdaBoost算法,将已知体细胞突变信息的各个样本的突变的基因位点的注释信息转化合并成一个文件,每行一个样本,形成一个输入的特征集文件;将所述输入的特征集文件读入,以所述突变的基因位点属于第一克隆,第二克隆和第三克隆的哪一类作为目标值,以所述特征集文件中的注释信息作为特征进行增强学习模型的拟合,利用cross-validation得到最优的参数,得到亚克隆预测模型。
5.一种无对照体细胞突变检测装置,其特征在于,所述装置无需正常组织对照,所述装置至少包括:
获取模块,用于获取待测样本的突变基因位点的检测数据;
分层模块,用于根据所述突变基因位点的检测数据信息,基于聚类算法对突变基因位点进行相似聚类,即形成亚克隆分层;
注释模块,用于注释各亚克隆内各突变基因位点;
建模模块,用于建立亚克隆预测模型;
预测模块,用于将注释模块得到的各亚克隆内各突变基因位点注释信息输入到所述亚克隆预测模型中,预测各亚克隆属于第一克隆,第二克隆和第三克隆中的哪一类;所述第一克隆是指肿瘤的驱动克隆,所述第二克隆是指过客克隆,所述第三克隆为不携带体细胞突变的集合。
6.如权利要求5所述的无对照体细胞突变检测装置,其特征在于,还包括以下特征中的一项或多项:
获取模块中,所述突变基因位点的检测数据包括碱基置换突变信息和拷贝数变异信息;
分层模块中,所述聚类算法选自K-Means聚类算法;
注释模块中,注释信息选自突变的人群分布信息,癌种特异的突变分布信息和突变功能信息中的一种或多种;
建模模块中,基于增强学习算法建立所述亚克隆预测模型。
7.如权利要求6所述的无对照体细胞突变检测装置,其特征在于:
e. 当包括特征a时,获取模块中,获取待测样本的突变基因位点的检测数据的方法包括如下步骤:
测序下机数据通过BCL2fastq软件,利用样本的标签序列信息从测序BCL数据中分离样本数据并转换成fastq文件;
fastq文件通过BWA算法比对到人类参考基因组得到记录比对信息的SAM文件,并利用samtools软件转换为BAM 文件;
使用varscan2算法鉴别出样本的突变和拷贝数变异,得到样本的突变信息和拷贝数变异信息,即突变基因位点的检测数据;
f. 当包括特征d时,所述增强学习算法选自AdaBoost算法。
8.如权利要求7所述的无对照体细胞突变检测装置,其特征在于,当包括特征f时,用AdaBoost算法,将已知体细胞突变信息的各个样本的突变的基因位点的注释信息转化合并成一个文件,每行一个样本,形成一个输入的特征集文件;将所述输入的特征集文件读入,以所述突变的基因位点属于第一克隆,第二克隆和第三克隆的哪一类作为目标值,以所述特征集文件中的注释信息作为特征进行增强学习模型进行增强学习模型的拟合,利用cross-validation得到最优的参数,得到亚克隆预测模型。
9.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-4任一所述的无对照体细胞突变检测方法。
10.一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-4任一所述的无对照体细胞突变检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395409.0A CN109903811B (zh) | 2019-05-14 | 2019-05-14 | 一种无对照体细胞突变检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910395409.0A CN109903811B (zh) | 2019-05-14 | 2019-05-14 | 一种无对照体细胞突变检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109903811A true CN109903811A (zh) | 2019-06-18 |
CN109903811B CN109903811B (zh) | 2019-08-09 |
Family
ID=66956594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910395409.0A Active CN109903811B (zh) | 2019-05-14 | 2019-05-14 | 一种无对照体细胞突变检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109903811B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292802A (zh) * | 2020-02-03 | 2020-06-16 | 至本医疗科技(上海)有限公司 | 用于检测突变的方法、电子设备和计算机存储介质 |
CN112270957A (zh) * | 2020-10-19 | 2021-01-26 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
JP2022553848A (ja) * | 2019-11-05 | 2022-12-26 | パーソナリス,インコーポレイティド | 対応していない生体試料からの体細胞バリアント呼び出し |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105506065A (zh) * | 2014-09-25 | 2016-04-20 | 上海人类基因组研究中心 | 肝癌基因检测方法、检测试剂盒及其应用 |
CN105734122A (zh) * | 2014-12-31 | 2016-07-06 | 深圳市作物分子设计育种研究院 | Simm法快速定位突变性状相关基因 |
CN107760783A (zh) * | 2017-11-06 | 2018-03-06 | 福建医科大学附属协和医院 | 基于108个基因的胃癌腹膜转移预测模型及其应用 |
-
2019
- 2019-05-14 CN CN201910395409.0A patent/CN109903811B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105506065A (zh) * | 2014-09-25 | 2016-04-20 | 上海人类基因组研究中心 | 肝癌基因检测方法、检测试剂盒及其应用 |
CN105734122A (zh) * | 2014-12-31 | 2016-07-06 | 深圳市作物分子设计育种研究院 | Simm法快速定位突变性状相关基因 |
CN107760783A (zh) * | 2017-11-06 | 2018-03-06 | 福建医科大学附属协和医院 | 基于108个基因的胃癌腹膜转移预测模型及其应用 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022553848A (ja) * | 2019-11-05 | 2022-12-26 | パーソナリス,インコーポレイティド | 対応していない生体試料からの体細胞バリアント呼び出し |
CN111292802A (zh) * | 2020-02-03 | 2020-06-16 | 至本医疗科技(上海)有限公司 | 用于检测突变的方法、电子设备和计算机存储介质 |
CN111292802B (zh) * | 2020-02-03 | 2021-03-16 | 至本医疗科技(上海)有限公司 | 用于检测突变的方法、电子设备和计算机存储介质 |
CN112270957A (zh) * | 2020-10-19 | 2021-01-26 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
CN112270957B (zh) * | 2020-10-19 | 2023-11-07 | 西安邮电大学 | 高阶snp致病组合数据检测方法、系统、计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109903811B (zh) | 2019-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190164632A1 (en) | Drug indication and response prediction systems and method using ai deep learning based on convergence of different category data | |
CN104762402B (zh) | 超快速检测人类基因组单碱基突变和微插入缺失的方法 | |
CN109903811B (zh) | 一种无对照体细胞突变检测方法及装置 | |
JP4437050B2 (ja) | 診断支援システム、診断支援方法および診断支援サービスの提供方法 | |
CN109689891A (zh) | 用于无细胞核酸的片段组谱分析的方法 | |
CN106778073B (zh) | 一种评估肿瘤负荷变化的方法和系统 | |
CN109411015A (zh) | 基于循环肿瘤dna的肿瘤突变负荷检测装置及存储介质 | |
Zhao et al. | Survival prediction in gliomas: current state and novel approaches | |
Marko et al. | Why is there a lack of consensus on molecular subgroups of glioblastoma? Understanding the nature of biological and statistical variability in glioblastoma expression data | |
Munquad et al. | A deep learning–based framework for supporting clinical diagnosis of glioblastoma subtypes | |
Susak et al. | Efficient and flexible Integration of variant characteristics in rare variant association studies using integrated nested Laplace approximation | |
CN117457065A (zh) | 一种基于单细胞多组学数据识别表型相关细胞类型的方法和系统 | |
US11614434B2 (en) | Genetic information analysis platform oncobox | |
Sharma et al. | Predicting survivability in oral cancer patients | |
Sobhan et al. | Explainable machine learning to identify patient-specific biomarkers for lung cancer | |
Yuan et al. | STIC: Predicting single nucleotide variants and tumor purity in cancer genome | |
Subramanian et al. | Novel multisample scheme for inferring phylogenetic markers from whole genome tumor profiles | |
Ma et al. | Analysis of cancer omics data: a selective review of statistical techniques | |
Kannan et al. | CAISC: A software to integrate copy number variations and single nucleotide mutations for genetic heterogeneity profiling and subclone detection by single-cell RNA sequencing | |
Wang et al. | A graph-based algorithm for estimating clonal haplotypes of tumor sample from sequencing data | |
Liu et al. | CRSCNV: A cross-model-based statistical approach to detect copy number variations in sequence data | |
Rosenstein et al. | Radiogenomics | |
Li | Statistical methods for bulk and single-cell RNA sequencing data | |
US20230070992A1 (en) | Method for polygenic risk evaluation | |
Raju et al. | Benchmarking whole exome sequencing pipeline for predicting pathogenic variants of significance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211207 Address after: 201209 floor 3, building 1, No. 400, Fangchun Road, pilot Free Trade Zone, Pudong New Area, Shanghai Patentee after: Huisuan gene technology (Shanghai) Co.,Ltd. Address before: 201203 Pudong New Area, Shanghai, China (Shanghai) free trade trial area, No. 3, 1 1, Fang Chun road. Patentee before: SMARTQUERIER BIOMEDICINE (SHANGHAI) CO.,LTD. |