CN110010195B - 一种探测单核苷酸突变的方法及装置 - Google Patents
一种探测单核苷酸突变的方法及装置 Download PDFInfo
- Publication number
- CN110010195B CN110010195B CN201811475083.4A CN201811475083A CN110010195B CN 110010195 B CN110010195 B CN 110010195B CN 201811475083 A CN201811475083 A CN 201811475083A CN 110010195 B CN110010195 B CN 110010195B
- Authority
- CN
- China
- Prior art keywords
- base
- sample
- single nucleotide
- sequencing
- reference sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明实施例公开了一种探测单核苷酸突变的方法及装置。探测单核苷酸突变的方法,包括以下步骤:步骤(11)将待测样本的测序数据和参考序列进行比对,得到第一比对结果;步骤(12)提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合;步骤(13)根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点。本发明实施例提供的探测单核苷酸突变的方法及装置运行效率高,并且通过使用机器学习的方法提高了探测单核苷酸突变的精度。
Description
技术领域
本发明涉及核酸序列分析技术领域,具体涉及一种探测单核苷酸突变的方法及装置。
背景技术
随着二代测序技术的发展,在高通量全基因组或全外显子组测序数据分析中,单碱基位点突变(Single nucleotide variation,SNV)的探测是一个关键且要求高精准度的问题。遗传性点突变(Single Nucleatide Polymorphism,SNP)的探测可以用来发现物种基因型和表型的遗传规律;在肿瘤或病变组织数据中,体细胞突变位点(Somatic SingleNucleatide Variation,SSNV)检测在此基础上又给单碱基位点突变问题提出了更高的要求。
现有技术会计算突变点附近的支持突变碱基的序列数量,这些序列的比对质量,正负链情况,以及测序的错误率等信息,计算突变纯合或杂合基因型质量值。
现有技术有以下缺点:
缺点一:各种技术的统计模型速度慢;
缺点二:没采用机器学习的方法,性能提升有限,只通过统计信息,和根据统计信息计算的基因型质量值,这些信息对精度提升有限;
总之,目前主流的技术探测单核苷酸突变的速度慢,同一套数据各个算法得到的结果一致性低。
发明内容
本发明实施例的目的在于提供一种探测单核苷酸突变的方法及装置,用以解决现有技术中探测单核苷酸突变的速度慢,同一套数据各个算法得到的结果一致性低的问题。
为实现上述目的,本发明实施例第一方面提供了一种探测单核苷酸突变的方法,包括以下步骤:
步骤(11)将待测样本的测序数据和参考序列进行比对,得到第一比对结果。
步骤(12)提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量;
步骤(13)根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;
其中,所述机器学习模型通过以下步骤构建:
步骤(21)将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果;
步骤(22)提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量;
步骤(23)根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合;
步骤(24)利用机器学习方法对所述标准样本的单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。
在一种可能的实现方式中,所述步骤(11)还包括:将待测样本的对照样本的测序数据和所述参考序列进行比对,得到第三比对结果;在所述步骤(12)中,根据第三比对结果提取第一比对结果中的单核苷酸突变的特征向量,得到所述第一特征向量集合;所述步骤(21)还包括:将标准样本的对照样本的测序数据和所述参考序列进行比对,得到第四比对结果;在所述步骤(22)中,根据所述第四比对结果提取第二比对结果中的单核苷酸突变的特征向量,得到所述第二特征向量集合。
在一种可能的实现方式中,单核苷酸的特征向量还包括以下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库、GC含量、噪音的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列碱基基因序列比对质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP质量、单样本RMS质量、单样本校正的P值、有对照样本两两费歇尔检验的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数、信噪比、对信息统计等;
所述机器学习方法包括以下任一种:
朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法;其中,Boosting方法及其变种包含AdaptiveBoosting、Gradient Boosting等;
所述步骤(24)还包括:采用十折交叉验证法测试所述机器学习模型。
在一种可能的实现方式中,第一比对结果存放在BAM文件中;第二比对结果存放在BAM文件中;待测样本的测序数据的测序平台和测序方法,与标准样本的测序数据的测序平台和测序方法一致。
在一种可能的实现方式中,在所述步骤(12)中,根据特征设定条件提取第一比对结果中的单核苷酸突变的特征向量;在所述步骤(22)中,根据特征设定条件提取第二比对结果中的单核苷酸突变的特征向量;特征设定条件包括以下任一种或多种:测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
本发明实施例第二方面提供了一种探测单核苷酸突变的装置,其特征在于,包括:比对单元、提取单元、探测单元、标注单元、训练单元;所述比对单元用于将待测样本的测序数据和参考序列进行比对,得到第一比对结果;所述提取单元用于提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量;所述探测单元用于根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;所述比对单元还用于将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果;所述提取单元还用于提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量;所述标注单元用于根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合;所述训练单元用于利用机器学习方法对所述标准样品的单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。
在一种可能的实现方式中,所述比对单元还用于将待测样本的对照样本的测序数据和所述参考序列进行比对,得到第三比对结果;所述提取单元还用于根据第三比对结果提取第一比对结果中的单核苷酸突变的特征向量,得到所述第一特征向量集合;所述比对单元还用于将标准样本的对照样本的测序数据和所述参考序列进行比对,得到第四比对结果;所述提取单元还用于根据所述第四比对结果提取第二比对结果中的单核苷酸突变的特征向量,得到所述第二特征向量集合。
在一种可能的实现方式中,单核苷酸的特征向量还包括以下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库、GC含量、噪音的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列碱基基因序列比对质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP质量、单样本RMS质量、单样本校正的P值、有对照样本两两费歇尔检验的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数、信噪比、对信息统计等;
所述机器学习方法包括以下任一种:
朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法;其中,Boosting方法及其变种包含AdaptiveBoosting、Gradient Boosting等;
所述训练单元还用于采用十折交叉验证法测试所述机器学习模型。
在一种可能的实现方式中,第一比对结果存放在BAM文件中;第二比对结果存放在BAM文件中;待测样本的测序数据的测序平台和测序方法,与标准样本的测序数据的测序平台和测序方法一致。
在一种可能的实现方式中,所述提取单元还用于根据特征设定条件提取第一比对结果中的单核苷酸突变的特征向量;所述提取单元还用于根据特征设定条件提取第二比对结果中的单核苷酸突变的特征向量;特征设定条件包括以下任一种或多种:测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
本发明实施例具有如下优点:基于特征提取、模型训练的机器学习方法来探测高置信度的单核苷酸突变,并且可以根据不同测序平台和测序方法定制不同的模型,以提高计算的速度和结果的精度;本发明实施例提供的探测单核苷酸突变的方法及装置运行效率高;其他基因变异探测方法或装置需要数以天计的计算任务,本发明实施例提供的探测单核苷酸突变的方法及装置可以在短时间内给出探测结果,可以最大限度利用计算资源,降低时间成本;并且通过使用机器学习的方法提高了探测单核苷酸突变的精度。
附图说明
图1为本发明实施例1提供的探测单核苷酸突变的方法流程图。
图2为本发明实施例1提供的机器学习模型的构建方法流程图。
图3为本发明本实施3提供的探测单核苷酸突变的装置的结果示意图。
图中:11-13.步骤,21-24.步骤,31.比对单元,32.提取单元,33.探测单元,34.标注单元,35.训练单元。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
在本发明实施例中,单核苷酸突变可以指碱基位点突变(Single nucleotidevariation,SNV),也可以指遗传性点突变(Single Nucleatide Polymorphism,SNP),也可以指体细胞突变位点(Somatic Single Nucleatide Variation,SSNV)。
实施例1
本实施例提供了一种探测单核苷酸突变的方法,如图1所示,该方法包括如下步骤。
步骤11、将待测样本的测序数据和参考序列进行比对,得到第一比对结果。
在步骤11之前,选取待测样本进行测序文库建立。利用测序平台(例如Illumina、BGIseq、Ion Torrent等)进行测序。具体可以为全基因组测序,也可以为全外显子测序,也可以为靶向测序。测序结果生成原始Fastq文件,从而得到待测样本的测序数据。
利用基因组比对软件(如BWA、Bowtie、Stampy等)对Fastq文件进行参考基因组(如人类基因组GRCh37等)比对,得到比对结果,比对结果可以以二进制序列比对格式(binarysequence alignment map format,BAM)文件形式存在。
在一个示例中,待测样本可以为健康人的组织细胞、生殖细胞等。
在一个示例中,待测样本可以为病人的病变组织细胞,例如肿瘤患者的肿瘤细胞。
当待测样本为病人的病变组织细胞时,在本实施例中,进行待测样本的对照样本的测序数据和参考序列进行比对,得到第三比对结果。待测样本的对照样本可以为该病人的非病变组织。例如,待测样本为病人的肿瘤细胞,该待测样本的对照样本可以为癌旁组织细胞或者为血液中的细胞。
对照样本的测序、比对,可参照待测样本进行,此处不再赘述。
步骤12、提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量。
待测样本的测序数据相对参考序列的变异位置为待测样本的测序得到序列相对参考序列的变异所在的位置,其是潜在的突变位点。
待测样本的测序数据中各碱基的数量是指待测样本的测序数据A、T、C、G各个碱基的数目。
通过BAM文件提取单核苷酸突变的特征向量,并根据特征设定条件进行初步筛选。特征设定条件可以为测序质量和/或测序深度。
如果有对照样本,则通过对照样本的BAM文件和待测样本的BAM文件统计待测样本和对照样本两两比较的特征向量。特征设定条件则包括以下任一种或多种:
测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
从第一比对结果中提取得到的特征向量具体还可以为如下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库(The Single Nucleotide Polymorphism Database,dbSNP)、GC含量、噪音(噪音具体是指其他突变碱基,其他突变碱基是指非常规突变,例如,在一个位点,一般是A->C突变,那A->G、A->T则为噪音)的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列(reference,Ref)碱基基因序列比对(mapping)质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP(TheSingle Nucleotide Polymorphism,单核苷酸多态性)质量、单样本RMS(Root MeanSquare,比对质量均方根)质量、单样本校正(binomial test)的P值、有对照样本两两费歇尔检验(Fisher test)的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数(Somatic score)、信噪比、对(pair)信息(对信息是指变异点两侧正常的测序序列成对的数量,不含正常插入长度的序列,以及不正常插入长度的序列数量)统计、splitreads(split reads是指能在参考基因组上找到多个比对位置的序列数量)统计。
步骤13、根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点。
本实施例提供的探测单核苷酸突变的方法,可探测1个样本,也可以同时探测多个样本,每个样本的同一位置,也会放在一起比较,每个样本之间可互为对照。
接下来,对所述机器学习模型的构建进行具体介绍。
如图2所示,所述机器学习模型通过以下步骤构建。
步骤21、将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果。
在步骤21之前,选取已知可靠值集合的标准样本进行测序文库建立。利用测序平台(例如Illumina、BGIseq、Ion Torrent等)进行测序。具体可以为全基因组测序,也可以为全外显子测序,也可以为靶向测序。测序结果生成原始Fastq文件,从而得到对照样本的测序数据。
需要明确指出的是,此处的测序文库建立并非是指为了得到可靠值集合(如上所述,在进行本实施例中的标准样本测序文库建立之前,标准样本的可靠值集合已经是已知的了)的测序文库建立,而是为了训练模型,采用普通的、一般的待测样本的测序文库的构建方法进行测序文库构建。
在一个示例中,构建测序文库的构建方法和待测样本的测序文库的构建方法一致,即采用相同的测序平台和测序方法。
在本实施例中,可靠值是指测序深度较深(例如20000×及以上),从而测序结果比较可靠,可以认为是真实的碱基序列。
利用基因组比对软件(如BWA、Bowtie、Stampy等)对Fastq文件进行参考基因组(如人类基因组GRCh37等)比对,得到比对结果,比对结果可以以二进制序列比对格式(binarysequence alignment map format,BAM)文件形式存在。
在一个示例中,标准样本可以为健康人的组织细胞、生殖细胞等。
在一个示例中,标准样本可以为病人的病变组织细胞,例如肿瘤患者的肿瘤细胞。
当标准本为病人的病变组织细胞时,在本实施例中,进行标准样本的对照样本的测序数据和参考序列进行比对,得到第四比对结果。待测样本的对照样本可以为该病人的非病变组织。例如,标准样本为病人的肿瘤细胞,该标准样本的对照样本可以为癌旁组织细胞或者为血液中的细胞。
对照样本的测序、比对可参照标准样本进行,此处不再赘述。
步骤22、提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量。
标准样本的测序数据相对参考序列的变异位置为标准样本的测序得到序列相对参考序列的变异所在的位置,其是潜在的突变位点。
标准样本的测序数据中各碱基的数量是指标准样本的测序数据A、T、C、G各个碱基的数目。
通过BAM文件提取单核苷酸突变的特征向量,并根据特征设定条件进行初步筛选。特征设定条件可以为测序质量和/或测序深度。
如果有对照样本,则通过对照样本的BAM文件和标准样本的BAM文件统计标准样本和对照样本两两比较的特征向量。特征设定条件则包括以下任一种或多种:
测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
从第二比对结果中提取的特征向量具体还可以为如下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库(The Single Nucleotide Polymorphism Database,dbSNP)、GC含量、噪音(噪音具体是指其他突变碱基,其他突变碱基是指非常规突变,例如,在一个位点,一般是A->C突变,那A->G、A->T则为噪音)的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列(reference,Ref)碱基基因序列比对(mapping)质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP(TheSingle Nucleotide Polymorphism,单核苷酸多态性)质量、单样本RMS(Root MeanSquare,比对质量均方根)质量、单样本校正(binomial test)的P值、有对照样本两两费歇尔检验(Fisher test)的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数(Somatic score)、信噪比、对(pair)信息(对信息是指变异点两侧正常的测序序列成对的数量,不含正常插入长度的序列,以及不正常插入长度的序列数量)统计、splitreads(split reads是指能在参考基因组上找到多个比对位置的序列数量)统计。
步骤23、根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合。
标准样本的可靠值序列可以从数据库下载,也可以预先测序,该预先测序的深度较高,比如20000×及以上,可以认为可靠值序列是可靠的。该预先测序是指在本实施例步骤21中为训练模型而进行的测序文库构建之前进行的测序(该预先测序是为了在步骤21之前,获知标准样本的可靠值序列)。
具体的,当在标准样本的可靠值序列中出现一个单核苷酸突变位点时,标记为1,反之标记为0,得到标注好的集合。相应地,在上文的步骤13中,探测到分类为1的单核苷酸突变位点做为待测样本的变异位点。
步骤24、利用机器学习方法对所述标准样品的单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。
所述机器学习方法包括以下任一种:
朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法。Boosting方法及其变种,包含AdaptiveBoosting、Gradient Boosting等。
根据不同的机器学习方法可以生成不同的机器学习模型。
待测样本的测序数据的测序平台和测序方法,与,标准样本的测序数据的测序平台和测序方法一致;即待测样本的测序数据的测序平台和标准样本的测序数据的测序平台一致,且待测样本的测序数据的测序方法和标准样本的测序数据的测序方法一致。
根据不同的测序平台和不同测序方法可以生成多种机器学习模型,在进行待测样本探测时,根据待测样本的测序平台和测序方法选择对应的机器学习模型,以获得更高的探测准确率。
在一个示例中,在训练机器学习模型时,采用十折交叉验证法测试训练的机器学习模型。
在本实施例中,可以进行多样品对比探测,对于每种变异分别进行正常样本和肿瘤样本的对比探测,最大限度保留低频变异。同时,可以将生殖细胞变异和体细胞变异探测同步进行。
本实施例提供的探测单核苷酸突变的方法基于特征提取、模型训练的机器学习方法来探测高置信度的SNV,并且可以根据不同测序平台和测序方法定制不同的模型,以提高计算的速度和结果的精度;本实施例提供的探测单核苷酸突变的方法及装置运行效率高;其他基因变异探测方法需要数以天计的计算任务,本实施例提供的探测单核苷酸突变的方法可以在短时间内(对于数据深度30X的数据,32核心、512G内存节点运算15分钟就可以给出探测结果)给出探测结果,可以最大限度利用计算资源,降低时间成本;并且通过使用机器学习的方法提高了探测单核苷酸突变的精度。
实施例2
在本实施例中,提供了一种探测单核苷酸突变的装置,如图3所示,该装置包括:比对单元31、提取单元32、探测单元33、标注单元34、训练单元35。
所述比对单元31用于将待测样本的测序数据和参考序列进行比对,得到第一比对结果。
所述提取单元32用于提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量。
所述探测单元33用于根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;
所述比对单元31还用于将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果。
所述提取单元32还用于提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量。
所述标注单元34用于根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合。
所述训练单元35用于利用机器学习方法对所述标准单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。
在一个示例中,所述比对单元31还用于将待测样本的对照样本的测序数据和所述参考序列进行比对,得到第三比对结果;所述提取单元32还用于根据第三比对结果提取第一比对结果中的单核苷酸突变的特征向量,得到所述第一特征向量集合;所述比对单元31还用于将标准样本的对照样本的测序数据和所述参考序列进行比对,得到第四比对结果;所述提取单元32还用于根据所述第四比对结果提取第二比对结果中的单核苷酸突变的特征向量,得到所述第二特征向量集合。
在一个示例中,从第一比对结果中提取得到的单核苷酸的特征向量包括以下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库(The Single Nucleotide Polymorphism Database,dbSNP)、GC含量、噪音(噪音具体是指其他突变碱基,其他突变碱基是指非常规突变,例如,在一个位点,一般是A->C突变,那A->G、A->T则为噪音)的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列(reference,Ref)碱基基因序列比对(mapping)质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP(TheSingle Nucleotide Polymorphism,单核苷酸多态性)质量、单样本RMS(Root MeanSquare,比对质量均方根)质量、单样本校正(binomial test)的P值、有对照样本两两费歇尔检验(Fisher test)的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数(Somatic score)、信噪比、对(pair)信息(对信息是指变异点两侧正常的测序序列成对的数量,不含正常插入长度的序列,以及不正常插入长度的序列数量)统计、splitreads(split reads是指能在参考基因组上找到多个比对位置的序列数量)统计。
在一个示例中,从第二比对结果中提取得到的单核苷酸的特征向量包括以下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库(The Single Nucleotide Polymorphism Database,dbSNP)、GC含量、噪音(噪音具体是指其他突变碱基,其他突变碱基是指非常规突变,例如,在一个位点,一般是A->C突变,那A->G、A->T则为噪音)的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列(reference,Ref)碱基基因序列比对(mapping)质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP(TheSingle Nucleotide Polymorphism,单核苷酸多态性)质量、单样本RMS(Root MeanSquare,比对质量均方根)质量、单样本校正(binomial test)的P值、有对照样本两两费歇尔检验(Fisher test)的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数(Somatic score)、信噪比、对(pair)信息(对信息是指变异点两侧正常的测序序列成对的数量,不含正常插入长度的序列,以及不正常插入长度的序列数量)统计、splitreads(split reads是指能在参考基因组上找到多个比对位置的序列数量)统计。
所述机器学习方法包括以下任一种:
朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法;Boosting方法及其变种包含AdaptiveBoosting、Gradient Boosting等。
所述训练单元35还用于采用十折交叉验证法测试所述机器学习模型。
在一个示例中,第一比对结果存放在BAM文件中;第二比对结果存放在BAM文件中;待测样本的测序数据的测序平台和测序方法,与,标准样本的测序数据的测序平台和测序方法一致。
在一个示例中,所述提取单元32还用于根据特征设定条件提取第一比对结果中的单核苷酸突变的特征向量;所述提取单元32还用于根据特征设定条件提取第二比对结果中的单核苷酸突变的特征向量;特征设定条件包括以下任一种或多种:测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
本实施例提供的探测单核苷酸突变可以参照实施例1实现,此处不再赘述。
本实施例具有如下优点:基于特征提取、模型训练的机器学习装置来探测高置信度的SNV,并且可以根据不同测序平台和测序方法定制不同的模型,以提高计算的速度和结果的精度;本实施例提供的探测单核苷酸突变的装置运行效率高;其他基因变异探测装置需要数以天计的计算任务,本实施例提供的探测单核苷酸突变的装置可以在短时间内(对于数据深度30X的数据,32核心、512G内存节点运算15分钟就可以给出探测结果)给出探测结果,可以最大限度利用计算资源,降低时间成本;并且通过使用机器学习的方法提高了探测单核苷酸突变的精度。
实施例3
在本实施例中,以标准样本为NA12878样本为例,对本发明实施例提供的机器学习模型进行说明。
NA12878样本来自于瓶中基因组联盟(Genome in a Bottle),该联盟由美国国家标准技术研究所NIST发起成立,该联盟包括来自产业界、学术界和政府部门的相关人员,旨在建立参考标准帮助人们评估测序仪器、试剂和数学算法的性能,推动人类基因组测序的临床应用。NA12878该样本来自具有犹他州CEPH血统的一位妇女,是研究的最多的基因组。
测序平台为Illumina HiSeq 2000,测序深度50×。由EBI下载,数据号是ERR194147。
根据实施例1记载的内容得到初筛数据集合如表1所示。
表1
在训练模型时,将数据均分为10份,其中九份作为训练数据,剩余一份作为测试数据。采用十折交叉验证方法,使用机器学习方法(Gradient Boosting算法)将训练数据建模,并使用测试数据进行性能验证。最终性能为十折交叉验证结果均值。
验证结果如表2所示。
表2
数据 | 准确率(均值) | 召回率(均值) | F1-score(均值) |
NA12878.pup | 99.88% | 99.96% | 99.92% |
本实施例具有如下优点:基于特征提取、模型训练的机器学习装置来探测高置信度的SNV,并且可以根据不同测序平台和测序方法定制不同的模型,以提高计算的速度和结果的精度;本实施例提供的探测单核苷酸突变的方法及装置运行效率高;其他基因变异探测装置需要数以天计的计算任务,本实施例提供的探测单核苷酸突变的方法及装置可以在短时间内(对于数据深度30X的数据,32核心、512G内存节点运算15分钟就可以给出探测结果)给出探测结果,可以最大限度利用计算资源,降低时间成本;并且通过使用机器学习的方法提高了探测单核苷酸突变的精度。
实施例4
在本实施例中,以标准样本为肿瘤患者的病变样本为例,对本发明实施例提供的机器学习模型进行说明。
测序数据来源于The ICGC-TCGA DREAM Genomic Mutation Calling Challengeset5 data(https://www.synapse.org/#!Synapse:syn312572/wiki/62018)。
根据实施例1记载的内容得到初筛数据集合如表3所示。
表3
在训练模型时,将数据均分为10份,其中九份作为训练数据,剩余一份作为测试数据。采用十折交叉验证方法,使用机器学习方法(Gradient Boosting算法)将训练数据建模,并使用测试数据进行性能验证。最终性能为十折交叉验证结果均值。
验证结果如表4所示。
表4
数据 | 准确率(均值) | 召回率(均值) | F1-score(均值) |
Set5.pup | 99.73% | 99.81% | 99.77% |
本实施例具有如下优点:基于特征提取、模型训练的机器学习装置来探测高置信度的SNV,并且可以根据不同测序平台和测序方法定制不同的模型,以提高计算的速度和结果的精度;本实施例提供的探测单核苷酸突变的方法及装置运行效率高;其他基因变异探测装置需要数以天计的计算任务,本实施例提供的探测单核苷酸突变的方法及装置可以在短时间内(对于数据深度30X的数据,32核心、512G内存节点运算15分钟就可以给出探测结果)给出探测结果,可以最大限度利用计算资源,降低时间成本;并且通过使用机器学习的方法提高了探测单核苷酸突变的精度。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (10)
1.一种探测单核苷酸突变的方法,其特征在于,包括以下步骤:
步骤(11)将待测样本的测序数据和参考序列进行比对,得到第一比对结果;
步骤(12)提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量;
步骤(13)根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;
其中,所述机器学习模型通过以下步骤构建:
步骤(21)将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果;
步骤(22)提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量;
步骤(23)根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合;
步骤(24)利用机器学习方法对所述标准样本的单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述步骤(11)还包括:将待测样本的对照样本的测序数据和所述参考序列进行比对,得到第三比对结果;
在所述步骤(12)中,根据第三比对结果提取第一比对结果中的单核苷酸突变的特征向量,得到所述第一特征向量集合;
所述步骤(21)还包括:将标准样本的对照样本的测序数据和所述参考序列进行比对,得到第四比对结果;
在所述步骤(22)中,根据所述第四比对结果提取第二比对结果中的单核苷酸突变的特征向量,得到所述第二特征向量集合。
3.根据权利要求1或2所述的方法,其特征在于,单核苷酸的特征向量还包括以下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库、GC含量、噪音的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列碱基基因序列比对质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP质量、单样本RMS质量、单样本校正的P值、有对照样本两两费歇尔检验的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数、信噪比、对信息统计;
所述机器学习方法包括以下任一种:
朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法;其中,Boosting方法及其变种包含AdaptiveBoosting、Gradient Boosting;
所述步骤(24)还包括:采用十折交叉验证法测试所述机器学习模型。
4.根据权利要求1或2所述的方法,其特征在于,第一比对结果存放在BAM文件中;第二比对结果存放在BAM文件中;待测样本的测序数据的测序平台和测序方法,与标准样本的测序数据的测序平台和测序方法一致。
5.根据权利要求1或2所述的方法,其特征在于,在所述步骤(12)中,根据特征设定条件提取第一比对结果中的单核苷酸突变的特征向量;
在所述步骤(22)中,根据特征设定条件提取第二比对结果中的单核苷酸突变的特征向量;
特征设定条件包括以下任一种或多种:
测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
6.一种探测单核苷酸突变的装置,其特征在于,包括:比对单元、提取单元、探测单元、标注单元、训练单元;
所述比对单元用于将待测样本的测序数据和参考序列进行比对,得到第一比对结果;
所述提取单元用于提取第一比对结果中的单核苷酸突变的特征向量,得到第一特征向量集合,所述第一特征向量集合中含有待测样本的测序数据相对参考序列的变异位置和待测样本的测序数据中各碱基的数量;
所述探测单元用于根据所述第一特征向量集合利用机器学习模型探测所述待测样本的单核苷酸突变的位点;
所述比对单元还用于将标准样本的测序数据和所述参考序列进行比对,得到第二比对结果;
所述提取单元还用于提取第二比对结果中的单核苷酸突变的特征向量,得到第二特征向量集合,所述第二特征向量集合中含有标准样本的测序数据相对参考序列的变异位置和标准样本的测序数据中各碱基的数量;
所述标注单元用于根据所述第二特征向量集合在标准样本的可靠值序列中标注单核苷酸突变位点,得到标准样本的单核苷酸突变位点集合;
所述训练单元用于利用机器学习方法对所述标准样本的单核苷酸突变位点集合进行模型训练,得到所述机器学习模型。
7.根据权利要求6所述的装置,其特征在于,所述比对单元还用于将待测样本的对照样本的测序数据和所述参考序列进行比对,得到第三比对结果;
所述提取单元还用于根据第三比对结果提取第一比对结果中的单核苷酸突变的特征向量,得到所述第一特征向量集合;
所述比对单元还用于将标准样本的对照样本的测序数据和所述参考序列进行比对,得到第四比对结果;
所述提取单元还用于根据所述第四比对结果提取第二比对结果中的单核苷酸突变的特征向量,得到所述第二特征向量集合。
8.根据权利要求6或7所述的装置,其特征在于,单核苷酸的特征向量还包括以下任一种或多种:
总覆盖度、支持参考序列碱基覆盖度、支持变异碱基覆盖度、突变频率、单核苷酸多态性数据库、GC含量、噪音的个数统计、噪音的频率统计、突变左右参考序列上数量最多的碱基比例、正链支持参考序列碱基的数目、正链支持变异碱基的数目、负链支持参考序列碱基的数目、负链支持变异碱基的数目、正链支持变异碱基数目和负链支持变异碱基数目的比值、参考序列碱基据距头尾最短距离的均值、参考序列碱基据距头尾最短距离的方差、变异碱基据距头尾最短距离的均值、变异碱基据距头尾最短距离的方差、建库长度均值、建库长度方差、支持参考序列碱基基因序列比对质量平均值、支持参考序列碱基基因序列比对质量方差、支持参考序列碱基质量平均值、支持参考序列碱基质量方差、支持变异碱基基因序列比对质量平均值、支持变异碱基基因序列比对质量方差、支持变异碱基质量平均值、支持变异碱基质量方差、一致性质量、单样本SNP质量、单样本RMS质量、单样本校正的P值、有对照样本两两费歇尔检验的P值、有对照样本两两体细胞评分、有对照样本两两体细胞变异探测分数、信噪比、对信息统计;
所述机器学习方法包括以下任一种:
朴素贝叶斯法、逻辑回归法、线性回归法、最近邻近法、决策树法、Boosting方法及其变种、SVM支持向量机法、人工神经网络算法;其中,Boosting方法及其变种包含AdaptiveBoosting、Gradient Boosting;
所述训练单元还用于采用十折交叉验证法测试所述机器学习模型。
9.根据权利要求6或7所述的装置,其特征在于,第一比对结果存放在BAM文件中;第二比对结果存放在BAM文件中;待测样本的测序数据的测序平台和测序方法,与标准样本的测序数据的测序平台和测序方法一致。
10.根据权利要求6或7所述的装置,其特征在于,所述提取单元还用于根据特征设定条件提取第一比对结果中的单核苷酸突变的特征向量;
所述提取单元还用于根据特征设定条件提取第二比对结果中的单核苷酸突变的特征向量;
特征设定条件包括以下任一种或多种:
测序质量、测序深度、对照样本中单核苷酸突变出现的频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811475083.4A CN110010195B (zh) | 2018-12-04 | 2018-12-04 | 一种探测单核苷酸突变的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811475083.4A CN110010195B (zh) | 2018-12-04 | 2018-12-04 | 一种探测单核苷酸突变的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110010195A CN110010195A (zh) | 2019-07-12 |
CN110010195B true CN110010195B (zh) | 2021-02-19 |
Family
ID=67165041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811475083.4A Active CN110010195B (zh) | 2018-12-04 | 2018-12-04 | 一种探测单核苷酸突变的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110010195B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292802B (zh) * | 2020-02-03 | 2021-03-16 | 至本医疗科技(上海)有限公司 | 用于检测突变的方法、电子设备和计算机存储介质 |
CN111304308A (zh) * | 2020-03-02 | 2020-06-19 | 北京泛生子基因科技有限公司 | 一种审核高通量测序基因变异检测结果的方法 |
CN114694752B (zh) * | 2022-03-09 | 2023-03-10 | 至本医疗科技(上海)有限公司 | 预测同源重组修复缺陷的方法、计算设备和介质 |
CN115458052B (zh) * | 2022-08-16 | 2023-06-30 | 珠海横琴铂华医学检验有限公司 | 基于一代测序的基因突变分析方法、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9679374B2 (en) * | 2013-08-27 | 2017-06-13 | Heartflow, Inc. | Systems and methods for predicting location, onset, and/or change of coronary lesions |
CN108733981A (zh) * | 2018-06-11 | 2018-11-02 | 天津科技大学 | 一种基于深度学习技术从基因角度预测肝癌风险的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11302416B2 (en) * | 2015-09-02 | 2022-04-12 | Guardant Health | Machine learning for somatic single nucleotide variant detection in cell-free tumor nucleic acid sequencing applications |
-
2018
- 2018-12-04 CN CN201811475083.4A patent/CN110010195B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9679374B2 (en) * | 2013-08-27 | 2017-06-13 | Heartflow, Inc. | Systems and methods for predicting location, onset, and/or change of coronary lesions |
CN108733981A (zh) * | 2018-06-11 | 2018-11-02 | 天津科技大学 | 一种基于深度学习技术从基因角度预测肝癌风险的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110010195A (zh) | 2019-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110010195B (zh) | 一种探测单核苷酸突变的方法及装置 | |
Williams et al. | Identification of neutral tumor evolution across cancer types | |
US20240062849A1 (en) | Convolutional neural network systems and methods for data classification | |
Sheng et al. | Multi-perspective quality control of Illumina RNA sequencing data analysis | |
Hansen et al. | Shimmer: detection of genetic alterations in tumors using next-generation sequence data | |
JP2022521492A (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
US20190338349A1 (en) | Methods and systems for high fidelity sequencing | |
CN107451419B (zh) | 通过计算机程序模拟产生简化dna甲基化测序数据的方法 | |
US20200210852A1 (en) | Transcriptome deconvolution of metastatic tissue samples | |
Zhang et al. | Accounting for tumor purity improves cancer subtype classification from DNA methylation data | |
CN110299185B (zh) | 一种基于新一代测序数据的插入变异检测方法及系统 | |
KR101949286B1 (ko) | 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템 | |
JPWO2020160414A5 (zh) | ||
US20210238668A1 (en) | Biterminal dna fragment types in cell-free samples and uses thereof | |
EP4127232A1 (en) | Cancer classification with synthetic spiked-in training samples | |
US20220165363A1 (en) | De novo compartment deconvolution and weight estimation of tumor tissue samples using decoder | |
Liu et al. | A comprehensive evaluation of computational tools to identify differential methylation regions using RRBS data | |
US20200082910A1 (en) | Systems and Methods for Determining Effects of Genetic Variation of Splice Site Selection | |
CN109754843B (zh) | 一种探测基因组小片段插入缺失的方法及装置 | |
US20200190594A1 (en) | Investigating tumoral and temporal heterogeneity through comprehensive -omics profiling in patients with metastatic triple negative breast cancer | |
CN106570350B (zh) | 单核苷酸多态位点分型算法 | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN115066503A (zh) | 使用批量测序数据指导单细胞测序数据的分析 | |
CN113160895A (zh) | 一种结直肠癌风险评估模型及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |