CN110211632A - 一种基于神经网络的核苷酸单位点变异检测方法 - Google Patents

一种基于神经网络的核苷酸单位点变异检测方法 Download PDF

Info

Publication number
CN110211632A
CN110211632A CN201910371355.4A CN201910371355A CN110211632A CN 110211632 A CN110211632 A CN 110211632A CN 201910371355 A CN201910371355 A CN 201910371355A CN 110211632 A CN110211632 A CN 110211632A
Authority
CN
China
Prior art keywords
file
neural network
base
unit point
nucleotide unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910371355.4A
Other languages
English (en)
Inventor
袁细国
马超
杨利英
习佳宁
张军英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910371355.4A priority Critical patent/CN110211632A/zh
Publication of CN110211632A publication Critical patent/CN110211632A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Abstract

本发明属于神经网络技术领域,公开了一种基于神经网络的核苷酸单位点变异检测方法;利用bwa比对软件对原始的fastq数据做比对,生成sam文件;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件完成原始数据的预处理;对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的38个特征值;针对特征值的数据,进行训练然后保存一个训练模型;通过训练模型的框架对样本进行检测得出SNV。本发明能够解决Fasd‑somatic技术检测SNV变异位置不精确的问题;解决somatic snipper方法检测SNV变异造成遗漏的问题;解决现有技术遇到低肿瘤纯度下检测的准确率太低的问题。

Description

一种基于神经网络的核苷酸单位点变异检测方法
技术领域
本发明属于神经网络技术领域,尤其涉及一种基于神经网络的核苷酸单位点变异检测方法。
背景技术
目前,最接近的现有技术:联合样本分析法检测SNV。这种方法大多以贝叶斯模型为基础,考虑了正常样本及其配对的肿瘤样本之间的关系以及肿瘤样本的纯度,然后设置阈值来检测SNV,SomaticSniper和Fasd_somatic都是对贝叶斯模型进行的改变。但是现有方案也有一定的缺陷,比如,越来越多的证据表明肿瘤的异质性不仅存在肿瘤内部,还存在于肿瘤间;测序深度不足时,一些有突变意义的阳性突变很有可能过滤或是被覆盖;肿瘤细胞还有可能发生拷贝数变异、indel等一些基因突变;还有在测序中PCR扩增等方式,这些都会对检测体细胞突变造成很大的影响;此外,由于在肿瘤体内存在非肿瘤细胞,具有突变位点的深度将会降低。因此,检测SNV变得更加困难。
神经网络是在机器学习和相关领域一种灵感来自动物中枢神经系统的计算模型,并且被用于估计或可以依赖于大量输入和一般的未知近似函数。神经网络通常呈现为相互连接的“神经元”,它可以输入计算值,并且能够机器学习以及模式识别由于它们的自适应性质的系统。SNV(somatic nucleotide variant)变异是基因组中的一种重要的变异现象。主要表现为位点的变异会引起DNA转录翻译成蛋白质的异常,从发癌症的发生。
目前主要有3种检测基因组上SNV变异的策略,分别为:
1.简单减法(simple subtraction),简单减法思想:分别检测同一位点的正常正常的基因型和肿瘤的基因型,根据检测的结果如正常的基因型纯合于参考碱基而肿瘤细胞的基因型与参考碱基不同或者杂合来判断SNV的发生;这种检测方法的缺点是只能检测出高等位基因频率和肿瘤纯度的样本,对种系突变和低肿瘤纯度的样本不能做到很好的预测。如果是种系突变,他就是遗传来的,所以很有可能正常的基因型和肿瘤的基因型都是相同的,并且纯合于参考基因,而且还有可能是SNP,所以我们根据简单减法的方式就很难分辨这是不是SNV。而对于肿瘤纯度过低的情况下,肿瘤细胞中包含了大比例的正常细胞,就会导致肿瘤细胞的纯度过低,从而导致预测的误差极大。
2.联合样品分析方法(joint sample analysis),联合样品分析方法思想:联合样品分析方法主要是在简单减法方法基础上的一种完善,在简单减法的基础上在引入了数学模型如贝叶斯模型等,通过数学模型计算出质量分数或是准确率真阳性率等一些数据,通过设定的阈值更加准确的判定该位点是不是发生了SNV;该方法对种系SNV和低肿瘤纯度的样本检测效果较简单减法有较大提高,也是现在用的比较主流的一种方法。
3.检测SNP的方法,检测SNP方法思想:通过一个样本的基因型与参考碱基的比较来判断该位点是不是SNP,之后结合公共数据库(如dbSNPC)筛选掉一些公共的突变位点;这种方法的缺点在于对于未公开的数据库SNP将被错认为是SNV,即我们只可以对现有的结果进行判断,而对检测新的SNV没有帮助,对于癌症的研究价值不大。
综上所述,现有技术存在的问题是:
(1)现有检测基因组上SNV变异的方法存在检测位置不够精确。
(2)现有检测基因组上SNV变异的方法存在低肿瘤纯度下准确率较低。
(3)现有检测基因组上SNV变异的方法存在只依靠一条比对上的read容易造成变异检测的遗漏。
解决上述技术问题的难度:
(1)测序深度不足时,一些有突变意义的阳性突变很有可能过滤或是被覆盖。
(2)肿瘤细胞还有可能发生拷贝数变异、indel等一些基因突变。
(3)由于在肿瘤体内存在非肿瘤细胞,具有突变位点的深度将会降低。
解决上述技术问题的意义:众多学者发现,癌症产生的原因是由于DNA在细胞繁殖的过程中发生了改变,其中,SNV是许多癌症类型中肿瘤发生和细胞增殖的驱动因素,所以如果想了解癌症,研究SNV将会是很有必要的一步。
发明内容
针对现有技术存在的问题,本发明提供了一种基于神经网络的核苷酸单位点变异检测方法。
本发明是这样实现的,一种基于神经网络的核苷酸单位点变异检测方法,所述基于神经网络的核苷酸单位点变异检测方法包括以下步骤:
第一步,利用bwa比对软件对原始的fastq数据做比对,生成sam文件;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件完成原始数据的预处理;
第二步,对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的质量平均质量等参数形成38个特征值;
第三步,针对特征值的数据,进行训练然后保存一个训练模型;通过训练模型的框架对样本进行检测得出SNV。
进一步,所述第一步的bam文件中含有正常比对上pair-end数据和未正常比对的pair-end数据,对bam文件进行排序后得到pileup文件。
进一步,所述第二步提取特征值,得到的pileup文件包含参考碱基在染色体中的位置、参考碱基、该位点覆盖的reads数、覆盖该位点的碱基和碱基的生物信息。抓住这些生物信息的特点,提取出这些生物信息的数据作为神经网络训练和测试的特征值。
进一步,所述第三步在TensorFlow的整体框架下,构建了一个5层的神经网络模型,训练次数设定为10万次;得到一个文件夹来保存这些训练的模型。
本发明的另一目的在于提供一种所述基于神经网络的核苷酸单位点变异检测方法在致病性核苷酸单位点变异检测中的应用。
综上所述,本发明的优点及积极效果为:本发明能够解决Varscan2技术检测SNV变异位置不精确的问题;解决somatic snipper方法检测SNV变异造成遗漏的问题;解决现有技术遇到低肿瘤纯度下检测的准确率太低的问题。如下的表1和表2是在不同肿瘤错误率和肿瘤纯度下的结果。
表1基于正常-肿瘤样本在不同肿瘤错误率数据下的结果比较
表2基于正常-肿瘤样本在不同肿瘤纯度数据下的结果比较
本发明通过pileup文件提取的38个特征值涵盖了生物信息的方方面面,对数据的训练以及检测有很好的效果;在检测SNV上首次使用了神经网络技术,把一个复杂的生物问题转化为一个数据的二分类问题,并且在模型构建和训练次数层数方面都非常契合实验的需求;操作简单,时间复杂度低,效率高。本发明只需要对数据进行简单的预处理,并提取出相应的特征值直接使用训练好的模型即可完成检测。通过仿真数据的测试,可以发现本发明的测试结果相对于其它方法来说更为准确。
附图说明
图1是本发明实施例提供的基于神经网络的核苷酸单位点变异检测方法流程图。
图2是本发明实施例提供的于神经网络的核苷酸单位点变异检测方法实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有检测基因组上SNV变异的方法存在检测位置不够精确;低肿瘤纯度下准确率较低;只依靠一条比对上的read容易造成变异检测的遗漏的问题。本发明通过基因信息设定的特征值;通过一个TensorFlow框架对这些特征值进行训练,得到一个数据模型,在根据训练的模型对样本就行检测和筛选得出SNV。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于神经网络的核苷酸单位点变异检测方法包括以下步骤:
S101:利用bwa比对软件对原始的fastq数据做比对,生成sam文件;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件完成原始数据的预处理;
S102:对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的平均质量等38个特征值;
S103:针对特征值的数据,进行训练然后保存一个训练模型;通过训练模型的框架对样本进行检测得出SNV。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的基于神经网络的核苷酸单位点变异检测方法具体包括以下步骤:
(1)基因数据的预处理,利用bwa比对软件对原始的fastq数据做比对,生成sam文件,此sam文件中既含有正常比对上pair-end数据,又含有未正常比对的pair-end数据;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件就完成了原始数据的预处理。
(2)提取特征值,在(1)中得到的pileup文件包含了参考碱基在染色体中的位置、参考碱基、该位点覆盖的reads数、覆盖该位点的碱基和碱基的质量等生物信息。通过这些信息分别对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的平均质量等38个特征值。
(3)构建训练及检测模型,针对(2)中得到的数据,对其进行训练然后保存一个训练模型。在TensorFlow的整体框架下,构建了一个5层的神经网络模型,训练次数设定为10万次;最终得到一个文件夹来保存这些训练的模型。然后在构建检测的工作,通过训练模型的框架对样本进行检测从而得出SNV。实则是一个对38个特征值进行的二分类实验。
(4)结果分析,针对仿真数据,计算准确率和真阳性率,分析模型是不是更加准确的得到了预测的结果,慢慢更新训练和检测模型以达到更好的效果。针对真实数据,与现有的COSMIC数据库进行比较,筛选出具有致病性的SNV在进行治疗及药物方面的更深入的研究。数据仿真的过程如下:从两个相同fasta文件中随机取一部分点对两条相同的fasta文件做相同的改变,在随机取一部分点仅对其中的一条fasta文件进行位点的改变,在随机取一部分点对另外一条的fasta文件进行改变。然后把两条fasta文件通过Sinc生成4条fastq文件,在进行两两合并,最后生成两条fastq文件,然后进行最开始介绍的数据处理。
上表的数据是取自EGA中乳腺癌的外显子的真实数据的检测结果,通过对SNV的检测结果与cosmic数据库和clinvar数据库的比对,可以判定哪些变异会致病,哪些变异对人体没影响,从而达到了医学研究的目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于神经网络的核苷酸单位点变异检测方法,其特征在于,所述基于神经网络的核苷酸单位点变异检测方法包括以下步骤:
第一步,利用bwa比对软件对原始的fastq数据做比对,生成sam文件;再通过samtools将sam文件转换为其二进制形式的bam文件,在对bam文件进行排序以及转化为pileup格式文件完成原始数据的预处理;
第二步,对正常细胞和肿瘤细胞提取包括测序深度、碱基转变的个数、碱基转变的频率以及碱基的38个特征值;
第三步,针对特征值的数据,进行训练然后保存一个训练模型;通过训练模型的框架对样本进行检测得出SNV。
2.如权利要求1所述的基于神经网络的核苷酸单位点变异检测方法,其特征在于,所述第一步的am文件中含有正常比对上pair-end数据和未正常比对的pair-end数据。
3.如权利要求1所述的基于神经网络的核苷酸单位点变异检测方法,其特征在于,所述第二步提取特征值,得到的pileup文件包含参考碱基在染色体中的位置、参考碱基、该位点覆盖的reads数、覆盖该位点的碱基和碱基的生物信息。
4.如权利要求1所述的基于神经网络的核苷酸单位点变异检测方法,其特征在于,所述第三步在TensorFlow的整体框架下,构建了一个5层的神经网络模型,训练次数设定为10万次;得到一个文件夹来保存这些训练的模型。
5.一种如权利要求1~4任意一项所述基于神经网络的核苷酸单位点变异检测方法在致病性核苷酸单位点变异检测中的应用。
CN201910371355.4A 2019-05-06 2019-05-06 一种基于神经网络的核苷酸单位点变异检测方法 Pending CN110211632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910371355.4A CN110211632A (zh) 2019-05-06 2019-05-06 一种基于神经网络的核苷酸单位点变异检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910371355.4A CN110211632A (zh) 2019-05-06 2019-05-06 一种基于神经网络的核苷酸单位点变异检测方法

Publications (1)

Publication Number Publication Date
CN110211632A true CN110211632A (zh) 2019-09-06

Family

ID=67786880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910371355.4A Pending CN110211632A (zh) 2019-05-06 2019-05-06 一种基于神经网络的核苷酸单位点变异检测方法

Country Status (1)

Country Link
CN (1) CN110211632A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063392A (zh) * 2019-12-17 2020-04-24 人和未来生物科技(长沙)有限公司 基于神经网络的基因突变致病性检测方法、系统及介质
CN113160889A (zh) * 2021-01-28 2021-07-23 清华大学 一种基于cfDNA组学特性的癌症无创早筛方法
CN113223613A (zh) * 2021-05-14 2021-08-06 西安电子科技大学 基于多维度单核苷酸变异特征的癌症检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956415A (zh) * 2016-05-13 2016-09-21 万康源(天津)基因科技有限公司 一种影响rna剪接的snv检测系统
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956415A (zh) * 2016-05-13 2016-09-21 万康源(天津)基因科技有限公司 一种影响rna剪接的snv检测系统
CN107944228A (zh) * 2017-12-08 2018-04-20 广州漫瑞生物信息技术有限公司 一种基因测序变异位点的可视化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊佩珍: "基于新一代测序数据的SNV检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111063392A (zh) * 2019-12-17 2020-04-24 人和未来生物科技(长沙)有限公司 基于神经网络的基因突变致病性检测方法、系统及介质
CN111063392B (zh) * 2019-12-17 2021-09-24 人和未来生物科技(长沙)有限公司 基于神经网络的基因突变致病性检测方法、系统及介质
CN113160889A (zh) * 2021-01-28 2021-07-23 清华大学 一种基于cfDNA组学特性的癌症无创早筛方法
CN113223613A (zh) * 2021-05-14 2021-08-06 西安电子科技大学 基于多维度单核苷酸变异特征的癌症检测方法

Similar Documents

Publication Publication Date Title
Stone et al. Modulated modularity clustering as an exploratory tool for functional genomic inference
Gabasova et al. Clusternomics: Integrative context-dependent clustering for heterogeneous datasets
CN110211632A (zh) 一种基于神经网络的核苷酸单位点变异检测方法
Zhang et al. Accounting for tumor purity improves cancer subtype classification from DNA methylation data
Galan et al. CHESS enables quantitative comparison of chromatin contact data and automatic feature extraction
Chen et al. A comprehensive comparison on cell-type composition inference for spatial transcriptomics data
Greenfest-Allen et al. iterativeWGCNA: iterative refinement to improve module detection from WGCNA co-expression networks
Cabanski et al. Swiss made: Standardized within class sum of squares to evaluate methodologies and dataset elements
Huang et al. PIE: A prior knowledge guided integrated likelihood estimation method for bias reduction in association studies using electronic health records data
Salas et al. Optimizing Xenium In Situ data utility by quality assessment and best practice analysis workflows
Hentges et al. LanceOtron: a deep learning peak caller for ATAC-seq, ChIP-seq, and DNase-seq
Robertson et al. Comprehensive, population-based sensitivity analysis of a two-mass vocal fold model
Khoraminia et al. Artificial Intelligence in Digital Pathology for Bladder Cancer: Hype or Hope? A Systematic Review
US20130218581A1 (en) Stratifying patient populations through characterization of disease-driving signaling
CN116564406A (zh) 一种遗传变异自动化解读方法及设备
Garrison et al. Visualization and analysis of microtubule dynamics using dual color-coded display of plus-end labels
Bhattacharjee et al. Bayesian integrated functional analysis of microarray data
CN110223732A (zh) 多类生物序列注释的整合方法
Liu et al. RKDOSCNV: a local kernel density-based approach to the detection of copy number variations by using next-generation sequencing data
Lavrichenko et al. SeeCiTe: a method to assess CNV calls from SNP arrays using trio data
Le et al. Scaling tree-based automated machine learning to biomedical big data with a dataset selector
Wang et al. AdaTiSS: a novel data-Ada ptive robust method for identifying Ti ssue S pecificity S cores
Liu et al. CRSCNV: A cross-model-based statistical approach to detect copy number variations in sequence data
Altinier et al. An expert system for the classification of serum protein electrophoresis patterns
Ben-Kiki et al. Metacell projection for interpretable and quantitative use of transcriptional atlases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190906