CN107545152A - 一种基于Illumina数据找变异的方法 - Google Patents

一种基于Illumina数据找变异的方法 Download PDF

Info

Publication number
CN107545152A
CN107545152A CN201710838862.5A CN201710838862A CN107545152A CN 107545152 A CN107545152 A CN 107545152A CN 201710838862 A CN201710838862 A CN 201710838862A CN 107545152 A CN107545152 A CN 107545152A
Authority
CN
China
Prior art keywords
mutation
low frequency
illumina
frequency
mutated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710838862.5A
Other languages
English (en)
Inventor
詹东亮
郝美荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU HEYI GENE TECHNOLOGY Co Ltd filed Critical HANGZHOU HEYI GENE TECHNOLOGY Co Ltd
Priority to CN201710838862.5A priority Critical patent/CN107545152A/zh
Publication of CN107545152A publication Critical patent/CN107545152A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种基于Illumina数据找变异的方法,它包括:步骤一:先将样品用Illumina测序仪进行测序,获得Illumina数据,再将Illumina数据使用BWA软件比对上参考基因组;步骤二:从步骤一的比对结果中,查找出所有的突变;步骤三:对步骤二查找出的突变进行高低频筛选分类;步骤四:根据步骤三筛选出的低频突变,筛选出连锁低频突变;步骤五:将步骤三和步骤四得到的结果输出。本发明能对检测到的突变进行分类,区分出高可靠的低频突变,准确度高。

Description

一种基于Illumina数据找变异的方法
技术领域
本发明涉及生物信息技术领域,更具体的说,它涉及一种基于Illumina数据找变异的方法,使用Illumina测序数据与参考基因组进行比对,利用比对的信息来找变异。
背景技术
目前,对于查找SNP、InDel变异的软件非常多,比如经典的Samtools mpileup,GATK,VarScan,freebayes,当它们用在检查遗传突变(或非肿瘤样品突变)时,准确度非常高。
Illumina是一家美国的测序仪公司,他们的测序仪产生的数据,在业内叫Illumina数据,行业内只用“Illumina”来称呼。因为Illumia的测试数据本身存在一定的错误率(~1%),一但被用到肿瘤突变上的检测上,特别是查找低频突变,比如循环肿瘤细胞DNA,一般的软件检测结果中会出现大量的假阳性低频突变。
发明内容
本发明的目的是解决以上提出的问题,提供一种通过对低频突变进行分类,把可靠的低频突变找出来的基于Illumina数据找变异的方法。
本发明是通过以下技术方案实现的:
本发明是一种基于Illumina数据找变异的方法,它包括以下步骤:
步骤一:先将样品用Illumina测序仪进行测序,获得Illumina数据,再将Illumina数据使用BWA软件比对上参考基因组;
步骤二:从步骤一的比对结果中,查找出所有的突变(比对结果里有标记);
步骤三:对步骤二查找出的突变进行高低频筛选分类,read>=3的突变且频率>0.1为高频突变,频率<=0.1的为低频突变;
步骤四:根据步骤三筛选出的低频突变,筛选出连锁低频突变:如果有至少三条read支持低频突变A与低频突变B连锁在一起,则认为低频突变A和低频突变B是可靠的连锁低频突变;
步骤五:将步骤三和步骤四得到的结果输出。
作为优化,所述样本为来自于人体的血液或唾液或粪便。
本发明的有益效果如下:
1、本发明能对检测到的突变进行分类,区分出高可靠的低频突变。
2、本发明区分出的连锁低频突变准确度高,当使用标准品数据(所有的突变都是已知的)进行测试,开始检测出了331个突变,用本发明的方法筛选出了46个可靠突变,过滤掉了86%的错误。
附图说明
图1:本发明流程图;
图2:本发明实施例区分高低频突变图;
图3:本发明实施例寻找关联低频突变图。
具体实施方式
下面结合附图对本发明的实施例进行进一步详细说明:
本发明是一种基于Illumina数据找变异的方法,它包括以下步骤:
步骤一:先将样品用Illumina测序仪进行测序,获得Illumina数据,再将Illumina数据使用BWA软件比对上参考基因组;其中,参考基因组,是指世界范围内通用的标准人类基因组数据;样本为来自于人体的血液或唾液或粪便;
步骤二:从步骤一的比对结果中,查找出所有的突变(比对结果里有标记);
步骤三:对步骤二查找出的突变进行高低频筛选分类,read>=3的突变且频率>0.1为高频突变,频率<=0.1的为低频突变;
步骤四:根据步骤三筛选出的低频突变,筛选出连锁低频突变:因为Illumina的错误率为0.1%,一条read在特定2个位置同时出现相同测序错误的概率为0.1%2(百万分之一),如果有至少三条read支持低频突变A与低频突变B连锁在一起,则认为低频突变A和低频突变B是可靠的连锁低频突变;其中,此处的A和B是为了区别两个突变,也可以用其他字母替代;连锁是指两个突变出现在同一条read上;连锁低频突变是指出现在同一条read上,频率<=0.1的两个突变;
步骤五:将步骤三和步骤四得到的结果输出,如表一所示。
表一
实施例:
本实施例是一种基于Illumina数据找变异的方法,它包括以下步骤:
步骤一:先将样品用Illumina测序仪进行测序,获得Illumina数据,再将Illumina数据使用BWA软件比对上参考基因组,得到SAM格式的输出结果;
步骤二:从步骤一的比对结果中,查找出所有的突变(比对结果里有标记);图2中标记方框的突变有两个(G、A),假设这个位点中有30条reads,G的支持reads有4条,突变频率约为0.13;A的支持reads为2,突变频率约为0.06;
步骤三:对步骤二查找出的突变进行高低频筛选分类,read>=3的突变且频率>0.1为高频突变,频率<=0.1的为低频突变,则步骤二中的G为高频突变,A为低频突变;
步骤四:根据步骤三筛选出的低频突变,筛选出连锁低频突变,因为Illumina的错误率为0.1%,一条read在特定2个位置同时出现相同测序错误的概率为0.1%2(百万分之一),如果有至少三条read支持它与相邻的低频突变在一起,则认为这个突变是可靠的连锁突变;
图3中标记方框的两个突变位点中,左方框内G为低频突变,右方框内A为低频突变,两个突变出现在同一条read上,并且有三条read支持突变G与突变A连锁在一起,则认为图3中G突变和A突变是可靠的连锁突变;
步骤五:将步骤三和步骤四得到的结果输出。
以上所述的仅是本发明的优选实施方式,应当指出,对于本技术领域中的普通技术人员来说,在不脱离本发明核心技术特征的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于Illumina数据找变异的方法,其特征在于,它包括以下步骤:
步骤一:先将样品用Illumina测序仪进行测序,获得Illumina数据,再将Illumina数据使用BWA软件比对上参考基因组;
步骤二:从步骤一的比对结果中,查找出所有的突变;
步骤三:对步骤二查找出的突变进行高低频筛选分类,read>=3的突变且频率>0.1为高频突变,频率<=0.1的为低频突变;
步骤四:根据步骤三筛选出的低频突变,筛选出连锁低频突变:如果有至少三条read支持低频突变A与低频突变B连锁在一起,则认为低频突变A和低频突变B是可靠的连锁低频突变;
步骤五:将步骤三和步骤四得到的结果输出。
2.根据权利要求1所述的基于Illumina数据找变异的方法,其特征在于,所述样本为来自于人体的血液或唾液或粪便。
CN201710838862.5A 2017-09-18 2017-09-18 一种基于Illumina数据找变异的方法 Pending CN107545152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710838862.5A CN107545152A (zh) 2017-09-18 2017-09-18 一种基于Illumina数据找变异的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710838862.5A CN107545152A (zh) 2017-09-18 2017-09-18 一种基于Illumina数据找变异的方法

Publications (1)

Publication Number Publication Date
CN107545152A true CN107545152A (zh) 2018-01-05

Family

ID=60964010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710838862.5A Pending CN107545152A (zh) 2017-09-18 2017-09-18 一种基于Illumina数据找变异的方法

Country Status (1)

Country Link
CN (1) CN107545152A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647496A (zh) * 2018-04-18 2018-10-12 成都仕康美生物科技有限公司 动态搜索变异基因的方法、装置及计算机可读存储介质
CN109920480A (zh) * 2019-03-14 2019-06-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105063208A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法
CN105779460A (zh) * 2014-12-22 2016-07-20 深圳华大基因研究院 分离的编码acd突变体的核酸及其应用
CN105930690A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析方法
CN105925665A (zh) * 2016-03-30 2016-09-07 广州精科生物技术有限公司 试剂盒、建库方法以及检测目标区域变异的方法及系统
CN105986032A (zh) * 2016-03-30 2016-10-05 广州精科生物技术有限公司 试剂盒、建库方法以及检测目标区域变异的方法及系统
CN106939344A (zh) * 2017-04-20 2017-07-11 北京迈基诺基因科技股份有限公司 用于二代测序的接头

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105779460A (zh) * 2014-12-22 2016-07-20 深圳华大基因研究院 分离的编码acd突变体的核酸及其应用
CN105063208A (zh) * 2015-08-10 2015-11-18 北京吉因加科技有限公司 一种血浆中游离的目标dna低频突变富集测序方法
CN105925665A (zh) * 2016-03-30 2016-09-07 广州精科生物技术有限公司 试剂盒、建库方法以及检测目标区域变异的方法及系统
CN105986032A (zh) * 2016-03-30 2016-10-05 广州精科生物技术有限公司 试剂盒、建库方法以及检测目标区域变异的方法及系统
CN105930690A (zh) * 2016-05-13 2016-09-07 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析方法
CN106939344A (zh) * 2017-04-20 2017-07-11 北京迈基诺基因科技股份有限公司 用于二代测序的接头

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647496A (zh) * 2018-04-18 2018-10-12 成都仕康美生物科技有限公司 动态搜索变异基因的方法、装置及计算机可读存储介质
CN108647496B (zh) * 2018-04-18 2019-07-02 成都仕康美生物科技有限公司 动态搜索变异基因的方法、装置及计算机可读存储介质
CN109920480A (zh) * 2019-03-14 2019-06-21 深圳市海普洛斯生物科技有限公司 一种校正高通量测序数据的方法和装置

Similar Documents

Publication Publication Date Title
Smadbeck et al. C opy number variant analysis using genome‐wide mate‐pair sequencing
CN109033749A (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
CN106834275A (zh) ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法
CN108229103B (zh) 循环肿瘤dna重复序列的处理方法及装置
CN106021986B (zh) 超低频突变分子一致性序列简并算法
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
CN112397151A (zh) 基于靶向捕获测序的甲基化标志物筛选与评价方法及装置
CN107944228A (zh) 一种基因测序变异位点的可视化方法
CN110211630A (zh) 致病性单亲二倍体的筛查装置及存储介质和处理器
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN108642568B (zh) 一种家犬全基因组低密度品种鉴定专用snp芯片设计方法
CN106845152A (zh) 一种基因组胞嘧啶位点表观基因型分型方法
CN112233722B (zh) 品种鉴定的方法、其预测模型的构建方法和装置
TW202232502A (zh) 一種判別源自不同個體之基因的方法及其深度學習模型
CN107545152A (zh) 一种基于Illumina数据找变异的方法
CN109712671B (zh) 基于ctDNA的基因检测装置、存储介质及计算机系统
Page et al. Methods for mapping and categorization of DNA sequence reads from allopolyploid organisms
CN108319817A (zh) 循环肿瘤dna重复序列的处理方法及装置
Zeng et al. Chromosome-level scaffolding of haplotype-resolved assemblies using Hi-C data without reference genomes
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
Ghaddar et al. Denoising sparse microbial signals from single-cell sequencing of mammalian host tissues
CN106021987B (zh) 超低频突变分子标签聚类分群算法
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
CN112837748A (zh) 一种区分不同解剖学起源肿瘤的系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180105

RJ01 Rejection of invention patent application after publication