CN115074427B - 一种基于双亲群体低深度测序检测qtl的方法 - Google Patents
一种基于双亲群体低深度测序检测qtl的方法 Download PDFInfo
- Publication number
- CN115074427B CN115074427B CN202210634549.0A CN202210634549A CN115074427B CN 115074427 B CN115074427 B CN 115074427B CN 202210634549 A CN202210634549 A CN 202210634549A CN 115074427 B CN115074427 B CN 115074427B
- Authority
- CN
- China
- Prior art keywords
- snp
- genotype
- sample
- heterozygous
- marker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/40—Population genetics; Linkage disequilibrium
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Medical Informatics (AREA)
- Zoology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Wood Science & Technology (AREA)
- Microbiology (AREA)
- Physiology (AREA)
- Immunology (AREA)
- Ecology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于双亲群体低深度测序检测QTL的方法,包括:根据两种亲本纯合allele获得对应杂合allele,在群体基因型中加入该杂合allele作为一个虚拟杂合样本;获取单个样本所有window的标记基因型,将所有标记基因型的名称放入一个集合中;重复上一操作,获得每个样本的所有标记基因型信息,整合成群体标记基因型;筛选群体标记基因型;根据群体世代特点,设定群体标记基因型比例偏移参数,计算出标记基因型比例范围;将标记基因型数据内样本名和表型数据内样本名进行比对,选取标记基因型数据和表型数据都存在的样品重新输出基因型和表型数据,使得基因型和表型一一对应,利用R/qtl进行QTL定位分析。
Description
技术领域
本发明涉及QTL位点筛选技术领域,更具体地说是涉及一种基于双亲群体低深度测序检测QTL的方法。
背景技术
随着二代测序的发展,双亲群体低深度全基因组测序逐渐成为双亲群体遗传研究的重要手段。通过对群体内所有样本进行低深度测序,可以获得每个样本的单核苷酸多态性(Singe nucleotide polymorphisms,SNP),将所有样本的SNP进行合并,可以获得基于SNP的群体基因型。然而,由于测序深度较低,基于SNP的群体基因型中必然会存在大量基因型缺失,进而影响了下游的QTL定位分析。为了实现基于低深度测序构建遗传连锁图谱,有研究报道,利用SNP进行划窗口构建bin图谱,划窗过程中固定SNP个数,计算特定窗口中样本SNP与亲本之间的比例。但研究对象多局限于重组自交系(Recombinant Inbred Lines,RIL),对于杂合度较高的F2,F3低世代分离群体,获取杂合区段的基因型存在很多不足,例如对于F2群体,检测出的大量标记基因型比例严重偏离1:2:1。由于早期二代测序价格相对较高,为了尽可能降低成本,大量低深度测序基于限制性内切酶打断DNA建库,操作繁琐,并且测序深度一般为0.01×左右,直接鉴定到的SNP几乎全部为低覆盖read支持的纯合SNP。有研究者在构建遗传连锁图谱时利用重组率较低的特点模拟并填补缺失基因型,由于测序深度极低,不可避免的存在模拟计算错误。
随着二代测序成本的持续降低,以水稻为例(基因组为420Mb),单个样本的测序深度为2.5×(测序数据量1G)的价格也在可接收的范围。随着测序深度适当增加,测序数据的准确性明显增加,对于F2,F3低世代分离群体,将会检测出大量杂合SNP。而以往的关于低深度测序研究并未考虑杂合SNP的存在。
因此,如何提供一种基于双亲群体低深度测序检测QTL的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于双亲群体低深度测序检测QTL的方法。
为了实现上述目的,本发明采用如下技术方案:
一种基于双亲群体低深度测序检测QTL的方法,包括下述步骤:
1)通过测序汇总所有SNP位点,得到群体SNP基因型,并对群体SNP基因型进行筛选;
2)根据两种亲本纯合allele获得对应杂合allele,在群体基因型中加入该杂合allele作为一个虚拟杂合样本;
3)提取单个样本、两个亲本和虚拟杂合样本所有的SNP数据,获取单个样本所有window的标记基因型,将所有标记基因型的名称放入一个集合中;
4)对群体内所有样本重复步骤3)的操作,获得每个样本的所有标记基因型信息,整合成群体标记基因型;
5)筛选群体标记基因型。根据群体世代特点,设定群体标记基因型比例偏移参数,计算出标记基因型比例范围,若标记基因型比例不存在于所设比例范围,删除该标记基因型;
6)将标记基因型数据内样本名和表型数据内样本名进行比对,选取标记基因型数据和表型数据都存在的样品重新输出基因型和表型数据,使得基因型和表型一一对应,利用R/qtl进行QTL定位分析。
作为上述技术方案优选的技术方案,步骤1)汇总所有SNP位点,得到群体SNP基因型具体为对全基因组DNA进行低深度测序,将测序结果比对到参考基因组,经过测序质量筛选,获取单个样本在所有染色体范围内的SNP,将所有样本的SNP位点汇总合并,得到群体SNP基因型。
作为上述技术方案优选的技术方案,步骤1)中,低深度测序的测序深度在0.5-5×之间。
作为上述技术方案优选的技术方案,步骤1)中,对群体SNP基因型进行筛选的过程包括:分别删除两个亲本等位点allele相同的、两个亲本allele均为杂合状态的、群体allele类型数量不等于2的SNP;然后设定SNP的缺失阈值和群体allele比例的阈值,删除群体allele缺失超过阈值的SNP和存在allele占比大于阈值的SNP;若一个亲本allele为纯合,另一个亲本allele为杂合,群体检测SNP缺失数量未超过阈值,最大allele比例均小于阈值,将杂合状态的亲本allele更正为对应的纯合allele。
作为上述技术方案优选的技术方案,将杂合状态的亲本allele更正为对应的纯合allele的过程包括:对双亲本和群体SNP的基因型进行筛选,保证双亲本中有一个亲本SNP为纯合,另一个亲本SNP为杂合,群体SNP只存在2种SNP,并且SNP数量和分离比例均符合给定的判断标准;将2种群体SNP类型减去纯合亲本SNP类型,剩下的SNP类型为另一亲本更正后的纯合类型。
作为上述技术方案优选的技术方案,步骤2)中,加入虚拟杂合样本,虚拟杂合SNP的杂合类型根据纯合双亲本的SNP获得,虚拟杂合SNP使用碱基简并缩写符号。
作为上述技术方案优选的技术方案,步骤3)中,获取单个样本所有window的标记基因型具体为:提取单个样本、两个亲本和虚拟杂合样本所有的SNP数据,得到以SNP为行名、4个样本名为列名的数据框,删除数据框内单个样本allele为缺失的SNP行,设定一个窗口window大小,在window范围内将两个亲本和虚拟杂合样本的SNP分别与单个样本的SNP进行比对,得到碱基匹配值,碱基匹配值通过特定公式计算,判定该window的标记基因型;然后将window内最小SNP位置除于1,000,000后取小数点后两位,得到window简化后位置信息,该window的命名方式通过组合染色体和简化后位置信息获得;最后,设定步长step,根据step在染色体上滑动window,获取单个样本所有window的标记基因型。将所有标记基因型的名称放入一个集合中。
作为上述技术方案优选的技术方案,碱基匹配值指在window内双亲本和虚拟杂合样本的SNP分别与单个样本SNP进行比对,计算相同位置SNP碱基相同的个数,一个window内有三个碱基匹配值。
作为上述技术方案优选的技术方案,步骤4)中,将所有样本的标记基因型名称集合进行合并,得到群体标记基因型名称集合,根据群体标记基因型名称和该名称在每个样本标记基因型信息内对应的标记基因型,获得群体标记基因型,如果某个群体标记基因型名称不存在于某个样本标记基因型信息内,该群体标记基因型名称对应该样本记为缺失。
经由上述的技术方案可知,与现有技术相比,达到的技术效果是:
1)本发明为了能充分整合群体内的纯合和杂合SNP信息,本发明创新性地在鉴定群体标记基因型过程中引入虚拟杂合样本,将单个样本特定区域的所有SNP与双亲本和虚拟杂合样本进行比对,利用碱基匹配值的比例判定该区域内的标记基因型,利用多线程并行加速运算,构建的群体遗传连锁图谱比以往基于极低深度测序构建的图谱更准确可靠。
2)本发明基于双亲群体低深度测度,将亲本和群体全基因组DNA随机打断后建库测序,每个样本单独二代测序,比以往通过限制性内切酶处理、加特异性接头、混池建库测序的GBS(Genotyping-by-Sequencing)方法更简便。
3)本发明创新性将杂合状态SNP信息用于单个样本的标记基因型分析,在低世代如F2或F3群体中,存在大量的杂合SNP位点,SNP分析过程获得的杂合SNP和纯合SNP具有同样重要的意义。以往的研究主要集中于对重组自交系测序分析,获得的SNP位点均是纯合状态,后续分析相对简单。本发明创新性地根据双亲SNP基因型引入虚拟杂合样本基因型,利用划窗的方法,将复杂的SNP基因型图转化成若干个小数据框分析,数据框包含4个样本名(双亲、虚拟杂合样本和群体的单个样本)为列名、个数有限的SNP(跨度为window)为行名。在window范围内将两个亲本和虚拟杂合样本的SNP分别与单个样本的SNP进行比对,得到碱基匹配值,根据碱基匹配值的比例判定window的标记基因型。由于本发明考虑了纯合和杂合SNP信息,因此计算结果更准确。本发明使用范围广,可适用于任意世代双亲群体。
4)本发明的window内的计算彼此独立,可以使用多线程并行加速运算,减少程序运行时间。
5)本发明使用window简化后位置信息用于标记命名,标记名既能描述window位置,又能减少冗余标记的产生。
6)本发明创造性结合群体世代特点筛选标记基因型,将严重偏分离的标记基因型删除,保证了群体标记基因型的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明的主要流程示意图;
图2为本发明的划窗口示意图;
图3为本发明的单个窗口计算标记基因型判定示意图;
图4为本发明的构建的F3群体遗传图谱;
图5为本发明的水稻F3:4株高QTL定位分析。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
请参阅图1-5,本实施例提供了一种基于双亲群体低深度测序检测QTL的方法,包括:
A.亲本和群体全基因组SNP基因型的获取:
A1.分别提取两个亲本和群体所有样本的DNA。
A2.将DNA利用超声波随机打断后建库,然后利用第二代DNA测序技术进行低深度测序。
A3.将所有样本的低深度测序数据分别比对到参考基因组上,获取单个样品的单核苷酸多态性(SNP)信息,筛选掉比对质量较差的SNP。
A4.对所有样本的SNP信息进行合并,在群体水平筛选及更正SNP,筛选及更正标准如下:
1.删除两个亲本等位点(allele)相同的SNP;
2.删除两个亲本allele均为杂合状态的SNP;
3.删除群体allele类型数量不等于2的SNP;
4.设定SNP的缺失阈值,删除群体allele缺失超过阈值的SNP;
5.设定群体allele比例的阈值,删除存在allele占比大于阈值的SNP。
6.若一个亲本allele为纯合,另一个亲本allele为杂合,群体检测SNP缺失数量未超过阈值,两种allele比例均小于阈值,将杂合状态的亲本allele更正为对应的纯合allele。
A5.根据两种亲本纯合allele获得对应杂合allele,在群体SNP基因型中加入该杂合allele作为一个虚拟杂合样本。
B.双亲群体遗传图谱构建:
B1.设定窗口(window)和步长(step)大小。
B2.从步骤A得到的群体SNP基因型中取出双亲本、虚拟杂合样本和某一单个样本形成以SNP为行,四个样品名为列名的数据框。根据step和window,将数据框分成若干个小数据框(列为4,行跨度为window)。
B3.利用步骤B2产生的小数据框获取单个样本在该window内的标记基因型。将window内最小SNP位置除于1,000,000后取小数点后两位,得到window简化后位置信息,标记的命名方式通过组合染色体和简化后位置信息获得。在每个小数据框内,删除数据框内单个样本allele为缺失的SNP行,将两个亲本和虚拟杂合样本的SNP分别与单个样本的SNP进行比对,得到碱基匹配值,根据所得的3个碱基匹配值,判定单个样本在window范围内标记基因型。判定标准如下:
设定纯合比例阈值T和杂合权重w,将单个样本与一个亲本(A)的碱基匹配值表示为Ma,单个样本与一个亲本(B)的碱基匹配值表示为Mb,单个样本与虚拟杂合样本(H)的碱基匹配值表示为Mh;
如果(Ma+Mh)/(Ma+Mb+w*Mh)>=T,判定单个样本在window范围内所属标记基因型判定为亲本(A)一致;
如果(Ma+Mh)/(Ma+Mb+w*Mh)<=1-T,判定单个样本在window范围内所属标记基因型判定为亲本(B)一致;
否则判定单个样本在window范围内所属标记基因型为杂合状态(H)。
B4.按照步骤B2-B3中的标记名称(染色体和位置)依次排列标记基因型,获得单个样本的所有标记基因型。将标记名称放入一个集合中。
B5.对双亲群体里的所有样本进行步骤B2-B4操作,得到彼此独立的所有样本标记基因型,将所有样本标记名称合并获得群体标记基因型名称。
B6.根据步骤B5的群体标记基因型名称和该名称在每个样本标记基因型信息内对应的标记基因型,获得群体标记基因型,如果某个群体标记基因型名称不存在于某个样本标记基因型信息内,该群体标记基因型名称对应该样本记为缺失。
B7.筛选群体标记基因型。根据群体世代特点,设定群体标记基因型比例偏移参数,计算出标记基因型比例范围,若标记基因型比例不存在于所设比例范围,删除该标记基因型。
C.双亲群体的QTL检测
C1.将标记基因型和表型数据筛选与整合,将存在于标记基因型数据的样本名和存在于表型数据的样本名取交集,保持表型数据和标记基因型数据一一对应。
C2.利用R/qtl进行QTL定位分析。
注:
1.本发明实现步骤A3使用比对软件为BWA,过滤筛选SNP的软件为GATK。
2.BWA,GATK为软件且均无中文名称,在行业内直接用英文表达。
3.本发明A4的SNP的缺失阈值为用户设定,以比例形式设定,例如设定0.8,表明群体中某个SNP的缺失值超过80%,删除该SNP。本发明A4的群体allele比例的阈值为用户设定,包含两个值,一是最小allele数,例如设定5,表明SNP的某一种allele小于5,删除该SNP;二是最大allele比例阈值,例如设定0.9,表明SNP的某一种allele的占比大于90%,删除该SNP。本发明B7的群体标记基因型比例范围为用户根据群体世代特点设定,假定该群体为F2群体,标记基因型的比例理论应为1:2:1(纯合A:杂合H:纯合B),可计算得出纯合A的allele理论数量为number_of_A_allele,例如设定比例范围的值为0.5,其范围为number_of_A_allele*(1-0.5)到number_of_A_allele*(1+0.5),如果实际纯合A的allele数量不在该范围内,删除该标记基因型。
4.本发明A5加入杂合allele,杂合allele简并碱基有对应缩写符号:
“A/T”对应“W”,
“A/C”对应“M”,
“A/G”对应“R”,
“T/C”对应“Y”,
“T/G”对应“K”,
“C/G”对应“S”。
下面结合附图对本发明的应用原理作详细的描述:
实施例2基于低深度测序获取群体SNP基因型
利用水稻亲本材料622和Co39杂交创建包含317个家系的F3群体。利用CTAB法提取双亲本和317个F3个体叶片的DNA,使用Illumina NovaSeq6000测序平台完成DNA的低深度测序,每个样本产生1Gb的数据。压缩后每个样品双端测序文件(R1.fq.gz和R2.fq.gz)约为240Mb大小。
利用BWA软件将所有样品的双端测序数据比对到参考基因组日本晴上,获得所有样品的bam格式比对文件,利用picard软件对bam文件进行排序、标记重复位置和建立引索操作,此时bam大小约为580Mb。利用GATK软件从bam文件中提取SNP和Indel位点信息,每个样品单独生成GVCF;在使用GATK软件对所有样品GVCF文件进行合并,分离SNP和Indel和测序质量筛选操作,筛选标准为“QD<2.0||FS>60.0||MQ<40.0||MQRankSum<-12.5||ReadPosRankSum<-8.0”。获得合并后的SNP基因型文件,该SNP基因型文件包含约9百万个SNP标记。该文件格式为vcf,利用tassel软件将vcf格式转化为hapmap格式。
运行自编a0_hmp_filter4ForParentPopulation.py,设定缺失数据比例阈值(例如设定为0.9,假设某一个SNP在317个样本里缺失数据超过317*0.9=285个,删除该SNP)、最大allele比例阈值(例如设定为0.7,假设某一个SNP包含“A”和“C”两种allele,其中“A”和“C”总数量为100个,其中“A”的数量超过70个,删除该SNP)和最少allele数量阈值(例如设定10,假设某一个SNP包含“A”和“C”两种allele,其中“A”数量为25,“C”数量为9,“C”是最少allele,最少allele数量小于10,删除该SNP),对SNP标记进行筛选,如果亲本SNP相同,删除该SNP;如果一个亲本的SNP为纯合allele,另一亲本为杂合allele,在群体中的allele的比例符合判定标准,保留该SNP,并将杂合亲本allele更正为相应的纯合allele(假设某一个SNP在亲本A为“A”,在亲本B为杂合“M”,群体中包含50个“A”和50个“C”,符合缺失数据比例、最大allele比例和最少allele数量的标准,保留该SNP,将SNP在亲本B更正为“C”)。筛选后的hapmap格式文件包含SNP标记个数为333689个。
运行自编a1_hmp_add_heterozygous.py,筛选SNP类型,删除包含3种及以上allele的SNP,只保留有2种allele的SNP,同时,根据2种allele得出对应杂合简并符号,在SNP基因型中加入一列虚拟杂合样品。此时SNP基因型包含2个亲本、1个虚拟杂合样本和317个F3群体的SNP信息。
实施例3群体遗传连锁图谱的构建
运行自编程序a2_hmp_to_binmap1.5.r,给定参数:1)需要输入的hmp格式SNP基因型文件;2)并行运行的线程数;3)步长大小;4)窗口大小;5)纯合比例阈值;6)杂合权重。该自编程序实现以下功能:
1.从SNP基因型数据中抽取双亲本,虚拟杂合样本和群体的一个样本的SNP信息进行合并,本实例中的SNP信息可合并成333689行、4列的数据框(图2)。
2.如图2所示,利用步长(step)和窗口(window)对数据框进行划窗操作,可将大数据框分成若干个window数据框(行数为window,列数为4)。删除window数据框内单个样本包含缺失(N)的SNP(图3B),计算window数据框内单个样本的SNP匹配到双亲本和虚拟杂合样本的SNP数量(图3C、D,碱基匹配值),通过碱基匹配情况计算碱基匹配值的比例(图3E),设定纯合比例阈值T,如果单个样本与亲本A的碱基匹配值比例大于纯合比例阈值T(图3E),判定该样本在此window内的标记基因型为A,如果单个样本与亲本A的碱基匹配值比例小于(1-T),判定该样本在此window内的标记基因型为B(与另一亲本B一致),否则判定为杂合基因型。将window内最小SNP位置除于1,000,000后取小数点后两位,得到window简化后位置信息,该window的标记命名方式通过组合染色体和简化后位置信息获得。
3.根据步长滑动窗口,根据上诉功能2计算单个样本在所有窗口内的标记基因型名称和对应标记基因型信息。
4.对群体内所有样本实现功能1-3,由于群内的样本彼此独立,计算单个样本标记基因型不依赖其它样本的计算结果,所以该功能可以通过多线程并行完成。
5.将所有样本的标记基因型名称和对应标记基因型信息进行汇总整理,得到群体遗传连锁图谱。
运行自编程序a3_binmap_filter1.2.py,给定群体类型(如F2,F3或RIL)参数和标记基因型比例偏移参数,对标记基因型进行筛选。对于特定的群体,如F2群体,每个标记的比例应为A:H:B=1:2:1,F3群体,每个标记的比例应为A:H:B=3:2:3,本实例中F3群体包含317个体,单个标记基因型为A、H、B的理论个数为119、79、119。设定标记基因型比例偏移参数0.4,群体中A基因型的个数范围为119*(1-0.4)到119*(1+0.4),B和H基因型个数范围可同理求得。如果实际A基因型个数不落在范围内,删除该标记基因型。如图4所示,本实例筛选后标记基因型个数为7633,除少数区域存在大于10cM的空缺外,标记均匀地分布在水稻12条染色体上。
实施例4群体QTL定位
运行自编程序a4_binmap_pheno1.3.py,输入表型数据和基因型数据,程序将比对表型数据内的样本名和基因型数据内的样本名,对两个数据内的样本取交集输出,输出文件为样本表型和基因型一一对应的csv文件。
运行自编程序a5_qtl_for_many_phenotype5.r,输入上诉的csv文件进行QTL定位分析。本实例中利用水稻株高表型和基于低深度测序的遗传连锁图谱定位分析出了两个水稻株高QTL(如图5所示),一个QTL的最高标记位于1号染色体38.59Mb,另一个QTL的最高标记位于6号染色体27.82Mb。其中位于1号的QTL对应于水稻半矮秆基因sd1(1号染色体38,382,382-38,385,504),6号染色上的QTL为新的株高QTL。通过QTL定位结果可以证明本发明构建的群体遗传连锁图谱真实、准确,本发明基于双亲群体低深度测序检测QTL的方法完全可行。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种基于水稻双亲群体低深度测序检测QTL的方法,其特征在于,包括下述步骤:
1)通过测序汇总所有SNP位点,得到群体SNP基因型,并对群体SNP基因型进行筛选;具体为对全基因组DNA进行低深度测序,低深度测序的测序深度在0.5-5×之间,将测序结果比对到参考基因组,经过测序质量筛选,获取单个样本在所有染色体范围内的SNP,将所有样本的SNP位点汇总合并,得到群体SNP基因型;
对群体SNP基因型进行筛选的过程包括:
(1)删除两个亲本allele相同的SNP;
(2)删除两个亲本allele均为杂合状态的SNP;
(3)删除群体allele类型数量不等于2的SNP;
(4)设定SNP的缺失阈值,删除群体allele缺失超过阈值的SNP;所述缺失阈值为0.9;
(5)设定群体allele比例的阈值,删除存在最大allele比例阈值的SNP以及小于最少allele数量阈值的SNP,最大allele比例阈值超过0.7,删除该SNP;最少allele数量阈值小于10,删除该SNP;
(6)若一个亲本allele为纯合,另一个亲本allele为杂合,群体检测SNP缺失数量未超过阈值,两种allele比例均小于阈值,将杂合状态的亲本allele更正为对应的纯合allele;将杂合状态的亲本allele更正为对应的纯合allele的过程包括:对双亲本和群体SNP的基因型进行筛选,保证双亲本中有一个亲本SNP为纯合,另一个亲本SNP为杂合,群体SNP只存在2种SNP,并且SNP数量和分离比例均符合给定的判断标准;将2种群体SNP类型减去纯合亲本SNP类型,剩下的SNP类型为另一亲本更正后的纯合类型;
2)根据两种亲本纯合allele获得对应杂合allele,在群体基因型中加入该杂合allele作为一个虚拟杂合样本;加入虚拟杂合样本,虚拟杂合SNP的杂合类型根据纯合双亲本的SNP获得,虚拟杂合SNP使用碱基简并缩写符号;
3)提取单个样本、两个亲本和虚拟杂合样本所有的SNP数据,获取单个样本所有window的标记基因型,将所有标记基因型的名称放入一个集合中;
4)对群体内所有样本重复步骤3)操作,获得每个样本的所有标记基因型信息,整合成群体标记基因型;
5)筛选群体标记基因型,根据群体世代特点,设定群体标记基因型比例偏移参数,计算出标记基因型比例范围,若标记基因型比例不存在于所设比例范围,删除该标记基因型;
6)将标记基因型数据内样本名和表型数据内样本名进行比对,选取标记基因型数据和表型数据都存在的样品重新输出基因型和表型数据,使得基因型和表型一一对应,利用R/qtl进行QTL定位分析。
2.根据权利要求1所述的一种基于水稻双亲群体低深度测序检测QTL的方法,其特征在于,步骤3)中,获取单个样本所有window的标记基因型具体为:提取单个样本、两个亲本和虚拟杂合样本所有的SNP数据,得到以SNP为行名、4个样本名为列名的数据框,删除数据框内单个样本allele为缺失的SNP行,设定一个窗口window大小,在window范围内将两个亲本和虚拟杂合样本的SNP分别与单个样本的SNP进行比对,得到碱基匹配值,碱基匹配值通过特定公式计算,判定该window的标记基因型;然后将window内最小SNP位置除以1000000后取小数点后两位,得到window简化后位置信息,该window的命名方式通过组合染色体和简化后位置信息获得;最后,设定步长step,根据step在染色体上滑动window,获取单个样本所有window的标记基因型,将所有标记基因型的名称放入一个集合中。
3.根据权利要求2所述的一种基于水稻双亲群体低深度测序检测QTL的方法,其特征在于,碱基匹配值指在window内双亲本和虚拟杂合样本的SNP分别与单个样本SNP进行比对,计算相同位置SNP碱基相同的个数,一个window内有三个碱基匹配值。
4.根据权利要求1所述的一种基于水稻双亲群体低深度测序检测QTL的方法,其特征在于,步骤4)中,将所有样本的标记基因型名称集合进行合并,得到群体标记基因型名称集合,根据群体标记基因型名称和该名称在每个样本标记基因型信息内对应的标记基因型,获得群体标记基因型,如果某个群体标记基因型名称不存在于某个样本标记基因型信息内,该群体标记基因型名称对应该样本记为缺失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210634549.0A CN115074427B (zh) | 2022-06-06 | 2022-06-06 | 一种基于双亲群体低深度测序检测qtl的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210634549.0A CN115074427B (zh) | 2022-06-06 | 2022-06-06 | 一种基于双亲群体低深度测序检测qtl的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115074427A CN115074427A (zh) | 2022-09-20 |
CN115074427B true CN115074427B (zh) | 2023-02-03 |
Family
ID=83252275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210634549.0A Active CN115074427B (zh) | 2022-06-06 | 2022-06-06 | 一种基于双亲群体低深度测序检测qtl的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115074427B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108441576B (zh) * | 2018-04-24 | 2019-05-07 | 中国农业科学院作物科学研究所 | 大豆抗炸荚主效QTLqPD05及其定位方法和应用 |
CN108441575B (zh) * | 2018-04-24 | 2019-04-30 | 中国农业科学院作物科学研究所 | 大豆抗炸荚主效QTLqPD08-1及其定位方法和应用 |
CN110120245A (zh) * | 2019-05-14 | 2019-08-13 | 河南省新乡市农业科学院(新乡农业科技创新中心) | 一种同时定位多个基因的方法 |
CN113742070A (zh) * | 2021-09-01 | 2021-12-03 | 人和未来生物科技(长沙)有限公司 | 一种低深度测序群体基因型填充计算内存优化方法 |
-
2022
- 2022-06-06 CN CN202210634549.0A patent/CN115074427B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115074427A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2002359549B2 (en) | Methods for the identification of genetic features | |
KR101542529B1 (ko) | 대립유전자의 바이오마커 발굴방법 | |
CN109346130B (zh) | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 | |
KR101460520B1 (ko) | 차세대 시퀀싱 데이터의 질병변이마커 검출 방법 | |
CN107194208A (zh) | 一种基因分析注释方法和装置 | |
CN106868131A (zh) | 陆地棉6号染色体与纤维强度相关的snp分子标记 | |
CN106480221B (zh) | 基于基因拷贝数变异位点对林木群体基因型分型的方法 | |
CN105512514B (zh) | 一种mhc补全数据库、其构建方法和应用 | |
CN108256293A (zh) | 一种疾病关联基因组合的统计方法及系统 | |
CN115631789B (zh) | 一种基于泛基因组的群体联合变异检测方法 | |
US20210269887A1 (en) | Method and application for rapid and accurate chromosomal location of economic traits in laver | |
US20050149271A1 (en) | Methods and apparatus for complex gentics classification based on correspondence anlysis and linear/quadratic analysis | |
CN110846429A (zh) | 一种玉米全基因组InDel芯片及其应用 | |
KR20150024232A (ko) | 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법 | |
CN111223525A (zh) | 一种肿瘤外显子测序数据分析方法 | |
CN109524060B (zh) | 一种遗传病风险提示的基因测序数据处理系统与处理方法 | |
WO2013103759A2 (en) | Haplotype based pipeline for snp discovery and/or classification | |
KR101539737B1 (ko) | 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술 | |
CN115074427B (zh) | 一种基于双亲群体低深度测序检测qtl的方法 | |
CN112233724A (zh) | 基于大数据人工智能算法的祖源多态性预测方法 | |
Chu et al. | GeneSpringTM: tools for analyzing microarray expression data | |
CN107862177A (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
WO2022160700A1 (zh) | 基于高通量全基因组测序的多亲本作物基因型鉴定 | |
CN114566213A (zh) | 家系高通量测序数据的单亲二倍体分析方法及其系统 | |
CN114530200A (zh) | 基于计算snp熵值的混合样本鉴定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |