CN110093406A - 一种盘羊及其杂交后代遗传基因研究方法 - Google Patents

一种盘羊及其杂交后代遗传基因研究方法 Download PDF

Info

Publication number
CN110093406A
CN110093406A CN201910447387.8A CN201910447387A CN110093406A CN 110093406 A CN110093406 A CN 110093406A CN 201910447387 A CN201910447387 A CN 201910447387A CN 110093406 A CN110093406 A CN 110093406A
Authority
CN
China
Prior art keywords
snp
data
indel
argali
genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910447387.8A
Other languages
English (en)
Inventor
依明·苏来曼
阿布来提·苏来曼
决肯·阿尼瓦什
刘武军
黄锡霞
黄李勇
赵雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Agricultural University
Original Assignee
Xinjiang Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang Agricultural University filed Critical Xinjiang Agricultural University
Priority to CN201910447387.8A priority Critical patent/CN110093406A/zh
Publication of CN110093406A publication Critical patent/CN110093406A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种盘羊及其杂交后代遗传基因研究方法。包括:以亲本巴什拜羊、野生盘羊、杂交F1代、回交F2代个体作为研究对象;获取群体DNA,纯度、浓度及体积,文库制备和质检,测序,获得原始测序数据;进行数据过滤并评估测序质量,获得目标分析序列数据;将目标分析序列数据比对到巴什拜羊参考基因组上,获得比对上的数据;检测比对上的数据的SNP、InDel及SV,进行注释,获得家系群体全基因组中的SNP数据信息、InDel数据信息、SV数据信息;通过各数据信息分析家系群体个体遗传变异信息,推测和确定性状相关信息。通过本发明方法可清楚展示盘羊遗传相关基因,可为以后育种提供科学依据。

Description

一种盘羊及其杂交后代遗传基因研究方法
技术领域
本发明涉及基因技术领域,尤其涉及一种盘羊及其杂交后代遗传基因研究方法。
背景技术
盘羊(学名:Argalisheep):雄性肩高可达120厘米,体重可达200千克。雄性的弯角粗大,长达1米以上,向下扭曲呈螺旋状,外侧有环棱;雌性的角非常短,而且弯度不大。毛的颜色从淡棕色至白灰色,胸、腹部的颜色浅一些。脖子白色,没有类似赤羊的鬃毛。盘羊的腿比较长,身材比较瘦,与其它野绵羊相比其爬山技巧比较差,因此在逃跑时一般避免逃向太陡峭的山坡。巴什拜羊是新疆塔城地区的一个地方绵羊良种。体格略小于阿勒泰羊,但被毛品质优于阿勒泰羊。将野生盘羊与巴什拜羊进行杂交以后,子代个体的尾部大小,随着杂交的深入,而出现了逐渐变大,脂肪积累逐渐增加的现象,推测是由于子代的个体在基因组的某一个片段上,出现了逐渐纯和,逐渐与巴什拜羊相似返祖的现象;
为了解决这一生物学问题,需要通过生物信息手段进行了解,以便为寻找后代相关性状出现的规律和后期相关育种工作提供科学依据。
发明内容
有鉴于此,本发明实施例提供了一种盘羊遗传基因研究方法,主要目的是通过上述方法全面展示盘羊遗传基因信息,为育种工作提供科学依据。
为达到上述目的,本发明主要提供了如下技术方案:
一方面,本发明实施例提供了一种盘羊遗传基因研究方法,所述方法包括步骤:
(1)以野生盘羊为父本,以巴什拜羊为母本,杂交后产生杂交F1代;以所述杂交F1代为父本,以所述巴什拜羊为母本,杂交后产生回交F2代;以所述野生盘羊、所述巴什拜羊、所述F1代及所述F2代为研究对象;
(2)分别获取所述研究对象的DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得原始测序数据;
(3)对所述原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;
(4)将所述目标分析序列数据比对到巴什拜羊参考基因组上,经比对指标质控合格后获得比对上的数据;
(5)检测所述比对上的数据的单核苷酸变异SNP、小片段插入缺失变异InDel、染色体结构变异SV,并进行注释,获得所述研究对象的全基因组测序序列中的SNP数据信息、InDel数据信息、SV数据信息;
(6)通过SNP数据信息、InDel数据信息、SV数据信息确定家系群体的全基因组变异信息;通过家系个体相似度IBD分析,确定家系个体与亲本相似的数据信息;分析比较家系个体中SV有变化规律的信息和所述IBD分析结果,推测性状相关信息;通过家系群体的个体之间的SNP频率差异和所述IBD的分析结果,对子代遗传亲本的片段进行特定SNP频率计算,确定相关性状出现的机制信息。
作为优选,采用SAMTOOLS软件检测群体SNP信息,采用贝叶斯模型检测群体中的多态性位点,通过以下过滤和筛选得到高质量的SNPs:
1)Q20质量控制:将质量值Q20即测序错误率大于1%的SNPs过滤掉;
2)SNP位点彼此间至少相隔5bp;若检测到两个SNP之间距离在5bp范围内,由于该情况出现的概率极低,故认为是测序、实验因素或分析错误,将这两个SNP均去除掉;
3)SNP的支持数,即覆盖深度在4-1000范围内。
具体的,在比对到参考基因组序列的基础上,通过突变分析软件GATK(McKenna,etal.,2010)从中提取全基因组中所有的潜在的SNP位点,再根据质量值、深度、重复性等因素做进一步的过滤筛选,最终得到高可信度的SNP数据集,并对其进行注释。利用GATK检测并过滤得到SNP后,使用ANNOVAR(Wang,et al.,2010)软件及已有的基因组注释文件(gff/gtf)对检测到的SNP进行相应的注释,注释的结果存放在Excel文件中,具体的注释内容解释请参见格式说明书。
作为优选,所述SNP的突变类型包括T:A>C:G和C:G>T:A。
作为优选,所述InDel是利用SAMTOOLs检测长度小于50bp的小片段插入与缺失;在比对到参考基因组序列的基础上,通过突变分析软件GATK从中提取全基因组中所有的潜在多态性InDel位点,再根据质量值、深度、重复性做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释。利用GATK检测并过滤得到InDel后,使用ANNOVAR软件及已有的基因组注释文件对检测到的InDel进行相应的注释,InDel长度的不同会引起对基因组不同程度的影响,在全基因组及编码区,其不同长度的InDel的分布有着明显的差异,编码区因其所需的特有的保守性,3个碱基的InDel的数量比例较2碱基及4碱基等的多;编码区域的InDel突变影响到氨基酸的编码进而影响基因功能,将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,通常移码突变较非移码突变更有害,而Stopgain和Stoploss因为导致了终止子的提前出现或缺失,也会是有害突变。
作为优选,所述SV是利用BreakDancer软件进行检测;所述SV的突变类型包括染色体缺失、染色体易位、染色体加倍、染色体倒位、染色体插入;在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY检测全基因组所有潜在的SV位点,再根据质量值、支持的Reads数做进一步过滤,最终得到高可信度的SV数据集,并对其注释。
具体的,将检测到的染色体插入、染色体缺失、染色体倒位等不同类型的SV的个数进行统计;以其中一个样本(父本野生盘羊)为例:
与现有技术相比,本发明的有益效果是:
本发明通过对杂交群体的亲本野生盘羊和巴什拜羊,F1代个体,回交得F2代个体进行全基因组重测序,通过对家系群体的变异规律和片段遗传规律的研究,揭示该现象产生的分子机理;通过应用全基因组重测序的方法,在基因组层面更加清晰的揭示子代个体相关性状产生的机制,为后期相关育种工作提供依据。
附图说明
图1是本发明实施例提供的技术流程图;
图2是本发明实施例提供的SNP质量分布图;
图3是本发明实施例提供的SMP突变频谱图;
图4是本发明实施例提供的编码区Indel长度分布图;
图5是本发明实施例提供的编码区SV长度分布图;
图6是本发明实施例提供的基因组结构变异分布图;
图7是本发明实施例提供的变异图谱;
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下以较佳实施例,对依据本发明申请的具体实施方式、技术方案、特征及其功效,详细说明如后。下述说明中的多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
实施例1
材料选择:亲本野生盘羊和巴什拜羊各一只;F1代个体一只(巴什拜羊与野生盘羊杂交子代),回交F2代个体8只,共10只个体;
样品要求:
1)类型:分别提取10只个体的DNA样品;无降解或轻微降解;无污染;
2)需求量:每次样品制备需要3μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*3μg;
3)样品浓度:≥50ng/μl,推荐浓度为100-200ng/μl;
建库策略:350bp DNA小片段文库;
测序策略:
1)测序平台:Hiseq;
2)测序策略:PE150;
3)测序深度:10X;
技术路线如图1所示,将上述各段DNA进行测序、质控、比对后获得比对上的序列数据;在比对上的序列数据基础上筛选变异信息,如SNP与注释,具体过程如下:
1、SNP检测及注释:
SNP(单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,包括单个碱基的转换、颠换等;本实施例采用SAMTOOLS等软件进行群体SNP的检测;利用贝叶斯模型检测群体中的多态性位点,通过以下过滤和筛选得到高质量的SNPs:
1)Q20质量控制(将质量值Q20即测序错误率大于1%的SNPs过滤掉);
2)SNP位点彼此间至少相隔5bp(若检测到两个SNP之间距离在5bp范围内,由于该情况出现的概率极低,故认为是测序、实验因素或分析错误,将这两个SNP均去除掉);
3)SNP的支持数(覆盖深度)在4-1000范围内。
ANNOVAR是一种高效的软件工具,它能利用最新的信息,对由多个基因组检测出的基因变异进行功能注释;只要给出变异所在的染色体、起始位点、终止位点、参考核苷酸和变异核苷酸,ANNOVAR就能进行Gene-based annotation、Region-based annotations、Filter-based annotation和Other functionalities;本实施例利用它对SNP检测结果进行注释,检测结果见表1。
表1.SNP分布统计
(1)Total:基因组中全部的SNP数目;
(2)UTR5:发生在基因的UTR5的SNP数目;
(3)UTR3:发生在基因的UTR3的SNP数目;
(4)UTR5;UTR3:发生在基因的UTR5与另一个基因UTR3的共有区间的SNP数目;其它类似;
(5)exonic:发生在外显子区域的SNP数目;
(6)splicing:发生在基因剪切区域内(剪切位点上游2bp,即非Exonic区)的SNP数目;
(7)exonic;splicing:发生在基因的Exonic邻近剪切位点2bp(剪切位点下游)的SNP数目;
(8)upstream:发生在基因上游(1000bp)内的SNP数目;
(9)downstream:发生在基因下游(1000bp)内的SNP数目;
(10)upstream;downstream:发生在基因上游或者下游(1000bp)内的SNP数目;
(11)intronic:发生在内含子区域的SNP数目;
(12)intergenic:发生在基因间区的SNP数目;
(13)ncRNA:没有相关编码注释的RNA,并非不翻译的RNA,参见ANNOVAR的Gene注释说明;子区间注释同上;(14)other:位于其他位置SNP的数目。
全基因组SNP突变可以分成6类。以T:A>C:G为例,此种类型SNP突变包括T>C和A>G。由于测序数据即可比对到参考基因组的正链,也可比对到参考基因组的负链,当T>C类型突变出现在参考基因组正链上,A>G类型突变即在参考基因组负链的相同位置,所以将T>C和A>G划分成一类。全基因组SNP频谱分析如图3所示,由图可知,T:A>C:G和C:G>T:A为主要SNP突变型。
SNP杂合比分析:
经GATK(McKenna,et al.,2010)检测并过滤得到SNP分为杂合和纯合SNP,分析基因组中SNP的杂合比例,有助于对该物种有更多的分析和了解,以进行后续分析。样本的纯合和杂合SNP的比例如下表,以其中一个样本为例:
纯合和杂合SNP比例表,以其中一个样本为例:
表2.纯合和杂合SNP比例表
#F1-5 Hom_genome Het_genome Hom_exonic Het_exonic
Number 4,707,309 9,804,040 38,104 65,223
Percentage(%) 32.44 67.56 36.88 63.12
(1)Hom_genome:基因组中纯合的SNP;
(2)Het_genome:基因组中杂合的SNP;
(3)Hom_exonic:外显子中纯合的SNP;
(4)Het_exonic:外显子中杂合的SNP。
表3.SNP突变模式分布统计表
#Sample F1-5
T-A 950,855
T-C 4,957,395
T-G 1,138,369
C-A 1,214,280
C-T 5,219,718
C-G 1,030,732
(1)T-A:即T到A的突变(包含反链的A到T的突变);
(2)T-C:即T到C的突变(包含反链的A到G的突变);
(3)T-G:即T到G的突变(包含反链的A到C的突变);
(4)C-A:即C到A的突变(包含反链的G到T的突变);
(5)C-T:即C到T的突变(包含反链的G到A的突变);
(6)C-G:即C到G的突变(包含反链的G到C的突变)。
编码区SNP功能注释及统计:
编码区域的SNP突变可能会影响到氨基酸的编码,进而影响基因功能。将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,如非同义突变、同义突变等,通常非同义突变导致相应氨基酸改变从而使得基因功能发生改变,而Stopgain和Stoploss导致了终止子的提前出现或缺失,所以也是有害突变。下表给出了SNP的功能分布统计,以其中一个样本为例:
表4.SNP功能分布统计
#F1-5 Number Percent(%)
Total 103,327 100
nonsynonymous SNV 28,194 27.29
synonymous SNV 40,334 39.04
stopgain 291 0.28
stoploss 71 0.07
unknown 34,437 33.33
(1)Total:所有突变总和;
(2)nonsynonymous SNV:非同义突变,密码子的改变导致编码的氨基酸改变(此处SNV同SNP);
(3)synonymous SNV:同义突变,密码子变异为编码同一氨基酸的密码子,核苷酸的改变不引起氨基酸的改变,即不引起基因产物的突变;
(4)stopgain:密码子的改变导致终止子的出现;
(5)stoploss:密码子的改变导致终止子的缺失;
(6)unknown:未知类型。
2、Indel检测及注释:在比对到参考基因组序列的基础上,通过突变分析软件GATK(McKenna,et al.,2010)从中提取全基因组中所有的潜在多态性InDel(Insertion和Deletion)位点,再根据质量值、深度、重复性等因素做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释。
利用GATK(McKenna,et al.,2010)检测并过滤得到InDel后,使用ANNOVAR(Wang,et al.,2010)软件及已有的基因组注释文件(gff/gtf)对检测到的InDel进行相应的注释,注释的结果存放在Excel文件中,具体的注释内容请参见格式说明书。
InDel位置分布统计:
利用GATK(McKenna,et al.,2010)检测并过滤得到InDel后,使用ANNOVAR(Wang,et al.,2010)软件及已有的基因组注释文件(gff/gtf)对检测到的InDel进行相应的注释,统计其在基因组各区间的分布情况,以其中一个样本为例:
表5.InDel分布统计
(1)Total:基因组中全部的InDel数目;
(2)UTR5:发生在基因的UTR5的InDel数目;
(3)UTR3:发生在基因的UTR3的InDel数目;
(4)UTR5;UTR3:发生在基因的UTR5与另一个基因UTR3的共有区间的InDel数目;其它类似;
(5)exonic:发生在外显子区域的InDel数目;
(6)splicing:发生在基因剪切区域内(剪切位点上游2bp,即非Exonic区)的InDel数目;
(7)exonic;splicing:发生在基因的Exonic邻近剪切位点2bp(剪切位点下游)的InDel数目;
(8)upstream:发生在基因上游(1000bp)内的InDel数目;
(9)downstream:发生在基因下游(1000bp)内的InDel数目;
(10)upstream;downstream:发生在基因上游或者下游(1000bp)内的InDel数目;
(11)intronic:发生在内含子区域的InDel数目;
(12)intergenic:发生在基因间区的InDel数目;
(13)ncRNA:没有相关编码注释的RNA,并非不翻译的RNA,参见ANNOVAR的Gene注释说明;子区间注释同上;
(14)other:位于其他位置InDel的数目。
InDel突变模式分布统计:
InDel长度的不同会引起对基因组不同程度的影响,在全基因组及编码区,其不同长度的InDel的分布有着明显的差异,编码区因其所需的特有的保守性,3个碱基的InDel的数量比例较2碱基及4碱基等的多(3碱基InDel不容易引起移码)。下表为InDel突变模式的统计,以一个样本为例:
表6.InDel突变模式统计
#F1-5 Genome Exonic
1 871,838 9,496
2 375,047 2,153
3 191,718 1,214
4 145,758 627
5 73,396 494
6 56,755 441
>6 356,963 4,983
第一列表示InDel的长度,即Insertion或是Deletion的长度;
(1)Genome:全基因组中长度为n的InDel的个数;
(2)Exonic:编码区中长度为n的InDel的个数。
编码区InDel功能注释及统计:
编码区域的InDel突变可能会影响到氨基酸的编码进而影响基因功能,将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,如移码突变、非移码突变等,通常移码突变较非移码突变更有害,而Stopgain和Stoploss因为导致了终止子的提前出现或缺失,也会是有害突变。下表给出了InDel的功能注释统计,以其中一个样本为例:
表7.InDel功能统计
#F1-5 Number Percent(%)
Total 19,408 100
frameshift deletion 1,911 9.85
frameshift insertion 2,807 14.46
nonframeshift deletion 488 2.51
nonframeshift insertion 949 4.89
stopgain 220 1.13
stoploss 9 0.05
unknown 13,016 67.07
(1)Total:所有突变总和;
(2)frameshift:移码突变,碱基缺失或增加非3的倍数,造成这位置之后的一系列编码发生移位错误的改变;
(3)nonframeshift:非移码突变,碱基缺失或增加为3的倍数;
(4)stopgain:密码子的改变导致终止子的出现;
(5)stoploss:密码子的改变导致终止子的缺失;
(6)unknown:未知类型。
3、SV检测及注释:
染色体结构变异(SV)是基因组变异的重要组成,其主要突变类型有:插入、缺失、倒位等。在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY(Tobias,et al.,2012)检测全基因组所有潜在的SV位点,再根据质量值、支持的Reads数等因素做进一步过滤,最终得到高可信度的SV数据集,并对其注释。
SV变异检测与注释:
利用DELLY(Tobias,et al.,2012)检测并过滤得到SV后,利用已有的基因注释文件(gff/gtf)对检测到的SV进行相应的注释,注释后的结果存放于Excel文件中。
SV变异类型统计:
将检测到的染色体插入、染色体缺失、染色体倒位等不同类型的SV的个数进行统计,结果如下表,以其中一个样本为例:
表8.SV变异类型统计表
(1)DEL:染色体缺失;
(2)TRA:染色体易位;
(3)DUP:染色体加倍;
(4)INV:染色体倒位;
(5)INS:染色体插入。
SV位置分布统计:
利用DELLY(Tobias,et al.,2012)检测并过滤得到SV后,利用已有的基因组注释文件(gff/gtf)对检测到的SV进行相应的注释,统计SV覆盖的各种元件的分布情况,以其中一个样本为例:
表9.SV位置分布表
(1)Total:基因组中全部的SV数目;
(2)UTR5:发生在基因的UTR5的SV数目;
(3)UTR3:发生在基因的UTR3的SV数目;
(4)UTR5;UTR3:发生在基因的UTR5与另一个基因UTR3的共有区间的SV数目;其它类似;
(5)exonic:发生在外显子区域的SV数目
(6)splicing:发生在基因剪切区域内(剪切位点上游2bp,即非Exonic区)的SV数目;
(7)exonic;splicing:发生在基因的Exonic邻近剪切位点2bp(剪切位点下游)的SV数目;
(8)upstream:发生在基因上游(1000bp)内的SV数目;
(9)downstream:发生在基因下游(1000bp)内的SV数目;
(10)upstream;downstream:发生在基因上游或者下游(1000bp)内的SV数目;
(11)intronic:发生在内含子区域的SV数目;
(12)intergenic:发生在基因间区的SV数目;
(13)ncRNA:没有相关编码注释的RNA,并非不翻译的RNA,参见ANNOVAR的Gene注释说明;子区间注释同上;
(14)other:位于其他位置SV的数目。
家系个体遗传变异分析:
1、家系个体遗传变异分析:全面检测SNP、Indel、SV。
2、家系个体相似度(IBD)分析:通过家系个体片段相似度(IBD)分析,分析家系个体与亲本相似的区域,作为与性状形成相关的候选区域;分析比较在家系个体中SV有变化规律的区域,同时与前面的相似度分析获得的基因组区域相结合,推测性状形成的关键点。
3、家系个体SNP频率分析:通过画窗口计算窗口内SNP-index平均值。
通过对家系群体的个体之间的SNP频率差异的分析,并结合IBD分析的结果,对子代遗传亲本的片段进行特定的SNP频率计算,进一步推断相关性状出现的机制。
本发明通过对杂交群体的亲本巴什拜羊,F1代个体,回交得F2代个体进行全基因组重测序,通过对家系群体的变异规律和片段遗传规律的研究,揭示该现象产生的分子机理;通过应用全基因组重测序的方法,可以在基因组层面更加清晰的揭示子代个体相关性状产生的机制,为后期相关育种工作提供依据。
本发明实施例中未尽之处,本领域技术人员均可从现有技术中选用。
以上公开的仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以上述权利要求的保护范围为准。

Claims (7)

1.一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述方法包括以下步骤:
(1)以野生盘羊为父本,以巴什拜羊为母本,杂交后产生杂交F1代;以所述杂交F1代为父本,以所述巴什拜羊为母本,杂交后产生回交F2代;以所述野生盘羊、所述巴什拜羊、所述F1代及所述F2代为研究对象;
(2)分别获取所述研究对象的DNA,检测所述DNA的纯度、浓度及体积,对检测合格后的样品进行文库制备和文库质检,对质检合格的文库进行测序,获得原始测序数据;
(3)对所述原始测序数据进行数据过滤并评估测序质量,经数据质控合格后获得目标分析序列数据;
(4)将所述目标分析序列数据比对到巴什拜羊参考基因组上,经比对指标质控合格后获得比对上的数据;
(5)检测所述比对上的数据的单核苷酸变异SNP、小片段插入缺失变异InDel、染色体结构变异SV,并进行注释,获得所述研究对象的全基因组测序序列中的SNP数据信息、InDel数据信息、SV数据信息;
(6)通过SNP数据信息、InDel数据信息、SV数据信息确定家系群体的全基因组变异信息;通过家系个体相似度IBD分析,确定家系个体与亲本相似的数据信息;分析比较家系个体中SV有变化规律的信息和所述IBD分析结果,推测性状相关信息;通过家系群体的个体之间的SNP频率差异和所述IBD的分析结果,对子代遗传亲本的片段进行特定SNP频率计算,确定相关性状出现的机制信息。
2.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,采用SAMTOOLS软件检测群体SNP信息,采用贝叶斯模型检测群体中的多态性位点,通过以下过滤和筛选得到高质量的SNPs:
1)Q20质量控制:将质量值Q20即测序错误率大于1%的SNPs过滤掉;
2)SNP位点彼此间至少相隔5bp;若检测到两个SNP之间距离在5bp范围内,由于该情况出现的概率极低,故认为是测序、实验因素或分析错误,将这两个SNP均去除掉;
3)SNP的支持数,即覆盖深度在4-1000范围内。
3.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述SNP的突变类型包括T:A>C:G和C:G>T:A。
4.如要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,在比对到参考基因组序列的基础上,通过突变分析软件GATK从中提取全基因组中所有的潜在多态性InDel位点,再根据质量值、深度、重复性做进一步的过滤筛选,最终得到高可信度的InDel数据集,并对其进行注释;利用GATK检测并过滤得到InDel后,使用ANNOVAR软件及已有的基因组注释文件对检测到的InDel进行相应的注释,InDel长度的不同会引起对基因组不同程度的影响,在全基因组及编码区,其不同长度的InDel的分布有着明显的差异,编码区因其所需的特有的保守性,3个碱基的InDel的数量比例较2碱基及4碱基等的多;编码区域的InDel突变影响到氨基酸的编码进而影响基因功能,将位于编码区域的突变根据其是否引起氨基酸的改变进行分类注释,通常移码突变较非移码突变更有害,而Stopgain和Stoploss因为导致了终止子的提前出现或缺失,也会是有害突变。
5.如要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述SV是利用BreakDancer软件进行检测;所述SV的突变类型包括染色体缺失、染色体易位、染色体加倍、染色体倒位、染色体插入;在比对到参考基因组序列的基础上,通过染色体结构变异分析软件DELLY检测全基因组所有潜在的SV位点,再根据质量值、支持的Reads数做进一步过滤,最终得到高可信度的SV数据集,并对其注释。
6.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,所述方法中包括数据处理,目的是更明显的展示样本中的结构差异:
(1)对于SNP,首先统计每条染色体上相邻1M区域内SNP的密度,0-1.5;
(2)对于重排数据,先过滤质量低于35,支持数小于50对reads的重排结果。
7.如权利要求1所述的一种盘羊及其杂交后代遗传基因研究方法,其特征在于,根据所述家系群体的全基因组变异信息绘制变异图谱。
CN201910447387.8A 2019-05-27 2019-05-27 一种盘羊及其杂交后代遗传基因研究方法 Pending CN110093406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910447387.8A CN110093406A (zh) 2019-05-27 2019-05-27 一种盘羊及其杂交后代遗传基因研究方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910447387.8A CN110093406A (zh) 2019-05-27 2019-05-27 一种盘羊及其杂交后代遗传基因研究方法

Publications (1)

Publication Number Publication Date
CN110093406A true CN110093406A (zh) 2019-08-06

Family

ID=67449291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910447387.8A Pending CN110093406A (zh) 2019-05-27 2019-05-27 一种盘羊及其杂交后代遗传基因研究方法

Country Status (1)

Country Link
CN (1) CN110093406A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110791574A (zh) * 2019-12-11 2020-02-14 湖北省农业科学院畜牧兽医研究所 与山羊产羔数、生长性状关联的分子标记及其应用
CN111370065A (zh) * 2020-03-26 2020-07-03 北京吉因加医学检验实验室有限公司 一种检测rna跨样本交叉污染率的方法和装置
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
CN113005189A (zh) * 2021-04-16 2021-06-22 中国农业科学院兰州畜牧与兽药研究所 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN116434837A (zh) * 2023-06-12 2023-07-14 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统
CN116864007A (zh) * 2023-09-05 2023-10-10 深圳人体密码基因科技有限公司 基因检测高通量测序数据的分析方法及系统
CN117095746A (zh) * 2023-08-28 2023-11-21 广西壮族自治区水牛研究所 一种用于水牛的gbs全基因组关联分析方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990004651A1 (en) * 1988-10-19 1990-05-03 Whitehead Institute For Biomedical Research Mapping quantitative traits using genetic markers
US20050130230A1 (en) * 2003-09-23 2005-06-16 Antoni Davalos Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
WO2006090136A2 (en) * 2005-02-22 2006-08-31 University Court Of The University Of Edinburgh Genetic screening of animals
US20070048768A1 (en) * 2005-06-30 2007-03-01 Syngenta Participations Ag Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping and marker development
WO2007065206A1 (en) * 2005-12-05 2007-06-14 Commonwealth Scientific And Industrial Research Organisation Selection markers for net feed intake
US20070192909A1 (en) * 2005-06-30 2007-08-16 Syngenta Participations Ag Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping ane marker development
AU2009226248A1 (en) * 2008-03-17 2009-09-24 Stichting Genetwister Ip Expression-linked gene discovery
WO2017084624A1 (zh) * 2015-11-18 2017-05-26 上海序康医疗科技有限公司 一种同时完成基因位点、染色体及连锁分析的方法
CN106755321A (zh) * 2015-11-28 2017-05-31 内蒙古中科正标生物科技有限责任公司 筛选低氧适应性绵羊的方法
CN107217091A (zh) * 2017-03-07 2017-09-29 青岛农业大学 一种奶山羊产羔性状相关基因单核苷酸多态性的检测方法
CN110189796A (zh) * 2019-05-27 2019-08-30 新疆农业大学 一种绵羊全基因组重测序分析方法
CN112481392A (zh) * 2020-12-14 2021-03-12 中国农业科学院北京畜牧兽医研究所 一种与绵羊多羔相关的snp分子标记及其应用

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1990004651A1 (en) * 1988-10-19 1990-05-03 Whitehead Institute For Biomedical Research Mapping quantitative traits using genetic markers
US20050130230A1 (en) * 2003-09-23 2005-06-16 Antoni Davalos Cellular fibronectin as a diagnostic marker in stroke and methods of use thereof
WO2006090136A2 (en) * 2005-02-22 2006-08-31 University Court Of The University Of Edinburgh Genetic screening of animals
US20070048768A1 (en) * 2005-06-30 2007-03-01 Syngenta Participations Ag Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping and marker development
US20070192909A1 (en) * 2005-06-30 2007-08-16 Syngenta Participations Ag Methods for screening for gene specific hybridization polymorphisms (GSHPs) and their use in genetic mapping ane marker development
WO2007065206A1 (en) * 2005-12-05 2007-06-14 Commonwealth Scientific And Industrial Research Organisation Selection markers for net feed intake
AU2009226248A1 (en) * 2008-03-17 2009-09-24 Stichting Genetwister Ip Expression-linked gene discovery
WO2017084624A1 (zh) * 2015-11-18 2017-05-26 上海序康医疗科技有限公司 一种同时完成基因位点、染色体及连锁分析的方法
CN106755321A (zh) * 2015-11-28 2017-05-31 内蒙古中科正标生物科技有限责任公司 筛选低氧适应性绵羊的方法
CN107217091A (zh) * 2017-03-07 2017-09-29 青岛农业大学 一种奶山羊产羔性状相关基因单核苷酸多态性的检测方法
CN110189796A (zh) * 2019-05-27 2019-08-30 新疆农业大学 一种绵羊全基因组重测序分析方法
CN112481392A (zh) * 2020-12-14 2021-03-12 中国农业科学院北京畜牧兽医研究所 一种与绵羊多羔相关的snp分子标记及其应用

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
XIN LI等: "Genomic analyses of wild argali, domestic sheep,and their hybrids provide insights into chromosome and their hybrids provide insights into chromosome and their hybrids provide insights into chromosome", 《GENOME RESEARCH》 *
兰蓉等: "云南黑山羊全基因组重测序", 《草食家畜》 *
决肯.阿尼瓦什等: "野生盘羊与巴什拜羊杂交效果分析", 《畜牧与兽医》 *
张上都等: "基因组学方法用于水稻种质资源实质派生的检测结果和应用讨论", 《中国科学:生命科学》 *
张银国等: "盘羊及其杂交一代羊绒纤维细度的测定与形态学的显微观察", 《中国草食动物科学》 *
海拉提.库尔曼等: "巴什拜羊与野生盘羊后代杂种的适应性分析", 《新疆农业大学学报》 *
海拉提.库尔曼等: "野生盘羊与巴什拜羊杂交后代体尺和体重杂种优势率的比较分析", 《新疆农业科学》 *
马燕等: "绵羊ZBED6基因多态性检测及群体遗传结构分析", 《石河子大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110791574A (zh) * 2019-12-11 2020-02-14 湖北省农业科学院畜牧兽医研究所 与山羊产羔数、生长性状关联的分子标记及其应用
CN111370065A (zh) * 2020-03-26 2020-07-03 北京吉因加医学检验实验室有限公司 一种检测rna跨样本交叉污染率的方法和装置
CN111370065B (zh) * 2020-03-26 2022-10-04 北京吉因加医学检验实验室有限公司 一种检测rna跨样本交叉污染率的方法和装置
CN112885408A (zh) * 2021-02-22 2021-06-01 中国农业大学 一种基于低深度测序检测snp标记位点的方法及装置
CN113005189A (zh) * 2021-04-16 2021-06-22 中国农业科学院兰州畜牧与兽药研究所 一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN116434837A (zh) * 2023-06-12 2023-07-14 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统
CN116434837B (zh) * 2023-06-12 2023-08-29 广州盛安医学检验有限公司 一种基于ngs的染色体平衡易位检测分析系统
CN117095746A (zh) * 2023-08-28 2023-11-21 广西壮族自治区水牛研究所 一种用于水牛的gbs全基因组关联分析方法
CN116864007A (zh) * 2023-09-05 2023-10-10 深圳人体密码基因科技有限公司 基因检测高通量测序数据的分析方法及系统
CN116864007B (zh) * 2023-09-05 2023-12-26 深圳人体密码基因科技有限公司 基因检测高通量测序数据的分析方法及系统

Similar Documents

Publication Publication Date Title
CN110093406A (zh) 一种盘羊及其杂交后代遗传基因研究方法
Skov et al. The nature of Neanderthal introgression revealed by 27,566 Icelandic genomes
EP3741873B1 (en) Identification of white legroms red-plucking mutagenic mutant genotype in pink shell laying hens and red plucking
JP7462993B2 (ja) 核酸の塩基修飾の決定
US20200227135A1 (en) Variant annotation, analysis and selection tool
Fu et al. Genome-wide analyses of introgression between two sympatric Asian oak species
CN102770558B (zh) 由母本生物样品进行胎儿基因组的分析
US20170277827A1 (en) Ancestral human genomes
Tatsumoto et al. Direct estimation of de novo mutation rates in a chimpanzee parent-offspring trio by ultra-deep whole genome sequencing
CN110189796A (zh) 一种绵羊全基因组重测序分析方法
CN110211633B (zh) Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置
CN110951889B (zh) 与鸡体重性状相关的单倍型分子标记及应用
CN108004330B (zh) 一种用于鉴定枫叶鸭的分子标记及其应用
CN108256293A (zh) 一种疾病关联基因组合的统计方法及系统
Reutimann et al. A species-discriminatory single-nucleotide polymorphism set reveals maintenance of species integrity in hybridizing European white oaks (Quercus spp.) despite high levels of admixture
CN110111843A (zh) 对核酸序列进行聚类的方法、设备及存储介质
CN110997936A (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
CN111091869A (zh) 以snp为遗传标记物的亲缘关系鉴定方法
CN103348350B (zh) 核酸信息处理装置及其处理方法
CN105907860B (zh) 一种利用|Δ(SNP-index)|进行性状定位的QTL-seq方法及其应用
CN106636083A (zh) 玉米单株穗重主效qtl、其获得方法及应用
CN109706231B (zh) 一种用于凡纳滨对虾分子育种的高通量snp分型方法
Roy et al. NGS-μsat: Bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN102154452B (zh) 一种鉴定顺式和反式调控作用的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190806

RJ01 Rejection of invention patent application after publication