CN109830261B - 一种筛选数量性状候选基因的方法 - Google Patents

一种筛选数量性状候选基因的方法 Download PDF

Info

Publication number
CN109830261B
CN109830261B CN201910064006.8A CN201910064006A CN109830261B CN 109830261 B CN109830261 B CN 109830261B CN 201910064006 A CN201910064006 A CN 201910064006A CN 109830261 B CN109830261 B CN 109830261B
Authority
CN
China
Prior art keywords
genes
gene
candidate
research
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910064006.8A
Other languages
English (en)
Other versions
CN109830261A (zh
Inventor
崔艺馨
钱伟
万华方
贺亚军
熊清
丁一娟
梅家琴
刘智
曾晓
廖泾行
索朗贡布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University
Original Assignee
Southwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University filed Critical Southwest University
Priority to CN201910064006.8A priority Critical patent/CN109830261B/zh
Publication of CN109830261A publication Critical patent/CN109830261A/zh
Application granted granted Critical
Publication of CN109830261B publication Critical patent/CN109830261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于分子育种领域,主要涉及一种筛选数量性状候选基因的方法,该方法是提取数量性状相关区间(QTL区间和GWAS区间)的基因作为“候选基因集”,收集与该性状相关的已知基因作为“诱饵”基因,通过对一组样品的转录组数据进行基因共表达分析或者权重共表达分析,构建共表达网络,从中挑选出跟诱饵基因连通性强的基因即为候选基因。本方法相比以前的分析方法,能快速、有效地筛选数量性状相关区间内的候选基因,缩小了候选基因的筛选范围,同时可以预测基因之间的互作关系,克服了传统精细定位工作量大且繁琐的问题,加速物种分子育种进程。

Description

一种筛选数量性状候选基因的方法
技术领域
本发明属于分子育种领域,主要涉及一种筛选数量性状候选基因的方法。
背景技术
植物大多数性状都是由多基因控制的复杂数量性状,如含油量和株高等性状。通常通过构建分离群体,采用分子标记构建连锁图谱,开展性状的定位,或者采用高密度的分子标记分析自然群体,开展关联分析,找到与性状相关的位点。然后进一步构建高世代的回交群体,对这些位点进行精细定位和基因克隆。这个过程不仅费时费力,而且往往因为定位的区间较大,增加了签定、克隆基因的难度。
基因组测序技术的发展使得大量的基因表达数据可以用于复杂性状的解析。基因共表达分析是基于参与某一性状相关的基因通常在不同的发育阶段和组织内具有相似的表达模式,基于一组样品在某一发育阶段表达谱,构建基因间的共表达网络(Proost&Mutwil.Tools of the trade:studying molecular networks in plants,CurrentOpinion in Plant Biology.2016,30:143-150;Ruprecht等.Phylogenomic analysis ofgene co-expression networks reveals the evolution of functional modules,ThePlant Journal.2017,90(3):447-465)。日前,基因共表达网络采用诱饵基因或者非目标策略,均是在全基因组水平上挖掘与已知基因共表达的新基因(Aoki K,Ogata Y,Shibata D.Approaches for extracting practical information from gene co-expression networks in plant biology.Plant and Cell Physiology.2007,48(3):381-390)。这些方法已经在数量性状候选基因挖掘的研究中得到了一些应用。如在油棕种子中,研究人员通过部分已知基因为“诱饵”,通过共表达分析构建了种子中的油脂代谢网络(Guerin等.Gene coexpression network analysis of oil biosynthesis in aninterspecific backcross of oil palm,The Plant Journal.2016,87:423-441)。然而,这些方法在使用时,从全基因组中筛选出来的基因或者位点与已知基因相关联,但与性状间接相关联,导致通过共表达分析的噪音高,增加了假阳性比例,为后期的候选基因鉴定增加了工作量。
发明内容
为解决上述问题,本发明提供一种筛选数量性状基因的方法,该方法仅针对数量性状位点(QTL)区间和全基因组关联分析(GWAS)区间内基因与已知基因进行基因共表达分析,进而缩小基因筛选的范围,避免工作量大且繁琐的传统精细定位工作,并快速找到控制性状的目标候选基因,且能预测基因之间的互作关系。
一种筛选数量性状基因的方法,包括以下步骤:
(1)收集与整合候选基因集:收集研究性状相关的数量性状位点区间和全基因组关联分析区间,提取两区间内的基因为“候选基因集”;
(2)收集“诱饵”基因集:在线收集模式植物或者不同物种中已报道的控制研究性状的已知基因作为“诱饵”基因集;
(3)共表达分析:利用研究物种中一组样品某一组织的转录组数据,构建基因共表达网络,如果该组样品有研究性状的表型,也可构建权重共表达网络,并从网络中筛选出与
“诱饵”基因连通性强的基因即为控制研究性状的重要候选基因;或将“候选基因集”内的基因对应到模式植物中,利用模式植物的一组转录组数据,构建基因共表达网络分析,筛选出与“诱饵”基因连通性强的基因即为控制研究性状的重要候选基因。
优选的,所述步骤(1)中,收集与整合候选基因集的具体方法为:通过在线数据库,收集与研究性状相关的数量性状位点区间和全基因组关联分析区间,将区间比对到研究物种或模式植物的参考基因组中,根据基因物理位置,提取区间内的基因作为“候选基因集”。
优选的,上述收集与整合候选基因集的具体方法还包括以下方法:对研究物种的自然群体进行基因分型,并对自然群体的研究性状进行全基因组关联分析,提取关联信号周围的候选基因,所述候选基因与上述候选基因集整合得到新的候选基因集。
优选的,所述步骤(1)中,将区间比对到研究物种或模式植物的参考基因组是依据数量性状位点区间和全基因组关联分析区间侧翼分子标记的序列或引物序列进行比对的。
优选的,所述步骤(2)中,所述收集“诱饵”基因集的具体方法为:通过在线数据库,收集模式植物或者不同物种中控制该基因的已知基因,通过蛋白序列blastp比对到该物种或者模式植物的参考基因组,找到同源基因作为“诱饵”基因集。
优选的,所述步骤(3)中,共表达分析的具体方法为:利用研究物种或模式植物的一组转录测序数据,将候选基因集内的基因以及“诱饵基因”中表达量低(RPKM<0.1=,且变异低(Var<1%=的基因过滤掉,剩余基因采用皮尔逊相关系数过滤,然后采用马尔可夫聚类算法(MCL)将基因分为不同模块,得到一个共表达网络,筛选出与“诱饵”基因连通性强的基因即为控制研究性状的重要候选基因。
本文所述的“连通性强”是指连通性排行前1%;本文所述在线数据库包括但不限于NCBI,KEGG(http://aralip.plantbiology.msu.edu/pathways/pathways)等在线数据库。
本发明的有益效果在于:
1.本方法通过提取与研究性状相关的QTL区间和GWAS区间内的基因作为“候选基因集”,收集控制研究性状的已知基因作为“诱饵”基因集,通过共表达分析筛选与“诱饵”基因连通性强的基因为候选基因,本方法可快速、有效的整合在线数据,高效筛选出与性状相关的候选基因,避免了传统精细定位方法中构建高世代回交群体、开展分子标记定位等费工费时工作,加快了候选基因筛选的过程。
2.本方法用于共表达分析的“候选基因集”来自与性状相关的QTL区间和GWAS区间的基因,而不是传统共表达分析中的整个物种的基因,降低了基因共表达分析的噪音。
附图说明
图1是AT4G35810基因的T-DNA纯合株系和WT的含油量测量结果图。
具体实施方式
以下结合实施例对本发明进行进一步的说明。
以下实施例为本发明方法的某种具体实施方式,但并不是对本发明方法的限定,任何不超离本发明方法实质内容的变换,仍应属于本发明的保护范围。
实施例1:
快速筛选油菜油脂数量性状候选基因的方法,通过以下流程构建:
1.自然群体重测序用于含油量及脂肪酸含量GWAS分析
本实施例以157份遗传来源广泛、种子含油量及脂肪酸含量差异较大的材料为例,构建了一个自然群体,详细说明获得种子含油量相关的候选基因的方法,具体如下:
(1)群体种植及表型获取
以157份遗传来源不同、种子含油量及脂肪酸含量差异较大的材料为研究材料,在大田连续种植5年(2012-2016)。每份材料种植3行(共24株),随机区组设计。重庆北碚的播种期为9月中下旬,常规方法进行大田管理,直至种子成熟(次年5月初)。
采用近红外光谱法,对自然群体157份材料的种子脂肪酸含量进行测定,获取群体的表型数据。每份材料取三份自交单株种子测量,三次测量的平均值用来代表各个品种的种子含油量及脂肪酸含量。
(2)群体重测序及全基因组关联分析
对于群体所有材料,于2015年在苗期采集幼嫩叶片,送北京百迈客公司提取DNA,并用IlluminaHiSeqTM 4000平台进行全基因组重测序。原始测序数据过滤低质量的序列,比对油菜Darmor-bzh参考基因组,再检测SNP标记,以上分析均为北京百迈客公司标准分析流程。过滤基因型缺失低于60%的位点,剩余位点采用beagle v3.3.2进行基因型填补,然后过滤最小等位基因频率低于0.05的位点,剩余690953个位点用于后续分析。
选取基因组上均匀分布的一万个位点用于群体结构分析,群体结构分析采用STRUCTURE v2.3.4,血缘关系分析采用mrMLM v2.1自带的算法。通过矫正群体结构和血缘关系,将各个年份测量的含油量以及脂肪酸含量分别进行GWAS分析。选择名义上显著(p-value<0.01)的位点,然后提取这些位点上下游10kb范围内的基因作为自然群体GWAS分析的候选基因。通过分析共鉴定48216个基因。
2.收集已报道的与油菜含油量相关的QTL区间以及GWAS区间内的候选基因
在NCBI数据库(http://www.ncbi.nlm.nih.gov/pubmed/)中搜索油菜含油量QTL文章,并下载所有文献,根据文章中的结果,提取其中的QTL信息,找到QTL区间两端的引物名称,然后在文章附件或者在线数据库IMSORB(http://brassica.nbi.ac.uk/IMSORB/)和Brassica.info(http://www.brassica.info/resource/databases.php)中查找引物序列。将引物序列比对到油菜Darmor-bzh参考基因组上,保留前后引物匹配一致性100%的区间作为候选区间。对于GWAS区间,则直接根据其显著区间的物理位置定位到参考基因组上。将QTL区间和GWAS区间内的基因编号提取出来作为初步的候选基因。以上前人报道的区间共检测到15064个基因。
3.收集已报道与含油量相关的基因
通过NCBI等在线数据库,收集与研究性状相关基因的文章。如油菜参考基因组文章(Chalhoub等.Early allopolyploid evolution in the post-Neolithic Brassicanapusoilseed genome,Science.,2014,345:950-953),列出了油菜基因组中参与油脂代谢的基因。此外还收集双子叶模式植物拟南芥油脂代谢网站,下载其油脂代谢基因(http://aralip.plantbiology.msu.edu/pathways/pathways),通过蛋白序列blastp比对到油菜参考基因组,找到油菜中的同源基因,将这两部分基因整合(合并去重),共计2242个基因作为“诱饵”基因集。
4.共表达分析
采用一组油菜自然群体,包含了71份遗传来源广泛、种子含油量及脂肪酸含量差异较大的材料种植在大田,于春季三月花期对71份材料同一天进行剥蕾自交,取自交15天后的角果进行转录组测序。
整合自然群体GWAS分析以及网站收集的候选区间内的基因,共收集52968个基因。将收集的52968个基因以及“诱饵”基因中在转录组中表达量低(RPKM<0.1),且变异低的(Var<1%)基因过滤掉,剩余28712个基因采用皮尔逊相关系数0.8过滤,然后采用MCL(马尔可夫聚类)算法将基因分为不同的模块,分析方法参照Guerin等人的方法(Guerin等,Genecoexpression network analysis of oil biosynthesis in an interspecificbackcross of oil palm,The plant journal.,2016,87:423-441.),得到一个包含了3773个基因构建出的共表达网络。从中筛选出与“诱饵”基因连通性强即连通性前1%的17个基因如下所示:
Figure BDA0001955082700000051
Figure BDA0001955082700000061
5、重要候选基因功能验证
在拟南芥官网购买上述17个重要候选基因的T-DNA突变体,通过“三引物”法鉴定纯合单株。将纯合单株与野生型二次种植,收集纯合种子利用GC-MS方法鉴定含油量以及脂肪酸含量。纯合种子种含油量与脂肪酸含量与野生型相比都具有显著差异的突变体基因,上述17个重要候选基均为控制种子含油量和脂肪酸含量的重要候选基因。
以下给出挑选上述候选基因中的AT4G35810基因的功能验证过程,具体过程如下:
称取3-5mgT-DNA突变体和WT的种子放入玻璃管中,每个三次重复,加2ml脂肪酸提取液(含2.5%H2SO4和0.01%BHT的甲醇溶液),加入50μl的标液(17:0),85℃水浴两小时,取出冷却至室温,加2ml正己烷,再加2ml三级水,涡旋混匀,4000rmp离心10分钟,吸取1ml上清至新的玻璃管中,加盖密封,即可在GC-MS仪器上分析。GC-MS具体仪器参数参照文献(Lu等,Spatial analysis of lipid metabolites and expressed genes reveals tissue-specific heterogeneity of lipid metabolismin high-and low-oil Brassica napusL.seeds,The plant journal.,2018,94(6):915-932.)。T-DNA纯合株系和WT的含油量测量结果如图1所示。

Claims (6)

1.一种筛选数量性状候选基因的方法,包括以下步骤:
(1)收集与整合候选基因集:收集研究性状相关的数量性状位点区间和全基因组关联分析区间,提取两区间内的基因为候选基因集;
(2)收集诱饵基因集:在线收集模式植物或者不同物种中已报道的控制研究性状的已知基因作为诱饵基因集;
(3)共表达分析:利用研究物种中一组样品某一组织的转录组数据,构建基因共表达网络,如果该组样品有研究性状的表型,则构建权重共表达网络,并从网络中筛选出与诱饵基因连通性强的基因即为控制研究性状的重要候选基因;或将候选基因集内的基因对应到模式植物中,利用模式植物的一组转录组数据,构建基因共表达网络分析,筛选出与诱饵基因连通性强的基因即为控制研究性状的重要候选基因。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)中,收集与整合候选基因集的具体方法为:通过在线数据库,收集与研究性状相关的数量性状位点区间和全基因组关联分析区间,将区间比对到研究物种或模式植物的参考基因组中,根据基因物理位置,提取区间内的基因作为候选基因集。
3.如权利要求2所述的方法,其特征在于,所述步骤(1)中,收集与整合候选基因集的具体方法还包括以下方法:对研究物种的自然群体进行基因分型,并对自然群体的研究性状进行全基因组关联分析,提取关联信号周围的候选基因,所述候选基因与权利要求2中所述的候选基因集整合得到新的候选基因集。
4.如权利要求2所述的方法,其特征在于,所述步骤(1)中,将区间比对到研究物种或模式植物的参考基因组是依据数量性状位点区间和全基因组关联分析区间侧翼分子标记的序列或引物序列进行比对的。
5.如权利要求1所述的方法,其特征在于,所述步骤(2)中,所述收集诱饵基因集的具体方法为:通过在线数据库,收集模式植物或者不同物种中控制该基因的已知基因,通过蛋白序列blastp比对到该物种或者模式植物的参考基因组,找到同源基因作为“诱饵”基因集。
6.如权利要求1所述的方法,其特征在于,所述步骤(3)中,共表达分析的具体方法为:利用研究物种或模式植物的一组转录测序数据,将候选基因集内的基因以及“诱饵基因”中表达量低即RPKM<0.1,且变异低即Var<1%的基因过滤掉,剩余基因采用皮尔逊相关系数过滤,然后采用马尔可夫聚类算法(MCL)将基因分为不同模块,得到一个共表达网络,筛选出与“诱饵”基因连通性强的基因即为控制研究性状的重要候选基因。
CN201910064006.8A 2019-01-23 2019-01-23 一种筛选数量性状候选基因的方法 Active CN109830261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910064006.8A CN109830261B (zh) 2019-01-23 2019-01-23 一种筛选数量性状候选基因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064006.8A CN109830261B (zh) 2019-01-23 2019-01-23 一种筛选数量性状候选基因的方法

Publications (2)

Publication Number Publication Date
CN109830261A CN109830261A (zh) 2019-05-31
CN109830261B true CN109830261B (zh) 2023-05-05

Family

ID=66862034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064006.8A Active CN109830261B (zh) 2019-01-23 2019-01-23 一种筛选数量性状候选基因的方法

Country Status (1)

Country Link
CN (1) CN109830261B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243667B (zh) * 2020-03-18 2020-10-16 中国农业科学院北京畜牧兽医研究所 华西牛基因组选择方法
CN113674799B (zh) * 2020-05-14 2023-11-10 中国科学院分子细胞科学卓越创新中心 一种基因网络数量性状定位检测方法和系统
CN112185461B (zh) * 2020-08-26 2024-05-07 中国农业科学院作物科学研究所 一种缩小gwas定位区间的全映射基因分型检测方法
CN112017731B (zh) * 2020-10-20 2021-01-12 平安科技(深圳)有限公司 一种数据处理方法、装置、服务器及计算机可读存储介质
CN116343913B (zh) * 2023-03-15 2023-11-14 昆明市延安医院 基于表型语义关联基因聚类调控网络预测单基因遗传病潜在致病机制的分析方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106929579A (zh) * 2017-03-21 2017-07-07 济南大学 一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7035739B2 (en) * 2002-02-01 2006-04-25 Rosetta Inpharmatics Llc Computer systems and methods for identifying genes and determining pathways associated with traits
CN107723379B (zh) * 2017-11-30 2021-03-02 华中农业大学 一种控制甘蓝型油菜开花期的分子标记及应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106929579A (zh) * 2017-03-21 2017-07-07 济南大学 一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法

Also Published As

Publication number Publication date
CN109830261A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109830261B (zh) 一种筛选数量性状候选基因的方法
Lu et al. Whole-genome resequencing reveals Brassica napus origin and genetic loci involved in its improvement
Reig-Valiente et al. Genetic diversity and population structure of rice varieties cultivated in temperate regions
Cui et al. Genetic diversity, population structure, and linkage disequilibrium of an association-mapping panel revealed by genome-wide SNP markers in sesame
Shen et al. Population genomics reveals a fine‐scale recombination landscape for genetic improvement of cotton
Xu et al. Genome-wide association analysis reveals genetic variations and candidate genes associated with salt tolerance related traits in Gossypium hirsutum
CN109929945B (zh) 甘蓝型油菜开花期和成熟期主效QTL位点的分子标记BrSF2604引物及其应用
CN111223520A (zh) 一种预测烟草尼古丁含量的全基因组选择模型及其应用
CN110184373A (zh) 一种与油菜千粒重关联的分子标记及应用
Hu et al. Resequencing of 388 cassava accessions identifies valuable loci and selection for variation in heterozygosity
Sarfraz et al. GWAS mediated elucidation of heterosis for metric traits in cotton (Gossypium hirsutum L.) across multiple environments
Zhao et al. A SNP-based high-density genetic map of leaf and fruit related quantitative trait loci in wolfberry (Lycium Linn.)
Busconi et al. Epigenetic variability among saffron crocus (Crocus sativus L.) accessions characterized by different phenotypes
CN115820892A (zh) 陆地棉a07号染色体与棉铃重关联的snp分子标记及其应用
US20220205053A1 (en) Combination of Soybean Whole Genome SNP Loci, Gene Chip and Application Thereof
Zuo et al. Domestication and improvement genes reveal the differences of seed size-and oil-related traits in soybean domestication and improvement
Bhat et al. Population genomics of peanut
CN110004242B (zh) 甘蓝型油菜开花期和成熟期主效QTL位点的分子标记BrSF0239引物及其应用
Tong et al. High-quality SNP linkage maps improved QTL mapping and genome assembly in Populus
CN110853711A (zh) 一种预测烟草果糖含量的全基因组选择模型及其应用
Padgitt-Cobb et al. An improved assembly of the “Cascade” hop (Humulus lupulus) genome uncovers signatures of molecular evolution and refines time of divergence estimates for the Cannabaceae family
Qing et al. Whole genome re-sequencing reveals the genetic diversity and evolutionary patterns of Eucommia ulmoides
Simko Dataset on the single nucleotide variation in diversity panel of 500 lettuce accessions genotyped with tunable genotyping-by-sequencing (tGBS) method
Wang et al. Develop a preliminary core germplasm with the novel polymorphism EST-SSRs derived from three transcriptomes of colored calla lily (Zantedeschia hybrida)
Pérez de los Cobos et al. Almond population genomics and non-additive GWAS reveal new insights into almond dissemination history and candidate genes for nut traits and blooming time

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cui Yixin

Inventor after: Liao Jingxing

Inventor after: Suo Langgongbu

Inventor after: Qian Wei

Inventor after: Wan Huafang

Inventor after: He Yajun

Inventor after: Xiong Qing

Inventor after: Ding Yijuan

Inventor after: Mei Jiaqin

Inventor after: Liu Zhi

Inventor after: Zeng Xiao

Inventor before: Qian Wei

Inventor before: Liao Jingxing

Inventor before: Suo Langgongbu

Inventor before: Cui Yixin

Inventor before: Wan Huafang

Inventor before: He Yajun

Inventor before: Xiong Qing

Inventor before: Ding Yijuan

Inventor before: Mei Jiaqin

Inventor before: Liu Zhi

Inventor before: Zeng Xiao

GR01 Patent grant
GR01 Patent grant