CN106929579B

CN106929579B - 一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法

Info

Publication number: CN106929579B
Application number: CN201710169264.3A
Authority: CN
Inventors: 李慧; 许秀勤; 车荣会; 裴腊明; 李鹏; 何琳琳; 高幸幸
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2020-10-27
Anticipated expiration: 2037-03-21
Also published as: CN106929579A

Abstract

本发明属于植物分子生物技术和基因工程领域，具体涉及一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法，具体如下：收集玉米自交系基因表达量数据；收集与玉米籽粒含油量相关联的基因数据；收集玉米自交系组成的关联群体的籽粒含油量数据；动态关联分析LA模型的建立；全基因组范围内挖掘调控26个含油量关联基因共表达模式动态变化的的调控基因及鉴定与26个含油量关联基因共表达模式动态关联的候选基因；对候选基因进行功能注释；检测候选基因是否落在油份性状的QTL区间内；与玉米自交系的油份表型数据进行区段关联分析。本发明以调控已知的油份关联基因共表达模式动态关联为突破口，可快速有效的鉴定调控籽粒油脂代谢的调控基因。

Description

一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法

技术领域

本发明属于植物分子生物技术和基因工程领域，具体涉及一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法。

背景技术

玉米是世界三大主要农作物之一，20世纪90年代以来，世界玉米总产量首次超越水稻和小麦，成为第一位的粮食作物。玉米籽粒中累积了大量的储存物质包括淀粉、油份和蛋白。随着人们生活水平的提高和膳食结构的变化，以及淀粉和油脂加工业的发展，玉米品种由产量型逐渐向质量型转变，玉米品质及其专用性变得越来越重要。

玉米油富含维生素E等多种微量元素，不饱和脂肪酸的含量达80%以上。长期食用玉米油可防治夜盲症、干眼病等多种疾病，并可降低人体血液中的胆固醇含量，预防粥样动脉硬化和冠状动脉硬化。因此玉米油享有―健康油的美誉。高油玉米是指籽粒含油量高于6%的玉米。玉米籽粒中85%左右的油份储存在胚中，所以高油玉米往往具有一个较大的胚面，同时高油玉米具有较高的蛋白质、赖氨酸、色氨酸含量。作为饲料，高油玉米可以显著提高牲畜的产肉率。除籽粒品质优良外，高油玉米的秸秆含有较高的粗蛋白、粗脂肪等营养物质，可作青饲或青贮，是草食动物的优良饲料。因此，兼顾产量和抗逆性等重要农艺性状的前提下，提高玉米籽粒含油量成为当代玉米育种的重要方向，研究玉米籽粒中油脂合成和累积的遗传机理和调控机制对于增加玉米产量、提高籽粒品质、培育高油特用型玉米具有重要意义和应用前景。

玉米籽粒含油量是复杂的数量性状，受多基因控制，且具有较高的遗传力。连锁分析和关联分析是目前较为常见的用来解析玉米油脂代谢遗传机理的方法，这两种分析方法企在通过建立表型与基因型之间的联系，挖掘控制油份表型性状的遗传位点，而这些遗传位点之间相对独立，它们之间的调控关系、遗传和分子机制未知，并且传统分析方法需要多年多点的表型鉴定，费时费力。

发明内容

针对现有技术存在的问题，本发明提供了一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法，该方法通过动态关联分析，以已知的玉米籽粒油份关联基因为目标基因，鉴定调控该基因对共表达模式动态关联的调控基因，从而解析玉米籽粒油脂代谢的调控机制以及遗传和分子机制，对高油玉米的遗传改良提供新的基因资源，以及为玉米其它农艺性状的调控机制研究提供思路和方法。

本发明是通过以下技术方案来实现的：

本发明提供了一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法，所述机制包括调控机制及遗传和分子机制，均包括以下步骤：

（1）收集玉米自交系授粉后15天的籽粒转录本测序获得基因表达量数据；

（2）收集26个与玉米籽粒含油量相关联的基因数据；

（3）收集玉米自交系组成的关联群体的籽粒含油量数据；

（4）动态关联分析LA模型的建立；

（5）全基因组范围内挖掘调控26个含油量关联基因共表达模式动态变化的的调控基因及全基因范围内鉴定与26个含油量关联基因共表达模式动态关联的候选基因；

（6）对候选基因进行功能注释；

（7）检测候选基因是否落在油份性状的QTL区间内；

（8）提取候选基因上下游100kb范围内的所有SNP标记，与玉米自交系的油份表型数据进行区段关联分析。

进一步的，所述玉米自交系根据系谱信息分成了2 组：热带和亚热带、温带，小组内采用完全随机区组法，设2 个重复，每个自交系每个重复播种1 行，所有材料均进行自交，收获未成熟的授粉后15天的籽粒，每个自交系的两个重复各取3-4 穗，每穗取1-2 粒籽粒，混合提取籽粒总RNA，随机选择玉米自交系数量个样品用于RNA-seq。

上述RNA-seq具体通过以下步骤：首先，用Ploy（T）寡聚核苷酸从总RNA中抽取全部带Ploy（A）尾的RNA，主要为mRNA，然后将截获的mRNA随机打断成片段，用六碱基随机引物合成cDNA第一链，并加入逆转录酶合成cDNA第二链，经过试剂盒纯化并对cDNA片段进行末端修饰，连接测序接头，再经琼脂糖凝胶电泳回收目的大小片段，进行PCR扩增，用IlluminaGAⅡ基因分析系统进行序列测定及分析，获得基因的表达量数据。

进一步的，所述基因的表达量数据，对其进行的缺失值预处理如下：对于数据集中的每个基因，如果其表达值在高于30%的样本中缺失，则在后续的分析中舍弃该基因。

进一步的，所述调控机制的动态关联分析LA模型具体采用以下方法建立：LA的数学定义如下：

LA(X, Y|Z)=Eg'(z) 公式1

其中，所述X为26个含油量关联基因的表达量，Y为26个含油量关联基因的表达量，Z为全基因组基因表达量；假设X，Y，Z是均值为0，方差为1的连续随机变量，则X，Y的相关性表示为E(XY)；当Z=z时，g(z)=E(XY|Z=z)，g(z)检测的是当Z=z时，XY基因对的共表达模式。g(z)的导数表示为g'(z)，该值可用于共表达模式变化的期望测定，

当Z符合标准正态分布时，LA值可简单的表示为LA(X,Y|Z)=E(XYZ)。

X，Y，Z代表具有正态分布表达谱的三个基因，则LA(X, Y|Z)表示为：E(XYZ)=(x₁y₁z₁+x₂y₂z₂+...+x_my_mz_m)/m 公式2

LA用来反应基因对共表达模式的动态变化，即当Z基因表达量较高时，XY基因对的表达量呈正相关（co-regulated），E(XY|Z=1)为正数；当Z基因表达量较低时，XY基因对的表达量呈负相关（contra-regulated，），E(XY|Z=0)为负数，因此基因对的表达调控模式由正相关（co-regulated）转变为负相关（contra-regulated），LA值记为正；相反，基因对的表达调控模式由负相关（contra-regulated）转变为正相关（co-regulated），LA值记为负。

进一步的，所述遗传和分子机制的动态关联分析LA模型具体采用以下方法建立：LA的数学定义如下：

LA(X, Y|Z)=Eg'(z) 公式1

其中，所述X为26个含油量关联基因的表达量，Y为全基因组基因表达量，Z为全基因组基因表达量；假设X，Y，Z是均值为0，方差为1的连续随机变量，则X，Y的相关性表示为E(XY)；当Z=z时，g(z)=E(XY|Z=z)，g(z)检测的是当Z=z时，XY基因对的共表达模式。g(z)的导数表示为g'(z)，该值可用于共表达模式变化的期望测定，

当Z符合标准正态分布时，LA值可简单的表示为LA(X,Y|Z)=E(XYZ)。

X，Y，Z代表具有正态分布表达谱的三个基因，则LA(X,Y|Z)表示为：E(XYZ)=(x₁y₁z₁+x₂y₂z₂+...+x_my_mz_m)/m 公式2

上述动态关联分析模型中的显著性水平评估步骤如下：混合所有基因的表达量值；在每次模拟中，用放回随机抽样法随机抽取一对基因（X，Y）的表达量值,Z基因取全基因组所有基因，计算XY基因对在全基因组的LA值，可分别得到LA的正极大值和负极小值；重复模拟一百万次，分别得到LA的正值参考分布和负值参考分布（图4 ），用LA正负参考分布的99%分位数作为LA正负显著性阈值。

进一步的，所述关联分析采用混合线性模型，统计模型如下：

y= Xβ+ Sα+Zμ+Qυ+e

所述y为表型观察值；β为除标记和群体结构以外的未知固定效应值；α为标记的效应值；υ为群体结构的效应值；μ为多基因遗传背景的效应值；e为残差；Q为群体结构的矩阵；X、S、Z分别为y与β、α、μ相关的矩阵，关联分析采用TASSEL3.0软件进行计算。

进一步的，所述区段关联分析的具体方法如下：提取候选基因5'UTR上游50kb和3'UTR下游50kb共100kb范围内的所有SNP标记，结合关联群体的含油量表型数据，采用混合线性模型进行关联分析。

本发明采用的是转录本测序获得的368个玉米自交系中28769个基因的表达量数据，利用LA分析方法，全基因组范围内挖掘调控26个含油量关联基因的共表达模式动态关联的调控基因；通过功能注释、QTL共定位分析、区段关联分析，进一步阐述玉米籽粒油脂代谢的调控机制。我们将创新性的利用基因对共表达模式的动态关联分析的新方法，全基因组范围内挖掘调控油脂代谢途径的基因，探索基因转录调控关系，解析籽粒油脂代谢的调控机制。该研究思路创新，在植物学领域该项研究尚无报道。

本发明的有益效果为：

（1）本发明基于表达模式越相近的基因，其功能相近的可能性越大这一科学假设，以调控已知的油份关联基因共表达模式动态关联为突破口，可快速有效的鉴定调控籽粒油脂代谢的调控基因；

（2）通过基因对共表达网络的构建，可鉴定基因之间的调控关系；

（3）本发明可以为玉米数量性转的调控机制及遗传和分子机制鉴定提供新思路。

附图说明

图1为本发明实施例1分析调控机制的流程图。

图2为本发明实施例2遗传和分子机制的流程图。

图3为本发明实施例1玉米籽粒含油量关联的26个基因。

图4为本发明实施例1随机模拟生成LA值评估LA分析的显著性。

图5为本发明实施例1 GRMZM2G319022基因的LA分析。

图6为本发明实施例1 GRMZM2G319022基因的基因结构。

图7为本发明实施例1 GRMZM2G319022基因的区段关联分析。

图8为本发明实施例2候选基因GRMZM2G451672的区段关联分析。

图9为本发明实施例2GRMZM2G451672基因的结构图和功能域。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，下述说明仅是实例性的，不限定本发明的保护范围。

实施例1

一种基于动态关联分析挖掘玉米籽粒油脂代谢调控机制的方法，包括六步，基因表达量数据的收集、26个油份关联基因的收集、玉米籽粒含油量QTL定位结果的收集、关联群体籽粒含油量数据的收集、油份关联基因的全基因组LA分析，具体见图1。

（1）基因表达量数据的收集：

368份自交系（本发明所使用的玉米品种可为任意品种，包括中国农业大学宋同明教授培育的35份高油玉米自交系（Yang 等，2010b））于2010 年在湖北荆州种植，根据系谱信息分成了2 组（热带和亚热带、温带），小组内采用完全随机区组法，设2 个重复，每个自交系每个重复播种1 行。所有材料均进行自交，收获未成熟的授粉后15天（15 DAP）的籽粒，每个自交系的两个重复各取3-4 穗，每穗取1-2 粒籽粒，混合提取籽粒总RNA，随机选择368个样品用于RNA-seq。样品的RNA-Seq工作是由深圳华大基因研究院（Beijing GenomicsInstitute，BGI）完成，测序方法简要描述如下：首先，用Ploy（T）寡聚核苷酸从总RNA中抽取全部带Ploy（A）尾的RNA，主要为mRNA，然后将截获的mRNA随机打断成片段，用六碱基随机引物（random hexamers）合成cDNA第一链，并加入逆转录酶等合成cDNA第二链，经过试剂盒纯化并对cDNA片段进行末端修饰，连接测序接头，再经琼脂糖凝胶电泳回收目的大小片段，进行PCR扩增，从而完成整个文库构建工作，构建好的文库用Illumina GAⅡ基因分析系统进行序列测定及分析。转录本测序获得的368个玉米自交系中28769个基因的表达量数据，对基因表达量数据集进行的缺失值预处理如下：基因表达数据因为实验中的噪声、检测技术等原因而存在缺失。对于数据集中的每个基因，如果其表达值在高于30%的样本中缺失，则在后续的分析中舍弃该基因。

（2）26个油份关联基因的收集：

在前期的一项研究中，我们结合覆盖全基因组的最小等位基因频率 ≥ 0.05的55万个SNP标记和368份玉米自交系籽粒含油量性状的表型值，利用MLM模型挖掘与籽粒含油量显著关联的SNP位点。在全基因组显著水平下（P < 1.89×10^-6），共检测到26个遗传位点与含油量显著关联（图3），对遗传位点的候选基因进行功能注释，发现8个候选基因为拟南芥中参与油脂代谢的同源基因，该结果为含油量关联基因的全基因组LA分析提供了目标基因。

（3）玉米籽粒含油量QTL定位结果的收集：

收集玉米籽粒油份性状QTL定位（表1），如果LA分析检测到的显著基因落于控制玉米籽粒含油量的QTL之内，则表明该基因有QTL的支持和验证。

表1 玉米籽粒含油量和组分性状QTL定位结果统计表

（4）关联群体籽粒含油量数据的收集

关联群体分别于2009年春在四川雅安、2009年冬在云南西双版纳和海南三亚、2010年春在广西南宁种植。508份材料根据系谱信息分成了2组（热带和亚热带、温带），小组内采用完全随机区组法，设2个重复，每个自交系每个重复播种1行。每个材料自交5-7穗，成熟后收获授粉的果穗，自然晾干，每行选择3个以上生长良好的果穗，脱粒后混合取大小均一的50粒，于45℃烘60h以保证所有材料含水量基本一致。该群体每个环境只测定了1个重复的表型，一共测定了10个脂肪酸组分性状，所有脂肪酸含量之和作为玉米籽粒含油量（Li等，Nature Genetics, 2013）。脂肪酸的提取参照Sukhija等（1988）的方法。

（5）油份关联基因的全基因组LA分析

具体按照上述建模步骤进行建模；

以X=26个含油量关联基因，Y=26个含油量关联基因，Z=全基因组基因进行LA分析，发现GRMZM2G319022基因表达量较低时，GRMZM2G176542表达量与GRMZM2G410515的表达量显著正相关，而GRMZM2G319022基因表达量较高时，GRMZM2G176542表达量与GRMZM2G410515表达量负相关（图5）。

结合Z基因的功能注释和区段关联分析发现GRMZM2G319022编码锌脂蛋白结构相对保守（图6），区段关联分析发现该基因也是和油份性状显著关联的。（图7）

结合Z基因的功能注释、共定位分析、区段关联分析（以基因GRMZM2G451672为例，结果见图8和图9），共验证2个与含油量显著关联的候选基因（表2），这两个候选基因均参与油脂代谢途径。

表2 两个调控含油量关联基因共表达模式动态变化的Z候选基因

^a该基因区段关联分析最显著的SNP位点，位置信息参照的是5b.60版本的B73基因组序列；^b候选基因至少落在其中一个先前报道的QTL区间内。

该实施例发现第三个基因表达量的高低影响基因对的共表达模式，比如GRMZM2G319022基因表达量较低时，GRMZM2G176542表达量与GRMZM2G410515的表达量显著正相关，而GRMZM2G319022基因表达量较高时，GRMZM2G176542表达量与GRMZM2G410515表达量负相关；又比如AC196475.3_FG005基因表达量较低时，GRMZM2G079236表达量与GRMZM2G176542的表达量显著正相关，而AC196475.3_FG005基因表达量较高时，GRMZM2G079236表达量与GRMZM2G176542表达量负相关；因此基因GRMZM2G319022和AC196475.3_FG005调控含油量关联基因的共表达模式，推测这两个基因参与调控油脂代谢途径。

对LA显著的候选基因进行基因功能预测，主要用到了两个数据库：欧洲生物信息研究所蛋白功能注释数据库、蛋白结构与功能注释数据库。此外，利用同源基因功能相似的原则，候选基因的蛋白序列还提交到了拟南芥基因数据库TAIR中进行比对，查看同源基因的功能注释，并作为玉米候选基因功能预测的依据。

以上的这些结果证明了本发明的有效性，通过鉴定调控已知含油量关联基因的共表达模式动态变化的调控基因，并结合功能注释、共定位分析和区段关联分析，从而解析玉米籽粒油脂代谢的调控机制，为高油玉米的遗传改良提供了新的基因资源，为玉米其它数量性状的调控机制研究提供了新的思路和方法。

实施例2

一种本发明所述基于动态关联分析解析玉米籽粒油脂代谢的遗传和分子机制的方法，主要包括六步，基因表达量数据的收集、26个油份关联基因的收集、玉米籽粒含油量QTL定位结果的收集、关联群体籽粒含油量数据的收集、油份关联基因的全基因组LA分析，具体流程见图2。

（1）基因表达量数据的收集：

368份自交系（同实施例1）于2010 年在湖北荆州种植，根据系谱信息分成了2 组（热带和亚热带、温带），小组内采用完全随机区组法，设2 个重复，每个自交系每个重复播种1 行。所有材料均进行自交，收获未成熟的授粉后15天（15 DAP）的籽粒，每个自交系的两个重复各取3-4 穗，每穗取1-2 粒籽粒，混合提取籽粒总RNA，随机选择368 个样品用于RNA-seq；样品的RNA-Seq工作是由深圳华大基因研究院（Beijing Genomics Institute，BGI）完成，测序方法简要描述如下：首先，用Ploy（T）寡聚核苷酸从总RNA中抽取全部带Ploy（A）尾的RNA，主要为mRNA，然后将截获的mRNA随机打断成片段，用六碱基随机引物（randomhexamers）合成cDNA第一链，并加入逆转录酶等合成cDNA第二链，经过试剂盒纯化并对cDNA片段进行末端修饰，连接测序接头，再经琼脂糖凝胶电泳回收目的大小片段，进行PCR扩增，从而完成整个文库构建工作，构建好的文库用Illumina GAⅡ基因分析系统进行序列测定及分析。转录本测序获得的368个玉米自交系中28769个基因的表达量数据，对基因表达量数据集进行的缺失值预处理如下：基因表达数据因为实验中的噪声、检测技术等原因而存在缺失。对于数据集中的每个基因，如果其表达值在高于30%的样本中缺失，则在后续的分析中舍弃该基因。

（2）26个油份关联基因的收集：

在前期的一项研究中，我们结合覆盖全基因组的最小等位基因频率≥0.05的55万个SNP标记和368份玉米自交系籽粒含油量性状的表型值，利用MLM模型挖掘与籽粒含油量显著关联的SNP位点。在全基因组显著水平下（P < 1.89×10^-6），共检测到26个遗传位点与含油量显著关联（图3），对遗传位点的候选基因进行功能注释，发现8个候选基因为拟南芥中参与油脂代谢的同源基因，该结果为含油量关联基因的全基因组LA分析提供了目标基因。

（3）玉米籽粒含油量QTL定位结果的收集：

收集玉米籽粒油份性状QTL定位（表3），如果LA分析检测到的显著基因落于控制玉米籽粒含油量的QTL之内，则表明该基因有QTL的支持和验证。

表3 玉米籽粒含油量和组分性状QTL定位结果统计表

（4）关联群体籽粒含油量数据的收集

关联群体分别于2009年春在四川雅安、2009年冬在云南西双版纳和海南三亚、2010年春在广西南宁种植。508份材料根据系谱信息分成了2组（热带和亚热带、温带），小组内采用完全随机区组法，设2个重复，每个自交系每个重复播种1行。每个材料自交5-7穗，成熟后收获授粉的果穗，自然晾干，每行选择3个以上生长良好的果穗，脱粒后混合取大小均一的50粒，于45℃烘60h以保证所有材料含水量基本一致。该群体每个环境只测定了1个重复的表型，一共测定了10个脂肪酸组分性状，所有脂肪酸含量之和作为玉米籽粒含油量352（368份材料中部分材料的表型无效）份总油份含量的标准化处理的表型数据见（表4）。脂肪酸的提取参照Sukhija等（1988）的方法。

表4，368份玉米自交系总含油量列表

（5）油份关联基因的全基因组LA分析

具体按照上述建模步骤进行建模；

以X=26个含油量关联基因，Y=全基因组基因，Z=全基因组基因进行LA分析，重点关注LA绝对值最大的前100个LAP列表。结合Y基因的功能注释、共定位分析、区段关联分析和基因组选择分析（以基因GRMZM2G451672为例，结果见图7和图8），共验证2个与含油量显著关联的候选基因（表5），这两个候选基因均参与油脂代谢途径。

（6）所述关联分析采用混合线性模型

模型统计模型如下：

y= Xβ+ Sα+Zμ+Qυ+e

所述y为表型观察值；β为除标记和群体结构以外的未知固定效应值；α为标记的效应值；υ为群体结构的效应值；μ为多基因遗传背景的效应值；e为残差；Q为群体结构的矩阵；X、S、Z分别为y与β、α、μ相关的矩阵，关联分析采用TASSEL3.0软件进行计算。所述区段关联分析的具体方法如下：提取候选基因5'UTR上游50kb和3'UTR下游50kb共100kb范围内的所有SNP标记，结合关联群体的含油量表型数据，采用混合线性模型进行关联分析。

表5 GRMZM2G426556和GRMZM2G451672两个基因被QTL验证

本实施例发现基因对的共表达模式受到第三个基因表达量的影响，比如GRMZM5G818791基因表达量较低时，GRMZM2G410515表达量与GRMZM2G426556的表达量显著正相关，而GRMZM5G818791基因表达量较高时，GRMZM2G410515表达量与GRMZM2G426556表达量负相关；再比如GRMZM2G375904基因表达量较低时，GRMZM2G410515表达量与GRMZM2G451672的表达量显著正相关，而GRMZM2G375904基因表达量较高时，GRMZM2G410515表达量与GRMZM2G451672表达量负相关；推测与基因GRMZM2G410515共表达模式动态关联的基因GRMZM2G426556和GRMZM2G451672可能与控制籽粒含油量有关。

以上的这些结果证明了本发明的有效性，通过鉴定与已知含油量关联基因的共表达模式的动态关联，并结合功能注释、共定位分析、区段关联分析和基因组选择分析，从而解析玉米籽粒油脂代谢的遗传和分子机制，为高油玉米的遗传改良提供了新的基因资源，为玉米其它数量性状的遗传机理研究提供了新的思路和方法。

Claims

1.一种基于动态关联分析挖掘玉米籽粒油脂代谢机制的方法，其特征在于，所述机制包括调控机制及遗传和分子机制，均包括以下步骤：

（2）收集26个与玉米籽粒含油量相关联的基因数据；

（3）收集玉米自交系组成的关联群体的籽粒含油量数据；

（4）动态关联分析LA模型的建立；

（6）对候选基因进行功能注释；

（7）检测候选基因是否落在油份性状的QTL区间内；

（8）提取候选基因5'UTR上游50kb和3'UTR下游50kb 共100kb范围内的所有SNP标记，与玉米自交系的油份表型数据进行区段关联分析。

2.根据权利要求1所述的方法，其特征在于，所述玉米自交系根据系谱信息分成了2组：热带和亚热带、温带，小组内采用完全随机区组法，设2 个重复，每个自交系每个重复播种1 行，所有材料均进行自交，收获未成熟的授粉后15天的籽粒，每个自交系的两个重复各取3-4 穗，每穗取1-2 粒籽粒，混合提取籽粒总RNA，随机选择玉米自交系368个样品用于RNA-seq。

3.根据权利要求2所述的方法，其特征在于，所述RNA-seq具体通过以下步骤：首先，用Poly（T）寡聚核苷酸从总RNA中抽取全部带Poly（A）尾的RNA，主要为mRNA，然后将截获的mRNA随机打断成片段，用六碱基随机引物合成cDNA第一链，并加入逆转录酶合成cDNA第二链，经过试剂盒纯化并对cDNA片段进行末端修饰，连接测序接头，再经琼脂糖凝胶电泳回收目的大小片段，进行PCR扩增，用Illumina GAⅡ基因分析系统进行序列测定及分析，获得基因的表达量数据。

4.根据权利要求3所述的方法，其特征在于，所述基因的表达量数据，对其进行的缺失值预处理如下：对于数据集中的每个基因，如果其表达值在高于30%的样本中缺失，则在后续的分析中舍弃该基因。

5.根据权利要求1所述的方法，其特征在于，所述调控机制的动态关联分析LA模型具体采用以下方法建立：LA的数学定义如下：

LA(X, Y|Z)=Eg'(z) 公式1

其中，所述X为26个含油量关联基因的表达量，Y为26个含油量关联基因的表达量，Z为全基因组基因表达量；假设X，Y，Z是均值为0，方差为1的连续随机变量，则X，Y的相关性表示为E(XY)；当Z=z时，g(z)=E(XY|Z=z)，g(z)检测的是当Z=z时，XY基因对的共表达模式；g(z)的导数表示为g'(z)，该值可用于共表达模式变化的期望测定，

当Z符合标准正态分布时，LA值可简单的表示为LA(X,Y|Z)=E(XYZ)；

6.根据权利要求1所述的方法，其特征在于，所述遗传和分子机制的动态关联分析LA模型具体采用以下方法建立：LA的数学定义如下：

LA(X, Y|Z)=Eg'(z) 公式1

其中，所述X为26个含油量关联基因的表达量，Y为全基因组基因表达量，Z为全基因组基因表达量；假设X，Y，Z是均值为0，方差为1的连续随机变量，则X，Y的相关性表示为E(XY)；当Z=z时，g(z)=E(XY|Z=z)，g(z)检测的是当Z=z时，XY基因对的共表达模式；g(z)的导数表示为g'(z)，该值可用于共表达模式变化的期望测定，

当Z符合标准正态分布时，LA值可简单的表示为LA(X,Y|Z)=E(XYZ)；

7.根据权利要求5或6所述的方法，其特征在于，所述动态关联分析模型中的显著性水平评估步骤如下：混合所有基因的表达量值；在每次模拟中，用放回随机抽样法随机抽取一对基因（X，Y）的表达量值，Z基因取全基因组所有基因，计算XY基因对在全基因组的LA值，可分别得到LA的正极大值和负极小值；重复模拟一百万次，分别得到LA的正值参考分布和负值参考分布，用LA正负参考分布的99%分位数作为LA正负显著性阈值。

8.根据权利要求1所述的方法，其特征在于，所述区段关联分析采用混合线性模型，统计模型如下：

y= Xβ+ Sα+Zμ+Qυ+e

9.根据权利要求1或8所述的方法，其特征在于，所述区段关联分析的具体方法如下：提取候选基因5'UTR上游50kb和3'UTR下游50kb共100kb范围内的所有SNP标记，结合关联群体的含油量表型数据，采用混合线性模型进行关联分析。