CN116580767A

CN116580767A - 一种基于自监督与Transformer的基因表型预测方法和系统

Info

Publication number: CN116580767A
Application number: CN202310461742.3A
Authority: CN
Inventors: 李玲; 徐晓刚; 王军; 于慧; 翁琳; 曹卫强
Original assignee: Northeast Institute of Geography and Agroecology of CAS; Zhejiang Lab
Current assignee: Northeast Institute of Geography and Agroecology of CAS; Zhejiang Lab
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-11
Anticipated expiration: 2043-04-26
Also published as: CN116580767B

Abstract

一种基于自监督与Transformer的基因表型预测方法，通过基因芯片技术和人工测量分别获取农作物SNP数据及对应表型样本，以构建数据集；首先，将SNP数据预处理及编码后，送入自监督模型，并通过DeepLIFT算法，计算各SNP位点对表型的贡献得分；然后，使用该SNP各位点贡献度得分改进Transformer嵌入编码方式，并结合自注意力机制，有效提取基因与表型相关性特征图；最后将特征图送入预测回归头预测表型值。本发明还包括一种基于自监督与Transformer的基因表型预测系统。本发明使Transformer模型获取SNP位点贡献度先验知识，更关注贡献度高的位点，减少维度干扰，有效提高预测准确度，适用于农作物基因表型预测。

Description

一种基于自监督与Transformer的基因表型预测方法和系统

技术领域

本发明涉及智能育种的预测领域，尤其涉及一种基于自监督与Transformer的基因表型预测方法和系统。

背景技术

研究表明作物农艺性状受多基因控制和环境影响，遗传较为复杂，就目前而言，针对作物农艺性状表型值的测定十分繁杂、耗时且效率低下。为提高表型值测定效率，现多采用基于全基因组方法实现作物农艺性状预测。

全基因组选择(Genomic selection，GS)利用分布在全基因组上的高密度分子标记，如：单核苷酸多态(Single Nucleotide Polymorphism，SNP)，计算复杂农艺性状的基因值估计育种值，GS方法基于统计模型来工作，提高了估计准确性，加快遗传进展，尤其对低遗传力、难测定的复杂性状具有较好的预测效果，实现基因组技术指导育种实践。

常见的使用SNP效应值进行表型预测的GS模型有：基于BLUP，Bayes及机器学习的方法。相对于传统基于统计方法的BLUP，Bayes等，基于机器学习的方法有以下优点：一是无需事先知道变量的分布或目标性状的遗传效应，打破了混合线性模型和贝叶斯假设的限制；二是考虑了多个体互作或特征间的相关性，考虑个体位点间的非线性关系进行建模，准确率更高。

基于深度学习的方法可从数据中自动提取高级特征，避免基于机器学习的专家知识和特征提取过程，能更好的提高算法准确性，在图像、语音众多领域取得比机器学习更有效的结果，得到了广泛的应用。基于深度学习的基因表型预测方法，由于作物农艺性状表型值的测定非常困难，导致表型样本较少，仅在千位或百位数量，但经过筛选的SNP位点特征维度，一般在万甚至百万维度，造成特征维度高，样本数量少，使得深度学习模型训练困难，模型准确率较低。

发明内容

本发明要解决现有技术的上述不足，实现高精度基因表型预测，提供一种基于自监督与Transformer的基因表型预测方法。

本发明的一种基于自监督与Transformer的基因表型预测方法，包括以下步骤：

步骤一：生成数据集。采用基因芯片技术获得多个品种作物的SNP数据，测量每株作物的表型值。本实施例中使用作物为大豆，获取大豆F3、F4及F5世代每个植株的SNP位点及对应的表型数据，其中表型数据包括：株高、百粒重、节数。使用五折交叉验证法对模型进行训练及验证。

步骤二：SNP位点预处理及编码。首先，删除SNP位点缺失率≥5％，次等位基因频率(MAF)≥1％的SNP位点。对缺失率满足条件的缺失SNP位点，进行缺失填充。然后，对SNP位点四种状态0/0，0/1，1/1，1/0进行数字编码，即：0/0编码为0，0/1和1/0编码为1，1/1编码为2，并对编码后的数字进行归一化。

步骤三：自编码器模型训练。自编码器由编码器和解码器两部分组成，共包含四层隐藏层，每层隐藏层由全连接层前接Dropout层，后接激活层组成。中间三层隐藏层输出维度为1000,200,1000，最后一层隐藏层为输出层，输出特征维度等于输入样本维度。其中激活层均使用sigmoid函数。

进一步地，所述步骤三通过以下子步骤来实现：

3.1)将步骤二输出数据X，送入编码器E，编码器E|_X→Y经过两层隐藏层，将输入原始数据X降维为特征Y。

3.2)将编码器降维特征Y送入解码器，解码器由一层隐藏层和一层输出层组成。解码器经过一层隐藏层后输出特征Y′，Y′再经过输出层，得到输出特征重建特征维度与输入特征维度相等。并使用平均绝对误差MAE损失函数，最小化真实输入值与重建值之间的误差。

其中i表示位点索引，n表示每个样本中的SNP位点总数，g_i和分别表示SNP各位点的真值和预测值。

3.3)输入步骤二基因数据X，基于MAE损失函数，使用随机梯度下降法训练模型，经过100个周期后模型结束，输出模型最优参数。

步骤四：计算基因位点表型贡献度得分。输入步骤一中的表型数据，步骤二输出基因型数据，步骤三输出自编码模型中的编码器E，首先在编码器E后接一层全连接层和一层回归层，输入基因型数据X和表型数据P，对编码器E进行微调训练，并将训练好的模型进行测试，输出预测表型值其次，利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分，获得的贡献分数表示相应SNP位点对表型特征的重要性，得分越高说明该位点对表型的重要程性越大，反之，得分越低说明对表型的重要性越小。

进一步地，所述步骤四通过以下子步骤来实现：

4.1)编码器微调训练。输入步骤一中的表型数据P，步骤二输出基因型数据X，步骤三输出自编码模型中的编码器E。将编码器E后接一层全连接层和一层回归层，输入基因数据X和表型数据P，对编码器E进行微调训练，使用MAE损失函数，最小化预测值与真值间的平均绝对误差，使用随机梯度下降法训练模型，100个周期后模型结束，得到模型最优解。测试阶段，利用最优模型输出预测表型值

4.2)SNP位点对表型贡献值计算。输入步骤二基因型数据及步骤4.2)预测表型值，通过深度学习算法DeepLIFT计算各SNP位点对表型的贡献度得分。DeepLIFT算法是一种基于反向传播的特征打分算法，利用重尺度规则，输出样本中的SNP数据各位点，对其对应表型的贡献分数F_score。

步骤五：训练基于Transformer的基因表型预测模型。输入步骤一中的表型数据，步骤二输出型基因数据，步骤四输出SNP数据各点位得分。如图3所示为基因表型预测模型结构图，由Transformer中的编码器(Encoder)，后接表型预测回归头组成。利用Transformer编码器(Encoder)的多头自注意力机制，提取基因与表型间关系，再通过表型回归头预测得出表型值。Transformer Encoder包含输入嵌入，编码器层基础模块。其中，每层编码器层基础模块包括多头注意力层，层归一化，前向反馈网络层，表型预测回归头为一层多层感知机层。

首先，使用步骤四输出SNP数据各点位得分F_score，对步骤二输出基因数据进行嵌入编码，常见Transformer嵌入编码方式为，加入可学习矩阵及位置编码矩阵，本发明将基因位点得分加入编码，让模型更关注得分较高的位点；然后，将编码后的基因数据送入两层编码器层基础模块，输出基因与表型间的关系特征图；最后经过预测回归头，预测输出表型值。

进一步地，所述步骤五通过以下子步骤来实现：

5.1)结合SNP位点贡献度得分改进输入嵌入编码。常见Transformer嵌入编码方式为，加入可学习矩阵D及位置编码矩阵e^pos，则嵌入编码后的矩阵可表示为Z⁽⁰⁾＝DX+e^pos。为突显各基因位点不同重要度，使后续模型更关注得分更高的基因位点，本发明将步骤四输出SNP数据各位点得分F_score加入编码，在初始化阶段，将可学习矩阵D初始化为one-hot向量V与SNP数据各点位得分向量F_score的点乘结果。

5.2)基因表型相关性特征提取。输入步骤5.1)编码后特征Z⁽⁰⁾，首先，通过层归一化及线性映射，计算得到Query(Q)、Key(K)及Value(V)向量；然后，将Q、K及V向量送入多头自注意力层，计算自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图，再经过层归一化和前向反馈网络层，得到第l个基本模块编码特征图输出；最后将第l个基本模块编码特征图输出，送入下一个基本模块，直至最后一个基本模块。

进一步地，所述步骤5.2)可通过以下子步骤来实现：

5.2.1)输入步骤5.1)编码后特征Z⁽⁰⁾，首先，通过层归一化及线性映射，计算得到Query(Q)、Key(K)及Value(V)向量，如下式所示：

其中l∈{1,2}表示第l层编码器层基础模块，LN()表示层归一化，Z^(l-1)为第l-1个基本模块编码特征输出，a＝1,...A表示注意力头索引，A表示多头注意力模块中多头个数，及/>分别表示第l个基本模块第a个头Query、Key及Value向量对应的可学习映射矩阵，Q^(l,a)、K^(l,a)、V^(l,a)分别表示第l个基本模块第a个头Query、Key及Value向量。

5.2.2)将步骤5.2.1)输出Q、K及V向量，送入多头自注意力层，计算自注意力权重矩阵α^(l,a)，再与V向量加权求和得到各注意力头输出S^(l,a)，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图Z′^(l)，再经过层归一化和前向反馈网络层，得到第l个基本模块编码特征图输出；最后将第l个基本模块编码特征图Z^(l)输出。

S^(l,a)＝α^(l,a)V^(l,a)

Z^(l)＝FFN(LN(Z′^(l)))+Z′^(l)

其中SM()表示softmax激活函数，D_h＝D/A表示每个注意力头输入的维度，D为步骤5.1)输出嵌入向量的维度，W_o表示为可学习线性映射矩阵，FFN()表示前馈神经网络。

5.3)预测回归头。输入步骤5.2.2)输出特征图Z^(l)，经过预测回归头，即一层多层感知机层，输出表型预测值。其中L表示基本模块总层数，Z^(L)表示最后一层基本模块编码特征图输出，MLP()表示多层感知机层，/>表示表型预测值。

步骤六：损失函数构造及模型训练。本发明使用皮尔逊相关系数作为损失函数，最大化真实表型值y与步骤5.3)输出预测表型值之间皮尔逊相关系数PCC。

其中i表示样本个数索引，y_i和分别表示第i个样本的真实表型值和预测表型值，m表示样本总数，μ_i和/>分别表示样本真实表型值和预测表型值的平均值。

训练采用五折交叉验证方式进行，并均基于损失函数对网络进行反向传播，通过批量梯度下降法不断更新网络参数，在100000次批量训练后模型达到收敛。

步骤七：表型预测。在测试阶段，输入新的SNP数据，首先，将SNP数据进行预处理及编码，送入步骤4.1)微调后编码器最优模型，通过DeepLIFT算法得到SNP各位点贡献度得分；然后，将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型，预测表型值。

本发明还涉及一种基于自监督与Transformer的基因表型预测系统，包括：

数据集生成模块，用于生成数据集，采用基因芯片技术获得多个品种作物的SNP数据，测量每株作物的表型值；

SNP位点预处理及编码模块，用于预处理SNP位点及编码，首先，删除SNP位点缺失率≥5％，次等位基因频率(MAF)≥1％的SNP位点；对缺失率满足条件的缺失SNP位点，进行缺失填充；然后，对SNP位点四种状态0/0，0/1，1/1，1/0进行数字编码，即：0/0编码为0，0/1和1/0编码为1，1/1编码为2，并对编码后的数字进行归一化；

自编码器模型训练模块，用于训练自编码器模型；自编码器由编码器和解码器两部分组成，共包含四层隐藏层，每层隐藏层由全连接层前接Dropout层，后接激活层组成；中间三层隐藏层输出维度为1000,200,1000，最后一层隐藏层为输出层，输出特征维度等于输入样本维度；其中激活层均使用sigmoid函数；

基因位点表型贡献度得分计算模块；输入数据集生成模块的表型数据，SNP位点预处理及编码模块输出基因型数据，自编码器模型训练模块输出自编码模型中的编码器E，首先在编码器E后接一层全连接层和一层回归层，输入基因型数据X和表型数据P，对编码器E进行微调训练，并将训练好的模型进行测试，输出预测表型值其次，利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分，获得的贡献分数表示相应SNP位点对表型特征的重要性，得分越高说明该位点对表型的重要程性越大，反之，得分越低说明对表型的重要性越小；

基于Transformer的基因表型预测模型训练模块；输数据集生成模块的表型数据，SNP位点预处理及编码模块输出型基因数据，基因位点表型贡献度得分计算模块输出SNP数据各点位得分；基因表型预测模型由Transformer中的编码器(Encoder)，后接表型预测回归头组成；利用Transformer编码器(Encoder)的多头自注意力机制，提取基因与表型间关系，再通过表型回归头预测得出表型值；Transformer Encoder包含输入嵌入，编码器层基础模块；其中，每层编码器层基础模块包括多头注意力层，层归一化，前向反馈网络层，表型预测回归头为一层多层感知机层；

首先，使用基因位点表型贡献度得分计算模块输出SNP数据各点位得分F_score，对SNP位点预处理及编码模块输出基因数据进行嵌入编码，常见Transformer嵌入编码方式为，加入可学习矩阵及位置编码矩阵，将基因位点得分加入编码，让模型更关注得分较高的位点；然后，将编码后的基因数据送入两层编码器层基础模块，输出基因与表型间的关系特征图；最后经过预测回归头，预测输出表型值；

损失函数及训练模型构造模块，用于构造损失函数及训练模型；

表型预测模块；在测试阶段，输入新的SNP数据，首先，将SNP数据进行预处理及编码，送入基因位点表型贡献度得分计算模块微调后编码器最优模型，通过DeepLIFT算法得到SNP各位点贡献度得分；然后，将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型，预测表型值。

本发明还涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种基于自监督与Transformer的基因表型预测方法。

本发明还涉及一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现本发明的一种基于自监督与Transformer的基因表型预测方法。

与现有技术相比，本发明的有益效果在于：

(1)针对基因数据维度高(万-百万维度)，但表型数据量较少(几百-几千数据量)，基于深度学习的模型易造成维度灾难，设计了一种基于自监督与Transformer基因表型预测方法。方法先通过自监督模型与DeepLIFT算法，计算SNP位点对表型的贡献值得分，再将该得分送入基于Transformer的模型进行表型预测，使算法更关注贡献度高的位点，减少维度干扰，提高模型预测准确度。

(2)设计了一种利用SNP各位点贡献度得分改进Transformer嵌入编码的方法，并结合自注意力机制，使Transformer模型获取SNP位点贡献度先验知识，更有效提取基因与表型相关性特征图，从而提高预测准确度。

(3)在自建大豆数据集上，针对株高、百粒重及节数表型，本发明发现相较于rrBLUP，皮尔逊相关系数分别相对提升17.7％，31％，25.5％。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明的一种基于自监督与Transformer的基因表型预测方法流程图。

图2是本发明的一种基于自监督与Transformer的基因表型预测方法网络框架图。

图3是本发明的用于计算SNP位点贡献度得分的自编码器与DeepLIFT模型结构图。

图4是本发明的改进嵌入编码方式的Transformer基因表型预测模型结构图。

图5是本发明的系统的结构示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此。

在本发明的描述中，需要理解的是，属于“第一”、“第二”等仅用于描述目的，而不能理解为指示或者暗示相对重要性。本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或者一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过媒介间接连接。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

实施例1

如图1所示，本发明的一种基于自监督与Transformer的基因表型预测方法，包括以下步骤：

步骤一：数据集生成。采用基因芯片技术获得多个品种作物的SNP数据，测量每株作物的表型值。本实施例中使用作物为大豆，获取大豆F3、F4及F5世代每个植株的SNP位点及对应的表型数据，其中表型数据包括：株高、百粒重、节数。共获取6576株大豆基因表型样本，使用五折交叉验证法对模型进行训练及验证。

步骤二：SNP位点预处理及编码。首先，删除SNP位点缺失率≥5％，次等位基因频率(MAF)≥1％的SNP位点。对缺失率满足条件的缺失SNP位点，进行缺失填充。本实施例中采用Tassel软件进行位点预处理，输出6340个样本，每个样本含17811维SNP位点。然后，对SNP位点四种状态0/0，0/1，1/1，1/0进行数字编码，即：0/0编码为0，0/1和1/0编码为1，1/1编码为2，并对编码后的数字进行归一化，归一化后基因数据表示为其中m表示样本总数，n表示每个样本中的SNP位点总数。X_p＝{x_p0,x_p1,…x_pi},i∈{0,…n},x_pi∈{0,1,2,3}，其中X_p表示第p个基因样本，p∈{0,1…,m}，x_pi表示编码后的第p个样本上的第i个SNP位点。

如图2所示为一种基于自监督与Transformer的基因表型预测方法网络框架图，首先，将SNP数据送入自编码器，输出编码器最优模型；然后，将自编码器编码部分最优模型、SNP数据和表型数据一起送入DeepLIFT模块，计算输出SNP数据各位点对表型贡献度得分；最后，将SNP数据、表型数据及SNP各位点共享度得分共同送入Transformer模型进行基因表型预测，在训练阶段使用预测表型值与真实表型值的皮尔逊相关系数进行训练，在测试阶段，输出预测表型值。

步骤三：自编码器模型训练。如图3(a)所示为自编码器结构图，其由编码器和解码器两部分组成，共包含四层隐藏层，每层隐藏层由全连接层前接Dropout层，后接激活层组成。中间三层隐藏层输出维度为1000,200,1000，最后一层隐藏层为输出层，输出特征维度等于输入样本维度。其中激活层均使用sigmoid函数。

进一步地，所述步骤三通过以下子步骤来实现：

3.1)将步骤二输出数据送入编码器E，编码器E|_X→Y经过两层隐藏层，将输入原始数据X降维为特征/>n′表示特征维度。经过编码器后数据从维度n降维到n′。本实施例中n＝17811，n′＝200。

3.2)将编码器降维特征送入解码器，解码器由一层隐藏层和一层输出层组成。解码器经过一层隐藏层后输出特征/>c＝1000表示特征维度，Y′再经过输出层，得到输出特征/>重建特征维度与输入特征维度相等。

并使用平均绝对误差MAE损失函数，最小化真实输入值与重建值之间的误差。

其中i表示位点索引，g_i和分别表示SNP各位点的真值和预测值。

3.3)输入步骤二基因数据基于MAE损失函数，使用随机梯度下降法训练模型，经过100个周期后模型结束，输出模型最优参数。

步骤四：各基因位点表型贡献度得分计算。输入步骤一中的表型数据，步骤二输出基因型数据，步骤三输出自编码模型中的编码器E，首先在编码器E后接一层全连接层和一层回归层，输入基因型数据X和表型数据P，对编码器E进行微调训练，并将训练好的模型进行测试，输出预测表型值其次，利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分，获得的贡献分数表示相应SNP位点对表型特征的重要性，得分越高说明该位点对表型的重要性越大，反之，得分越低说明对表型的重要性越小。

进一步地，所述步骤四通过以下子步骤来实现：

4.1)编码器微调训练。输入步骤一中的表型数据步骤二输出基因型数据步骤三输出自编码模型中的编码器E。将编码器E后接一层全连接层和一层回归层，输入基因数据X和表型数据P，对编码器E进行微调训练，使用MAE损失函数，最小化预测值与真值间的平均绝对误差，使用随机梯度下降法训练模型，100个周期后模型结束，得到模型最优解。测试阶段，利用最优模型输出预测表型值/>

4.2)SNP位点对表型贡献值计算。输入步骤二基因型数据及步骤4.2)预测表型值，如图3(b)所示，将深度学习算法DeepLIFT应用于微调后的自编码器编码部分最优模型，计算各SNP位点对表型的贡献度得分。DeepLIFT算法是一种基于反向传播的特征打分算法，利用重尺度规则，输出样本中的SNP数据各位点，对其对应表型的贡献分数

步骤五：基于Transformer的基因表型预测模型训练。输入步骤一中的表型数据，步骤二输出基因型数据，步骤四输出SNP数据各点位得分。如图3所示为基因表型预测模型结构图，由Transformer中的编码器(Encoder)，后接表型预测回归头组成。利用Transformer编码器(Encoder)的多头自注意力机制，提取基因与表型间关系，再通过表型回归头预测表型值。Transformer Encoder包含输入嵌入，编码器层基础模块。其中，每层编码器层基础模块包括多头注意力层，层归一化，前向反馈网络层；表型预测回归头为一层多层感知机层。本发明中编码器层基础模块数目设置为2，多头注意力数目设置为4。

首先，使用步骤四输出SNP数据各点位得分F_score，对步骤二输出基因数据进行嵌入编码，常见Transformer嵌入编码方式为，加入可学习矩阵及位置编码矩阵。本发明将SNP位点得分加入编码，让模型更关注得分较高的位点；然后，将编码后的基因数据送入两层编码器层基础模块，输出基因与表型间的关系特征图；最后经过预测回归头，预测输出表型值。

进一步地，所述步骤五通过以下子步骤来实现：

5.1)结合SNP位点贡献度得分改进嵌入编码。常见Transformer嵌入编码方式为，加入可学习矩阵及位置编码矩阵/>其中d表示编码后特征向量维度，则嵌入编码后的矩阵可表示为Z⁽⁰⁾＝DX+e^pos。为突显各基因位点不同重要度，使后续模型更关注得分更高的基因位点，本发明将步骤四输出SNP数据各位点得分F_score加入编码，在初始化阶段，将可学习矩阵初始化为one-hot向量/>与SNP数据各位点得分向量F_score的点乘结果，其中v＝4表示SNP数据的四种状态，即D初始化值为/>其中F_i表示SNP数据第i个位点贡献度得分。

5.2)基因表型相关性特征提取。输入步骤5.1)编码后特征Z⁽⁰⁾，首先，通过层归一化及线性映射，计算得到Query(Q)、Key(K)及Value(V)向量；然后，将Q、K及V向量送入多头自注意力层，计算自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图，再经过层归一化和前向反馈网络层，得到第l个基本模块编码特征图输出；最后，将第l个基本模块编码特征图输出，送入下一个基本模块，直至最后一个基本模块。

进一步地，所述步骤5.2)可通过以下子步骤来实现：

其中l∈{1,2}表示第l层编码器层基础模块，LN()表示层归一化，Z^(l-1)为第l-1个基本模块编码特征输出，a＝1,…A表示注意力头索引，A表示多头注意力模块中多头个数，及/>分别表示第l个基本模块第a个头Query、Key及Value向量对应的可学习映射矩阵，Q^(l,a)、K^(l,a)、V^(l,a)分别表示第l个基本模块第a个头Query、Key及Value向量。

S^(l,a)＝α^(l,a)V^(l,a)

Z^(l)＝FFN(LN(Z′^(l)))+Z′^(l)

5.3)预测回归头。输入步骤5.2.2)输出特征图Z^(l)，经过预测回归头，即一层多层感知机层，输出表型预测值。其中Z^(L)表示最后一层基本模块编码特征图输出，MLP()表示多层感知机层，/>表示表型预测值。

步骤六：损失函数构造及模型训练。本发明使用皮尔逊相关系数作为损失函数，最大化真实表型值y与步骤5.3)输出预测表型值之间皮尔逊相关系数。

其中i表示样本个数索引，y_i和分别表示第i个样本的真实表型值和预测表型值。

步骤七：表型预测。在测试阶段，输入新的SNP数据，首先，将SNP数据进行预处理及编码，送入步骤4.1)微调后编码器最优模型，通过DeepLIFT算法得到SNP数据各位点贡献度得分；然后，将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型，预测表型值。

在自建大豆基因表型数据集中，按照4:1划分训练集和测试集，进行五折交叉训练及测试。在测试集上，取五折交叉最优模型的均值作为最终表型预测值。针对大豆株高、百粒重及节数表型，传统rrBLUP算法表型预测皮尔逊相关系数分别为0.559，0.245，0.431，本发明所述方法表型预测皮尔逊相关系数分别为0.658，0.321，0.541，预测相对准确度分别提升17.7％，31％，25.5％。

实施例2

实施例3

实施例4

Claims

1.一种基于自监督与Transformer的基因表型预测方法，包括以下步骤：

步骤一：生成数据集；采用基因芯片技术获得多个品种作物的SNP数据，测量每株作物的表型值；

步骤二：SNP位点预处理及编码；首先，删除SNP位点缺失率≥5％，次等位基因频率(MAF)≥1％的SNP位点；对缺失率满足条件的缺失SNP位点，进行缺失填充；然后，对SNP位点四种状态0/0，0/1，1/1，1/0进行数字编码，即：0/0编码为0，0/1和1/0编码为1，1/1编码为2，并对编码后的数字进行归一化；

步骤三：训练自编码器模型；自编码器由编码器和解码器两部分组成，共包含四层隐藏层，每层隐藏层由全连接层前接Dropout层，后接激活层组成；中间三层隐藏层输出维度为1000,200,1000，最后一层隐藏层为输出层，输出特征维度等于输入样本维度；其中激活层均使用sigmoid函数；

步骤四：计算基因位点表型贡献度得分；输入步骤一中的表型数据，步骤二输出基因型数据，步骤三输出自编码模型中的编码器E，首先在编码器E后接一层全连接层和一层回归层，输入基因型数据X和表型数据P，对编码器E进行微调训练，并将训练好的模型进行测试，输出预测表型值其次，利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分，获得的贡献分数表示相应SNP位点对表型特征的重要性，得分越高说明该位点对表型的重要程性越大，反之，得分越低说明对表型的重要性越小；

步骤五：训练基于Transformer的基因表型预测模型；输入步骤一中的表型数据，步骤二输出型基因数据，步骤四输出SNP数据各点位得分；基因表型预测模型由Transformer中的编码器(Encoder)，后接表型预测回归头组成；利用Transformer编码器(Encoder)的多头自注意力机制，提取基因与表型间关系，再通过表型回归头预测得出表型值；TransformerEncoder包含输入嵌入，编码器层基础模块；其中，每层编码器层基础模块包括多头注意力层，层归一化，前向反馈网络层，表型预测回归头为一层多层感知机层；

首先，使用步骤四输出SNP数据各点位得分F_score，对步骤二输出基因数据进行嵌入编码，常见Transformer嵌入编码方式为，加入可学习矩阵及位置编码矩阵，将基因位点得分加入编码，让模型更关注得分较高的位点；然后，将编码后的基因数据送入两层编码器层基础模块，输出基因与表型间的关系特征图；最后经过预测回归头，预测输出表型值；

步骤六：构造损失函数及训练模型；

步骤七：预测表型。在测试阶段，输入新的SNP数据，首先，将SNP数据进行预处理及编码，送入步骤4.1)微调后编码器最优模型，通过DeepLIFT算法得到SNP各位点贡献度得分；然后，将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型，预测表型值。

2.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法，其特征在于：步骤一使用作物为大豆，获取大豆F3、F4及F5世代每个植株的SNP位点及对应的表型数据，其中表型数据包括：株高、百粒重、节数；使用五折交叉验证法对模型进行训练及验证。

3.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法，其特征在于：步骤三具体包括：

3.1)将步骤二输出数据X，送入编码器E，编码器E|_X→Y经过两层隐藏层，将输入原始数据X降维为特征Y；

3.2)将编码器降维特征Y送入解码器，解码器由一层隐藏层和一层输出层组成；解码器经过一层隐藏层后输出特征Y′，Y′再经过输出层，得到输出特征重建特征维度与输入特征维度相等；并使用平均绝对误差MAE损失函数，最小化真实输入值与重建值之间的误差；

其中i表示位点索引，n表示每个样本中的SNP位点总数，g_i和分别表示SNP各位点的真值和预测值；

4.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法，其特征在于：步骤四具体包括：

4.1)编码器微调训练；输入步骤一中的表型数据P，步骤二输出基因型数据X，步骤三输出自编码模型中的编码器E；将编码器E后接一层全连接层和一层回归层，输入基因数据X和表型数据P，对编码器E进行微调训练，使用MAE损失函数，最小化预测值与真值间的平均绝对误差，使用随机梯度下降法训练模型，100个周期后模型结束，得到模型最优解；测试阶段，利用最优模型输出预测表型值

4.2)SNP位点对表型贡献值计算；输入步骤二基因型数据及步骤4.2)预测表型值，通过深度学习算法DeepLIFT计算各SNP位点对表型的贡献度得分；DeepLIFT算法是一种基于反向传播的特征打分算法，利用重尺度规则，输出样本中的SNP数据各位点，对其对应表型的贡献分数F_score。

5.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法，其特征在于：步骤五具体包括：

5.1)结合SNP位点贡献度得分改进输入嵌入编码；常见Transformer嵌入编码方式为，加入可学习矩阵D及位置编码矩阵e^pos，则嵌入编码后的矩阵可表示为Z⁽⁰⁾＝DX+e^pos；为突显各基因位点不同重要度，使后续模型更关注得分更高的基因位点，本发明将步骤四输出SNP数据各位点得分F_score加入编码，在初始化阶段，将可学习矩阵D初始化为one-hot向量V与SNP数据各点位得分向量F_score的点乘结果；

5.2)基因表型相关性特征提取；输入步骤5.1)编码后特征Z⁽⁰⁾，首先，通过层归一化及线性映射，计算得到Query(Q)、Key(K)及Value(V)向量；然后，将Q、K及V向量送入多头自注意力层，计算自注意力权重矩阵，及各注意力头输出，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图，再经过层归一化和前向反馈网络层，得到第l个基本模块编码特征图输出；最后将第l个基本模块编码特征图输出，送入下一个基本模块，直至最后一个基本模块；

5.3)预测回归头；输入步骤5.2)输出特征图Z^(l)，经过预测回归头，即一层多层感知机层，输出表型预测值；其中L表示基本模块总层数，Z^(L)表示最后一层基本模块编码特征图输出，MLP()表示多层感知机层，/>表示表型预测值。

6.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法，其特征在于：所述步骤5.2)具体包括：

其中l∈{1,2}表示第l层编码器层基础模块，LN()表示层归一化，Z^(l-1)为第l-1个基本模块编码特征输出，a＝1,A表示注意力头索引，A表示多头注意力模块中多头个数，及/>分别表示第l个基本模块第a个头Query、Key及Value向量对应的可学习映射矩阵，Q^(l,a)、K^(l,a)、V^(l,a)分别表示第l个基本模块第a个头Query、Key及Value向量；

5.2.2)将步骤5.2.1)输出Q、K及V向量，送入多头自注意力层，计算自注意力权重矩阵α^(l,a)，再与V向量加权求和得到各注意力头输出S^(l,a)，将各注意力头输出向量连接成矩阵，并经过线性映射及残差操作得到中间编码特征图Z′^(l)，再经过层归一化和前向反馈网络层，得到第l个基本模块编码特征图输出；最后将第l个基本模块编码特征图Z^(l)输出；

S^(l,a)＝α^(l,a)V^(l,a)

Z^(l)＝FFN(LN(Z′^(l)))+Z′^(l)

7.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法，其特征在于：步骤六具体包括：使用皮尔逊相关系数作为损失函数，最大化真实表型值y与步骤5.3)输出预测表型值之间皮尔逊相关系数PCC；

8.一种基于自监督与Transformer的基因表型预测系统，其特征在于：包括：

9.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-7中任一项所述的一种基于自监督与Transformer的基因表型预测方法。

10.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项所述的一种基于自监督与Transformer的基因表型预测方法。