CN116580767A - 一种基于自监督与Transformer的基因表型预测方法和系统 - Google Patents
一种基于自监督与Transformer的基因表型预测方法和系统 Download PDFInfo
- Publication number
- CN116580767A CN116580767A CN202310461742.3A CN202310461742A CN116580767A CN 116580767 A CN116580767 A CN 116580767A CN 202310461742 A CN202310461742 A CN 202310461742A CN 116580767 A CN116580767 A CN 116580767A
- Authority
- CN
- China
- Prior art keywords
- phenotype
- layer
- snp
- data
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000010586 diagram Methods 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 25
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 56
- 239000011159 matrix material Substances 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 39
- 230000006870 function Effects 0.000 claims description 32
- 238000012217 deletion Methods 0.000 claims description 24
- 230000037430 deletion Effects 0.000 claims description 24
- 238000010606 normalization Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 244000068988 Glycine max Species 0.000 claims description 10
- 241000196324 Embryophyta Species 0.000 claims description 9
- 235000010469 Glycine max Nutrition 0.000 claims description 9
- 238000011478 gradient descent method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 108700028369 Alleles Proteins 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 239000012633 leachable Substances 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 230000002068 genetic effect Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 2
- 101150095418 crop gene Proteins 0.000 abstract 1
- 230000009418 agronomic effect Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000009395 breeding Methods 0.000 description 3
- 230000001488 breeding effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 241000540325 Prays epsilon Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于自监督与Transformer的基因表型预测方法,通过基因芯片技术和人工测量分别获取农作物SNP数据及对应表型样本,以构建数据集;首先,将SNP数据预处理及编码后,送入自监督模型,并通过DeepLIFT算法,计算各SNP位点对表型的贡献得分;然后,使用该SNP各位点贡献度得分改进Transformer嵌入编码方式,并结合自注意力机制,有效提取基因与表型相关性特征图;最后将特征图送入预测回归头预测表型值。本发明还包括一种基于自监督与Transformer的基因表型预测系统。本发明使Transformer模型获取SNP位点贡献度先验知识,更关注贡献度高的位点,减少维度干扰,有效提高预测准确度,适用于农作物基因表型预测。
Description
技术领域
本发明涉及智能育种的预测领域,尤其涉及一种基于自监督与Transformer的基因表型预测方法和系统。
背景技术
研究表明作物农艺性状受多基因控制和环境影响,遗传较为复杂,就目前而言,针对作物农艺性状表型值的测定十分繁杂、耗时且效率低下。为提高表型值测定效率,现多采用基于全基因组方法实现作物农艺性状预测。
全基因组选择(Genomic selection,GS)利用分布在全基因组上的高密度分子标记,如:单核苷酸多态(Single Nucleotide Polymorphism,SNP),计算复杂农艺性状的基因值估计育种值,GS方法基于统计模型来工作,提高了估计准确性,加快遗传进展,尤其对低遗传力、难测定的复杂性状具有较好的预测效果,实现基因组技术指导育种实践。
常见的使用SNP效应值进行表型预测的GS模型有:基于BLUP,Bayes及机器学习的方法。相对于传统基于统计方法的BLUP,Bayes等,基于机器学习的方法有以下优点:一是无需事先知道变量的分布或目标性状的遗传效应,打破了混合线性模型和贝叶斯假设的限制;二是考虑了多个体互作或特征间的相关性,考虑个体位点间的非线性关系进行建模,准确率更高。
基于深度学习的方法可从数据中自动提取高级特征,避免基于机器学习的专家知识和特征提取过程,能更好的提高算法准确性,在图像、语音众多领域取得比机器学习更有效的结果,得到了广泛的应用。基于深度学习的基因表型预测方法,由于作物农艺性状表型值的测定非常困难,导致表型样本较少,仅在千位或百位数量,但经过筛选的SNP位点特征维度,一般在万甚至百万维度,造成特征维度高,样本数量少,使得深度学习模型训练困难,模型准确率较低。
发明内容
本发明要解决现有技术的上述不足,实现高精度基因表型预测,提供一种基于自监督与Transformer的基因表型预测方法。
本发明的一种基于自监督与Transformer的基因表型预测方法,包括以下步骤:
步骤一:生成数据集。采用基因芯片技术获得多个品种作物的SNP数据,测量每株作物的表型值。本实施例中使用作物为大豆,获取大豆F3、F4及F5世代每个植株的SNP位点及对应的表型数据,其中表型数据包括:株高、百粒重、节数。使用五折交叉验证法对模型进行训练及验证。
步骤二:SNP位点预处理及编码。首先,删除SNP位点缺失率≥5%,次等位基因频率(MAF)≥1%的SNP位点。对缺失率满足条件的缺失SNP位点,进行缺失填充。然后,对SNP位点四种状态0/0,0/1,1/1,1/0进行数字编码,即:0/0编码为0,0/1和1/0编码为1,1/1编码为2,并对编码后的数字进行归一化。
步骤三:自编码器模型训练。自编码器由编码器和解码器两部分组成,共包含四层隐藏层,每层隐藏层由全连接层前接Dropout层,后接激活层组成。中间三层隐藏层输出维度为1000,200,1000,最后一层隐藏层为输出层,输出特征维度等于输入样本维度。其中激活层均使用sigmoid函数。
进一步地,所述步骤三通过以下子步骤来实现:
3.1)将步骤二输出数据X,送入编码器E,编码器E|X→Y经过两层隐藏层,将输入原始数据X降维为特征Y。
3.2)将编码器降维特征Y送入解码器,解码器由一层隐藏层和一层输出层组成。解码器经过一层隐藏层后输出特征Y′,Y′再经过输出层,得到输出特征重建特征维度与输入特征维度相等。并使用平均绝对误差MAE损失函数,最小化真实输入值与重建值之间的误差。
其中i表示位点索引,n表示每个样本中的SNP位点总数,gi和分别表示SNP各位点的真值和预测值。
3.3)输入步骤二基因数据X,基于MAE损失函数,使用随机梯度下降法训练模型,经过100个周期后模型结束,输出模型最优参数。
步骤四:计算基因位点表型贡献度得分。输入步骤一中的表型数据,步骤二输出基因型数据,步骤三输出自编码模型中的编码器E,首先在编码器E后接一层全连接层和一层回归层,输入基因型数据X和表型数据P,对编码器E进行微调训练,并将训练好的模型进行测试,输出预测表型值其次,利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分,获得的贡献分数表示相应SNP位点对表型特征的重要性,得分越高说明该位点对表型的重要程性越大,反之,得分越低说明对表型的重要性越小。
进一步地,所述步骤四通过以下子步骤来实现:
4.1)编码器微调训练。输入步骤一中的表型数据P,步骤二输出基因型数据X,步骤三输出自编码模型中的编码器E。将编码器E后接一层全连接层和一层回归层,输入基因数据X和表型数据P,对编码器E进行微调训练,使用MAE损失函数,最小化预测值与真值间的平均绝对误差,使用随机梯度下降法训练模型,100个周期后模型结束,得到模型最优解。测试阶段,利用最优模型输出预测表型值
4.2)SNP位点对表型贡献值计算。输入步骤二基因型数据及步骤4.2)预测表型值,通过深度学习算法DeepLIFT计算各SNP位点对表型的贡献度得分。DeepLIFT算法是一种基于反向传播的特征打分算法,利用重尺度规则,输出样本中的SNP数据各位点,对其对应表型的贡献分数Fscore。
步骤五:训练基于Transformer的基因表型预测模型。输入步骤一中的表型数据,步骤二输出型基因数据,步骤四输出SNP数据各点位得分。如图3所示为基因表型预测模型结构图,由Transformer中的编码器(Encoder),后接表型预测回归头组成。利用Transformer编码器(Encoder)的多头自注意力机制,提取基因与表型间关系,再通过表型回归头预测得出表型值。Transformer Encoder包含输入嵌入,编码器层基础模块。其中,每层编码器层基础模块包括多头注意力层,层归一化,前向反馈网络层,表型预测回归头为一层多层感知机层。
首先,使用步骤四输出SNP数据各点位得分Fscore,对步骤二输出基因数据进行嵌入编码,常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵,本发明将基因位点得分加入编码,让模型更关注得分较高的位点;然后,将编码后的基因数据送入两层编码器层基础模块,输出基因与表型间的关系特征图;最后经过预测回归头,预测输出表型值。
进一步地,所述步骤五通过以下子步骤来实现:
5.1)结合SNP位点贡献度得分改进输入嵌入编码。常见Transformer嵌入编码方式为,加入可学习矩阵D及位置编码矩阵epos,则嵌入编码后的矩阵可表示为Z(0)=DX+epos。为突显各基因位点不同重要度,使后续模型更关注得分更高的基因位点,本发明将步骤四输出SNP数据各位点得分Fscore加入编码,在初始化阶段,将可学习矩阵D初始化为one-hot向量V与SNP数据各点位得分向量Fscore的点乘结果。
5.2)基因表型相关性特征提取。输入步骤5.1)编码后特征Z(0),首先,通过层归一化及线性映射,计算得到Query(Q)、Key(K)及Value(V)向量;然后,将Q、K及V向量送入多头自注意力层,计算自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图,再经过层归一化和前向反馈网络层,得到第l个基本模块编码特征图输出;最后将第l个基本模块编码特征图输出,送入下一个基本模块,直至最后一个基本模块。
进一步地,所述步骤5.2)可通过以下子步骤来实现:
5.2.1)输入步骤5.1)编码后特征Z(0),首先,通过层归一化及线性映射,计算得到Query(Q)、Key(K)及Value(V)向量,如下式所示:
其中l∈{1,2}表示第l层编码器层基础模块,LN()表示层归一化,Z(l-1)为第l-1个基本模块编码特征输出,a=1,...A表示注意力头索引,A表示多头注意力模块中多头个数,及/>分别表示第l个基本模块第a个头Query、Key及Value向量对应的可学习映射矩阵,Q(l,a)、K(l,a)、V(l,a)分别表示第l个基本模块第a个头Query、Key及Value向量。
5.2.2)将步骤5.2.1)输出Q、K及V向量,送入多头自注意力层,计算自注意力权重矩阵α(l,a),再与V向量加权求和得到各注意力头输出S(l,a),将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图Z′(l),再经过层归一化和前向反馈网络层,得到第l个基本模块编码特征图输出;最后将第l个基本模块编码特征图Z(l)输出。
S(l,a)=α(l,a)V(l,a)
Z(l)=FFN(LN(Z′(l)))+Z′(l)
其中SM()表示softmax激活函数,Dh=D/A表示每个注意力头输入的维度,D为步骤5.1)输出嵌入向量的维度,Wo表示为可学习线性映射矩阵,FFN()表示前馈神经网络。
5.3)预测回归头。输入步骤5.2.2)输出特征图Z(l),经过预测回归头,即一层多层感知机层,输出表型预测值。其中L表示基本模块总层数,Z(L)表示最后一层基本模块编码特征图输出,MLP()表示多层感知机层,/>表示表型预测值。
步骤六:损失函数构造及模型训练。本发明使用皮尔逊相关系数作为损失函数,最大化真实表型值y与步骤5.3)输出预测表型值之间皮尔逊相关系数PCC。
其中i表示样本个数索引,yi和分别表示第i个样本的真实表型值和预测表型值,m表示样本总数,μi和/>分别表示样本真实表型值和预测表型值的平均值。
训练采用五折交叉验证方式进行,并均基于损失函数对网络进行反向传播,通过批量梯度下降法不断更新网络参数,在100000次批量训练后模型达到收敛。
步骤七:表型预测。在测试阶段,输入新的SNP数据,首先,将SNP数据进行预处理及编码,送入步骤4.1)微调后编码器最优模型,通过DeepLIFT算法得到SNP各位点贡献度得分;然后,将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型,预测表型值。
本发明还涉及一种基于自监督与Transformer的基因表型预测系统,包括:
数据集生成模块,用于生成数据集,采用基因芯片技术获得多个品种作物的SNP数据,测量每株作物的表型值;
SNP位点预处理及编码模块,用于预处理SNP位点及编码,首先,删除SNP位点缺失率≥5%,次等位基因频率(MAF)≥1%的SNP位点;对缺失率满足条件的缺失SNP位点,进行缺失填充;然后,对SNP位点四种状态0/0,0/1,1/1,1/0进行数字编码,即:0/0编码为0,0/1和1/0编码为1,1/1编码为2,并对编码后的数字进行归一化;
自编码器模型训练模块,用于训练自编码器模型;自编码器由编码器和解码器两部分组成,共包含四层隐藏层,每层隐藏层由全连接层前接Dropout层,后接激活层组成;中间三层隐藏层输出维度为1000,200,1000,最后一层隐藏层为输出层,输出特征维度等于输入样本维度;其中激活层均使用sigmoid函数;
基因位点表型贡献度得分计算模块;输入数据集生成模块的表型数据,SNP位点预处理及编码模块输出基因型数据,自编码器模型训练模块输出自编码模型中的编码器E,首先在编码器E后接一层全连接层和一层回归层,输入基因型数据X和表型数据P,对编码器E进行微调训练,并将训练好的模型进行测试,输出预测表型值其次,利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分,获得的贡献分数表示相应SNP位点对表型特征的重要性,得分越高说明该位点对表型的重要程性越大,反之,得分越低说明对表型的重要性越小;
基于Transformer的基因表型预测模型训练模块;输数据集生成模块的表型数据,SNP位点预处理及编码模块输出型基因数据,基因位点表型贡献度得分计算模块输出SNP数据各点位得分;基因表型预测模型由Transformer中的编码器(Encoder),后接表型预测回归头组成;利用Transformer编码器(Encoder)的多头自注意力机制,提取基因与表型间关系,再通过表型回归头预测得出表型值;Transformer Encoder包含输入嵌入,编码器层基础模块;其中,每层编码器层基础模块包括多头注意力层,层归一化,前向反馈网络层,表型预测回归头为一层多层感知机层;
首先,使用基因位点表型贡献度得分计算模块输出SNP数据各点位得分Fscore,对SNP位点预处理及编码模块输出基因数据进行嵌入编码,常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵,将基因位点得分加入编码,让模型更关注得分较高的位点;然后,将编码后的基因数据送入两层编码器层基础模块,输出基因与表型间的关系特征图;最后经过预测回归头,预测输出表型值;
损失函数及训练模型构造模块,用于构造损失函数及训练模型;
表型预测模块;在测试阶段,输入新的SNP数据,首先,将SNP数据进行预处理及编码,送入基因位点表型贡献度得分计算模块微调后编码器最优模型,通过DeepLIFT算法得到SNP各位点贡献度得分;然后,将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型,预测表型值。
本发明还涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的一种基于自监督与Transformer的基因表型预测方法。
本发明还涉及一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本发明的一种基于自监督与Transformer的基因表型预测方法。
与现有技术相比,本发明的有益效果在于:
(1)针对基因数据维度高(万-百万维度),但表型数据量较少(几百-几千数据量),基于深度学习的模型易造成维度灾难,设计了一种基于自监督与Transformer基因表型预测方法。方法先通过自监督模型与DeepLIFT算法,计算SNP位点对表型的贡献值得分,再将该得分送入基于Transformer的模型进行表型预测,使算法更关注贡献度高的位点,减少维度干扰,提高模型预测准确度。
(2)设计了一种利用SNP各位点贡献度得分改进Transformer嵌入编码的方法,并结合自注意力机制,使Transformer模型获取SNP位点贡献度先验知识,更有效提取基因与表型相关性特征图,从而提高预测准确度。
(3)在自建大豆数据集上,针对株高、百粒重及节数表型,本发明发现相较于rrBLUP,皮尔逊相关系数分别相对提升17.7%,31%,25.5%。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明的一种基于自监督与Transformer的基因表型预测方法流程图。
图2是本发明的一种基于自监督与Transformer的基因表型预测方法网络框架图。
图3是本发明的用于计算SNP位点贡献度得分的自编码器与DeepLIFT模型结构图。
图4是本发明的改进嵌入编码方式的Transformer基因表型预测模型结构图。
图5是本发明的系统的结构示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。
在本发明的描述中,需要理解的是,属于“第一”、“第二”等仅用于描述目的,而不能理解为指示或者暗示相对重要性。本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接或者一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以是通过媒介间接连接。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
实施例1
如图1所示,本发明的一种基于自监督与Transformer的基因表型预测方法,包括以下步骤:
步骤一:数据集生成。采用基因芯片技术获得多个品种作物的SNP数据,测量每株作物的表型值。本实施例中使用作物为大豆,获取大豆F3、F4及F5世代每个植株的SNP位点及对应的表型数据,其中表型数据包括:株高、百粒重、节数。共获取6576株大豆基因表型样本,使用五折交叉验证法对模型进行训练及验证。
步骤二:SNP位点预处理及编码。首先,删除SNP位点缺失率≥5%,次等位基因频率(MAF)≥1%的SNP位点。对缺失率满足条件的缺失SNP位点,进行缺失填充。本实施例中采用Tassel软件进行位点预处理,输出6340个样本,每个样本含17811维SNP位点。然后,对SNP位点四种状态0/0,0/1,1/1,1/0进行数字编码,即:0/0编码为0,0/1和1/0编码为1,1/1编码为2,并对编码后的数字进行归一化,归一化后基因数据表示为其中m表示样本总数,n表示每个样本中的SNP位点总数。Xp={xp0,xp1,…xpi},i∈{0,…n},xpi∈{0,1,2,3},其中Xp表示第p个基因样本,p∈{0,1…,m},xpi表示编码后的第p个样本上的第i个SNP位点。
如图2所示为一种基于自监督与Transformer的基因表型预测方法网络框架图,首先,将SNP数据送入自编码器,输出编码器最优模型;然后,将自编码器编码部分最优模型、SNP数据和表型数据一起送入DeepLIFT模块,计算输出SNP数据各位点对表型贡献度得分;最后,将SNP数据、表型数据及SNP各位点共享度得分共同送入Transformer模型进行基因表型预测,在训练阶段使用预测表型值与真实表型值的皮尔逊相关系数进行训练,在测试阶段,输出预测表型值。
步骤三:自编码器模型训练。如图3(a)所示为自编码器结构图,其由编码器和解码器两部分组成,共包含四层隐藏层,每层隐藏层由全连接层前接Dropout层,后接激活层组成。中间三层隐藏层输出维度为1000,200,1000,最后一层隐藏层为输出层,输出特征维度等于输入样本维度。其中激活层均使用sigmoid函数。
进一步地,所述步骤三通过以下子步骤来实现:
3.1)将步骤二输出数据送入编码器E,编码器E|X→Y经过两层隐藏层,将输入原始数据X降维为特征/>n′表示特征维度。经过编码器后数据从维度n降维到n′。本实施例中n=17811,n′=200。
3.2)将编码器降维特征送入解码器,解码器由一层隐藏层和一层输出层组成。解码器经过一层隐藏层后输出特征/>c=1000表示特征维度,Y′再经过输出层,得到输出特征/>重建特征维度与输入特征维度相等。
并使用平均绝对误差MAE损失函数,最小化真实输入值与重建值之间的误差。
其中i表示位点索引,gi和分别表示SNP各位点的真值和预测值。
3.3)输入步骤二基因数据基于MAE损失函数,使用随机梯度下降法训练模型,经过100个周期后模型结束,输出模型最优参数。
步骤四:各基因位点表型贡献度得分计算。输入步骤一中的表型数据,步骤二输出基因型数据,步骤三输出自编码模型中的编码器E,首先在编码器E后接一层全连接层和一层回归层,输入基因型数据X和表型数据P,对编码器E进行微调训练,并将训练好的模型进行测试,输出预测表型值其次,利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分,获得的贡献分数表示相应SNP位点对表型特征的重要性,得分越高说明该位点对表型的重要性越大,反之,得分越低说明对表型的重要性越小。
进一步地,所述步骤四通过以下子步骤来实现:
4.1)编码器微调训练。输入步骤一中的表型数据步骤二输出基因型数据步骤三输出自编码模型中的编码器E。将编码器E后接一层全连接层和一层回归层,输入基因数据X和表型数据P,对编码器E进行微调训练,使用MAE损失函数,最小化预测值与真值间的平均绝对误差,使用随机梯度下降法训练模型,100个周期后模型结束,得到模型最优解。测试阶段,利用最优模型输出预测表型值/>
4.2)SNP位点对表型贡献值计算。输入步骤二基因型数据及步骤4.2)预测表型值,如图3(b)所示,将深度学习算法DeepLIFT应用于微调后的自编码器编码部分最优模型,计算各SNP位点对表型的贡献度得分。DeepLIFT算法是一种基于反向传播的特征打分算法,利用重尺度规则,输出样本中的SNP数据各位点,对其对应表型的贡献分数
步骤五:基于Transformer的基因表型预测模型训练。输入步骤一中的表型数据,步骤二输出基因型数据,步骤四输出SNP数据各点位得分。如图3所示为基因表型预测模型结构图,由Transformer中的编码器(Encoder),后接表型预测回归头组成。利用Transformer编码器(Encoder)的多头自注意力机制,提取基因与表型间关系,再通过表型回归头预测表型值。Transformer Encoder包含输入嵌入,编码器层基础模块。其中,每层编码器层基础模块包括多头注意力层,层归一化,前向反馈网络层;表型预测回归头为一层多层感知机层。本发明中编码器层基础模块数目设置为2,多头注意力数目设置为4。
首先,使用步骤四输出SNP数据各点位得分Fscore,对步骤二输出基因数据进行嵌入编码,常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵。本发明将SNP位点得分加入编码,让模型更关注得分较高的位点;然后,将编码后的基因数据送入两层编码器层基础模块,输出基因与表型间的关系特征图;最后经过预测回归头,预测输出表型值。
进一步地,所述步骤五通过以下子步骤来实现:
5.1)结合SNP位点贡献度得分改进嵌入编码。常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵/>其中d表示编码后特征向量维度,则嵌入编码后的矩阵可表示为Z(0)=DX+epos。为突显各基因位点不同重要度,使后续模型更关注得分更高的基因位点,本发明将步骤四输出SNP数据各位点得分Fscore加入编码,在初始化阶段,将可学习矩阵初始化为one-hot向量/>与SNP数据各位点得分向量Fscore的点乘结果,其中v=4表示SNP数据的四种状态,即D初始化值为/>其中Fi表示SNP数据第i个位点贡献度得分。
5.2)基因表型相关性特征提取。输入步骤5.1)编码后特征Z(0),首先,通过层归一化及线性映射,计算得到Query(Q)、Key(K)及Value(V)向量;然后,将Q、K及V向量送入多头自注意力层,计算自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图,再经过层归一化和前向反馈网络层,得到第l个基本模块编码特征图输出;最后,将第l个基本模块编码特征图输出,送入下一个基本模块,直至最后一个基本模块。
进一步地,所述步骤5.2)可通过以下子步骤来实现:
5.2.1)输入步骤5.1)编码后特征Z(0),首先,通过层归一化及线性映射,计算得到Query(Q)、Key(K)及Value(V)向量,如下式所示:
其中l∈{1,2}表示第l层编码器层基础模块,LN()表示层归一化,Z(l-1)为第l-1个基本模块编码特征输出,a=1,…A表示注意力头索引,A表示多头注意力模块中多头个数,及/>分别表示第l个基本模块第a个头Query、Key及Value向量对应的可学习映射矩阵,Q(l,a)、K(l,a)、V(l,a)分别表示第l个基本模块第a个头Query、Key及Value向量。
5.2.2)将步骤5.2.1)输出Q、K及V向量,送入多头自注意力层,计算自注意力权重矩阵α(l,a),再与V向量加权求和得到各注意力头输出S(l,a),将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图Z′(l),再经过层归一化和前向反馈网络层,得到第l个基本模块编码特征图输出;最后将第l个基本模块编码特征图Z(l)输出。
S(l,a)=α(l,a)V(l,a)
Z(l)=FFN(LN(Z′(l)))+Z′(l)
其中SM()表示softmax激活函数,Dh=D/A表示每个注意力头输入的维度,D为步骤5.1)输出嵌入向量的维度,Wo表示为可学习线性映射矩阵,FFN()表示前馈神经网络。
5.3)预测回归头。输入步骤5.2.2)输出特征图Z(l),经过预测回归头,即一层多层感知机层,输出表型预测值。其中Z(L)表示最后一层基本模块编码特征图输出,MLP()表示多层感知机层,/>表示表型预测值。
步骤六:损失函数构造及模型训练。本发明使用皮尔逊相关系数作为损失函数,最大化真实表型值y与步骤5.3)输出预测表型值之间皮尔逊相关系数。
其中i表示样本个数索引,yi和分别表示第i个样本的真实表型值和预测表型值。
训练采用五折交叉验证方式进行,并均基于损失函数对网络进行反向传播,通过批量梯度下降法不断更新网络参数,在100000次批量训练后模型达到收敛。
步骤七:表型预测。在测试阶段,输入新的SNP数据,首先,将SNP数据进行预处理及编码,送入步骤4.1)微调后编码器最优模型,通过DeepLIFT算法得到SNP数据各位点贡献度得分;然后,将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型,预测表型值。
在自建大豆基因表型数据集中,按照4:1划分训练集和测试集,进行五折交叉训练及测试。在测试集上,取五折交叉最优模型的均值作为最终表型预测值。针对大豆株高、百粒重及节数表型,传统rrBLUP算法表型预测皮尔逊相关系数分别为0.559,0.245,0.431,本发明所述方法表型预测皮尔逊相关系数分别为0.658,0.321,0.541,预测相对准确度分别提升17.7%,31%,25.5%。
实施例2
本发明还涉及一种基于自监督与Transformer的基因表型预测系统,包括:
数据集生成模块,用于生成数据集,采用基因芯片技术获得多个品种作物的SNP数据,测量每株作物的表型值;
SNP位点预处理及编码模块,用于预处理SNP位点及编码,首先,删除SNP位点缺失率≥5%,次等位基因频率(MAF)≥1%的SNP位点;对缺失率满足条件的缺失SNP位点,进行缺失填充;然后,对SNP位点四种状态0/0,0/1,1/1,1/0进行数字编码,即:0/0编码为0,0/1和1/0编码为1,1/1编码为2,并对编码后的数字进行归一化;
自编码器模型训练模块,用于训练自编码器模型;自编码器由编码器和解码器两部分组成,共包含四层隐藏层,每层隐藏层由全连接层前接Dropout层,后接激活层组成;中间三层隐藏层输出维度为1000,200,1000,最后一层隐藏层为输出层,输出特征维度等于输入样本维度;其中激活层均使用sigmoid函数;
基因位点表型贡献度得分计算模块;输入数据集生成模块的表型数据,SNP位点预处理及编码模块输出基因型数据,自编码器模型训练模块输出自编码模型中的编码器E,首先在编码器E后接一层全连接层和一层回归层,输入基因型数据X和表型数据P,对编码器E进行微调训练,并将训练好的模型进行测试,输出预测表型值其次,利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分,获得的贡献分数表示相应SNP位点对表型特征的重要性,得分越高说明该位点对表型的重要程性越大,反之,得分越低说明对表型的重要性越小;
基于Transformer的基因表型预测模型训练模块;输数据集生成模块的表型数据,SNP位点预处理及编码模块输出型基因数据,基因位点表型贡献度得分计算模块输出SNP数据各点位得分;基因表型预测模型由Transformer中的编码器(Encoder),后接表型预测回归头组成;利用Transformer编码器(Encoder)的多头自注意力机制,提取基因与表型间关系,再通过表型回归头预测得出表型值;Transformer Encoder包含输入嵌入,编码器层基础模块;其中,每层编码器层基础模块包括多头注意力层,层归一化,前向反馈网络层,表型预测回归头为一层多层感知机层;
首先,使用基因位点表型贡献度得分计算模块输出SNP数据各点位得分Fscore,对SNP位点预处理及编码模块输出基因数据进行嵌入编码,常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵,将基因位点得分加入编码,让模型更关注得分较高的位点;然后,将编码后的基因数据送入两层编码器层基础模块,输出基因与表型间的关系特征图;最后经过预测回归头,预测输出表型值;
损失函数及训练模型构造模块,用于构造损失函数及训练模型;
表型预测模块;在测试阶段,输入新的SNP数据,首先,将SNP数据进行预处理及编码,送入基因位点表型贡献度得分计算模块微调后编码器最优模型,通过DeepLIFT算法得到SNP各位点贡献度得分;然后,将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型,预测表型值。
实施例3
本发明还涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现本发明的一种基于自监督与Transformer的基因表型预测方法。
实施例4
本发明还涉及一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本发明的一种基于自监督与Transformer的基因表型预测方法。
Claims (10)
1.一种基于自监督与Transformer的基因表型预测方法,包括以下步骤:
步骤一:生成数据集;采用基因芯片技术获得多个品种作物的SNP数据,测量每株作物的表型值;
步骤二:SNP位点预处理及编码;首先,删除SNP位点缺失率≥5%,次等位基因频率(MAF)≥1%的SNP位点;对缺失率满足条件的缺失SNP位点,进行缺失填充;然后,对SNP位点四种状态0/0,0/1,1/1,1/0进行数字编码,即:0/0编码为0,0/1和1/0编码为1,1/1编码为2,并对编码后的数字进行归一化;
步骤三:训练自编码器模型;自编码器由编码器和解码器两部分组成,共包含四层隐藏层,每层隐藏层由全连接层前接Dropout层,后接激活层组成;中间三层隐藏层输出维度为1000,200,1000,最后一层隐藏层为输出层,输出特征维度等于输入样本维度;其中激活层均使用sigmoid函数;
步骤四:计算基因位点表型贡献度得分;输入步骤一中的表型数据,步骤二输出基因型数据,步骤三输出自编码模型中的编码器E,首先在编码器E后接一层全连接层和一层回归层,输入基因型数据X和表型数据P,对编码器E进行微调训练,并将训练好的模型进行测试,输出预测表型值其次,利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分,获得的贡献分数表示相应SNP位点对表型特征的重要性,得分越高说明该位点对表型的重要程性越大,反之,得分越低说明对表型的重要性越小;
步骤五:训练基于Transformer的基因表型预测模型;输入步骤一中的表型数据,步骤二输出型基因数据,步骤四输出SNP数据各点位得分;基因表型预测模型由Transformer中的编码器(Encoder),后接表型预测回归头组成;利用Transformer编码器(Encoder)的多头自注意力机制,提取基因与表型间关系,再通过表型回归头预测得出表型值;TransformerEncoder包含输入嵌入,编码器层基础模块;其中,每层编码器层基础模块包括多头注意力层,层归一化,前向反馈网络层,表型预测回归头为一层多层感知机层;
首先,使用步骤四输出SNP数据各点位得分Fscore,对步骤二输出基因数据进行嵌入编码,常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵,将基因位点得分加入编码,让模型更关注得分较高的位点;然后,将编码后的基因数据送入两层编码器层基础模块,输出基因与表型间的关系特征图;最后经过预测回归头,预测输出表型值;
步骤六:构造损失函数及训练模型;
步骤七:预测表型。在测试阶段,输入新的SNP数据,首先,将SNP数据进行预处理及编码,送入步骤4.1)微调后编码器最优模型,通过DeepLIFT算法得到SNP各位点贡献度得分;然后,将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型,预测表型值。
2.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法,其特征在于:步骤一使用作物为大豆,获取大豆F3、F4及F5世代每个植株的SNP位点及对应的表型数据,其中表型数据包括:株高、百粒重、节数;使用五折交叉验证法对模型进行训练及验证。
3.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法,其特征在于:步骤三具体包括:
3.1)将步骤二输出数据X,送入编码器E,编码器E|X→Y经过两层隐藏层,将输入原始数据X降维为特征Y;
3.2)将编码器降维特征Y送入解码器,解码器由一层隐藏层和一层输出层组成;解码器经过一层隐藏层后输出特征Y′,Y′再经过输出层,得到输出特征重建特征维度与输入特征维度相等;并使用平均绝对误差MAE损失函数,最小化真实输入值与重建值之间的误差;
其中i表示位点索引,n表示每个样本中的SNP位点总数,gi和分别表示SNP各位点的真值和预测值;
3.3)输入步骤二基因数据X,基于MAE损失函数,使用随机梯度下降法训练模型,经过100个周期后模型结束,输出模型最优参数。
4.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法,其特征在于:步骤四具体包括:
4.1)编码器微调训练;输入步骤一中的表型数据P,步骤二输出基因型数据X,步骤三输出自编码模型中的编码器E;将编码器E后接一层全连接层和一层回归层,输入基因数据X和表型数据P,对编码器E进行微调训练,使用MAE损失函数,最小化预测值与真值间的平均绝对误差,使用随机梯度下降法训练模型,100个周期后模型结束,得到模型最优解;测试阶段,利用最优模型输出预测表型值
4.2)SNP位点对表型贡献值计算;输入步骤二基因型数据及步骤4.2)预测表型值,通过深度学习算法DeepLIFT计算各SNP位点对表型的贡献度得分;DeepLIFT算法是一种基于反向传播的特征打分算法,利用重尺度规则,输出样本中的SNP数据各位点,对其对应表型的贡献分数Fscore。
5.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法,其特征在于:步骤五具体包括:
5.1)结合SNP位点贡献度得分改进输入嵌入编码;常见Transformer嵌入编码方式为,加入可学习矩阵D及位置编码矩阵epos,则嵌入编码后的矩阵可表示为Z(0)=DX+epos;为突显各基因位点不同重要度,使后续模型更关注得分更高的基因位点,本发明将步骤四输出SNP数据各位点得分Fscore加入编码,在初始化阶段,将可学习矩阵D初始化为one-hot向量V与SNP数据各点位得分向量Fscore的点乘结果;
5.2)基因表型相关性特征提取;输入步骤5.1)编码后特征Z(0),首先,通过层归一化及线性映射,计算得到Query(Q)、Key(K)及Value(V)向量;然后,将Q、K及V向量送入多头自注意力层,计算自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图,再经过层归一化和前向反馈网络层,得到第l个基本模块编码特征图输出;最后将第l个基本模块编码特征图输出,送入下一个基本模块,直至最后一个基本模块;
5.3)预测回归头;输入步骤5.2)输出特征图Z(l),经过预测回归头,即一层多层感知机层,输出表型预测值;其中L表示基本模块总层数,Z(L)表示最后一层基本模块编码特征图输出,MLP()表示多层感知机层,/>表示表型预测值。
6.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法,其特征在于:所述步骤5.2)具体包括:
5.2.1)输入步骤5.1)编码后特征Z(0),首先,通过层归一化及线性映射,计算得到Query(Q)、Key(K)及Value(V)向量,如下式所示:
其中l∈{1,2}表示第l层编码器层基础模块,LN()表示层归一化,Z(l-1)为第l-1个基本模块编码特征输出,a=1,A表示注意力头索引,A表示多头注意力模块中多头个数,及/>分别表示第l个基本模块第a个头Query、Key及Value向量对应的可学习映射矩阵,Q(l,a)、K(l,a)、V(l,a)分别表示第l个基本模块第a个头Query、Key及Value向量;
5.2.2)将步骤5.2.1)输出Q、K及V向量,送入多头自注意力层,计算自注意力权重矩阵α(l,a),再与V向量加权求和得到各注意力头输出S(l,a),将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图Z′(l),再经过层归一化和前向反馈网络层,得到第l个基本模块编码特征图输出;最后将第l个基本模块编码特征图Z(l)输出;
S(l,a)=α(l,a)V(l,a)
Z(l)=FFN(LN(Z′(l)))+Z′(l)
其中SM()表示softmax激活函数,Dh=D/A表示每个注意力头输入的维度,D为步骤5.1)输出嵌入向量的维度,Wo表示为可学习线性映射矩阵,FFN()表示前馈神经网络。
7.如权利要求1所述的一种基于自监督与Transformer的基因表型预测方法,其特征在于:步骤六具体包括:使用皮尔逊相关系数作为损失函数,最大化真实表型值y与步骤5.3)输出预测表型值之间皮尔逊相关系数PCC;
其中i表示样本个数索引,yi和分别表示第i个样本的真实表型值和预测表型值,m表示样本总数,μi和/>分别表示样本真实表型值和预测表型值的平均值。
训练采用五折交叉验证方式进行,并均基于损失函数对网络进行反向传播,通过批量梯度下降法不断更新网络参数,在100000次批量训练后模型达到收敛。
8.一种基于自监督与Transformer的基因表型预测系统,其特征在于:包括:
数据集生成模块,用于生成数据集,采用基因芯片技术获得多个品种作物的SNP数据,测量每株作物的表型值;
SNP位点预处理及编码模块,用于预处理SNP位点及编码,首先,删除SNP位点缺失率≥5%,次等位基因频率(MAF)≥1%的SNP位点;对缺失率满足条件的缺失SNP位点,进行缺失填充;然后,对SNP位点四种状态0/0,0/1,1/1,1/0进行数字编码,即:0/0编码为0,0/1和1/0编码为1,1/1编码为2,并对编码后的数字进行归一化;
自编码器模型训练模块,用于训练自编码器模型;自编码器由编码器和解码器两部分组成,共包含四层隐藏层,每层隐藏层由全连接层前接Dropout层,后接激活层组成;中间三层隐藏层输出维度为1000,200,1000,最后一层隐藏层为输出层,输出特征维度等于输入样本维度;其中激活层均使用sigmoid函数;
基因位点表型贡献度得分计算模块;输入数据集生成模块的表型数据,SNP位点预处理及编码模块输出基因型数据,自编码器模型训练模块输出自编码模型中的编码器E,首先在编码器E后接一层全连接层和一层回归层,输入基因型数据X和表型数据P,对编码器E进行微调训练,并将训练好的模型进行测试,输出预测表型值其次,利用DeepLIFT算法计算输入SNP数据各位点对预测表型值的贡献得分,获得的贡献分数表示相应SNP位点对表型特征的重要性,得分越高说明该位点对表型的重要程性越大,反之,得分越低说明对表型的重要性越小;
基于Transformer的基因表型预测模型训练模块;输数据集生成模块的表型数据,SNP位点预处理及编码模块输出型基因数据,基因位点表型贡献度得分计算模块输出SNP数据各点位得分;基因表型预测模型由Transformer中的编码器(Encoder),后接表型预测回归头组成;利用Transformer编码器(Encoder)的多头自注意力机制,提取基因与表型间关系,再通过表型回归头预测得出表型值;Transformer Encoder包含输入嵌入,编码器层基础模块;其中,每层编码器层基础模块包括多头注意力层,层归一化,前向反馈网络层,表型预测回归头为一层多层感知机层;
首先,使用基因位点表型贡献度得分计算模块输出SNP数据各点位得分Fscore,对SNP位点预处理及编码模块输出基因数据进行嵌入编码,常见Transformer嵌入编码方式为,加入可学习矩阵及位置编码矩阵,将基因位点得分加入编码,让模型更关注得分较高的位点;然后,将编码后的基因数据送入两层编码器层基础模块,输出基因与表型间的关系特征图;最后经过预测回归头,预测输出表型值;
损失函数及训练模型构造模块,用于构造损失函数及训练模型;
表型预测模块;在测试阶段,输入新的SNP数据,首先,将SNP数据进行预处理及编码,送入基因位点表型贡献度得分计算模块微调后编码器最优模型,通过DeepLIFT算法得到SNP各位点贡献度得分;然后,将贡献度得分及SNP数据送入步骤六输出的Transformer最优模型,预测表型值。
9.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-7中任一项所述的一种基于自监督与Transformer的基因表型预测方法。
10.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的一种基于自监督与Transformer的基因表型预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461742.3A CN116580767B (zh) | 2023-04-26 | 2023-04-26 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461742.3A CN116580767B (zh) | 2023-04-26 | 2023-04-26 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580767A true CN116580767A (zh) | 2023-08-11 |
CN116580767B CN116580767B (zh) | 2024-03-12 |
Family
ID=87543709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461742.3A Active CN116580767B (zh) | 2023-04-26 | 2023-04-26 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580767B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118197420A (zh) * | 2024-04-12 | 2024-06-14 | 四川大学华西医院 | 一种基于深度学习的变异识别方法、装置及存储介质 |
CN118279610A (zh) * | 2024-06-03 | 2024-07-02 | 之江实验室 | 基于图像表型匹配的大豆表型识别方法、电子设备、介质 |
CN118314950A (zh) * | 2024-06-07 | 2024-07-09 | 鲁东大学 | 一种基于对比学习的无负样本合成致死预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400597A (zh) * | 2018-04-23 | 2019-11-01 | 成都二十三魔方生物科技有限公司 | 一种基于深度学习的基因型预测方法 |
CN111785326A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于生成对抗网络的药物作用后基因表达谱预测方法 |
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN114496069A (zh) * | 2022-02-17 | 2022-05-13 | 华东师范大学 | 一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法 |
CN115019876A (zh) * | 2022-05-31 | 2022-09-06 | 清华大学 | 一种基因表达预测方法及装置 |
CN115331732A (zh) * | 2022-10-11 | 2022-11-11 | 之江实验室 | 基于图神经网络的基因表型训练、预测方法及装置 |
WO2023042184A1 (en) * | 2021-09-20 | 2023-03-23 | Janssen Research & Development, Llc | Machine learning for predicting cancer genotype and treatment response using digital histopathology images |
-
2023
- 2023-04-26 CN CN202310461742.3A patent/CN116580767B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110400597A (zh) * | 2018-04-23 | 2019-11-01 | 成都二十三魔方生物科技有限公司 | 一种基于深度学习的基因型预测方法 |
CN111785326A (zh) * | 2020-06-28 | 2020-10-16 | 西安电子科技大学 | 基于生成对抗网络的药物作用后基因表达谱预测方法 |
WO2023042184A1 (en) * | 2021-09-20 | 2023-03-23 | Janssen Research & Development, Llc | Machine learning for predicting cancer genotype and treatment response using digital histopathology images |
CN114283888A (zh) * | 2021-12-22 | 2022-04-05 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
CN114496069A (zh) * | 2022-02-17 | 2022-05-13 | 华东师范大学 | 一种基于Transformer架构的CIRSPRCas9系统脱靶预测方法 |
CN115019876A (zh) * | 2022-05-31 | 2022-09-06 | 清华大学 | 一种基因表达预测方法及装置 |
CN115331732A (zh) * | 2022-10-11 | 2022-11-11 | 之江实验室 | 基于图神经网络的基因表型训练、预测方法及装置 |
Non-Patent Citations (4)
Title |
---|
ZHENYU TANG ETC: ""Deep Learning of Imaging Phenotype and Genotype for Predicting Overall Survival Time of Glioblastoma Patients"", 《IEEE TRANSACTIONS ON MEDICAL IMAGING》 * |
何俊;李智;吴晓林;: "约束标准化线性回归法估计合成品种动物基因组品种构成", 中国农业科学, no. 01 * |
师豪杰;顾宏;徐晓璐;秦攀;: "基于广义线性模型的基因表达水平预测", 大连理工大学学报, no. 01 * |
覃婷;王彤;: "有监督的主成分分析和偏Cox回归模型在基因数据生存预测中的应用", 中国卫生统计, no. 03 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118197420A (zh) * | 2024-04-12 | 2024-06-14 | 四川大学华西医院 | 一种基于深度学习的变异识别方法、装置及存储介质 |
CN118279610A (zh) * | 2024-06-03 | 2024-07-02 | 之江实验室 | 基于图像表型匹配的大豆表型识别方法、电子设备、介质 |
CN118314950A (zh) * | 2024-06-07 | 2024-07-09 | 鲁东大学 | 一种基于对比学习的无负样本合成致死预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116580767B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116580767B (zh) | 一种基于自监督与Transformer的基因表型预测方法和系统 | |
CN113519028B (zh) | 用于估算或预测基因型和表型的方法和组成 | |
US11837324B2 (en) | Deep learning-based aberrant splicing detection | |
Waldmann | Approximate Bayesian neural networks in genomic prediction | |
CN112001887B (zh) | 用于婴幼儿脑病历图像分割的全卷积遗传神经网络方法 | |
Xie et al. | A predictive model of gene expression using a deep learning framework | |
CN112926655A (zh) | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 | |
CN116451556A (zh) | 一种混凝土坝变形观测量统计模型构建方法 | |
CN114692732A (zh) | 一种在线标签更新的方法、系统、装置及存储介质 | |
CN113539358A (zh) | 基于Hilbert编码的增强子-启动子相互作用预测方法及装置 | |
CN113257359A (zh) | 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法 | |
CN115660795A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN115101121A (zh) | 一种基于自注意力图神经网络的蛋白质模型质量评估方法 | |
CN117974221A (zh) | 基于人工智能的电动车充电站选址方法及系统 | |
Jiang et al. | An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing | |
Sinecen | Comparison of genomic best linear unbiased prediction and Bayesian regularization neural networks for genomic selection | |
Kumar et al. | Machine-learning prospects for detecting selection signatures using population genomics data | |
CN118072823A (zh) | 基于全基因组选择的水稻表型预测方法及系统 | |
CN117408845A (zh) | 一种基于知识图谱的人群定位方法 | |
CN118613874A (zh) | 用于预测和优化分子的性质的方法 | |
CN116739051A (zh) | 一种结合多任务学习与对抗训练的知识追踪方法及系统 | |
CN114863508B (zh) | 自适应注意力机制的表情识别模型生成方法、介质及设备 | |
CN113077849B (zh) | 一种大肠杆菌β-内酰胺类获得性耐药表型预测复合方法 | |
CN110910164A (zh) | 产品销售预测方法、系统、计算机设备和存储介质 | |
Xu et al. | Coupled-dynamic learning for vision and language: Exploring Interaction between different tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |