CN115331732A - 基于图神经网络的基因表型训练、预测方法及装置 - Google Patents
基于图神经网络的基因表型训练、预测方法及装置 Download PDFInfo
- Publication number
- CN115331732A CN115331732A CN202211238697.7A CN202211238697A CN115331732A CN 115331732 A CN115331732 A CN 115331732A CN 202211238697 A CN202211238697 A CN 202211238697A CN 115331732 A CN115331732 A CN 115331732A
- Authority
- CN
- China
- Prior art keywords
- gene
- phenotype
- node
- neural network
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 129
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 77
- 238000012549 training Methods 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000002068 genetic effect Effects 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 3
- 238000009395 breeding Methods 0.000 description 9
- 230000001488 breeding effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 244000068988 Glycine max Species 0.000 description 7
- 235000010469 Glycine max Nutrition 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 101150086149 39 gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013339 cereals Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了基于图神经网络的基因表型训练、预测方法及装置,根据现有公开的基因位点与表型的相关性,构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某个表型相关,且边的权重代表基因位点之间的关联程度;采集样本的基因数据,并收集各个样本对应的表型数据;训练过程中,对输入的基因数据基于其位点探测概率值进行编码;将编码数据输入构建的图神经网络;采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点;将每个节点的输出结果进行拼接,并将其输入多层感知器,输出表型分类结果;将分类结果与真值进行比较,训练与验证图神经网络;再将待分类的基因数据输入训练好的图神经网络进行表型分类。
Description
技术领域
本发明涉及智能计算育种领域,尤其是涉及基于图神经网络的基因表型训练、预测方法及装置。
背景技术
作物育种的发展伴随着人类文明发展的历程。在经历了农民的经验和主观判断、作物育种学科逐步建立、分子选择育种三个历史阶段后,“伴随着大数据人工智能等学科的发展,以及基因编辑、合成生物等基因组定向精准改良技术的逐步建立,智能育种开启了全新的4.0时代。”
大豆作为高油高蛋白植物,是粮食产量的重要组成部分。如何选择与培育出高产的大豆,是目前农学家致力研究的问题。全基因组选择算法的提出为基因育种提供了一个方向。已有的代表性方法有BLUP、GBLUP、RR-BLUP、LASSO等。然而这些方法的性能距离我们在育种方面的预期尚为遥远。
随着深度学习的发展,研究人员开始尝试将其应用在育种领域。如DeepGS算法,通过构建卷积神经网络,预测小麦的表型性状,并超过了传统的全基因组选择算法的性能。然而目前已有的基于深度学习的全基因组选择算法,大多采用简单的卷积神经网络,并未利用基因相关的先验知识。
图神经网络目前可在有先验知识图谱的基础上进行训练,并获得可观的效果。图神经网络分为基于频谱的方法以及基于空域的方法,包括GNN、GCN、GAT等方法。将图神经网络与育种相关知识结合,目前相关的研究工作尚在初始阶段,是未来智能育种的一大趋势。
发明内容
为解决现有技术的不足,实现提高基因预测表型性能的目的,本发明采用如下的技术方案:
一种基于图神经网络的基因表型训练方法,包括如下步骤:
步骤S1:根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
步骤S2:采集样本的基因数据,并获取样本对应的表型数据,进行训练集和测试集的划分,用以训练与验证图神经网络;
步骤S3:对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
步骤S4:将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
步骤S5:将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
进一步地,所述步骤S3中,对输入的基因数据,基于基因位点探测概率值PL进行预编码,通过将基因型是0/0,0/1,1/1的PL值分别按照以下公式换算为支持该基因型的概率P:
得到的某一基因位点的P为一个3维向量[a,b,c],依次表示该基因位点基因型是0/0,0/1,1/1的概率,对于未探测到的位点./.,用向量[0,0,0]表示。
进一步地,所述步骤S4中,在图神经网络中的每一层,采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点,包括如下步骤:
步骤S4.1:在图神经网络中,对于当前层各个节点,从其一阶相邻节点中构建候选节点;
步骤S4.2:对于节点c,无放回地从节点c的候选节点中采样n个节点作为节点c的邻域节点,不足n的则采样全部候选节点;
进一步地,所述步骤S4.3中,聚合公式如下:
其中,h i 代表节点c的第i个邻域节点的信息,w i 代表节点c的第i个邻域节点的权重。
进一步地,所述步骤S4.4中,具体公式如下:
进一步地,所述步骤S5包括如下步骤:
步骤S5.1:将所有节点输出的维度为3的向量进行拼接,再将其输入多层感知器,最后输出分类结果;
步骤S5.2:分别将s种表型平均划分为k个区间作为类别,则真值维度为s×k,并与网络输出维度对应;
步骤S5.3:利用输出的分类结果与表型的真值,进行多表型监督训练。
进一步地,所述步骤S5.3中,分类损失采用Focal Loss,其计算公式为:
其中,表示在特征图的横坐标x和纵坐标y处通过分类得到的置信度,表示
该位置上目标所属的真实类别标签,1表示正样本,0表示负样本;γ是大于0的值,α是[0,1]
间的小数,γ和α都是固定值,不参与训练。
一种基于图神经网络的基因表型预测方法,根据所述的基于图神经网络的基因表型训练方法,将待分类的基因数据经步骤S3后,再输入训练好的图神经网络中,得到待分类的基因数据对应的表型结果。
一种基于图神经网络的基因表型训练装置,用于实现所述的基于图神经网络的基因表型训练方法,包括图神经网络构建模块、数据获取模块、预编码模块、基因数据输入模块和分类模块;
所述图神经网络构建模块,根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
所述数据获取模块,采集样本的基因数据,并获取样本对应的表型数据,进行训练集和测试集的划分,用以训练与验证图神经网络;
所述预编码模块,对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
所述基因数据输入模块,将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
所述分类模块,将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
一种基于图神经网络的基因表型预测装置,用于实现所述的基于图神经网络的基因表型训练装置,将待分类的基因数据经预编码模块编码后,再通过基因数据输入模块,输入训练好的分类模块中,得到待分类的基因数据对应的表型结果。
本发明的优势和有益效果在于:
1、本发明利用基因表型之间相关性的先验知识,构建基因图网络,将相关性弱的基因位点剔除,能有效减少输入基因维度,达到降维去噪的目的;
2、本发明通过将表型划分为多个区间进行分类预测,取代直接回归预测,可降低训练难度,增加模型算法的稳定性,此外该算法可同时训练并预测多个表型;
3、本发明相对于全基因选择传统算法rrBLUP有更好的性能表现,在各个表型的预测中,其Pearson相关系数(Pearson Correlation Coefficient)有0.2至0.3的提升。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例中公开的大豆基因位点与表型的相关性信息图。
图3是本发明实施例中简化的图神经网络进行分类识别的流程图。
图4是本发明的设备结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,一种基于图神经网络的基因表型训练方法,包括如下步骤:
步骤S1:根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
本发明实施例中,根据图2中现有公开的大豆基因位点与表型的相关性信息,构建大豆基因的图网络,其中,基因位点有39个,若两个基因位点与同一个表型相关次数越多,则边的权重越高。因此,边的权重可反映基因点位之间的关联程度。
步骤S2:采集样本的基因数据,并获取样本对应的表型数据,进行训练集和测试集的划分,用以训练与验证图神经网络;
本发明实施例中,采集3000份大豆样本的基因数据,即SNP位点信息,训练及测试时只需要利用图2涉及的39个基因位点的信息。收集各个大豆样本对应的s种表型数据有株高、分枝数、豆粒数、茎秆数,即s=4。将上述数据按照4:1比例随机划分为训练集和测试集。
步骤S3:对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
具体地,对输入的基因数据,基于基因位点探测概率值PL进行预编码,通过将基因型是0/0,0/1,1/1的PL值分别按照以下公式换算为支持该基因型的概率P:
得到的某一基因位点的P为一个3维向量[a,b,c],依次表示该基因位点基因型是0/0,0/1,1/1的概率,对于未探测到的位点./.,用向量[0,0,0]表示。
步骤S4:将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
本发明实施例中,将维度为39×3的编码数据输入构建的网络层数为8的图神经网络,每层网络采用3个长度为3的一维卷积核,邻域之间卷积核共享。
在图神经网络中的每一层,采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点,具体包括如下步骤:
步骤S4.1:在图神经网络中,对于当前层各个节点,从其一阶相邻节点中构建候选节点;
步骤S4.2:对于节点c,无放回地从节点c的候选节点中采样n个节点作为节点c的邻域节点,不足n的则采样全部候选节点;本实施例中n=4;
具体地,聚合公式如下:
其中,h i 代表节点c的第i个邻域节点的信息,w i 代表节点c的第i个邻域节点的权重;
本发明实施例中,其计算公式为:
具体地,公式如下:
步骤S5:将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练,具体包括如下步骤:
步骤S5.1:将所有节点输出的维度为3的向量进行拼接,再将其输入多层感知器,最后输出分类结果;
步骤S5.2:分别将s种表型平均划分为k个区间作为类别,则真值维度为s×k;
步骤S5.3:利用输出的分类结果与表型的真值,进行多表型监督训练,具体地,分类损失采用Focal Loss,其计算公式为:
其中,表示在特征图的横坐标x和纵坐标y处通过分类得到的置信度,表示
该位置上目标所属的真实类别标签,1表示正样本,0表示负样本;γ是大于0的值,α是[0,1]
间的小数,γ和α都是固定值,不参与训练;本发明实施例中,其中取0.1,取2时效果最
佳。使用SGD作为优化器,在4个GPU上进行训练,batch size为16,训练步数为50k,初始学习
率为0.01,之后在20k步和40k步时缩小10倍。
一种基于图神经网络的基因表型预测方法,根据所述的基于图神经网络的基因表型训练方法,将待分类的基因数据经步骤S3后,输入训练好的图神经网络中,得到待分类的基因数据对应的表型结果。
如图3所示,以一个简化的图神经网络为例,有5个节点,输入数据经过图卷积后输入多层感知器,输出分类结果。
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
一种基于图神经网络的基因表型训练装置,用于实现所述的基于图神经网络的基因表型训练方法,包括图神经网络构建模块、数据获取模块、预编码模块、基因数据输入模块和分类模块;
图神经网络构建模块,根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
数据获取模块,采集样本的基因数据,并获取样本对应的表型数据;
预编码模块,对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
基因数据输入模块,将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
分类模块,将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
一种基于图神经网络的基因表型预测装置,用于实现所述的基于图神经网络的基因表型训练装置,将待分类的基因数据经预编码模块编码后,再通过基因数据输入模块,输入训练好的分类模块中,得到待分类的基因数据对应的表型结果。
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
与前述一种基于图神经网络的基因表型预测方法的实施例相对应,本发明还提供了一种基于图神经网络的基因表型预测设备的实施例。
参见图4,本发明实施例提供的一种基于图神经网络的基因表型预测设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于图神经网络的基因表型预测方法。
本发明一种基于图神经网络的基因表型预测设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于图神经网络的基因表型预测设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于图神经网络的基因表型预测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。
Claims (10)
1.一种基于图神经网络的基因表型训练方法,其特征在于包括如下步骤:
步骤S1:根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
步骤S2:采集样本的基因数据,并获取样本对应的表型数据;
步骤S3:对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
步骤S4:将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
步骤S5:将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
3.根据权利要求1所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S4中,在图神经网络中的每一层,采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点,包括如下步骤:
步骤S4.1:在图神经网络中,对于当前层各个节点,从其一阶相邻节点中构建候选节点;
步骤S4.2:对于节点c,无放回地从节点c的候选节点中采样n个节点作为节点c的邻域节点,不足n的则采样全部候选节点;
6.根据权利要求1所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S5包括如下步骤:
步骤S5.1:将所有节点输出的维度为3的向量进行拼接,再将其输入多层感知器,最后输出分类结果;
步骤S5.2:分别将s种表型平均划分为k个区间作为类别,则真值维度为s×k,并与网络输出维度对应;
步骤S5.3:利用输出的分类结果与表型的真值,进行多表型监督训练。
8.一种基于图神经网络的基因表型预测方法,根据权利要求1-7中任一项所述的基于图神经网络的基因表型训练方法,其特征在于:将待分类的基因数据经步骤S3后,再输入训练好的图神经网络中,得到待分类的基因数据对应的表型结果。
9.一种基于图神经网络的基因表型训练装置,用于实现权利要求1-7中任一项所述的基于图神经网络的基因表型训练方法,包括图神经网络构建模块、数据获取模块、预编码模块、基因数据输入模块和分类模块,其特征在于:
所述图神经网络构建模块,根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
所述数据获取模块,采集样本的基因数据,并获取样本对应的表型数据;
所述预编码模块,对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
所述基因数据输入模块,将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
所述分类模块,将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
10.一种基于图神经网络的基因表型预测装置,用于实现权利要求9中所述的基于图神经网络的基因表型训练装置,其特征在于:将待分类的基因数据经预编码模块编码后,再通过基因数据输入模块,输入训练好的分类模块中,得到待分类的基因数据对应的表型结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211238697.7A CN115331732B (zh) | 2022-10-11 | 2022-10-11 | 基于图神经网络的基因表型训练、预测方法及装置 |
JP2023543455A JP7522936B2 (ja) | 2022-10-11 | 2023-05-19 | グラフニューラルネットワークに基づく遺伝子表現型予測 |
PCT/CN2023/095224 WO2023217290A1 (zh) | 2022-10-11 | 2023-05-19 | 基于图神经网络的基因表型预测 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211238697.7A CN115331732B (zh) | 2022-10-11 | 2022-10-11 | 基于图神经网络的基因表型训练、预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115331732A true CN115331732A (zh) | 2022-11-11 |
CN115331732B CN115331732B (zh) | 2023-03-28 |
Family
ID=83915021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211238697.7A Active CN115331732B (zh) | 2022-10-11 | 2022-10-11 | 基于图神经网络的基因表型训练、预测方法及装置 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7522936B2 (zh) |
CN (1) | CN115331732B (zh) |
WO (1) | WO2023217290A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116072214A (zh) * | 2023-03-06 | 2023-05-05 | 之江实验室 | 基于基因显著性增强的表型智能预测、训练方法及装置 |
CN116580767A (zh) * | 2023-04-26 | 2023-08-11 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN116959561A (zh) * | 2023-09-21 | 2023-10-27 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN116992919A (zh) * | 2023-09-28 | 2023-11-03 | 之江实验室 | 一种基于多组学的植物表型预测方法和装置 |
WO2023217290A1 (zh) * | 2022-10-11 | 2023-11-16 | 之江实验室 | 基于图神经网络的基因表型预测 |
CN117198406A (zh) * | 2023-09-21 | 2023-12-08 | 亦康(北京)医药科技有限公司 | 一种特征筛选方法、系统、电子设备及介质 |
WO2024138387A1 (zh) * | 2022-12-27 | 2024-07-04 | 深圳华大生命科学研究院 | 批次效应去除模型的训练方法及去除方法、装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5396580A (en) * | 1991-09-09 | 1995-03-07 | University Of Florida | Translation of a neural network into a rule-based expert system |
CN106096327A (zh) * | 2016-06-07 | 2016-11-09 | 广州麦仑信息科技有限公司 | 基于Torch监督式深度学习的基因性状识别方法 |
CN108388768A (zh) * | 2018-02-08 | 2018-08-10 | 南京恺尔生物科技有限公司 | 利用生物知识搭建的神经网络模型的生物特性预测方法 |
CN110010201A (zh) * | 2019-04-16 | 2019-07-12 | 山东农业大学 | 一种rna选择性剪接位点识别方法及系统 |
WO2020132683A1 (en) * | 2018-12-21 | 2020-06-25 | TeselaGen Biotechnology Inc. | Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model |
CN114360654A (zh) * | 2022-01-05 | 2022-04-15 | 重庆邮电大学 | 一种基于基因表达的图神经网络数据集构建方法 |
CN114637923A (zh) * | 2022-05-19 | 2022-06-17 | 之江实验室 | 基于层次注意力图神经网络的数据信息推荐方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114765063A (zh) * | 2021-01-12 | 2022-07-19 | 上海交通大学 | 基于图神经网络表征的蛋白质与核酸结合位点预测方法 |
US11228505B1 (en) | 2021-01-29 | 2022-01-18 | Fujitsu Limited | Explanation of graph-based predictions using network motif analysis |
US20220301658A1 (en) * | 2021-03-19 | 2022-09-22 | X Development Llc | Machine learning driven gene discovery and gene editing in plants |
CN113593635A (zh) * | 2021-08-06 | 2021-11-02 | 上海市农业科学院 | 一种玉米表型预测方法及系统 |
CN114333986A (zh) * | 2021-09-06 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 模型训练、药物筛选和亲和力预测的方法与装置 |
CN114649097A (zh) * | 2022-03-04 | 2022-06-21 | 广州中医药大学(广州中医药研究院) | 一种基于图神经网络及组学信息的药物功效预测方法 |
CN114783524B (zh) * | 2022-06-17 | 2022-09-30 | 之江实验室 | 基于自适应重采样深度编码器网络的通路异常检测系统 |
CN115331732B (zh) * | 2022-10-11 | 2023-03-28 | 之江实验室 | 基于图神经网络的基因表型训练、预测方法及装置 |
-
2022
- 2022-10-11 CN CN202211238697.7A patent/CN115331732B/zh active Active
-
2023
- 2023-05-19 WO PCT/CN2023/095224 patent/WO2023217290A1/zh unknown
- 2023-05-19 JP JP2023543455A patent/JP7522936B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5396580A (en) * | 1991-09-09 | 1995-03-07 | University Of Florida | Translation of a neural network into a rule-based expert system |
CN106096327A (zh) * | 2016-06-07 | 2016-11-09 | 广州麦仑信息科技有限公司 | 基于Torch监督式深度学习的基因性状识别方法 |
CN108388768A (zh) * | 2018-02-08 | 2018-08-10 | 南京恺尔生物科技有限公司 | 利用生物知识搭建的神经网络模型的生物特性预测方法 |
WO2020132683A1 (en) * | 2018-12-21 | 2020-06-25 | TeselaGen Biotechnology Inc. | Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model |
CN110010201A (zh) * | 2019-04-16 | 2019-07-12 | 山东农业大学 | 一种rna选择性剪接位点识别方法及系统 |
CN114360654A (zh) * | 2022-01-05 | 2022-04-15 | 重庆邮电大学 | 一种基于基因表达的图神经网络数据集构建方法 |
CN114637923A (zh) * | 2022-05-19 | 2022-06-17 | 之江实验室 | 基于层次注意力图神经网络的数据信息推荐方法和装置 |
Non-Patent Citations (2)
Title |
---|
N. MATCHENKO-SHIMKO; M.P. DUBE: "Gene-Gene Interaction Tests Using SVM and Neural Network Modeling", 《 2007 IEEE SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND BIOINFORMATICS AND COMPUTATIONAL BIOLOGY》 * |
束永俊等: "人工神经网络在作物基因组选择中的应用", 《作物学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023217290A1 (zh) * | 2022-10-11 | 2023-11-16 | 之江实验室 | 基于图神经网络的基因表型预测 |
WO2024138387A1 (zh) * | 2022-12-27 | 2024-07-04 | 深圳华大生命科学研究院 | 批次效应去除模型的训练方法及去除方法、装置 |
CN116072214A (zh) * | 2023-03-06 | 2023-05-05 | 之江实验室 | 基于基因显著性增强的表型智能预测、训练方法及装置 |
CN116580767A (zh) * | 2023-04-26 | 2023-08-11 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN116580767B (zh) * | 2023-04-26 | 2024-03-12 | 之江实验室 | 一种基于自监督与Transformer的基因表型预测方法和系统 |
CN116959561A (zh) * | 2023-09-21 | 2023-10-27 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN117198406A (zh) * | 2023-09-21 | 2023-12-08 | 亦康(北京)医药科技有限公司 | 一种特征筛选方法、系统、电子设备及介质 |
CN116959561B (zh) * | 2023-09-21 | 2023-12-19 | 北京科技大学 | 一种基于神经网络模型的基因相互作用预测方法和装置 |
CN117198406B (zh) * | 2023-09-21 | 2024-06-11 | 亦康(北京)医药科技有限公司 | 一种特征筛选方法、系统、电子设备及介质 |
CN116992919A (zh) * | 2023-09-28 | 2023-11-03 | 之江实验室 | 一种基于多组学的植物表型预测方法和装置 |
CN116992919B (zh) * | 2023-09-28 | 2023-12-19 | 之江实验室 | 一种基于多组学的植物表型预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP7522936B2 (ja) | 2024-07-25 |
JP2024524795A (ja) | 2024-07-09 |
CN115331732B (zh) | 2023-03-28 |
WO2023217290A1 (zh) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115331732B (zh) | 基于图神经网络的基因表型训练、预测方法及装置 | |
US11610131B2 (en) | Ensembling of neural network models | |
CN111428818B (zh) | 基于神经通路激活状态的深度学习模型测试方法与装置 | |
CN105138973B (zh) | 人脸认证的方法和装置 | |
CN111898689B (zh) | 一种基于神经网络架构搜索的图像分类方法 | |
CN112232413B (zh) | 基于图神经网络与谱聚类的高维数据特征选择方法 | |
CN112465120A (zh) | 一种基于进化方法的快速注意力神经网络架构搜索方法 | |
CN112966114A (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
CN111723915A (zh) | 深度卷积神经网络的剪枝方法、计算机设备及应用方法 | |
WO2023124342A1 (zh) | 一种针对图像分类的神经网络结构低成本自动搜索方法 | |
CN115563610B (zh) | 入侵检测模型的训练方法、识别方法和装置 | |
CN113627471A (zh) | 一种数据分类方法、系统、设备及信息数据处理终端 | |
CN115812210A (zh) | 用于增强机器学习分类任务的性能的方法和设备 | |
CN115908909A (zh) | 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统 | |
CN113223620B (zh) | 基于多维度序列嵌入的蛋白质溶解性预测方法 | |
CN112488188B (zh) | 一种基于深度强化学习的特征选择方法 | |
CN117421657B (zh) | 一种基于过采样策略的带噪标签图片样本筛选学习方法及系统 | |
CN113611354A (zh) | 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法 | |
US20230409960A1 (en) | Image embeddings via deep learning and adaptive batch normalization | |
Fawwaz et al. | The Optimization of CNN Algorithm Using Transfer Learning for Marine Fauna Classification | |
CN115423076A (zh) | 基于两步式框架的有向超图链式预测方法 | |
CN109308936B (zh) | 一种粮食作物产地的识别方法、识别装置及终端识别设备 | |
CN115294402A (zh) | 一种基于去冗余多阶混合训练的半监督车辆分类方法 | |
CN114528906A (zh) | 一种旋转机械的故障诊断方法、装置、设备和介质 | |
CN114357219A (zh) | 一种面向移动端实例级图像检索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |