CN115331732A - 基于图神经网络的基因表型训练、预测方法及装置 - Google Patents

基于图神经网络的基因表型训练、预测方法及装置 Download PDF

Info

Publication number
CN115331732A
CN115331732A CN202211238697.7A CN202211238697A CN115331732A CN 115331732 A CN115331732 A CN 115331732A CN 202211238697 A CN202211238697 A CN 202211238697A CN 115331732 A CN115331732 A CN 115331732A
Authority
CN
China
Prior art keywords
gene
phenotype
node
neural network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211238697.7A
Other languages
English (en)
Other versions
CN115331732B (zh
Inventor
章依依
吴翠玲
徐晓刚
李萧缘
虞舒敏
王军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211238697.7A priority Critical patent/CN115331732B/zh
Publication of CN115331732A publication Critical patent/CN115331732A/zh
Application granted granted Critical
Publication of CN115331732B publication Critical patent/CN115331732B/zh
Priority to JP2023543455A priority patent/JP7522936B2/ja
Priority to PCT/CN2023/095224 priority patent/WO2023217290A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了基于图神经网络的基因表型训练、预测方法及装置,根据现有公开的基因位点与表型的相关性,构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某个表型相关,且边的权重代表基因位点之间的关联程度;采集样本的基因数据,并收集各个样本对应的表型数据;训练过程中,对输入的基因数据基于其位点探测概率值进行编码;将编码数据输入构建的图神经网络;采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点;将每个节点的输出结果进行拼接,并将其输入多层感知器,输出表型分类结果;将分类结果与真值进行比较,训练与验证图神经网络;再将待分类的基因数据输入训练好的图神经网络进行表型分类。

Description

基于图神经网络的基因表型训练、预测方法及装置
技术领域
本发明涉及智能计算育种领域,尤其是涉及基于图神经网络的基因表型训练、预测方法及装置。
背景技术
作物育种的发展伴随着人类文明发展的历程。在经历了农民的经验和主观判断、作物育种学科逐步建立、分子选择育种三个历史阶段后,“伴随着大数据人工智能等学科的发展,以及基因编辑、合成生物等基因组定向精准改良技术的逐步建立,智能育种开启了全新的4.0时代。”
大豆作为高油高蛋白植物,是粮食产量的重要组成部分。如何选择与培育出高产的大豆,是目前农学家致力研究的问题。全基因组选择算法的提出为基因育种提供了一个方向。已有的代表性方法有BLUP、GBLUP、RR-BLUP、LASSO等。然而这些方法的性能距离我们在育种方面的预期尚为遥远。
随着深度学习的发展,研究人员开始尝试将其应用在育种领域。如DeepGS算法,通过构建卷积神经网络,预测小麦的表型性状,并超过了传统的全基因组选择算法的性能。然而目前已有的基于深度学习的全基因组选择算法,大多采用简单的卷积神经网络,并未利用基因相关的先验知识。
图神经网络目前可在有先验知识图谱的基础上进行训练,并获得可观的效果。图神经网络分为基于频谱的方法以及基于空域的方法,包括GNN、GCN、GAT等方法。将图神经网络与育种相关知识结合,目前相关的研究工作尚在初始阶段,是未来智能育种的一大趋势。
发明内容
为解决现有技术的不足,实现提高基因预测表型性能的目的,本发明采用如下的技术方案:
一种基于图神经网络的基因表型训练方法,包括如下步骤:
步骤S1:根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
步骤S2:采集样本的基因数据,并获取样本对应的表型数据,进行训练集和测试集的划分,用以训练与验证图神经网络;
步骤S3:对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
步骤S4:将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
步骤S5:将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
进一步地,所述步骤S3中,对输入的基因数据,基于基因位点探测概率值PL进行预编码,通过将基因型是0/0,0/1,1/1的PL值分别按照以下公式换算为支持该基因型的概率P:
Figure 738396DEST_PATH_IMAGE002
得到的某一基因位点的P为一个3维向量[a,b,c],依次表示该基因位点基因型是0/0,0/1,1/1的概率,对于未探测到的位点./.,用向量[0,0,0]表示。
进一步地,所述步骤S4中,在图神经网络中的每一层,采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点,包括如下步骤:
步骤S4.1:在图神经网络中,对于当前层各个节点,从其一阶相邻节点中构建候选节点;
步骤S4.2:对于节点c,无放回地从节点c的候选节点中采样n个节点作为节点c的邻域节点,不足n的则采样全部候选节点;
步骤S4.3:聚合节点c采样的所有邻域节点信息,得到聚合的邻域节点信息
Figure 100002_DEST_PATH_IMAGE003
步骤S4.4:将聚合的邻域节点信息
Figure 86201DEST_PATH_IMAGE003
与作为中心节点的节点c的信息h c 进行向量 拼接CONCAT,并对拼接后的节点信息进行卷积与激活操作,得到图神经网络当前层的输出 信息
Figure 354371DEST_PATH_IMAGE004
进一步地,所述步骤S4.3中,聚合公式如下:
Figure 408915DEST_PATH_IMAGE006
Figure 369917DEST_PATH_IMAGE008
其中,h i 代表节点c的第i个邻域节点的信息,w i 代表节点c的第i个邻域节点的权重。
进一步地,所述步骤S4.4中,具体公式如下:
Figure 142701DEST_PATH_IMAGE010
其中,
Figure 948983DEST_PATH_IMAGE004
表示节点c从当前层网络输出的信息,即下一层网络的输入,σ表示激活函 数,W表示卷积核参数,h c 表示节点c输入当前网络层的信息。
进一步地,所述步骤S5包括如下步骤:
步骤S5.1:将所有节点输出的维度为3的向量进行拼接,再将其输入多层感知器,最后输出分类结果;
步骤S5.2:分别将s种表型平均划分为k个区间作为类别,则真值维度为s×k,并与网络输出维度对应;
步骤S5.3:利用输出的分类结果与表型的真值,进行多表型监督训练。
进一步地,所述步骤S5.3中,分类损失采用Focal Loss,其计算公式为:
Figure 389192DEST_PATH_IMAGE012
其中,
Figure 100002_DEST_PATH_IMAGE013
表示在特征图的横坐标x和纵坐标y处通过分类得到的置信度,
Figure 786675DEST_PATH_IMAGE014
表示 该位置上目标所属的真实类别标签,1表示正样本,0表示负样本;γ是大于0的值,α是[0,1] 间的小数,γα都是固定值,不参与训练。
一种基于图神经网络的基因表型预测方法,根据所述的基于图神经网络的基因表型训练方法,将待分类的基因数据经步骤S3后,再输入训练好的图神经网络中,得到待分类的基因数据对应的表型结果。
一种基于图神经网络的基因表型训练装置,用于实现所述的基于图神经网络的基因表型训练方法,包括图神经网络构建模块、数据获取模块、预编码模块、基因数据输入模块和分类模块;
所述图神经网络构建模块,根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
所述数据获取模块,采集样本的基因数据,并获取样本对应的表型数据,进行训练集和测试集的划分,用以训练与验证图神经网络;
所述预编码模块,对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
所述基因数据输入模块,将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
所述分类模块,将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
一种基于图神经网络的基因表型预测装置,用于实现所述的基于图神经网络的基因表型训练装置,将待分类的基因数据经预编码模块编码后,再通过基因数据输入模块,输入训练好的分类模块中,得到待分类的基因数据对应的表型结果。
本发明的优势和有益效果在于:
1、本发明利用基因表型之间相关性的先验知识,构建基因图网络,将相关性弱的基因位点剔除,能有效减少输入基因维度,达到降维去噪的目的;
2、本发明通过将表型划分为多个区间进行分类预测,取代直接回归预测,可降低训练难度,增加模型算法的稳定性,此外该算法可同时训练并预测多个表型;
3、本发明相对于全基因选择传统算法rrBLUP有更好的性能表现,在各个表型的预测中,其Pearson相关系数(Pearson Correlation Coefficient)有0.2至0.3的提升。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例中公开的大豆基因位点与表型的相关性信息图。
图3是本发明实施例中简化的图神经网络进行分类识别的流程图。
图4是本发明的设备结构示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,一种基于图神经网络的基因表型训练方法,包括如下步骤:
步骤S1:根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
本发明实施例中,根据图2中现有公开的大豆基因位点与表型的相关性信息,构建大豆基因的图网络,其中,基因位点有39个,若两个基因位点与同一个表型相关次数越多,则边的权重越高。因此,边的权重可反映基因点位之间的关联程度。
步骤S2:采集样本的基因数据,并获取样本对应的表型数据,进行训练集和测试集的划分,用以训练与验证图神经网络;
本发明实施例中,采集3000份大豆样本的基因数据,即SNP位点信息,训练及测试时只需要利用图2涉及的39个基因位点的信息。收集各个大豆样本对应的s种表型数据有株高、分枝数、豆粒数、茎秆数,即s=4。将上述数据按照4:1比例随机划分为训练集和测试集。
步骤S3:对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
具体地,对输入的基因数据,基于基因位点探测概率值PL进行预编码,通过将基因型是0/0,0/1,1/1的PL值分别按照以下公式换算为支持该基因型的概率P:
Figure DEST_PATH_IMAGE015
得到的某一基因位点的P为一个3维向量[a,b,c],依次表示该基因位点基因型是0/0,0/1,1/1的概率,对于未探测到的位点./.,用向量[0,0,0]表示。
步骤S4:将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
本发明实施例中,将维度为39×3的编码数据输入构建的网络层数为8的图神经网络,每层网络采用3个长度为3的一维卷积核,邻域之间卷积核共享。
在图神经网络中的每一层,采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点,具体包括如下步骤:
步骤S4.1:在图神经网络中,对于当前层各个节点,从其一阶相邻节点中构建候选节点;
步骤S4.2:对于节点c,无放回地从节点c的候选节点中采样n个节点作为节点c的邻域节点,不足n的则采样全部候选节点;本实施例中n=4;
步骤S4.3:聚合节点c采样的所有邻域节点信息,得到聚合的邻域节点信息
Figure 577914DEST_PATH_IMAGE003
具体地,聚合公式如下:
Figure 187886DEST_PATH_IMAGE006
Figure 482602DEST_PATH_IMAGE008
其中,h i 代表节点c的第i个邻域节点的信息,w i 代表节点c的第i个邻域节点的权重;
本发明实施例中,其计算公式为:
Figure DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE019
步骤S4.4:将聚合的邻域节点信息
Figure 847724DEST_PATH_IMAGE003
与作为中心节点的节点c的信息h c 进行向量 拼接CONCAT,并对拼接后的节点信息进行卷积与激活操作,得到图神经网络当前层的输出 信息
Figure 329521DEST_PATH_IMAGE004
具体地,公式如下:
Figure 8764DEST_PATH_IMAGE020
其中,
Figure 892406DEST_PATH_IMAGE004
表示节点c从当前层网络输出的信息,即下一层网络的输入,σ表示激活函 数,W表示卷积核参数,h c 表示节点c输入当前网络层的信息。
步骤S5:将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练,具体包括如下步骤:
步骤S5.1:将所有节点输出的维度为3的向量进行拼接,再将其输入多层感知器,最后输出分类结果;
本发明实施例中,将所有39个节点输出的维度为3的向量进行拼接,则输出维度为
Figure DEST_PATH_IMAGE021
的向量,将其输入2层全连接网络,第一层输出维度为80的向量,第二层输出 维度为20的向量,作为分类结果;
步骤S5.2:分别将s种表型平均划分为k个区间作为类别,则真值维度为s×k
本发明实施例中,分别将4种表型平均划分为5个区间作为类别,则真值维度为
Figure 897271DEST_PATH_IMAGE022
,与网络输出维度一一对应;以株高为例,按照区间平均划分为极矮,矮,正常, 高,极高5类,其他表型以此类推;
步骤S5.3:利用输出的分类结果与表型的真值,进行多表型监督训练,具体地,分类损失采用Focal Loss,其计算公式为:
Figure 866364DEST_PATH_IMAGE012
其中,
Figure 818140DEST_PATH_IMAGE013
表示在特征图的横坐标x和纵坐标y处通过分类得到的置信度,
Figure 821868DEST_PATH_IMAGE014
表示 该位置上目标所属的真实类别标签,1表示正样本,0表示负样本;γ是大于0的值,α是[0,1] 间的小数,γα都是固定值,不参与训练;本发明实施例中,其中
Figure DEST_PATH_IMAGE023
取0.1,
Figure 997634DEST_PATH_IMAGE024
取2时效果最 佳。使用SGD作为优化器,在4个GPU上进行训练,batch size为16,训练步数为50k,初始学习 率为0.01,之后在20k步和40k步时缩小10倍。
一种基于图神经网络的基因表型预测方法,根据所述的基于图神经网络的基因表型训练方法,将待分类的基因数据经步骤S3后,输入训练好的图神经网络中,得到待分类的基因数据对应的表型结果。
如图3所示,以一个简化的图神经网络为例,有5个节点,输入数据经过图卷积后输入多层感知器,输出分类结果。
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
一种基于图神经网络的基因表型训练装置,用于实现所述的基于图神经网络的基因表型训练方法,包括图神经网络构建模块、数据获取模块、预编码模块、基因数据输入模块和分类模块;
图神经网络构建模块,根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
数据获取模块,采集样本的基因数据,并获取样本对应的表型数据;
预编码模块,对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
基因数据输入模块,将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
分类模块,将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
一种基于图神经网络的基因表型预测装置,用于实现所述的基于图神经网络的基因表型训练装置,将待分类的基因数据经预编码模块编码后,再通过基因数据输入模块,输入训练好的分类模块中,得到待分类的基因数据对应的表型结果。
这部分内容实施方式与上述方法实施例的实施方式类似,此处不再赘述。
与前述一种基于图神经网络的基因表型预测方法的实施例相对应,本发明还提供了一种基于图神经网络的基因表型预测设备的实施例。
参见图4,本发明实施例提供的一种基于图神经网络的基因表型预测设备,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的一种基于图神经网络的基因表型预测方法。
本发明一种基于图神经网络的基因表型预测设备的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于图神经网络的基因表型预测设备所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于图神经网络的基因表型预测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (10)

1.一种基于图神经网络的基因表型训练方法,其特征在于包括如下步骤:
步骤S1:根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
步骤S2:采集样本的基因数据,并获取样本对应的表型数据;
步骤S3:对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
步骤S4:将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
步骤S5:将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
2.根据权利要求1所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S3中,对输入的基因数据,基于基因位点探测概率值PL进行预编码,通过将基因型是0/0,0/1,1/1的PL值分别按照以下公式换算为支持该基因型的概率P:
Figure 824001DEST_PATH_IMAGE002
得到的某一基因位点的P为一个3维向量[a,b,c],依次表示该基因位点基因型是0/0,0/1,1/1的概率,对于未探测到的位点,用向量[0,0,0]表示。
3.根据权利要求1所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S4中,在图神经网络中的每一层,采用均匀采样进行节点邻域选择,并通过邻域节点的权重与卷积核参数更新各个节点,包括如下步骤:
步骤S4.1:在图神经网络中,对于当前层各个节点,从其一阶相邻节点中构建候选节点;
步骤S4.2:对于节点c,无放回地从节点c的候选节点中采样n个节点作为节点c的邻域节点,不足n的则采样全部候选节点;
步骤S4.3:聚合节点c采样的所有邻域节点信息,得到聚合的邻域节点信息
Figure DEST_PATH_IMAGE003
步骤S4.4:将聚合的邻域节点信息
Figure 803459DEST_PATH_IMAGE003
与作为中心节点的节点c的信息h c 进行向量拼接, 并对拼接后的节点信息进行卷积与激活操作,得到图神经网络当前层的输出信息
Figure 645513DEST_PATH_IMAGE004
4.根据权利要求3所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S4.3中,聚合公式如下:
Figure 837460DEST_PATH_IMAGE006
Figure 448570DEST_PATH_IMAGE008
其中,h i 代表节点c的第i个邻域节点的信息,w i 代表节点c的第i个邻域节点的权重。
5.根据权利要求3所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S4.4中,具体公式如下:
Figure 67770DEST_PATH_IMAGE010
其中,
Figure 865962DEST_PATH_IMAGE004
表示节点c从当前层网络输出的信息,即下一层网络的输入,σ表示激活函数,W 表示卷积核参数,h c 表示节点c输入当前网络层的信息。
6.根据权利要求1所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S5包括如下步骤:
步骤S5.1:将所有节点输出的维度为3的向量进行拼接,再将其输入多层感知器,最后输出分类结果;
步骤S5.2:分别将s种表型平均划分为k个区间作为类别,则真值维度为s×k,并与网络输出维度对应;
步骤S5.3:利用输出的分类结果与表型的真值,进行多表型监督训练。
7.根据权利要求6所述的基于图神经网络的基因表型训练方法,其特征在于:所述步骤S5.3中,分类损失采用Focal Loss,其计算公式为:
Figure 861599DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
表示在特征图的横坐标x和纵坐标y处通过分类得到的置信度,
Figure 592795DEST_PATH_IMAGE014
表示该位 置上目标所属的真实类别标签,1表示正样本,0表示负样本;γ是大于0的值,α是[0,1]间的 小数,γα都是固定值,不参与训练。
8.一种基于图神经网络的基因表型预测方法,根据权利要求1-7中任一项所述的基于图神经网络的基因表型训练方法,其特征在于:将待分类的基因数据经步骤S3后,再输入训练好的图神经网络中,得到待分类的基因数据对应的表型结果。
9.一种基于图神经网络的基因表型训练装置,用于实现权利要求1-7中任一项所述的基于图神经网络的基因表型训练方法,包括图神经网络构建模块、数据获取模块、预编码模块、基因数据输入模块和分类模块,其特征在于:
所述图神经网络构建模块,根据基因位点与表型的相关性,对基因构建图神经网络:节点代表基因位点,边代表两个基因位点同时与某一个表型相关,边的权重用于反映基因位点之间的关联程度;
所述数据获取模块,采集样本的基因数据,并获取样本对应的表型数据;
所述预编码模块,对于训练数据,基于位点探测对基因数据进行预编码,得到基因位点及其对应的基因型;
所述基因数据输入模块,将编码后的基因数据,输入构建的图神经网络,每层网络采用长度为3的一维卷积核,邻域之间卷积核共享;
所述分类模块,将每个节点的输出结果进行拼接,并将拼接后的结果输入多层感知器,输出表型分类结果,根据损失函数对模型进行监督训练。
10.一种基于图神经网络的基因表型预测装置,用于实现权利要求9中所述的基于图神经网络的基因表型训练装置,其特征在于:将待分类的基因数据经预编码模块编码后,再通过基因数据输入模块,输入训练好的分类模块中,得到待分类的基因数据对应的表型结果。
CN202211238697.7A 2022-10-11 2022-10-11 基于图神经网络的基因表型训练、预测方法及装置 Active CN115331732B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202211238697.7A CN115331732B (zh) 2022-10-11 2022-10-11 基于图神经网络的基因表型训练、预测方法及装置
JP2023543455A JP7522936B2 (ja) 2022-10-11 2023-05-19 グラフニューラルネットワークに基づく遺伝子表現型予測
PCT/CN2023/095224 WO2023217290A1 (zh) 2022-10-11 2023-05-19 基于图神经网络的基因表型预测

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211238697.7A CN115331732B (zh) 2022-10-11 2022-10-11 基于图神经网络的基因表型训练、预测方法及装置

Publications (2)

Publication Number Publication Date
CN115331732A true CN115331732A (zh) 2022-11-11
CN115331732B CN115331732B (zh) 2023-03-28

Family

ID=83915021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211238697.7A Active CN115331732B (zh) 2022-10-11 2022-10-11 基于图神经网络的基因表型训练、预测方法及装置

Country Status (3)

Country Link
JP (1) JP7522936B2 (zh)
CN (1) CN115331732B (zh)
WO (1) WO2023217290A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072214A (zh) * 2023-03-06 2023-05-05 之江实验室 基于基因显著性增强的表型智能预测、训练方法及装置
CN116580767A (zh) * 2023-04-26 2023-08-11 之江实验室 一种基于自监督与Transformer的基因表型预测方法和系统
CN116959561A (zh) * 2023-09-21 2023-10-27 北京科技大学 一种基于神经网络模型的基因相互作用预测方法和装置
CN116992919A (zh) * 2023-09-28 2023-11-03 之江实验室 一种基于多组学的植物表型预测方法和装置
WO2023217290A1 (zh) * 2022-10-11 2023-11-16 之江实验室 基于图神经网络的基因表型预测
CN117198406A (zh) * 2023-09-21 2023-12-08 亦康(北京)医药科技有限公司 一种特征筛选方法、系统、电子设备及介质
WO2024138387A1 (zh) * 2022-12-27 2024-07-04 深圳华大生命科学研究院 批次效应去除模型的训练方法及去除方法、装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396580A (en) * 1991-09-09 1995-03-07 University Of Florida Translation of a neural network into a rule-based expert system
CN106096327A (zh) * 2016-06-07 2016-11-09 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
CN108388768A (zh) * 2018-02-08 2018-08-10 南京恺尔生物科技有限公司 利用生物知识搭建的神经网络模型的生物特性预测方法
CN110010201A (zh) * 2019-04-16 2019-07-12 山东农业大学 一种rna选择性剪接位点识别方法及系统
WO2020132683A1 (en) * 2018-12-21 2020-06-25 TeselaGen Biotechnology Inc. Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model
CN114360654A (zh) * 2022-01-05 2022-04-15 重庆邮电大学 一种基于基因表达的图神经网络数据集构建方法
CN114637923A (zh) * 2022-05-19 2022-06-17 之江实验室 基于层次注意力图神经网络的数据信息推荐方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114765063A (zh) * 2021-01-12 2022-07-19 上海交通大学 基于图神经网络表征的蛋白质与核酸结合位点预测方法
US11228505B1 (en) 2021-01-29 2022-01-18 Fujitsu Limited Explanation of graph-based predictions using network motif analysis
US20220301658A1 (en) * 2021-03-19 2022-09-22 X Development Llc Machine learning driven gene discovery and gene editing in plants
CN113593635A (zh) * 2021-08-06 2021-11-02 上海市农业科学院 一种玉米表型预测方法及系统
CN114333986A (zh) * 2021-09-06 2022-04-12 腾讯科技(深圳)有限公司 模型训练、药物筛选和亲和力预测的方法与装置
CN114649097A (zh) * 2022-03-04 2022-06-21 广州中医药大学(广州中医药研究院) 一种基于图神经网络及组学信息的药物功效预测方法
CN114783524B (zh) * 2022-06-17 2022-09-30 之江实验室 基于自适应重采样深度编码器网络的通路异常检测系统
CN115331732B (zh) * 2022-10-11 2023-03-28 之江实验室 基于图神经网络的基因表型训练、预测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396580A (en) * 1991-09-09 1995-03-07 University Of Florida Translation of a neural network into a rule-based expert system
CN106096327A (zh) * 2016-06-07 2016-11-09 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
CN108388768A (zh) * 2018-02-08 2018-08-10 南京恺尔生物科技有限公司 利用生物知识搭建的神经网络模型的生物特性预测方法
WO2020132683A1 (en) * 2018-12-21 2020-06-25 TeselaGen Biotechnology Inc. Method, apparatus, and computer-readable medium for efficiently optimizing a phenotype with a specialized prediction model
CN110010201A (zh) * 2019-04-16 2019-07-12 山东农业大学 一种rna选择性剪接位点识别方法及系统
CN114360654A (zh) * 2022-01-05 2022-04-15 重庆邮电大学 一种基于基因表达的图神经网络数据集构建方法
CN114637923A (zh) * 2022-05-19 2022-06-17 之江实验室 基于层次注意力图神经网络的数据信息推荐方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N. MATCHENKO-SHIMKO; M.P. DUBE: "Gene-Gene Interaction Tests Using SVM and Neural Network Modeling", 《 2007 IEEE SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND BIOINFORMATICS AND COMPUTATIONAL BIOLOGY》 *
束永俊等: "人工神经网络在作物基因组选择中的应用", 《作物学报》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023217290A1 (zh) * 2022-10-11 2023-11-16 之江实验室 基于图神经网络的基因表型预测
WO2024138387A1 (zh) * 2022-12-27 2024-07-04 深圳华大生命科学研究院 批次效应去除模型的训练方法及去除方法、装置
CN116072214A (zh) * 2023-03-06 2023-05-05 之江实验室 基于基因显著性增强的表型智能预测、训练方法及装置
CN116580767A (zh) * 2023-04-26 2023-08-11 之江实验室 一种基于自监督与Transformer的基因表型预测方法和系统
CN116580767B (zh) * 2023-04-26 2024-03-12 之江实验室 一种基于自监督与Transformer的基因表型预测方法和系统
CN116959561A (zh) * 2023-09-21 2023-10-27 北京科技大学 一种基于神经网络模型的基因相互作用预测方法和装置
CN117198406A (zh) * 2023-09-21 2023-12-08 亦康(北京)医药科技有限公司 一种特征筛选方法、系统、电子设备及介质
CN116959561B (zh) * 2023-09-21 2023-12-19 北京科技大学 一种基于神经网络模型的基因相互作用预测方法和装置
CN117198406B (zh) * 2023-09-21 2024-06-11 亦康(北京)医药科技有限公司 一种特征筛选方法、系统、电子设备及介质
CN116992919A (zh) * 2023-09-28 2023-11-03 之江实验室 一种基于多组学的植物表型预测方法和装置
CN116992919B (zh) * 2023-09-28 2023-12-19 之江实验室 一种基于多组学的植物表型预测方法和装置

Also Published As

Publication number Publication date
JP7522936B2 (ja) 2024-07-25
JP2024524795A (ja) 2024-07-09
CN115331732B (zh) 2023-03-28
WO2023217290A1 (zh) 2023-11-16

Similar Documents

Publication Publication Date Title
CN115331732B (zh) 基于图神经网络的基因表型训练、预测方法及装置
US11610131B2 (en) Ensembling of neural network models
CN111428818B (zh) 基于神经通路激活状态的深度学习模型测试方法与装置
CN105138973B (zh) 人脸认证的方法和装置
CN111898689B (zh) 一种基于神经网络架构搜索的图像分类方法
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN112465120A (zh) 一种基于进化方法的快速注意力神经网络架构搜索方法
CN112966114A (zh) 基于对称图卷积神经网络的文献分类方法和装置
CN111723915A (zh) 深度卷积神经网络的剪枝方法、计算机设备及应用方法
WO2023124342A1 (zh) 一种针对图像分类的神经网络结构低成本自动搜索方法
CN115563610B (zh) 入侵检测模型的训练方法、识别方法和装置
CN113627471A (zh) 一种数据分类方法、系统、设备及信息数据处理终端
CN115812210A (zh) 用于增强机器学习分类任务的性能的方法和设备
CN115908909A (zh) 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统
CN113223620B (zh) 基于多维度序列嵌入的蛋白质溶解性预测方法
CN112488188B (zh) 一种基于深度强化学习的特征选择方法
CN117421657B (zh) 一种基于过采样策略的带噪标签图片样本筛选学习方法及系统
CN113611354A (zh) 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法
US20230409960A1 (en) Image embeddings via deep learning and adaptive batch normalization
Fawwaz et al. The Optimization of CNN Algorithm Using Transfer Learning for Marine Fauna Classification
CN115423076A (zh) 基于两步式框架的有向超图链式预测方法
CN109308936B (zh) 一种粮食作物产地的识别方法、识别装置及终端识别设备
CN115294402A (zh) 一种基于去冗余多阶混合训练的半监督车辆分类方法
CN114528906A (zh) 一种旋转机械的故障诊断方法、装置、设备和介质
CN114357219A (zh) 一种面向移动端实例级图像检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant