CN115083511A - 基于图表示学习与注意力的外围基因调控特征提取方法 - Google Patents
基于图表示学习与注意力的外围基因调控特征提取方法 Download PDFInfo
- Publication number
- CN115083511A CN115083511A CN202210729500.3A CN202210729500A CN115083511A CN 115083511 A CN115083511 A CN 115083511A CN 202210729500 A CN202210729500 A CN 202210729500A CN 115083511 A CN115083511 A CN 115083511A
- Authority
- CN
- China
- Prior art keywords
- gene
- peripheral
- regulation
- node
- genes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于图表示学习与注意力机制的外围基因调控特征提取方法,解决现有方法无法在网络中提取外围基因向核心基因模块扩散模式,以及无法反映外围基因对任一核心基因的生物调控模式的问题。其技术方案是:在构建相互作用网络中确定核心基因集与外围基因集,将通过图表示学习算法得到的外围基因在相互作用网络中向核心基因扩散的能量采样、拼接组成拓扑调控特征,构建图注意力神经网络,提取外围基因对每一个核心基因的生物调控特征。本发明通过图表示学习方法提取外围基因的拓扑调控特征,搭建并训练了一个注意力神经网络,使得本发明能够在进行样本的子分类任务中有着较高的准确性。
Description
技术领域
本发明属于物理技术领域,更进一步涉及计算分子生物学中遗传或蛋白质相关数据处理的信息技术领域中的一种基于图表示学习与注意力机制的外围基因调控特征提取方法。本发明可通过图表示学习算法提取相互作用网络中外围基因的拓扑调控特征,然后根据外围基因参与的生物功能,构建图注意力神经网络提取外围基因的生物调控特征。
背景技术
目前,随着技术的发展与对性状认知的提升,全基因图模型是对复杂表型的遗传结构的全新探索,根据变异位点与表型的关系将基因分为核心基因与外围基因,核心基因对表型起直接调控作用,外围基因通过对表型不同的反式调控叠加到核心基因从而起间接调控作用。但是核心基因对疾病总遗传力的贡献一般比较小,而相关细胞类型中表达的大多数外围基因对遗传力有大部分贡献,众多外围基因弱效应的叠加从而对表型起更关键的调控作用。现如今基于全基因图模型分析表型,但是侧重于分析表型的遗传结构,能量控制等等,并没有挖掘图模式去解释其外围效应。从外围效应的角度可以为认识表型提供新的见解,而量化外围基因如何调控核心基因是理解外围效应的关键一步。随着图表示学习方法以及机器学习的快速发展,在生物学上的应用也趋于成熟,图表示学习方法基于生物分子网络能够得到网络中任意节点的特征表示,而机器学习方法在进行预测任务时往往需要大量的样本训练,但并不适用于少样本预测任务,可解释性很差。
Claire Donnat等人在其发表的论文“Learning Structural Node Embeddingsvia Diffusion Wavelets,(in Proceedings of the 24th ACM SIGKDD InternationalConference on Knowledge Discovery&;Data Mining.2018,Association forComputing Machinery:London,United Kingdom.p.1320–1329.)”中公开了一种基于结构相似性的无监督的外围基因调控特征提取方法。该方法的实现步骤是:步骤1,计算输入网络的拉普拉斯矩阵;步骤2,根据谱图小波获取任意节点对于整个网络节点的扩散模式;步骤3,通过计算每个节点的特征函数将谱图小波系数分布嵌入到二维空间;步骤4,在网络中对节点无监督均匀采样并将值拼接,得到节点的结构特征。该方法存在的不足之处是,虽然该方法通过大量的数学公式说明了在任意网络中具有相似角色的节点能够被提取为相似特征,该特征能很好的应用于分类任务,但这种特征面向整个网络,无法得到外围基因对某个核心基因模块的调控特征。
Tianle Ma等人在其发表的论文“Affinitynet:semi-supervised few-shotlearning for disease type prediction.(In Proceedings of the AAAI conferenceon artificial intelligence,vol.33,no.01,pp.1069-1076.2019)”中公开了一种基于深度学习的外围基因调控特征提取方法。该方法的实现步骤是:步骤1,生成样本训练集;步骤2,构建特征选择网络筛选关键特征;步骤3,构建K-近邻注意力池化层聚合相似特征;步骤4,利用聚合特征建立样本相似图;步骤5,使用少量标记样本训练模型并识别样本。该方法存在的不足之处是,虽然能够在少量训练样本下提取到重要特征,应用在生物医学上能够很好的区分疾病样本,但是这种特征只能够提取出用以区分外围基因的关键特征,无法反映外围基因对任一核心基因具有生物意义的调控。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于图表示学习与注意力机制的外围基因调控特征提取方法,用以解决现有方法无法在网络中提取外围基因对某个核心基因模块的调控特征的问题,以及提取的特征无法反映外围基因对任一核心基因的在生物意义上的调控。
实现本发明目的的思路是,本发明从拓扑结构、生物功能两方面来提取外围基因的调控特征。从拓扑结构方面,基于图表示学习方法提取出基因相互作用网络中外围基因的拓扑调控特征,该拓扑调控特征反映了外围基因在网络中面向核心基因模块的扩散模式,由此解决现有方法无法提取网络中外围基因对某个核心模块的调控特征问题。本发明从生物功能方面,构建图注意力神经网络提取外围基因对每个核心基因的生物调控特征,该生物调控特征中包含了外围基因对每个核心基因在生物上的调控模式,以此解决了现有方法提取的特征无法在生物意义上反映外围基因对每一个核心基因的调控的问题。
本发明的实现步骤如下:
步骤1,在构建的网络中确定核心基因与外围基因:
步骤1.1,构建一个由N个节点构成的人类基因相互作用网络,该人类基因相互作用网络中的每个网络节点对应一个基因,将存在相互作用的每两个基因之间建立一条边,将该网络用无向图G=(V,E)建模,其中,N表示人类基因相互作用网络中基因节点的总数,V表示无向图G中基因节点的总数,V的取值与N相等,E表示无向图G中边的总数;
步骤1.2,将人类基因相互作用网络中的每个基因的所有调控值相加,得到该基因对表型的调控因子,在人类基因相互作用网路中选取对表型的调控因子大于或等于4的基因组成核心基因集,在人类基因相互作用网路中选取对表型的核心基因的调控系数小于或等于0.05的所有基因节点组成外围基因集;
步骤2,提取外围基因集中每个基因对核心基因集的拓扑调控特征:
步骤2.1,根据下式,计算每个外围基因节点传播到核心基因集的能量:
其中,δj表示外围基因集中的第j个基因节点传播到核心基因集的能量,C表示核心基因集的大小,∑表示求和操作,r表示核心基因集中核心基因的序号,exp(·)表示以自然常数e为底的指数操作,i表示复数的虚部符号,λo表示由拉普拉斯矩阵分解的特征值对角矩阵中第o个特征值,o=1,2,…,O,O表示拉普拉斯矩阵分解的特征值对角矩阵中特征值的数量,s表示扩散因子,s的取值等于由拉普拉斯矩阵分解的特征值对角矩阵中所有特征值的平均值,Url表示由拉普拉斯矩阵分解的特征向量矩阵中的第l个基因节向核心基因集中的第r个基因节点传播的能量值,Ulj表示由拉普拉斯矩阵分解的特征向量矩阵中的第j个基因节点向外围基因集中的第l个基因节点传播的能量值,l=1,2,…,L,L表示外围基因集的大小,l的取值与o对应相等;
步骤2.2,在外围基因集中的每个基因向核心基因集中每一个核心基因的传播进行采样,得到该基因节点的拓扑调控特征:
γj=concat(Re(δj),Im(δj))
其中,γj表示外围基因集中第j个基因节点的拓扑调控特征,Re(·)表示取实部操作,Im(·)表示取虚部操作,concat(·)表示拼接操作;
步骤3,生成每个基因节点的初始选择向量;
步骤3.1,选取q条生物功能条目,每一条生物功能条目包含了参与该生物功能的编码基因节点;将第k条生物功能条目包含的编码基因总数为nk的每一个编码基因的第k个位置置1,第k条生物功能条目中不包含的编码基因的第k个位置均置0,由此将节点集V中每一个编码基因参与q个生物功能条目的情况表示为一个p维的初始生物特征向量,对每一个编码基因节点的初始生物特征进行均值归一化得到的该编码基因节点的初始选择向量,其中,p=q,q表示所有生物功能条目的数量;
步骤3.2,在无向图G中选取每一个非编码基因节点的一阶邻居基因节点集合中的编码基因节点集合X;将第k条生物功能条目中包含的数量为nk的编码基因集与编码基因节点集合X取交集得到x个基因;将基因节点的集合中随机选择的数量为nk的基因集与编码基因节点集合X取交集得到数量为xr的重叠节点集,将该选择过程随机1000次得到1000个重叠节点集,计算所选的1000个重叠节点集规模的均值μ与方差σ,根据计算显著性得分z_score,z_score大于1.645则将非编码基因节点的第k个位置置1,z_score小于1.645则将非编码基因节点的第k个位置置0,由此将每一个非编码基因表示为一个p维的初始生物特征向量,对每一个非编码基因节点的初始生物特征进行均值归一化得到的该非编码基因节点的初始选择向量;
步骤4,生成训练集:
步骤4.1,将外围基因集中所有的外围基因设置为正样本,正样本的标签置为0,将基因节点的集合中除去外围基因集和核心基因集之外的其余基因设置为负样本,负样本的标签置为1;
步骤4.2,在设置样本标签后的基因节点的集合中随机选择20%的正样本和20%的负样本及其正负样本对应的标签组成训练集,将在设置样本标签后的基因节点的集合中除去训练集样本之外的样本以及样本对应的标签组成测试集;
步骤4.3,按照下式,计算训练集中所有的基因节点的初始选择向量的特征平均权重向量:
步骤5,构建提取外围基因生物调控特征的图注意力神经网络:
步骤5.1,搭建一个5层的提取外围基因的生物调控特征的图注意力神经网络,其结构依次为:特征选择模块,调控转换组,拼接层,KNN-图注意力模块,输出层;将特征选择模块中神经元的个数设置为ps,ps的取值与样本的初始选择向量的维度相等,所述输出层采用K-近邻分类器实现,将K-近邻分类器的参数设置为64*2;
步骤5.2,所述调控转换层是由20个结构相同的调控转换层并联组成,每一个调控转换层的结构依次为:全连接层,第一激活层,转换层,第二激活层;将全连接层的参数设置为第一激活层采用softmax函数实现,将转换层中的神经元个数设置为32,第二激活层采用sigmoid函数实现,其中,的取值与样本的初始选择向量的维度相等;
步骤6,训练图注意力神经网络:
步骤6.1,将训练集中的每个样本依次输入到图注意力神经网络中,经图注意力神经网络的拼接层中20个并联的调控转换层输出该样本20个调控特征,将20个调控特征拼接后得到该样本的生物调控特征,计算所有样本中的每两个样本的生物调控特征之间的欧式距离,将与每个样本的欧氏距离最小的dis个样本作为该样本的邻居集合,由此构建无向图G'=(V',E');将无向图G'与每一个样本的生物调控特征同时输入到KNN注意力池化层中;其中,V'表示所有的样本节点,E'表示在每个样本与其邻居集合中的每一个样本之间建立的边的集合;
步骤6.2,利用随机梯度下降法,迭代更新参数,直至损失函数收敛为止,得到训练好的图注意力神经网络;
步骤7,提取每一个外围基因的调控特征:
步骤7.1,采用与步骤2相同的方法,提取待提取拓扑调控特征的外围基因集中每个基因的拓扑调控特征;
步骤7.2,采用与步骤4相同的方法,对待提取生物调控特征的外围基因进行处理,将处理后的外围基因输入到训练好的图注意力神经网络中,输出该外围基因的生物调控特征;将外围基因的生物调控特征与其对应的外围基因的拓扑调控特征拼接,得到该外围基因的调控特征。
本发明与现有技术相比有以下优点:
第一,由于本发明提出了一种图表示学习方法,用于对外围基因的调控特征提取,克服了现有方法无法提取在网络中的外围基因对于某个核心模块的调控特征的缺陷,使得本发明能够对于构建的任意网络中所确定的核心基因与外围基因,更好的反映外围基因在拓扑结构上对核心基因的调控形式,从而获得更准确地分类结果。
第二,由于本发明利用搭建并训练好图注意力神经网络,提取外围基因的生物调控特征,克服了现有方法提取的特征无法从生物意义上反映外围基因对任一核心基因的调控的缺陷,使得本发明能够在提取出外围基因对任一核心基因的生物调控特征后,更好的反映全基因图模型中外围基因对核心基因的调控机理,能够增强外围基因调控过程的可解释性。
第三,由于本发明基于全基因模型提取外围基因在拓扑结构和生物功能上对核心基因的调控特征,克服了现有方法中对于全基因图模型的应用仍处于概念化阶段的缺陷,使得本发明可以为任意表型基于全基因图模型提取外围基因的调控特征,进而更好的为表型子分类问题提供支持。
附图说明
图1是本发明的流程图;
图2是本发明的仿真实验的结果图。
具体实施方式
下面结合附图和实施例,对本发明做进一步的详细描述。
参照图1,对本发明的实现步骤做进一步的描述。
步骤1,在构建的网络中确定外围基因与核心基因。
步骤1.1,构建人类相互作用网络。
本发明的实施例中所使用的网络是一个以24215个基因构成人类基因相互作用网络,该人类基因相互作用网络中的每个网络节点对应一个基因,将存在相互作用的每两个基因之间建立一条边。
相互作用网络中的所有基因以RNAInter,miRecords,LncRNADisease,miRTarBase,BIOGRID,OncoBase,LncACTdb,PPI共8个数据库中收集的基因作为网路中的节点,收集的存在相互作用的每两个基因之间建立一条边,最终得到的是一个节点数为24215,边数为314748,由多种节点类型构成的无孤立节点的基因相互作用网络(GenicInteractome Network,GIN)。
相互作用网络中的数据来源指的是:
Yunqing Lind等人在其发表的论文“RNAInter in 2020:RNA interactomerepository with increased coverage and annotation.(Nucleic Acids Research,Oxford University Press,2020,48(D1):D189–D197.)”中公开的67个强实验证据支持的26568条相互作用连边,共包含了10530个基因。
Feifei Xiao等人在其发表的论文“miRecords:An integrated resource formicroRNA-target interactions.(Nucleic Acids Research,2009,37(SUPPL.1):105–110.)”中公开的1992条miRNA与其靶标的相互作用连边,共包含了1356个miRNA基因。
Geng Chen等人在其发表的论文“LncRNADisease:A database for long-non-coding RNA-associated diseases.(Nucleic Acids Research,2013,41(D1):983–986.)”中公开的148个RNA之间的相互作用连边,共包含177个IncRNA基因。
Hsi-Yuan Huang等人在其发表的论文“MiRTarBase 2020:Updates to theexperimentally validated microRNA-target interaction database[J].(NucleicAcids Research,Oxford University Press,2020,48(D1):D148–D154.)”中公开的8489条强实验证据支持的miRNA与靶标相互作用连边,共包含3589个基因。
Andrew Chatr-aryamontri等人在其发表的论文“The BioGRID interactiondatabase:2015update[J].(Nucleic Acids Research,2015,43(D1):D470–D478.)”中公开的8335条人类相关的遗传相互作用连边,共包含3303个编码基因节点。
Yun Zhu等人在其发表的论文“Constructing 3D interaction maps from 1Depigenomes[J].(Nature Communications,Nature Publishing Group,2016,7:1–11.)”中公开的65578个启动子-增强子连边,共包含22820个基因节点。
Peng WangWANG等人在其发表的论文“LncACTdb 2.0:an updated database ofexperimentally supported ceRNA interactions curated from low-and high-throughput experiments[J].(Nucleic Acids Research,Oxford University Press,2019,47(D1):D121–D127.)”中公开的2681条人类基因相互作用连边,共包含1668个编码基因。
Feixiong Cheng等人在其发表的论文“Network-based prediction of drugcombinations[J].(Nature Communications,2019,10(1).)”中公开的234714条人类蛋白质相互作用连边,共包含16348个编码基因。
步骤1.2,在构建的相互作用网络中确定核心基因与外围基因。
步骤1.2.1,将人类基因相互作用网络中的每个网络节点对应一个基因,存在相互作用的每两个基因之间建立一条边,用无向图G=(V,E)建模,其中,V={v1,v2,…,vN}表示基因相互作用网络中的所有基因节点的集合,E表示基因相互作用网络中所有两个基因节点之间的边的集合,N表示人类基因相互作用网络中网络节点的总数,本发明实施例中N=24215,E=314748。
步骤1.2.2,全基因图模型提出了核心基因与外围基因,而不同的表型具有不同的核心基因与外围基因,本发明所述的外围基因调控特征提取方法是对于每一个的表型所确定的外围基因,提取该外围基因的调控特征,本发明以精神分裂症表型作为外围基因调控特征提取方法的应用实例,将人类基因相互作用网络中的每个基因的在8个数据库中的所有调控值相加,得到该基因对表型的调控因子,选取对表型的调控因子大于或等于4的基因组成核心基因集Core,在人类基因相互作用网路中选取对表型的核心基因的调控系数小于或等于0.05的所有基因节点组成外围基因集Per,其中,本发明实施例中核心基因集的大小为20,外围基因集的大小外围7477。
步骤2,提取外围基因集中每个外围基因对核心基因集的拓扑调控特征。
步骤2.1,根据下式,计算每个外围基因节点传播到核心基因集的能量:
其中,δj表示外围基因集中的第j个基因节点传播到核心基因集的能量,C表示核心基因集的大小,∑表示求和操作,r表示核心基因集中核心基因的序号,exp(·)表示以自然常数e为底的指数操作,i表示复数的虚部符号,λo表示由拉普拉斯矩阵分解的特征值对角矩阵中第o个特征值,o=1,2,…,O,O表示拉普拉斯矩阵分解的特征值对角矩阵中特征值的数量,s表示扩散因子,s设置太小或者太大均会使的扩散能量不明显,s的取值等于由拉普拉斯矩阵分解的特征值对角矩阵中所有特征值的平均值,Url表示由拉普拉斯矩阵分解的特征向量矩阵中的第l个基因节向核心基因集中的第r个基因节点传播的能量值,Ulj表示由拉普拉斯矩阵分解的特征向量矩阵中的第j个基因节点向外围基因集中的第l个基因节点传播的能量值,l=1,2,…,L,L表示外围基因集的大小,l的取值与o对应相等,本发明实施例中L=7477。
步骤2.2,在外围基因集中的每个基因向核心基因集中每一个核心基因的传播进行采样,得到该基因节点的拓扑调控特征:
γj=concat(Re(δj),Im(δj))
其中,γj表示外围基因集中第j个基因节点的拓扑调控特征,Re(·)表示取实部操作,Im(·)表示取虚部操作,concat(·)表示拼接操作。
步骤3,构造每个基因节点的初始选择向量。
步骤3.1,Omer Weissbrod等人在其发表的论文“Functionally informed fine-mapping and polygenic localization of complex trait heritability[J].(NatureGenetics,2020:1-9.)”中公开了q条生物功能条目,每一条生物功能条目包含了参与该生物功能的编码基因节点,本发明的实施例将第k条生物功能条目包含的编码基因总数为nk的每一个编码基因的第k个位置置1,第k条生物功能条目中不包含的编码基因的第k个位置均置0,由此将节点集V中每一个编码基因参与q个生物功能条目的情况表示为一个p维的初始生物特征向量,对每一个编码基因节点的初始生物特征进行均值归一化得到的该编码基因节点的初始选择向量f,其中,表示向量空间,p=q,q表示所有生物功能条目的数量,本发明实施例中q=1555,p=1555。
步骤3.2,本发明实例中在无向图G中选取每一个非编码基因节点的一阶邻居基因节点集合中的编码基因节点集合X;将第k条生物功能条目中包含的数量为nk的编码基因集与编码基因节点集合X取交集得到x个基因。然后将基因节点的集合中随机选择的数量为nk的基因集与编码基因节点集合X取交集得到数量为xr的重叠节点集,将该选择过程随机1000次得到1000个重叠节点集,计算所选的1000个重叠节点集规模的均值μ与方差σ,根据计算显著性得分z_score,z_score大于1.645则将非编码基因节点的第k个位置置1,z_score小于1.645则将非编码基因节点的第k个位置置0,由此将每一个非编码基因表示为一个p'维的初始生物特征向量,对每一个非编码基因节点的初始生物特征进行均值归一化得到的该非编码基因节点的初始选择向量,本发明实施例中p'=1555。
步骤4,生成训练集与测试集。
步骤4.1,将外围基因集中所有的外围基因设置为正样本,正样本的标签置为0,将基因节点的集合中除去外围基因集和核心基因集之外的其余基因设置为负样本,负样本的标签置为1。
步骤4.2,在设置样本标签后的基因节点的集合中随机选择20%的正样本和20%的负样本及其正负样本对应的标签组成训练集,将在设置样本标签后的基因节点的集合中除去训练集样本之外的样本以及样本对应的标签组成测试集;步骤4.3,按照下式,计算训练集中所有的基因节点的初始选择向量的特征平均权重向量:
步骤5,构建提取外围基因生物调控特征的图注意力神经网络。
搭建一个5层的提取外围基因的生物调控特征的图注意力神经网络,其结构依次为:特征选择模块,调控转换组,拼接层,KNN-图注意力模块,输出层。将特征选择模块中神经元的个数设置为ps,其中,ps的取值与样本的初始选择向量的维度相等,在本发明实施例中,ps=1555。所述输出层采用K-近邻分类器实现,将K-近邻分类器的参数设置为64*2。
所述调控转换组由20个结构相同的调控转换层并联组成。
每一个调控转换层的结构依次为:全连接层,第一激活层,转换层,第二激活层。将全连接层的参数设置为1555*32,第一激活层采用softmax函数实现,将转换层中的神经元个数设置为32,第二激活层采用sigmoid函数实现。
所述KNN-图注意力模块是由KNN注意力池化层,前馈层串联组成。前馈层采用感知器仿射内核方法实现。
所述KNN注意力池化层的结构依次为:卷积层,注意力层,池化层。将卷积层的卷积核大小设置为1×1,注意力层采用激活函数sigmoid实现,池化层采用平均池化方式。
本发明的实施例是采用Tianle Ma等人在其发表的论文“Affinitynet:semi-supervised few-shot learning for disease type prediction.(In Proceedings ofthe AAAI conference on artificial intelligence,vol.33,no.01,pp.1069-1076.2019)”中公开的KNN注意力池化层的结构和参数设置。
步骤6,训练图注意力神经网络。
步骤6.1,将训练集中的每个样本依次输入到图注意力神经网络中,经图注意力神经网络的拼接层中20个并联的调控转换层输出该样本20个调控特征,将20个调控特征拼接后得到该样本的生物调控特征,计算所有样本中的每两个样本的生物调控特征之间的欧式距离,将与每个样本的欧氏距离最小的dis个样本作为该样本的邻居集合,由此构建无向图G'=(V',E');将无向图G'与每一个样本的生物调控特征同时输入到KNN注意力池化层中,其中,V'表示所有的样本节点,E'表示在每个样本与其邻居集合中的每一个样本之间建立的边的集合,本发明实施例中dis=5。
步骤6.2,利用随机梯度下降法,迭代更新参数,直至损失函数收敛为止,得到训练好的图注意力神经网络。
所述的损失函数为:
其中,L表示损失函数,yj表示训练集的第j个基因节点的真实标签,log表示以10为底的对数操作,pj表示训练集中的第j个基因节点被预测为外围基因的概率,||·||表示取模操作,表示训练样本中所有正样本的初始选择向量的和。
步骤7,提取每一个外围基因的调控特征。
步骤7.1,采用与步骤2相同的方法,提取待提取拓扑调控特征的外围基因集中每个基因的拓扑调控特征。
步骤7.2,采用与步骤4相同的方法,对待提取生物调控特征的外围基因进行处理,将处理后的外围基因输入到训练好的图注意力神经网络中,输出该外围基因的生物调控特征;将外围基因的生物调控特征与其对应的外围基因的拓扑调控特征拼接,得到该外围基因的调控特征。
下面结合仿真实验对本发明的效果做进一步的描述。
1.仿真条件:
本发明的仿真实验的硬件平台:处理器为Intel(R)Core(TM)i7-8550U CPU@1.80GHz,内存128GB。
本发明的仿真实验的软件平台为:Windows10操作系统,Pytorch 1.5.1,python3.6。
本发明仿真实验的所使用的数据集是:精神分裂症的外围基因基因表达数据。该基因表达数据是一个表达矩阵,该矩阵表示了15906个基因在59个样本上的表达值,59个样本由30个疾病样本,29个正常样本组成。是由Huan Luo等人在其发表的论文“PrognosticImplications of Novel Ten-Gene Signature in Uveal Melanoma[J].(Frontiers inOncology,2020,10.)”中公开的数据。
2.仿真实验内容及其结果分析:
本发明仿真实验是采用本发明和现有提取特征的方法(ALL PEEP、Per PEEP、CorePEEP、Per Exp、Core Exp、DEG Exp)共七种方法,分别对输入的数据集中的样本提取调控特征,根据调控特征对样本分类,将七种方法的结果绘制成图2。
现有技术PEEP提取特征的方法指的是,Menche等人在其发表的论文“Integrating personalized gene expression profiles into predictive disease-associated gene pools[J].(Npj Systems Biology&Applications,2017,3(1):10.)”中提出的对样本建立个性化扰动谱得到样本特征的分类方法,简称PEEP,将基于相互作用网络中所有基因的个性扰动谱得到的样本特征的方法简称为ALL PEEP,将基于外围基因个性扰动谱得到的样本特征的方法简称为Per PEEP,将基于核心基因个性扰动谱得到的样本特征的方法简称为Core PEEP。
现有技术Exp提取特征的方法指的是,Bin Tang等人在其发表的论文“Differential age-and disease-related effects on the expression of genesrelated to the arachidonic acid signaling pathway in schizophrenia.(Psychiatry Res.2012Apr30;196(2-3):201-6.)”中提出的对样本建立表达谱得到样本特征的分类方法,简称Exp,将基于外围基因表达谱得到的样本特征的方法简称为Per Exp,将基于核心基因表达谱得到的样本特征的方法简称为Core Exp,将基于差异表达基因表达谱得到的样本特征的方法简称为DEG Exp。
为了验证本发明仿真实验的效果,根据七种方法对输入数据集中每一个样本的分类结果,得到每一个样本的真阳性率(TPR),假阳性率(FPR),以TPR为纵坐标,FPR为横坐标绘制接受者操作特性曲线对七种方法的分类结果进行评价。
下面结合图2的仿真图对本发明在仿真实验中的效果做进一步描述。
图2中的横坐标代表假阳性率,纵坐标代表真阳性率,七种技术方法对应七条不同类型的曲线,每条曲线上的每一个点代表该方法的每一个阈值得到的假阳性率与真阳性率,其中,PToC-GW表示本发明的仿真实验结果。
结合附图2可以看出,本发明提取的外围基因特征在样本分类中均超过了现有技术,证明本发明能够学习得到外围基因对核心基因的调控信息,进而应用于疾病子分类中能得到更高的准确度。
以上描述仅是本发明的一个具体实例,并不构成对本发明的任何限制。显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (3)
1.一种基于图表示学习与注意力机制的外围基因调控特征提取方法,其特征在于,将通过图表示学习算法得到的外围基因在相互作用网络中向核心基因扩散的能量采样、拼接组成拓扑调控特征,构建图注意力神经网络;该特征提取方法的步骤包括如下:
步骤1,在构建的网络中确定核心基因与外围基因:
步骤1.1,构建一个由N个节点构成的人类基因相互作用网络,该人类基因相互作用网络中的每个网络节点对应一个基因,将存在相互作用的每两个基因之间建立一条边,将该网络用无向图G=(V,E)建模,其中,N表示人类基因相互作用网络中基因节点的总数,V表示无向图G中基因节点的总数,V的取值与N相等,E表示无向图G中边的总数;
步骤1.2,将人类基因相互作用网络中的每个基因的所有调控值相加,得到该基因对表型的调控因子,在人类基因相互作用网路中选取对表型的调控因子大于或等于4的基因组成核心基因集,在人类基因相互作用网路中选取对表型的核心基因的调控系数小于或等于0.05的所有基因节点组成外围基因集;
步骤2,提取外围基因集中每个基因对核心基因集的拓扑调控特征:
步骤2.1,根据下式,计算每个外围基因节点传播到核心基因集的能量:
其中,δj表示外围基因集中的第j个基因节点传播到核心基因集的能量,C表示核心基因集的大小,∑表示求和操作,r表示核心基因集中核心基因的序号,exp(·)表示以自然常数e为底的指数操作,i表示复数的虚部符号,λo表示由拉普拉斯矩阵分解的特征值对角矩阵中第o个特征值,o=1,2,…,O,O表示拉普拉斯矩阵分解的特征值对角矩阵中特征值的数量,s表示扩散因子,s的取值等于由拉普拉斯矩阵分解的特征值对角矩阵中所有特征值的平均值,Url表示由拉普拉斯矩阵分解的特征向量矩阵中的第l个基因节向核心基因集中的第r个基因节点传播的能量值,Ulj表示由拉普拉斯矩阵分解的特征向量矩阵中的第j个基因节点向外围基因集中的第l个基因节点传播的能量值,l=1,2,…,L,L表示外围基因集的大小,l的取值与o对应相等;
步骤2.2,在外围基因集中的每个基因向核心基因集中每一个核心基因的传播进行采样,得到该基因节点的拓扑调控特征:
γj=concat(Re(δj),Im(δj))
其中,γj表示外围基因集中第j个基因节点的拓扑调控特征,Re(·)表示取实部操作,Im(·)表示取虚部操作,concat(·)表示拼接操作;
步骤3,生成每个基因节点的初始选择向量;
步骤3.1,选取q条生物功能条目,每一条生物功能条目包含了参与该生物功能的编码基因节点;将第k条生物功能条目包含的编码基因总数为nk的每一个编码基因的第k个位置置1,第k条生物功能条目中不包含的编码基因的第k个位置均置0,由此将节点集V中每一个编码基因参与q个生物功能条目的情况表示为一个p维的初始生物特征向量,对每一个编码基因节点的初始生物特征进行均值归一化得到的该编码基因节点的初始选择向量,其中,p=q,q表示所有生物功能条目的数量;
步骤3.2,在无向图G中选取每一个非编码基因节点的一阶邻居基因节点集合中的编码基因节点集合X;将第k条生物功能条目中包含的数量为nk的编码基因集与编码基因节点集合X取交集得到x个基因;将基因节点的集合中随机选择的数量为nk的基因集与编码基因节点集合X取交集得到数量为xr的重叠节点集,将该选择过程随机1000次得到1000个重叠节点集,计算所选的1000个重叠节点集规模的均值μ与方差σ,根据计算显著性得分z_score,z_score大于1.645则将非编码基因节点的第k个位置置1,z_score小于1.645则将非编码基因节点的第k个位置置0,由此将每一个非编码基因表示为一个p维的初始生物特征向量,对每一个非编码基因节点的初始生物特征进行均值归一化得到的该非编码基因节点的初始选择向量;
步骤4,生成训练集:
步骤4.1,将外围基因集中所有的外围基因设置为正样本,正样本的标签置为0,将基因节点的集合中除去外围基因集和核心基因集之外的其余基因设置为负样本,负样本的标签置为1;
步骤4.2,在设置样本标签后的基因节点的集合中随机选择20%的正样本和20%的负样本及其正负样本对应的标签组成训练集,将在设置样本标签后的基因节点的集合中除去训练集样本之外的样本以及样本对应的标签组成测试集;
步骤4.3,按照下式,计算训练集中所有的基因节点的初始选择向量的特征平均权重向量:
步骤5,构建提取外围基因生物调控特征的图注意力神经网络:
步骤5.1,搭建一个5层的提取外围基因的生物调控特征的图注意力神经网络,其结构依次为:特征选择模块,调控转换组,拼接层,KNN-图注意力模块,输出层;将特征选择模块中神经元的个数设置为ps,ps的取值与样本的初始选择向量的维度相等,所述输出层采用K-近邻分类器实现,将K-近邻分类器的参数设置为64*2;
步骤5.2,所述调控转换层是由20个结构相同的调控转换层并联组成,每一个调控转换层的结构依次为:全连接层,第一激活层,转换层,第二激活层;将全连接层的参数设置为第一激活层采用softmax函数实现,将转换层中的神经元个数设置为32,第二激活层采用sigmoid函数实现,其中,的取值与样本的初始选择向量的维度相等;
步骤6,训练图注意力神经网络:
步骤6.1,将训练集中的每个样本依次输入到图注意力神经网络中,经图注意力神经网络的拼接层中20个并联的调控转换层输出该样本20个调控特征,将20个调控特征拼接后得到该样本的生物调控特征,计算所有样本中的每两个样本的生物调控特征之间的欧式距离,将与每个样本的欧氏距离最小的dis个样本作为该样本的邻居集合,由此构建无向图G'=(V',E');将无向图G'与每一个样本的生物调控特征同时输入到KNN注意力池化层中;其中,V'表示所有的样本节点,E'表示在每个样本与其邻居集合中的每一个样本之间建立的边的集合;
步骤6.2,利用随机梯度下降法,迭代更新参数,直至损失函数收敛为止,得到训练好的图注意力神经网络;
步骤7,提取每一个外围基因的调控特征:
步骤7.1,采用与步骤2相同的方法,提取待提取拓扑调控特征的外围基因集中每个基因的拓扑调控特征;
步骤7.2,采用与步骤4相同的方法,对待提取生物调控特征的外围基因进行处理,将处理后的外围基因输入到训练好的图注意力神经网络中,输出该外围基因的生物调控特征;将外围基因的生物调控特征与其对应的外围基因的拓扑调控特征拼接,得到该外围基因的调控特征。
2.根据权利要求1所述的基于图表示学习与注意力机制的外围基因调控特征提取方法,其特征在于,步骤5.1中所述KNN-图注意力模块是由KNN注意力池化层,前馈层串联组成;前馈层采用感知器仿射内核方法实现;KNN注意力池化层的结构依次为:卷积层,注意力层,池化层;将卷积层的卷积核大小设置为1×1,注意力层采用激活函数sigmoid实现,池化层采用平均池化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210729500.3A CN115083511A (zh) | 2022-06-24 | 2022-06-24 | 基于图表示学习与注意力的外围基因调控特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210729500.3A CN115083511A (zh) | 2022-06-24 | 2022-06-24 | 基于图表示学习与注意力的外围基因调控特征提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115083511A true CN115083511A (zh) | 2022-09-20 |
Family
ID=83255004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210729500.3A Pending CN115083511A (zh) | 2022-06-24 | 2022-06-24 | 基于图表示学习与注意力的外围基因调控特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083511A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024065070A1 (zh) * | 2022-09-26 | 2024-04-04 | 之江实验室 | 一种基于图聚类的基因编码育种预测方法和装置 |
-
2022
- 2022-06-24 CN CN202210729500.3A patent/CN115083511A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024065070A1 (zh) * | 2022-09-26 | 2024-04-04 | 之江实验室 | 一种基于图聚类的基因编码育种预测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Maraziotis | A semi-supervised fuzzy clustering algorithm applied to gene expression data | |
CN105975573A (zh) | 一种基于knn的文本分类方法 | |
CN111564183B (zh) | 融合基因本体和神经网络的单细胞测序数据降维方法 | |
CN109740655B (zh) | 基于矩阵分解及神经协同过滤的物品评分预测方法 | |
CN111370073B (zh) | 一种基于深度学习的药物互作规则预测方法 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN110880369A (zh) | 基于径向基函数神经网络的气体标志物检测方法及应用 | |
CN115688024B (zh) | 基于用户内容特征和行为特征的网络异常用户预测方法 | |
CN112489723B (zh) | 基于局部进化信息的dna结合蛋白预测方法 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN104966106A (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
CN115083511A (zh) | 基于图表示学习与注意力的外围基因调控特征提取方法 | |
CN111786999A (zh) | 一种入侵行为的检测方法、装置、设备和存储介质 | |
Hou et al. | Evolving dendritic neuron model by equilibrium optimizer algorithm | |
CN114187966A (zh) | 一种基于生成对抗网络的单细胞rna序列缺失值填补方法 | |
CN114444654A (zh) | 一种面向nas的免训练神经网络性能评估方法、装置和设备 | |
CN113223655A (zh) | 基于变分自编码器的药物-疾病关联预测方法 | |
CN112488146A (zh) | 基于深度学习的飞机危险识别与趋势预测方法 | |
CN112926640A (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
CN116959561B (zh) | 一种基于神经网络模型的基因相互作用预测方法和装置 | |
CN115719040B (zh) | 一种青霉素发酵过程关键变量软测量方法及系统 | |
CN114694748B (zh) | 一种基于预后信息与强化学习的蛋白质组学分子分型方法 | |
CN114496092B (zh) | 基于图卷积网络的miRNA和疾病关联关系预测方法 | |
CN117556334A (zh) | 一种基于机器学习的多组学数据层次分类结构学习系统 | |
Guo | Modeling and Mining on High-Dimensional Biological Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |