CN113591930A - 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 - Google Patents
一种基于网络融合与图嵌入的病毒-宿主关联预测方法 Download PDFInfo
- Publication number
- CN113591930A CN113591930A CN202110759660.8A CN202110759660A CN113591930A CN 113591930 A CN113591930 A CN 113591930A CN 202110759660 A CN202110759660 A CN 202110759660A CN 113591930 A CN113591930 A CN 113591930A
- Authority
- CN
- China
- Prior art keywords
- virus
- host
- similarity
- node
- path
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
- G06F21/561—Virus type analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Health & Medical Sciences (AREA)
- Virology (AREA)
- Computing Systems (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于网络融合与图嵌入的病毒‑宿主关联预测方法,通过使用相似网络融合方法和图嵌入方法分别构造了两种病毒‑病毒相似网络和宿主‑宿主相似网络,并提出一种图挖掘的方式,即从图中提取元路径得分,基于这种图挖掘的方式可从两种网络上获取每对病毒‑宿主的特征向量,最后使用机器学习的方法来获得最终的结果。本发明在现有数据集上实现了较高的精确度,相比于其他方法表现比较稳定,由本发明预测一些病毒‑宿主关联关系,部分在已发表的论文和数据库中得到了验证,并且本发明的计算方法预测出了在已知文献或数据库中没有的、且全新的病毒宿主关联关系,这些新的病毒‑宿主关系可为实验验证提供有效指导。
Description
技术领域
本发明属于生物信息学、计算生物学、人工智能交叉领域,具体涉及一种基于网络融合与图嵌入的病毒-宿主关联预测方法。
背景技术
病毒依赖宿主生存,在群落结构和功能中扮演重要角色,但病毒种类繁多并且它与宿主的关系呈多样化。传统实验方法探寻病毒与其宿主的关系,不仅实验花费昂贵,试验周期长,而且可能出现不确定因素影响实验结果,进而导致成功率低,由此需要发现更高效和准确的方法。因此,基于数学模型以预测病毒与宿主相互作用的计算方法,已经受到了越来越多的关注。由于病毒和宿主都面临自然选择压力,它们不断地进行竞争,宿主需进化出对病毒的抗性以抵御被感染,而病毒如不能感染宿主就无法生存,最终结果可能是病毒将其基因整合到宿主中,可利用这种信息来识别病毒的宿主,即病毒与宿主存在相关作用关系。
面对传统基于实验探求病毒宿主关联的局限性,研究人员提出了基于计算机模拟的预测病毒与宿主相互作用的技术以预测病毒与宿主的新关联关系,需要引入已知的病毒与宿主的关联,甚至需要病毒与病毒相互关联,宿主与宿主的相互关联。在样本或群落中,微生物-微生物(细菌、病毒等)之间为了营养或领地而出现互生、寄生、拮抗等关系而形成多种相互作用的复杂网络,称为异构网络。异构网络的节点为细菌和病毒,细菌-细菌、病毒-病毒、细菌-病毒有多种相互作用关系从而形成异构网络的边,难点在于融合各种不同类型节点或边的信息以更准确地预测病毒的宿主。传统异构网络挖掘过程通常从提取结构特征开始,例如对象关系、网络结构和元路径等,然后将这些特征输入到机器学习模型中,用于后续学习任务。但手动设计特征这个过程费时费力并且特征不具备迁移性,换而言之,手动设计的特征往往只适合特定应用场景,因而不具备通用性。因此,目前基于异构网络的数据挖掘技术已经转向了基于图神经网络的表示学习方式。异构网络表示学习假设网络的内在结构和语义属性可以被编码到潜在低维向量中,以使模型可以自动学习网络对象如顶点、边和子图等潜在低维表示,从而方便后续的学习任务。例如,一些基于特征的分类方法以病毒与宿主关联作为样本,将病毒与宿主边的信息作为特征向量来表征样本,然后使用分类器来区分是否存在关联。尽管存在各种预测病毒-宿主的相互作用的方法,但这些基于单一信息的预测模式准确性较差。随着发现的病毒数量增加,需要研究新型、高效的分析方法,以整合多类型的病毒-宿主和病毒-病毒特征信息来更准确、更快地预测病毒-宿主关系。
发明内容
本发明的目的是为了解决背景技术中所述问题,提出一种基于网络融合与图嵌入的病毒-宿主关联预测方法。
在这里为了进一步提高预测病毒与宿主的关联的准确性,本文提出了利用病毒与宿主关联网络的拓扑信息,及多种病毒与病毒之间和宿主与宿主之间的相似性网络的计算方法。这种方法将病毒与宿主的关联预测问题转换成异构网络中节点的链接预测问题。利用图嵌入及相似网络融合技术融合多种网络信息,从而避免其他方法的局限性。本发明的技术方案为一种基于图嵌入预测病毒-宿主相互作用的计算方法,具体包括以下步骤:
步骤1,获取病毒宿主的已知关联;
步骤2,分别度量每一对病毒与病毒和每一对宿主与宿主的相似度,进而构建多个病毒与病毒相似性网络和多个宿主与宿主相似性网络;
步骤5,对由步骤1获得的训练部分病毒宿主关联应用图挖掘技术,生成每个节点的特征表示,所述节点包含病毒节点和宿主节点;
步骤8,对于由步骤4得到的G1和由步骤7得到的G2,根据路径结构及其特征,从图G1提取出相应的元路径分数,从图G2提取出相应的元路径分数;
步骤9,进行特征选择以消除弱特征,然后生成特征向量X,以及所有病毒宿主对的标签Y;
步骤10,将步骤9得到的特征向量X及标签Y,输入到有监督机器学习预测模型。
进一步的,步骤2中使用寡核苷酸频率或高斯相互作谱度量相似度,其中使用寡核苷酸频率度量相似度的具体实现方式如下;
假设存在两个序列A=A1A2...An和B=B1B2...Bm,是由一个长度为d的有限字母表Λ中的字母组成的,对于a∈Λ,让pa表示字母a出现的概率;对于w=(w1,...,wk)∈Λk,让计算w在A出现的次数,与之相似,Yw计算w在B出现的次数,在这里同样如果X和Y是独立的均值零正态,则X有方差Y有方差 同样是正态的,有方差对于w=x1,...,xk,表示w出现的概率,集中的计数变量表示为(1),其中
另一个计数变量(2),其中为未观测的字母概率,即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量,这两个序列是相互独立的,并且都是由同一分布中的独立字母产生的,然后使用估计w=w1,...,wk出现的概率。
Hao由式(3)定义:
两个序列A=A1A2...An和B=B1B2...Bm按字符转换成合成向量A=(a1,a2,...,aN)和B=(b1,b2,...,bN),其中N∈[1,4k],A和B之间的相关性C(A,B),为N维空间中两个代表向量夹角的余弦函数:
Teeling由式(5)(6)(7)及皮尔逊相关系数得到:
一个序列的四核苷酸的观测频率表示为N(n1n2n3n4),相应的期望的频率通过最大阶马尔科夫模型来计算:
其方差为:
使用Z分数评估过高或过低表示水平的显著性,即观察到的频率与预期频率之间的差异
JS散度由式(8)定义
λ(s)=∑n(b1...bkb)logP(b|b1..bk) (9)
使用JS散度衡量两个序列S1和S2概率分布P=λ(S1),Q=λ(S2),JS散度是KL散度的变形,KL散度(Kullback–Leibler divergence)定义如下:
进一步的,高斯核相互作用谱的计算过程包括两个步骤;
首先,病毒vi的相互作用谱IP(vi)是编码病毒vi与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量;其次,病毒vi和病毒vj之间的高斯核相似性是根据它们的相互作用计算的,并定义如下:
Sv(vi,vj)=exp(-γv||IP(vi)-IP(vj)||2) (11)
其参数γv表示核带宽,一个新的核带宽参数定义为:
Nh是宿主的数量,根据先前的研究,r′v设置为1;类似的宿主hi和宿主hj之间的高斯核相似性定义为:
Sh(hi,hj)=exp(-γh||IP(hi)-IP(hj)||2) (13)
其核带宽参数定义为:
其中Nv是病毒的数量,r′h设置为1。
进一步的,步骤3的具体实现方式如下;
以病毒相似性网络为例,病毒相似性网络的边权重分别用一个的Nv×Nv的矩阵Sv表示,然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P,由式(15)定义:
在公式(15)中,S(i,j)是Sv的矩阵元素,其中i和j代表矩阵的行号和列号,然后使用K-近邻度量局部关系,由式(16)定义:
在公式(16)中,Ni表示病毒的邻居数;
由公式(15)得到的P(v)和由公式(16)得到的KNN(v),在公式(15)中,Pi,j是第i个病毒与其他所有病毒的相似性,而在公式(16)中KNN(i,j)是第i个病毒与其邻近病毒的相似度,在相似网络融合算法SNF中,总是把Pi,j作为初始状态,而KNN(i,j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中,SNF的过程是迭代更新相似度矩阵,由式(17)定义:
其中,p(k)是第t步的相似矩阵初始值为Pi,j,P(v)是第t+1步的相似矩阵,公式(17)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P(v);
进一步的,步骤5的具体实现方式如下;
使用node2vec的算法框架,对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习,该异构网络G仅包含已知病毒和宿主的关联,而不使用病毒与病毒相似网络和宿主与宿主相似网络,Node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v,设πvx=αpq(t,x)·ωvx,πvx是顶点v和顶点x之间的未归一化转移概率,ωvx是顶点v和顶点x的边权,路径采样策略αpq(t,x)定义如下:
在公式(18)中,dtx为顶点t和顶点x之间的最短路径距离,由公式(18)可以获得节点邻近集合;
设f(u)将节点u映射到低维向量的映射函数,对于图中任意一个节点u,定义Ns(u)为通过公式(18)采样出的节点u的邻近点集合,由式(19)得到使其邻近点出现的概率最大的f(u):
根据以下两个假设条件
(1)条件独立,假设给定源顶点下,其近邻顶点ni出现的概率与近邻集合中其余顶点无关;
(2)特征空间对称性,这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;
将式(19)优化为最终的目标函数式(22):
通过求这个最终的目标函数式(22)最大值的情况下,得到f(u)的函数形式,从而得到每个节点的特征向量。
进一步的,步骤8的具体实现方式如下,
对于每个病毒宿主对的每种简单路径,从源节点(即宿主节点)开始到目标节点(即病毒节点)结束,使用路径得分来计算,即使用以下公式(23):
在公式(23)中,P={p1,p2,...,pn}是连接宿主节点hi和病毒节点vj的路径集合,Pweights为节点间的权重;路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积。为了减少计算量,将路径长度限制为小于或等于3,即存在6种路径结构Path={path1,path2,path3,path4,path5,path6},每个节点从宿主节点开始,以一个病毒节点结束,path1:(H-H-V),path2:(H-V-V),path3:(H-H-H-V),path4:(H-H-V-V),path5:(H-V-V-V),path6:(H-V-H-V),对每种路径结构的两个特征进行了挖掘。
(1)每个路径结构的所有元路径得分之和:
(2)每个路径结构下所有元路径得分的最高分:
元路径是指具有相同路径结构的所有路径,元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积;ASP表示一对病毒vj和宿主hi之间的元路径;为了确保较长的路径在我们的方法中不处于不利地位,每个最大或总和路径得分都是单独计算的,其中每个得分都考虑到属于特定路径结构的所有路径集。
进一步的,步骤9中采用Adaboost分类模型作为预测模型,Adaboost根据m个弱分类器对样例数据的分类效果的好坏,赋予不同的弱分类器不同的权值并将其组合成一个强分类器,Adaboost的算法流程如下;
(1)给定一个二分类数据集T={(x1,y1),(x2,y2),...,(xN,yN)},x代表输入样例,y代表样例所属的类别空间,初始化训练数据的权值分布:
对于M个分类器Gm(x):x→{0,1},m∈(1,M)分别使用带权值分布的数据进行训练;
(2)计算弱分类器Gm(x)上的分类错误率:
计算Gm(x)的系数:
更新训练数据的权值分布:
Dm+1=(wm+1,1,...,wm+1,j,...,wm+1,N) (29)
其中,Gm(xi)代表弱分类器对样例数据进行分类的结果;
(3)构建基分类器的线性组合:
最终的分类器:
本发明针对现有的病毒宿主关联预测的方法所存在的局限性,提出了一种基于图嵌入预测病毒-宿主相互作用的计算方法,极大提高了病毒宿主关联预测的精确度,并通过使用四个数据集将本发明与其他几种方法相比,大幅提高了预测性能,在所有数据集中实现了较高的精确度,相对于其他方法模型表现比较稳定。并且由本发明预测出的一部分病毒宿主关联,在已发表的论文和数据库得到了验证。
附图说明
图1为本发明实施例的流程图。
具体实施方式
本发明技术方案具体实施时可由本领域技术人员采用计算机软件技术运行。结合附图,提供本发明实施例具体描述如下:
步骤1,从相关的生物信息论文,权威的生物信息网站(NCBI),获取病毒宿主的已知关联。
步骤2,基于基因组寡核苷酸频率的差异方法来推断基因组序列之间的关系。本发明使用JS、Hao、Teeling计算每一对病毒与病毒(每一对宿主与宿主)的基因组寡核苷酸频率向量的距离,度量每一对病毒与病毒(每一对宿主与宿主)的相似度。
假设存在两个序列A=A1A2...An和B=B1B2...Bm,是由一个长度为d的有限字母表Λ中的字母组成的,对于a∈Λ,让pa表示字母a出现的概率。对于w=(w1,...,wk)∈Λk,让计算w在A出现的次数,与之相似,Yw计算w在B出现的次数,在这里同样如果X和Y是独立的均值零正态,则X有方差Y有方差 同样是正态的,有方差对于w=w1,...,wk,表示w出现的概率,集中的计数变量表示为(34),其中
另一个计数变量(35),其中为未观测的字母概率,即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量,这两个序列是相互独立的,并且都是由同一分布中的独立字母产生的,然后使用估计w=w1,...,wk出现的概率。
Hao由式(3)定义:
两个序列A=A1A2...An和B=B1B2...Bm按字符转换成合成向量A=(a1,a2,...,aN)和B=(b1,b2,...,bN),其中N∈[1,4k],A和B之间的相关性C(A,B),为N维空间中两个代表向量夹角的余弦函数:
Teeling由式(5)(6)(7)及皮尔逊相关系数得到:
一个序列的四核苷酸的观测频率表示为N(n1n2n3n4),相应的期望的频率通过最大阶马尔科夫模型来计算:
其方差为:
使用Z分数评估过高或过低表示水平的显著性,即观察到的频率与预期频率之间的差异
JS散度(Jensen-Shannon divergence)由式(8)定义
λ(S)=∑n(b1...bkb)logP(b|b1..bk) (42)
使用JS散度衡量两个序列S1和S2概率分布P=λ(S1),Q=λ(S2),JS散度是KL散度的变形,KL散度(Kullback–Leibler divergence)定义如下:
除此以外,本论文通过已知的病毒与宿主的关联矩阵来计算病毒与病毒(宿主与宿主)之间的高斯核相互作用谱(GIP)。高斯核相互作用谱是目前使用较多的从病毒与宿主关联网络中提取相似度信息的方法。高斯核相互作用谱的计算过程主要包括两个步骤。首先,病毒vi的相互作用谱IP(vi)是编码病毒vi与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量。其次,病毒vi和病毒vj之间的高斯核相似性是根据它们的相互作用计算的,并定义如下:
Sv(vi,vj)=exp(-γv||IP(vi)-IP(vj)||2) (44)
其参数γv表示核带宽,一个新的核带宽参数定义为:
Nh是宿主的数量,根据先前的研究,r′v设置为1。类似的宿主hi和宿主hj之间的高斯核相似性定义为:
Sh(hi,hj)=exp(-γh||IP(hi)-IP(hj)||2) (46)
其核带宽参数定义为:
其中Nv是病毒的数量,r′h设置为1。
步骤3,本发明使用相似网络融合算法(SNF),以病毒相似性网络为例,病毒相似性网络的边权重分别用一个的Nv×Nv的矩阵Sv表示,然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P,由式(15)定义:
在公式(48)中,S(i,j)是Sv的矩阵元素,其中i和j代表矩阵的行号和列号。然后使用K-近邻(KNN)度量局部关系,由式(16)定义:
在公式(49)中,Ni表示病毒的邻居数,病毒的邻居数是预定义的,根据相似矩阵可以计算每个元素与其他元素的距离,根据距离的远近度量元素之间的相似度(距离的远近),本文从中选择前K个元素,即为该元素的邻居数。本文Ni的取值为5,该方法过滤掉了低相似度的边。
由公式(48)得到的P(v)和由公式(49)得到的KNN(v)。在公式(48)中,Pi,j是第i个病毒与其他所有病毒的相似性,而在公式(49)中KNN(i,j)是第i个病毒与其邻近病毒的相似度。在SNF算法中,总是把Pi,j作为初始状态,而KNN(i,j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中。SNF的过程是迭代更新相似度矩阵,由式(17)定义:
其中,p(k)是第t步的相似矩阵初始值为Pi,j,P(v)是第t+1步的相似矩阵,公式(50)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P(v)。
步骤5,本发明使用node2vec的算法框架,对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习,该异构网络G仅包含已知病毒和宿主的关联,而不使用病毒与病毒相似网络和宿主与宿主相似网络。node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v,设πvx=αpq(t,x)·wvx,πvx是顶点v和顶点x之间的未归一化转移概率,wvx是顶点v和顶点x的边权,路径采样策略αpq(t,x)具体定义如下:
在公式(51)中,dtx为顶点t和顶点x之间的最短路径距离,由公式(51)可以获得节点邻近集合。
设f(u)将节点u映射到低维向量的映射函数,对于图中任意一个节点u,定义Ns(u)为通过公式(51)采样出的节点u的邻近点集合,由式(19)得到使其邻近点出现的概率最大的f(u):
根据以下两个假设条件
(1)条件独立,假设给定源顶点下,其近邻顶点ni出现的概率与近邻集合中其余顶点无关;
(2)特征空间对称性,这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;
将式(52)优化为最终的目标函数式(22):
通过求这个最终的目标函数式(55)最大值的情况下,得到f(u)的函数形式,从而得到每个节点的特征向量。
步骤8,对于由步骤4和由步骤7得到的两个异构加权图G1和G2被用来提取基于图的特征。每个图的每个病毒-宿主对之间的多个路径得分被用来反映这些特征。对于每个病毒宿主对的每个简单路径,从源节点(即宿主节点)开始,到目标节点(即病毒节点)结束,使用路径得分来计算,即使用以下公式(23):
在公式(56)中,P={p1,p2,...,pn}是连接宿主节点hi和病毒节点vj的路径集合,Pweights为节点间的权值。路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积。为了减少计算量,本发明将路径长度限制为小于或等于3,即存在6种路径结构Path={path1,path2,path3,path4,path5,path6},每个节点从宿主节点开始,以一个病毒节点结束,path1:(H-H-V),path2:(H-V-V),path3:(H-H-H-V),path4:(H-H-V-V),path5:(H-V-V-V),path6:(H-V-H-V),我们对每种路径结构的两个特征进行了挖掘,
(1)每个路径结构的所有元路径得分之和:
(2)每个路径结构下所有元路径得分的最高分:
元路径是指具有相同路径结构的所有路径,元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积。ASP表示一对病毒vj和宿主hi之间的元路径。为了确保较长的路径在我们的方法中不处于不利地位,每个(最大或总和)路径得分都是单独计算的,其中每个得分都考虑到属于特定路径结构的所有路径集。因此,来自不同路径结构的分数不会在一个特征中混在一起。此外,分数还使用最小最大归一化来进一步归一化,以确保特征被分类器平等对待。
步骤9,由步骤8可对每一对病毒与宿主和每个构建的异构图提取12个特征,这些特征被组合成一个24维的特征向量。本发明的准确性依赖于数据集的基本特征。在进行了经验分析和许多实验后,确定了该分类任务最相关的特征集合。在分析性能时,需要去除一个或多个特征的组合。因此,在应用特征选择后,根据数据集,输入预测模型的特征向量的维度从24个减少到16个。
步骤10,本发明使用的是已知的表现较好的机器学习分类模型Adaboost,Adaboost根据m个弱分类器对样例数据的分类效果的好坏,赋予不同的弱分类器不同的权值并将其组合成一个强分类器,Adaboost的算法流程:
(1)给定一个二分类数据集T={(x1,y1),(x2,y2),...,(xN,yN)},x代表输入样例,y代表样例所属的类别空间,初始化训练数据的权值分布:
对于M个分类器Gm(x):x→{0,1},m∈(1,M),分别使用带权值分布的数据进行训练;
(2)计算弱分类器Gm(x)上的分类错误率:
计算Gm(x)的系数:
更新训练数据的权值分布:
Dm+1=(wm+1,1,...,wm+1,j,...,wm+1,N) (62)
其中,Gm(xi)代表弱分类器对样例数据进行分类的结果;
(3)构建基分类器的线性组合:
最终的分类器:
为验证本发明方法有效性,在多个数据集上做了对比实验。本实验使用了四个数据集,数据集来自论文、权威的生物信息网站,这些数据集的信息如下表(表1)所示:
表1四个数据集的基本信息
Dataset I | Dataset II | Dataset III | DatasetⅣ | |
病毒数量 | 728 | 32 | 312 | 1380 |
宿主数量 | 129 | 119 | 747 | 221 |
已知关联 | 728 | 368 | 4539 | 1479 |
未知关联 | 93184 | 3440 | 228525 | 303501 |
稀疏比 | 0.0078 | 0.1070 | 0.0199 | 0.0048 |
并与其他的五个关联预测的方法进行比较:
■ILMF-VH,基于多信息矩阵融合的病毒与宿主关联预测。病毒相似性网络基于寡核苷酸频率(ONF)度量构建,并通过相似性网络融合(SNF)整合宿主的寡核苷酸频率相似性和高斯相互作用谱(GIP)核相似性从而构建宿主相似性网络。然后在病毒与宿主的异构网络上执行领域正则化逻辑矩阵分解算法来预测病毒宿主关联;
■层注意图卷积网络(LAGCN)将已知的病毒与宿主关联,病毒-病毒相似度,宿主-宿主相似度整合成异构网络,并将图卷积应用在异构网络上,学习病毒与宿主的嵌入。其次,LAGCN利用注意力机制结合多个图卷积层的嵌入。在预测病毒-宿主关联取得良好的效果;
■NetLapRLS,在合并的已知病毒宿主相互作用网络上,采用半监督学习方法正则最小二乘法,分别对病毒和宿主领域进行训练,然后结合在一起,得到最终的预测结果;
■BLM-NII,基于邻居的交互配置文件推断(NII),并将其集成到有监督学习方法,二分局部模型(BLM)方法中,以处理新的关联问题。具体来说,推断的交互关系被视为标签信息,并用于新候选对象的模型学习;
■CMF,该模型将病毒和宿主投射到一个共同的低等级特征空间中,通过两个低秩矩阵协作预测病毒-宿主相互作用。
本发明采用的评估指标为AUC和AUPR,即接受者操作特征(ROC)曲线下的面积(AUC),以及精确-召回曲线下的面积(AUPR),实验结果如下表(表2)所示:
表2本发明与其他方法在四个数据集的实验结果对比
数据集 | 评估指标 | Ours | ILMF-VH | LAGCN | NetLapRLS | BLM-NII | CMF |
Dataset I | AUC | 0.99991 | 0.75380 | 0.92508 | 0.08741 | 0.86028 | 0.76867 |
AUPR | 0.99086 | 0.21475 | 0.79621 | 0.00422 | 0.24655 | 0.04473 | |
Dataset II | AUC | 0.98955 | 0.79128 | 0.79811 | 0.76468 | 0.80453 | 0.50939 |
AUPR | 0.91827 | 0.30862 | 0.41345 | 0.50196 | 0.48382 | 0.22213 | |
Dataset III | AUC | 0.99999 | 0.99391 | 0.99868 | 0.99740 | 0.99683 | 0.77741 |
AUPR | 0.99999 | 0.63898 | 0.96357 | 0.97915 | 0.90456 | 0.42784 | |
DatasetⅣ | AUC | 0.99965 | 0.82112 | 0.91179 | 0.69508 | 0.90606 | 0.73420 |
AUPR | 0.96485 | 0.24104 | 0.73203 | 0.01979 | 0.38681 | 0.02030 |
本发明在数据集DatasetⅣ上预测出前十个的关联如下表(表3)所示:
表3本发明预测的前十的关联
Rank | Host Name | Virus Name | Evidence |
1 | Campylobacter jejuni | Campylobacter phage CP8 | PMID:32054081 |
2 | Erysimum | Listeria phage A118 | unknown |
3 | Erwinia sp. | Erwinia phage phiEa1H | PMID:26555076 |
4 | Klebsiella pneumoniae | Klebsiella phage PMBT1 | PMID:31976857 |
5 | Pseudomonas syringae | Pseudomonas phage phiPSA2 | PMID:32610695 |
6 | Lactococcus lactis subsp.cremoris | Lactococcus phage P680 | PMID:30135597 |
7 | Gordonia terrae | Gordonia phage Troje | unknown |
8 | Lactococcus sp. | Lactococcus phage fd13 | unknown |
9 | Aeropyrum pernix K1 | Aeropyrum pernix bacilliform virus 1 | PMID:21784945 |
10 | Pseudomonas aeruginosa | Pseudomonas phage MP1412 | PMID:26115051 |
本文基于一种基于网络融合与图嵌入的病毒-宿主关联预测方法的精度均显著优于现有的几种常用方法,证明了本文方法的优越性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (7)
1.一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于,包括以下步骤:
步骤1,获取病毒宿主的已知关联;
步骤2,分别度量每一对病毒与病毒和每一对宿主与宿主的相似度,进而构建多个病毒与病毒相似性网络和多个宿主与宿主相似性网络;
步骤5,对由步骤1获得的训练部分病毒宿主关联应用图挖掘技术,生成每个节点的特征表示,所述节点包含病毒节点和宿主节点;
步骤8,对于由步骤4得到的G1和由步骤7得到的G2,根据路径结构及其特征,从图G1提取出相应的元路径分数,从图G2提取出相应的元路径分数;
步骤9,进行特征选择以消除弱特征,然后生成特征向量X,以及所有病毒宿主对的标签Y;
步骤10,将步骤9得到的特征向量X及标签Y,输入到有监督机器学习预测模型。
2.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤2中使用寡核苷酸频率或高斯相互作谱度量相似度,其中使用寡核苷酸频率度量相似度的具体实现方式如下;
假设存在两个序列A=A1A2...An和B=B1B2...Bm,是由一个长度为d的有限字母表Λ中的字母组成的,对于a∈Λ,让pa表示字母a出现的概率;对于w=(w1,...,wk)∈Λk,让计算w在A出现的次数,与之相似,Yw计算w在B出现的次数,在这里同样如果X和Y是独立的均值零正态,则X有方差Y有方差 同样是正态的,有方差对于w=w1,...,wk,表示w出现的概率,集中的计数变量表示为(1),其中
另一个计数变量(2),其中为未观测的字母概率,即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量,这两个序列是相互独立的,并且都是由同一分布中的独立字母产生的,然后使用估计w=w1,...,wk出现的概率。
Hao由式(3)定义:
两个序列A=A1A2...An和B=B1B2...Bm按字符转换成合成向量A=(a1,a2,...,aN)和B=(b1,b2,...,bN),其中N∈[1,4k],A和B之间的相关性C(A,B),为N维空间中两个代表向量夹角的余弦函数:
Teeling由式(5)(6)(7)及皮尔逊相关系数得到:
一个序列的四核苷酸的观测频率表示为N(n1n2n3n4),相应的期望的频率通过最大阶马尔科夫模型来计算:
其方差为:
使用Z分数评估过高或过低表示水平的显著性,即观察到的频率与预期频率之间的差异
JS散度由式(8)定义
λ(S)=∑n(b1...bkb)logP(b|b1..bk) (9)
使用JS散度衡量两个序列S1和S2概率分布P=λ(S1),Q=λ(S2),JS散度是KL散度的变形,KL散度定义如下:
3.如权利要求2所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:高斯核相互作用谱的计算过程包括两个步骤;
首先,病毒υi的相互作用谱IP(υi)是编码病毒υi与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量;其次,病毒υi和病毒υj之间的高斯核相似性是根据它们的相互作用计算的,并定义如下:
Sυ(υi,υj)=exp(-γυ|IP(υi)-IP(υj)||2) (11)
其参数γυ表示核带宽,一个新的核带宽参数定义为:
Nh是宿主的数量,根据先前的研究,r′υ设置为1;类似的宿主hi和宿主hj之间的高斯核相似性定义为:
Sh(hi,hj)=exp(-γh||IP(hi)-IP(hj)||2) (13)
其核带宽参数定义为:
其中Nυ是病毒的数量,r′h设置为1。
4.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤3的具体实现方式如下;
以病毒相似性网络为例,病毒相似性网络的边权重分别用一个的Nυ×Nυ的矩阵Sv表示,然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P,由式(15)定义:
在公式(15)中,S(i,j)是Sv的矩阵元素,其中i和j代表矩阵的行号和列号,然后使用K-近邻度量局部关系,由式(16)定义:
在公式(16)中,Ni表示病毒的邻居数;
由公式(15)得到的P(υ)和由公式(16)得到的KNN(υ),在公式(15)中,Pi,j是第i个病毒与其他所有病毒的相似性,而在公式(16)中KNN(i,j)是第i个病毒与其邻近病毒的相似度,在相似网络融合算法SNF中,总是把Pi,j作为初始状态,而KNN(i,j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中,SNF的过程是迭代更新相似度矩阵,由式(17)定义:
其中,p(k)是第t步的相似矩阵初始值为Pi,j,P(υ)是第t+1步的相似矩阵,公式(17)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P(υ);
5.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤5的具体实现方式如下;
使用node2vec的算法框架,对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习,该异构网络G仅包含已知病毒和宿主的关联,而不使用病毒与病毒相似网络和宿主与宿主相似网络,Node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,υ)到达顶点υ,设πυx=αpq(t,x)·wυx,πυx是顶点υ和顶点x之间的未归一化转移概率,wυx是顶点υ和顶点x的边权,路径采样策略αpq(t,x)定义如下:
在公式(18)中,dtx为顶点t和顶点x之间的最短路径距离,由公式(18)可以获得节点邻近集合;
设f(u)将节点u映射embedding向量的映射函数,对于图中任意一个节点u,定义Ns(u)为通过公式(18)采样出的节点u的邻近点集合,由式(19)得到使其邻近点出现的概率最大的f(u):
根据以下两个假设条件
(1)条件独立,假设给定源顶点下,其近邻顶点ni出现的概率与近邻集合中其余顶点无关;
(2)特征空间对称性,这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;
将式(19)优化为最终的目标函数式(22):
通过求这个最终的目标函数式(22)最大值的情况下,得到f(u)的函数形式,从而得到每个节点的特征向量。
6.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤8的具体实现方式如下,
对于每个病毒宿主对的每个简单路径,从源节点,即宿主节点开始,到目标节点,即病毒节点结束,使用路径得分来计算,即使用以下公式(23):
在公式(23)中,P={p1,p2,...,pn}是连接宿主节点hi和病毒节点υj的路径集合,Pweights为节点间的权值;路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积,为了减少计算量,将路径长度限制为小于或等于3,即存在6种路径结构Path={path1,path2,path3,path4,path5,path6},每个节点从宿主节点开始,以一个病毒节点结束,path1:(H-H-V),path2:(H-V-V),path3:(H-H-H-V),path4:(H-H-V-V),path5:(H-V-V-V),path6:(H-V-H-V),对每种路径结构的两个特征进行了挖掘,
(1)每个路径结构的所有元路径得分之和:
(2)每个路径结构下所有元路径得分的最高分:
元路径是指具有相同路径结构的所有路径,元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积;ASP表示一对病毒υj和宿主hi之间的元路径;为了确保较长的路径在我们的方法中不处于不利地位,每个最大或总和路径得分都是单独计算的,其中每个得分都考虑到属于特定路径结构的所有路径集。
7.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤9中采用Adaboost分类模型作为预测模型,Adaboost根据m个弱分类器对样例数据的分类效果的好坏,赋予不同的弱分类器不同的权值并将其组合成一个强分类器,Adaboost的算法流程如下;
(1)给定一个二分类数据集T={(x1,y1),(x2,y2),...,(xN,yN)},x代表输入样例,y代表样例所属的类别空间,初始化训练数据的权值分布:
对于M个分类器Gm(x):x→{0,1},m∈(1,M)分别使用带权值分布的数据进行训练;
(2)计算弱分类器Gm(x)上的分类错误率:
计算Gm(x)的系数:
更新训练数据的权值分布:
Dm+1=(wm+1,1,...,wm+1,j,...,wm+1,N) (29)
其中,Gm(xi)代表弱分类器对样例数据进行分类的结果;
(3)构建基分类器的线性组合:
最终的分类器:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759660.8A CN113591930B (zh) | 2021-07-06 | 2021-07-06 | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110759660.8A CN113591930B (zh) | 2021-07-06 | 2021-07-06 | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591930A true CN113591930A (zh) | 2021-11-02 |
CN113591930B CN113591930B (zh) | 2023-09-05 |
Family
ID=78246015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110759660.8A Active CN113591930B (zh) | 2021-07-06 | 2021-07-06 | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591930B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896860A (zh) * | 2022-03-29 | 2022-08-12 | 武汉纺织大学 | 基于LightGBM和XGBoost组合模型的飞灰含碳量软测量方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837753A (zh) * | 2021-02-07 | 2021-05-25 | 中国科学院新疆理化技术研究所 | 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 |
-
2021
- 2021-07-06 CN CN202110759660.8A patent/CN113591930B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112837753A (zh) * | 2021-02-07 | 2021-05-25 | 中国科学院新疆理化技术研究所 | 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法 |
Non-Patent Citations (3)
Title |
---|
ADITYA GROVER ET AL.: ""node2vec: Scalable Feature Learning for Networks"", ARXIV, pages 1 - 10 * |
BO WANG ET AL.: ""S imilarity network fusion for aggregating data types on a genomic scale"", 《NATURE METHODS》, vol. 11, no. 3, pages 333 - 340 * |
NATHAN A. AHLGREN ET AL.: ""Alignment-free d∗2 oligonucleotide frequency dissimilarity measure improves prediction of hosts from metagenomically-derived viral sequences"", 《NUCLEIC ACIDS RESEARCH》, vol. 45, no. 1, pages 39 - 53 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114896860A (zh) * | 2022-03-29 | 2022-08-12 | 武汉纺织大学 | 基于LightGBM和XGBoost组合模型的飞灰含碳量软测量方法 |
CN114896860B (zh) * | 2022-03-29 | 2024-05-14 | 武汉纺织大学 | 基于LightGBM和XGBoost组合模型的飞灰含碳量软测量方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113591930B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rozemberczki et al. | Gemsec: Graph embedding with self clustering | |
WO2023000574A1 (zh) | 一种模型训练方法、装置、设备及可读存储介质 | |
Wang et al. | Remote sensing image classification based on the optimal support vector machine and modified binary coded ant colony optimization algorithm | |
Jadhav et al. | Comparative study of K-NN, naive Bayes and decision tree classification techniques | |
Wang et al. | Evolutionary extreme learning machine ensembles with size control | |
CN110943981B (zh) | 基于层次学习的跨架构漏洞挖掘方法 | |
Zainudin et al. | Feature Selection Optimization using Hybrid Relief-f with Self-adaptive Differential Evolution. | |
CN113535947B (zh) | 一种带有缺失标记的不完备数据的多标记分类方法及装置 | |
Zheng et al. | Multimodal deep network embedding with integrated structure and attribute information | |
Wankhade et al. | Data stream classification: a review | |
CN115761275A (zh) | 一种基于图神经网络的无监督社区发现方法及系统 | |
Chen et al. | Variational Graph Embedding and Clustering with Laplacian Eigenmaps. | |
CN112509017A (zh) | 一种基于可学习差分算法的遥感影像变化检测方法 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
Peng et al. | JGSED: An end-to-end spectral clustering model for joint graph construction, spectral embedding and discretization | |
Gu et al. | Robust semi-supervised classification for noisy labels based on self-paced learning | |
Zheng et al. | Attribute augmented network embedding based on generative adversarial nets | |
CN113591930B (zh) | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 | |
Lall et al. | A copula based topology preserving graph convolution network for clustering of single-cell RNA-seq data | |
Jørgensen et al. | Isometric Gaussian process latent variable model for dissimilarity data | |
CN110502669B (zh) | 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
Singh et al. | Meta-DZSL: a meta-dictionary learning based approach to zero-shot recognition | |
CN116628524A (zh) | 一种基于自适应图注意力编码器的社区发现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |