CN113591930A - 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 - Google Patents

一种基于网络融合与图嵌入的病毒-宿主关联预测方法 Download PDF

Info

Publication number
CN113591930A
CN113591930A CN202110759660.8A CN202110759660A CN113591930A CN 113591930 A CN113591930 A CN 113591930A CN 202110759660 A CN202110759660 A CN 202110759660A CN 113591930 A CN113591930 A CN 113591930A
Authority
CN
China
Prior art keywords
virus
host
similarity
node
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110759660.8A
Other languages
English (en)
Other versions
CN113591930B (zh
Inventor
朱强
代庆辉
李丽
胡新荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202110759660.8A priority Critical patent/CN113591930B/zh
Publication of CN113591930A publication Critical patent/CN113591930A/zh
Application granted granted Critical
Publication of CN113591930B publication Critical patent/CN113591930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于网络融合与图嵌入的病毒‑宿主关联预测方法,通过使用相似网络融合方法和图嵌入方法分别构造了两种病毒‑病毒相似网络和宿主‑宿主相似网络,并提出一种图挖掘的方式,即从图中提取元路径得分,基于这种图挖掘的方式可从两种网络上获取每对病毒‑宿主的特征向量,最后使用机器学习的方法来获得最终的结果。本发明在现有数据集上实现了较高的精确度,相比于其他方法表现比较稳定,由本发明预测一些病毒‑宿主关联关系,部分在已发表的论文和数据库中得到了验证,并且本发明的计算方法预测出了在已知文献或数据库中没有的、且全新的病毒宿主关联关系,这些新的病毒‑宿主关系可为实验验证提供有效指导。

Description

一种基于网络融合与图嵌入的病毒-宿主关联预测方法
技术领域
本发明属于生物信息学、计算生物学、人工智能交叉领域,具体涉及一种基于网络融合与图嵌入的病毒-宿主关联预测方法。
背景技术
病毒依赖宿主生存,在群落结构和功能中扮演重要角色,但病毒种类繁多并且它与宿主的关系呈多样化。传统实验方法探寻病毒与其宿主的关系,不仅实验花费昂贵,试验周期长,而且可能出现不确定因素影响实验结果,进而导致成功率低,由此需要发现更高效和准确的方法。因此,基于数学模型以预测病毒与宿主相互作用的计算方法,已经受到了越来越多的关注。由于病毒和宿主都面临自然选择压力,它们不断地进行竞争,宿主需进化出对病毒的抗性以抵御被感染,而病毒如不能感染宿主就无法生存,最终结果可能是病毒将其基因整合到宿主中,可利用这种信息来识别病毒的宿主,即病毒与宿主存在相关作用关系。
面对传统基于实验探求病毒宿主关联的局限性,研究人员提出了基于计算机模拟的预测病毒与宿主相互作用的技术以预测病毒与宿主的新关联关系,需要引入已知的病毒与宿主的关联,甚至需要病毒与病毒相互关联,宿主与宿主的相互关联。在样本或群落中,微生物-微生物(细菌、病毒等)之间为了营养或领地而出现互生、寄生、拮抗等关系而形成多种相互作用的复杂网络,称为异构网络。异构网络的节点为细菌和病毒,细菌-细菌、病毒-病毒、细菌-病毒有多种相互作用关系从而形成异构网络的边,难点在于融合各种不同类型节点或边的信息以更准确地预测病毒的宿主。传统异构网络挖掘过程通常从提取结构特征开始,例如对象关系、网络结构和元路径等,然后将这些特征输入到机器学习模型中,用于后续学习任务。但手动设计特征这个过程费时费力并且特征不具备迁移性,换而言之,手动设计的特征往往只适合特定应用场景,因而不具备通用性。因此,目前基于异构网络的数据挖掘技术已经转向了基于图神经网络的表示学习方式。异构网络表示学习假设网络的内在结构和语义属性可以被编码到潜在低维向量中,以使模型可以自动学习网络对象如顶点、边和子图等潜在低维表示,从而方便后续的学习任务。例如,一些基于特征的分类方法以病毒与宿主关联作为样本,将病毒与宿主边的信息作为特征向量来表征样本,然后使用分类器来区分是否存在关联。尽管存在各种预测病毒-宿主的相互作用的方法,但这些基于单一信息的预测模式准确性较差。随着发现的病毒数量增加,需要研究新型、高效的分析方法,以整合多类型的病毒-宿主和病毒-病毒特征信息来更准确、更快地预测病毒-宿主关系。
发明内容
本发明的目的是为了解决背景技术中所述问题,提出一种基于网络融合与图嵌入的病毒-宿主关联预测方法。
在这里为了进一步提高预测病毒与宿主的关联的准确性,本文提出了利用病毒与宿主关联网络的拓扑信息,及多种病毒与病毒之间和宿主与宿主之间的相似性网络的计算方法。这种方法将病毒与宿主的关联预测问题转换成异构网络中节点的链接预测问题。利用图嵌入及相似网络融合技术融合多种网络信息,从而避免其他方法的局限性。本发明的技术方案为一种基于图嵌入预测病毒-宿主相互作用的计算方法,具体包括以下步骤:
步骤1,获取病毒宿主的已知关联;
步骤2,分别度量每一对病毒与病毒和每一对宿主与宿主的相似度,进而构建多个病毒与病毒相似性网络和多个宿主与宿主相似性网络;
步骤3,使用相似网络融合算法整合由步骤2得到病毒与病毒相似性网络和宿主与宿主相似性网络,最终得到病毒融合相似矩阵
Figure BDA0003149060000000021
和宿主融合相似矩阵
Figure BDA0003149060000000022
步骤4,由步骤3得到病毒融合相似矩阵
Figure BDA0003149060000000023
和宿主融合相似矩阵
Figure BDA0003149060000000024
与由步骤1获得的已知的病毒宿主关联构成异构网络G1
步骤5,对由步骤1获得的训练部分病毒宿主关联应用图挖掘技术,生成每个节点的特征表示,所述节点包含病毒节点和宿主节点;
步骤6,计算由步骤5得到每个病毒的特征向量和其他病毒的特征向量的余弦相似度,以及每个宿主的特征向量和其他宿主的特征向量的余弦相似度,进而构建病毒余弦相似矩阵
Figure BDA0003149060000000025
和宿主余弦相似矩阵
Figure BDA0003149060000000026
步骤7,由步骤6得到病毒余弦相似矩阵
Figure BDA0003149060000000027
和宿主余弦相似矩阵
Figure BDA0003149060000000028
和由步骤1获得的已知病毒宿主关联构建异构网络G2
步骤8,对于由步骤4得到的G1和由步骤7得到的G2,根据路径结构及其特征,从图G1提取出相应的元路径分数,从图G2提取出相应的元路径分数;
步骤9,进行特征选择以消除弱特征,然后生成特征向量X,以及所有病毒宿主对的标签Y;
步骤10,将步骤9得到的特征向量X及标签Y,输入到有监督机器学习预测模型。
进一步的,步骤2中使用寡核苷酸频率或高斯相互作谱度量相似度,其中使用寡核苷酸频率度量相似度的具体实现方式如下;
使用
Figure BDA0003149060000000031
JS、Hao、Teeling计算每一对病毒与病毒和每一对宿主与宿主的基因组寡核苷酸频率向量的距离,度量每一对病毒与病毒和每一对宿主与宿主的相似度;
Figure BDA0003149060000000032
由式(1)定义:
Figure BDA0003149060000000033
Figure BDA0003149060000000034
由式(2)定义:
Figure BDA0003149060000000035
假设存在两个序列A=A1A2...An和B=B1B2...Bm,是由一个长度为d的有限字母表Λ中的字母组成的,对于a∈Λ,让pa表示字母a出现的概率;对于w=(w1,...,wk)∈Λk,让
Figure BDA0003149060000000036
计算w在A出现的次数,与之相似,Yw计算w在B出现的次数,在这里
Figure BDA0003149060000000037
同样
Figure BDA0003149060000000038
如果X和Y是独立的均值零正态,则X有方差
Figure BDA0003149060000000039
Y有方差
Figure BDA00031490600000000310
Figure BDA00031490600000000311
同样是正态的,有方差
Figure BDA00031490600000000312
对于w=x1,...,xk
Figure BDA00031490600000000313
表示w出现的概率,集中的计数变量表示为(1),其中
Figure BDA00031490600000000314
另一个计数变量(2),其中
Figure BDA00031490600000000315
为未观测的字母概率,即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量,这两个序列是相互独立的,并且都是由同一分布中的独立字母产生的,然后使用
Figure BDA00031490600000000316
估计w=w1,...,wk出现的概率。
Hao由式(3)定义:
Figure BDA0003149060000000041
两个序列A=A1A2...An和B=B1B2...Bm按字符转换成合成向量A=(a1,a2,...,aN)和B=(b1,b2,...,bN),其中N∈[1,4k],A和B之间的相关性C(A,B),为N维空间中两个代表向量夹角的余弦函数:
Figure BDA0003149060000000042
Teeling由式(5)(6)(7)及皮尔逊相关系数得到:
一个序列的四核苷酸的观测频率表示为N(n1n2n3n4),相应的期望的频率通过最大阶马尔科夫模型来计算:
Figure BDA0003149060000000043
其方差为:
Figure BDA0003149060000000044
使用Z分数评估过高或过低表示水平的显著性,即观察到的频率与预期频率之间的差异
Figure BDA0003149060000000045
如果两个基因组片段A和B表现相似的四核苷酸过量和不足模式的问题,可以通过计算其Z分数的皮尔逊相关系数
Figure BDA0003149060000000046
来解决;
JS散度由式(8)定义
Figure BDA0003149060000000047
给定一个S包含N个基因的序列
Figure BDA0003149060000000048
S在马尔科夫模型下的对数似然为
λ(s)=∑n(b1...bkb)logP(b|b1..bk) (9)
使用JS散度衡量两个序列S1和S2概率分布P=λ(S1),Q=λ(S2),JS散度是KL散度的变形,KL散度(Kullback–Leibler divergence)定义如下:
Figure BDA0003149060000000049
进一步的,高斯核相互作用谱的计算过程包括两个步骤;
首先,病毒vi的相互作用谱IP(vi)是编码病毒vi与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量;其次,病毒vi和病毒vj之间的高斯核相似性是根据它们的相互作用计算的,并定义如下:
Sv(vi,vj)=exp(-γv||IP(vi)-IP(vj)||2) (11)
其参数γv表示核带宽,一个新的核带宽参数定义为:
Figure BDA0003149060000000051
Nh是宿主的数量,根据先前的研究,r′v设置为1;类似的宿主hi和宿主hj之间的高斯核相似性定义为:
Sh(hi,hj)=exp(-γh||IP(hi)-IP(hj)||2) (13)
其核带宽参数定义为:
Figure BDA0003149060000000052
其中Nv是病毒的数量,r′h设置为1。
进一步的,步骤3的具体实现方式如下;
以病毒相似性网络为例,病毒相似性网络的边权重分别用一个的Nv×Nv的矩阵Sv表示,然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P,由式(15)定义:
Figure BDA0003149060000000053
在公式(15)中,S(i,j)是Sv的矩阵元素,其中i和j代表矩阵的行号和列号,然后使用K-近邻度量局部关系,由式(16)定义:
Figure BDA0003149060000000054
在公式(16)中,Ni表示病毒的邻居数;
由公式(15)得到的P(v)和由公式(16)得到的KNN(v),在公式(15)中,Pi,j是第i个病毒与其他所有病毒的相似性,而在公式(16)中KNN(i,j)是第i个病毒与其邻近病毒的相似度,在相似网络融合算法SNF中,总是把Pi,j作为初始状态,而KNN(i,j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中,SNF的过程是迭代更新相似度矩阵,由式(17)定义:
Figure BDA0003149060000000061
其中,p(k)是第t步的相似矩阵初始值为Pi,j,P(v)是第t+1步的相似矩阵,公式(17)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P(v)
然后SNF使用K-近邻方法度量局部关系过滤低相似的边,经过多次迭代最终获得一个矩阵,通过SNF融合得到的病毒相似性矩阵
Figure BDA0003149060000000064
和宿主相似性矩阵
Figure BDA0003149060000000065
进一步的,步骤5的具体实现方式如下;
使用node2vec的算法框架,对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习,该异构网络G仅包含已知病毒和宿主的关联,而不使用病毒与病毒相似网络和宿主与宿主相似网络,Node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v,设πvx=αpq(t,x)·ωvx,πvx是顶点v和顶点x之间的未归一化转移概率,ωvx是顶点v和顶点x的边权,路径采样策略αpq(t,x)定义如下:
Figure BDA0003149060000000062
在公式(18)中,dtx为顶点t和顶点x之间的最短路径距离,由公式(18)可以获得节点邻近集合;
设f(u)将节点u映射到低维向量的映射函数,对于图中任意一个节点u,定义Ns(u)为通过公式(18)采样出的节点u的邻近点集合,由式(19)得到使其邻近点出现的概率最大的f(u):
Figure BDA0003149060000000063
根据以下两个假设条件
(1)条件独立,假设给定源顶点下,其近邻顶点ni出现的概率与近邻集合中其余顶点无关;
Figure BDA0003149060000000071
(2)特征空间对称性,这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;
Figure BDA0003149060000000072
将式(19)优化为最终的目标函数式(22):
Figure BDA0003149060000000073
在式(22)中,由于归一化因子
Figure BDA0003149060000000074
计算代价高,采用负采样技术优化;
通过求这个最终的目标函数式(22)最大值的情况下,得到f(u)的函数形式,从而得到每个节点的特征向量。
进一步的,步骤8的具体实现方式如下,
对于每个病毒宿主对的每种简单路径,从源节点(即宿主节点)开始到目标节点(即病毒节点)结束,使用路径得分来计算,即使用以下公式(23):
Figure BDA0003149060000000075
在公式(23)中,P={p1,p2,...,pn}是连接宿主节点hi和病毒节点vj的路径集合,Pweights为节点间的权重;路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积。为了减少计算量,将路径长度限制为小于或等于3,即存在6种路径结构Path={path1,path2,path3,path4,path5,path6},每个节点从宿主节点开始,以一个病毒节点结束,path1:(H-H-V),path2:(H-V-V),path3:(H-H-H-V),path4:(H-H-V-V),path5:(H-V-V-V),path6:(H-V-H-V),对每种路径结构的两个特征进行了挖掘。
(1)每个路径结构的所有元路径得分之和:
Figure BDA0003149060000000076
(2)每个路径结构下所有元路径得分的最高分:
Figure BDA0003149060000000077
元路径是指具有相同路径结构的所有路径,元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积;ASP表示一对病毒vj和宿主hi之间的元路径;为了确保较长的路径在我们的方法中不处于不利地位,每个最大或总和路径得分都是单独计算的,其中每个得分都考虑到属于特定路径结构的所有路径集。
进一步的,步骤9中采用Adaboost分类模型作为预测模型,Adaboost根据m个弱分类器对样例数据的分类效果的好坏,赋予不同的弱分类器不同的权值并将其组合成一个强分类器,Adaboost的算法流程如下;
(1)给定一个二分类数据集T={(x1,y1),(x2,y2),...,(xN,yN)},x代表输入样例,y代表样例所属的类别空间,初始化训练数据的权值分布:
Figure BDA0003149060000000081
对于M个分类器Gm(x):x→{0,1},m∈(1,M)分别使用带权值分布的数据进行训练;
(2)计算弱分类器Gm(x)上的分类错误率:
Figure BDA0003149060000000082
计算Gm(x)的系数:
Figure BDA0003149060000000083
更新训练数据的权值分布:
Dm+1=(wm+1,1,...,wm+1,j,...,wm+1,N) (29)
Figure BDA0003149060000000084
Figure BDA0003149060000000085
其中,Gm(xi)代表弱分类器对样例数据进行分类的结果;
(3)构建基分类器的线性组合:
Figure BDA0003149060000000086
最终的分类器:
Figure BDA0003149060000000091
本发明针对现有的病毒宿主关联预测的方法所存在的局限性,提出了一种基于图嵌入预测病毒-宿主相互作用的计算方法,极大提高了病毒宿主关联预测的精确度,并通过使用四个数据集将本发明与其他几种方法相比,大幅提高了预测性能,在所有数据集中实现了较高的精确度,相对于其他方法模型表现比较稳定。并且由本发明预测出的一部分病毒宿主关联,在已发表的论文和数据库得到了验证。
附图说明
图1为本发明实施例的流程图。
具体实施方式
本发明技术方案具体实施时可由本领域技术人员采用计算机软件技术运行。结合附图,提供本发明实施例具体描述如下:
步骤1,从相关的生物信息论文,权威的生物信息网站(NCBI),获取病毒宿主的已知关联。
步骤2,基于基因组寡核苷酸频率的差异方法来推断基因组序列之间的关系。本发明使用
Figure BDA0003149060000000092
JS、Hao、Teeling计算每一对病毒与病毒(每一对宿主与宿主)的基因组寡核苷酸频率向量的距离,度量每一对病毒与病毒(每一对宿主与宿主)的相似度。
Figure BDA0003149060000000093
由式(1)定义:
Figure BDA0003149060000000094
Figure BDA0003149060000000095
由式(2)定义:
Figure BDA0003149060000000096
假设存在两个序列A=A1A2...An和B=B1B2...Bm,是由一个长度为d的有限字母表Λ中的字母组成的,对于a∈Λ,让pa表示字母a出现的概率。对于w=(w1,...,wk)∈Λk,让
Figure BDA0003149060000000097
计算w在A出现的次数,与之相似,Yw计算w在B出现的次数,在这里
Figure BDA0003149060000000101
同样
Figure BDA0003149060000000102
如果X和Y是独立的均值零正态,则X有方差
Figure BDA0003149060000000103
Y有方差
Figure BDA0003149060000000104
Figure BDA0003149060000000105
同样是正态的,有方差
Figure BDA0003149060000000106
对于w=w1,...,wk
Figure BDA0003149060000000107
表示w出现的概率,集中的计数变量表示为(34),其中
Figure BDA0003149060000000108
另一个计数变量(35),其中
Figure BDA0003149060000000109
为未观测的字母概率,即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量,这两个序列是相互独立的,并且都是由同一分布中的独立字母产生的,然后使用
Figure BDA00031490600000001010
估计w=w1,...,wk出现的概率。
Hao由式(3)定义:
Figure BDA00031490600000001011
两个序列A=A1A2...An和B=B1B2...Bm按字符转换成合成向量A=(a1,a2,...,aN)和B=(b1,b2,...,bN),其中N∈[1,4k],A和B之间的相关性C(A,B),为N维空间中两个代表向量夹角的余弦函数:
Figure BDA00031490600000001012
Teeling由式(5)(6)(7)及皮尔逊相关系数得到:
一个序列的四核苷酸的观测频率表示为N(n1n2n3n4),相应的期望的频率通过最大阶马尔科夫模型来计算:
Figure BDA00031490600000001013
其方差为:
Figure BDA00031490600000001014
使用Z分数评估过高或过低表示水平的显著性,即观察到的频率与预期频率之间的差异
Figure BDA00031490600000001015
如果两个基因组片段A和B表现相似的四核苷酸过量和不足模式的问题,可以通过计算其Z分数的皮尔逊相关系数
Figure BDA00031490600000001016
来解决。
JS散度(Jensen-Shannon divergence)由式(8)定义
Figure BDA0003149060000000111
给定一个S包含N个基因的序列
Figure BDA0003149060000000112
S在马尔科夫模型下的对数似然为
λ(S)=∑n(b1...bkb)logP(b|b1..bk) (42)
使用JS散度衡量两个序列S1和S2概率分布P=λ(S1),Q=λ(S2),JS散度是KL散度的变形,KL散度(Kullback–Leibler divergence)定义如下:
Figure BDA0003149060000000113
除此以外,本论文通过已知的病毒与宿主的关联矩阵来计算病毒与病毒(宿主与宿主)之间的高斯核相互作用谱(GIP)。高斯核相互作用谱是目前使用较多的从病毒与宿主关联网络中提取相似度信息的方法。高斯核相互作用谱的计算过程主要包括两个步骤。首先,病毒vi的相互作用谱IP(vi)是编码病毒vi与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量。其次,病毒vi和病毒vj之间的高斯核相似性是根据它们的相互作用计算的,并定义如下:
Sv(vi,vj)=exp(-γv||IP(vi)-IP(vj)||2) (44)
其参数γv表示核带宽,一个新的核带宽参数定义为:
Figure BDA0003149060000000114
Nh是宿主的数量,根据先前的研究,r′v设置为1。类似的宿主hi和宿主hj之间的高斯核相似性定义为:
Sh(hi,hj)=exp(-γh||IP(hi)-IP(hj)||2) (46)
其核带宽参数定义为:
Figure BDA0003149060000000115
其中Nv是病毒的数量,r′h设置为1。
步骤3,本发明使用相似网络融合算法(SNF),以病毒相似性网络为例,病毒相似性网络的边权重分别用一个的Nv×Nv的矩阵Sv表示,然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P,由式(15)定义:
Figure BDA0003149060000000121
在公式(48)中,S(i,j)是Sv的矩阵元素,其中i和j代表矩阵的行号和列号。然后使用K-近邻(KNN)度量局部关系,由式(16)定义:
Figure BDA0003149060000000122
在公式(49)中,Ni表示病毒的邻居数,病毒的邻居数是预定义的,根据相似矩阵可以计算每个元素与其他元素的距离,根据距离的远近度量元素之间的相似度(距离的远近),本文从中选择前K个元素,即为该元素的邻居数。本文Ni的取值为5,该方法过滤掉了低相似度的边。
由公式(48)得到的P(v)和由公式(49)得到的KNN(v)。在公式(48)中,Pi,j是第i个病毒与其他所有病毒的相似性,而在公式(49)中KNN(i,j)是第i个病毒与其邻近病毒的相似度。在SNF算法中,总是把Pi,j作为初始状态,而KNN(i,j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中。SNF的过程是迭代更新相似度矩阵,由式(17)定义:
Figure BDA0003149060000000123
其中,p(k)是第t步的相似矩阵初始值为Pi,j,P(v)是第t+1步的相似矩阵,公式(50)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P(v)
然后SNF使用K-近邻(KNN)方法度量局部关系过滤低相似的边,经过多次迭代最终获得一个矩阵。通过SNF融合得到的病毒相似性矩阵
Figure BDA0003149060000000124
和宿主相似性矩阵
Figure BDA0003149060000000125
步骤4,由步骤3得到病毒融合相似性矩阵
Figure BDA0003149060000000126
和宿主融合相似性矩阵
Figure BDA0003149060000000127
和由步骤1得到的病毒与宿主的已知关联构成异构网络G1
步骤5,本发明使用node2vec的算法框架,对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习,该异构网络G仅包含已知病毒和宿主的关联,而不使用病毒与病毒相似网络和宿主与宿主相似网络。node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,v)到达顶点v,设πvx=αpq(t,x)·wvx,πvx是顶点v和顶点x之间的未归一化转移概率,wvx是顶点v和顶点x的边权,路径采样策略αpq(t,x)具体定义如下:
Figure BDA0003149060000000131
在公式(51)中,dtx为顶点t和顶点x之间的最短路径距离,由公式(51)可以获得节点邻近集合。
设f(u)将节点u映射到低维向量的映射函数,对于图中任意一个节点u,定义Ns(u)为通过公式(51)采样出的节点u的邻近点集合,由式(19)得到使其邻近点出现的概率最大的f(u):
Figure BDA0003149060000000132
根据以下两个假设条件
(1)条件独立,假设给定源顶点下,其近邻顶点ni出现的概率与近邻集合中其余顶点无关;
Figure BDA0003149060000000133
(2)特征空间对称性,这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;
Figure BDA0003149060000000134
将式(52)优化为最终的目标函数式(22):
Figure BDA0003149060000000135
在式(55)中,由于归一化因子
Figure BDA0003149060000000136
计算代价高,采用负采样技术优化。
通过求这个最终的目标函数式(55)最大值的情况下,得到f(u)的函数形式,从而得到每个节点的特征向量。
步骤6,计算由步骤5得到每个病毒(每个宿主)的特征向量和其他病毒(其他宿主)的特征向量的余弦相似度,进而构建病毒余弦相似矩阵
Figure BDA0003149060000000141
和宿主余弦相似矩阵
Figure BDA0003149060000000142
步骤7,由步骤6得到病毒余弦相似矩阵
Figure BDA0003149060000000143
和宿主余弦相似矩阵
Figure BDA0003149060000000144
和由步骤1已知病毒宿主关联构建异构网络G2
步骤8,对于由步骤4和由步骤7得到的两个异构加权图G1和G2被用来提取基于图的特征。每个图的每个病毒-宿主对之间的多个路径得分被用来反映这些特征。对于每个病毒宿主对的每个简单路径,从源节点(即宿主节点)开始,到目标节点(即病毒节点)结束,使用路径得分来计算,即使用以下公式(23):
Figure BDA0003149060000000145
在公式(56)中,P={p1,p2,...,pn}是连接宿主节点hi和病毒节点vj的路径集合,Pweights为节点间的权值。路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积。为了减少计算量,本发明将路径长度限制为小于或等于3,即存在6种路径结构Path={path1,path2,path3,path4,path5,path6},每个节点从宿主节点开始,以一个病毒节点结束,path1:(H-H-V),path2:(H-V-V),path3:(H-H-H-V),path4:(H-H-V-V),path5:(H-V-V-V),path6:(H-V-H-V),我们对每种路径结构的两个特征进行了挖掘,
(1)每个路径结构的所有元路径得分之和:
Figure BDA0003149060000000146
(2)每个路径结构下所有元路径得分的最高分:
Figure BDA0003149060000000147
元路径是指具有相同路径结构的所有路径,元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积。ASP表示一对病毒vj和宿主hi之间的元路径。为了确保较长的路径在我们的方法中不处于不利地位,每个(最大或总和)路径得分都是单独计算的,其中每个得分都考虑到属于特定路径结构的所有路径集。因此,来自不同路径结构的分数不会在一个特征中混在一起。此外,分数还使用最小最大归一化来进一步归一化,以确保特征被分类器平等对待。
步骤9,由步骤8可对每一对病毒与宿主和每个构建的异构图提取12个特征,这些特征被组合成一个24维的特征向量。本发明的准确性依赖于数据集的基本特征。在进行了经验分析和许多实验后,确定了该分类任务最相关的特征集合。在分析性能时,需要去除一个或多个特征的组合。因此,在应用特征选择后,根据数据集,输入预测模型的特征向量的维度从24个减少到16个。
步骤10,本发明使用的是已知的表现较好的机器学习分类模型Adaboost,Adaboost根据m个弱分类器对样例数据的分类效果的好坏,赋予不同的弱分类器不同的权值并将其组合成一个强分类器,Adaboost的算法流程:
(1)给定一个二分类数据集T={(x1,y1),(x2,y2),...,(xN,yN)},x代表输入样例,y代表样例所属的类别空间,初始化训练数据的权值分布:
Figure BDA0003149060000000151
对于M个分类器Gm(x):x→{0,1},m∈(1,M),分别使用带权值分布的数据进行训练;
(2)计算弱分类器Gm(x)上的分类错误率:
Figure BDA0003149060000000152
计算Gm(x)的系数:
Figure BDA0003149060000000153
更新训练数据的权值分布:
Dm+1=(wm+1,1,...,wm+1,j,...,wm+1,N) (62)
Figure BDA0003149060000000154
Figure BDA0003149060000000155
其中,Gm(xi)代表弱分类器对样例数据进行分类的结果;
(3)构建基分类器的线性组合:
Figure BDA0003149060000000156
最终的分类器:
Figure BDA0003149060000000161
为验证本发明方法有效性,在多个数据集上做了对比实验。本实验使用了四个数据集,数据集来自论文、权威的生物信息网站,这些数据集的信息如下表(表1)所示:
表1四个数据集的基本信息
Dataset I Dataset II Dataset III DatasetⅣ
病毒数量 728 32 312 1380
宿主数量 129 119 747 221
已知关联 728 368 4539 1479
未知关联 93184 3440 228525 303501
稀疏比 0.0078 0.1070 0.0199 0.0048
并与其他的五个关联预测的方法进行比较:
■ILMF-VH,基于多信息矩阵融合的病毒与宿主关联预测。病毒相似性网络基于寡核苷酸频率(ONF)度量构建,并通过相似性网络融合(SNF)整合宿主的寡核苷酸频率相似性和高斯相互作用谱(GIP)核相似性从而构建宿主相似性网络。然后在病毒与宿主的异构网络上执行领域正则化逻辑矩阵分解算法来预测病毒宿主关联;
■层注意图卷积网络(LAGCN)将已知的病毒与宿主关联,病毒-病毒相似度,宿主-宿主相似度整合成异构网络,并将图卷积应用在异构网络上,学习病毒与宿主的嵌入。其次,LAGCN利用注意力机制结合多个图卷积层的嵌入。在预测病毒-宿主关联取得良好的效果;
■NetLapRLS,在合并的已知病毒宿主相互作用网络上,采用半监督学习方法正则最小二乘法,分别对病毒和宿主领域进行训练,然后结合在一起,得到最终的预测结果;
■BLM-NII,基于邻居的交互配置文件推断(NII),并将其集成到有监督学习方法,二分局部模型(BLM)方法中,以处理新的关联问题。具体来说,推断的交互关系被视为标签信息,并用于新候选对象的模型学习;
■CMF,该模型将病毒和宿主投射到一个共同的低等级特征空间中,通过两个低秩矩阵协作预测病毒-宿主相互作用。
本发明采用的评估指标为AUC和AUPR,即接受者操作特征(ROC)曲线下的面积(AUC),以及精确-召回曲线下的面积(AUPR),实验结果如下表(表2)所示:
表2本发明与其他方法在四个数据集的实验结果对比
数据集 评估指标 Ours ILMF-VH LAGCN NetLapRLS BLM-NII CMF
Dataset I AUC 0.99991 0.75380 0.92508 0.08741 0.86028 0.76867
AUPR 0.99086 0.21475 0.79621 0.00422 0.24655 0.04473
Dataset II AUC 0.98955 0.79128 0.79811 0.76468 0.80453 0.50939
AUPR 0.91827 0.30862 0.41345 0.50196 0.48382 0.22213
Dataset III AUC 0.99999 0.99391 0.99868 0.99740 0.99683 0.77741
AUPR 0.99999 0.63898 0.96357 0.97915 0.90456 0.42784
DatasetⅣ AUC 0.99965 0.82112 0.91179 0.69508 0.90606 0.73420
AUPR 0.96485 0.24104 0.73203 0.01979 0.38681 0.02030
本发明在数据集DatasetⅣ上预测出前十个的关联如下表(表3)所示:
表3本发明预测的前十的关联
Rank Host Name Virus Name Evidence
1 Campylobacter jejuni Campylobacter phage CP8 PMID:32054081
2 Erysimum Listeria phage A118 unknown
3 Erwinia sp. Erwinia phage phiEa1H PMID:26555076
4 Klebsiella pneumoniae Klebsiella phage PMBT1 PMID:31976857
5 Pseudomonas syringae Pseudomonas phage phiPSA2 PMID:32610695
6 Lactococcus lactis subsp.cremoris Lactococcus phage P680 PMID:30135597
7 Gordonia terrae Gordonia phage Troje unknown
8 Lactococcus sp. Lactococcus phage fd13 unknown
9 Aeropyrum pernix K1 Aeropyrum pernix bacilliform virus 1 PMID:21784945
10 Pseudomonas aeruginosa Pseudomonas phage MP1412 PMID:26115051
本文基于一种基于网络融合与图嵌入的病毒-宿主关联预测方法的精度均显著优于现有的几种常用方法,证明了本文方法的优越性。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于,包括以下步骤:
步骤1,获取病毒宿主的已知关联;
步骤2,分别度量每一对病毒与病毒和每一对宿主与宿主的相似度,进而构建多个病毒与病毒相似性网络和多个宿主与宿主相似性网络;
步骤3,使用相似网络融合算法整合由步骤2得到病毒与病毒相似性网络和宿主与宿主相似性网络,最终得到病毒融合相似矩阵
Figure FDA0003149059990000011
和宿主融合相似矩阵
Figure FDA0003149059990000012
步骤4,由步骤3得到病毒融合相似矩阵
Figure FDA0003149059990000013
和宿主融合相似矩阵
Figure FDA0003149059990000014
与由步骤1获得的已知的病毒宿主关联构成异构网络
Figure FDA0003149059990000015
步骤5,对由步骤1获得的训练部分病毒宿主关联应用图挖掘技术,生成每个节点的特征表示,所述节点包含病毒节点和宿主节点;
步骤6,计算由步骤5得到每个病毒的特征向量和其他病毒的特征向量的余弦相似度,以及每个宿主的特征向量和其他宿主的特征向量的余弦相似度,进而构建病毒余弦相似矩阵
Figure FDA0003149059990000016
和宿主余弦相似矩阵
Figure FDA0003149059990000017
步骤7,由步骤6得到病毒余弦相似矩阵
Figure FDA0003149059990000018
和宿主余弦相似矩阵
Figure FDA0003149059990000019
和由步骤1获得的已知病毒宿主关联构建异构网络G2
步骤8,对于由步骤4得到的G1和由步骤7得到的G2,根据路径结构及其特征,从图G1提取出相应的元路径分数,从图G2提取出相应的元路径分数;
步骤9,进行特征选择以消除弱特征,然后生成特征向量X,以及所有病毒宿主对的标签Y;
步骤10,将步骤9得到的特征向量X及标签Y,输入到有监督机器学习预测模型。
2.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤2中使用寡核苷酸频率或高斯相互作谱度量相似度,其中使用寡核苷酸频率度量相似度的具体实现方式如下;
使用
Figure FDA00031490599900000110
JS、Hao、Teeling计算每一对病毒与病毒和每一对宿主与宿主的基因组寡核苷酸频率向量的距离,度量每一对病毒与病毒和每一对宿主与宿主的相似度;
Figure FDA0003149059990000021
由式(1)定义:
Figure FDA0003149059990000022
Figure FDA0003149059990000023
由式(2)定义:
Figure FDA0003149059990000024
假设存在两个序列A=A1A2...An和B=B1B2...Bm,是由一个长度为d的有限字母表Λ中的字母组成的,对于a∈Λ,让pa表示字母a出现的概率;对于w=(w1,...,wk)∈Λk,让
Figure FDA0003149059990000025
计算w在A出现的次数,与之相似,Yw计算w在B出现的次数,在这里
Figure FDA0003149059990000026
同样
Figure FDA0003149059990000027
如果X和Y是独立的均值零正态,则X有方差
Figure FDA0003149059990000028
Y有方差
Figure FDA0003149059990000029
Figure FDA00031490599900000210
同样是正态的,有方差
Figure FDA00031490599900000211
对于w=w1,...,wk
Figure FDA00031490599900000212
表示w出现的概率,集中的计数变量表示为(1),其中
Figure FDA00031490599900000213
另一个计数变量(2),其中
Figure FDA00031490599900000214
为未观测的字母概率,即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量,这两个序列是相互独立的,并且都是由同一分布中的独立字母产生的,然后使用
Figure FDA00031490599900000215
估计w=w1,...,wk出现的概率。
Hao由式(3)定义:
Figure FDA00031490599900000216
两个序列A=A1A2...An和B=B1B2...Bm按字符转换成合成向量A=(a1,a2,...,aN)和B=(b1,b2,...,bN),其中N∈[1,4k],A和B之间的相关性C(A,B),为N维空间中两个代表向量夹角的余弦函数:
Figure FDA00031490599900000217
Teeling由式(5)(6)(7)及皮尔逊相关系数得到:
一个序列的四核苷酸的观测频率表示为N(n1n2n3n4),相应的期望的频率通过最大阶马尔科夫模型来计算:
Figure FDA0003149059990000031
其方差为:
Figure FDA0003149059990000032
使用Z分数评估过高或过低表示水平的显著性,即观察到的频率与预期频率之间的差异
Figure FDA0003149059990000033
如果两个基因组片段A和B表现相似的四核苷酸过量和不足模式的问题,可以通过计算其Z分数的皮尔逊相关系数
Figure FDA0003149059990000034
来解决;
JS散度由式(8)定义
Figure FDA0003149059990000035
给定一个S包含N个基因的序列
Figure FDA0003149059990000036
S在马尔科夫模型下的对数似然为
λ(S)=∑n(b1...bkb)logP(b|b1..bk) (9)
使用JS散度衡量两个序列S1和S2概率分布P=λ(S1),Q=λ(S2),JS散度是KL散度的变形,KL散度定义如下:
Figure FDA0003149059990000037
3.如权利要求2所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:高斯核相互作用谱的计算过程包括两个步骤;
首先,病毒υi的相互作用谱IP(υi)是编码病毒υi与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量;其次,病毒υi和病毒υj之间的高斯核相似性是根据它们的相互作用计算的,并定义如下:
Sυi,υj)=exp(-γυ|IP(υi)-IP(υj)||2) (11)
其参数γυ表示核带宽,一个新的核带宽参数定义为:
Figure FDA0003149059990000041
Nh是宿主的数量,根据先前的研究,r′υ设置为1;类似的宿主hi和宿主hj之间的高斯核相似性定义为:
Sh(hi,hj)=exp(-γh||IP(hi)-IP(hj)||2) (13)
其核带宽参数定义为:
Figure FDA0003149059990000042
其中Nυ是病毒的数量,r′h设置为1。
4.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤3的具体实现方式如下;
以病毒相似性网络为例,病毒相似性网络的边权重分别用一个的Nυ×Nυ的矩阵Sv表示,然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P,由式(15)定义:
Figure FDA0003149059990000043
在公式(15)中,S(i,j)是Sv的矩阵元素,其中i和j代表矩阵的行号和列号,然后使用K-近邻度量局部关系,由式(16)定义:
Figure FDA0003149059990000044
在公式(16)中,Ni表示病毒的邻居数;
由公式(15)得到的P(υ)和由公式(16)得到的KNN(υ),在公式(15)中,Pi,j是第i个病毒与其他所有病毒的相似性,而在公式(16)中KNN(i,j)是第i个病毒与其邻近病毒的相似度,在相似网络融合算法SNF中,总是把Pi,j作为初始状态,而KNN(i,j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中,SNF的过程是迭代更新相似度矩阵,由式(17)定义:
Figure FDA0003149059990000051
其中,p(k)是第t步的相似矩阵初始值为Pi,j,P(υ)是第t+1步的相似矩阵,公式(17)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P(υ)
然后SNF使用K-近邻方法度量局部关系过滤低相似的边,经过多次迭代最终获得一个矩阵,通过SNF融合得到的病毒相似性矩阵
Figure FDA0003149059990000052
和宿主相似性矩阵
Figure FDA0003149059990000053
5.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤5的具体实现方式如下;
使用node2vec的算法框架,对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习,该异构网络G仅包含已知病毒和宿主的关联,而不使用病毒与病毒相似网络和宿主与宿主相似网络,Node2vec引入两个超参数p和q来控制随机游走的策略,假设当前随机游走经过边(t,υ)到达顶点υ,设πυx=αpq(t,x)·wυx,πυx是顶点υ和顶点x之间的未归一化转移概率,wυx是顶点υ和顶点x的边权,路径采样策略αpq(t,x)定义如下:
Figure FDA0003149059990000054
在公式(18)中,dtx为顶点t和顶点x之间的最短路径距离,由公式(18)可以获得节点邻近集合;
设f(u)将节点u映射embedding向量的映射函数,对于图中任意一个节点u,定义Ns(u)为通过公式(18)采样出的节点u的邻近点集合,由式(19)得到使其邻近点出现的概率最大的f(u):
Figure FDA0003149059990000055
根据以下两个假设条件
(1)条件独立,假设给定源顶点下,其近邻顶点ni出现的概率与近邻集合中其余顶点无关;
Figure FDA0003149059990000056
(2)特征空间对称性,这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量;
Figure FDA0003149059990000061
将式(19)优化为最终的目标函数式(22):
Figure FDA0003149059990000062
在式(22)中,由于归一化因子
Figure FDA0003149059990000063
计算代价高,采用负采样技术优化;
通过求这个最终的目标函数式(22)最大值的情况下,得到f(u)的函数形式,从而得到每个节点的特征向量。
6.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤8的具体实现方式如下,
对于每个病毒宿主对的每个简单路径,从源节点,即宿主节点开始,到目标节点,即病毒节点结束,使用路径得分来计算,即使用以下公式(23):
Figure FDA0003149059990000064
在公式(23)中,P={p1,p2,...,pn}是连接宿主节点hi和病毒节点υj的路径集合,Pweights为节点间的权值;路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积,为了减少计算量,将路径长度限制为小于或等于3,即存在6种路径结构Path={path1,path2,path3,path4,path5,path6},每个节点从宿主节点开始,以一个病毒节点结束,path1:(H-H-V),path2:(H-V-V),path3:(H-H-H-V),path4:(H-H-V-V),path5:(H-V-V-V),path6:(H-V-H-V),对每种路径结构的两个特征进行了挖掘,
(1)每个路径结构的所有元路径得分之和:
Figure FDA0003149059990000065
(2)每个路径结构下所有元路径得分的最高分:
Figure FDA0003149059990000066
元路径是指具有相同路径结构的所有路径,元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积;ASP表示一对病毒υj和宿主hi之间的元路径;为了确保较长的路径在我们的方法中不处于不利地位,每个最大或总和路径得分都是单独计算的,其中每个得分都考虑到属于特定路径结构的所有路径集。
7.如权利要求1所述的一种基于网络融合与图嵌入的病毒-宿主关联预测方法,其特征在于:步骤9中采用Adaboost分类模型作为预测模型,Adaboost根据m个弱分类器对样例数据的分类效果的好坏,赋予不同的弱分类器不同的权值并将其组合成一个强分类器,Adaboost的算法流程如下;
(1)给定一个二分类数据集T={(x1,y1),(x2,y2),...,(xN,yN)},x代表输入样例,y代表样例所属的类别空间,初始化训练数据的权值分布:
Figure FDA0003149059990000071
对于M个分类器Gm(x):x→{0,1},m∈(1,M)分别使用带权值分布的数据进行训练;
(2)计算弱分类器Gm(x)上的分类错误率:
Figure FDA0003149059990000072
计算Gm(x)的系数:
Figure FDA0003149059990000073
更新训练数据的权值分布:
Dm+1=(wm+1,1,...,wm+1,j,...,wm+1,N) (29)
Figure FDA0003149059990000074
Figure FDA0003149059990000075
其中,Gm(xi)代表弱分类器对样例数据进行分类的结果;
(3)构建基分类器的线性组合:
Figure FDA0003149059990000076
最终的分类器:
Figure FDA0003149059990000081
CN202110759660.8A 2021-07-06 2021-07-06 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 Active CN113591930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110759660.8A CN113591930B (zh) 2021-07-06 2021-07-06 一种基于网络融合与图嵌入的病毒-宿主关联预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110759660.8A CN113591930B (zh) 2021-07-06 2021-07-06 一种基于网络融合与图嵌入的病毒-宿主关联预测方法

Publications (2)

Publication Number Publication Date
CN113591930A true CN113591930A (zh) 2021-11-02
CN113591930B CN113591930B (zh) 2023-09-05

Family

ID=78246015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110759660.8A Active CN113591930B (zh) 2021-07-06 2021-07-06 一种基于网络融合与图嵌入的病毒-宿主关联预测方法

Country Status (1)

Country Link
CN (1) CN113591930B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896860A (zh) * 2022-03-29 2022-08-12 武汉纺织大学 基于LightGBM和XGBoost组合模型的飞灰含碳量软测量方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837753A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837753A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 一种基于多模态堆叠自动编码机的microRNA-疾病关联预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADITYA GROVER ET AL.: ""node2vec: Scalable Feature Learning for Networks"", ARXIV, pages 1 - 10 *
BO WANG ET AL.: ""S imilarity network fusion for aggregating data types on a genomic scale"", 《NATURE METHODS》, vol. 11, no. 3, pages 333 - 340 *
NATHAN A. AHLGREN ET AL.: ""Alignment-free d∗2 oligonucleotide frequency dissimilarity measure improves prediction of hosts from metagenomically-derived viral sequences"", 《NUCLEIC ACIDS RESEARCH》, vol. 45, no. 1, pages 39 - 53 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896860A (zh) * 2022-03-29 2022-08-12 武汉纺织大学 基于LightGBM和XGBoost组合模型的飞灰含碳量软测量方法
CN114896860B (zh) * 2022-03-29 2024-05-14 武汉纺织大学 基于LightGBM和XGBoost组合模型的飞灰含碳量软测量方法

Also Published As

Publication number Publication date
CN113591930B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Rozemberczki et al. Gemsec: Graph embedding with self clustering
WO2023000574A1 (zh) 一种模型训练方法、装置、设备及可读存储介质
Wang et al. Remote sensing image classification based on the optimal support vector machine and modified binary coded ant colony optimization algorithm
Jadhav et al. Comparative study of K-NN, naive Bayes and decision tree classification techniques
Wang et al. Evolutionary extreme learning machine ensembles with size control
CN110943981B (zh) 基于层次学习的跨架构漏洞挖掘方法
Zainudin et al. Feature Selection Optimization using Hybrid Relief-f with Self-adaptive Differential Evolution.
CN113535947B (zh) 一种带有缺失标记的不完备数据的多标记分类方法及装置
Zheng et al. Multimodal deep network embedding with integrated structure and attribute information
Wankhade et al. Data stream classification: a review
CN115761275A (zh) 一种基于图神经网络的无监督社区发现方法及系统
Chen et al. Variational Graph Embedding and Clustering with Laplacian Eigenmaps.
CN112509017A (zh) 一种基于可学习差分算法的遥感影像变化检测方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Peng et al. JGSED: An end-to-end spectral clustering model for joint graph construction, spectral embedding and discretization
Gu et al. Robust semi-supervised classification for noisy labels based on self-paced learning
Zheng et al. Attribute augmented network embedding based on generative adversarial nets
CN113591930B (zh) 一种基于网络融合与图嵌入的病毒-宿主关联预测方法
Lall et al. A copula based topology preserving graph convolution network for clustering of single-cell RNA-seq data
Jørgensen et al. Isometric Gaussian process latent variable model for dissimilarity data
CN110502669B (zh) 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
Singh et al. Meta-DZSL: a meta-dictionary learning based approach to zero-shot recognition
CN116628524A (zh) 一种基于自适应图注意力编码器的社区发现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant