CN114913916A - 预测新冠病毒适应药物的药物重定位方法 - Google Patents
预测新冠病毒适应药物的药物重定位方法 Download PDFInfo
- Publication number
- CN114913916A CN114913916A CN202210411352.0A CN202210411352A CN114913916A CN 114913916 A CN114913916 A CN 114913916A CN 202210411352 A CN202210411352 A CN 202210411352A CN 114913916 A CN114913916 A CN 114913916A
- Authority
- CN
- China
- Prior art keywords
- drug
- matrix
- disease
- similarity
- virus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 179
- 229940079593 drug Drugs 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title claims abstract description 121
- 241000711573 Coronaviridae Species 0.000 title claims abstract description 38
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims abstract description 156
- 201000010099 disease Diseases 0.000 claims abstract description 119
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 119
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 241000282414 Homo sapiens Species 0.000 claims abstract description 22
- 241000700605 Viruses Species 0.000 claims abstract description 15
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 22
- 230000003993 interaction Effects 0.000 claims description 21
- 239000000126 substance Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 13
- 230000006978 adaptation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012804 iterative process Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000008186 active pharmaceutical agent Substances 0.000 claims 7
- 238000002474 experimental method Methods 0.000 abstract description 8
- 238000012827 research and development Methods 0.000 abstract description 2
- 210000004940 nucleus Anatomy 0.000 description 12
- 238000004088 simulation Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 7
- 238000005457 optimization Methods 0.000 description 6
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000009509 drug development Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 229960005486 vaccine Drugs 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 208000001528 Coronaviridae Infections Diseases 0.000 description 2
- 208000025370 Middle East respiratory syndrome Diseases 0.000 description 2
- 201000003176 Severe Acute Respiratory Syndrome Diseases 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241001678559 COVID-19 virus Species 0.000 description 1
- 241000711467 Human coronavirus 229E Species 0.000 description 1
- 241001109669 Human coronavirus HKU1 Species 0.000 description 1
- 241001428935 Human coronavirus OC43 Species 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 108700005077 Viral Genes Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012822 chemical development Methods 0.000 description 1
- 229940121657 clinical drug Drugs 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940000406 drug candidate Drugs 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 238000009511 drug repositioning Methods 0.000 description 1
- 238000003255 drug test Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000000299 nuclear matrix Anatomy 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
Abstract
本发明实施例公开了一种预测新冠病毒适应药物的药物重定位方法,包括:步骤1:采用WKNKN算法处理人类药物‑病毒关联数据集;步骤2:分别计算药物和病毒的杰卡德相似性和高斯核相似性;步骤3:利用中心核对称多核学习方式进行整合,从而分别获得药物和病毒的综合相似性矩阵;步骤4:结合处理完的人类药物‑病毒关联数据集信息,通过压缩感知算法补全原人类药物‑病毒关联数据集中缺失的关联,得到预测概率矩阵;步骤5:作为药物‑病毒的预测结果矩阵。本发明结合中心核对称的多核学习模型的压缩感知方法去预测药物与疾病的潜在关联概率,并进行实验验证该方法作为寻找能与新冠病毒作用的药物研发辅助工具的可行性。
Description
技术领域
本发明涉及药物-疾病关联预测领域,尤其涉及一种预测新冠病毒适应药物的药物重定位方法。
背景技术
2019年被发现的COVID-19病毒,因外形类同于以往发现的冠状病毒而被命名为“新型冠状病毒”,是继人类发现并研究的六种冠状病毒外的(229E(HCoV-229E)、HCoV-OC43、HCoVNL63、HCoV-HKU1、严重急性呼吸综合征(SARS)相关冠状病毒(SARS-Cov)和中东呼吸综合征(MERS)相关冠状病毒(MERS-Cov))第7种冠状类病毒。纵观全球疫情情况,新冠病毒正在严重影响人类的正常生活,并且随时威胁着人类的生命安全。尽管现在已经有团队研发了针对性的新冠疫苗,但放眼全球,疫苗还是属于紧缺资源,目前对于新冠肺炎的治疗药物在紧急研发中。更严重的是,新冠病毒的遗传物质是单链RNA,这种遗传物质会使新冠病毒在转录复制阶段很容易发生变异,这种变异存在改变新冠病毒的体外特征的可能,随时威胁着现有新冠病毒疫苗的有效性。目前研究人员已经发现变异的新冠病毒毒株(如德尔塔毒株、奥密克戎毒株),因此,加速研发治疗新冠的有效药物迫在眉睫。
药物开发通常包括三个阶段:发现、临床前和临床开发。每个阶段都需要花费大量的金钱和时间。药物重定位技术,是一种为现有药物寻找其他适应症状的技术(简称旧药新用)。得益于大数据时代的发展集成了很多生物临床试验结果,人们对于利用计算机算法模型作为辅助工具的药物重定位技术越来越感兴趣。与传统的药物临床试验相比,药物重定位技术能有效减少药物研发过程中的金钱和时间的花费。近年来不少学者已经提出了以计算机算法模型为辅助工具的药物重定位方法,并且均得到了有效的生物实验数据的验证。因此,采用药物重定位技术去筛选适应新冠病毒的治疗药物是可行的。
目前以计算机算法模型为辅助工具的药物重定位方法可分为三类:机器学习方法类、基于网络传播的方法和基于矩阵分解与补全的方法。这些方法是基于一种假设,即类似的药物与类似的疾病有关,反之亦然。
在基于机器学习方法中,预测潜在的药物-疾病关联可以被视为一个二元分类问题。药物-疾病关联被认为是样本,而药物和疾病先前的相似性被认为是特征。目前的机器学习方法类有基于有监督学习和半监督学习之分,它们的区别在于是否对训练集的样本标签存在依赖作用。有监督学习的方法严重依赖于数据集中的已知样本标签,但这些标签数据在实际情况下很难获得,从而限制了这些预测方法的应用范围。半监督学习方法不再需要负样本,但它们的性能并不稳定,这在一定程度上影响了半监督学习方法的应用。机器学习方法在药物重定位领域显示了巨大的潜力但当前方法依然存在着不足之处,限制了该类方法的实际应用。
药物和适应症状的关系结构利用网络结构可以很容易的表达出来,目前很多基于网络的药物重定位方法都是利用药物和适应症状的关联矩阵建立网络结构,基于各自的相似性信息进行权值的初始赋值,并使用游走或扩散的方式将关联资源从药物端传播到适应症状端,从而推断网络中的缺失边,在计算效率上有很大的优势。
对于一个部分仅知的信息矩阵,矩阵补全是用一个低秩的模拟矩阵近似该信息矩阵,以模拟矩阵对应的元素作为目标矩阵中缺失的信息的估计值。而矩阵分解通常是指用两个低秩的子矩阵的内积来近似目标矩阵,那么子矩阵的内积矩阵的元素就可以用于估计目标矩阵中对应不可见位置的元素值,而子矩阵可以看作是目标矩阵的分解。显然,通过以上描述可知,矩阵分解可以用于矩阵补全任务,但是,矩阵补全也并不总是采用分解的方法。
在上述方法中应用于药物重定位的关联数据集仅有已验证的“正”数据,压缩感知作为矩阵补全的一类方法,因其使用“子矩阵模拟”技术来预测药物-疾病的潜在相互作用而不将所有缺失的数据作为负数据处理,在应用于药物重定位的方面与机器学习的监督类方法相比存在先天优势。另一方面,由于现有的数据集的关联信息受生物实验的因素影响而变得稀疏,基于网络或图的这类方法大多依靠关联数据作为二分图的资源传播路径往往会出现冷启动问题而影响模型的预测性能,部分采用游走方式的方法甚至会因游走方式偏好权值大的路径而陷入无意义循环,增大模型的时间复杂性。相比之下,以现有的矩阵信息出发,压缩感知利用子矩阵对原矩阵信息进行采集,生成一个低秩的模拟矩阵去补全原矩阵的缺失部分,与基于网络或图的方法相比在一定程度上避免了模型的冗余。
药物重新定位旨在为现有药物确定新的适应症,这技术将大大降低了药物开发的成本和时间。但是,到目前为止的所有应用于药物重定位的方法都直接使用未经处理的原始的药物-疾病关联矩阵的信息,由于在实际情况下这些相似关联信息只有小部分被证明并记录下来,还有很多相似关联信息亟待证明,导致用于预测方法的原始关联矩阵数据稀疏性大。另外,对于药物之间和疾病之间的相似性特征的提取,目前还缺乏充分挖掘方法。
发明内容
本发明实施例所要解决的技术问题在于,提供一种预测新冠病毒适应药物的药物重定位方法,以使能够作为寻找能与新冠病毒作用的药物研发辅助工具。
为了解决上述技术问题,本发明实施例提出了一种预测新冠病毒适应药物的药物重定位方法,包括:
步骤1:采用WKNKN算法处理人类药物-病毒关联数据集HDVD,所述数据集包括药物-疾病关联邻接矩阵Y、药物化学结构相似度矩阵、疾病语义相似度矩阵;挖掘潜在相互作用的似然分数,降低药物-疾病关联矩阵Y的稀疏性,得到处理后的人类药物-病毒关联数据集HDVD;
步骤2:根据处理后的人类药物-病毒关联数据集HDVD分别计算药物和病毒的杰卡德相似性和高斯核相似性,得到药物和疾病的杰卡德相似矩阵DSjac和dSjac,得到疾病的高斯核相似矩阵dSGaus以及药物的高斯核相似矩阵DSGaus;
步骤3:分别结合药物的化学相似性和病毒的序列相似性利用中心核对称多核学习方式进行整合,从而分别获得药物和病毒的综合相似性矩阵;
步骤4:结合处理后的人类药物-病毒关联数据集HDVD信息,通过压缩感知算法补全原人类药物-病毒关联数据集中缺失的关联,得到预测概率矩阵;
步骤5:将得到预测概率矩阵作为药物-病毒的预测结果矩阵。
进一步地,步骤1包括以下子步骤:
子步骤1、对于每个药物Di,采用与其最接近的K种已知药物的化学相似度矩阵DSchem及其对应的关联作用来估计Di的相互作用似然分数,推导公式如下:
子步骤2、相似地,对于每个疾病dj,采用与其最接近的K种已知疾病的语义相似性及其对应的交互作用来估计dj的交互似然分数,推导公式如下:
子步骤3、采用下式计算得到处理后的药物-疾病关联邻接矩阵YF:
进一步地,步骤2中,采用下式计算药物的杰卡德相似矩阵DSjac:
其中Γ(x)是与药物Dx相关联的疾病集合,Γ(y)是与药物Dy相关联的疾病集合;
同理,按照上述方式计算出疾病的杰卡德相似矩阵dSjac。
进一步地,步骤2中,将疾病di和dj之间的高斯核相似性表示为dSGaus,药物Di和Dj之间的高斯核相似性表示为DSGaus,计算方法如下:
dSGaus(di,dj)=exp(-αd||Q(di)-Q(dj)||2);
DSGaus(Di,Dj)=exp(-αD||Q(Di)-Q(Dj)||2);
在药物-疾病关联邻接矩阵YF中,第i行表示药物Di是否与每种疾病有关,第j列表示疾病dj是否与每种药物有关;向量Q(Di)和Q(dj)分别将第i行向量和第j列向量表示为高斯核的特征向量;核带宽αd和αD定义为:
其中,初始核带宽系数α′d和α′D均设置为1。
进一步地,步骤3中,使用CKA-MKL算法分别在两个空间组合三个相似核矩阵,其中,特征核K*采用下式计算:
其中k为核数,Ki分别在药物相似核集DSchem、DSjac、DSGaus和疾病相似核集dSsem、dSjac、dSGaus中取值,ωi为核Ki的权值,N是节点数;
内核对齐的值定义如下:
根据上式定义经过中心核对齐后的目标函数如下:
其中,a∈Rk×1和M∈Rk×k分别由下式计算而得:
将最终目标函数表示为:
分别计算药物和疾病的最佳组合相似矩阵。
进一步地,步骤4中,压缩感知算法的计算过程为:
根据下式计算初始概率矩阵:
其中pi,j是药物Di和疾病dj的相互作用概率,fi是药物子矩阵F的第i行,gj是疾病子矩阵G的第j行,wi,j是药物Di和疾病dj的初始权值;
构建损失函数式:
引入两个额外的可调参数λM和λN,转化得到损失函数为:
根据下式计算子矩阵F和矩阵G的偏导数:
根据下式分别更新子矩阵F和矩阵G:
其中,k为迭代过程的学习率;上标n是当前迭代次数;子矩阵F和G更新的结束条件为max(ΔF,ΔG)<10-5。
进一步地,步骤4中,根据下式,用矩阵Fn+1和Gn+1计算概率矩阵Pn+1:
本发明的有益效果为:本发明结合中心核对称的多核学习模型的压缩感知方法去预测药物与疾病的潜在关联概率,并进行实验验证该方法作为寻找能与新冠病毒作用的药物研发辅助工具的可行性;本发明用药物-疾病关联数据集Fdataset和Cdataset来验证,最后迁移应用到人类药物-病毒关联数据集HDVD上。
附图说明
图1是本发明实施例的预测新冠病毒适应药物的药物重定位方法的流程示意图。
图2(a)和(b)分别是本发明实施例的方法与其他现有的方法在Fdataset数据集和Cdataset数据集的ROC图。
图3(a)和(b)是本发明实施例的方法与其他矩阵补全方法在新冠病毒数据集HDVD的ROC图和PR图。
图4是本发明实施例消融实验中的各模块组成的roc图,其中(a)是基于数据集Fdataset进行实验的roc图;(b)是基于数据集Cdataset进行实验的roc图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
本发明先引入WKNKN算法处理药物-疾病的关联邻接矩阵,以降低其稀疏性。利用CKA-MKL处理多种相似性矩阵可以得到每个相似性矩阵(核)的权重,从而选择最佳的矩阵组合。本发明采用CKA-MKL算法将不同的相似信息矩阵进行融合,得到综合相似性矩阵。最后,利用压缩感知的矩阵补全算法计算药物-疾病关联预测评分。本发明的总体流程图如图1所示,图中右下方框内为压缩感知模型的迭代过程。
本发明的算法过程如下:
输出:关联预测矩阵Pn+1。
Step1使用WKNKN算法计算关联概率矩阵YF:
fori=1→nD do
根据式(1)计算YD;
end for
for j=1→nd do
根据式(2)计算Yd;
end for
Step2根据式(4)分别计算药物和疾病的杰卡德相似矩阵DSjac和dSjac;
Step3根据式(5)计算疾病的高斯核相似矩阵dSGaus;
Step4同理,根据式(6)计算药物的高斯核相似矩阵DSGaus;
Step5使用CKA-MKL算法分别在两个空间组合三个相似核矩阵:
根据式(9)和式(10)定义目标函数式(11)和式(12);
根据式(13)和式(14)将目标函数式(12)转化为式(15);
通过使函数(15)最小化计算疾病和药物相似矩阵组合的最优权值ωD和ωd;
根据式(16)和式(17)分别计算药物和疾病的最佳组合相似矩阵;
Step6压缩传感模型的计算过程:
根据式(19)计算初始概率矩阵;
构建损失函数式(21);
根据式(22)和式(23)将函数式(21)转化为式(24);
Do
通过求解式(24),从式(25)和式(26)计算矩阵F和矩阵G的偏导数;
根据式(27)和式(28)分别更新矩阵F和矩阵G;
Until max(ΔF,ΔG)<10-5;
Step7根据式(19),用矩阵Fn+1和Gn+1计算概率矩阵Pn+1。
输出:Pn+1。
本发明将压缩感知作为寻找新冠病毒的潜在适应药物的方法。由于矩阵补全方法生成的模拟矩阵是经过低秩优化处理的,而低秩优化受原矩阵的秩影响,原则上模拟矩阵的秩越大,所能补全的信息越多。因此,引入权值K最近邻算法(Weight K Nearest KnownNeighbors algorithm,WKNKN)算法对原矩阵进行预处理,增大原矩阵的秩。此外,压缩感知允许本发明加入药物和疾病的相似性特征来辅助修正子矩阵。由于单一相似性信息对模型性能的稳定性影响较大,目前方法大多采用多种相似性的组合,但它们一般仅作求均值处理,缺乏系统的组合方式。为了更好的整合多种类型的相似性信息,利用中心核对称的多核学习模型(Centered Kernel Alignment-based Multiple Kernel Learning,CKA-MKL)对多种类型的药物和疾病相似性矩阵进行融合。经过CKA-MKL的处理,本发明可以得到每个相似矩阵(核)的权重,并选择最佳的矩阵组合,从而提高各种相似信息的互补性。
以下对本发明的各实施例原理及过程分别进行阐述:
1、验证数据集
在本发明中,采用Fdataset和Cdataset作为金标准数据集来测试本发明提出的模型的性能。
1.1、药物-疾病数据集
其中Fdataset是从不同的数据源中收集了593种药物、313种疾病和1,933种已验证的药物-疾病关联。而另一个数据集Cdataset包括409种疾病,663种药物和2532种疾病与药物的关联。两个数据集都各自包含三个信息矩阵:
1.2、药物-病毒数据集
HDVD是利用文本挖掘技术收集了大量经实验验证的药物-病毒相互作用词条构建的实验支持的人类药物-病毒关联数据库。本发明采用HDVD作为寻找新冠病毒的适应药物的数据集。HDVD可在(https://github.com/luckymengmeng/HDVD)免费下载。HDVD收录了34种病毒、219种药物和455种证实的人类药物-病毒相互作用。与上述金标准数据集类同,HDVD包含三个信息矩阵:
(2)药物化学结构相似矩阵SMILES(Simplified molecularInput Line Entry System)是一种以一维表示形式描述分子结构的信息格式。本发明采用SMILES格式从DrugBank数据库中下载相应药物的化学结构信息,通过Open Babel v2.3.1计算每种药物的分子访问系统(Molecular Access System,MACCS)指纹,并利用谷本系数测量两个分子之间的绝对相似性来构建药物化学结构相似矩阵DSchem;
(3)病毒基因序列相似矩阵MAFFT是一种基于相似性的多序列比对方法。本发明从国家生物技术信息中心(NCBI)下载了智人体内病毒的基因组核苷酸序列,并利用第7版MAFFT计算病毒之间的序列相似性来构建病毒基因序列相似矩阵VSgen。
本发明各步骤的原理和流程细节如下:
2.1、WKNKN
压缩感知算法原理上是利用子矩阵对关联矩阵的信息进行采样,并用子矩阵还原的模拟矩阵来近似关联矩阵。目标矩阵的信息稀疏性会影响子矩阵中的元素对目标矩阵信息的描述性,从而影响模拟矩阵的恢复精度。Cdataset和Fdataset中的药物-疾病关联矩阵Y都是稀疏的(HDVD同理),这是因为目前的研究进展中仍有很多药物-疾病关联尚未得到证实。因此,本发明通过引入WKNKN来挖掘潜在相互作用的似然分数,在一定程度上降低药物-疾病关联矩阵Y的稀疏性。即在邻接矩阵Y中,使用WKNKN算法来估算药物-疾病对之间的相互作用似然值。具体可分为三个步骤进行:
Step1、对于每个药物Di,采用与其最接近的K种已知药物的化学相似度矩阵DSchem及其对应的关联作用来估计Di的相互作用似然分数。推导公式如下:
Step2、相似地,对于每个疾病dj,采用与其最接近的K种已知疾病的语义相似性及其对应的交互作用来估计dj的交互似然分数。推导公式如下:
Step3、最后,如果Yij=0,则将其替换为取YD和Yd的平均值,如下所示:
2.2、药物和疾病的杰卡德相似性
Jaccard相似性是向量之间的公共邻域测度的标准化形式。以药物Dx和Dy为例,杰卡德相似性证明了从Dx和Dy节点对的疾病关联集合中随机选择是Dx和Dy节点对的共同作用疾病之一的概率。若Dx和Dy节点的共同疾病的数量越多,这个度量就越大,Dx和Dy就越相似。公式如下:
其中Γ(x)是与药物Dx相关联的疾病集合。
相似地,可以按照上述方式计算出疾病的杰卡德相似矩阵dSjac。
2.3、药物和疾病的高斯核相似性
高斯核相似性是计算不同类型节点之间相似性的常用方法之一。通过径向基将数据进行高维投影,可计算不同节点向量之间的距离,从而获得节点之间的相似性权重,因此高斯核相似性也被称为径向基函数(RBF)核相似性。在邻接矩阵YF中,第i行表示药物Di是否与每种疾病有关,第j列表示疾病dj是否与每种药物有关。向量Q(Di)和Q(dj)分别将第i行向量和第j列向量表示为高斯核的特征向量。因此,本发明将疾病di和dj之间的高斯核相似性表示为dSGaus,药物Di和Dj之间的高斯核相似性表示为DSGaus。计算方法如下:
dSGaus(di,dj)=exp(-αd||Q(di)-Q(dj)||2) (5)
DSGaus(Di,Dj)=exp(-αD||Q(Di)-Q(Dj)||2) (6)
这里核带宽αd和αD被定义为:
其中初始核带宽系数α′d和α′D均设置为1。
2.4、基于中心核对齐的多核学习算法CKA-MKL
目前已有不少挖掘药物和疾病的相似性方法被提出,它们能从不同的角度去挖掘药物和疾病的相似特征。对于药物重定位方法而言,采用不同的相似性信息对模型预测性能的影响不同,因此目前的方法大多采用多种相似性信息的组合,但它们一般仅作求均值或互补等处理,缺乏系统的组合方式。为了合理地整合多种类型的相似性信息,本发明通过CKA-MKL处理多种相似性矩阵并得到每个相似性矩阵(核)的权重,从而选择最佳的相似矩阵组合,提高各种相似信息的互补性。具体地,由上述工作可以得到的药物和疾病的相似核集中各有三种相似核矩阵 然后,本发明使用基于中心核对齐的多核学习(CKA-MKL)方法分别在两个空间中组合三个核矩阵。最优内核计算如下:
其中k为核数,Ki分别在药物相似核集(DSchem,DSjac,DSGaus)和疾病相似核集(dSsem,dSjac,dSGaus)中取值,ωi为核Ki的权值。N是节点数。
核对齐的得分可以通过计算两个核之间的余弦关联度来描述。核之间的关联度越大,核之间对齐度越高。因此内核对齐的值定义如下:
其中P,Q∈RN×N,N∈{nD,nd},<P,Q>F=Trace(PTQ)是Frobenius内积,是Frobenius范数。实际上,核对齐得分可以看作是两个核(特征核K*和理想核矩阵YF )之间的相关性。为了得到核的最优权值,应该让K*,YF 之间的对齐得分最大。因此,经过中心核对齐后的目标函数如下:
其中,a∈Rk×1和M∈Rk×k分别由公式(13)和(14)计算而得:
最终目标函数也可以表示为:
2.5、压缩感知模型
压缩感知是一种矩阵补全类方法,其原理是通过子矩阵的内积得到的模拟矩阵近似目标矩阵,然后用模拟矩阵中的元素作为目标矩阵中不可观察部分的元素的估计。换句话说,给定一个相互作用信息存在缺失的矩阵nD代表药物数量,nd代表疾病的数量,本发明在WKNKN算法的基础上将YF看作是由两个低维的子矩阵和的内积模拟所得,子矩阵分别对应于药物和疾病的潜在特征。通过将药物和疾病的关联信息映射到低维度的共同潜在的空间来近似于药物与疾病之间的相互作用概率。在补全过程中,通过减少模拟矩阵和目标矩阵的差距来驱使子矩阵的优化。为了避免模型出现过度优化的情况,在计算模拟矩阵和目标矩阵的差距时会计算子矩阵的复杂程度作为子矩阵优化的惩罚项。此外,在优化过程中,压缩感知模型允许引入药物和疾病的相似性信息来不断修正子矩阵模型。
根据上述描述,可以知道,给定药物Di和疾病dj,它们相互作用事件的概率是可以通过下式计算:
或者按矩阵方式表示:
其中pi,j是药物Di和疾病dj的相互作用概率,fi是药物子矩阵F的第i行,gj是疾病子矩阵G的第j行,wi,j是药物Di和疾病dj的初始权值。通过贝叶斯推理,可以推导出p(F,G|YF)的概率:
p(F,G|YF)∝p(YF|F,G)p(F)p(G)(20)
进而得到模型的损失函数:
为了提高方法预测的准确性,本发明在相似的药物可能与相似的疾病相互作用这一假设的基础上进一步扩展了损失函数。具体地,设为药物相似度矩阵,其中每个条目DSi,j表示药物Di和Dj之间的相似度,设为疾病相似度矩阵。相似的疾病与相似的药物结合是通过最小化药物之间的性质的距离来解释:
同样还有疾病之间的相似特性:
将上述正则化项(22)和(23)合并到(21)中,并引入两个额外的可调参数λM和λN,本发明的损失函数为:
有几种方法可以使损失函数(24)[46-48]最小化。与Liu等人[48]相似,压缩感知使用AdaGrad-一种迭代梯度下降方法,在迭代过程中,损失函数的偏导数可以写成:
ΔF=||Fn+1||F-||Fn||F (29)
ΔG=||Gn+1||F-||Gn||F (30)
其中k为迭代过程的学习率;上标n是当前迭代次数;子矩阵F和G更新的结束条件为max(ΔF,ΔG)<10-5;||BF||F是BF的Frobenius范式,||BG||F同理,分别定义为:
本发明针对新冠病毒的药物研发构建一个性能优异、结果可靠的药物重定位辅助计算方法,因此本发明采用了在药物重定位研究邻域中被广泛应用的Fdataset和Cdataset作为金标准数据集,并将本发明提出的方法与近年来研究学者提出的方法进行比较,以此验证本发明的方法的性能表现。其中Fdataset数据集包括593种药物、313种疾病和1933种经过验证的药物-疾病关联,该数据集的药物信息从DrugBank数据库中收集,疾病信息收集自孟德尔人类遗传学(OMIM)在线数据库,该数据库专注于遗传疾病,包括文本信息和相关参考信息、序列记录、地图等相关数据库;而Cdataset数据集包括663种药物、409种疾病以及它们之间的2532种关联。然后,本发明在HDVD数据集上将本发明的方法与同类型的方法进行比较,进一步验证本发明方法在HDVD上的性能。药物-病毒数据集(human drug-virusassociation database,HDVD)收录了34种病毒(其中包括新冠病毒)、219种药物和455种证实的人类药物-病毒相互作用。
1、金标准数据集上的方法性能对比
为了测试本发明的方法的性能,本发明采用了10次10折CV在Fdataset和Cdataset两个金标准数据集上与其他经典的药物重定位方法进行比较。在测试了所有交互作用后,计算了真阳性率(TPR)和假阳性率(FPR),如下式所示:
其中TP为正确识别的阳性样本数,FN为不正确识别的阴性样本数。TPR是阳性样本在阳性样本中被正确识别的比例。
其中FP为正确识别的阳性样本数,TN为正确识别的阴性样本数。FPR是错误识别的阴性样本占所有阴性样本的比例。
AUC是ROC曲线下的面积,它被广泛用于描述全局预测性能。AUC值越接近1表示性能越好,而AUC值越接近0.5表示性能越接近随机。本发明通过改变预设的排名阈值,分别计算真阳性率(TPR)和假阳性率(FPR),并绘制ROC曲线。如图2所示,与其他方法相比,本发明的方法得到了更好的结果。本发明提出的方法在Cdataset中的AUC为0.955,比BNNR(0.950)高0.5%。DrugNet的AUC值最低,比本发明的方法低15.1%。本发明的方法在Fdataset中得分最高。本发明的方法的AUC值为0.937,比BNNR(0.933)高0.8%。DrugNet的AUC值最低,比本发明的方法低16.3%。综上所述,本发明的方法在金标准数据集上的性能表现优于图2中的其他方法。
2、HDVD数据集上的方法性能对比
为了验证本发明提出的方法在HDVD数据集上的性能表现,将本方法和其他近年来的同类型的预测方法在HDVD上进行10次10折CV验证,并绘画出每种对比方法的ROC曲线图并计算对应AUC值。如图3(a)所示,发现本发明的方法在10次10折CV实验结果中性能表现为AUC=0.8771。其他方法分别为:BNNR(AUC=0.8772)、HGIMC(AUC=0.7851)、GMCLDA(AUC=0.7350)和SIMCLDA(AUC=0.7051)。其中本发明方法的AUC值与BNNR的AUC值接近。
为了进一步评价本发明的方法与BNNR及其他矩阵补全方法在HDVD数据集上的性能对比,本发明在相同的验证框架上计算了Precision指标,并绘制PR曲线和计算对应的AUPR值。由于Precision指标是正确识别的阳性样本在检索样本中所占的百分比。其精度值越大,该模型预测性能越好。因此本发明在HDVD数据集上计算了各方法的精确度(Precision),并绘制Precision-recall曲线来综合评价本发明的方法在HDVD上的性能。Precision计算方式如下:
如图3(b)所示,本发明的方法AUPR值最高,为0.5060,比其他方法要高,分别是BNNR(AUPR=0.4888)、HGIMC(AUPR=0.4174)、GMCLDA(AUPR=0.1771)和SIMCLDA(AUPR=0.1518)。综上所述,本发明的方法在HDVD数据集的性能表现优于图3中的其他方法。
3、消融实验
为验证本发明提出的模型各部分的有效性,在Fdataset和Cdataset两个金标准数据集进行了消融实验。各种模块的组合对比如表1所示,其中模型1为本文所提出的方法(即WKNKN+CKA-MKL+压缩感知),模型2为WKNKN算法、相似性均值融合和压缩感知的组合,模型3为CKA-MKL与压缩感知的组合,模型4为相似性均值融合与压缩感知的组合,模型5为WKNKN、单一相似性(没有引入药物和疾病的杰卡德相似性和高斯核相似性)和压缩感知的组合,模型6为单一相似性(没有引入药物和疾病的杰卡德相似性和高斯核相似性)和压缩感知方法。从图4可知,模型1与模型2相比略有提升,这是因为利用CKA-MKL处理多种相似性矩阵可以得到每个相似性矩阵(核)的权重,并选择最佳的矩阵组合,提高各种相似信息的互补性。模型1与模型3、模型2与模型4和模型5与模型6这3组对比模型均说明引入WKNKN对药物-疾病关联矩阵进行预处理能提升矩阵的奇异值采样数据对原矩阵数据的代表性,提高关联预测的精度。模型3与模型6的对比说明了通过富集多种相似性信息能在一定程度上提高药物重定位的效果。
表1
4、案例分析
为了确定预测的关联对是否真实或者是否具有参考价值,本实施例在HDVD数据集中选择新冠病毒作为应用对象用来验证本方法预测的潜在药物,并列出前15名候选药物的确认信息。在得到预测结果之后,通过权威公共数据库如DrugBank、CTD、KEGG和部分研究文献对候选药物对新冠病毒的适用性进行验证。预测结果和验证汇总见表2。在根据最终预测的关联分数排名的前15名候选药物中,有12种药物(80%的成功率)得到了各种证据的验证。这样的结果表明,本发明的方法在实际应用中预测新冠病毒的适应药物是有效可行的。
表2
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
Claims (7)
1.一种预测新冠病毒适应药物的药物重定位方法,其特征在于,包括:
步骤1:采用WKNKN算法处理人类药物-病毒关联数据集HDVD,所述数据集包括药物-疾病关联邻接矩阵Y、药物化学结构相似度矩阵、疾病语义相似度矩阵;挖掘潜在相互作用的似然分数,降低药物-疾病关联矩阵Y的稀疏性,得到处理后的人类药物-病毒关联数据集HDVD;
步骤2:根据处理后的人类药物-病毒关联数据集HDVD分别计算药物和病毒的杰卡德相似性和高斯核相似性,得到药物和疾病的杰卡德相似矩阵DSjac和dSjac,得到疾病的高斯核相似矩阵dSGaus以及药物的高斯核相似矩阵DSGaus;
步骤3:分别结合药物的化学相似性和病毒的序列相似性利用中心核对称多核学习方式进行整合,从而分别获得药物和病毒的综合相似性矩阵;
步骤4:结合处理后的人类药物-病毒关联数据集HDVD信息,通过压缩感知算法补全原人类药物-病毒关联数据集中缺失的关联,得到预测概率矩阵;
步骤5:将得到预测概率矩阵作为药物-病毒的预测结果矩阵。
2.如权利要求1所述的预测新冠病毒适应药物的药物重定位方法,其特征在于,步骤1包括以下子步骤:
子步骤1、对于每个药物Di,采用与其最接近的K种已知药物的化学相似度矩阵DSchem及其对应的关联作用来估计Di的相互作用似然分数,推导公式如下:
子步骤2、相似地,对于每个疾病dj,采用与其最接近的K种已知疾病的语义相似性及其对应的交互作用来估计dj的交互似然分数,推导公式如下:
子步骤3、采用下式计算得到处理后的药物-疾病关联邻接矩阵YF:
4.如权利要求3所述的预测新冠病毒适应药物的药物重定位方法,其特征在于,步骤2中,将疾病di和dj之间的高斯核相似性表示为dSGaus,药物Di和Dj之间的高斯核相似性表示为DSGaus,计算方法如下:
dSGaus(di,dj)=exp(-αd||Q(di)-Q(dj)||2);
DSGaus(Di,Dj)=exp(-αD||Q(Di)-Q(Dj)||2);
在药物-疾病关联邻接矩阵YF中,第i行表示药物Di是否与每种疾病有关,第j列表示疾病dj是否与每种药物有关;向量Q(Di)和Q(dj)分别将第i行向量和第j列向量表示为高斯核的特征向量;核带宽αd和αD定义为:
其中,初始核带宽系数α′d和α′D均设置为1。
5.如权利要求4所述的预测新冠病毒适应药物的药物重定位方法,其特征在于,步骤3中,使用CKA-MKL算法分别在两个空间组合三个相似核矩阵,其中,特征核K*采用下式计算:
其中k为核数,Ki分别在药物相似核集DSchem、DSjac、DSGaus和疾病相似核集dSsem、dSjac、dSGaus中取值,ωi为核Ki的权值,N是节点数;
内核对齐的值定义如下:
根据上式定义经过中心核对齐后的目标函数如下:
其中,a∈Rk×1和M∈Rk×k分别由下式计算而得:
将最终目标函数表示为:
分别计算药物和疾病的最佳组合相似矩阵。
6.如权利要求5所述的预测新冠病毒适应药物的药物重定位方法,其特征在于,步骤4中,压缩感知算法的计算过程为:
根据下式计算初始概率矩阵:
其中pi,j是药物Di和疾病dj的相互作用概率,fi是药物子矩阵F的第i行,gj是疾病子矩阵G的第j行,wi,j是药物Di和疾病dj的初始权值;
构建损失函数式:
引入两个额外的可调参数λM和λN,转化得到损失函数为:
根据下式计算子矩阵F和矩阵G的偏导数:
根据下式分别更新子矩阵F和矩阵G:
其中,k为迭代过程的学习率;上标n是当前迭代次数;子矩阵F和G更新的结束条件为max(ΔF,ΔG)<10-5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411352.0A CN114913916A (zh) | 2022-04-19 | 2022-04-19 | 预测新冠病毒适应药物的药物重定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210411352.0A CN114913916A (zh) | 2022-04-19 | 2022-04-19 | 预测新冠病毒适应药物的药物重定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114913916A true CN114913916A (zh) | 2022-08-16 |
Family
ID=82763878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210411352.0A Pending CN114913916A (zh) | 2022-04-19 | 2022-04-19 | 预测新冠病毒适应药物的药物重定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114913916A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115966252A (zh) * | 2023-02-12 | 2023-04-14 | 汤永 | 基于l1范数图的抗病毒药物筛选方法 |
CN116092598A (zh) * | 2023-01-31 | 2023-05-09 | 汤永 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN116230077A (zh) * | 2023-02-20 | 2023-06-06 | 汤永 | 基于重启超图双随机游走的抗病毒药物筛选方法 |
CN117038105A (zh) * | 2023-10-08 | 2023-11-10 | 武汉纺织大学 | 一种基于信息增强图神经网络的药物重定位方法及系统 |
CN117219226A (zh) * | 2023-10-19 | 2023-12-12 | 山东方格医疗器械有限公司 | 疼痛觉知自适应的镇痛药物自动调控装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520166A (zh) * | 2018-03-26 | 2018-09-11 | 中山大学 | 一种基于多重相似性网络游走的药物靶标预测方法 |
CN113140327A (zh) * | 2021-04-15 | 2021-07-20 | 广东工业大学 | 药物-疾病关联预测方法及系统 |
CN113345593A (zh) * | 2021-03-17 | 2021-09-03 | 天津大学 | 一种在生物关联网络中进行疾病关联关系预测的方法 |
CN113921106A (zh) * | 2021-07-16 | 2022-01-11 | 湖南工业大学 | 一种基于有界核范数正则化的新冠肺炎药物筛选模型 |
-
2022
- 2022-04-19 CN CN202210411352.0A patent/CN114913916A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520166A (zh) * | 2018-03-26 | 2018-09-11 | 中山大学 | 一种基于多重相似性网络游走的药物靶标预测方法 |
CN113345593A (zh) * | 2021-03-17 | 2021-09-03 | 天津大学 | 一种在生物关联网络中进行疾病关联关系预测的方法 |
CN113140327A (zh) * | 2021-04-15 | 2021-07-20 | 广东工业大学 | 药物-疾病关联预测方法及系统 |
CN113921106A (zh) * | 2021-07-16 | 2022-01-11 | 湖南工业大学 | 一种基于有界核范数正则化的新冠肺炎药物筛选模型 |
Non-Patent Citations (1)
Title |
---|
陈蕾: "矩阵补全模型及其算法研究综述", 软件学报, 20 February 2017 (2017-02-20), pages 1547 - 1564 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092598A (zh) * | 2023-01-31 | 2023-05-09 | 汤永 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN116092598B (zh) * | 2023-01-31 | 2023-09-29 | 中国人民解放军总医院 | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 |
CN115966252A (zh) * | 2023-02-12 | 2023-04-14 | 汤永 | 基于l1范数图的抗病毒药物筛选方法 |
CN115966252B (zh) * | 2023-02-12 | 2024-01-19 | 中国人民解放军总医院 | 基于l1范数图的抗病毒药物筛选方法 |
CN116230077A (zh) * | 2023-02-20 | 2023-06-06 | 汤永 | 基于重启超图双随机游走的抗病毒药物筛选方法 |
CN116230077B (zh) * | 2023-02-20 | 2024-01-26 | 中国人民解放军总医院 | 基于重启超图双随机游走的抗病毒药物筛选方法 |
CN117038105A (zh) * | 2023-10-08 | 2023-11-10 | 武汉纺织大学 | 一种基于信息增强图神经网络的药物重定位方法及系统 |
CN117038105B (zh) * | 2023-10-08 | 2023-12-15 | 武汉纺织大学 | 一种基于信息增强图神经网络的药物重定位方法及系统 |
CN117219226A (zh) * | 2023-10-19 | 2023-12-12 | 山东方格医疗器械有限公司 | 疼痛觉知自适应的镇痛药物自动调控装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114913916A (zh) | 预测新冠病毒适应药物的药物重定位方法 | |
Pan et al. | IPMiner: hidden ncRNA-protein interaction sequential pattern mining with stacked autoencoder for accurate computational prediction | |
Wang et al. | A computational-based method for predicting drug–target interactions by using stacked autoencoder deep neural network | |
Zhang et al. | A fast linear neighborhood similarity-based network link inference method to predict microRNA-disease associations | |
Ali et al. | DP-BINDER: machine learning model for prediction of DNA-binding proteins by fusing evolutionary and physicochemical information | |
Mahmud et al. | Prediction of drug-target interaction based on protein features using undersampling and feature selection techniques with boosting | |
Zhang et al. | Predicting drug side effects by multi-label learning and ensemble learning | |
US20220130541A1 (en) | Disease-gene prioritization method and system | |
CN113488104B (zh) | 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统 | |
Zhang et al. | Development and evaluation of in silico prediction model for drug-induced respiratory toxicity by using naïve Bayes classifier method | |
Yu et al. | RPI-MDLStack: Predicting RNA–protein interactions through deep learning with stacking strategy and LASSO | |
Zhang et al. | Predicting human splicing branchpoints by combining sequence-derived features and multi-label learning methods | |
CN116230077B (zh) | 基于重启超图双随机游走的抗病毒药物筛选方法 | |
Wen et al. | A survey on predicting microbe-disease associations: biological data and computational methods | |
Kang et al. | Ensemble deep learning based on multi-level information enhancement and greedy fuzzy decision for plant miRNA–lncRNA interaction prediction | |
CN116092598A (zh) | 基于流形正则化非负矩阵分解的抗病毒药物筛选方法 | |
Chakraborty et al. | Determining protein–protein interaction using support vector machine: A review | |
Lei et al. | Relational completion based non-negative matrix factorization for predicting metabolite-disease associations | |
Yu et al. | NPI-RGCNAE: fast predicting ncRNA-protein interactions using the relational graph convolutional network auto-encoder | |
Chen et al. | MultiscaleDTA: A multiscale-based method with a self-attention mechanism for drug-target binding affinity prediction | |
Huang et al. | LPI-CSFFR: Combining serial fusion with feature reuse for predicting LncRNA-protein interactions | |
JP2023510400A (ja) | 病原性モデルの適用およびそのトレーニング | |
Yousef et al. | SFM: a novel sequence-based fusion method for disease genes identification and prioritization | |
Cai et al. | Milnp: plant lncrna–mirna interaction prediction based on improved linear neighborhood similarity and label propagation | |
Koca et al. | Graph convolutional network based virus-human protein-protein interaction prediction for novel viruses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |