CN116631537A

CN116631537A - 基于模糊学习的抗病毒药物筛选方法、系统及存储介质

Info

Publication number: CN116631537A
Application number: CN202310910322.9A
Authority: CN
Inventors: 汤永; 王珊; 李顺飞; 刘建超; 刘丽华; 高笠雄
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-08-22
Anticipated expiration: 2043-07-24
Also published as: CN116631537B

Abstract

本发明提供了基于模糊学习的抗病毒药物筛选方法、系统及存储介质，属于生物信息学、计算生物学与人工智能交叉技术领域，方法包括：S1.构建病毒‑药物关联的邻接矩阵；S2.计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；S3.计算病毒基因序列相似矩阵和药物化学结构相似矩阵；S4.使用快速核学习方法整合得到病毒整合相似矩阵和药物整合相似矩阵；S5.基于前述整合相似矩阵计算病毒的模糊隶属度及药物的模糊隶属度；S6.使用模糊最小二乘支持向量机构造损失函数，求解得到病毒‑药物预测得分矩阵；S7.基于所述病毒‑药物预测得分矩阵，筛选排序后得到最终预测结果。本发明能高效、迅速地筛选出病毒有效治疗药物。

Description

基于模糊学习的抗病毒药物筛选方法、系统及存储介质

技术领域

本发明涉及生物信息学、计算生物学与人工智能交叉的技术领域，尤其涉及基于模糊学习的抗病毒药物筛选方法、系统及存储介质。

背景技术

随着新型冠状病毒疫情的爆发，全球对抗病毒药物的需求变得更加紧迫。然而，开发新的抗病毒药物是一个漫长而昂贵的过程，需要耗费数年时间和数亿资金。因此，从现有药物中寻找特异性药物来治疗病毒感染成为一种可行的策略。传统方法开发抗病毒药物耗时费力，使用计算模型做药物初筛可以降低时间和费用成本消耗。

目前，用于初步筛选抗病毒药物的计算药物再利用方法可大致分为3类：基于结构的方法、基于深度学习的方法和基于网络的方法。基于结构的方法旨在通过分子对接、分子动力学模拟来了解化合物与病毒靶标的结合机制。然而，这些方法需要大量的计算资源，且结果准确性难以保证。基于深度学习的方法可以通过训练模型利用已经积累的生物医学数据和专业知识来预测化合物与病毒靶标的相互作用，但存在解释性较差的不足。基于网络的方法可以通过整合各种可用的生物医学知识来帮助科学家推理药物有效性，但是需要大量的人力和时间来做标注。因此，需要一种新的药物筛选计算方法来克服这些不足，提高药物筛选的准确性和效率。

发明内容

本发明提供基于模糊学习的抗病毒药物筛选方法、系统及存储介质，可以根据病毒-药物关联、病毒基因组序列和药物化学结构数据，准确高效地筛选出抗病毒药物。

本说明书实施例的第一方面公开了基于模糊学习的抗病毒药物筛选方法，包括如下步骤：

S1.构建病毒-药物关联的邻接矩阵；

S2.基于所述病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；

S3.基于病毒基因组序列计算病毒基因序列相似矩阵，基于药物化学结构计算药物化学结构相似矩阵；

S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵；

S5.基于所述病毒整合相似矩阵和药物整合相似矩阵，计算病毒的模糊隶属度及药物的模糊隶属度；

S6.基于病毒的模糊隶属度及药物的模糊隶属度，使用模糊最小二乘支持向量机构造损失函数，求解得到病毒-药物预测得分矩阵；

S7.基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果。

在本说明书公开的实施例中，在S1中：

输入已知的病毒-药物关联对，构建病毒-药物关联的邻接矩阵A；

若为已知关联对，则对应位置为1，否则为0；

所述邻接矩阵A的行数为病毒数量nv，列数为药物数量nd。

在本说明书公开的实施例中，在S2中：

若药物d(i)与某个病毒之间存在关联，则对应位置记为1，否则记为0，形成一个1×nv大小的0或1构成的向量，记之为药物d(i)的向量谱IP(d(i))，然后计算药物d(i)和d(j)之间的高斯距离相似性：

；

上式中，参数γ_d用于控制核带宽，通过归一化新带宽参数γ’_d获得：

；

以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性，得到1×nd大小的0或1构成的向量，记之为病毒v(i)的向量谱IP(v(i))，计算病毒v(i)和v(j)之间的高斯距离相似性：

；

参数γ_v用于控制核带宽，通过归一化新带宽参数γ’_v获得：

；

以上γ’_d和γ’_v都是常数。

在本说明书公开的实施例中，在S3中：

基于病毒基因组序列，使用多序列比方法计算病毒基因序列相似矩阵；

基于药物的化学结构，得到药物MACCS指纹，采用谷本系数（即Jaccard相似度）计算药物化学结构相似矩阵。

在本说明书公开的实施例中，在S4中：

所述快速核学习方法的半正定规划式为：

；

式中，第一项为重构损失范数项，表示相似矩阵的整合误差大小；第二项/>为正则化项，作用是避免过拟合；其中A为病毒-药物关联邻接矩阵，S_j ^v（j=1,2）分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵，μ^v为正则化参数，λ^v∈R^1×2为待求解的系数，通过λ^v得到病毒整合相似矩阵：

；

同理，按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λ^d∈R^1×2，然后计算药物整合相似矩阵：

；

其中S_j ^d（j=1,2）分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。

在本说明书公开的实施例中，在S5中：

基于病毒整合相似矩阵S_v、药物整合相似矩阵S_d，分别计算病毒的模糊隶属度及药物的模糊隶属度：

对于病毒q，定义模糊隶属分数如下：

其中nv表示病毒数目，表示第q和j个病毒之间的相似性，y ^q _v、y ^j _v表示第q和j个病毒在病毒-药物关联矩阵A中所对应的标签；

对于药物p定义模糊隶属分数如下：

其中nd表示药物数目，表示第p和i个药物之间的相似性，y ^p _d、y ⁱ _d表示第p和i个药物在病毒-药物关联矩阵A中所对应的标签。

使用将模糊隶属分数score映射到模糊隶属度μ（范围0~1）。

在本说明书公开的实施例中，在S6中：

使用模糊最小二乘支持向量机构造损失函数，求解得到病毒-药物预测得分矩阵；

首先基于模糊最小二乘支持向量机构造损失函数如下：

；

其中，是权重w的L2范数约束项，为了控制模型的复杂度；b为截距项；为松弛项，μ _i表示前述与训练样本x_i相关的模糊隶属度，0≤μ _i≤1，ξ _i是训练样本x_i相对超平面的损失，C是惩罚参数，用来平衡最优超平面和最小偏差的权重，l表示样本的数量；/>表示样本x_i的核函数，y_i为样本x_i所对应的标签。

求解方程式，引入拉格朗日乘子构造拉格朗日函数如下：

；

其中是拉格朗日系数。

分别求L关于w、b、ξ _i及α _i的偏导数并将其设为0：

；

消除w和ξ _i得到以下线性方程：

；

其中，K是核矩阵/>，/>表示样本x_i的核函数。S是对角矩阵，值由/>给出。

最后，得出对应预测得分的计算方式如下：

；

将已知的病毒-药物关联矩阵A中对应病毒所在行（或对应药物所在列）作为输出变量、将病毒整合相似矩阵S_v（或药物整合相似矩阵S_d）作为输入变量，分别使用模糊最小二乘支持向量机构建所述损失函数并求解，得到每行所对应病毒（或每列所对应药物）的预测得分，然后按行（或列）拼接恢复得到矩阵F_v和F_d，计算得到预测病毒-药物关联评分矩阵F。

在本说明书公开的实施例中，在S7中：

根据病毒-药物关联对预测分数，筛选出目标病毒所在行的得分，排序后得到最终预测结果。

本发明实施例的第二方面公开了基于模糊学习的抗病毒药物筛选系统，包括：

邻接矩阵构建模块，用于构建病毒-药物关联的邻接矩阵；

高斯距离相似矩阵计算模块，用于基于所述病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；

病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块，用于基于病毒基因组序列计算病毒基因序列相似矩阵，基于药物化学结构计算药物化学结构相似矩阵；

整合相似矩阵计算模块，用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵；

病毒的模糊隶属度及药物的模糊隶属度计算模块，用于基于所述病毒整合相似矩阵和药物整合相似矩阵，计算病毒的模糊隶属度及药物的模糊隶属度；

损失函数构造模块，用于基于所述病毒的模糊隶属度及药物的模糊隶属度，使用模糊最小二乘支持向量机构造损失函数；

损失函数求解模块，用于求解所述损失函数，得到病毒-药物预测得分矩阵；

预测模块，用于基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果；

处理器，分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块连接；

存储器，与所述处理器连接，并存储有可在所述处理器上运行的计算机程序；

其中，当所述处理器执行所述计算机程序时，所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块工作，以实现如上所述的基于模糊学习的抗病毒药物筛选方法。

本发明实施例的第三方面公开了一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取所述计算机指令时，所述计算机执行上述中任意一项所述的基于模糊学习的抗病毒药物筛选方法。

综上所述，本发明至少具有以下有益效果：

本发明构通过构建病毒-药物关联的邻接矩阵，分别计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；使用病毒基因组序列计算病毒基因序列相似矩阵，使用药物的化学结构信息计算药物化学结构相似矩阵；使用快速核学习法计算病毒整合相似矩阵、药物整合相似矩阵；计算病毒的模糊隶属度及药物的模糊隶属度；结合模糊最小二乘支持向量机构建损失函数，迭代求解得到病毒-药物关联预测得分矩阵，筛选、排序得到最终结果。本发明能快速、高效地筛选出病毒有效治疗药物，弥补生物医学实验方法耗时长、成本高的不足，为特定情况下应急解决方案提供了思路。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中所涉及的基于模糊学习的抗病毒药物筛选方法的步骤示意图。

图2为本发明中所涉及的基于模糊学习的抗病毒药物筛选方法的流程示意图。

图3为本发明中所涉及的基于模糊学习的抗病毒药物筛选方法与基线方法五折交叉验证的结果比较图。

图4为本发明中所涉及的基于模糊学习的抗病毒药物筛选系统的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明实施例的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明实施例。此外，本发明实施例可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

下面结合附图对本发明的实施例进行详细说明。

需要注意的是，本说明书的实施例中所使用的已知人类药物-病毒关联数据是从有关文献中收集的，先使用文本挖掘技术对文献报道的经过实验验证的药物-病毒相互作用对进行整理后，获得455个已证实的人类病毒-药物相互作用，涉及34种病毒与219种药物（文献DOI:10.1016/j.asoc.2021.107135）；药物化学结构从DrugBank数据库下载，病毒基因组核苷酸序列从美国国家生物技术信息中心NCBI数据库获得。

如图1和图2所示，本说明书实施例的第一方面公开了基于模糊学习的抗病毒药物筛选方法，包括如下步骤：

S1.构建病毒-药物关联的邻接矩阵。

；

得到的邻接矩阵A元素为0或1，大小为34行×219列，i与j的取值范围满足1≤i≤34，1≤j≤219。

S2.基于病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵。

若药物d(i)与某个病毒之间存在关联，则对应位置记为1，否则记为0，形成一个1×34大小的0或1构成的向量，记之为药物d(i)的向量谱IP(d(i))，然后计算药物d(i)和d(j)之间的高斯距离相似性：

；

上式中，IP(d(j))为药物d(j)的向量谱；参数γ_d用于控制核带宽，通过归一化新带宽参数γ’_d获得：

；

以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性，若某一个病毒v(i)与某药物之间存在关联，则对应位置记为1，否则记为0，形成一个1×219大小的0或1构成的向量，记之为病毒v(i)的向量谱IP(v(i))，然后计算病毒v(i)和v(j)之间的高斯距离相似性：

；

上式中IP(v(j))为病毒v(j)的向量谱，参数γ_v用于控制核带宽，通过归一化新带宽参数γ’_v获得：

；

以上γ’_d和γ’_v都是常数，取γ’_d=γ’_v=1。

其中nv表示病毒的数量，此例中为34，nd表示药物的数量，此例中为219，此步计算后得到大小为34×34的对称矩阵S₁ ^v（病毒高斯距离相似矩阵）和大小为219×219的对称矩阵S₁ ^d（药物高斯距离相似矩阵），且这两个矩阵元素值全都在0到1之间。

S3.基于病毒基因组序列计算病毒基因序列相似矩阵，基于药物化学结构计算药物化学结构相似矩阵。

输入病毒基因组序列，使用多序列比对工具MAFFT计算得到病毒基因序列相似矩阵S₂ ^v；输入SMILES编码表示的药物化学结构，然后用化学信息学软件RDKit或Open Babel获得药物的分子访问系统指纹（MACCS），再使用R包RxnSim计算Tanimoto相似度，得到药物化学结构相似矩阵S₂ ^d，具体计算方法是，对d(i)和d(j)两种药物，将此两种药物的MACCS片段二进制表示的字符串集分别记为D(i)和D(j)，d(i)和d(j)间的相似度S^d _ij值可以用下面公式计算：

;

S4.基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵。

使用快速核学习方法整合病毒基因序列相似矩阵和病毒高斯距离相似矩阵，具体是通过求解下面的半正定规划式：

;

式中，第一项为重构损失范数项，表示相似矩阵的整合误差大小；第二项/>为正则化项，作用是避免过拟合；其中A为病毒-药物关联邻接矩阵，S_j ^v（j=1,2）分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵，μ^v为正则化参数，λ^v∈R^1×2为待求解的系数，使用Matlab软件中的CVX工具箱求解得到病毒整合相似矩阵：

;

S5.基于病毒整合相似矩阵S_v、药物整合相似矩阵S_d，分别计算病毒的模糊隶属度及药物的模糊隶属度：

对于病毒q，定义模糊隶属分数如下：

;

对于药物p定义模糊隶属分数如下：

;

使用将模糊隶属分数score映射到模糊隶属度μ（范围0~1）。 S6.基于病毒的模糊隶属度及药物的模糊隶属度，使用模糊最小二乘支持向量机构造损失函数，求解得到病毒-药物预测得分矩阵；首先基于模糊最小二乘支持向量机构造损失函数如下：

；

其中，是权重w的L2范数约束项，为了控制模型的复杂度；b为截距项；为松弛项，μ _i表示前述与训练样本x_i相关的模糊隶属度，0≤μ _i≤1，ξ _i是训练样本x_i相对超平面的损失，C是惩罚参数，用来平衡最优超平面和最小偏差的权重，l表示样本的数量；/>表示样本x_i的核函数，y_i为样本x_i所对应的标签；

求解方程式，引入拉格朗日乘子构造拉格朗日函数如下：

；

其中是拉格朗日系数。

分别求L关于w、b、ξ _i及α _i的偏导数并将其设为0：

；

消除w和ξ _i得到以下线性方程：

；

最后，得出预测得分计算方式如下：

；

S7.根据病毒-药物关联对预测分数，筛选出目标病毒所在行的得分，排序后得到最终预测结果。

在上述算法使用Matlab编程实现过程中，惩罚参数C使用了网格搜寻法从{2^-5, 2^-4, ..., 2^-0, ..., 2⁵}范围寻找，最终病毒视角惩罚参数C _v取4，药物视角惩罚参数C _d取2。

本发明的有效性验证：

如图1和图2所示的基于模糊学习的抗病毒药物筛选方法，采用五重交叉验证进行预测性能评估，具体实施方式为：先将所有已知的药物-病毒关联随机平均分成5组，再将5组中的每一组依次设为测试样本，其他组作为训练样本（测试样本选取情况不同时，依赖测试样本计算所得的高斯距离相似矩阵亦随之改变）。使用训练样本作为本方法的输入得到预测结果，最后将该组中每个测试样本的预测分数与候选样本的分数进行比较。为了减少生成测试样本的过程中随机划分对结果造成的影响，进行了100次五折交叉验证。

使用Matlab编程计算后获得了如下数据，如图3所示为本方法FBLMVDA与现已报道的几种病毒-药物筛选模型之间的AUROC（ROC曲线下面积）值比较。本方法在五折交叉验证中取得了0.9271±0.0049的AUROC值，表现出了比几种经典模型更加出色的预测性能。

另外一方面，对具体某种病毒，如新型冠状病毒（SARS-CoV-2）使用本方法来做预测，筛选评分矩阵中SARS-CoV-2对应的行即取得新冠相关药物的预测得分，将其降序排列后中前20个药物有18个能够得到已报道文献的支持。

下表展示了预测结果前20个药物名称和支持文献的PMID号或DOI号。

序号	药物名称	支持证据
			1	Chloroquine	PMID：33906514
2	Ribavirin	PMID：33689451
			3	Camostat	PMID：35692220
4	N4-Hydroxycytidine	PMID：35492218
			5	Mycophenolic Acid	PMID：32579258
6	Alisporivir	PMID：32376613
			7	Niclosamide	PMID：34664162
8	Mizoribine	PMID：17336519
			9	Gemcitabine	PMID：32432977
10	6-Azauridine	暂未发现
			11	Remdesivir	PMID：32251767，35221670
12	Lopinavir	PMID：32251767
			13	Disulfiram	PMID：33855277
14	Memantine	PMID：32828269
			15	Amodiaquine	PMID：36332361
16	Mefloquine	PMID：35620103
			17	Toremifene	PMID：35733297
18	Tamoxifen	PMID：34934049
			19	Chlorpromazine	PMID：37006620
20	Tacrolimus	暂未发现

综上，本发明具有如下优点：将模糊隶属度与训练样本关联，使不同的训练样本对最终决策模型的贡献不同。通过在最小二乘支持向量机中引入模糊隶属度，有助于去除噪声，提高病毒-药物关联预测性能，使预测结果更具有鲁棒性。

如图4所示，本发明实施例的第二方面公开了基于模糊学习的抗病毒药物筛选系统，包括：

邻接矩阵构建模块，用于构建病毒-药物关联的邻接矩阵；

本发明实施例的第三方面公开了一种计算机可读存储介质，存储介质存储计算机指令，当计算机读取计算机指令时，计算机执行上述中任意一项的基于模糊学习的抗病毒药物筛选方法。

以上所述实施例是用以说明本发明，并非用以限制本发明，所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。

由以上详细说明，可使本领域普通技术人员明了本发明的确可达成前述目的，实已符合专利法的规定。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应当注意的是，上述有关流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本申请的各个方面可以完全由硬件实施、可以完全由软件（包括固件、常驻软件、微代码等）实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但是它也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反，发明的主体应具备比上述单一实施例更少的特征。

Claims

1.基于模糊学习的抗病毒药物筛选方法，其特征在于，包括如下步骤：

S1.构建病毒-药物关联的邻接矩阵；

S6.基于所述病毒的模糊隶属度及药物的模糊隶属度，使用模糊最小二乘支持向量机构造损失函数，求解得到病毒-药物预测得分矩阵；

S7.基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果；

所述S1的具体实现方法为：

若为已知关联对，则对应位置为1，否则为0；

所述邻接矩阵A的行数为病毒数量nv，列数为药物数量nd；

所述S2的具体实现方法为：

若药物d(i)与某个病毒之间存在关联，则对应位置记为1，否则记为0，形成一个1×nv大小的0或1构成的向量，记之为药物d(i)的向量谱IP(d(i))，nv为病毒数量；然后计算药物d(i)和d(j)之间的高斯距离相似性：

；

;

其中，nd为药物数量；以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性，得到1×nd大小的0或1构成的向量，记之为病毒v(i)的向量谱IP(v(i))，计算病毒v(i)和v(j)之间的高斯距离相似性：

;

其中，IP(v(j))为病毒v(j)的向量谱；参数γ_v用于控制核带宽，通过归一化新带宽参数γ’_v获得：

；

以上γ’_d和γ’_v都是常数；

所述S3的具体实现方法为：

基于药物的化学结构，得到药物MACCS指纹，采用谷本系数计算药物化学结构相似矩阵；

所述S4的具体实现方法为：

所述快速核学习方法的半正定规划式为：

;

式中，第一项为重构损失范数项，表示相似矩阵的整合误差大小；第二项/>为正则化项，作用是避免过拟合；其中A为病毒-药物关联邻接矩阵，S_j ^v（j=1,2）分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵，μ^v为正则化参数，λ^v∈R^1×2为待求解的系数，通过λ^v得到病毒整合相似矩阵S_v：

;

同理，按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λ^d∈R^1×2，然后计算药物整合相似矩阵S_d：

;

其中S_j ^d（j=1,2）分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵；

所述S5的具体实现方法为：

基于病毒整合相似矩阵S_v、药物整合相似矩阵S_d，分别计算病毒的模糊隶属度及药物的模糊隶属度；

对于病毒q定义模糊隶属分数如下：

;

对于药物p定义模糊隶属分数如下：

;

其中nd表示药物数目，表示第p和i个药物之间的相似性，y ^p _d、y ⁱ _d表示第p和i个药物在病毒-药物关联矩阵A中所对应的标签；

计算将所述模糊隶属分数score映射到模糊隶属度μ，μ的范围为0~1；

在S6中，使用模糊最小二乘支持向量机构造损失函数如下：

;

其中，是权重w的L2范数约束项，为了控制模型的复杂度；b为截距项；/>为松弛项，μ _i表示前述与训练样本x_i相关的模糊隶属度，0≤μ _i≤1，ξ _i是训练样本x_i相对超平面的损失，C是惩罚参数，用来平衡最优超平面和最小偏差的权重，l表示样本的数量；/>表示样本x_i的核函数，y_i为样本x_i所对应的标签；求解方程式，引入拉格朗日乘子构造拉格朗日函数如下：

;

其中，是拉格朗日系数；分别求L关于w、b、ξ _i及α _i的偏导数并将其设为0：

;

消除w和ξ _i得到以下线性方程：

;

其中，，K是核矩阵/>；S是对角矩阵，值由/>给出；

最后得出预测得分计算方式如下：

;

将已知的病毒-药物关联矩阵A中对应病毒所在行或对应药物所在列作为输出变量、将病毒整合相似矩阵S_v或药物整合相似矩阵S_d作为输入变量，分别使用模糊最小二乘支持向量机构造所述损失函数并求解，得到每行所对应病毒或每列所对应药物的预测得分，然后按行或列拼接恢复得到矩阵F_v和F_d，计算得到预测病毒-药物关联评分矩阵F。

2.基于模糊学习的抗病毒药物筛选系统，其特征在于，包括：

邻接矩阵构建模块，用于构建病毒-药物关联的邻接矩阵；

其中，当所述处理器执行所述计算机程序时，所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、病毒的模糊隶属度及药物的模糊隶属度计算模块、损失函数构造模块、损失函数求解模块和预测模块工作，以实现如权利要求1所述的基于模糊学习的抗病毒药物筛选方法。

3.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取所述计算机指令时，所述计算机执行如权利要求1所述的基于模糊学习的抗病毒药物筛选方法。