CN116798545B

CN116798545B - 基于非负矩阵的抗病毒药物筛选方法、系统及存储介质

Info

Publication number: CN116798545B
Application number: CN202311050752.4A
Authority: CN
Inventors: 王珊; 李顺飞; 刘建超; 汤永; 刘丽华
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-08-21
Filing date: 2023-08-21
Publication date: 2023-11-14
Anticipated expiration: 2043-08-21
Also published as: CN116798545A

Abstract

本发明提供了基于非负矩阵的抗病毒药物筛选方法、系统及存储介质，属于生物信息学、计算生物学与人工智能交叉技术领域，方法通过系统实现，方法包括：S1.构建病毒‑药物关联的邻接矩阵；S2.计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；S3.计算病毒基因序列相似矩阵和药物化学结构相似矩阵；S4.使用快速核学习方法，整合得到病毒整合相似矩阵和药物整合相似矩阵；S5.基于图正则化非负矩阵分解，构造损失函数；S6.求解损失函数，得到病毒‑药物预测得分矩阵；S7.基于所述病毒‑药物预测得分矩阵，筛选、排序后得到最终预测结果。本发明能高效地筛选出病毒有效治疗药物，为特定情况下应急解决方案提供思路。

Description

基于非负矩阵的抗病毒药物筛选方法、系统及存储介质

技术领域

本发明涉及生物信息学、计算生物学与人工智能交叉的技术领域，尤其是涉及基于非负矩阵的抗病毒药物筛选方法、系统及存储介质。

背景技术

新药的研发具有技术含量高、过程复杂的特点。因此，药物重定位是一种事半功倍的方法。对于那些已经通过序列鉴定发现与现有病毒同源性较高的新发病毒，通过使用储备的适用于该属病毒的鸡尾酒疗法进行治疗。在新发病毒时，通过计算模型来辅助筛选抗病毒药物，我们可以在短时间内为医药领域提供备选库，进而大大加速抗病毒新药的研发过程。

抗病毒药物筛选方法已有报道，其中一类是基于结构的虚拟筛选方法，如使用动力学模拟技术，通过分子动力学模拟计算潜在药物和靶标间的结合能力，但存在模拟过程复杂、对使用者经验要求高等不足。国防科技大学天河超算团队提出了基于自由能微扰-绝对结合自由能方法的新冠药物虚拟筛选技术，但这种方法对算力要求较高，需要借助超级计算机平台，且耗时以周计算。

发明内容

本发明提供基于非负矩阵的抗病毒药物筛选方法、系统及存储介质，可以根据病毒-药物关联、病毒基因组序列和药物化学结构数据，准确高效地筛选出抗病毒药物。

本说明书实施例的第一方面公开了基于非负矩阵的抗病毒药物筛选方法，包括如下步骤：

S1.构建病毒-药物关联的邻接矩阵；

S2.基于所述病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；

S3.基于病毒基因组序列计算病毒基因序列相似矩阵，基于药物化学结构计算药物化学结构相似矩阵；

S4.基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵；

S5.基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵，使用图正则化非负矩阵分解，构造损失函数；

S6.求解所述损失函数，得到病毒-药物预测得分矩阵；

S7.基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果。

在本说明书公开的实施例中，在S1中：

输入已知的病毒-药物关联对，构建病毒-药物关联的邻接矩阵A；

若为已知关联对，则对应位置为1，否则为0；

所述邻接矩阵A的行数为病毒数量nv，列数为药物数量nd。

在本说明书公开的实施例中，在S2中：

若药物d(i)与某个病毒之间存在关联，则对应位置记为1，否则记为0，形成一个1×nv大小的0或1构成的向量，记之为药物d(i)的向量谱IP(d(i))，然后计算药物d(i)和d(j)之间的高斯距离相似性：

；

上式中，参数γ_d用于控制核带宽，通过归一化新带宽参数γ’_d获得：

；

以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性，得到1×nd大小的0或1构成的向量，记之为病毒v(i)的向量谱IP(v(i))，计算病毒v(i)和v(j)之间的高斯距离相似性：

；

参数γ_v用于控制核带宽，通过归一化新带宽参数γ’_v获得：

；

以上γ’_d和γ’_v都是常数。

在本说明书公开的实施例中，在S3中：

基于病毒基因组序列，使用多序列比方法计算病毒基因序列相似矩阵；

基于药物的化学结构，得到药物MACCS指纹，采用谷本系数（即Jaccard相似度）计算药物化学结构相似矩阵。

在本说明书公开的实施例中，在S4中：

所述快速核学习方法的半正定规划式为：

；

式中，第一项为重构损失范数项，表示相似矩阵的整合误差大小；第二项为正则化项，作用是避免过拟合；其中A为病毒-药物关联邻接矩阵，S_j ^v（j=1,2）分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵，μ^v为正则化参数，λ^v∈R^1×2为待求解的系数，通过λ^v得到病毒整合相似矩阵：

；

同理，按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数λ^d∈R^1×2，然后计算药物整合相似矩阵：

；

其中S_j ^d（j=1,2）分别表示药物高斯距离相似矩阵和药物化学结构相似矩阵。

在本说明书公开的实施例中，在S5中：基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵，使用图正则化非负矩阵分解方法，构造损失函数。

基于图正则化非负矩阵分解方法构造的损失函数，具体如下：

；

式中第1项是重构损失项，表示重构误差大小，其中‖·‖_2,1代表L_2,1范数，定义为，其中u_i是矩阵U（大小为n行s列）的第i行；A为已知病毒-药物关联矩阵，矩阵F和G分别表示待求的基矩阵和系数矩阵；第2和第3项是图正则化项，刻画了数据的几何结构信息，其中Tr(·)表示矩阵的迹；第4项是判别约束项，使矩阵G近似正交获得判别信息，其中I为单位矩阵；第5项是L₁稀疏约束项，作用是防止过拟合；式中α ₁、α ₂、β和γ表示正则化系数；L_v表示病毒整合相似矩阵S _v的图拉普拉斯矩阵，L_d表示药物整合相似矩阵S _d的图拉普拉斯矩阵，计算方法为L _v=D _v-S _v和L _d=D _d-S _d，其中D _v是对角矩阵，其对角元素是病毒整合相似矩阵S _v的列之和，D _d是对角矩阵，其对角元素是药物整合相似矩阵S _d的列之和；

所述S6的具体实现方法为：使用拉格朗日乘子法，依据Karush-Kuhn-Tucker（KKT）条件分别固定矩阵F和G中的一个，求导数令之为0再反解，得矩阵F和G的迭代求解公式，具体如下：

；

其中Q为对角矩阵，对角线上的元素值，ε表示一个充分小常数，E为全1矩阵；

基于上式更新非负矩阵F和G直到收敛，然后计算病毒-药物关联对预测分数矩阵S_pred=FG^T。

S7.根据病毒-药物关联对预测分数，筛选出目标病毒对应行各药物的得分，排序后得到最终预测结果。

本发明实施例的第二方面公开了基于非负矩阵的抗病毒药物筛选系统，包括：

邻接矩阵构建模块，用于构建病毒-药物关联的邻接矩阵；

高斯距离相似矩阵计算模块，用于基于所述病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；

病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块，用于基于病毒基因组序列计算病毒基因序列相似矩阵，基于药物化学结构计算药物化学结构相似矩阵；

整合相似矩阵计算模块，用于基于所述病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于所述药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵；

损失函数构造模块，用于基于所述病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵，使用图正则化非负矩阵分解，构造损失函数；

损失函数求解模块，用于求解所述损失函数，得到病毒-药物预测得分矩阵；

预测模块，用于基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果。

在本说明书公开的实施例中，所述基于非负矩阵的抗病毒药物筛选系统还包括：

处理器，分别与所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接；

存储器，与所述处理器连接，并存储有可在所述处理器上运行的计算机程序；

其中，当所述处理器执行所述计算机程序时，所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作，以实现上述中任意一项所述的基于非负矩阵的抗病毒药物筛选方法。

本发明实施例的第三方面公开了一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取所述计算机指令时，所述计算机执行上述中任意一项所述的基于非负矩阵的抗病毒药物筛选方法。

综上所述，本发明至少具有以下有益效果：

本发明构通过构建病毒-药物关联的邻接矩阵，分别计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；使用病毒基因组序列计算病毒基因序列相似矩阵，使用药物的化学结构信息计算药物化学结构相似矩阵；使用快速核学习法计算病毒整合相似矩阵、药物整合相似矩阵；结合非负矩阵分解、图正则化方法构建损失函数，迭代求解得到病毒-药物关联预测得分矩阵，筛选、排序得到最终结果。本发明能快速、高效地筛选出病毒有效治疗药物，弥补生物医学实验方法耗时长、成本高的不足，为特定情况下应急解决方案提供了思路。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中所涉及的基于非负矩阵的抗病毒药物筛选方法的步骤示意图。

图2为本发明中所涉及的基于非负矩阵的抗病毒药物筛选方法的流程示意图。

图3为本发明中所涉及的基于非负矩阵的抗病毒药物筛选方法与基线方法五折交叉验证的结果比较图。

图4为本发明中所涉及的基于非负矩阵的抗病毒药物筛选系统的示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明实施例的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

下文的公开提供了许多不同的实施方式或例子用来实现本发明实施例的不同结构。为了简化本发明实施例的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明实施例。此外，本发明实施例可以在不同例子中重复参考数字和/或参考字母，这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施方式和/或设置之间的关系。

下面结合附图对本发明的实施例进行详细说明。

需要注意的是，本说明书的实施例中所使用的已知人类药物-病毒关联数据是从有关文献中收集的，先使用文本挖掘技术对文献报道的经过实验验证的药物-病毒相互作用对进行整理后，获得455个已证实的人类病毒-药物相互作用，涉及34种病毒与219种药物（文献DOI:10.1016/j.asoc.2021.107135）；药物化学结构从DrugBank数据库下载，病毒基因组核苷酸序列从美国国家生物技术信息中心NCBI数据库获得。

如图1和图2所示，本说明书实施例的第一方面公开了基于非负矩阵的抗病毒药物筛选方法，包括如下步骤：

S1.构建病毒-药物关联的邻接矩阵。

；

得到的邻接矩阵A元素为0或1，大小为34行×219列，i与j的取值范围满足1≤i≤34，1≤j≤219。

S2.基于病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵。

若药物d(i)与某个病毒之间存在关联，则对应位置记为1，否则记为0，形成一个1×34大小的0或1构成的向量，记之为药物d(i)的向量谱IP(d(i))，然后计算药物d(i)和d(j)之间的高斯距离相似性：

；

上式中，IP(d(j))为药物d(j)的向量谱；参数γ_d用于控制核带宽，通过归一化新带宽参数γ’_d获得：

；

以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性，若某一个病毒v(i)与某药物之间存在关联，则对应位置记为1，否则记为0，形成一个1×219大小的0或1构成的向量，记之为病毒v(i)的向量谱IP(v(i))，然后计算病毒v(i)和v(j)之间的高斯距离相似性：

；

上式中IP(v(j))为病毒v(j)的向量谱，参数γ_v用于控制核带宽，通过归一化新带宽参数γ’_v获得：

；

以上γ’_d和γ’_v都是常数，取γ’_d=γ’_v=1。

其中nv表示病毒的数量，此例中为34，nd表示药物的数量，此例中为219，此步计算后得到大小为34×34的对称矩阵S₁ ^v（病毒高斯距离相似矩阵）和大小为219×219的对称矩阵S₁ ^d（药物高斯距离相似矩阵），且这两个矩阵元素值全都在0到1之间。

S3.基于病毒基因组序列计算病毒基因序列相似矩阵，基于药物化学结构计算药物化学结构相似矩阵。

输入病毒基因组序列，使用多序列比对工具MAFFT计算得到病毒基因序列相似矩阵S₂ ^v；输入SMILES编码表示的药物化学结构，然后用化学信息学软件RDKit或Open Babel获得药物的分子访问系统指纹（MACCS），再使用R包RxnSim计算Tanimoto相似度，得到药物化学结构相似矩阵S₂ ^d，具体计算方法是，对d(i)和d(j)两种药物，将此两种药物的MACCS片段二进制表示的字符串集分别记为D(i)和D(j)，d(i)和d(j)间的相似度S^d _ij值可以用下面公式计算：

；

S4.基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵。

使用快速核学习方法整合病毒基因序列相似矩阵和病毒高斯距离相似矩阵，具体是通过求解下面的半正定规划式：

；

式中，第一项为重构损失范数项，表示相似矩阵的整合误差大小；第二项为正则化项，作用是避免过拟合；其中A为病毒-药物关联邻接矩阵，S_j ^v（j=1,2）分别表示病毒高斯距离相似矩阵和病毒基因序列相似矩阵，μ^v为正则化参数，λ^v∈R^1×2为待求解的系数，使用Matlab软件中的CVX工具箱求解得到病毒整合相似矩阵：

；

S5.基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵，使用图正则化非负矩阵分解方法，构造损失函数具体如下：

；

S6.求解损失函数：使用拉格朗日乘子法，依据Karush-Kuhn-Tucker（KKT）条件，分别固定矩阵F和G中的一个，求导数令之为0再反解，得矩阵F和G的迭代求解公式，具体如下：

；

S7.根据病毒-药物关联对预测分数S_pred，筛选出目标病毒对应行各药物的得分，排序后得到最终预测结果。

使用Matlab编程实现上述算法时，选取正则化参数α ₁、α ₂、β和γ值都为1, ε值设为10^-5；将矩阵F初始化为34行×100列的随机矩阵，矩阵G初始化为219行×100列的随机矩阵，F和G的全部元素都在(0,1)区间范围；设定次数为650或相邻两次损失函数变化量绝对值小于10^-6时退出迭代，循环运行结束后得到矩阵F、G；计算预测分数矩阵S_pred=FG^T，得到最终预测结果，方法运行结束。

本发明的有效性验证：

如图1和图2所示的基于非负矩阵的抗病毒药物筛选方法，采用五重交叉验证进行预测性能评估，具体实施方式为：先将所有已知的药物-病毒关联随机平均分成5组，再将其中每组依次设为测试样本，其他组作为训练样本（测试样本选取情况不同时，依赖测试样本计算所得的高斯距离相似矩阵亦随之改变）。使用训练样本作为本方法的输入得到预测结果，最后将该组中每个测试样本的预测分数与候选样本的分数进行比较。为了减少生成测试样本的过程中随机划分对结果造成的影响，进行了100次五折交叉验证。

使用Matlab编程计算后获得了如下数据，如图3所示为本方法GRNMFVDA与现已报道的几种病毒-药物筛选模型之间的AUROC（ROC曲线下面积）值比较。本方法在五折交叉验证中取得了0.7806±0.0044的AUROC值，表现出了比几种经典模型更加出色的预测性能。

另外一方面，对具体某种病毒，如新型冠状病毒（SARS-CoV-2）使用本方法来做预测，筛选评分矩阵中SARS-CoV-2对应的行即取得新冠相关药物的预测得分，将其降序排列后中前20个药物有17个能够得到已报道文献的支持。

下表展示了预测结果前20个药物名称和支持的文献PMID。

序号	药物名称	支持证据
			1	Ribavirin	PMID：33689451
2	Amantadine	PMID：35390511
			3	Nitazoxanide	PMID：36332361
4	Chloroquine	PMID：33906514
			5	N4-Hydroxycytidine	PMID：35492218
6	Betulinic Acid	暂未找到
			7	Mizoribine	PMID：17336519
8	Gemcitabine	PMID：32432977
			9	Memantine	PMID：32828269
10	Glycyrrhizic Acid	PMID：33041173
			11	Disulfiram	PMID：33855277
12	Artemisinin	PMID：34272426
			13	Niclosamide	PMID：34664162
14	Artesunate	暂未找到
			15	Mycophenolic Acid	PMID：32579258
16	Berberine	PMID：36183284
			17	Camostat	PMID：35692220
18	Sodium lauryl sulfate	暂未找到
			19	Remdesivir	PMID：32251767，35221670
20	Favipiravir	PMID：35692220，36332361

综上，本发明的优点：

1、本方法通过将重构损失项、范数约束项和流行正则化项线性组合，具有较好的可扩展性与健壮性，能获得较佳预测结果；

2、通过引入L₁范数约束项有效防止过拟合，减轻训练数据集中存在的噪声数据的影响，使得病毒-药物关联预测结果更具有鲁棒性、更准确；

3、方法借鉴了流形学习理论，通过融合拉普拉斯项刻画局部流形结构，能够高效利用阴性样本信息，提升了预测性能。

如图4所示，本发明实施例的第二方面公开了基于非负矩阵的抗病毒药物筛选系统，包括：

邻接矩阵构建模块，用于构建病毒-药物关联的邻接矩阵；

高斯距离相似矩阵计算模块，用于基于病毒-药物关联的邻接矩阵，计算病毒高斯距离相似矩阵和药物高斯距离相似矩阵；

整合相似矩阵计算模块，用于基于病毒高斯距离相似矩阵和病毒基因序列相似矩阵，使用快速核学习方法，整合得到病毒整合相似矩阵；基于药物高斯距离相似矩阵和药物化学结构相似矩阵，使用快速核学习方法，整合得到药物整合相似矩阵；

损失函数构造模块，用于基于病毒-药物关联的邻接矩阵、病毒整合相似矩阵和药物整合相似矩阵，使用图正则化非负矩阵分解，构造损失函数；

损失函数求解模块，用于求解损失函数，得到病毒-药物预测得分矩阵；

预测模块，用于基于病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果。

在本说明书公开的实施例中，基于非负矩阵的抗病毒药物筛选系统还包括：

处理器，分别与邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块连接；

存储器，与处理器连接，并存储有可在处理器上运行的计算机程序；

其中，当处理器执行计算机程序时，处理器控制邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作，以实现上述中任意一项的基于非负矩阵的抗病毒药物筛选方法。

本发明实施例的第三方面公开了一种计算机可读存储介质，存储介质存储计算机指令，当计算机读取计算机指令时，计算机执行上述中任意一项的基于非负矩阵的抗病毒药物筛选方法。

以上所述实施例是用以说明本发明，并非用以限制本发明，所以举例数值的变更或等效元件的置换仍应隶属本发明的范畴。

由以上详细说明，可使本领域普通技术人员明了本发明的确可达成前述目的，实已符合专利法的规定。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，应当指出的是，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应当注意的是，上述有关流程的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

上文已对基本概念做了描述，显然，对于阅读此申请后的本领域的普通技术人员来说，上述发明披露仅作为示例，并不构成对本申请的限制。虽然此处并未明确说明，但本领域的普通技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。例如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例有关的某一特征、结构或特性。因此，应当强调并注意的是，本说明书中在不同位置两次或以上提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域的普通技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的过程、机器、产品或物质的组合，或对其任何新的和有用的改进。因此，本申请的各个方面可以完全由硬件实施、可以完全由软件（包括固件、常驻软件、微代码等）实施、也可以由硬件和软件组合实施。以上硬件或软件均可被称为“单元”、“模块”或“系统”。此外，本申请的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，其中计算机可读程序代码包含在其中。

本申请各部分操作所需的计算机程序代码可以用任意一种或以上程序设计语言编写，包括如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等的面向对象程序设计语言、如C程序设计语言、VisualBasic、Fortran2103、Perl、COBOL2102、PHP、ABAP的常规程序化程序设计语言、如Python、Ruby和Groovy的动态程序设计语言或其它程序设计语言等。该程序代码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网（LAN）或广域网（WAN），或连接至外部计算机（例如通过因特网），或在云计算环境中，或作为服务使用如软件即服务（SaaS）。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，尽管上述各种组件的实现可以体现在硬件设备中，但是它也可以实现为纯软件解决方案，例如，在现有服务器或移动设备上的安装。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请的实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。然而，本申请的该方法不应被解释为反映所申明的客体需要比每个权利要求中明确记载的更多特征的意图。相反，发明的主体应具备比上述单一实施例更少的特征。

Claims

1.基于非负矩阵的抗病毒药物筛选方法，其特征在于，包括如下步骤：

S1.构建病毒-药物关联的邻接矩阵；

S6.求解所述损失函数，得到病毒-药物预测得分矩阵；

S7.基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果；

所述S1的具体实现方法为：

若为已知关联对，则对应位置为1，否则为0；

所述邻接矩阵A的行数为病毒数量nv，列数为药物数量nd；

所述S2的具体实现方法为：

若药物d(i)与某个病毒之间存在关联，则对应位置记为1，否则记为0，形成一个1×nv大小的0或1构成的向量，记之为药物d(i)的向量谱IP(d(i))，nv为病毒数量；然后计算药物d(i)和d(j)之间的高斯距离相似性：

；

上式中，IP(d(j))为药物d(j)的向量谱；参数用于控制核带宽，通过归一化新带宽参数/>获得：

；

其中，nd为药物数量；以类似的方式定义病毒v(i)和v(j)之间的高斯距离相似性，得到1×nd大小的0或1构成的向量，记之为病毒v(i)的向量谱IP(v(i))，计算病毒v(i)和v(j)之间的高斯距离相似性：

；

其中，IP(v(j))为病毒v(j)的向量谱；参数用于控制核带宽，通过归一化新带宽参数/>获得：

；

以上都是常数；

所述S3的具体实现方法为：

基于药物的化学结构，得到药物MACCS指纹，采用谷本系数计算药物化学结构相似矩阵；

所述S4的具体实现方法为：

所述快速核学习方法的半正定规划式为：

；

式中，第一项为重构损失范数项，表示相似矩阵的整合误差大小；第二项为正则化项，作用是避免过拟合；其中A为病毒-药物关联邻接矩阵；中，j=1时表示病毒高斯距离相似矩阵，j=2时表示病毒基因序列相似矩阵；/>为正则化参数，/>为待求解的系数，通过/>得到病毒整合相似矩阵/>；

；

同理，按照上述可获得药物化学结构相似矩阵与药物高斯距离相似矩阵集成参数，然后计算药物整合相似矩阵/>；

；

其中，中，j=1时表示药物高斯距离相似矩阵，j=2时表示药物化学结构相似矩阵；

所述S5的具体实现方法为：

；

式中第1项是重构损失项，表示重构误差大小，其中‖·‖_2,1代表L_2,1范数，A为已知病毒-药物关联矩阵，矩阵F和G分别表示待求的基矩阵和系数矩阵；第2和第3项是图正则化项，刻画了数据的几何结构信息，其中Tr(·)表示矩阵的迹；第4项是判别约束项，使矩阵G近似正交获得判别信息，其中I为单位矩阵；第5项是L₁稀疏约束项，作用是防止过拟合；式中α ₁、α ₂、β和γ表示正则化系数；L_v表示病毒整合相似矩阵S _v的图拉普拉斯矩阵，L_d表示药物整合相似矩阵S _d的图拉普拉斯矩阵，计算方法为L _v=D _v-S _v和L _d=D _d-S _d，其中D _v是对角矩阵，其对角元素是病毒整合相似矩阵S _v的列之和，D _d是对角矩阵，其对角元素是药物整合相似矩阵S _d的列之和；

所述S6的具体实现方法为：；

其中Q为对角矩阵，对角线上的元素值；ε表示一个充分小常数，E为全1矩阵；

基于上式更新非负矩阵F和G直到收敛，然后计算病毒-药物预测得分矩阵。

2.基于非负矩阵的抗病毒药物筛选系统，其特征在于，包括：

邻接矩阵构建模块，用于构建病毒-药物关联的邻接矩阵；

预测模块，用于基于所述病毒-药物预测得分矩阵，筛选出目标病毒所在行的得分，排序后得到最终预测结果；

其中，当所述处理器执行所述计算机程序时，所述处理器控制所述邻接矩阵构建模块、高斯距离相似矩阵计算模块、病毒基因序列相似矩阵与药物化学结构相似矩阵计算模块、整合相似矩阵计算模块、损失函数构造模块、损失函数求解模块和预测模块工作，以实现如权利要求1所述的基于非负矩阵的抗病毒药物筛选方法。

3.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取所述计算机指令时，所述计算机执行如权利要求1所述的基于非负矩阵的抗病毒药物筛选方法。