CN113160878B

CN113160878B - 一种天然药物分子靶标蛋白的冷启动筛选方法

Info

Publication number: CN113160878B
Application number: CN202110408770.XA
Authority: CN
Inventors: 施建宇; 赵鹏程; 吕诚
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-06-10
Anticipated expiration: 2041-04-16
Also published as: CN113160878A

Abstract

本发明涉及一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，用以完成天然药物分子与靶标相互作用关系的初筛。方法采用冷启动的方法对全新的天然药物分子与靶标之间有无连边的可能性进行预测，即当一个天然药物分子没有已知靶标的连边数据时，可以通过本发明进行与现有靶标的连边可能性预测。核心思想是：“结合于同一靶标的药物分子拥有相似的分子子结构”。本方法相对于传统的方法有较高的便捷性，可以用更少的时间和精力为天然药物分子筛选出置信度较高的靶点，为后续天然药物分子目标靶蛋白的筛选提供方向。

Description

一种天然药物分子靶标蛋白的冷启动筛选方法

技术领域

本发明属于天然药物领域与计算机领域，特别涉及一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法。

背景技术

根据数据库Traditional Chinese Medicine Systems Pharmacology Databaseand Analysis Platform(TCMSP)中的数据记录可知，目前从药用动植物中已发现13729个天然药物分子，并且共有3339个具有治疗作用的靶标；但是天然药物分子与靶标的对应关系仅有18865组。因此，依旧有大量的天然药物分子与靶标的相互作用关系未被发掘。

冷启动：指的是，预测样本数据没有出现在训练集当中，用一个已经建立好的规则对一个全新的数据(相对于预测系统)进行预测。

在过去的几十年里，有很多科研工作者基于已有的药物与靶标蛋白的相关性数据，对药物分子与靶标蛋白的缺失连边进行预测探索，开发出了非常多的算法来预测药物与靶标蛋白之间的相互作用关系，为旧药新用和新药研发提供了很大的帮助。但是，针对新发现的天然药物分子，由于没有其相关的连边数据，所以无法在网络中对其与靶标蛋白的缺失连边进行预测；因此，对于天然药物分子靶标蛋白的预测工作变得十分困难。

发明内容

本发明解决的技术问题是：为了解决现有技术目前天然药物分子与靶标之间相互作用关系的研究较少、研究过程费时费力、研究结果不确定性高的缺陷，本发明根据“结合于同一靶标蛋白的药物分子拥有相似的分子子结构”的思想，提出一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，即利用分子指纹提取技术提取天然药物分子的指纹向量，再利用局部网络相似性比较的方法得到天然药物分子与靶标蛋白有连边的可能性得分，从而为后续靶标的筛选提供一定的工作基础。

本发明的技术方案是：一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，包括以下步骤：

步骤1、采集天然药物分子的结构数据和待筛选靶标蛋白已有的相互作用关系数据。

步骤2、采集与步骤1中所得待筛选靶标蛋白已有连边药物分子的结构数据(根据数据库的不同，该药物分子可以是中药活性分子或者化学药物分子)。

步骤3、将步骤1中所采集的天然药物分子和步骤2中所采集的药物分子采用基于rdkit的MACCSKEYS方法提取相应的分子指纹数据。

步骤4、利用步骤3中所得分子指纹数据，采用tanimoto系数的方法，计算所有药物分子(包括该天然药物分子与靶标蛋白的相互作用药物分子)之间的相似性。

步骤5、利用靶标蛋白和天然药物分子的连边数据构建“靶标蛋白-药物分子”的局部二元异构网络。

步骤6、利用步骤5中所得局部二元异构网络数据和步骤3中所计算药物分子的指纹数据，构建“靶标蛋白的分子指纹式表达向量”TF。

步骤7、采用步骤6中所构建的“靶标蛋白的分子指纹式表达向量”TF和步骤3 中所计算的天然药物分子的指纹数据，计算靶标蛋白与该天然药物分子的相关性W_TI。

步骤8、采用步骤5中所得局部二元异构网络和步骤4中所得药物分子之间相似性的数据，计算该二元网络内部药物分子之间的平均相似性S1。

步骤9、采用步骤5中所得局部二元异构网络数据和步骤4中所得药物分子之间相似性的数据，计算该天然药物分子与局部二元异构网络内部药物分子所形成新网络的平均相似性S2。

步骤10、利用步骤9中所得的新网络的平均相似性S2比上S2与步骤8中所得的局部二元异构网络内部平均相似性S1的和，以此比值(S2/(S1+S2))与步骤7中所得靶标蛋白与天然药物分子的相关性W_TI相乘来表示该天然药物分子与该待筛选靶标蛋白有连边的可能性S(S＝W_TI*S2/(S2+S1))。

本发明进一步的技术方案是：所述步骤3中提取分子指纹的方法具体如下：

基于rdkit将化学分子的特征利用二进制表示，MDL公司开发的MACCSkeys指纹是一个共拥有166个特征，但是MACCSkeys总长度为167bits，第0位为占位符，第 1-166位为分子特征位。

用该方法提取原始数据中小分子化学药物和天然药物分子基于其SMILES结构的分子指纹，每个分子指纹长度为167bits。

本发明进一步的技术方案是：所述步骤4中采用tanimoto系数的方法具体如下：

其中：Na代表a集合中的元素个数；

Nb代表b集合中的元素个数；

Nc代表a集合和b集合的交集的元素的个数。

本发明进一步的技术方案是：所述步骤6中构建“靶标蛋白的分子指纹式表达向量”的方法具体如下：

假设Target为待筛选靶标蛋白，药物分子Drug 1、Drug 2、……、Drug n是步骤2中所得的与Target有连边的数据。

根据步骤3可得：

Drug 1＝(x11,x12,…,x1m)；

Drug 2＝(x21,x22,…,x2m)；

…

Drug n＝(xn1,xn2,…,xnm)；

其中，m为步骤3所得分子指纹向量的维度，本发明中m＝167。

则“靶标蛋白的分子指纹式表达向量”TF为：

其中，

,xji为药物分子Drug 1、Drug 2、……、Drugn 中对应的分子指纹特征。

令

则：

TF＝(W1,W2,...,Wi,...,Wm)

本发明进一步的技术方案是：所述步骤7中计算靶标蛋白与该天然药物分子的相关性的方法具体如下：

由步骤3中所得的天然药物分子的分子指纹向量为：

Ingredient＝(q1,q2,…,qi,…,qm)

则待筛选靶标蛋白Target和天然药物分子Ingredient的相关性为：

Ingredient·TF＝W1*q1+W2*q2+…+Wi*qi+…+Wm*qm。

发明效果

本发明的技术效果在于：本发明使用局部二元异构网络相似性比较的方法去预测天然药物分子与靶标蛋白的连边可能性，这种方法不受限于需要根据待预测药物的已有连边进行预测。而是针对于一个新发现的天然药物分子，在只知道它的分子结构的情况下，便可以利用本发明预测它与已知靶标蛋白的连边可能性大小，从而为天然药物分子与其靶标蛋白的研究提供初期的筛选。与现有的“药靶”预测的方法相比，本发明在保证预测性能较为良好的前提下，局限性小，并且可以为新发现的天然药物分子提供冷启动筛选。

附图说明

图1是本发明预测天然药物分子与靶标蛋白之间有连边可能性大小的流程图；

图2是本发明实施例预测结果相应的ROC曲线图，作为本发明对于天然药物分子与靶标相互作用预测可靠性评价指标的可视化展示。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

参见图1-图2，一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，其特征在于，包括以下步骤：

所述步骤3中提取分子指纹的方法具体如下：

所述步骤4中采用tanimoto系数的方法具体如下：

其中：Na代表a集合中的元素个数；

Nb代表b集合中的元素个数；

Nc代表a集合和b集合的交集的元素的个数。

所述步骤6中构建“靶标蛋白的分子指纹式表达向量”的方法具体如下：

根据步骤3可得：

Drug 1＝(x11,x12,…,x1m)；

Drug 2＝(x21,x22,…,x2m)；

…

Drug n＝(xn1,xn2,…,xnm)；

其中，m为步骤3所得分子指纹向量的维度。

则“靶标蛋白的分子指纹式表达向量”TF为：

其中，

令

则：

TF＝(W1,W2,...,Wi,...,Wm)

所述步骤7中计算靶标蛋白与该天然药物分子的相关性的方法具体如下：

由步骤3中所得的天然药物分子的分子指纹向量为：

Ingredient＝(q1,q2,…,qi,…,qm)

则待筛选靶标蛋白Target和天然药物分子Ingredient的相关性W_TI为：

W_TI＝Ingredient·TF＝W1*q1+W2*q2+…+Wi*qi+…+Wm*qm

依据本发明提出的一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法的一个实施例包括以下步骤：

步骤1、采集需要筛选靶标的天然药物分子的结构数据和待筛选的靶标蛋白数据。在本实施例中，为了验证本发明的有效性，采集了多组数据分别做预测，来统计分方法的预测性能。天然药物分子以及相应靶标蛋白的数据均来自TCMSP网站。最终，整理得到1504个天然药物分子的结构数据和864个靶标蛋白，以及天然药物分子与靶标蛋白的连边数据共18865条。

步骤2、在本实施例中，从步骤1所得到18865条天然药物分子与靶标蛋白的连边数据中随机选择20％的药靶组合数据作为测试集中的正样本，并在原始数据中删除，即认为这些是没有连边的数据，然后使用本发明进行连边得分预测；再从天然药物分子与靶标蛋白的全连接(1504*864)中选择20％未有连边的药靶组合，作为测试集中的负样本，使用本发明进行连边得分预测。特别的，在本实施例中，对于多个样本中，每一对测试集样本连边得分的预测都是独立的，互不影响的。

步骤3、将步骤1中所采集的天然药物分子采用基于rdkit的MACCSKEYS方法提取相应的分子指纹数据,每个分子的分子指纹数据长度为167bits。

步骤4、利用步骤3中所得167bits长的分子指纹数据，采用tanimoto系数的方法，计算所有药物分子之间的相似性；本实施例中共采集得到1504个天然药物分子，因此，采用tanimoto系数的方法计算相似性，共得到1130256(1504*1504)组天然药物分子之间的相似性数据。

步骤5、利用步骤2中删除正样本之后的靶标蛋白和天然药物分子的连边数据构建“靶标蛋白-天然药物分子”的局部二元异构网络；在本实施例中，共有天然药物分子与靶标蛋白的连边数据18865条，选取20％的数据作为正样本，并在原数据中删除这些数据，使用剩余的15092(18865*(1-20％))条连边数据构建“靶标蛋白-天然药物分子”的局部二元异构网络，针对测试集中的每一个样本分别构建对应的局部二元异构网络。本实施例中，共构建了816个“靶标蛋白-天然药物分子”局部二元异构网络。

步骤6、利用步骤5中所得二元异构网络数据和步骤3中所计算的天然药物分子的分子指纹数据，构建“靶标蛋白的分子指纹式表达向量”TF。本实施例中，针对通过步骤5得到的816个局部二元异构网络中的靶标蛋白构建TF。

步骤7、采用步骤6中所构建的“靶标蛋白的分子指纹式表达向量”TF和步骤3 中所计算的天然药物分子的指纹数据，计算靶标蛋白与该天然药物分子的相关性。在本实施例中，计算测试集中每一对样本对之间的相关性W_TI。

步骤8、采用步骤5中所得局部二元异构网络数据和步骤4中所得药物分子之间相似性的数据，计算二元异构网络内部药物分子之间的平均相似性。在本实施例中，针对测试集中每一个二元异构网络，计算其内部药物分子之间的平均相似性S1。

步骤9、在本实施例中，取测试集正、负样本中的天然药物分子与对应靶标蛋白数据，根据步骤5中的二元异构网络，便可以计算靶标蛋白对应二元异构网络中的药物分子与该天然药物分子所形成新网络的平均相似性S2，以此类推，计算每对样本中的天然药物分子与靶标蛋白对应二元异构网络所形成新网络的平均相似性。

步骤10、针对每一个样本对，利用步骤9中所得的平均相似性S2比上S2与步骤 8中所得的平均相似性S1的和；以此比值(S2/(S1+S2))与步骤7中所得靶标蛋白与天然药物分子的相关性W_TI相乘，来表示该天然药物分子与该待筛选靶标蛋白有连边的可能性S(即S＝W_TI*S2/(S2+S1))。

步骤11、为了更清楚的了解本发明在本实施例上的预测效果，根据对测试集中正负样本连边可能性的预测值，以及其原有的标签(正样本标签为1，负样本标签为0)，绘制相应的ROC曲线图(如图2所示)来作为本发明对于天然药物分子与靶标相互作用预测可靠性的评价指标，并计算ROC曲线对应的AUC值，可以得到本发明在本实施例上的AUC值为0.871，说明本发明对于天然药物分子与靶标蛋白之间连边可能性大小的预测具有较为良好的预测效果。

本发明可用于天然药物分子与靶标蛋白之间连边可能性大小的预测，以上所述的方案中所公知的实施方法和特性常识在此未作过多的描述。应当指出对于本技术领域人员来说，在不脱离本发明的前提下还可以进行若干改进，这些也应视为本发明的保护范围，这些都不会影响到本发明的实施效果和专利的实用性。本申请要求的保护范围应当以权利要求的内容为准，说明书中的的具体实施方式等记载用于解释权利要求的内容。

Claims

1.一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，其特征在于，包括以下步骤：

步骤1、采集天然药物分子的结构数据和待筛选靶标蛋白已有的相互作用关系数据；

步骤2、采集与步骤1中所得待筛选靶标蛋白已有连边药物分子的结构数据，根据数据库的不同，该药物分子可以是中药活性分子或者化学药物分子；

步骤3、将步骤1中所采集的天然药物分子和步骤2中所采集的药物分子采用基于rdkit的MACCSKEYS方法提取相应的分子指纹数据；

步骤4、利用步骤3中所得分子指纹数据，采用tanimoto系数的方法，计算所有药物分子之间的相似性；其中所有药物分子包括该天然药物分子与靶标蛋白的相互作用药物分子；

步骤5、利用靶标蛋白和天然药物分子的连边数据构建“靶标蛋白-药物分子”的局部二元异构网络；

步骤6、利用步骤5中所得局部二元异构网络数据和步骤3中所计算药物分子的分子指纹数据，构建“靶标蛋白的分子指纹式表达向量”TF；

步骤7、采用步骤6中所构建的“靶标蛋白的分子指纹式表达向量”TF和步骤3中所计算的天然药物分子的分子指纹数据，计算靶标蛋白与该天然药物分子的相关性W_TI；

步骤8、采用步骤5中所得局部二元异构网络和步骤4中所得药物分子之间相似性的数据，计算该局部二元异构网络内部药物分子之间的平均相似性S1；

步骤9、采用步骤5中所得局部二元异构网络数据和步骤4中所得药物分子之间相似性的数据，计算该天然药物分子与局部二元异构网络内部药物分子所形成新网络的平均相似性S2；

步骤10、利用步骤9中所得的新网络的平均相似性S2比上S2与步骤8中所得的局部二元异构网络内部药物分子之间的平均相似性S1的和，以此比值S2/(S1+S2)与步骤7中所得靶标蛋白与天然药物分子的相关性W_TI相乘来表示该天然药物分子与该待筛选靶标蛋白有连边的可能性S，S＝W_TI*S2/(S2+S1)。

2.如权利要求1所述的一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，其特征在于，所述步骤3中提取分子指纹的方法具体如下：

基于rdkit将化学分子的特征利用二进制表示，MDL公司开发的MACCSkeys指纹是一个共拥有166个特征，但是MACCSkeys总长度为167bits，第0位为占位符，第1-166位为分子特征位；

3.如权利要求1所述的一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，其特征在于，所述步骤4中采用tanimoto系数的方法具体如下：

其中：Na代表a集合中的元素个数；

Nb代表b集合中的元素个数；

Nc代表a集合和b集合的交集的元素的个数。

4.如权利要求1所述的一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，其特征在于，所述步骤6中构建“靶标蛋白的分子指纹式表达向量”的方法具体如下：

Target为待筛选靶标蛋白，药物分子Drug 1、Drug 2、……、Drug n是步骤2中所得的与Target有连边的数据；

根据步骤3可得：

Drug 1＝(x11,x12,…,x1m)；

Drug 2＝(x21,x22,…,x2m)；

…

Drug n＝(xn1,xn2,…,xnm)；

其中，m为步骤3所得分子指纹向量的维度；

则“靶标蛋白的分子指纹式表达向量”TF为：

其中，

xji为药物分子Drug 1、Drug 2、……、Drug n中对应的分子指纹特征；

令

则：

TF＝(W1,W2,...,Wi,...,Wm)。

5.如权利要求1所述的一种基于局部网络相似性比较的天然药物分子靶标蛋白的冷启动筛选方法，其特征在于，所述步骤7中计算靶标蛋白与该天然药物分子的相关性的方法具体如下：

由步骤3中所得的天然药物分子的分子指纹向量为：

Ingredient＝(q1,q2,…,qi,…,qm)

则待筛选靶标蛋白Target和天然药物分子Ingredient的相关性为：

Ingredient·TF＝W1*q1+W2*q2+…+Wi*qi+…+Wm*qm。