CN109493925A

CN109493925A - 一种确定药物和药物靶点关联关系的方法

Info

Publication number: CN109493925A
Application number: CN201811382264.2A
Authority: CN
Inventors: 陈壮志; 赖力鹏; 郑昱豪; 温书豪; 马健
Original assignee: Beijing Jingpai Technology Co Ltd
Current assignee: Beijing Jingtai Technology Co.,Ltd.
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2019-03-19
Anticipated expiration: 2038-11-20
Also published as: CN109493925B

Abstract

本发明提供了一种确定药物和药物靶点关联关系的方法，包括步骤：采集表征药物、药物靶点、疾病和副作用之间关联关系的数据；基于所采集到的数据分别生成药物和药物靶点对应的向量；组合各药物和各药物靶点所对应的向量，以生成对应的各药物‑药物靶点向量；以及基于预定模型确定出表征药物‑药物靶点向量所对应的药物和药物靶点的关联关系的分值。基于该方法，本发明一并公开了一种异质信息网络和预测药物和药物靶点相互作用关系的方法。

Description

一种确定药物和药物靶点关联关系的方法

技术领域

本发明涉及数据处理领域，尤其涉及确定药物和药物靶点关联关系的方法。

背景技术

鉴于研发全新药物的成功率低且成本高昂，而旧药新用大大缩短了药物研发所需的时间、经费，且其研发的成功率远远高于传统的药物研发，故，制药公司等机构越来越重视关于药物重新定位方案的研究，以寻找旧药新的药物靶点及其新应用。相比研发全新药物，药物重新定位可以大幅度降低制药成本，加快监管审批，因此该方法受到医药公司、研究者、临床医生、乃至政府的高度重视。

现有的方案中，如申请号为201210584373.9的中国专利申请提出了一种基于药物相互作用相似性识别药物靶标的系统，但是这种基于药物相互作用的方法并没有考虑药物与药物靶点、药物与副作用、药物与疾病、药物靶点与药物靶点、药物靶点与疾病之间的相互作用或关联。此外，申请号为201210140708.8的中国专利申请提出了一种利用靶点晶体数据结构数据库中的小分子化学结构构建药物靶点方法。但是这种基于化学结构的预测方法，并不适用于化学结构可能因代谢而改变的药物。申请号为201110396287.0的中国专利申请也提出了一种基于基因组学的预测药物靶点方法，但是这种基于基因组学的研究成本非常高昂。

鉴于上述弊端，需要一种新的预测药物和药物靶点之间相互作用关系的方案。

发明内容

为此，本发明提供了一种确定药物和药物靶点关联关系的方案，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种确定药物和药物靶点关联关系的方法，包括步骤：采集表征药物、药物靶点、疾病和副作用之间关联关系的数据；基于所采集到的数据分别生成药物和药物靶点对应的向量；组合各药物和各药物靶点所对应的向量，以生成对应的各药物-药物靶点向量；以及基于预定模型确定出表征药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值。

可选地，在根据本发明的方法中，在组合各药物和各药物靶点所对应的向量、以生成对应的各药物-药物靶点向量的步骤之后，还包括步骤：根据所采集的数据对各药物-药物靶点向量进行归类。

可选地，在根据本发明的方法中，根据所采集的数据对各药物-药物靶点向量进行归类的步骤包括：若在所采集的数据中药物和药物靶点之间已存在关联关系，则将该药物-药物靶点向量归到第一样本集合；以及若在所采集的数据中药物和药物靶点之间不存在关联关系，则将该药物-药物靶点向量归到第二样本集合。

可选地，在根据本发明的方法中，基于预定模型确定出表征药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值的步骤包括：利用第二样本集合中的药物-药物靶点向量生成第一子集和第二子集；基于预定模型，利用第一子集和第一样本集合中的药物-药物靶点向量确定出第二子集中的药物-药物靶点向量对应的分值；以及基于预定模型，利用第二子集和第一样本集合中的药物-药物靶点向量确定出第一子集中的药物-药物靶点向量对应的分值。

可选地，在根据本发明的方法中，利用第一子集和第一样本集合中的药物-药物靶点向量确定出第二子集中的药物-药物靶点向量对应的分值的步骤包括：从第一子集和第一样本集合中分别选取相同数目的药物-药物靶点向量来生成输入数据集；利用输入数据集通过预定模型来拟合出第二子集中相同数目的药物-药物靶点向量对应的分值；以及依次重复执行生成、拟合的步骤，以得到第二子集中各药物-药物靶点向量最终的分值。相应地，利用第二子集和第一样本集合中的药物-药物靶点向量确定出第一子集中的药物-药物靶点向量对应的分值的步骤包括：从第二子集和第一样本集合中分别选取相同数目的药物-药物靶点向量来生成输入数据集；利用输入数据集通过预定模型来拟合出第一子集中相同数目的药物-药物靶点向量对应的分值；以及依次重复执行生成、拟合的步骤，以得到第一子集中各药物-药物靶点向量最终的分值。

可选地，根据本发明的方法还包括步骤：训练生成预定模型的步骤：从第一样本集合和第二样本集合中分别选取相同数量的药物-药物靶点向量，作为训练样本；设置各训练样本的标签；以及采用梯度提升算法对训练样本进行训练，以得到预定模型。

可选地，根据本发明的方法，还包括设置各训练样本的标签的步骤，包括：若训练样本来自第一样本集合，则将其标签设置为1；以及若训练样本来自第二样本集合，则将其标签设置为0。

可选地，根据本发明的方法还包括步骤：将所采集的数据表示为预定格式。

可选地，在根据本发明的方法中，基于所采集到的数据分别生成药物和药物靶点对应的向量的步骤包括：通过网络表示学习模型学习生成各药物和药物靶点对应的向量。该步骤进一步包括：基于预定格式生成多个包含药物和药物靶点的序列；以离散表示的方式生成各序列对应的中间向量；以及将中间向量输入预设矩阵中，以生成各药物和各药物靶点对应的向量。

根据本发明的又一个方面，提供了一种异质信息网络，包括节点和边，其中，节点包括药物、药物靶点、疾病和副作用；以及节点之间的边的值通过执行如上所述的方法得到。

根据本发明的另一个方面，提供了一种预测药物和药物靶点相互作用关系的方法，包括步骤：利用如上所述的异质信息网络确定与第一节点相关联的一个或多个第二节点；按照边的值从高到低的顺序从所确定的第二节点中选取出第一数目个第二节点，作为与第一节点有相互作用关系的第二节点，其中第一节点表征药物或药物靶点，第二节点表征药物靶点或药物。

根据本发明的还有一个方面，还提供了一种计算设备。该计算设备包括至少一个处理器和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行并包括用于执行上述方法的指令。

根据本发明的还有另一个方面，还提供了一种存储有程序指令的可读存储介质，当该程序指令被计算设备读取并执行时，使得计算设备执行上述方法。

根据本发明的方案通过采集表征药物、药物靶点、疾病、副作用之间的关联关系的数据并进行处理，进而确定出药物和药物靶点的关联关系，并能够预测出表征药物和药物靶点的关联关系的分值。整个处理流程不需要具备药物化学结构或成分的相关专业知识，也不需要大量的实验积累，为药物设计者提供了低成本的预测方法，推动了旧药新用标准化和现代化的发展。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的示意图；

图2示出了根据本发明一个实施例的确定药物和药物靶点关联关系的方法200的流程图；以及

图3示出了根据本发明一个实施例的预测药物和药物靶点相互作用关系的方法300的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的确定药物和药物靶点关联关系的方法适于在一个或一组计算设备中执行，即，在一个或一组计算设备中完成确定药物和药物靶点关系的过程。计算设备例如可以是服务器(例如Web服务器、应用服务器等)，桌面计算机和笔记本计算机等个人计算机，手机、平板电脑、智能可穿戴设备等便携式移动设备等，但不限于此。

图1示出了根据本发明一个实施例的计算设备100的示意图。如图1所示，在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备100中，应用122包括执行确定药物和药物靶点关联关系的方法200的多条程序指令，而程序数据124可以包括采集的数据等。

图2示出了根据本发明一个实施例的确定药物和药物靶点关联关系的方法200的流程图。如图2所示，方法200始于步骤S210。

在步骤S210中，采集表征药物、药物靶点、疾病和副作用之间关联关系的数据。定位药物与药物靶点的关联关系，可以按照类似“药物1-疾病1-副作用1-疾病2-药物靶点2”这样的关联关系来发现新的药物和药物靶点的关联关系。故在步骤S210中，先采集表征药物、药物靶点、疾病和副作用之间关联关系的数据。

其中，药物指的是一种成药的小分子化合物，比如吉非替尼。药物靶点是指药物在体内的作用结合位点，包括基因位点、受体、酶、离子通道、核酸等生物大分子，在本发明的实施例中，药物靶点主要以蛋白质为主。疾病是在一定病因作用下自稳调节紊乱而发生的异常生命活动过程，并引发一系列代谢、功能、结构的变化，表现为症状、体征和行为的异常。副作用是指应用治疗量的药物后所出现的治疗目的以外的药理作用。其中，药物、药物靶点、疾病和副作用之间的关联关系至少包括：药物和药物靶点的相互作用关系、药物和药物的相互作用关系、药物和疾病的关联关系、药物和副作用的关联关系、药物靶点和疾病的关联关系、药物靶点和药物靶点的相互作用关系。当然，还有疾病与副作用的关联关系等，此处不再一一列举。根据一种实施方式，表征上述关联关系的数据记作：

药物-药物靶点：即，药物和药物靶点的相互作用关系；

药物靶点-药物靶点：即，药物靶点和药物靶点的相互作用关系；

药物-药物：即，药物和药物之间的相互作用关系，例如药物的组合使用是否对药效有影响；

药物-疾病：即，药物和疾病的关联关系，如某药物用于治疗某疾病，与某疾病关联的药物；

药物-副作用：即，药物和副作用的关联关系，如某药物会产生某副作用；

药物靶点-疾病：即，药物靶点和疾病的关联关系，如某药物靶点是与某疾病相关的药物靶点。

异质信息网络作为信息网络的一种，包含了节点和边，且节点和边具有一种或多种类型，相比一般的信息网络，异质信息网络包含了更丰富的语义信息。故在一些实施例中，将上述采集到的数据表示为异质信息网络的形式。在一种实施方式中，将上述采集到的数据表示为异质信息网络的邻接矩阵，通过多个邻接矩阵，就可以找到药物和药物靶点之间的关联关系。表1示意性地示出了“药物-药物”的邻接矩阵，如表1所示，其中，Drug1、Drug2和Drug3分别表示不同药物的编号，“1”表示对应的两个药物之间存在相互作用关系，“0”表示对应的两个药物之间不存在相互作用关系。需要说明的是，此处的表格仅作为示意，在实际应用中，表示药物和药物之间的相互作用关系的数据是作为异质信息网络的一个邻接矩阵来存储的，并不是如下所示的简单的表格形式。

表1“药物-药物”的邻接矩阵示意

	Drug1	Drug2	Drug3
				Drug1	0	1	0
Drug2	1	0	0
				Drug3	0	0	0

此外，在根据本发明的实施例中，将所采集到的药物、药物靶点、疾病和副作用表示为不同的编号，以便于后期处理。同时，在根据本发明的实施方式中，会将上述采集的数据表示为适用于后期处理的预定格式。在一些实施例中，预定格式是异质信息网络的图论格式，如前文所述，异质信息网络由多个节点和连接节点与节点之间的边构成，节点包括：药物、药物靶点、疾病和副作用四种类型，用对应的不同编号来表示。表2示意性地示出了“药物-药物”的图论格式。如表2所示，根据每条边对应的起始节点和终止节点的所属类型，就可以确定出边的类型。如起始节点3属于药物，即drug，终止节点83属于药物，即drug，边类型D-D表示“药物-药物”。

表2“药物-药物”的图论格式示意

起始节点	所属类型	终止节点	所属类型	边类型
					3	drug	83	drug	D-D
3	drug	177	drug	D-D
					4	drug	448	drug	D-D

随后在步骤S220中，基于所采集到的数据分别生成药物和药物靶点对应的向量。

在一些实施例中，基于所采集到的数据，通过网络表示学习模型学习生成各药物和药物靶点对应的向量。具体地，步骤S220可以通过如下三个步骤来实现。

第一步，基于预定格式(即，异质信息网络的图论格式)生成多个包含药物和药物靶点的序列。特别地，生成的全部序列中包含所有药物和药物靶点。例如，用随机游走随机均匀地选取异质信息网络中的节点，并生成固定长度的随机游走序列。当序列中的节点包含药物和药物靶点(如序列的起始节点是药物节点，终止节点是药物靶点节点)时，该序列就是药物和药物靶点对应的序列。当然，也可以采用带权重的随机游走算法(如，偏随机游走算法，Biasαrandom walks)来生成各药物和药物靶点对应的向量。关于随机游走的方法有很多，本领域技术人员可以采用任一种随机游走方法来生成本发明实施例所述的序列，本发明的实施例对此不做限制。

第二步，以离散表示的方式生成各序列对应的中间向量。例如，将上一步所生成的序列看成是自然语言处理中的一个句子，以离散表示的方式得到该序列的一个稀疏向量表示，即该序列的中间向量。在一种实施例中，中间向量以one-hot向量的形式来表示。简单来说，就是统计词库中包含的所有V个词，然后将这V个词固定好顺序，每个词就可以用一个V维的稀疏向量来表示，向量中只有在该词出现的位置的元素才为1，其它元素全为0，这就是one-hot向量。

第三步，将中间向量输入预设矩阵中，以生成各药物和各药物靶点对应的向量。根据一种实施例，预设矩阵可以通过训练神经网络来得到。该神经网络包括一个隐层和一个输出层，隐层包含一个转换矩阵，输出层包含依次相连的转换函数(如Hadamard变换)和分类函数(如sigmoid函数)。

根据一种实施例，训练神经网络的具体步骤可以阐述为，参照上述第一步，选取多个包含药物和药物靶点的序列，设每个序列中包含的药物为x，药物靶点为y，x和y的关联关系类型表示为r，r例如可以是“药物-药物靶点”。参照上述第二步生成药物x、药物靶点y和关联关系类型r的中间向量(例如one-hot向量)，将其作为训练样本。同时，设置表征x和y之间是否存在关联关系的标签L，若x和y之间已知存在r类型的关联关系，则L＝1；若x和y之间已知不存在r类型的关联关系，则L＝0，将L作为训练样本的标签，连同训练样本一起输入到神经网络的隐层中，得到隐层向量表示；而后对隐层向量进行Hadamard变换和分类处理，最终输出一个二进制的值，该二进制值为1或0，其中1表示输入的训练样本所包含的药物和药物靶点存在关联关系，0表示输入的训练样本所包含的药物和药物靶点不存在关联关系。基于训练样本的标签L调整神经网络的参数，直到训练结束。训练结束后对应的隐层的转换矩阵，就是预设矩阵。

将中间向量输入到预设矩阵中，输出就是中间向量所对应的各药物和药物靶点所对应的向量。

应当指出，参考上述三个步骤的描述，还可以确定出疾病、副作用所对应的向量。此处不做赘述。需要说明的是，除了上述说明的步骤之外，也可以直接选择DeepWalk、LINE、TADW、hin2vec、node2vec、GCN和SDNE等网络表示学习算法来生成异质信息网络中的各节点所对应的向量。本发明不受限于此。本发明旨在提供一种根据已有的药物、药物靶点、疾病和副作用之间的关联关系来确定更多的药物和药物靶点的关联关系的方案，对药物、药物靶点、疾病和副作用的向量表示不做过多限制。

在随后的步骤S230中，组合各药物和各药物靶点所对应的向量，以生成对应的各药物-药物靶点向量。

通过前后拼接的方式来组合得到药物-药物靶点向量。例如，某药物A的向量表示为00100，药物靶点B的向量表示为11000，经组合后得到药物A-药物靶点B所对应的向量为0010011000。

在组合得到各药物-药物靶点向量后，根据一种实施例，根据所采集的数据对各药物-药物靶点向量进行归类。也就是说，在步骤S210所采集的数据中，有一些药物和药物靶点之间已经存在相互作用关系(或关联关系)，将这些药物和药物靶点所组成的药物-药物靶点向量归为第一样本集合；若在所采集的数据中药物和药物靶点之间尚不存在相互作用关系(或关联关系)，则将其所组成的药物-药物靶点向量归到第二样本集合中。在现有的数据中，第二样本集合中药物-药物靶点向量的数量远大于第一样本集合的数量。

随后，在步骤S240中，基于预定模型确定出表征药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值。

预定模型是在执行步骤S240之前，通过训练生成的。根据本发明的一种实施例，提供了一种训练生成预定模型的方法。具体地，训练生成预定模型的步骤可以概括如下。

首先，从第一样本集合和第二样本集合中分别选取相同数量的药物-药物靶点向量，作为训练样本。例如，从第二样本集合中随机选取与第一样本集合的数量相同的药物-药物靶点向量，连同第一样本集合中的所有药物-药物靶点向量一起，作为训练样本。

而后，设置各训练样本的标签。根据一种实施例，若训练样本来自第一样本集合，即，该药物-药物靶点向量所包含的药物和药物靶点之间已经存在相互作用关系，则将其标签设置为1；若训练样本来自第二样本集合，即，该药物-药物靶点向量所包含的药物和药物靶点之间尚不存在相互作用关系，则将其标签设置为0。

最后，采用梯度提升算法对训练样本进行训练，以得到预定模型。在一些实施例中，利用训练样本对XGBoost模型进行训练，训练得到的模型即是预定模型。XGBoost模型由一堆CART树组成，可以按如下公式表示：

式中，K表示CART树的棵数，F表示所有可能的CART树，f_k(x_i)表示具体的一棵CART树，x_i表示树的参数。

训练XGBoost模型生成预定模型的过程，就是训练模型中每棵CART树的参数。CART树的参数包括两部分：一部分是树的结构，这个结构用于将训练样本映射到一个确定的叶子节点上；第二部分就是各叶子节点上的分数。XGBoost模型属于本领域已知内容，此处不再做过多阐述，在根据本发明的一个实施例中，采用XGBoost模型进行十折交叉检验，并以AUC(Area Under Curve)值作为调优指标，训练得到最终的XGBoost模型，作为预定模型。十折交叉检验是一种常用的测试算法，常用来测试算法的准确性，此处不做赘述。当然，本领域技术人员亦可以采用别的方法训练得到最终的预定模型，本发明的实施例不受限于此。

在训练生成预定模型后，确定药物和药物靶点的关联关系的分值可以通过如下所述的三个步骤来实现。

首先，利用第二样本集合中的药物-药物靶点向量生成第一子集和第二子集。例如，将第二样本集合平均分成两部分，其中一部分药物-药物靶点向量作为第一子集，另一部分药物-药物靶点向量作为第二子集。

其次，基于预定模型，利用第一子集和第一样本集合中的药物-药物靶点向量确定出第二子集中的药物-药物靶点向量对应的分值。

本步骤又可以分三步执行。1)从第一子集和第一样本集合中分别随机选取相同数目的药物-药物靶点向量来生成输入数据集。根据一个实施例，从第一子集中随机选取与第一样本集合中相同数目的药物-药物靶点向量，形成输入数据集。本发明的实施例对选取的药物-药物靶点向量的数目不做限制，只要保证从第一子集和第一样本集合中选取的药物-药物靶点向量的数目一致即可。2)利用输入数据集通过预定模型来拟合出第二子集中相同数目的药物-药物靶点向量对应的分值。也就是说，将输入数据集输入预定模型中，拟合出最终的模型，再从第二子集中选取与步骤1)中相同数目的药物-药物靶点向量并输入最终的模型中，得到第二子集中所选的药物-药物靶点向量对应的分值。3)依次重复执行上述生成和拟合的步骤(即1)2)步骤)，以得到第二子集中各药物-药物靶点向量最终的分值。重复上述步骤，即，通过随机选取生成不同的输入数据集来拟合出不同的最终模型，再将从第二子集中选取出的药物-药物靶点向量输入最终模型来求得各药物-药物靶点向量对应的至少一个分值。遍历第二子集中的所有药物-药物靶点向量，最终对第二子集中各药物-药物靶点向量对应的至少一个分值求平均分值，作为各药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值。

再次，基于预定模型，利用第二子集和第一样本集合中的药物-药物靶点向量确定出第一子集中的药物-药物靶点向量对应的分值。

本步骤的执行过程同上一步骤，只是从第二子集和第一样本集合中确定出输入数据集，而后计算第一子集中的药物-药物靶点向量对应的分值。还是分三步执行。a)从第二子集和第一样本集合中分别选取相同数目的药物-药物靶点向量来生成输入数据集。根据一个实施例，从第二子集中随机选取与第一样本集合中相同数目的药物-药物靶点向量，形成输入数据集。同样，本发明的实施例对选取的药物-药物靶点向量的数目不做限制，只要保证从第二子集和第一样本集合中选取的药物-药物靶点向量的数目一致即可。b)利用输入数据集通过预定模型来拟合出第一子集中相同数目的药物-药物靶点向量对应的分值。也就是说，将输入数据集输入预定模型中，拟合出最终的模型，从第一子集中选取与步骤a)中相同数目的药物-药物靶点向量并输入最终的模型中，得到第一子集中所选的药物-药物靶点向量对应的分值。c)依次重复执行生成和拟合的步骤(即步骤a)和b))，以得到第一子集中各药物-药物靶点向量最终的分值。重复上述步骤，即，通过随机选取生成不同的输入数据集来拟合出不同的最终模型，再将第一子集中药物-药物靶点向量输入最终模型来求得各药物-药物靶点向量对应的至少一个分值。遍历第一子集中的所有药物-药物靶点向量，最终对第一子集中各药物-药物靶点向量对应的至少一个分值求平均分值，作为各药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值。

至此，就确定出了表征药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值。一般地，分值越大，表示药物和药物靶点之间越相关。

如前文所述，根据所采集的数据构建异质信息网络，网络中的节点包括药物、药物靶点、疾病和副作用，用不同的编号来表示每个节点。根据本发明的一些实施方式，基于方法200就构建出了异质信息网络。网络中存在四种节点，分别是药物、药物靶点、疾病和副作用，节点与节点之间的边即代表这两个节点之间的关联关系，通过两个节点所属的类型就可以确定连接这两个节点的边的类型，同样，还可以通过执行方法200得到表征两个节点之间的关联关系的分值，作为边的值。

图3示出了根据本发明一个实施例的预测药物和药物靶点相互作用关系的方法300的流程图。方法300同样适于在计算设备100中执行，在计算设备100的应用122中布置用于执行方法300的多条程序指令。根据本发明的实施方式，方法300的执行基于方法200。如图3所示，方法300始于步骤S310。

在步骤S310中，利用如上所述的异质信息网络来确定与第一节点相关联的一个或多个第二节点。根据一种实施例，如上所述的异质信息网络通过执行方法200构建得到。例如，第一节点是药物D1的节点，第二节点是药物靶点的节点，可以从异质信息网络中确定出与药物D1相关联的一个或多个药物靶点节点，设从该异质信息网络中筛选出的与D1相关联的药物靶点节点有P1、P2、P3、…、P20，一共20个。同时，还可以分别得到D1节点与P1、P2、P3、…、P20节点之间的边的值。

随后在步骤S320中，按照边的值从高到低的顺序从所确定的第二节点中选取出第一数目个第二节点，作为与第一节点有相互作用关系的第二节点。还是以上例为例，按照边的值从高到低的顺序对P1、P2、P3、…、P20这20个节点进行排序，然后从中选取出第一数目个边的值较大的节点，作为与D1节点有相互作用关系的节点。

同理，第一节点也可以是药物靶点的节点，此时，第二节点就是药物的节点。从异质信息网络中确定与该药物靶点相关联的一个或多个药物节点，再按照边的值从高到低的顺序从所确定的药物节点中选取出第一数目个药物节点，作为与该药物靶点节点有相互作用关系的节点。

在根据本发明的一些实施例中，第一数目取10，但不限于此。

根据方法300可以确定出与某药物或药物靶点具有相互作用关系的药物靶点或药物，并对应一个分值，可以将该结果作为旧药新用研究的参考意见。

根据本发明的上述方案，不需要具备药物化学结构或成分的相关专业知识，也不需要大量的实验积累，仅是利用现在正在迅速积累的表征药物、药物靶点、疾病、副作用之间的关联关系的数据，就可以确定出表征药物和药物靶点的关联关系的分值。为药物设计者提供了低成本的预测方法，推动了旧药新用标准化和现代化的发展。经实验验证，根据本发明实施例所预测的药物和药物靶点之间的相互作用关系，准确率颇高。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明一并公开了：

A7、如A3-6中任一项所述的方法，还包括训练生成预定模型的步骤：从所述第一样本集合和第二样本集合中分别选取相同数量的药物-药物靶点向量，作为训练样本；设置各训练样本的标签；以及采用梯度提升算法对所述训练样本进行训练，以得到预定模型。

A8、如A7所述的方法，其中，所述设置各训练样本的标签的步骤包括：若所述训练样本来自所述第一样本集合，则将其标签设置为1；以及若所述训练样本来自所述第二样本集合，则将其标签设置为0。

A9、如A1-8中任一项所述的方法，其中，在所述基于所采集到的数据分别生成所述药物和药物靶点对应的向量的步骤之前，还包括步骤：将所采集的数据表示为预定格式。

A10、如A9所述的方法，其中，所述基于所采集到的数据分别生成药物和药物靶点对应的向量的步骤包括：通过网络表示学习模型学习生成各药物和药物靶点对应的向量。

A11、如A10所述的方法，其中，所述通过网络表示学习模型学习生成各药物和药物靶点对应的向量的步骤包括：基于所述预定格式生成多个包含药物和药物靶点的序列；以离散表示的方式生成各序列对应的中间向量；以及将所述中间向量输入预设矩阵中，以生成各药物和各药物靶点对应的向量。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种确定药物和药物靶点关联关系的方法，包括步骤：

采集表征药物、药物靶点、疾病和副作用之间关联关系的数据；

基于所采集到的数据分别生成所述药物和药物靶点对应的向量；

组合各药物和各药物靶点所对应的向量，以生成对应的各药物-药物靶点向量；以及

基于预定模型确定出表征所述药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值。

2.如权利要求1所述的方法，其中，所述组合各药物和各药物靶点所对应的向量、以生成对应的各药物-药物靶点向量的步骤之后，还包括步骤：

根据所采集的数据对各药物-药物靶点向量进行归类。

3.如权利要求2所述的方法，其中，所述根据所采集的数据对各药物-药物靶点向量进行归类的步骤包括：

若在所采集的数据中所述药物和药物靶点之间已存在关联关系，则将该药物-药物靶点向量归到第一样本集合；以及

若在所采集的数据中所述药物和药物靶点之间不存在关联关系，则将该药物-药物靶点向量归到第二样本集合。

4.如权利要求3所述的方法，其中，所述基于预定模型确定出表征药物-药物靶点向量所对应的药物和药物靶点的关联关系的分值的步骤包括：

利用第二样本集合中的药物-药物靶点向量生成第一子集和第二子集；

基于所述预定模型，利用第一子集和第一样本集合中的药物-药物靶点向量确定出所述第二子集中的药物-药物靶点向量对应的分值；以及

基于所述预定模型，利用第二子集和第一样本集合中的药物-药物靶点向量确定出所述第一子集中的药物-药物靶点向量对应的分值。

5.如权利要求4所述的方法，其中，所述基于预定模型、利用第一子集和第一样本集合中的药物-药物靶点向量确定出第二子集中的药物-药物靶点向量对应的分值的步骤包括：

从第一子集和第一样本集合中分别选取相同数目的药物-药物靶点向量来生成输入数据集；

利用所述输入数据集通过预定模型来拟合出第二子集中相同数目的药物-药物靶点向量对应的分值；以及

依次重复执行所述生成、拟合的步骤，以得到第二子集中各药物-药物靶点向量最终的分值。

6.如权利要求4所述的方法，其中，所述基于预定模型、利用第二子集和第一样本集合中的药物-药物靶点向量确定出第一子集中的药物-药物靶点向量对应的分值的步骤包括：

从第二子集和第一样本集合中分别选取相同数目的药物-药物靶点向量来生成输入数据集；

利用所述输入数据集通过预定模型来拟合出第一子集中相同数目的药物-药物靶点向量对应的分值；以及

依次重复执行所述生成、拟合的步骤，以得到第一子集中各药物-药物靶点向量最终的分值。

7.一种异质信息网络，包括节点和边，其中，

所述节点包括药物、药物靶点、疾病和副作用；以及

所述节点之间的边的值通过执行如权利要求1-6中任一项所述的方法得到。

8.一种预测药物和药物靶点相互作用关系的方法，包括步骤：

利用如权利要求7所述的异质信息网络确定与第一节点相关联的一个或多个第二节点；

按照边的值从高到低的顺序从所确定的第二节点中选取出第一数目个第二节点，作为与所述第一节点有相互作用关系的第二节点，

其中所述第一节点表征药物或药物靶点，所述第二节点表征药物靶点或药物。

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-6中任一项所述方法的指令和用于执行如权利要求8所述的方法的指令。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-6中任一项所述的方法和执行如权利要求8所述的方法。