CN112562791A

CN112562791A - 基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质

Info

Publication number: CN112562791A
Application number: CN202011423142.0A
Authority: CN
Inventors: 王淑栋; 杜珍珍; 刘大岩; 刘嘉丽; 钟悦; 田庆雨
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2021-03-26

Abstract

基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质。本发明公开了一种基于知识图谱的药物靶标作用深度学习预测系统，属于药物靶标相互作用预测领域。该系统包括KG‑DTI模型，所述KG‑DTI模型包括：药物靶标知识图谱的构建、知识图谱的嵌入表达、药物靶标特征的提取以及药物靶标相互作用的预测；首先，处理药物靶标数据，构建药物靶标知识图谱；其次，通过对知识图谱的嵌入表达得到药物、靶标实体的向量表示；然后利用卷积神经网络提取药物‑靶标的特征；最后，将卷积神经网络提取的药物‑靶标特征输入到全连接神经网络进行回归和分类并预测药物‑靶标相互作用的概率。

Description

基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质

技术领域

本发明涉及药物研发领域，特别涉及一种基于知识图谱的药物靶标作用深度学习预测系统。

背景技术

传统的新药研发投资大、周期长、风险高。据报道，研发一种FDA批准的新药大约需要花费26亿美元，平均耗费10～12年的时间。然而经过一系列试验，最终成功上市的机率很低。已经获得批准的药物具有安全性的优点，药物重定位的目的是通过预测药物靶标相互作用来挖掘已经获得批准的药物的潜在临床应用价值。

目前，已经有很多计算机方法用于药物靶标相互作用预测，最常用的技术可以归为以下三种：基于配体预测药物靶标相互作用模型、基于分子结构预测药物靶标相互作用模型和基于信息网络预测药物靶标相互作用模型。通过计算机辅助药物研发，不仅可以大大的缩短药物研发周期，更能节约药物研发的成本，降低药物研发的风险。

发明内容

本发明实施例提供了一种基于知识图谱的药物靶标作用深度学习预测系统、计算机设备、存储介质。为了对披露的实施例的一些方面有一个基础的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的第一方面，提供了一种基于知识图谱的药物靶标深度学习预测系统。

在一些可选实施例中，所述系统包括KG-DTI模型，所述KG-DTI模型包括药物靶标知识图谱的构建、知识图谱的嵌入表达、药物靶标特征的提取以及药物靶标相互作用的预测；首先，处理药物靶标数据，构建药物靶标知识图谱；其次，通过对知识图谱的嵌入表达得到药物、靶标实体的向量表示；然后利用卷积神经网络提取药物-靶标的特征；最后，将卷积神经网络提取的药物-靶标特征输入到全连接神经网络进行回归和分类并预测药物-靶标相互作用的概率。

可选地，所述构建药物靶标知识图谱步骤，具体包括提取药物靶标的标识符，已知药物靶标之间存在相互作用表示为”Drug X has Target Y”，并通过已知相互作用的药物靶标对构建知识图谱。

可选地，所述通过对药物靶标知识图谱嵌入表达，得到药物靶标数据的向量表示，具体实现步骤包括将生成的药物-靶标知识图谱作为输入，通过知识图谱的嵌入表达得到药物靶标实体的向量表示，药物靶标知识图谱所采用的嵌入表达方式为DistMult。DistMult是一种双线性模型，它主要通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算，而且还能够有效刻画实体间的协同性。提取到的药物靶标实体的向量维度都是200维。

可选地，所述区域利用卷积神经网络提取药物-靶标特征，还包括，首先将药物靶标向量拼接在一起，拼接后的输入向量维度为400，然后输入到卷积神经网络并提取药物靶标的特征。这里的卷积神经网络类似于Inception模型，有两个通路，这两个通路有相同的一维卷积神经网络结构，命名为Conv-Conv，每一个通路的Conv结构中都有一维卷积神经网络、批归一化、最大池化层以及为了避免过拟合设置的dropout层。

可选地，所述区域药物靶标相互作用的预测，还包括将卷积神经网络提取到的特征作为输入，通过全连接层神经网络预测药物靶标之间的相互作用关系，得到药物靶标之间的预测分数。并通过设置阈值的方式，对药物靶标相互作用关系进行二分类，在这里所选用的阈值时0.5，大于阈值，标签设置为1，小于阈值标签设置为0。在对预测结果进行二分类后，定义模型的评价指标，计算模型的准确率、ROC曲线下的面积AUC，召回率等，并通过这些指标来设置模型的参数。通过反向传播的方式更新模型中的参数。使用二元交叉熵作为模型的损失函数，学习率设置为1e-3,并使用Adagrad作为优化器优化模型，同时batch_size设置为64，迭代次数设置为300。

根据本发明实施例的第二方面，提供一种计算机设备。

在一些可选实施例中，所述计算机设备包括：存储器、处理器及存储在所述存储器上并可被所述处理器运行的程序，所述处理器执行所述程序时实现以下步骤：药物靶标知识图谱的构建、知识图谱的嵌入表达、药物靶标特征的提取以及药物靶标相互作用的预测；首先，处理药物靶标数据，构建药物靶标知识图谱；其次，通过对知识图谱的嵌入表达得到药物、靶标实体的向量表示；然后利用卷积神经网络提取药物-靶标的特征；最后，将卷积神经网络提取的药物-靶标特征输入到全连接神经网络进行回归和分类并预测药物-靶标相互作用的概率。

本发明实施例提供的技术方案可以包括以下有益效果：

利用深度学习技术进行药物发现，辅助传统的药物研发，可以缩短药物研发的时间，降低药物研发的成本以及药物研发的风险。

应当理解的时，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于知识图谱的药物靶标作用深度学习预测系统的框图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，各实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中，诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来，而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、产品等而言，由于其与实施例公开的方法部分相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

图1示出了基于知识图谱的药物靶标作用深度学习预测系统的一个可选实施结构。

在可选实施例中，所述系统包括KG-DTI模型，所述KG-DTI模型包括：药物靶标知识图谱的构建、药物靶标知识图谱的嵌入表达、药物靶标知识图谱的特征提取、药物靶标相互作用的预测。首先，处理药物靶标数据，构建药物靶标知识图谱；其次，通过对知识图谱的嵌入表达得到药物、靶标实体的向量表示；然后利用卷积神经网络提取药物-靶标的特征；最后，将卷积神经网络提取的药物-靶标特征输入到全连接神经网络进行回归和分类并预测药物-靶标相互作用的概率。

可选地，所述KG-DTI模型还包括训练过程，下面给出KG-DTI模型的训练过程的一个具体实施例。

该实施例中，在KG-DTI模型的训练过程中，首先，从DrugBank非结构化数据库中提取到已知药物靶标对相互作用的标识符，然后通过这些已知相互作用的药物靶标对构建药物靶标知识图谱，实体-关系-实体的表现形式在这里具体是“Drug X has Target Y”,DrugX和Target Y是实体，“has”表示两者之间有相互作用关系。然后通过DistMult对知识图谱进行嵌入表达，DistMult是一种双线性模型，它主要通过基于实体间关系的双线性变换来刻画实体在关系下的语义相关性。模型不仅形式简单、易于计算，而且还能够有效刻画实体间的协同性。这样就得到了一张类似于<key,value>的查询表，其中key就是药物、靶标实体，value就是实体所对应的特征向量，然后数据集中的药物-靶标对就可以根据查询表得到嵌入矩阵。然后将药物靶标嵌入矩阵作为Conv-Conv模型的输入，Conv-Conv模型包括一维卷积神经网络、批归一化、最大池化层以及dropout层，其中一维卷积神经网络的filters设置为128，步长设置为2，使用Relu作为激活，dropout层的比例设置为0.2。然后将Conv-Conv模型提取到的药物靶标特征输入到全连接层的神经网络中并使用Sigmoid函数作为输出函数。同时，使用二元交叉熵作为模型的损失函数，学习率设置为1e-3，使用Adagrad优化器优化模型。为了找到合适的阈值，对阈值进行了网格搜索，最终发现阈值设置为0.5模型的准确率最高，所以最终选用0.5作为模型的阈值。批大小设置为64，epoch设置为300。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成以下步骤：构建KG-DTI模型，所述KG-DTI模型包括：药物靶标知识图谱的构建、知识图谱的嵌入表达、药物靶标特征的提取以及药物靶标相互作用的预测；首先，处理药物靶标数据，构建药物靶标知识图谱；其次，通过对知识图谱的嵌入表达得到药物、靶标实体的向量表示；然后利用卷积神经网络提取药物-靶标的特征；最后，将卷积神经网络提取的药物-靶标特征输入到全连接神经网络进行回归和分类并预测药物-靶标相互作用的概率。

上述非临时性计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAMD、磁带和光存储设备等。

本发明利用深度学习技术进行药物发现，辅助传统的药物研发，可以缩短药物研发的时间，降低药物研发的成本以及药物研发的风险。

本领域技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。所属技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，应该理解到，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

应当理解的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于知识图谱的药物靶标作用深度学习预测系统包括四部分：药物靶标知识图谱的构建、药物靶标知识图谱的嵌入表达、药物靶标知识图谱的特征提取、药物靶标相互作用的预测。

2.如权利要求1所述的系统，其特征在于，所述系统总体流程包括：首先，处理药物靶标数据，构建药物靶标知识图谱；其次，通过对药物靶标知识图谱的嵌入表达得到药物、靶标实体的向量表示；然后利用卷积神经网络提取药物-靶标的特征；最后，将卷积神经网络提取的药物-靶标特征输入到全连接神经网络进行回归和分类并预测药物-靶标相互作用的概率。

3.如权利要求2所述的系统，其特征在于，所述区域处理药物靶标数据，构建药物靶标知识图谱的步骤具体包括：提取药物靶标的标识符，已知药物靶标之间存在相互作用表示为”Drug X has Target Y”，并通过已知相互作用的药物靶标对构建知识图谱。

4.如权利要求2所述的系统，其特征在于，所述区域通过对药物靶标知识图谱嵌入表达，得到药物靶标数据的向量表示，具体实现步骤包括将生成的药物-靶标知识图谱作为输入，通过知识图谱的嵌入表达得到药物靶标实体的向量表示，药物靶标知识图谱所采用的嵌入表达方式为DistMult，提取到的药物靶标实体的向量维度都是200维。

5.如权利要求2所述的系统，其特征在于，所述区域利用卷积神经网络提取药物-靶标特征，还包括，首先将药物靶标向量拼接在一起，拼接后的输入向量维度为400，然后输入到卷积神经网络并提取药物靶标的特征。这里的卷积神经网络类似于Inception模型，有两个通路，这两个通路有相同的一维卷积神经网络结构，命名为Conv-Conv，每一个通路的Conv结构中都有一维卷积神经网络、批归一化、最大池化层以及为了避免过拟合设置的dropout层。

6.如权利要求1所述的系统，其特征在于，所述区域药物靶标相互作用的预测，还包括将卷积神经网络提取到的特征作为输入，通过全连接层神经网络预测药物靶标之间的相互作用关系，得到药物靶标之间的预测分数。并通过设置阈值的方式，对药物靶标相互作用关系进行二分类，在这里所选用的阈值时0.5，大于阈值，标签设置为1，小于阈值标签设置为0，通过反向传播的方式更新模型中的参数。使用二元交叉熵作为模型的损失函数，学习率设置为1e-3,并使用Adagrad作为优化器优化模型。

7.一种计算机设备，包括存储器、显卡、中央处理器以及存储在所述存储器上的可被所述中央处理器以及显卡并行处理的可执行程序，其特征在于，所述中央处理器和显卡执行所述程序时实现以下步骤：构建药物靶标知识图谱，提取知识图谱的特征并获取药物、靶标的实体的向量表示；将药物靶标对实体的向量拼接起来，通过卷积神经网络模型提取药物靶点特征，参照Inception网络模型，包括两个通路的卷积神经网络；最终将卷积神经网络提取的药物靶标特征输入到全连接神经网络模型中，预测药物靶标之间的相互作用，并得到药物靶标预测分数。

8.如权利要求7所述的计算机设备，其特征在于，卷积神经网络模型将药物靶标拼接的向量作为输入，知识图谱嵌入表达得到的实体向量都表示为200维的，药物靶标向量拼接在一起是400维，然后通过通道数为2的卷积神经网络模型进一步提取特征。将卷积神经网络提取到的药物靶标特征作为全连接层神经网络的输入，并通过全连接层神经网络预测药物靶标之间的相互作用关系。

9.一种存储介质，其存储有计算机程序，其特征在于，当所述计算机程序被中央处理器执行时实现以下步骤：构建药物靶标知识图谱，提取知识图谱的特征并获取药物、靶标的实体的向量表示；将药物靶标对实体的向量拼接起来，通过卷积神经网络模型提取药物靶点特征，参照Inception网络模型，包括两个通路的卷积神经网络；最终将卷积神经网络提取的药物靶标特征输入到全连接神经网络模型中，预测药物靶标之间的相互作用，并得到药物靶标预测分数。