CN117594115A - 基于知识图谱和消息传递神经网络的药物重定位方法及系统 - Google Patents
基于知识图谱和消息传递神经网络的药物重定位方法及系统 Download PDFInfo
- Publication number
- CN117594115A CN117594115A CN202311567334.2A CN202311567334A CN117594115A CN 117594115 A CN117594115 A CN 117594115A CN 202311567334 A CN202311567334 A CN 202311567334A CN 117594115 A CN117594115 A CN 117594115A
- Authority
- CN
- China
- Prior art keywords
- drug
- entity
- neural network
- embedding
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000009511 drug repositioning Methods 0.000 title claims abstract description 32
- 230000005540 biological transmission Effects 0.000 title claims abstract description 13
- 239000003814 drug Substances 0.000 claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 230000003993 interaction Effects 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 34
- 229940079593 drug Drugs 0.000 claims description 33
- 239000011159 matrix material Substances 0.000 claims description 16
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 15
- 239000002547 new drug Substances 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000012827 research and development Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000007634 remodeling Methods 0.000 description 4
- WSEQXVZVJXJVFP-HXUWFJFHSA-N (R)-citalopram Chemical compound C1([C@@]2(C3=CC=C(C=C3CO2)C#N)CCCN(C)C)=CC=C(F)C=C1 WSEQXVZVJXJVFP-HXUWFJFHSA-N 0.000 description 3
- 208000024827 Alzheimer disease Diseases 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 229960001653 citalopram Drugs 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009830 intercalation Methods 0.000 description 3
- 230000002687 intercalation Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009509 drug development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009510 drug design Methods 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 229940042040 innovative drug Drugs 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Animal Behavior & Ethology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Pharmacology & Pharmacy (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于知识图谱和消息传递神经网络药物重定位方法及系统,涉及生物医学和自然语言处理技术领域。本发明提出了Message‑Passing Transformer网络,将上下文三元组映射到不同的表示空间,充分利用其语义信息,并利用注意力机制对消息进行聚合,区分其重要性;为了减少网络的信息丢失和提高预测精度,本发明中引入了残差连接。本发明解决了当前基于知识图谱的药物重定位方法中实体和关系嵌入只能学习到邻接节点和边的信息的问题,并且使用了注意力机制将有限的上下文信息融入到嵌入中,使其能学习到丰富的语义信息,进而提高发现新药物治疗途经的能力。
Description
技术领域
本发明涉及生物医学和自然语言处理技术领域,尤其是涉及一种基于知识图谱和消息传递神经网络药物重定位方法及系统。
背景技术
随着药物研发技术的发展,以基因组学、蛋白质组学和系统生物学为代表的多种手段已广泛应用于药物靶标的辨识和创新药物的发现,但药物发现和药物开发是一项需要投入大量资金和时间并且带有巨大风险的任务。药物重定位(Drug Repositioning)是指利用相关技术方法从已有的药物挖掘其新适应症的过程。药物重定位能够为药物研发提供有效的实验线索和指导建议,使新药研发突破过度依赖实验筛选的局限进入到理性设计和实验筛选验证相结合的新阶段,从而大幅减少实验的周期和成本,对于新药研制具有重要的理论价值和现实意义。
将深度学习技术引入药物重定位预测,能够大大提高新药的研发效率。随着深度学习模型的发展,一些知识图谱推理的模型被应用到药物重定位。这种模型将知识图谱中的实体和关系表示为低维向量,同时最大限度地保留拓扑特征,并利用这些表示进行链接预测。
现有技术中,采用异构网络RWHNDR进行药物重定位,该网络利用随机游走法获取网络信息,预测治疗疾病的候选药物。虽然RWHNDR方法很经典,但它只能获得实体之间不同类型关系的语义。以往的代表性消息传递神经网络,如CompGCN,将邻居节点和边的聚合语义信息传递到中心节点,以更新中心节点的向量。CompGCN中的消息传播方法首先传输聚合的原始边和邻居节点信息,然后传输聚合的反向边和邻居节点信息,最后传输自循环关系信息。CompGCN只对相邻节点和边进行聚合,没有同时考虑中心节点、相邻节点和关系之间的交互信息。
发明内容
有鉴于此,本发明提出一种基于知识图谱和消息传递神经网络的药物重定位方法及系统,以克服现有技术中只考虑嵌入实体与其相邻实体和关系之间的信息,忽略了与实体相关的其他三元组或路径对嵌入学习影响的问题。
本发明的技术方案如下:
本发明提供了一种基于知识图谱和消息传递神经网络的药物重定位方法,包括:
对药物知识图谱中的实体和关系进行数据预处理,以索引的形式表示知识图谱中的三元组,初始化三元组中的实体和关系嵌入;
使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入;
利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示;在Message-Passing Transformer中包括多头注意力机制;
利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,以推断新的药物-疾病相互作用,得到药物重定位预测结果。
进一步地,初始化三元组中的实体和关系嵌入,包括:
CompGCN在初始卷积层将关系的初始特征向量变换为一组基向量的线性组合。
进一步地,使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入,包括:
使用CompGCN作为模型的第一层编码器通过组合算子来学习实体和关系的嵌入;所述组合算子,包括减法、乘法和循环卷积;
使用CONCAT函数将相应的聚合特征向量与前一个卷积层的实体特征向量连接起来,最后得到该层的实体嵌入;
使用关系特定系数矩阵将所有关系投影到与实体相同的嵌入空间中,更新关系的嵌入。
进一步地,利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示,包括:
使用组合算子将上下文三元组映射到表示空间中,然后在消息中进行组合;
使用Transformer中的注意力机制将所有上下文三元组表示聚合在一起;
计算每个邻近三元组的注意力分数,以捕获其重要性;
对具有注意力分数的消息进行聚合,以丰富实体嵌入。
进一步地,在Message-Passing Transformer的多头注意力机制中引入了预激活残差连接。
进一步地,利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,包括:
利用重塑函数捕获实体和关系特征之间最大异构交互;
将重塑的矩阵堆叠成一个3D张量;对三维张量进行深度循环卷积处理;再将每个循环卷积的输出扁平化并连接成一个向量。
进一步地,模型的损失函数为二元交叉熵损失函数。
又一方面,本发明还提供了一种基于知识图谱和消息传递神经网络的药物重定位系统,包括:
预处理模块,用于对药物知识图谱中的实体和关系进行数据预处理,以索引的形式表示知识图谱中的三元组,初始化三元组中的实体和关系嵌入;
药物知识图谱表示模块,使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入;利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示;在Message-Passing Transformer中包括多头注意力机制;
预测额模块,利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,以推断新的药物-疾病相互作用,得到药物重定位预测结果。
与现有技术相比,本发明的有益效果是:
1)本发明提出了Message-Passing Transformer网络将上下文三元组映射到不同的潜在空间进行表示学习;Message-Passing Transformer能够充分利用知识图谱中的图上下文三元组,使得实体和关系嵌入能够学习到丰富的语义信息,从而得到高质量的嵌入。
2)本发明在Message-Passing Transformer的多头注意力机制中引入了预激活残差连接,能够减少由于网络结构导致的信息丢失,解决了网络过度平滑的问题,进而提高了预测的性能。
3)本发明中利用InteractE模型捕捉保存在实体和关系嵌入中的异质神经特征相互作用,以推断新的药物-疾病相互作用,使得实体和关系嵌入能够学习到丰富的语义信息,并且提高了预测的性能,更有利于药物研发的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于知识图谱和消息传递神经网络的药物重定位方法的流程示意图;
图2为本发明实施例中药物重定位预测模型的原理图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
针对药物再利用问题,本发明提出一种基于知识图谱和消息传递神经网络的药物重定位方法。首先对输入数据进行预处理,将药物知识图谱中的实体和关系分别添加索引,初始化三元组中的实体和关系嵌入作为模型的输入。然后使用表示学习方法分别对知识图谱中的实体和关系嵌入进行训练并优化,最后将训练好的实体嵌入和关系嵌入通过InteractE得到具体的评分并对新药物的治疗路径进行预测。
如图1-2所示,本发明实施例中的一种基于知识图谱和消息传递神经网络的药物重定位方法,具体包括以下步骤:
S1、数据预处理:将药物知识图谱中的实体和关系分别添加索引,并以索引的形式来表示知识图谱中的三元组,初始化三元组中的实体和关系嵌入作为模型的输入。
首先,将知识图谱中的实体和关系的文本用索引来表示。接下来定义知识图谱G=(E,R,P,Q),其中E和R表示实体和关系的集合,P和Q分别表示对应实体和关系的初始特征向量。在图结构中,节点被视为实体,边被视为关系。为了防止过度参数化,CompGCN(Composition-based Multi-Relational Graph Convolutional Networks,基于组合的多关系图神经网络)在初始卷积层将关系的初始特征向量变换为一组基向量的线性组合,表示为:
其中,Qr表示边的初始特征向量,αbr表示对应关系的特定可学习标量权重,vb表示基向量。
S2、药物知识图谱表示学习:针对知识图谱多关系的特点,使用CompGCN来初步编码实体和关系嵌入;
S21、使用CompGCN作为模型的第一层编码器通过组合算子来学习实体和关系的嵌入。
定义表示实体e在第k个卷积层中的向量表示,N(v)表示实体v的相邻实体集合。CompGCN中每个卷积层中的实体通过聚合有关相邻实体和相邻语义关系的异构信息来更新实体嵌入。例如,为了更新疾病节点的嵌入,需要聚合它们相邻的实体(例如,哺乳动物表型,基因本体,Uberon组织,药物,疾病),邻接关系(例如,疾病-相关-基因,药物-靶向-基因),逆邻接关系(例如,基因-相关-UT,基因-相关-GO,基因-相关-UT)和自相关(例如,基因-相关-基因)语义信息,生成基因的聚合特征向量。聚合特征向量/>的生成方法如下:
其中,u为实体v的邻居实体,Wλ(r)为关系型的特定参数权重矩阵,λ为几个方向的权重,具体如下:
其中,WO为出度关系参数矩阵,WI为度入度关系参数矩阵,WS为自关系参数矩阵。
为了解决GCN中包含节点相邻边语义信息的参数化问题,在式(3)中,表示基于知识图的学习模型中嵌入的实体和关系操作的组合,包括减法、乘法和循环卷积。本发明实施例中选择使用循环卷积运算。
接下来,CONCAT函数将相应的聚合特征向量与前一个卷积层的实体特征向量连接起来。最后,得到该层的实体嵌入。
其中,表示自定系数矩阵。
同样地,设表示第k层卷积层矩阵中关系r的特征向量,使用关系特定系数矩阵将所有关系投影到与实体相同的嵌入空间中,更新关系r的嵌入。
S22、针对知识图谱中三元组结构(头实体、关系、尾实体)的特点,在消息传递机制中引入Transformer,可以将上下文三元组各元素之间的交互信息同时充分集成到中心节点中,从而更好地传递与中心实体相邻的其他三元组或路径的语义信息,丰富了实体的语义信息,提高了模型的预测能力。Message-Passing Transformer作为模型的第二层编码器首先将三元组映射到潜在空间中,然后通过计算三元组的注意力得分来捕获其重要性,同时将三元组的元素及其之间的信息进行整合,从而提高了语义信息的完整性,保证了信息获取的时效性。本发明实施例中编码器通过两种方式对相邻节点和边的语义信息进行聚合,从而充分学习实体和关系嵌入表示,使预测结果与现实逻辑一致。
在将语义信息集成到实体和关系的知识图谱嵌入表示学习模型的启发下,为了充分利用药物重定位知识图谱中有限的上下文信息,本发明提出了Message-PassingTransformer网络,Message-Passing Transformer网络以CompGCN输出的实体和关系嵌入作为输入。首先,使用算子将上下文三元组映射到表示空间中,然后在消息中进行组合。然后使用Transformer中的注意力机制将所有上下文三元组表示聚合在一起。
实体更新方程可以定义为:
其中,α表示Tanh激活函数,βirj表示Transformer中的上下文三元组(i,r,j)的注意力权重。表示前馈消息聚合矩阵。为了防止网络过度平滑和提高预测新药预测路径的预测精度,在之后使用了预激活残差连接。pi和pr分别表示头实体嵌入和尾实体嵌入。定义g(pi,pr)用来以某种方式聚集知识图谱的上下文信息,公式定义为:
g(pi,pr)=α([W*φin(pi,pr)||W*φout(pi,pr)]) (8)
式中,α为LeakyReLU激活函数,W表示在第l层中某种操作相应的权重矩阵。pr表示关系嵌入。φin(pi,pr)和φout(pi,pr)分别代表上下文三元组信息的融合操作与逆三元组的融合运算,然后连接它们,它们的归纳偏差被合并为传递的消息。组合运算φ(pi,pr)包括减法Subtraction、乘法Multiplication和循环卷积Circular-correlation。将前馈神经网络应用在组合运算的输出。
Subtraction(Sub):φ(pi,pr)=pi-pr;
Multiplicaton(Mult):φ(pi,pr)=pi*pr;
Circular-correlation(Corr):φ(pi,pr)=pi*pr。
S23、计算每个邻近三元组的注意力Attention分数,以捕获其重要性;
计算每个上下文组合的注意力得分βirj来区分它们的重要性。上下文三元组(i,r,j)的注意力得分δirj定义为:
Q=hQ(pj);K=hK(φ(pi,pr));V=hV(g(pi,pr))(10)
其中,Q是从头实体嵌入的输出中创建的pj,K是从融合操作结果的输出φ(pi,pr)中创建的,V是从消息聚合结果的输出中创建的,通过投影函数h=WTx+b(其中w表示权重,b表示偏差)。C是嵌入维度,d是头的个数。
S24、对具有Attention分数的消息进行聚合以丰富实体嵌入;
具体地,将每个三元组的注意力得分归一化,使用softmax为:
其中,Nj表示实体j的邻居实体,Amj表示连接m和j的关系,βirj规范化为三元组(i,r,j)的注意力权重。实体嵌入更新后,关系嵌入更新的表达式为:
其中,Wre是第n层下关系嵌入的可训练权矩阵。
S3、药物重定位预测:利用InteractE模型捕获保存在实体和关系嵌入中的异构特征相互作用,以推断新的药物-疾病相互作用。InteractE通过捕获额外的异构特征交互来缓解ConvE的局限性。InteractE能够通过利用三个方法来实现这一点,即特征置换(使用多个排列来捕获更多可能的交互)、格子特征重塑(格子重塑函数ε(Lb)排列Ye和Yr(Y表示实体和关系对应的向量),使得没有两个相邻的单元格(即向量的一个元素)来自于同一个向量)和循环卷积(循环卷积捕获更多的特征交互)。
定义v为药物实体,r为“治疗”关系。以已经训练好的节点和边缘嵌入作为预测模块的输入,预测治疗疾病实体的新药。定义了评分函数,并且正确的三元组比错误的三元组有更高的分数。
在具体实施,S3具体包括:
S31、将S2中已经训练过的实体和关系嵌入作为输入。
例如,为了预测西酞普兰是否能治疗阿尔茨海默病,使用三元组(西酞普兰,药物-治疗-疾病,阿尔茨海默病)作为输入。具体地,输入包括药物e的嵌入向量(例如西酞普兰)、关系r的嵌入向量(例如药物-治疗-疾病)和疾病u的嵌入向量(例如阿尔茨海默病)。
S32、利用神经网络捕获保存在实体和关系嵌入中的各种异构交互,有利于提高预测性能。
具体地,设v=Ri×i是一个大小为i的卷积核,在预测时使用了三种操作(特征置换、特征重塑和循环卷积)。第一个操作是生成b个随机排列,记为:
进行格子特征重塑操作并定义为:
其中,ε(.)是捕获实体和关系特征之间最大异构交互的重塑函数。
将重塑的矩阵堆叠成一个3D张量,然后,对三维张量进行深度循环卷积处理。再将每个循环卷积的扁平化输出并连接成一个向量。
式中vec表示向量拼接,f表示激活,表示深度循环卷积,Wl表示可学习权重矩阵。
S33、接下来通过Linear将拼接好的向量投影至向量空间,使其与编码器输出的实体向量能够做向量乘法操作。
本发明实施例中设计了一个评分函数来获得一个三元组的分数,并利用一个sigmoid函数来计算这个三元组的概率。具体公式如下:
logits=ψ(e,r,v)=τ(e,r)*Yu (16)
将预测出的实体向量矩阵与编码器输出的实体向量矩阵进行矩阵乘法操作得到logits值。
score=sigmoid(logits) (17)
模型使用二元交叉熵损失函数,定义如下:
上述实施例中,网络结合了不同的消息聚合方式,利用Transformer聚合信息来集成药物再利用知识图谱的上下文三元组。同时为了防止网络过度平滑,引入了残差连接来优化嵌入进而提高了预测质量。最后将已训练好的实体和关系嵌入通过交互层来进行预测,推断药物治疗的新路径。
对应上述实施例中的药物重定位方法,本申请还提供了一种基于知识图谱和消息传递神经网络的药物重定位系统,包括:
预处理模块,用于对药物知识图谱中的实体和关系进行数据预处理,以索引的形式表示知识图谱中的三元组,初始化三元组中的实体和关系嵌入;
药物知识图谱表示模块,使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入;利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示;在Message-Passing Transformer中包括多头注意力机制;
预测额模块,利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,以推断新的药物-疾病相互作用,得到药物重定位预测结果。
对于本发明实施例的系统而言,由于其与上面实施例中的方法相对应,所以描述的比较简单,相关相似之处请参见上面实施例中方法部分的说明即可,此处不再详述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,包括:
对药物知识图谱中的实体和关系进行数据预处理,以索引的形式表示知识图谱中的三元组,初始化三元组中的实体和关系嵌入;
使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入;
利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示;在Message-Passing Transformer中包括多头注意力机制;
利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,以推断新的药物-疾病相互作用,得到药物重定位预测结果。
2.根据权利要求1所述的一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,初始化三元组中的实体和关系嵌入,包括:
CompGCN在初始卷积层将关系的初始特征向量变换为一组基向量的线性组合。
3.根据权利要求1所述的一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入,包括:
使用CompGCN作为模型的第一层编码器通过组合算子来学习实体和关系的嵌入;所述组合算子,包括减法、乘法和循环卷积;
使用CONCAT函数将相应的聚合特征向量与前一个卷积层的实体特征向量连接起来,最后得到该层的实体嵌入;
使用关系特定系数矩阵将所有关系投影到与实体相同的嵌入空间中,更新关系的嵌入。
4.根据权利要求1所述的一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示,包括:
使用组合算子将上下文三元组映射到表示空间中,然后在消息中进行组合;
使用Transformer中的注意力机制将所有上下文三元组表示聚合在一起;
计算每个邻近三元组的注意力分数,以捕获其重要性;
对具有注意力分数的消息进行聚合,以丰富实体嵌入。
5.根据权利要求1所述的一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,在Message-Passing Transformer的多头注意力机制中引入了预激活残差连接。
6.根据权利要求1所述的一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,包括:
利用重塑函数捕获实体和关系特征之间最大异构交互;
将重塑的矩阵堆叠成一个3D张量;对三维张量进行深度循环卷积处理;再将每个循环卷积的输出扁平化并连接成一个向量。
7.根据权利要求1所述的一种基于知识图谱和消息传递神经网络的药物重定位方法,其特征在于,模型的损失函数为二元交叉熵损失函数。
8.一种基于知识图谱和消息传递神经网络的药物重定位系统,其特征在于,包括:
预处理模块,用于对药物知识图谱中的实体和关系进行数据预处理,以索引的形式表示知识图谱中的三元组,初始化三元组中的实体和关系嵌入;
药物知识图谱表示模块,使用基于组合的多关系神经网络CompGCN编码实体和关系嵌入;利用Message-Passing Transformer消息传递神经网络将CompGCN输出的实体和关系嵌入进行组合,得到药物知识图谱表示;在Message-Passing Transformer中包括多头注意力机制;
预测模块,利用InteractE模型捕获保存在药物知识图谱表示中的异构特征相互作用,以推断新的药物-疾病相互作用,得到药物重定位预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311567334.2A CN117594115A (zh) | 2023-11-22 | 2023-11-22 | 基于知识图谱和消息传递神经网络的药物重定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311567334.2A CN117594115A (zh) | 2023-11-22 | 2023-11-22 | 基于知识图谱和消息传递神经网络的药物重定位方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117594115A true CN117594115A (zh) | 2024-02-23 |
Family
ID=89911081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311567334.2A Pending CN117594115A (zh) | 2023-11-22 | 2023-11-22 | 基于知识图谱和消息传递神经网络的药物重定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117594115A (zh) |
-
2023
- 2023-11-22 CN CN202311567334.2A patent/CN117594115A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852116B (zh) | 非自回归神经机器翻译方法、装置、计算机设备和介质 | |
Lebret et al. | Neural text generation from structured data with application to the biography domain | |
US5140530A (en) | Genetic algorithm synthesis of neural networks | |
CN110413785A (zh) | 一种基于bert和特征融合的文本自动分类方法 | |
CN112000772B (zh) | 面向智能问答基于语义特征立方体的句子对语义匹配方法 | |
CN110111864A (zh) | 一种基于关系模型的医学报告生成模型及其生成方法 | |
CN115794480A (zh) | 一种基于日志语义编码器的系统异常日志检测方法及系统 | |
Qin et al. | Disentangled representation learning with large language models for text-attributed graphs | |
CN113312919A (zh) | 一种知识图谱的文本生成方法及装置 | |
Zhang et al. | Automatic design of deterministic and non-halting membrane systems by tuning syntactical ingredients | |
CN116932722A (zh) | 一种基于跨模态数据融合的医学视觉问答方法及系统 | |
CN115063709A (zh) | 基于跨模态注意与分层融合的多模态情感分析方法及系统 | |
CN102779161B (zh) | 基于rdf知识库的语义标注方法 | |
CN118335190A (zh) | 一种使用深度学习技术生成具有特定功能及属性的蛋白质的氨基酸序列的方法和系统 | |
CN112417089B (zh) | 一种基于深度学习的高并行性阅读理解的方法 | |
CN118116455A (zh) | 一种药物-靶蛋白结合亲和力预测方法及系统 | |
Yang et al. | Self-supervised learning for label sparsity in computational drug repositioning | |
CN117519711A (zh) | 基于生成对抗网络的代码生成与搜索方法、系统及存储介质 | |
CN115564049B (zh) | 一种双向编码的知识图谱嵌入方法 | |
CN117594115A (zh) | 基于知识图谱和消息传递神经网络的药物重定位方法及系统 | |
CN114936723B (zh) | 一种基于数据增强的社交网络用户属性预测方法及系统 | |
Rodriguez-Coayahuitl et al. | Convolutional genetic programming | |
CN115525742A (zh) | 一种基于表示学习的知识图谱问答方法 | |
CN112836065A (zh) | 一种基于组合自注意的图卷积知识表示学习模型CompSAGCN的预测方法 | |
Wu et al. | Genetic Algorithm-based Transformer Architecture Design for Neural Machine Translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |