CN113611356B - 一种基于自监督图表征学习的药物重定位预测方法 - Google Patents

一种基于自监督图表征学习的药物重定位预测方法 Download PDF

Info

Publication number
CN113611356B
CN113611356B CN202110865026.2A CN202110865026A CN113611356B CN 113611356 B CN113611356 B CN 113611356B CN 202110865026 A CN202110865026 A CN 202110865026A CN 113611356 B CN113611356 B CN 113611356B
Authority
CN
China
Prior art keywords
node
mask
biological
vector
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110865026.2A
Other languages
English (en)
Other versions
CN113611356A (zh
Inventor
彭绍亮
王小奇
程英杰
姬博亚
程孝孝
王红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110865026.2A priority Critical patent/CN113611356B/zh
Publication of CN113611356A publication Critical patent/CN113611356A/zh
Application granted granted Critical
Publication of CN113611356B publication Critical patent/CN113611356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于计算机科学领域,公开了一种基于自监督图表征学习的药物重定位预测方法。首先探索发现生物异质网络中不同实体之间的多中心结构特征,并被用于元路径设计;其次,通过基于路径检测的自监督学习机制训练深度Transformer编码器,生成可以反映生物异质网络中全局信息的表征向量;同时,通过集成生物医学实体掩码任务来捕获网络节点之间的局部关联信息;最后,将来自不同任务模型的表征拼接起来作为特征向量,并利用传统的支持向量机模型预测生药物‑靶标的相互作用关系。本发明通过自监督图表征模型捕获了生物异质网络中的局部‑全局信息,进而提高了药物重定位预测精度,同时降低了对生物医学标注数据的依赖性,更加符合生物医药的实际应用。

Description

一种基于自监督图表征学习的药物重定位预测方法
技术领域
本发明属于计算机科学领域,涉及人工智能技术应用,具体涉及一种基于自监督图表征学习的药物重定位预测方法。
背景技术
人体内的生物过程是不同生物医学实体(例如,药物、基因、蛋白质、副作用)之间相互作用的结果,例如药物-靶标相互作用、药物-疾病关联关系和蛋白质-蛋白质相互作用,其中药物-靶标相互作用预测是研究生命机理的关键,也是药物重新定位领域的核心问题。基于传统的生物实验预测药物发现和重定位方法,不仅费用昂贵,并且耗时。因此,越来越多的研究者利用计算技术来进行药物重定预测。
计算机科学和生物医学研究的快速发展,导致产生了大量的生物医学网络,因此基于网络的深度学习模型被广泛的应用于药物重定位预测。尽管基于网络的深度学习方法显示出药物重定位预测的巨大前景和能力,但大多数深度学习方法严重依赖于大量标记数据。在真正的生物医学研究中可能无法满足大规模标记数据的要求。近些年来,自监督学习已广泛应用于各种领域,例如自然语言处理、计算机视觉和图像处理,特别是基于自监督的图表征学习技术引起了国内外研究者的关注,并为药物重定位预测提供了有效的范式。然而,大多数网络表征方法都认为所有的网络节点都具有相同的属性。换句话说,这些网络表征方法只考虑同类型实体之间的关系,而不能考虑异质节点之间的关系。
尽管越来越多的研究通过设计基于元路径的图表征学习来捕捉生物实体之间的异质性,但现有的网络表征方法依然存在两个关键问题:(1)大多数方法主要是为非生物医学网络开发的;(2)大多数异构网络表征方法主要通过元路径来保留局部关联关系;然后,利用词嵌入模型来学习节点的表征。因此,网络节点之间的全局结构和语义信息很难完全建模;这些方法通常只是对网络局部结构关系的建模和优化,因此产生的表征向量并不一定有助于药物重定位预测。
因此,基于生物异质网络设计特有的自监督任务驱动表征算法模型,生成高质量的表征向量,集成节点之间的结构和语义关系对药物重定位预测具有重要的科学意义。
发明内容
为了克服现有图表征技术忽略了生物异质网络数据的特征,同时无法捕获网络全局结构信息的不足,本发明提供了一种基于自监督图表征学习的药物重定位预测方法。该发明方法首先探索发现生物异质网络中不同实体之间的多中心结构特征,并被用于元路径设计;其次,通过基于路径检测的自监督学习机制训练深度Transformer编码器,生成可以反映生物异质网络中全局结构和语义特征的低维表征向量;同时,通过集成生物医学实体掩码任务来捕获网络节点之间的局部关联信息;最后,将来自不同任务模型的表征拼接起来作为生物实体的特征向量,基于这些表征向量利用传统的支持向量机模型预测生药物-靶标的相互作用关系。
本发明所采用的技术方案是:
一种基于自监督图表征学习的药物重定位预测方法,包括如下步骤:
1)参数初始化,包括元路径最大长度L,表征向量维度dim,掩码序列比率k%,掩码序列被特殊字符<MASK>替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p′∈(0,1-p);
2)对网络中的所有节点进行编号V={vi|i=1,2,...,num},其中num代表节点的总个数;
3)根据生物异质网络中不同实体之间的多中心结构特征,设计多种元路径;
4)在生物异质网络中,采用元路径引导的随机游走策略生成N条生物实体正样本序列
Figure BDA0003187216530000021
其中l∈[1,L]是正样本序列qn的长度;
5)随机替换正样本序列
Figure BDA0003187216530000022
中的一些节点,产生对应的负样本序列q′n
6)将所有的正样本序列qn和负样本序列q′n混乱,进行基于路径检测的自监督网络表征学习,获得包含每个节点vi全局信息的表征向量
Figure BDA0003187216530000023
其中
Figure BDA0003187216530000024
是反映节点vi全局信息的表征向量;
7)将所有的正样本序列qn随机掩码,进行基于生物实体掩码的自监督网络表征学习,获得包含每个节点vi局部信息的表征向量
Figure BDA0003187216530000025
其中
Figure BDA0003187216530000026
是反映节点vi局部信息的表征向量;
8)将包含生物实体全局信息的表征向量Z和包含生物实体局部信息的表征向量Z′拼接,获得包含局部-全局信息的表征向量
Figure BDA0003187216530000027
其中
Figure BDA0003187216530000028
是向量
Figure BDA0003187216530000029
和向量
Figure BDA00031872165300000210
的拼接向量;
9)基于支持向量机分类模型预测药物-靶标相互作用关系,并采用接收者操作特征曲线面积作为评价指标,进行评估模型的预测性能。
作为本发明的进一步改进,所述步骤5)通过以下步骤实现:
5.1)从正样本序列
Figure BDA0003187216530000031
中随机选取一个节点
Figure BDA0003187216530000032
同时从网络中随机选取一个节点vi
5.2)在生物网络中,如果节点vi
Figure BDA0003187216530000033
之间不存在关联关系,则利用节点vi代替正样本序列中节点
Figure BDA0003187216530000034
生成负样本序列q′n,否则转至步骤5.3);
5.3)在生物网络中,如果节点vi
Figure BDA0003187216530000035
之间不存在关联关系,则利用节点vi代替正样本序列中节点
Figure BDA0003187216530000036
生成负样本序列q′n,否则转至步骤5.1);
作为本发明的进一步改进,所述步骤6)通过以下步骤实现:
6.1)将所有的正样本序列qn和负样本序列q′n混乱,并且输入深层Transformer编码器获得生物实体的表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;
6.2)利用逻辑回归模型判断每条路径属于正样本序列还是负样本序列,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
6.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点vi的表征向量zvi,转至步骤9),否则转至步骤6.1);
作为本发明的进一步改进,所述步骤7)通过以下步骤实现:
7.1)从所有的生物实体正样本序列qn中选择k%个生物实体作为掩码节点,针对每个掩码节点,生成一个随机数rand∈[0,1],如果rand<p,则用特殊字符<MASK>替换所述掩码节点;如果p≤rand<p+p′,则从网络中随机选取一个节点用来替换所述掩码目标节点;如果p+p′≤rand<1,则保持所述掩码节点不变;
7.2)将这些掩码后的路径序列输入深层Transformer编码器获得生物实体的表征向量,利用逻辑回归模型预测掩码节点的原词,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
7.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出包含每个节点vi局部信息的表征向量
Figure BDA0003187216530000037
转至步骤8),否则转至步骤7.2);
作为本发明的进一步改进,所述步骤9)通过以下步骤实现:
9.1)计算生物异质网络中所有药物vd∈V和所有靶标vt∈V相互作用的个数Ninter,其中d,t∈{i=1,2,...,num}分别是网络中药物和靶标的编号,并从生物网络中随机选择Ninter对无相互作用的药物-靶标对作为负样本,将这些正样本药物-靶标对和负样本药物-靶标对混合打乱在一起,并且训练集,验证集和测试集的总量是所有正负样本的80%,10%,10%;
9.2)将药物vd的向量
Figure BDA0003187216530000041
和靶标vt的向量
Figure BDA0003187216530000042
拼接作为特征向量,输入支持向量机模型,每当训练样本训练完一次,则利用验证集检测模型的接收者操作特征曲线面积AUCc,其中c∈N+是训练次数,并保留所述支持向量机模型;
9.3)判断是否达到最大的训练次数,如果达到最大的迭代次数,则停止训练,并根据验证集的精度AUCc选择最优的模型,在测试集上进行药物-蛋白相互作用预测,否则转至步骤9.2)。
与现有技术相比,本发明的有益效果是:
该发明方法首先探索发现生物异质网络中不同实体之间的多中心结构特征,构建不同类型的元路径;其次,通过设计基于路径检测的自监督学习机制,捕获了生物异质网络中全局结构和语义特征;同时,通过集成生物医学实体掩码任务来捕获网络节点之间的局部关联信息,进一步极大地促进了网络表征的能力,进而有效促进了药物重定位预测的精度。本发明利用局部-全局的自监督任务训练表征模型,降低了对生物医学标注数据的依赖,更加符合生物医药的实际应用场景。
附图说明
图1为基于自监督图表征学习的药物重定位预测方法流程图;
图2为基于自监督图表征学习的药物重定位预测方法在药物数据集NeoDTI-Net和deepDR-Net的预测结果。
具体实施方式
下面结合附图对本发明进一步说明。
图1给出了本发明实施例提出的一种基于自监督图表征学习的药物重定位预测方法流程图。
本实施以药物数据集NeoDTI-Net和deepDR-Net为实施例,一种基于自监督图表征学习的药物重定位预测方法,其中包含以下步骤:
1)参数初始化,包括元路径最大长度L,表征向量维度dim,掩码序列比率k%,掩码序列被特殊字符<MASK>替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p′∈(0,1-p);本实施例中,参数的取值的限定,包括元路径最大长度L=4,表征向量维度dim=768,掩码序列比率k%=15%,掩码序列被特殊字符<MASK>替换的概率p=0.8,掩码序列被语义文本中其他序列替换的概率p′=0.1;
2)对网络中的所有节点进行编号V={vi|i=1,2,...,num},其中num代表节点的总个数;
3)根据生物异质网络中不同实体之间的多中心结构特征,设计多种元路径;
4)在生物异质网络中,采用元路径引导的随机游走策略生成N条生物实体正样本序列
Figure BDA0003187216530000051
其中l∈[1,L]是正样本序列qn的长度;
5)随机替换正样本序列
Figure BDA0003187216530000052
中的一些节点,产生对应的负样本序列q′n
6)将所有的正样本序列qn和负样本序列q′n混乱,进行基于路径检测的自监督网络表征学习,获得包含每个节点vi全局信息的表征向量
Figure BDA0003187216530000053
其中
Figure BDA0003187216530000054
是反映节点vi全局信息的表征向量;
7)将所有的正样本序列qn随机掩码,进行基于生物实体掩码的自监督网络表征学习,获得包含每个节点vi局部信息的表征向量
Figure BDA0003187216530000055
其中
Figure BDA0003187216530000056
是反映节点vi局部信息的表征向量;
8)将包含生物实体全局信息的表征向量Z和包含生物实体局部信息的表征向量Z′拼接,获得包含局部-全局信息的表征向量
Figure BDA0003187216530000057
其中
Figure BDA0003187216530000058
是向量
Figure BDA0003187216530000059
和向量
Figure BDA00031872165300000510
的拼接向量;
9)基于支持向量机分类模型预测药物-靶标相互作用关系,并采用接收者操作特征曲线面积作为评价指标,进行评估模型的预测性能。
作为本发明的进一步改进,所述步骤5)通过以下步骤实现:
5.1)从正样本序列
Figure BDA00031872165300000511
中随机选取一个节点
Figure BDA00031872165300000512
同时从网络中随机选取一个节点vi
5.2)在生物网络中,如果节点vi
Figure BDA00031872165300000513
之间不存在关联关系,则利用节点vi代替正样本序列中节点
Figure BDA00031872165300000514
生成负样本序列q′n,否则转至步骤5.3);
5.3)在生物网络中,如果节点vi
Figure BDA00031872165300000515
之间不存在关联关系,则利用节点vi代替正样本序列中节点
Figure BDA00031872165300000516
生成负样本序列q′n,否则转至步骤5.1);
作为本发明的进一步改进,所述步骤6)通过以下步骤实现:
6.1)将所有的正样本序列qn和负样本序列q′n混乱,并且输入深层Transformer编码器获得生物实体的表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;
6.2)利用逻辑回归模型判断每条路径属于正样本序列还是负样本序列,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
6.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个节点vi的表征向量zvi,转至步骤9),否则转至步骤6.1);
作为本发明的进一步改进,所述步骤7)通过以下步骤实现:
7.1)从所有的生物实体正样本序列qn中选择k%个生物实体作为掩码节点,针对每个掩码节点,生成一个随机数rand∈[0,1],如果rand<p,则用特殊字符<MASK>替换所述掩码节点;如果p≤rand<p+p′,则从网络中随机选取一个节点用来替换所述掩码目标节点;如果p+p′≤rand<1,则保持所述掩码节点不变;
7.2)将这些掩码后的路径序列输入深层Transformer编码器获得生物实体的表征向量,利用逻辑回归模型预测掩码节点的原词,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
7.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出包含每个节点vi局部信息的表征向量
Figure BDA0003187216530000061
转至步骤8),否则转至步骤7.2);
作为本发明的进一步改进,所述步骤9)通过以下步骤实现:
9.1)计算生物异质网络中所有药物vd∈V和所有靶标vt∈V相互作用的个数Ninter,其中d,t∈{i=1,2,...,num}分别是网络中药物和靶标的编号,并从生物网络中随机选择Ninter对无相互作用的药物-靶标对作为负样本,将这些正样本药物-靶标对和负样本药物-靶标对混合打乱在一起,并且训练集,验证集和测试集的总量是所有正负样本的80%,10%,10%;
9.2)将药物vd的向量
Figure BDA0003187216530000062
和靶标vt的向量
Figure BDA0003187216530000063
拼接作为特征向量,输入支持向量机模型,每当训练样本训练完一次,则利用验证集检测模型的接收者操作特征曲线面积AUCc,其中c∈N+是训练次数,并保留所述支持向量机模型;
9.3)判断是否达到最大的训练次数,如果达到最大的迭代次数,则停止训练,并根据验证集的精度AUCc选择最优的模型,在测试集上进行药物-蛋白相互作用预测,否则转至步骤9.2)。
以药物数据集NeoDTI-Net和deepDR-Net为实施例,运用以上方法进行药物重定位预测,受试者工作特征曲线(AUC)为0.962和0.887,精确-召回率曲线面积(AUPR)为0.948和0.899,预测结果如图2所示。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (2)

1.一种基于自监督图表征学习的药物重定位预测方法,其特征在于,包括以下步骤:
1)参数初始化,包括元路径最大长度L,表征向量维度dim,掩码序列比率k%,掩码序列被特殊字符<MASK>替换的概率p∈(0,1),掩码序列被语义文本中其他序列替换的概率p′∈(0,1-p);
2)对生物异质网络中的所有节点进行编号V={vi|i=1,2,...,num},其中num代表节点的总个数;
3)根据生物异质网络中不同实体之间的多中心结构特征,设计多种元路径;
4)在生物异质网络中,采用元路径引导的随机游走策略生成N条生物实体正样本序列
Figure FDA0003844004760000011
其中l∈[1,L]是正样本序列qn的长度;
5)随机替换正样本序列
Figure FDA0003844004760000012
中的一些生物实体节点,产生对应的负样本序列q′n
所述步骤5)通过以下步骤实现:
5.1)从正样本序列
Figure FDA0003844004760000013
中随机选取一个生物实体节点
Figure FDA0003844004760000014
同时从网络中随机选取一个生物实体节点vi
5.2)在生物网络中,如果生物实体节点vi
Figure FDA0003844004760000015
之间不存在关联关系,则利用节点vi代替正样本序列中节点
Figure FDA0003844004760000016
生成负样本序列q′n,否则转至步骤5.3);
5.3)在生物网络中,如果生物实体节点vi
Figure FDA0003844004760000017
之间不存在关联关系,则利用节点vi代替正样本序列中节点
Figure FDA0003844004760000018
生成负样本序列q′n,否则转至步骤5.1);
6)将所有的正样本序列qn和负样本序列q′n混乱,进行基于路径检测的自监督网络表征学习,获得包含每个生物实体节点vi全局信息的表征向量
Figure FDA0003844004760000019
其中
Figure FDA00038440047600000110
是反映生物实体节点vi全局信息的表征向量;
所述步骤6)通过以下步骤实现:
6.1)将所有的正样本序列qn和负样本序列q′n混乱,并且输入深层Transformer编码器获得生物实体的表征向量,其中每层的Transformer模型都包含同样的多头自注意力机制和全连接网络;
6.2)利用逻辑回归模型判断每条路径属于正样本序列还是负样本序列,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
6.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出每个生物实体节点vi的表征向量
Figure FDA00038440047600000111
转至步骤9),否则转至步骤6.1);
7)将所有的正样本序列qn随机掩码,进行基于生物实体掩码的自监督网络表征学习,获得包含每个节点vi局部信息的表征向量
Figure FDA0003844004760000021
其中
Figure FDA0003844004760000022
是反映节点vi局部信息的表征向量;
所述步骤7)通过以下步骤实现:
7.1)从所有的生物实体正样本序列qn中选择k%个生物实体作为掩码节点,针对每个掩码节点,生成一个随机数rand∈[0,1],如果rand<p,则用特殊字符<MASK>替换所述掩码节点;如果p≤rand<p+p′,则从网络中随机选取一个节点用来替换所述掩码节点;如果p+p′≤rand<1,则保持所述掩码节点不变;
7.2)将这些掩码后的路径序列输入深层Transformer编码器获得生物实体的表征向量,利用逻辑回归模型预测掩码节点的原词,并且利用交叉熵计算损失函数,利用Adam优化器进行模型优化;
7.3)判断是否达到最大的训练次数,如果达到最大迭代次数,则输出包含每个节点vi局部信息的表征向量
Figure FDA0003844004760000023
转至步骤8),否则转至步骤7.2);
8)将包含生物实体全局信息的表征向量Z和包含生物实体局部信息的表征向量Z′拼接,获得包含局部-全局信息的表征向量
Figure FDA0003844004760000024
其中
Figure FDA0003844004760000025
是向量
Figure FDA0003844004760000026
和向量
Figure FDA0003844004760000027
的拼接向量;
9)基于支持向量机分类模型预测药物-靶标相互作用关系,并采用接收者操作特征曲线面积作为评价指标,进行评估模型的预测性能;
所述步骤9)通过以下步骤实现:
9.1)计算生物异质网络中所有药物vd∈V和所有靶标vt∈V相互作用的个数Ninter,其中d,t∈{i=1,2,...,num}分别是网络中药物和靶标的编号,并从生物网络中随机选择Ninter对无相互作用的药物-靶标对作为负样本,将这些正样本药物-靶标对和负样本药物-靶标对混合打乱在一起,并且训练集,验证集和测试集的总量是所有正负样本的80%,10%,10%;
9.2)将药物vd的向量
Figure FDA0003844004760000028
和靶标vt的向量
Figure FDA0003844004760000029
拼接作为特征向量,输入支持向量机模型,每当训练样本训练完一次,则利用验证集检测模型的接收者操作特征曲线面积AUCc,其中c∈N+是训练次数,并保留所述支持向量机模型;
9.3)判断是否达到最大的训练次数,如果达到最大的迭代次数,则停止训练,并根据验证集的精度AUCc选择最优的模型,在测试集上进行药物-蛋白相互作用预测,否则转至步骤9.2)。
2.如权利要求1所述的一种基于自监督图表征学习的药物重定位预测方法,其特征在于,所述步骤1)中元路径最大长度L=4,表征向量维度dim=768,掩码序列比率k%=15%,掩码序列被特殊字符<MASK>替换的概率p=0.8,掩码序列被语义文本中其他序列替换的概率p′=0.1。
CN202110865026.2A 2021-07-29 2021-07-29 一种基于自监督图表征学习的药物重定位预测方法 Active CN113611356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110865026.2A CN113611356B (zh) 2021-07-29 2021-07-29 一种基于自监督图表征学习的药物重定位预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110865026.2A CN113611356B (zh) 2021-07-29 2021-07-29 一种基于自监督图表征学习的药物重定位预测方法

Publications (2)

Publication Number Publication Date
CN113611356A CN113611356A (zh) 2021-11-05
CN113611356B true CN113611356B (zh) 2023-04-07

Family

ID=78338608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110865026.2A Active CN113611356B (zh) 2021-07-29 2021-07-29 一种基于自监督图表征学习的药物重定位预测方法

Country Status (1)

Country Link
CN (1) CN113611356B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114023464B (zh) * 2021-11-08 2022-08-09 东北林业大学 基于有监督的协同图对比学习的药物-靶标相互作用预测方法
CN114334038B (zh) * 2021-12-31 2024-05-14 杭州师范大学 一种基于异质网络嵌入模型的疾病药物预测方法
CN116805513B (zh) * 2023-08-23 2023-10-31 成都信息工程大学 一种基于异构图Transformer框架的癌症驱动基因预测与分析方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN112308326B (zh) * 2020-11-05 2022-12-13 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法

Also Published As

Publication number Publication date
CN113611356A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
CN113611356B (zh) 一种基于自监督图表征学习的药物重定位预测方法
Qian et al. Translating Embeddings for Knowledge Graph Completion with Relation Attention Mechanism.
CN112131404A (zh) 一种四险一金领域知识图谱中实体对齐方法
CN107220337B (zh) 一种基于混合迁移网络的跨媒体检索方法
CN113779264B (zh) 基于专利供需知识图谱的交易推荐方法
CN112633478A (zh) 一种基于本体语义的图卷积网络学习模型的构建
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN110264372B (zh) 一种基于节点表示的主题社团发现方法
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
Yang et al. An improved genetic algorithm and its application in neural network adversarial attack
Zha et al. Deep position-sensitive tracking
CN116340524A (zh) 一种基于关系自适应网络的小样本时态知识图谱补全方法
Shen et al. Entity alignment with adaptive margin learning knowledge graph embedding
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Li et al. Multi-task deep learning model based on hierarchical relations of address elements for semantic address matching
Zia et al. A generative adversarial network for single and multi-hop distributional knowledge base completion
Zhang et al. Motif-driven contrastive learning of graph representations
Liao et al. Time-sync comments denoising via graph convolutional and contextual encoding
Aung et al. Modularity based ABC algorithm for detecting communities in complex networks
Chen et al. Community Detection Based on DeepWalk Model in Large‐Scale Networks
Jiang et al. Domain-conditioned normalization for test-time domain generalization
Cui et al. Deep hashing with multi-central ranking loss for multi-label image retrieval
Hu et al. A2cmhne: attention-aware collaborative multimodal heterogeneous network embedding
Akkas et al. GNNShap: Scalable and Accurate GNN Explanation using Shapley Values
Yang et al. Bottom-up and top-down graph pooling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant