CN112131399A - 基于知识图谱的老药新用分析方法和系统 - Google Patents

基于知识图谱的老药新用分析方法和系统 Download PDF

Info

Publication number
CN112131399A
CN112131399A CN202010921211.4A CN202010921211A CN112131399A CN 112131399 A CN112131399 A CN 112131399A CN 202010921211 A CN202010921211 A CN 202010921211A CN 112131399 A CN112131399 A CN 112131399A
Authority
CN
China
Prior art keywords
entities
entity
disease
model
relationships
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010921211.4A
Other languages
English (en)
Inventor
牛张明
郑双佳
饶家华
宋颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou derizhi Pharmaceutical Technology Co.,Ltd.
Original Assignee
Wade Menpes Smith
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wade Menpes Smith filed Critical Wade Menpes Smith
Priority to CN202010921211.4A priority Critical patent/CN112131399A/zh
Publication of CN112131399A publication Critical patent/CN112131399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的老药新用分析方法,包括:获取知识图谱;提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;确定一个或多个候选机器学习模型;对候选机器学习模型进行训练;对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。

Description

基于知识图谱的老药新用分析方法和系统
技术领域
本发明涉及化学信息学和生物信息学领域。具体而言,本发明涉及基于知识图谱的老药新用分析方法和系统。
背景技术
生物医学知识图谱通常是一个多关系的有向图,其中结点代表实体,边代表关系,这种图结构的知识库已经成为具有巨大价值的资源,具有潜在的应用价值,有助于精确医学和临床决策支持,在医疗保健实践和研究中起着越来越重要的作用。但是,由于生物医学数据构建的知识图谱通常庞大且嘈杂以及下游任务的复杂性和高知识要求,在构建和应用方面仍然存在许多挑战。
实体间链接预测任务,是目前生物医疗知识图谱应用最为广泛的一个下游任务,可用于多个领域的分析研究,如通过药物与疾病的链接预测可以研究制药领域中老药新用的问题。尽管生物医疗知识图谱的出现为这些研究课题提供了一种新的研究数据,但是由于生物医学数据构建的知识图谱通常庞大且嘈杂,难以有效地学习知识图谱中所蕴含的大量信息,包括低阶或高阶的邻居信息以及有向的关系信息,因此这些下游任务的实验效果往往不尽人意,未能达到预期的效果。
因此,近年来研究人员一直致力于如何充分有效地学习知识图谱所蕴含的大量知识,提升知识图谱下游任务的实验效果,以得到预期的实验效果。而随着深度学习方法的出现,机器学习越来越受到研究人员的关注,数据驱动分析已成为许多研究的常规程序。在许多这样的研究应用中,虽然机器学习方法在生物医学知识图谱应用中的使用仍然受到实体的特征属性缺乏的限制,但依然显示出了其与传统方法竞争甚至超越传统方法的强大潜力。
当前计算机领域对于知识图谱的应用已经相当广泛,常见于搜索引擎、推荐系统,问答系统,而其中最为重要的技术则是知识表示学习,通过以深度学习为代表的学习技术,将实体的信息表示为稠密低维的实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂关联,通常有基于翻译模型(Trans系列)的知识表示学习,基于矩阵分解模型的知识表示学习,例如RESACL,以及基于神经网络的模型的知识表示学习。这些知识表示学习方法,都是通过一定的建模方法,将实体和向量表示在低维稠密向量空间中,然后进行计算和推理。因此,尽管它们已经成功应用于生物医学领域之外的问题解答,信息提取和命名实体歧义消除等知识图谱的任务上,但它们在生物医学知识图谱应用中的使用仍然缺乏实验验证。
发明内容
为解决上述问题,本发明采用利用公开的任意的知识图谱数据集,利用背景知识为所有疾病、药物和基因实体提供具有生物化学意义的特征属性,训练得到一个有效的最优的图嵌入学习模型,充分学习知识图谱中实体间的高阶或低阶的邻居信息以及有向的关系信息,并利用该模型对特定的疾病进行老药新用的预测,得到分数最高的排名前十的可能存在关系的药物,并通过大量的文献证明了该预测结果是有效的和可靠的,为老药新用在知识图谱中的研究提供了一种切实有效的新的分析方法和技术。
本发明的实施例利用图嵌入方法对生物医疗知识图谱中老药新用下游任务的探索。本发明的方法适用于任意知识图谱,可通过该方法技术利用任意的知识图谱数据集研究某些疾病的老药新用效果,可达到预期的实验结果。
根据本发明的一个方面,提供一种基于知识图谱的老药新用分析方法,包括:
获取知识图谱;
提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;
将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;
确定一个或多个候选机器学习模型;
对候选机器学习模型进行训练;
对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;
应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。
在本发明的一个实施例中,疾病实体、药物实体、基因实体之间的关系包括:化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系,疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系。
在本发明的一个实施例中,基于知识图谱的老药新用分析方法还包括:对于疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系,以一个三元组<头实体,关系,尾实体>为一个样本,将所有样本构建为三元组数据集,将三元组数据集随机划分成训练集、验证集和测试集,训练集用于训练深度学习模型,验证集在训练过程中验证模型的表现情况,测试集作为独立验证集,最终评判模型的表现情况。
在本发明的一个实施例中,对候选机器学习模型进行验证并比较,挑选出最优机器学习模型包括:选择指标Hit@K和Mean Rank,在测试过程中,对于一组三元组,将头实体或尾实体替换成任意一种其他的实体,共n-1个,保持另一个实体以及关系不变,只变其中一个实体,这样得到了n-1个新的关系三元组,然后对这些三元组计算实体关系距离,将这n-1个三元组按照距离从小到大排列,从而计算Hit@K以及Mean Rank,从第一个到第K个是否能够遇到真实的实体,遇到了则为命中,Hit@K代表了在前K个命中的比率,而Mean Rank是计算在测试集里,平均到第多少个才能命中正确的结果。
在本发明的一个实施例中,一个或多个候选机器学习模型包括现有的模型和新建立的模型。
在本发明的一个实施例中,新建立的模型是图注意力机制的图嵌入学习HRGAT模型,其算法流程如下:
Figure BDA0002666797350000031
bijk=LeakyReLU(W2cijk)
其中yi与yj为知识图谱中实体i,j的特征向量,rk为知识图谱中实体i,j之间的关系的特征向量表示,W1与W2为机器学习模型中训练的参数,||为连接操作符,cijk为该神经网络学习后得到的三元组<i,j,k>的特征向量,而bijk则是cijk经过激活函数之后得到的向量矩阵;
根据学习到的bijk得到相对注意力值αijk
Figure BDA0002666797350000041
其中
Figure BDA0002666797350000042
为实体i的邻居实体,
Figure BDA0002666797350000043
为实体i,n之间的关系r,binr为三元组<i,n,k>的向量矩阵;
得到更新之后的实体的向量表示:
Figure BDA0002666797350000044
其中m为多头注意力机制的数量,||为连接操作符。
在本发明的一个实施例中,应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体包括:应用最优模型对特定疾病进行预测,分别预测得到打分最高的十个可能与该疾病相关的药物实体;这些药物实体与疾病的关系,是属于未曾出现在所用的数据集中的,是该模型方法对这两种疾病可能存在的关系的推测结果。
根据本发明的另一个实施例中,提供一种基于知识图谱的老药新用分析系统,包括:
数据预处理单元,所述数据预处理单元获取知识图谱,提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;
量化单元,所述量化单元将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;
模型确定单元,所述模型确定单元确定一个或多个候选机器学习模型、对候选机器学习模型进行训练、对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;
预测单元,所述预测单元应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。
在本发明的另一个实施例中,一个或多个候选机器学习模型利用实体特征向量以及关系特征向量,进行打分预测,公式可概括为:
Figure BDA0002666797350000051
其中,(i,j,k)为知识图谱中实体i、实体j和关系k的一个三元组,S(i,j,k)为该三元组在某一模型下的预测得分,f为不同模型的映射函数,
Figure BDA0002666797350000052
为实体特征向量,
Figure BDA0002666797350000053
为关系特征向量。
在本发明的另一个实施例中,对于疾病实体,所述量化单元利用深度学习模型BioBERT对疾病名称进行语义分析,得到疾病实体的语义特征属性;对于药物实体,所述量化单元利用药物实体对应的分子SMILES序列,通过开源化学信息工具RDKit获得该药物的化学性质、化学描述符以及分子指纹等特征属性;对于基因实体,所述量化单元利用公开数据库Connectivity Map和BioGPS获取基因实体在不同组织或样本上的基因表达量作为该基因实体的特征属性,对于关系,所述量化单元使用独热编码的方式对所有关系进行编码,以达到向量化所有关系,并加以区分的目的。
附图说明
为了进一步阐明本发明的各实施例的以上和其它优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
图1示出根据本发明的一个实施例的基于知识图谱的老药新用分析方法的流程图。
图2基于图注意力机制的图嵌入学习HRGAT模型200的算法流程图。
图3示出根据本发明的一个实施例的基于知识图谱的老药新用分析系统。
具体实施方式
在以下的描述中,参考各实施例对本发明进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法、材料或组件一起实施各实施例。在其它情形中,未示出或未详细描述公知的结构、材料或操作以免使本发明的各实施例的诸方面晦涩。类似地,为了解释的目的,阐述了特定数量、材料和配置,以便提供对本发明的实施例的全面理解。然而,本发明可在没有特定细节的情况下实施。此外,应理解附图中示出的各实施例是说明性表示且不一定按比例绘制。
在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
本发明为针对老药新用在知识图谱中的研究的一种切实有效的分析方法和流程技术,包括步骤:公开数据集HetioNet的预处理,从中挑选出疾病、药物和基因三种类型的实体及他们之间的所有关系,以一个三元组<头实体,关系,尾实体>为一个样本,将图谱中所有三元组随机划分成训练集、验证集和测试集。对于数据集中的每一个实体和每一种关系,利用背景知识为所有疾病、药物和基因实体提供具有生物化学意义的特征属性,从而将知识图谱中的实体和关系分别向量化,以输入到机器学习模型中进行训练。将处理好的数据集加载到机器学习模型中,并通过不同评价指标对机器学习模型进行验证并比较,进而从中挑选出表现最好的机器学习模型。最终所挑选的模型为本发明提出的基于图注意力机制的图嵌入学习模型,该模型通过扩展图注意力机制方法,捕获所给定实体的高阶邻域中的实体和关系特征。最后将训练好最优的图嵌入学习模型用于老药新用下游实验中,并通过广泛的文献证据验证模型的预测结果,证明该流程技术可以得到有效的、可靠的预测结果,为老药新用在知识图谱中的研究提供一种切实有效的新的分析方法和技术。
图1示出根据本发明的一个实施例的基于知识图谱的老药新用分析方法的流程图。
首先,在步骤110,获取知识图谱。
在本发明的一个实施例中,本发明可以利用公开的任意的知识图谱数据集。例如,本发明的实施例在这里所使用的生物医疗知识图谱为HetioNet,来源于公开发表的文献"Systematic integration of biomedical knowledge prioritizes drugs forrepurposing."Elife 6(2017):e26726.t。
在步骤120,提取知识图谱中所有疾病实体、药物实体、基因实体以及它们之间的关系。
在本发明的一个实施例中,从公开知识图谱HetioNet中提取所有的疾病,药物、基因实体以及之间的关系:化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系,疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系,共计22,634个实体和562,106条关系,提取后得到的数据集分布及统计如下:
数据集名称 HetioNet
药物实体数量 1552
基因实体数量 20,945
疾病实体数量 137
关系CbG数量 11,571
关系CdG数量 21,102
关系CpD数量 390
关系CtD数量 755
关系CuG数量 18,756
关系DaG数量 12,623
关系DdG数量 7623
关系DrD数量 543
关系DuG数量 7731
关系GcG数量 61,690
关系GiG数量 147,164
关系GrG数量 265,672
表1知识图谱的基本信息
以一个三元组<头实体,关系,尾实体>为一个样本,即该数据集可构成具有562,106个样本的三元组数据集,将这些数据集随机划分成训练集(Training set)、验证集(Validation set)和测试集(Test set),划分比例为训练集:验证集:测试集=8:1:1,可通过控制随机种子,重现之前的划分。训练集用于训练深度学习模型,验证集在训练过程中验证模型的表现情况,而测试集作为独立验证集,最终评判模型的表现情况。具体来讲,需要保证如下等式成立:
Figure BDA0002666797350000081
Figure BDA0002666797350000082
其中Φ表示空集。
因此,在统一的测试集上可以比较不同模型的表现情况,从而选出最优的模型以进行下一步的实验分析。
在步骤130,将所有实体和关系向量化。
在本发明的实施例中,在加载到机器学习模型之前,对于数据集中的所有实体和关系,发明人做了统一的向量化处理。对于数据集中的所有实体,包括疾病、药物和基因实体,通常这些结点以文本形式表示,例如疾病实体使用疾病名称表征,基因实体用标准基因名表征,药物实体用化合物的名称进行表征,而在输入到机器学习模型之前,需要将这些实体进行向量化。
一方面,对于疾病实体,利用深度学习模型BioBERT对疾病名称进行语义分析,得到疾病实体的语义特征属性;对于药物实体,利用药物实体对应的分子SMILES序列,通过开源化学信息工具RDKit获得该药物的化学性质、化学描述符以及分子指纹等特征属性;对于基因实体,利用公开数据库Connectivity Map和BioGPS获取基因实体在不同组织或样本上的基因表达量作为该基因实体的特征属性。例如阿尔茨海默症,通常以“Alzheimer’sdisease”表示,通过BioBert预训练模型向量化之后可得到其对应的特征向量
Figure BDA0002666797350000083
另一方面,对于数据集中的所有关系类型,使用独热编码的方式对所有类型的关系进行编码,以达到向量化所有关系类型,并加以区分的目的。例如,关系CbG用特征向量
Figure BDA0002666797350000084
最终得以加载到机器学习模型中。
在步骤140,确定一个或多个候选机器学习模型。
在给定知识图谱中所有实体的特征矩阵
Figure BDA0002666797350000085
和所有关系特征矩阵
Figure BDA0002666797350000086
情况下,机器学习模型可利用实体信息以及关系信息,对每一个三元组进行打分预测,公式可概括为:
Figure BDA0002666797350000091
其中,(i,j,k)为知识图谱中其中一个三元组,S(i,j,k)为该三元组在某一模型下的预测得分,f为不同模型的映射函数。
在步骤150,对候选机器学习模型进行训练。训练集中的实体和关系的向量加载到候选机器学习模型进行训练。
在步骤160,对候选机器学习模型进行验证并比较,挑选出最优机器学习模型。通过不同评价指标对候选机器学习模型进行验证并比较,进而从中挑选出表现最好的机器学习模型。
通过对数据集中每一个样本进行训练、预测,并通过特定的损失函数(基于距离的打分函数或者基于语义匹配的打分函数)得到最终训练好的机器学习模型,在独立的统一的测试集上进行预测、比较,在不同的评价指标下得分最高的模型即我们要挑选的最优模型。具体的模型建立、训练、测试和评价过程将在后续集合具体实施例进行详细描述。
在本发明的实施例中,一个或多个候选机器学习模型可以选择使用新建立的模型,也可以选择使用多种现有的模型。
本发明的实施例可以选择以下现有模型作为候选机器学习模型:HetioNet、TransE、TransR、RESCAL、ComplE、Distmult、ConvKB、RGCN、RGCN-Filter。例如,对于TransE模型中映射函数为
Figure BDA0002666797350000092
L1和L2分别为L1范数和L2范数。
本发明的另一个实施例建立一种基于图注意力机制的图嵌入学习HRGAT模型作为一个候选机器学习模型。下面详细描述HRGAT模型的具体结构和算法流程。
图2基于图注意力机制的图嵌入学习HRGAT模型200的算法流程图。HRGAT模型200以图注意力网络(GAT)为基础,输入为知识图谱中所有实体的向量矩阵210,输出的是通过聚集邻域实体的信息进行更新后的向量r。在这里将知识图谱中每一个实体的所有邻居实体的信息赋予不同的权重来从邻居实体收集信息,并且可以根据邻居节点不同程度的重要性分配不同权重。但仅仅是通过GAT块更新实体的嵌入是不够的,因为它忽略了关系(边)的特征,而这也是知识图谱中最为重要的一部分。基于这一点,该模型提出了一种新的嵌入方法,在注意力机制中集成关系和邻居节点特征。模型算法的整体流程图如图2,具体的公式推导如下。
在给定知识图谱中所有实体的向量矩阵
Figure BDA0002666797350000101
和关系的向量矩阵
Figure BDA0002666797350000102
情况下,应用多头注意力机制的GAT公式从邻居实体收集信息,也需要学习实体间关系的特征:
Figure BDA0002666797350000103
bijk=LeakyReLU(W2cijk) (4)
其中yi与yj为知识图谱中实体i,j的特征向量,rk为知识图谱中实体i,j之间的关系的特征向量表示,W1与W2为机器学习模型中训练的参数,||为连接操作符,cijk为该神经网络学习后得到的三元组<i,j,k>的特征向量,而bijk则是cijk经过激活函数之后得到的向量矩阵。
根据学习到的bijk得到相对注意力值(relative attention values)αijk
Figure BDA0002666797350000104
其中
Figure BDA0002666797350000105
为实体i的邻居实体,
Figure BDA0002666797350000106
为实体i,n之间的关系r,binr为三元组<i,n,k>的向量矩阵。
可以得到多头注意力更新之后的实体的向量表示:
Figure BDA0002666797350000107
其中m为多头注意力机制的数量,||为连接操作符。
最终可以学习得到更新后的结点、关系的嵌入表示,并采用模型ConvKB作为解码器,完成解码、预测的过程。其中解码器的公式如下:
Figure BDA0002666797350000108
其中,ωm代表第m个卷积滤波器,W为模型训练的参数,
Figure BDA0002666797350000109
代表一个三元组(ijk)在解码器下的表征,
Figure BDA00026667973500001010
则是解码器下该三元组最终的得分。
训练过程中,使用的损失函数为
Figure BDA00026667973500001011
Figure BDA00026667973500001012
其中
Figure BDA00026667973500001013
γ>0为Hinge损失函数的参数,S是有效的三元组,S′是无效的三元组。
Figure BDA0002666797350000111
其中
Figure BDA0002666797350000112
为解码器的输出;如果
Figure BDA0002666797350000113
Figure BDA0002666797350000114
否则
Figure BDA0002666797350000115
HRGAT模型中主要关注的是如下的几个超参数,其他参数可参考实际代码。
超参数 意义
Initial learning rate 模型在训练过程中的初始学习率
Embeddings dimention of the final layer 模型中最后一层维度大小
表2模型主要调整的超参数
在步骤160中,评估所使用的指标主要为Hit@K和Mean Rank,在过滤的条件下评估这个模型,即在测试过程中,对于一组三元组(关系及实体),本发明的实施例将头实体或尾实体替换成任意一种其他的实体(共n-1个,保持另一个实体以及关系不变,只变其中一个实体),这样得到了(n-1)个新的关系三元组,然后对这些三元组计算实体关系距离,将这n-1个三元组按照距离从小到大排列,从而计算Hit@K以及Mean Rank,从第一个到第K个是否能够遇到真实的实体,遇到了则为命中,Hit@K代表了在前K个命中的比率,而Mean Rank是计算在测试集里,平均到第多少个才能命中正确的结果。
对于本发明的实施例构建的HRGAT模型以及现有的HetioNet模型、TransE模型、TransR模型、RESCAL模型、ComplE模型、Distmult模型、ConvKB模型、RGCN模型、RGCN-Filter模型进行验证并比较,比较结果如下表3所示。
Figure BDA0002666797350000116
Figure BDA0002666797350000121
表3模型对比实验结果
从表3可以看出HRGAT模型为该流程中发现的表现最好的模型,并将其运用到后续的实验分析研究中。
接下来,在步骤170,应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。
在本发明的实施例中,得到最优的训练好的模型之后,将其应用在老药新用这一下游实验中,首先应用该模型对阿尔茨海默症和帕金森症进行预测,分别预测得到打分最高的十个可能与该疾病相关的药物实体;这些药物实体与疾病的关系,是属于未曾出现在所用的数据集中的,是该模型方法对这两种疾病可能存在的关系的推测结果,可作为临床试验的参考结果。
Figure BDA0002666797350000122
表格4示出分数最高的可能与阿尔茨海默症相关的十种药物及其得分
Figure BDA0002666797350000131
因此,对于这些预测结果,通过查找大量的实验相关的文献,研究这些预测结果的有效性和可靠性,得到最终的老药新用的实验效果,可证明该方法有效地提升了下游实验的预测效果,为老药新用在知识图谱中的研究提供了一种切实有效的新的分析方法和技术。
本发明可以利用公开的任意的知识图谱数据集,利用背景知识为所有疾病、药物和基因实体提供具有生物化学意义的特征属性,训练得到一个有效的最优的图嵌入学习模型,充分学习知识图谱中实体间的高阶或低阶的邻居信息以及有向的关系信息,并利用该模型对特定的疾病进行老药新用的预测,得到分数最高的排名前十的可能存在关系的药物,并通过大量的文献证明了该预测结果是有效的和可靠的,为老药新用在知识图谱中的研究提供了一种切实有效的新的分析方法和技术。
可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品,这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时,可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,可以作为计算机程序产品下载各实施例,其中,可以经由通信链路(例如,调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如,服务器)传输给请求计算机(例如,客户机)。因此,在此所使用的机器可读介质可以包括这样的载波,但对此不作要求。
图3示出根据本发明的一个实施例的基于知识图谱的老药新用分析系统。如图3所示,该系统包括数据预处理单元310、量化单元320、模型确定单元330以及预测单元340。
数据预处理单元310获取知识图谱并提取知识图谱中所有疾病实体、药物实体、基因实体以及它们之间的关系。
在本发明的一个实施例中,本发明可以利用公开的任意的知识图谱数据集。例如,本发明的实施例在这里所使用的生物医疗知识图谱为HetioNet,来源于公开发表的文献"Systematic integration of biomedical knowledge prioritizes drugs forrepurposing."Elife 6(2017):e26726.t。
在本发明的一个实施例中,数据预处理单元310从公开知识图谱HetioNet中提取所有的疾病,药物、基因实体以及之间的关系:化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系,疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系,共计22,634个实体和562,106条关系。
以一个三元组<头实体,关系,尾实体>为一个样本,即该数据集可构成具有562,106个样本的三元组数据集,数据预处理单元310可以将这些数据集随机划分成训练集(Training set)、验证集(Validation set)和测试集(Test set),划分比例为训练集:验证集:测试集=8:1:1,可通过控制随机种子,重现之前的划分。训练集用于训练深度学习模型,验证集在训练过程中验证模型的表现情况,而测试集作为独立验证集,最终评判模型的表现情况。具体来讲,需要保证如下等式成立:
Figure BDA0002666797350000151
Figure BDA0002666797350000152
其中Φ表示空集。
因此,在统一的测试集上可以比较不同模型的表现情况,从而选出最优的模型以进行下一步的实验分析。
量化单元320将所有实体和关系向量化。
在本发明的实施例中,在加载到机器学习模型之前,对于数据集中的所有实体和关系,通过量化单元320做了统一的向量化处理。对于数据集中的所有实体,包括疾病、药物和基因实体,通常这些结点以文本形式表示,例如疾病实体使用疾病名称表征,基因实体用标准基因名表征,药物实体用化合物的名称进行表征,而在输入到机器学习模型之前,需要将这些实体进行向量化。
一方面,对于疾病实体,量化单元320利用深度学习模型BioBERT对疾病名称进行语义分析,得到疾病实体的语义特征属性;对于药物实体,量化单元320利用药物实体对应的分子SMILES序列,通过开源化学信息工具RDKit获得该药物的化学性质、化学描述符以及分子指纹等特征属性;对于基因实体,量化单元320利用公开数据库Connectivity Map和BioGPS获取基因实体在不同组织或样本上的基因表达量作为该基因实体的特征属性。例如阿尔茨海默症,通常以“Alzheimer’s disease”表示,量化单元320通过BioBert预训练模型向量化之后可得到其对应的特征向量
Figure BDA0002666797350000153
另一方面,对于数据集中的所有关系类型,量化单元320使用独热编码的方式对所有类型的关系进行编码,以达到向量化所有关系类型,并加以区分的目的。例如,关系CbG用向量
Figure BDA0002666797350000154
最终得以加载到机器学习模型中。
模型确定单元330确定一个或多个候选机器学习模型,对候选机器学习模型进行训练、验证和比较,并从中挑选出最优机器学习模型。
在给定知识图谱中所有实体的特征属性矩阵
Figure BDA0002666797350000161
和所有关系类型结点特征属性
Figure BDA0002666797350000162
情况下,机器学习模型可利用实体信息以及关系信息,对每一个三元组进行打分预测,公式可概括为:
Figure BDA0002666797350000163
其中,(i,j,k)为知识图谱中实体i、实体j和关系k的一个三元组,S(i,j,k)为该三元组在某一模型下的预测得分,f为不同模型的映射函数。
通过不同评价指标对候选机器学习模型进行验证并比较,进而从中挑选出表现最好的机器学习模型。
通过对数据集中每一个样本进行训练、预测,并通过特定的损失函数(基于距离的打分函数或者基于语义匹配的打分函数)得到最终训练好的机器学习模型,在独立的统一的测试集上进行预测、比较,在不同的评价指标下得分最高的模型即我们要挑选的最优模型。具体的模型建立、训练、测试和评价过程可以参见上文中实施例详细描述的过程。
预测单元340利用模型确定单元330所挑选出的机器学习模型,针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。
在本发明的实施例中,得到最优的训练好的模型之后,将其应用在老药新用这一下游实验中,首先应用该模型对阿尔茨海默症和帕金森症进行预测,分别预测得到打分最高的十个可能与该疾病相关的药物实体;这些药物实体与疾病的关系,是属于未曾出现在所用的数据集中的,是该模型方法对这两种疾病可能存在的关系的推测结果,可作为临床试验的参考结果。
尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。

Claims (10)

1.一种基于知识图谱的老药新用分析方法,包括:
获取知识图谱;
提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;
将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;
确定一个或多个候选机器学习模型;
对候选机器学习模型进行训练;
对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;
应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。
2.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,疾病实体、药物实体、基因实体之间的关系包括:化合物结合基因表达CbG关系、化合物下调基因表达CdG关系、化合物减轻疾病CpD关系、化合物之间相似CrC关系、化合物治疗疾病CtD关系、化合物上调基因表达CuG关系、疾病与基因相关联DaG关系、疾病下调基因表达DdG关系、疾病之间相似DrD关系,疾病上调基因表达DuG关系、基因之间共变GcG关系、基因之间相关联GiG关系、基因调节基因GrG关系。
3.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,还包括:对于疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系,以一个三元组<头实体,关系,尾实体>为一个样本,将所有样本构建为三元组数据集,将三元组数据集随机划分成训练集、验证集和测试集,训练集用于训练深度学习模型,验证集在训练过程中验证模型的表现情况,测试集作为独立验证集,最终评判模型的表现情况。
4.如权利要求3所述的基于知识图谱的老药新用分析方法,其特征在于,对候选机器学习模型进行验证并比较,挑选出最优机器学习模型包括:选择指标Hit@K和Mean Rank,在测试过程中,对于一组三元组,将头实体或尾实体替换成任意一种其他的实体,共n-1个,保持另一个实体以及关系不变,只变其中一个实体,这样得到了n-1个新的关系三元组,然后对这些三元组计算实体关系距离,将这n-1个三元组按照距离从小到大排列,从而计算Hit@K以及Mean Rank,从第一个到第K个是否能够遇到真实的实体,遇到了则为命中,Hit@K代表了在前K个命中的比率,而Mean Rank是计算在测试集里,平均到第多少个才能命中正确的结果。
5.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,所述一个或多个候选机器学习模型包括现有的模型和新建立的模型。
6.如权利要求5所述的基于知识图谱的老药新用分析方法,其特征在于,所述新建立的模型是图注意力机制的图嵌入学习HRGAT模型,其算法流程如下:
Figure FDA0002666797340000021
bijk=LeakyReLU(W2cijk)
其中yi与yj为知识图谱中实体i,j的特征向量,rk为知识图谱中实体i,j之间的关系的特征向量表示,W1与W2为机器学习模型中训练的参数,||为连接操作符,cijk为该神经网络学习后得到的三元组<i,j,k>的特征向量,而bijk则是cijk经过激活函数之后得到的向量矩阵;
根据学习到的bijk得到相对注意力值αijk
Figure FDA0002666797340000022
其中
Figure FDA0002666797340000023
为实体i的邻居实体,
Figure FDA0002666797340000024
为实体i,n之间的关系r,binr为三元组<i,n,k>的向量矩阵;
得到更新之后的实体的向量表示:
Figure FDA0002666797340000025
其中m为多头注意力机制的数量,||为连接操作符。
7.如权利要求1所述的基于知识图谱的老药新用分析方法,其特征在于,应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体包括:应用最优模型对特定疾病进行预测,分别预测得到打分最高的十个可能与该疾病相关的药物实体;这些药物实体与疾病的关系,是属于未曾出现在所用的数据集中的,是该模型方法对这两种疾病可能存在的关系的推测结果。
8.一种基于知识图谱的老药新用分析系统,包括:
数据预处理单元,所述数据预处理单元获取知识图谱,提取知识图谱中所有疾病实体、药物实体、基因实体以及疾病实体、药物实体、基因实体之间的关系;
量化单元,所述量化单元将所有实体和关系向量化,得到每个实体的特征向量和关系的特征向量;
模型确定单元,所述模型确定单元确定一个或多个候选机器学习模型、对候选机器学习模型进行训练、对候选机器学习模型进行验证并比较,挑选出最优机器学习模型;
预测单元,所述预测单元应用最优模型针对特定疾病进行预测,获得多个与该特定疾病相关的药物实体。
9.如权利要求8所述的基于知识图谱的老药新用分析系统,其特征在于,所述一个或多个候选机器学习模型利用实体特征向量以及关系特征向量,进行打分预测,公式可概括为:
Figure FDA0002666797340000031
其中,(i,j,k)为知识图谱中实体i、实体j和关系k的一个三元组,S(i,j,k)为该三元组在某一模型下的预测得分,f为不同模型的映射函数,
Figure FDA0002666797340000032
为实体特征向量,
Figure FDA0002666797340000033
为关系特征向量。
10.如权利要求8所述的基于知识图谱的老药新用分析系统,其特征在于,对于疾病实体,所述量化单元利用深度学习模型BioBERT对疾病名称进行语义分析,得到疾病实体的语义特征属性;对于药物实体,所述量化单元利用药物实体对应的分子SMILES序列,通过开源化学信息工具RDKit获得该药物的化学性质、化学描述符以及分子指纹等特征属性;对于基因实体,所述量化单元利用公开数据库Connectivity Map和BioGPS获取基因实体在不同组织或样本上的基因表达量作为该基因实体的特征属性,对于关系,所述量化单元使用独热编码的方式对所有关系进行编码,以达到向量化所有关系,并加以区分的目的。
CN202010921211.4A 2020-09-04 2020-09-04 基于知识图谱的老药新用分析方法和系统 Pending CN112131399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010921211.4A CN112131399A (zh) 2020-09-04 2020-09-04 基于知识图谱的老药新用分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010921211.4A CN112131399A (zh) 2020-09-04 2020-09-04 基于知识图谱的老药新用分析方法和系统

Publications (1)

Publication Number Publication Date
CN112131399A true CN112131399A (zh) 2020-12-25

Family

ID=73848478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010921211.4A Pending CN112131399A (zh) 2020-09-04 2020-09-04 基于知识图谱的老药新用分析方法和系统

Country Status (1)

Country Link
CN (1) CN112131399A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590843A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合分子结构特征的知识表示学习方法
CN113761167A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种会话信息抽取方法、系统、电子设备及存储介质
CN114121212A (zh) * 2021-11-19 2022-03-01 东南大学 一种基于知识图谱和群表示学习的中药处方生成方法
CN114186078A (zh) * 2021-12-17 2022-03-15 沈阳东软智能医疗科技研究院有限公司 知识图谱的表示学习方法、装置、存储介质及电子设备
CN114974554A (zh) * 2022-02-23 2022-08-30 北京爱医声科技有限公司 融合图谱知识强化病历特征的方法、装置及存储介质
WO2023040150A1 (zh) * 2021-09-16 2023-03-23 平安科技(深圳)有限公司 药物重定向模型生成方法及装置、存储介质、计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109658208A (zh) * 2019-01-15 2019-04-19 京东方科技集团股份有限公司 药品的推荐方法、装置、介质和电子设备
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304933A (zh) * 2018-01-29 2018-07-20 北京师范大学 一种知识库的补全方法及补全装置
CN109213872A (zh) * 2018-09-11 2019-01-15 中国电子科技集团公司第二十八研究所 基于知识表示学习的实体关系预测方法及预测系统
CN109325131A (zh) * 2018-09-27 2019-02-12 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN109658208A (zh) * 2019-01-15 2019-04-19 京东方科技集团股份有限公司 药品的推荐方法、装置、介质和电子设备
CN110147450A (zh) * 2019-05-06 2019-08-20 北京科技大学 一种知识图谱的知识补全方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEEPAK NATHANI 等: "Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs", PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 31 December 2019 (2019-12-31), pages 4710 - 4723 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590843A (zh) * 2021-08-06 2021-11-02 中国海洋大学 一种融合分子结构特征的知识表示学习方法
CN113590843B (zh) * 2021-08-06 2023-06-23 中国海洋大学 一种融合分子结构特征的知识表示学习方法
CN113761167A (zh) * 2021-09-09 2021-12-07 上海明略人工智能(集团)有限公司 一种会话信息抽取方法、系统、电子设备及存储介质
CN113761167B (zh) * 2021-09-09 2023-10-20 上海明略人工智能(集团)有限公司 一种会话信息抽取方法、系统、电子设备及存储介质
WO2023040150A1 (zh) * 2021-09-16 2023-03-23 平安科技(深圳)有限公司 药物重定向模型生成方法及装置、存储介质、计算机设备
CN114121212A (zh) * 2021-11-19 2022-03-01 东南大学 一种基于知识图谱和群表示学习的中药处方生成方法
CN114121212B (zh) * 2021-11-19 2024-04-02 东南大学 一种基于知识图谱和群表示学习的中药处方生成方法
CN114186078A (zh) * 2021-12-17 2022-03-15 沈阳东软智能医疗科技研究院有限公司 知识图谱的表示学习方法、装置、存储介质及电子设备
CN114186078B (zh) * 2021-12-17 2023-07-21 沈阳东软智能医疗科技研究院有限公司 知识图谱的表示学习方法、装置、存储介质及电子设备
CN114974554A (zh) * 2022-02-23 2022-08-30 北京爱医声科技有限公司 融合图谱知识强化病历特征的方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112131399A (zh) 基于知识图谱的老药新用分析方法和系统
US11900225B2 (en) Generating information regarding chemical compound based on latent representation
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN115171779B (zh) 基于图注意力网络和多组学融合的癌症驱动基因预测装置
JP2021511584A (ja) 確率分布をモデル化するためのシステムおよび方法
CN114093527B (zh) 一种基于空间相似性约束和非负矩阵分解的药物重定位方法和系统
CN116092598B (zh) 基于流形正则化非负矩阵分解的抗病毒药物筛选方法
CN113488104B (zh) 基于局部和全局的网络中心性分析的癌症驱动基因预测方法及系统
CN116741397A (zh) 基于多组学数据融合的癌症分型方法、系统及存储介质
JP2023510400A (ja) 病原性モデルの適用およびそのトレーニング
CN112151127A (zh) 基于分子语义向量的无监督学习药物虚拟筛选方法和系统
CN113539372A (zh) 一种LncRNA和疾病关联关系的高效预测方法
CN115376704A (zh) 一种融合多邻域关联信息的药物-疾病相互作用预测方法
CN110299194B (zh) 基于综合特征表示与改进宽深度模型的相似病例推荐方法
CN113889181A (zh) 医学事件的分析方法及装置、计算机设备、存储介质
CN111782818A (zh) 生物医疗知识图谱的构建装置、方法、系统及存储器
CN116312915B (zh) 一种电子病历中药物术语标准化关联方法及系统
WO2023148684A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
CN115810398A (zh) 一种基于多特征融合的tf-dna结合识别方法
CN115841861A (zh) 一种相似病历推荐方法及系统
CN111785319B (zh) 基于差异表达数据的药物重定位方法
EP4315190A1 (en) Graph database techniques for machine learning
CN115116549A (zh) 细胞数据注释方法、装置、设备及介质
CN114238558A (zh) 一种电子病历的质检方法、装置、存储介质及设备
WO2020190359A1 (en) System and method for data curation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210329

Address after: Room 202, building 1, 366 Tongyun street, Liangzhu street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou derizhi Pharmaceutical Technology Co.,Ltd.

Address before: 11 / F, building 15, Singapore Science Park, Qiantang New District, Hangzhou, Zhejiang 310000

Applicant before: Niu Zhangming

Applicant before: Wade Menpes Smith

TA01 Transfer of patent application right