CN113590843A - 一种融合分子结构特征的知识表示学习方法 - Google Patents

一种融合分子结构特征的知识表示学习方法 Download PDF

Info

Publication number
CN113590843A
CN113590843A CN202110903382.9A CN202110903382A CN113590843A CN 113590843 A CN113590843 A CN 113590843A CN 202110903382 A CN202110903382 A CN 202110903382A CN 113590843 A CN113590843 A CN 113590843A
Authority
CN
China
Prior art keywords
knowledge
representation
information
molecular
molecular structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110903382.9A
Other languages
English (en)
Other versions
CN113590843B (zh
Inventor
刘昊
闫金盟
魏志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202110903382.9A priority Critical patent/CN113590843B/zh
Publication of CN113590843A publication Critical patent/CN113590843A/zh
Application granted granted Critical
Publication of CN113590843B publication Critical patent/CN113590843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合分子结构特征的知识表示学习方法,属于知识图谱领域,将小分子结构特征与知识图谱三元组特征同时进行学习的方法,完成融合了小分子结构信息的知识表示学习过程,并最终形成隐含结构信息以及知识图谱关联信息的新型特征表示。它的成功将会明显提高生物医学领域知识图谱的相关应用的准确性。从而更好地服务于基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用。

Description

一种融合分子结构特征的知识表示学习方法
技术领域
本发明属于知识图谱领域,特别涉及一种融合分子结构特征的知识表示方法
背景技术
目前,知识表示学习(Knowledge Representation Learning)的相关研究中,正面临的一个重要挑战:如何实现多源信息融合。现有的知识表示学习模型,仅利用知识图谱的三元组结构信息进行知识表示学习,尚有大量与知识有关的其他信息,如实体与关系的描述信息、类别信息等,而这些文本信息、类别信息、视觉信息等丰富的多源异质信息可以帮助改善数据稀疏问题,提高知识表示的区分能力,如何充分融合这种跨模态信息,实现知识表示学习,具有重要意义。然而,知识表示学习中的多源信息融合的相关研究尚不够成熟和完善。
文本和分子结构信息等多源信息对于知识表示具有重要意义。为了利用丰富的文本信息,可以将实体和单词投影到具有对齐模型的联合向量空间中。从实体描述中直接构建实体表示,能够对新实体进行建模。然而,分子信息尚未用于知识表示。同时,在计算机辅助药物设计领域的相关研究已经证明,配体分子的化学结构信息在药物设计与研发过程中十分重要,是发现药物先导化合物的关键因素之一。
发明内容
本发明要解决的技术问题在于提供一种融合分子结构特征的知识表示学习方法,将药物分子的结构特征融入其知识图谱的表示学习中去,从而更好地服务于基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用。
本发明是通过如下技术方案来实现的:
一种融合分子结构特征的知识表示学习方法,融合分子结构特征的知识表示学习方法简称为MSKRL,所述方法具体如下:
(1)获取知识图谱构建数据集,然后将小分子实体转换成mol2格式,方便小分子编码器识别;
(2)使用分子结构信息编码器为所有的小分子实体构建初步的表示,分子结构信息编码器由小分子结构特征表示模块和小分子投影模块两部分组成,小分子结构特征表示模块采用现有技术,将小分子结构信息转换成一种低维向量表示,小分子投影模块将这种低维向量投影到相应实体空间;每个实体分子提供重要的小分子结构信息,将每个实体分子作为输入,分子编码器旨在从分子结构中提取信息特征并在实体空间中构建小分子结构信息表示;
(3)构建MSKRL方法的整体得分函数,从而完成知识表示的学习过程,最终得到同时包含分子结构信息与知识图谱三元组信息的表示。具体如下:
经过分子编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习,给定一个三元组(h,r,t)∈T,所述三元组由两个实体h、t和关系r组成,其中h,t∈E,r∈R,T代表整个三元组训练集,E代表实体的集合,R代表关系的集合;
将每个小分子实体提出两种表示,一种是使用hS、tS设置为头部和尾部实体的基于图谱结构的表示,另外一种新型的知识表示hM、tM作为头部和尾部实体基于小分子结构信息的表示;
在知识表示学习模型中利用结构化知识信息和小分子结构信息,将MSKRL方法的整体得分函数定义如下:
E(h,r,t)=ESS+ESM+EMS+EMM
其中ESS=||hS+r-tS||,ESS是能量函数,只取决于基于图谱结构的表征;
EMM=||hM+r–tM||,是能量函数,其中hM、tM都是基于小分子结构信息的表征而且是从其对应的小分子特征中学习的。
ESM=||hS+r–tM||,EMS=||hM+r–tS||,以确保基于图谱结构的表征和基于小分子结构信息的表征都被学习到同一个向量空间。
本发明与现有技术相比的有益效果:
本发明提出了一种新颖的小分子结构信息体现知识表示学习方法,大多数传统方法仅从结构化三元组中学习知识表示,而忽略了从小分子结构信息中提取分丰富的分子结构信息,这是第一次提出融合分子结构特征的知识表示学习方法。融合分子结构特征的知识表示学习方法可以更好的为基于机器学习或深度学习的生物医学知识图谱中的药物挖掘的相关应用服务,并且将会明显提高生物医学领域知识图谱的相关应用的准确性。
附图说明
图1为小分子结构信息编码器;
图2为本发明MSKRL方法总体架构。
具体实施方式
下面将结合本发明的具体实施例对本发明作进一步的说明,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种融合分子结构特征的知识表示学习方法(MSKRL),MSKRL方法的整体架构如图2所示。每个小分子实体提供重要的分子结构信息。本实施例设计了一个分子结构编码器,分子编码器旨在从分子结构中提取信息特征并在实体空间中构建分子结构表示。编码器将每个实体分子作为输入,通过小分子结构特征表示模块和小分子投影模块将向量投影到相应的实体空间中去。
具体步骤如下:
从已有医药领域知识图谱中选取部分数据构建三元组数据集,并分为训练集与测试集两部分。然后将小分子实体转换成mol2格式方便小分子编码器识别。
使用分子结构信息编码器为所有的小分子实体构建初步的表示,其中的分子结构信息编码器部分,如图1所示:拟分为小分子结构特征表示模块和小分子投影模块两部分,小分子结构特征表示模块采用现有技术,将小分子的结构特征转换成一种低维向量表示,小分子投影模块将这种低维向量投影到相应实体空间。
(3)构建MSKRL方法的整体得分函数,通过得分函数完成知识表示学习的具体过程。
经过分子结构信息编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习,给定一个三元组(h,r,t)∈T,它由两个实体h、t和关系r组成,其中h,t∈E,r∈R,T代表整个三元组训练集,E代表实体的集合,R代表关系的集合。
为了在知识表示学习(KRL)中引入小分子结构信息,对每个小分子实体提出两种表示。将hS,tS设置为头部和尾部实体的基于图谱结构的表示,是由传统KRL模型学习的分布式表示。另一种新型的知识表示hM,tM作为基于小分子结构信息的表示,它们包含了头部或尾部实体小分子的结构信息。
本实施例在模型中利用结构化知识信息和小分子结构信息。将MSKRL方法整体得分函数定义如下:
E(h,r,t)=ESS+ESM+EMS+EMM
其中
ESS=||hS+r-tS||,ESS是能量函数,只取决于基于图谱结构的表征。
EMM=||hM+r–tM||,是能量函数,其中头部和尾部实体都是基于小分子结构信息的表征而且是从其对应的小分子特征中学习的。
ESM=||hS+r–tM||,EMS=||hM+r–tS||以确保基于结构的表征和基于小分子结构信息的表征都被学习到同一个向量空间。
评估标准:
这里我们用的是知识图谱表示学习领域的通用评测任务之一:三元组分类。构建包含同等数量正例和负例三元组数据集作二分类。根据准确率来作为评估标准。具体的评估流程:
从数据集中对每个三元组,通过替换头实体或尾实体构建一个不存在于知识图谱中的三元组,作为负例,原三元组则是正例。这样就得到了一个包含同等数量正例和负例的数据集,对这个数据集中的三元组作二分类,计算其分类的准确率。通过表1显示,MSKRL方法的准确率高于传统的模型。对于本实施例将小分子结构特征与知识图谱三元组特征同时进行学习的有效方法MSKRL拥有良好的性能。
表1.评估结果
Figure BDA0003200621690000061

Claims (1)

1.一种融合分子结构特征的知识表示学习方法,融合分子结构特征的知识表示学习方法简称为MSKRL,其特征在于所述方法具体如下:
(1)获取知识图谱构建数据集,然后将小分子实体转换成mol2格式,方便小分子编码器识别;
(2)使用分子结构信息编码器为所有的小分子实体构建初步的表示,分子结构信息编码器由小分子结构特征表示模块和小分子投影模块两部分组成,小分子结构特征表示模块采用现有技术,将小分子结构信息转换成一种低维向量表示,小分子投影模块将这种低维向量投影到相应实体空间;每个实体分子提供重要的小分子结构信息,将每个实体分子作为输入,分子编码器旨在从分子结构中提取信息特征并在实体空间中构建小分子结构信息表示;
(3)构建MSKRL方法的整体得分函数,从而完成知识表示的学习过程,最终得到同时包含分子结构信息与知识图谱三元组信息的表示;具体如下:
经过分子编码器处理后的小分子结构信息与知识图谱三元组特征同时进行学习,给定一个三元组(h,r,t)∈T,所述三元组由两个实体h、t和关系r组成,其中h,t∈E,r∈R,T代表整个三元组训练集,E代表实体的集合,R代表关系的集合;
将每个小分子实体提出两种表示,一种是使用hS、tS设置为头部和尾部实体的基于图谱结构的表示,另外一种新型的知识表示hM、tM作为头部和尾部实体基于小分子结构信息的表示;
在知识表示学习模型中利用结构化知识信息和小分子结构信息,将MSKRL方法的整体得分函数定义如下:
E(h,r,t)=ESS+ESM+EMS+EMM
其中ESS=||hS+r-tS||,ESS是能量函数,只取决于基于图谱结构的表征;
EMM=||hM+r–tM||,是能量函数,其中hM、tM都是基于小分子结构信息的表征而且是从其对应的小分子特征中学习的;
ESM=||hS+r–tM||,EMS=||hM+r–tS||,以确保基于图谱结构的表征和基于小分子结构信息的表征都被学习到同一个向量空间。
CN202110903382.9A 2021-08-06 2021-08-06 一种融合分子结构特征的知识表示学习方法 Active CN113590843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110903382.9A CN113590843B (zh) 2021-08-06 2021-08-06 一种融合分子结构特征的知识表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110903382.9A CN113590843B (zh) 2021-08-06 2021-08-06 一种融合分子结构特征的知识表示学习方法

Publications (2)

Publication Number Publication Date
CN113590843A true CN113590843A (zh) 2021-11-02
CN113590843B CN113590843B (zh) 2023-06-23

Family

ID=78255930

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110903382.9A Active CN113590843B (zh) 2021-08-06 2021-08-06 一种融合分子结构特征的知识表示学习方法

Country Status (1)

Country Link
CN (1) CN113590843B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312855A (zh) * 2023-02-28 2023-06-23 杭州生奥信息技术有限公司 先导化合物活性优化方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103269776A (zh) * 2010-12-16 2013-08-28 埃克森美孚研究工程公司 通过高分辨质谱和相关分析产生石油的组成模型
US20160026932A1 (en) * 2014-07-24 2016-01-28 Carnegie Mellon University Intelligent System with Integrated Representation Learning and Skill Learning
CN106589182A (zh) * 2015-10-14 2017-04-26 中国石油化工股份有限公司 一种间规结构的聚合物及其制备方法
CN107533553A (zh) * 2015-03-24 2018-01-02 凯恩迪股份有限公司 认知存储器图形索引、存储和检索
CN109033129A (zh) * 2018-06-04 2018-12-18 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN110851617A (zh) * 2019-10-10 2020-02-28 中国海洋大学 一种基于知识图谱的多源信息药物筛选方法
CN111782818A (zh) * 2020-06-05 2020-10-16 牛张明 生物医疗知识图谱的构建装置、方法、系统及存储器
CN112131402A (zh) * 2020-09-14 2020-12-25 刘容恺 一种基于蛋白质家族聚类的ppi知识图谱表示学习方法
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和系统
CN112256835A (zh) * 2020-10-29 2021-01-22 东南大学 一种精准描述知识图谱中元素语义的子图抽取方法
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架
WO2021139247A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103269776A (zh) * 2010-12-16 2013-08-28 埃克森美孚研究工程公司 通过高分辨质谱和相关分析产生石油的组成模型
US20160026932A1 (en) * 2014-07-24 2016-01-28 Carnegie Mellon University Intelligent System with Integrated Representation Learning and Skill Learning
CN107533553A (zh) * 2015-03-24 2018-01-02 凯恩迪股份有限公司 认知存储器图形索引、存储和检索
CN106589182A (zh) * 2015-10-14 2017-04-26 中国石油化工股份有限公司 一种间规结构的聚合物及其制备方法
CN109033129A (zh) * 2018-06-04 2018-12-18 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN110851617A (zh) * 2019-10-10 2020-02-28 中国海洋大学 一种基于知识图谱的多源信息药物筛选方法
CN111782818A (zh) * 2020-06-05 2020-10-16 牛张明 生物医疗知识图谱的构建装置、方法、系统及存储器
WO2021139247A1 (zh) * 2020-08-06 2021-07-15 平安科技(深圳)有限公司 医学领域知识图谱的构建方法、装置、设备及存储介质
CN112131399A (zh) * 2020-09-04 2020-12-25 牛张明 基于知识图谱的老药新用分析方法和系统
CN112131402A (zh) * 2020-09-14 2020-12-25 刘容恺 一种基于蛋白质家族聚类的ppi知识图谱表示学习方法
CN112256835A (zh) * 2020-10-29 2021-01-22 东南大学 一种精准描述知识图谱中元素语义的子图抽取方法
CN112699247A (zh) * 2020-12-23 2021-04-23 清华大学 一种基于多类交叉熵对比补全编码的知识表示学习框架

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YINGYING ZHANG等: "Multi-modal Multi-relational Feature Aggregation Network for Medical Knowledge Representation Learning", 《MM \'20: PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, pages 3956 - 3965 *
付诚诚: "基于文本挖掘的细菌-疾病关联知识库构建与预测", 《中国优秀硕士学位论文全文数据库基础科学辑》, no. 2, pages 006 - 1194 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312855A (zh) * 2023-02-28 2023-06-23 杭州生奥信息技术有限公司 先导化合物活性优化方法
CN116312855B (zh) * 2023-02-28 2023-09-08 杭州生奥信息技术有限公司 先导化合物活性优化方法

Also Published As

Publication number Publication date
CN113590843B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN102880644B (zh) 社区发现方法
CN106844741A (zh) 一种面向特定领域的问题解答方法
CN109598279B (zh) 基于自编码对抗生成网络的零样本学习方法
CN107004000A (zh) 一种语料生成装置和方法
CN107766933A (zh) 一种解释卷积神经网络的可视化方法
Zang et al. Softmax discriminant classifier
CN105389326A (zh) 基于弱匹配概率典型相关性模型的图像标注方法
CN113590843A (zh) 一种融合分子结构特征的知识表示学习方法
CN109165273A (zh) 一种面向大数据环境的通用中文地址匹配方法
CN103810161B (zh) 西里尔蒙古文到传统蒙古文转换方法
CN112418331A (zh) 一种基于聚类融合的半监督学习伪标签赋值方法
Zhang et al. Cohortva: A visual analytic system for interactive exploration of cohorts based on historical data
CN104820739B (zh) 基于persona研究消费者对于SUV外形设计偏好的方法
CN101777044A (zh) 利用语句结构信息的机器翻译自动评测系统及实现方法
CN111986235A (zh) 一种提取车辆轨迹特征运动模式的方法
CN115620143A (zh) 一种新古典主义建筑风格识别系统、构建方法及识别方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
Aurisano et al. Visual Analytics for Ontology Matching Using Multi-linked Views.
CN105740879A (zh) 基于多模态判别分析的零样本图像分类方法
CN108021985A (zh) 一种模型参数训练方法及装置
CN115700512A (zh) 一种基于知识图谱的车辆故障推理方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
CN105045410A (zh) 一种形式化拼音和汉字对应识别的方法
CN105989094B (zh) 基于隐层语义中层表达的图像检索方法
CN115331754A (zh) 基于哈希算法的分子分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant