CN113963748B - 一种蛋白质知识图谱向量化方法 - Google Patents
一种蛋白质知识图谱向量化方法 Download PDFInfo
- Publication number
- CN113963748B CN113963748B CN202111140313.3A CN202111140313A CN113963748B CN 113963748 B CN113963748 B CN 113963748B CN 202111140313 A CN202111140313 A CN 202111140313A CN 113963748 B CN113963748 B CN 113963748B
- Authority
- CN
- China
- Prior art keywords
- entity
- protein
- triplet
- entities
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种蛋白质知识图谱向量化方法,该方法中,首先采集大量蛋白质知识库文本信息,通过实体检测、关系提取建立初步的三元组集合,再进行标准知识图谱建立,然后将三元组集合作为训练集进行向量化进而得到蛋白质向量。本发明的创新点在于创建并使用了一种能够将蛋白质文本知识转变为知识图谱并将蛋白质实体向量化的方法。本发明构建了向量化蛋白质知识图谱,同时展示出了建模过程和学习更新过程并给出了应用方法。
Description
技术领域
本发明涉及计算机技术领域,涉及知识图谱构建技术,特别涉及一种蛋白质知识图谱向量化方法。
背景技术
背景技术涉及五大块:命名实体识别、关系提取、知识图谱构建、知识图谱向量化、多模态学习。
1)命名实体识别(Named Entities Recognition)
命名实体识别是自然语言处理的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。其目的是识别语料中人名、地名、组织机构名等命名实体。由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。
海量的非结构化生物医学文献中蕴含着丰富的有价值的生物医学知识,是生物医学领域重要的知识来源。因此,迫切需要研究文本挖掘的方法提取和理解其中的知识。生物医学命名实体识别和规范化以及文本分类是其他任务的基础,它们是关系抽取等其他下游任务的必要步骤。目前最先进的命名实体模型使用高度准确的神经网络组件构建,包括标记化、多词标记扩展、词形还原、词性词形特征标记、依赖解析和命名实体识别。命名实体识别模型中的生物医学模型通过扩展最初为一般自然语言处理任务设计的广泛使用的模型库来实施和训练生物医学和临床英语自然语言处理管道,使用混合公共数据集以及使用放射学领域实体注释的放射学报告的私人语料库进行训练。由此产生的管道完全基于神经网络,并且能够对生物医学和临床文本执行标记化、词性标注、词形还原、依赖解析和命名实体识别。
文本分析的第一步是标记化和句子分割。这两个任务被联合建模为字符序列的标记问题,其中模型预测给定字符是标记的结尾、句子的结尾、或两者都不是。这个联合任务是通过一个轻量级的循环神经网络来实现的。选择组合这些任务,因为它们通常是上下文敏感的,并且可以从联合推理中受益以减少歧义。命名实体识别组件采用基于上下文字符串表示的序列标记器的架构。对于每个域,训练一个前向和后向字符级语言模型以补充每个句子中的单词表示。在标记时,将来自语言模型的每个词位置的表示与词嵌入连接起来,并将结果输入到带有条件随机场解码器的标准1层序列标记器中。预训练的字符级语言模型提供了丰富的特定领域表示,但是单个模型只能预测特定领域内的实体类型,预测的范围和种类数量都十分有限,这会导致一个句子中包含所有具有特定含义的名词词组的实体集合不能被完整检测到。
2)关系抽取(Relation Extraction)
关系抽取的主要目的是从文本中识别实体并抽取实体之间的语义关系。实体关系抽取解决了原始文本中目标实体之间的关系分类问题,它也是构建复杂知识库系统的重要步骤,比如文本摘要、自动问答、机器翻译、搜索引擎、知识图谱等。随着近年来对信息抽取的兴起,实体关系抽取研究问题进一步得到广泛的关注和深入研究。
生物医学实体间关系抽取作为生物医学信息抽取的基本任务,对于领域数据库和知识图谱的构建、推动生命科学以及文本挖掘相关领域的发展有着重要的理论和应用价值。目前生物医学领域的语料仍面对在缺少高相关带标签数据集的问题,使用以日常语言为语料的预训练模型应用在医疗语料会出现严重的特征迁移问题。医疗文本的语言模式较为规范,比自然文本更加容易用可控的规则来提取关系信息。所以,一些生物医疗模型通过手工模式的方式来提取医疗实体的关系,寻找三元组(X,α,Y),X是实体,α是实体之间的单词。可以利用句子中的从属路径,知道哪个词在语法上依赖于另一个词。这可以极大地增加规则的覆盖率,但是大多模型都存在单句只提取单个三元组的问题,没有考虑更加复杂的句法依赖情况。
3)知识图谱构建(Knowledge Graph Construction)
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含:知识储存、信息抽取、知识融合、知识计算,四个阶段。
(1)知识存储:针对构建知识图谱设计底层的存储方式,完成各类知识的存储,包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式将直接影响查询效率和应用效果。
(2)信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。
(3)知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
(4)知识计算:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
这四步中的信息抽取步骤在传统方法中采用人工采集和标注的形式,非常耗费人力物力,在很多小范围低成本的业务场景中是不利于现实实现的;另外,知识融合步骤在传统方法中主要目的就将不同性质的知识图谱合并称为一个知识图谱,增强知识图谱的异质性和全面性,而不能在保证原有异质性程度的同时增大原有图谱的大小,这对减轻图谱稀疏性没有足够改善。
4)知识图谱向量化(Knowledge Graph Embedding)
传统方法中使用三元组来表示知识时,用独热向量来表示关系、头和尾实体。但实体和关系太多,维度太大。当两个实体或关系很近时,独热向量无法捕捉相似度。受Wrod2Vec模型的启发,用分布表示来表示实体和关系。知识图谱向量化模型TransE作为Trans系列模型的开山鼻祖模型,基本思想是使头实体向量和关系实体向量的和尽可能靠近尾实体向量。这里用L1或L2范数来衡量它们的靠近程度。损失函数是使用了负抽样的max-margin函数:
L(h,r,t)=max(0,dpos-dneg+margin),
其中d是:
d=||h+r-t||
负样本则是将head实体或tail实体替换为三元组中的随机实体。
Trans系列模型本身可能伴随很多问题,比如一对多和多对一问题、实体多属性问题、关系多语义问题等;另外,此前没有模型考虑数据量有限或者很稀疏的任务场景,实体向量可能出现信息量不足的情况。
发明内容
本发明的目的是提供一种蛋白质知识图谱向量化方法,该方法中,首先得采集大量蛋白质知识库文本信息,通过实体检测、关系提取建立初步的三元组集合,再进行标准知识图谱建立,然后将三元组集合作为训练集进行向量化进而得到蛋白质向量。本发明的创新点在于创建并使用了一种能够将蛋白质文本知识转变为知识图谱并将蛋白质实体向量化的方法。本发明构建了向量化蛋白质知识图谱,同时展示出了建模过程和学习更新过程并给出了应用方法。
实现本发明目的的具体技术方案是:
一种蛋白质知识图谱向量化方法,该方法包括如下步骤:
步骤一:收集HPA蛋白质无结构和半结构语料
采用网页爬虫技术抓取蛋白质网页中的无结构信息和半结构信息;其中,无结构信息为纯文字描述段落;半结构信息为在网页中以表格形式存在的且每个方格中以短语或单词为文本内容的信息;
步骤二:使用自然语言处理工具集合Stanza进行医疗实体检测和提取
先使用工具集合Stanza中的分句工具将收集到的无结构信息文本段落进行分句得到句子集合,对每个句子进行实体检测;使用工具集合Stanza自带的五种不同命名实体模型对每个句子进行检测分别输出五个实体集合检测结果,取这五个结果的实体并集作为最终得到的实体集合;
步骤三:制定语法规则提取实体间关系并存储为三元组集合形式
使用句法分析工具Spacy对于每个句子进行句法分析以得到句中每个词的词性和与其他词汇的依赖关系;在得到实体集合后,制定语法规则来抽取两两实体之间的关系,语法规则为将每个句子的主语作为头实体,谓语作为关系,宾语作为尾实体,最终得到三元组集合;
步骤四:制定关系合并规则并使用近义词合并限制关系数量
建立字典将三元组中含义或角色功能相似的关系词使用相同的动词(称为标准关系词)表示,字典的键key是标准关系词,值value是原本的关系词列表;使用近义词工具wordnet将关系词列表中的每个词的近义词也添加到关系词列表中;
步骤五:根据UMLS知识库实体标准化
使用自然语言处理工具scispaCy将实体标准化为数据库UMLS的标准实体,得到标准三元组集合;
步骤六:使用大型三元组数据集BioRel对标准三元组集合进行扩充
使用大型三元组数据集BioRel的三元组数据集对标准三元组集合进行扩展,加入数据集BioRel中首尾实体皆在原标准三元组集合中出现过的三元组,得到扩展三元组集合;将扩展三元组集合作为构建的知识图谱使用NetworkX工具进行可视化;
步骤七:使用基于旋转思想的模型架构RotatE将知识图谱进行向量化
使用基于旋转思想的模型架构RotatE将知识图谱进行向量化;在初始化实体向量时,使用预训练的句子向量生成模型sentence-BERT将该实体在UMLS中的定义句子转化为向量形式作为实体向量的初始化形式;训练完成后得到一个向量化模型,扩展三元组数据集中的包括蛋白质在内的所有实体在训练好的向量化模型中都得到一个实体向量,最终得到蛋白质向量。
步骤七所述的向量化模型,具有如下结构:对输入的三元组中的头尾实体和关系实体分配初始化向量,三个向量经过评分函数和负采样层得到正样本评分和负样本评分,两种评分经过损失计算层得到损失值,训练时通过最小化损失值更新向量权重值。
本发明的有益效果包括:
1)在带有标签的训练数据十分有限的情况下,本发明的创新之处在于尽可能地引入容易获取的外部知识,利用无结构文本信息在尽可能少的人工标注下构建知识图谱,以最少的成本利用拓扑结构进行特征语义信息的传递和利用,从而得到语义丰富的蛋白质向量,得到的蛋白质向量可用于各种与蛋白质相关的下游任务或者直接进行蛋白质与其他实体的链接预测;
2)本发明提升了利用蛋白质实体向量化的可解释性和知识迁移性,将所有可能与任务相关的蛋白质相应的半结构和无结构文本转化为知识图谱的形式,并利用知识图谱的结构使得不同实体相互之间进行信息传递,由此得到的蛋白质向量带有拓扑信息,有助于蛋白质向量在应用于下游任务时提供更加丰富的语义信息进而提升性能;
3)本发明提出的将蛋白质的定义段落的句向量作为初始化向量的方法,这种做法可以实现将自然语言的向量空间信息向知识图谱实体向量空间的转化,比起传统方法中直接随机初始化的做法提供了更多的先验信息,有助于训练平稳和性能提升。
4)在下游任务中,传统的序列输入模型直接使用独热向量或者随机初始化字典来表示蛋白质输入进行端到端训练,在数据量足够的情况下,这种情况可能是比较高效的。然而,当数据量十分有限的情况下,仅使用训练数据进行端到端训练引起的严重的过拟合。使用本发明的蛋白质在向量化过程中已带有丰富的拓扑信息,可以直接用于模型的输入进而避免因独热向量维度灾难导致的过拟合情况的发生。
附图说明
图1为本发明的流程图;
图2为本发明步骤六中针对一个蛋白质为头实体的所有连接的展示图;
图3为本发明步骤六中针对一个蛋白质为头实体的所有以cluster为关系的所有连接的展示图;
图4为本发明步骤六中针对一个蛋白质为头实体的所有以be为关系的所有连接的展示图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例
本发明包括如下步骤:
步骤一:收集HPA蛋白质无结构和半结构语料
本发明将Human Protein Atlas(HPA)蛋白质知识数据库作为抽取语料的资源库,在该资源库中每一种蛋白质都有唯一的描述其属性和功能的网页,通过将网址www.proteinatlas.org/和一个蛋白质的基因编号拼接在一起得到该蛋白质网页的网址。对每一种蛋白质,都有与其唯一对应的一条基因编号可作为蛋白质唯一标识符和多个缩略名作为别名。缩略名为PTPRC的蛋白质对应唯一基因编号ENSG00000081237,此处ENS*就是Ensembl ID,其所代表的是在Ensembl数据库中对基因的命名。ENS是固定字符,表示这是一个Ensembl ID。默认物种是人,如果是小鼠则以ENSMUS开头,G表示该id指的是一个基因。
本发明通过在知识库HPA网站可下载文件中下载proteinatlas.xml文件,使用xml结构分析工具ElementTree提取每种蛋白质全称、别名集合和基因编号,形成列表。遍历列表中每一项编号,将网址www.proteinatlas.org/和一个蛋白质的基因编号拼接得到需要抓取信息的网页网址。
本发明采集网页信息使用网页爬虫技术做信息抓取进而得到相应的半结构和无结构的文本信息,具体使用Python语言中的selenium.webdriver和BeautifulSoup工具,前者通过网页的网址访问对应的网页HTML内容,后者对HTML内容进行解析。每个蛋白质网页的排版结构是相通的,可以通过在某个任意网页的蛋白质功能信息显示模块上右击鼠标选择“显示网页源代码”,观察到模块在网页中的层次关系。
通过使用BeautifulSoup访问观察到的层次关系,可以抽取到网页中实际显示的文本信息。蛋白质网页中的内容分为无结构信息和半结构信息。其中无结构信息指对于纯文字描述段落,内容长度为5到6句话左右。一个网页有两段无结构段落,分别是蛋白质功能描述文本和基因概要描述文本。蛋白质功能描述文本描述一个蛋白质对人体内的各种化学反应的促进作用或抑制作用;基因概要的文本描述了一个蛋白质或其对应的基因在各种化学反应中的角色和变异导致的情况。半结构信息是指在网页中以表格形式存在的且每个方格中以短语或单词为文本内容的信息,表格的竖列表头和其右侧的内容可以分别直接作为后序三元组的关系和尾实体。本发明将无结构信息和半结构信息存储为文件供后续处理。
步骤二:使用工具集合Stanza进行医疗实体检测和提取
本发明使用语言分析工具集合Stanza对原始文本进行句法分析和实体识别,其中包括了生物医学和临床句法分析以及命名实体识别模型。
先使用工具集合Stanza中的分句工具将收集到的无结构文本段落进行分句,对每个句子进行分别检测。选择五种以不同公开数据集进行预训练的命名实体模型,分别是:JNLPBA、AnatEM、radiology、i2b2、NCBI-Disease。每一个预训练模型对于一个输入的句子都会输出一组检测到的句子中的实体(常见为名词短语)和实体类型。对于同一个句子,这五个模型分别输出了五组结果,取这五组结果的实体并集以实现最大的实体检测覆盖率。对于一个句子同一位置的情况分为三种:
(1)五个模型均未检测到有实体,则忽略;
(2)只有一个模型检测到有实体,则采纳该实体检测和实体类型结果;
(3)两个或以上模型都输出了不同的实体类别,可以按照规定的优先级排序取最高的优先级类别:JNLPBA检测蛋白质和细胞名称(实体类别PROTEIN、CELL);AnatEM检测解剖学术语例如上皮表面(实体类别ANATOMY);radiology检测放射学(实体类别OBSERVATION);i2b2检测疾病症状(实体类别PROBLEM、TREATMENT、TEST);NCBI-Disease检测疾病名称(实体类别DISEASE)。本发明指定的规则是,若有两个或以上的模型检测到了相同的实体,则实体类别以优先级更高的为准;
这种取多个模型输出的并集的做法是为了将实体的检测范围扩展到较大的程度,尽量减少实体遗漏,经过此步骤后得到初步的实体集合;
步骤三:制定语法规则提取实体间关系并存储为三元组集合形式
在得到实体集合后,本发明制定语法规则来抽取两两实体之间的关系。对于每个句子,使用句法分析工具Spacy进行句法分析以得到句中每个词的词性和与其他词汇的依赖关系,每个词(原词)都有一个head词,分为两种情况:
(1)head词是句子中的另一个单词,则它与原词存在某种依赖关系,如conj(并列)
(2)head词是原词本身,则该词是这个句子的主词root。
在规则中,将头实体表示为ent1,尾实体表示为ent2,关系表示为rel,将提取到的三元组(ent1,rel,ent2)存储为集合,规则如下:
(1)按照每个句子一次遍历,先找到每个句子的主语实体ent1(蛋白质名称),然后依次将其他实体作为ent2进行遍历。实体ent2是名词词组并且有一个中心名词(或形容词则找到其修饰的名词并合并实体),将中心名词的依赖关系作为这个实体词组的依赖关系进行判断。
(2)若ent2的依赖关系是并列关系conj,则找到其并列的名词并将该名词的依赖关系作为自己的依赖关系,往下检测。
(3)若ent2是形容词或依赖关系是复合关系compound,处理方法如(2)。
(4)若ent2是主词root,则与ent1为系动词be关系。
(5)若ent2的依赖关系是宾语obj、复合名词修饰nmod、继承obl、同位词appos、主语nsubj:pass、主语nsubj、依赖dep、相对从句修饰acl:relcl、开放短语补充xcomp其中之一,取ent2中心词main word的head作为rel候选;
(6)若head词是副词ADV,则更新head词为其修饰的动词VERB。
(7)若head词是动词VERB或形容词ADJ,若是root,则与ent1的关系为head词。否则,找head词的head词,判断其词性:
(7.1)若词性是VERB或ADJ,则往前走,一直到找到root为止;
(7.2)若词性是NOUN,则查找该词是否是本句实体之一,若找到了,则更新ent1为该词。并与ent1成head关系;
(7.3)若没找到,则往前走继续查找head词的head词,一直到找到root为止。
(8)若找到了head词为关系词,则判断后方是否有词汇by,即判断是否为被动语态,若是则调转ent1和ent2的顺序,否则维持原样。
(9)若head词是名词NOUN,若是root,则与ent1成head名词关系。判断后方是否有词汇by,即判断是否为被动语态,若是则调转ent1和ent2的顺序,否则维持原样。
步骤四:制定关系合并规则并使用近义词合并限制关系数量
为减轻关系稀疏性,本发明制定关系合并规则,将含义或角色功能相似的关系词使用相同的动词(称为标准关系词)表示,具体做法是维护一个字典,字典的键key是标准关系词,值value是所有可能与标准关系词意义相近同时出现在三元组关系集合的关系词列表。然后使用词向量模型wordnet的近义词工具将词汇表中的每个词进行进一步扩展来扩大值value列表的单词量。按照关系出现次数进行标准化:
a)关系词出现次数少于20次,统一规范为无明确含义关系NA
b)关系词出现次数高于20次,以其明确含义存在。
步骤五:根据UMLS知识库实体标准化
本发明使用自然语言处理工具scispaCy作为向UMLS数据库进行实体标准化的实用工具,scispaCy是一个Python包,包含用于处理生物医学、科学或临床文本的spaCy模型。通过对每个实体查找与其最相近的UMLS术语和唯一标识符将实体表述标准化,每一个UMLS术语都对应一个定义文本,由一到三句话组成。这样做有两个优势:
(1)缓解实体稀疏性(部分实体出现次数过少),将含义相同写法不同的实体统一起来;
(2)便于在与其他知识图谱合并时进行实体对齐,增强数据集的扩展性;
在使用UMLS查询每个单词的标准形式之后,记录对应的标准形式和唯一标识符以及相应的定义文本,使用标准形式来替换原单词,最终得到标准化后的三元组集合。
步骤六:使用其他大型三元组数据集例如BioRel对标准化后的集合进行相应的扩充
为进一步缓解实体稀疏问题(部分实体出现在三元组中的频率过低),本发明使用名为BioRel的公开三元组数据集对原数据集进行扩展,该数据集也使用了UMLS标准化形式,故而便于与原数据集进行结合。选择在数据集中仅加入公开数据集BioRel中首尾实体皆在原数据集中出现过的三元组,以避免加入更多无关实体。
最终得到扩展后的标准化三元组数据集,可构成知识图谱。由此构建的知识图谱使用NetworkX工具进行可视化,图2展示了针对一个蛋白质为头实体的所有连接的展示图、图3展示了针对一个蛋白质为头实体的所有以cluster为关系的所有连接的展示图、图4展示了针对一个蛋白质为头实体的所有以be为关系的所有连接的展示图;
步骤七:使用基于旋转的算法将知识图谱进行向量化
本发明使用基于基于旋转的向量关系转化形式,模型RotatE,向量化思想用来表示,其中eh代表头实体向量,erel代表关系向量,et代表尾向量。使用复数空间的评分函数:
其中Re(x)表示x向量的实向量分量,Im(x)表示x向量的虚向量分量,K表示实体和关系向量的维数,尖括号表示向量的点积运算。
在初始化实体向量时,本发明使用一些预训练的句子向量生成模型例如sentence-BERT将该实体在UMLS中的定义句子转化为向量形式作为该实体的词向量的初始化形式。使用基于平移思想的传统Trans系列架构模型作为对知识图谱进行向量化的对比模型,其向量化思想可以用如下公式表示:
eh+erel≈et,
其中eh代表头实体向量,erel代表关系向量,et代表尾向量。后续的研究工作也提出了将标准化后的三元组集合作为训练集,损失函数为最后使用Hit@10(真实三元组在预测三元组的前10名的比例)来衡量向量化模型的性能。
本实施例的测试过程在构建的扩展标准三元组数据集上实施。本发明向量化模型与其他模型不同之处在于初始化时加载了预训练模型输出的蛋白质定义段落的句向量,构建的知识图谱数据集在各个Trans模型上的性能记录在表格1中。
表1构造的蛋白质三元组数据集在各种向量化模型的MRR、MR和Hit@10得分
Metric | TransE | RotatE | Ours | TransH | DistMult | ComplEx | Analogy | SimpLE |
MRR | 0.2391 | 0.1816 | 0.1829 | 0.1059 | 0.1128 | 0.1200 | 0.1181 | 0.1240 |
MR | 543.84 | 661.43 | 532.30 | 537.26 | 731.76 | 753.67 | 724.37 | 620.83 |
Hit@10 | 0.2565 | 0.2793 | 0.2859 | 0.2489 | 0.1870 | 0.1902 | 0.2086 | 0.1989 |
表1是本发明构造的蛋白质数据集在各种向量化模型的MRR、MR和Hit@10得分,其中MRR表示所有正确三元组的预测排名的倒数的均值(越大越好),MR表示所有正确答案的预测排名的均值(越小越好),Hit@10表示正确答案预测排名不超过10的比率(越大越好)。可以看到本发明使用的预加载句向量的方法相较于其他模型性能更好,更好的性能表示通过蛋白质向量预测与其高度相关的其他实体的能力更好,即应用于下游任务时蛋白质向量包含更合理的拓扑结构信息。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (1)
1.一种蛋白质知识图谱向量化方法,其特征在于,该方法包括如下步骤:
步骤一:收集HPA蛋白质无结构和半结构语料
将Human Protein Atlas蛋白质知识数据库作为抽取语料的资源库,在该资源库中每一种蛋白质都有唯一的描述其属性和功能的蛋白质网页;采用网页爬虫技术抓取蛋白质网页中的无结构信息和半结构信息;其中,无结构信息为纯文字描述段落;半结构信息为在网页中以表格形式存在的且每个方格中以短语或单词为文本内容的信息;
步骤二:使用自然语言处理工具集合Stanza进行医疗实体检测和提取
先使用工具集合Stanza中的分句工具将收集到的无结构信息文本段落进行分句得到句子集合,对每个句子进行实体检测;使用工具集合Stanza自带的五种不同命名实体模型对每个句子进行检测分别输出五个实体集合检测结果,取这五个结果的实体并集作为最终得到的实体集合;
步骤三:制定语法规则提取实体间关系并存储为三元组集合形式
使用句法分析工具Spacy对于每个句子进行句法分析以得到句中每个词的词性和与其他词汇的依赖关系;在得到实体集合后,制定语法规则来抽取两两实体之间的关系,语法规则为将每个句子的主语作为头实体,所述头实体为蛋白质名称,谓语作为关系,宾语作为尾实体,最终得到三元组集合;
步骤四:制定关系合并规则并使用近义词合并限制关系数量
建立字典将三元组中含义或角色功能相似的关系词使用相同的动词表示,所述动词称为标准关系词,字典的键key是标准关系词,值value是原本的关系词列表;使用词向量模型wordnet的近义词工具将关系词列表中的每个词的近义词也添加到关系词列表中;
步骤五:根据UMLS知识库实体标准化
使用自然语言处理工具scispaCy将实体标准化为数据库UMLS的标准实体,得到标准三元组集合;
步骤六:使用大型三元组数据集BioRel对标准三元组集合进行扩充
使用大型三元组数据集BioRel的三元组数据集对标准三元组集合进行扩展,加入数据集BioRel中首尾实体皆在原标准三元组集合中出现过的三元组,得到扩展三元组集合;将扩展三元组集合作为构建的知识图谱,并使用NetworkX工具对知识图谱进行可视化;
步骤七:使用基于旋转思想的模型架构RotatE将知识图谱进行向量化
使用基于旋转思想的模型架构RotatE将知识图谱进行向量化;在初始化实体向量时,使用预训练的句子向量生成模型sentence-BERT将该实体在UMLS中的定义句子转化为向量形式作为实体向量的初始化形式;训练完成后得到一个向量化模型,扩展三元组数据集中的包括蛋白质在内的所有实体在训练好的向量化模型中都得到一个实体向量,最终得到蛋白质向量;所述向量化模型具有如下结构:对输入的三元组中的头尾实体和关系实体分配初始化向量,三个向量经过评分函数和负采样层得到正样本评分和负样本评分,两种评分经过损失计算层得到损失值,训练时通过最小化损失值更新向量权重值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111140313.3A CN113963748B (zh) | 2021-09-28 | 2021-09-28 | 一种蛋白质知识图谱向量化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111140313.3A CN113963748B (zh) | 2021-09-28 | 2021-09-28 | 一种蛋白质知识图谱向量化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113963748A CN113963748A (zh) | 2022-01-21 |
CN113963748B true CN113963748B (zh) | 2023-08-18 |
Family
ID=79462597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111140313.3A Active CN113963748B (zh) | 2021-09-28 | 2021-09-28 | 一种蛋白质知识图谱向量化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963748B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131208B (zh) * | 2023-10-24 | 2024-02-02 | 北京中企慧云科技有限公司 | 产业科技文本数据推送方法、装置、设备和介质 |
CN117668763B (zh) * | 2024-01-31 | 2024-05-31 | 深圳市鸿普森科技股份有限公司 | 基于多模态的数字人一体机及其多模态感知识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
CN112115261A (zh) * | 2020-08-21 | 2020-12-22 | 浙江工商大学 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
WO2021008180A1 (zh) * | 2019-07-16 | 2021-01-21 | 扬州大学 | 面向软件缺陷知识的知识搜索方法 |
CN112836064A (zh) * | 2021-02-24 | 2021-05-25 | 吉林大学 | 知识图谱补全方法、装置、存储介质及电子设备 |
-
2021
- 2021-09-28 CN CN202111140313.3A patent/CN113963748B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
WO2021008180A1 (zh) * | 2019-07-16 | 2021-01-21 | 扬州大学 | 面向软件缺陷知识的知识搜索方法 |
CN110825881A (zh) * | 2019-09-26 | 2020-02-21 | 中国电力科学研究院有限公司 | 一种建立电力知识图谱的方法 |
CN111160564A (zh) * | 2019-12-17 | 2020-05-15 | 电子科技大学 | 一种基于特征张量的中文知识图谱表示学习方法 |
CN112115261A (zh) * | 2020-08-21 | 2020-12-22 | 浙江工商大学 | 基于对称和互逆关系统计的知识图谱数据扩展方法 |
CN112836064A (zh) * | 2021-02-24 | 2021-05-25 | 吉林大学 | 知识图谱补全方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
一种结合实体邻居信息的知识表示模型;洪锦堆;陈伟;赵雷;;小型微型计算机系统(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113963748A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nasar et al. | Named entity recognition and relation extraction: State-of-the-art | |
Song et al. | Deep learning methods for biomedical named entity recognition: a survey and qualitative comparison | |
CN109446338B (zh) | 基于神经网络的药物疾病关系分类方法 | |
Peng et al. | A review of sentiment analysis research in Chinese language | |
Alwaneen et al. | Arabic question answering system: a survey | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN110309268B (zh) | 一种基于概念图的跨语言信息检索方法 | |
Osman et al. | Graph-based text representation and matching: A review of the state of the art and future challenges | |
CN113963748B (zh) | 一种蛋白质知识图谱向量化方法 | |
Puri et al. | An efficient Hindi text classification model using SVM | |
Hussein | Visualizing document similarity using n-grams and latent semantic analysis | |
Ahmad et al. | Machine and deep learning methods with manual and automatic labelling for news classification in bangla language | |
Ramachandran et al. | A Novel Method for Text Summarization and Clustering of Documents | |
Bunescu | Learning for information extraction: from named entity recognition and disambiguation to relation extraction | |
Lazemi et al. | ParsiPayesh: persian plagiarism detection based on semantic and structural analysis | |
Bruches et al. | A system for information extraction from scientific texts in Russian | |
Katsurai | Using word embeddings for library and information science research: A short survey | |
Ivanova | Cross-lingual and multilingual ontology mapping-survey | |
Shafi | An Urdu Semantic Tagger-Lexicons, Corpora, Methods and Tools | |
Francisco | Aspect Term Extraction in Aspect-Based Sentiment Analysis | |
Lahbari et al. | Exploring Sentence Embedding Representation for Arabic Question/Answering | |
SILVA | Extracting structured information from text to augment knowledge bases | |
Aghdam et al. | Persian Semantic Role Labeling Using Transfer Learning and BERT-Based Models | |
Taher et al. | Correlation Evaluation Scale Through Text Mining Algorithms and Implementation on the Kurdish Language: A Review | |
Mills et al. | A comparative survey on NLP/U methodologies for processing multi-documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |