CN113032582A - 一种基于知识图谱建立实体统一模型及实体统一方法 - Google Patents
一种基于知识图谱建立实体统一模型及实体统一方法 Download PDFInfo
- Publication number
- CN113032582A CN113032582A CN202110421927.2A CN202110421927A CN113032582A CN 113032582 A CN113032582 A CN 113032582A CN 202110421927 A CN202110421927 A CN 202110421927A CN 113032582 A CN113032582 A CN 113032582A
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- description
- vector
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 56
- 239000013604 expression vector Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000010200 validation analysis Methods 0.000 claims abstract description 3
- 239000004576 sand Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 4
- 238000011985 exploratory data analysis Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 13
- 239000000126 substance Substances 0.000 description 13
- 238000010276 construction Methods 0.000 description 7
- 239000013589 supplement Substances 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱建立实体统一模型的方法,所述方法包括:构建实体基于描述信息的第一训练数据和基于结构信息的第二训练;采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;采用BERT+Bi‑LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量,其中,所述BERT+Bi‑LSTM模型后接CRF层对编码进行命名实体识别;将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi‑LSTM模型训练;将训练完成的所述BERT+Bi‑LSTM模型作为实体统一模型。
Description
技术领域
本申请涉及知识图谱领域,尤其涉及一种基于知识图谱建立实体统一模型及实体统一方法。
背景技术
知识图谱本质上是一种语义网络的知识库,是一种基于图的数据结构,由节点和边组成。近年来,面向特定领域知识图谱的构建也越来越受到关注。面向特定领域,基于行业数据及领域内专家提供的相关知识构建行业知识图谱,将不同种类的信息相连接得到一个实体之间的关系网络,为特定领域提供了从“关联关系”的角度去分析推理问题的方式。
目前,由于化工行业专业性较强,知识图谱在化工行业的应用还较为少见,化工行业知识图谱构建后,知识的补充主要依靠纯文本的信息抽取而产生。信息抽取出的实体需要经过实体统一等环节清洗掉错误和冗的数据。在以往的知识补充环节,实体统一往往依靠计算实体字符串之间的相似度,或将实体通过预训练模型、TF-IDF等模型转化为向量进行向量间的相似度计算,当相似度大于一定阈值时即判定为同一实体。但由于化工行业中化学物品、相关器械设备的名称较为相似,常用的实体统一方法并不能达到较好的效果。另外,知识图谱的构建过程中,往往需要采用知识表示模型将已有的实体、关系等信息转化为向量,方便后续进行链路预测、三元组的验证等工作。但常用的知识表示模型只能将已知的实体与关系转化为向量,难以扩展。通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量。鉴于此,需要一种或多种实体统一方法针对化工知识图谱这一特定情况改善知识表示模型的构建策略以及知识补充中实体统一的方法,将语义信息与图结构信息融合,以提高实体统一的准确率和知识表示的可扩展性。
发明内容
本申请要解决的技术问题,在于提供一种基于知识图谱建立实体统一模型及实体统一方法,以解决现有知识表示模型只能将已知的实体与关系转化为向量,而通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量的技术问题。
为实现上述目的,本申请采用下述技术方案:
第一方面,本申请提供一种基于知识图谱建立实体统一模型的方法,所述方法包括:
构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据,其中,所述描述信息包括描述语料和命名语料,所述描述语料通过知识图谱的结构化数据中获得,所述命名语料通过知识图谱的非结构化数据获得,所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得,其中,所述实体以三元组数据的头实体、关系以及尾实体表示;
采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;
采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量,其中,所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别;
将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练,其中,所述BERT+Bi-LSTM模型训练的损失函数为:
L=Loss1+Loss2,其中,Loos1为命名实体识别的损失函数,Loos2为基于所述TransH模型的评分函数,Loss2=ES+ED,其中,ES是基于所述结构表示向量的三元组评分函数,其中γ>0是一个边缘超参数,T是事实三元组样本集,T′是T的负样本集,负样本集的产生规则依与所述TransH模型样本生成规则相同,ED为基于所述描述信息的三元组评分函数,ED共有三部分组成,即将头实体向量和尾实体向量都改为基于所述描述表示向量hd和td产生一个评分,分别将hs和ts的其中一个使用基于所述描述信息表示,另一个保持不变产生两个评分,将三个评分取平均作为基于所述描述信息的三元组评分函数,
将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。
第二方面,本申请提供一种实体统一方法,应用于知识补充阶段,所述方法包括:
对非结构化文本信息进行信息抽取时,基于所述实体统一模型进行命名实体识别获得至少一个第一实体;
当所述至少一个第一实体不存在已有的知识图谱实体数据中时,将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量;
将所述至少一个第一实体的表示向量依次与知识图谱中相同类型的实体的结构表示向量进行余弦相似度比较,当余弦相似度超过预设阈值时,所述至少一个第一实体与相同类型的实体为同一实体;
当余弦相似度不超过预设阈值时,将所述至少一个第一实体的表示向量作为其结构表示向量,与知识图谱中的其他实体及关系进行知识融合的链路预测。
第三方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第一方面所述的基于知识图谱建立实体统一模型的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第二方面所述的实体统一方法。
本申请的有益效果是:本申请提供一种基于知识图谱建立实体统一模型及实体统一方法,针对化工知识图谱这一特定情况改善知识表示模型的构建策略以及知识补充中实体统一的方法,将语义信息与图结构信息融合,提高实体统一的准确率和知识表示的可扩展性。
附图说明
图1为本申请一个实施例提供的一种基于知识图谱建立实体统一模型的方法的流程示意图;
图2为本申请一个实施例提供的获取所述地震类微博数据的关键词组的方法的流程示意图;
图3为本申请本申请一个实施例提供的BERT+Bi-LSTM模型的结构示意图。
具体实施方式
下面通过具体实施例,并结合附图,对本申请的技术方案作进一步的具体描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,由于化工行业专业性较强,知识图谱在化工行业的应用还较为少见,化工行业知识图谱构建后,知识的补充主要依靠纯文本的信息抽取而产生。信息抽取出的实体需要经过实体统一等环节清洗掉错误和冗的数据。在以往的知识补充环节,实体统一往往依靠计算实体字符串之间的相似度,或将实体通过预训练模型、TF-IDF等模型转化为向量进行向量间的相似度计算,当相似度大于一定阈值时即判定为同一实体。但由于化工行业中化学物品、相关器械设备的名称较为相似,常用的实体统一方法并不能达到较好的效果。另外,知识图谱的构建过程中,往往需要采用知识表示模型将已有的实体、关系等信息转化为向量,方便后续进行链路预测、三元组的验证等工作。但常用的知识表示模型只能将已知的实体与关系转化为向量,难以扩展。通过信息抽取产生的新实体难以通过已有的知识表示模型转化为向量。鉴于此,需要一种或多种实体统一方法针对化工知识图谱这一特定情况改善知识表示模型的构建策略以及知识补充中实体统一的方法,将语义信息与图结构信息融合,以提高实体统一的准确率和知识表示的可扩展性。
以下结合附图,详细说明本申请中各实施例提供的技术方案。
请参阅附图1,其示出了本申请一个实施例提供的一种基于知识图谱建立实体统一模型的方法的流程示意图,所述方法包括:
S101,构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据;
其中,所述描述信息包括描述语料和命名语料,所述描述语料通过知识图谱的结构化数据中获得,所述命名语料通过知识图谱的非结构化数据获得,所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得,其中,所述实体以三元组数据的头实体、关系以及尾实体表示。
S102,采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;
S103,采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量;
其中,所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别。
S104,将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练;
其中,所述BERT+Bi-LSTM模型训练的损失函数为:
L=Loss1+Loss2,其中,Loos1为命名实体识别的损失函数,Loos2为基于所述TransH模型的评分函数,Loss2=ES+ED,其中,ES是基于所述结构表示向量的三元组评分函数,其中γ>0是一个边缘超参数,T是事实三元组样本集,T′是T的负样本集,负样本集的产生规则依与所述TransH模型样本生成规则相同,ED为基于所述描述信息的三元组评分函数,ED共有三部分组成,即将头实体向量和尾实体向量都改为基于所述描述表示向量hd和td产生一个评分,分别将hs和ts的其中一个使用基于所述描述信息表示,另一个保持不变产生两个评分,将三个评分取平均作为基于所述描述信息的三元组评分函数,
BERT+Bi-LSTM模型期望将事实三元组的结构信息和实体的描述信息相结合,因此在BERT+Bi-LSTM模型构造阶段,由于翻译模型TransH的三元组验证主要采用的是实体的结构信息,而命名实体识别则采用的是文本的描述信息,因此将TransH模型的三元组验证与实体描述信息的命名实体识别任务相结合,对这两个任务同时进行训练学习,使得两种类型的表示相互促进达到最优。
BERT+Bi-LSTM模型训练阶段,由损失函数公式可知,BERT+Bi-LSTM模型训练每次需要一组正确的三元组和一组随机替换了一个实体(头实体或尾实体)使三元组不成立的负样本,即每次需要对三个实体的描述信息进行编码。
BERT+Bi-LSTM模型中实体的编码由从结构信息得到的编码和从实体的描述信息得到的编码两部分组成,关系编码仅采用结构编码。
S105,将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。
如附图2所示,其示出了本申请一个实施例提供的BERT+Bi-LSTM模型的结构示意图。
在一个实施例中,所述描述语料通过知识图谱的结构化数据中获得包括:
基于所述知识图谱的结构化数据,选取所述实体的描述文本作为所述描述语料,其中,所述描述文本至少包括所述实体的名称;
当所述实体不存在描述文本或所述描述文本中不包括所述实体的名称时,通过构建的描述生成文本生成所述描述语料。
一般性地,实体的描述文本通常为实体的“简介”,该描述文本中至少包括实体的名称。
在一个实施例中,所述命名语料通过知识图谱的非结构化数据获得包括:
在构建所述知识图谱时,对所述非结构化数据进行命名实体的识别,获得所述命名语料。
在一个实施例中,采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量包括:
对事实三元组样本集T和负样本集T′中不重复的三个所述实体的描述文本进行拼接,获得一个长句子输入所述BERT+Bi-LSTM模型,按照字拆分得到每个字的字向量,将三个所述实体的字向量的平均值作为每个所述实体的描述表示向量。
在一个实施例中,当获得每个字的子向量后,将每个字的字向量直接输入CRF层解码进行命名实体识别任务的训练。
在一个实施例中,采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量包括:
采用所述TransH模型的编码方式针对每一个关系r,都给出一个超平面Wr,在Wr超平面上定义关系向量dr,对于任一所述结构信息的三元组数据(h,r,t),头实体h和尾实体t都可以映射到超平面上产生实体向量hs,ts。每个所述结构信息的三元组数据都应满足
hs+dr=ts
通过该映射关系,可以分别得到头实体hs和尾实体ts以及关系r的结构表示向量,hs=hs-ωThsω
ts=ts-ωTtsω
其中ω为关系平面上的单位法向量。
请参阅附图3,其示出了本申请一个实施例提供的基于实体统一模型进行实体统一方法的流程示意图,应用于知识补充阶段,所述方法包括:
S301,对非结构化文本信息进行信息抽取时,基于所述实体统一模型进行命名实体识别获得至少一个第一实体;
S302,当所述至少一个第一实体不存在已有的知识图谱实体数据中时,将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量;
针对步骤S302,将所述至少一个第一实体基于所述实体统一模型获得的编码中所述至少一个第一实体所在位置的字向量进行平均,获得所述至少一个第一实体的表示向量。
S303,将所述至少一个第一实体的表示向量依次与知识图谱中相同类型的实体的结构表示向量进行余弦相似度比较;
S304,当余弦相似度超过预设阈值时,所述至少一个第一实体与相同类型的实体为同一实体;
S305,当余弦相似度不超过预设阈值时,将所述至少一个第一实体的表示向量作为其结构表示向量,与知识图谱中的其他实体及关系进行知识融合的链路预测。
在一个实施例中,本申请还提供了一种计算机可读存储介质,计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行时实现本申请实施例中所述任一知识图谱建立实体统一模型方法或实体统一方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中,所述的至少一条指令、至少一段程序、代码集或指令集在执行时,可实现本申请实施例中所述任一地图绘制方法的步骤。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,这些均属于本申请的保护范围之内。
Claims (10)
1.一种基于知识图谱建立实体统一模型的方法,其特征是,所述方法包括:
构建实体基于描述信息的第一训练数据和基于结构信息的第二训练数据,其中,所述描述信息包括描述语料和命名语料,所述描述语料通过知识图谱的结构化数据中获得,所述命名语料通过知识图谱的非结构化数据获得,所述结构信息通过翻译模型中的TransH模型进行所述实体的结构信息的表示获得,其中,所述实体以三元组数据的头实体、关系以及尾实体表示;
采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量;采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量,其中,所述BERT+Bi-LSTM模型后接CRF层对编码进行命名实体识别;
将所述结构表示向量与所述描述表示向量结合进行三元组验证所述BERT+Bi-LSTM模型训练,其中,所述BERT+Bi-LSTM模型训练的损失函数为:
L=Loss1+Loss2,其中,Loos1为命名实体识别的损失函数,Loos2为基于所述TransH模型的评分函数,Loss2=ES+ED,其中,ES是基于所述结构表示向量的三元组评分函数,其中γ>0是一个边缘超参数,T是事实三元组样本集,T′是T的负样本集,负样本集的产生规则依与所述TransH模型样本生成规则相同,ED为基于所述描述信息的三元组评分函数,ED共有三部分组成,即将头实体向量和尾实体向量都改为基于所述描述表示向量hd和td产生一个评分,分别将hs和ts的其中一个使用基于所述描述信息表示,另一个保持不变产生两个评分,将三个评分取平均作为基于所述描述信息的三元组评分函数,
将训练完成的所述BERT+Bi-LSTM模型作为实体统一模型。
2.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,所述描述语料通过知识图谱的结构化数据中获得包括:
基于所述知识图谱的结构化数据,选取所述实体的描述文本作为所述描述语料,其中,所述描述文本至少包括所述实体的名称;
当所述实体不存在描述文本或所述描述文本中不包括所述实体的名称时,通过构建的描述生成文本生成所述描述语料。
3.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,所述命名语料通过知识图谱的非结构化数据获得包括:
在构建所述知识图谱时,对所述非结构化数据进行命名实体的识别,获得所述命名语料。
4.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,采用BERT+Bi-LSTM模型对所述头实体和所述尾实体的描述信息进行编码获得描述表示向量包括:
对事实三元组样本集T和负样本集T′中不重复的三个所述实体的描述文本进行拼接,获得一个长句子输入所述BERT+Bi-LSTM模型,按照字拆分得到每个字的字向量,将三个所述实体的字向量的平均值作为每个所述实体的描述表示向量。
5.根据权利要求1所述的一种知识图谱建立实体统一模型的方法,其特征是,采用所述TransH模型分别获得所述头实体、关系以及尾实体的结构表示向量包括:
采用所述TransH模型的编码方式针对每一个关系r,都给出一个超平面Wr,在Wr超平面上定义关系向量dr,对于任一所述结构信息的三元组数据(h,r,t),头实体h和尾实体t都可以映射到超平面上产生实体向量hs,ts。每个所述结构信息的三元组数据都应满足
hs+dr=ts
通过该映射关系,可以分别得到头实体hs和尾实体ts以及关系r的结构表示向量,
hs=hs-ωThsω
ts=ts-ωTtsω
其中ω为关系平面上的单位法向量。
6.根据权利要求4所述的一种知识图谱建立实体统一模型的方法,其特征是,将每个字的字向量直接输入CRF层解码进行命名实体识别任务的训练。
7.一种基于权利要求1-6任一所述的实体统一模型进行实体统一方法,应用于知识补充阶段,其特征是,所述方法包括:
对非结构化文本信息进行信息抽取时,基于所述实体统一模型进行命名实体识别获得至少一个第一实体;
当所述至少一个第一实体不存在已有的知识图谱实体数据中时,将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量;
将所述至少一个第一实体的表示向量依次与知识图谱中相同类型的实体的结构表示向量进行余弦相似度比较,当余弦相似度超过预设阈值时,所述至少一个第一实体与相同类型的实体为同一实体;
当余弦相似度不超过预设阈值时,将所述至少一个第一实体的表示向量作为其结构表示向量,与知识图谱中的其他实体及关系进行知识融合的链路预测。
8.根据权利要求7所述的实体统一方法,其特征是,将所述至少一个第一实体基于所述实体统一模型获得所述至少一个第一实体的表示向量包括:
将所述至少一个第一实体基于所述实体统一模型获得的编码中所述至少一个第一实体所在位置的字向量进行平均,获得所述至少一个第一实体的表示向量。
9.一种计算机可读存储介质,其特征是,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如权利要求1-6任一项权利要求所述的基于知识图谱建立实体统一模型的方法。
10.一种计算机可读存储介质,其特征是,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集,所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如权利要求7-8任一项权利要求所述的实体统一方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110421927.2A CN113032582A (zh) | 2021-04-20 | 2021-04-20 | 一种基于知识图谱建立实体统一模型及实体统一方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110421927.2A CN113032582A (zh) | 2021-04-20 | 2021-04-20 | 一种基于知识图谱建立实体统一模型及实体统一方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113032582A true CN113032582A (zh) | 2021-06-25 |
Family
ID=76457642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110421927.2A Pending CN113032582A (zh) | 2021-04-20 | 2021-04-20 | 一种基于知识图谱建立实体统一模型及实体统一方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032582A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626610A (zh) * | 2021-08-10 | 2021-11-09 | 南方电网数字电网研究院有限公司 | 知识图谱嵌入方法、装置、计算机设备和存储介质 |
CN115757837A (zh) * | 2023-01-04 | 2023-03-07 | 军工保密资格审查认证中心 | 知识图谱的置信度评估方法、装置、电子设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033129A (zh) * | 2018-06-04 | 2018-12-18 | 桂林电子科技大学 | 基于自适应权重的多源信息融合知识图谱表示学习方法 |
CN110232186A (zh) * | 2019-05-20 | 2019-09-13 | 浙江大学 | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 |
CN111191452A (zh) * | 2019-12-24 | 2020-05-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种铁路文本命名实体识别方法及装置 |
CN111339321A (zh) * | 2020-05-18 | 2020-06-26 | 中国人民解放军国防科技大学 | 知识图谱中三元组真实性检测方法和装置 |
-
2021
- 2021-04-20 CN CN202110421927.2A patent/CN113032582A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033129A (zh) * | 2018-06-04 | 2018-12-18 | 桂林电子科技大学 | 基于自适应权重的多源信息融合知识图谱表示学习方法 |
CN110232186A (zh) * | 2019-05-20 | 2019-09-13 | 浙江大学 | 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法 |
CN111191452A (zh) * | 2019-12-24 | 2020-05-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 一种铁路文本命名实体识别方法及装置 |
CN111339321A (zh) * | 2020-05-18 | 2020-06-26 | 中国人民解放军国防科技大学 | 知识图谱中三元组真实性检测方法和装置 |
Non-Patent Citations (2)
Title |
---|
RUOBING XIE ET AL.: "Representation Learning of Knowledge Graphs with Entity Descriptions", 《THIRTIETH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE TECHNICAL PAPERS》, 5 March 2016 (2016-03-05), pages 2659 - 2665 * |
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 北京理工大学出版社, pages: 167 - 169 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626610A (zh) * | 2021-08-10 | 2021-11-09 | 南方电网数字电网研究院有限公司 | 知识图谱嵌入方法、装置、计算机设备和存储介质 |
CN115757837A (zh) * | 2023-01-04 | 2023-03-07 | 军工保密资格审查认证中心 | 知识图谱的置信度评估方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN110795911B (zh) | 在线文本标签的实时添加方法、装置及相关设备 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
US11113335B2 (en) | Dialogue system and computer program therefor | |
CN113791757B (zh) | 软件需求和代码映射方法及系统 | |
CN113032582A (zh) | 一种基于知识图谱建立实体统一模型及实体统一方法 | |
US20220414332A1 (en) | Method and system for automatically generating blank-space inference questions for foreign language sentence | |
CN110930993A (zh) | 特定领域语言模型生成方法及语音数据标注系统 | |
WO2021000512A1 (zh) | 自然语言转换成程序语言的方法、装置及计算机设备 | |
CN113590784A (zh) | 三元组信息抽取方法、装置、电子设备、及存储介质 | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN110929510A (zh) | 一种基于字典树的中文未登录词识别方法 | |
CN113177123A (zh) | 文本转sql模型的优化方法及系统 | |
Fusayasu et al. | Word-error correction of continuous speech recognition based on normalized relevance distance | |
CN115658846A (zh) | 一种适用于开源软件供应链的智能搜索方法及装置 | |
CN111831792B (zh) | 一种电力知识库构建方法及系统 | |
CN114266258B (zh) | 一种语义关系提取方法、装置、电子设备及存储介质 | |
CN116340507A (zh) | 一种基于混合权重和双通道图卷积的方面级情感分析方法 | |
CN111831910A (zh) | 一种基于异构网络的引文推荐算法 | |
CN114579605B (zh) | 表格问答数据处理方法、电子设备及计算机存储介质 | |
CN108170679B (zh) | 基于计算机可识别自然语言描述的语义匹配方法及系统 | |
Zarembo et al. | Assessment of name based algorithms for land administration ontology matching | |
CN113190690B (zh) | 无监督知识图谱推理处理方法、装置、设备和介质 | |
CN114330319A (zh) | 实体处理方法、装置、电子设备及存储介质 | |
CN113128224B (zh) | 一种中文纠错方法、装置、设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210625 |