CN112528045B - 基于开放百科图谱的领域图谱关系的判定方法及系统 - Google Patents
基于开放百科图谱的领域图谱关系的判定方法及系统 Download PDFInfo
- Publication number
- CN112528045B CN112528045B CN202011535423.5A CN202011535423A CN112528045B CN 112528045 B CN112528045 B CN 112528045B CN 202011535423 A CN202011535423 A CN 202011535423A CN 112528045 B CN112528045 B CN 112528045B
- Authority
- CN
- China
- Prior art keywords
- map
- graph
- relationship
- network model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000005096 rolling process Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 9
- 238000002790 cross-validation Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 15
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于开放百科图谱的领域图谱关系的判定方法及系统,其中,该判定方法包括:构建百科知识图谱;对图卷积网络模型进行训练;基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型。本发明的基于开放百科图谱的领域图谱关系的判定方法及系统能够将开放的百科知识进行领域迁移,对非结构化构建的领域图谱进行关系增强,能在不进行语料标注的情况下快速完成高质量的关系图谱的构建以及关系判定。
Description
技术领域
本发明是关于自然语言处理技术领域,特别是关于一种基于开放百科图谱的领域图谱关系的判定方法及系统。
背景技术
关系抽取是信息抽取中的一项重要任务,也是知识图谱构建的核心算法模块。关系抽取重点在于关系的分类技术,旨在将实体对之间的关系进行分类,形成实体关系三元组,从而为知识图谱的构建提供结构化的数据基础。
目前领域图谱的构建往往基于结构化的数据,对于非结构化数据,目前关系抽取技术往往依赖监督学习方法,需要大量的标注数据,因此在大规模非结构化文本快速构建中,往往采用一些规则定义或者简单的共现。简单的规则判断虽然能够快速构建出图谱,但是构建质量不高、噪声较大,也难以进行知识图谱的推理和计算。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于开放百科图谱的领域图谱关系的判定方法及系统,能够将开放的百科知识进行领域迁移,对非结构化构建的领域图谱进行关系增强,能在不进行语料标注的情况下快速完成高质量的关系图谱的构建以及关系判定。
为实现上述目的,本发明提供了一种基于开放百科图谱的领域图谱关系的判定方法,其包括:构建百科知识图谱;对图卷积网络模型进行训练;基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型。
在本发明的一实施方式中,所述构建百科知识图谱包括:根据百科的分类、标签从百科词条中筛选出与百科实体相关的各个词条;根据所述各个词条以及所述各个词条的描述信息对所述各个词条进行实体抽取;从百科中的半结构化的词条属性信息中抽取出关系类型属性值;根据所述关系类型属性值将所述各个词条划分为一个或多个实体关系三元组,其中,所述实体关系三元组由第一实体、第一实体和第二实体的关系类型属性值、以及所述第二实体组成;对各个所述实体关系三元组的关系类型属性值进行归一化处理;将抽取出的各个实体作为节点、关系类型属性值作为边,从而构建出所述百科知识图谱。
在本发明的一实施方式中,对图卷积网络模型进行训练包括:若领域图谱中具有人工标注的结构化的三元组数据,则将所述人工标注的结构化的三元组数据作为验证集;采用所述验证集对所述图卷积网络模型的参数进行优化。
在本发明的一实施方式中,对所述图卷积网络模型进行训练包括:若领域图谱中不具有人工标注的结构化的三元组数据,则采用交叉验证的方式训练所述图卷积网络模型。
在本发明的一实施方式中,所述采用交叉验证的方式训练所述图卷积网络模型包括:在所述百科知识图谱中忽略边的关系类型,生成第一邻接矩阵;在所述百科知识图谱中保留边的关系类型,生成第二邻接矩阵,其中,所述第二邻接矩阵是异构邻接矩阵;采用传统GCN工具对所述第一邻接矩阵进行迭代训练,生成第一图卷积网络模型;采用传统GCN工具对所述第二邻接矩阵进行迭代训练,生成第二图卷积网络模型以及边的语义嵌入表示。
在本发明的一实施方式中,基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型包括:加载所述第一图卷积网络模型;在所述领域图谱中忽略边的关系类型,生成第三邻接矩阵;根据所述第一图卷积网络模型以及所述第三邻接矩阵对所述领域图谱中的两个实体之间的关系进行链接预测,输出预测概率;将所述预测概率与预设阈值进行比较,若所述预测概率高于所述预设阈值,则判定两个实体之间具有确定的关系;根据所述百科知识图谱判断具有确定的关系的两个实体之间的关系类型,若所述百科知识图谱中的该两个实体之间的关系类型是唯一的,则将该唯一的关系类型确定为该两个实体之间的关系类型。
在本发明的一实施方式中,所述判定方法还包括:若所述百科知识图谱中的该两个实体之间的关系类型不是唯一的,则借助关系线索进行消歧,其中,所述借助关系线索进行消歧包括:从所述第二图卷积网络模型中加载所述边的语义嵌入表示;读取并加载该两个实体之间的原始文本,且根据该原始文本获取关系线索集合;将所述关系线索集合转化为多个线索语义向量,其中,一个关系线索对应一个线索语义向量;采用余弦相似度算法计算每个所述线索语义向量和所述边的语义嵌入表示向量之间的语义相似度值,将最大的所述语义相似度值所对应的关系线索确定为该两个实体之间的关系类型。
基于同样的发明构思,本发明还提供了一种基于开放百科图谱的领域图谱关系的判定系统,其包括:图谱构建模块用于构建百科知识图谱;模型训练模块用于对图卷积网络模型进行训练;关系类型确定模块与所述图谱构建模块以及所述模型训练模块均相耦合,用于基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型。
基于同样的发明构思,本发明还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述任一实施方式所述的判定方法的步骤。
基于同样的发明构思,本发明还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一实施方式所述的判定方法的步骤。
与现有技术相比,根据本发明的基于开放百科图谱的领域图谱关系的判定方法及系统,利用大规模的开放百科图谱数据训练图卷积网络,然后基于构建的领域图谱和图卷积网络对图谱的关系进行确认,从而在无标注语料的情况下,快速高效提高知识图谱的质量,且能够对非结构化构建的领域图谱进行关系增强,能够在不进行语料标注的情况下完成快速完成关系图谱的构建以及关系判定。
附图说明
图1是根据本发明一实施方式的基于开放百科图谱的领域图谱关系的判定方法的步骤组成;
图2是根据本发明一实施方式的构建百科知识图谱的步骤组成;
图3是根据本发明一实施方式的基于开放百科图谱的领域图谱关系的判定系统的模块组成。
具体实施方式
下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
图1是根据本发明一实施方式的基于开放百科图谱的领域图谱关系的判定方法,其包括:步骤S1~步骤S3。
在步骤S1中构建百科知识图谱。
图2所示,构建百科知识图谱具体包括:步骤S101~步骤S106。
在步骤S101中根据百科的分类、标签从百科词条中筛选出与百科实体相关的各个词条。比如在百度百科中,有政治人物、飞机、武器类似的标签。
在步骤S102中根据所述各个词条以及所述各个词条的描述信息对所述各个词条进行实体抽取。具体地,可以基于BiLSTM+CRF深度学习实体抽取方法,对该百科词条的描述信息进行实体抽取,从而判断当前百科词条的实体类型,如该词条属于人物、地点、组织等实体。
在步骤S103中从百科中的半结构化的词条属性信息中抽取出关系类型属性值。在百科中都有半结构化的词条属性信息,即infobox信息,如人的年龄、性别、职务、主要经历等属性信息;词条属性信息中含有普通的属性(如性别、年龄等)和关系信息(父子、配偶、任职机构等),通过识别属性值的类型,从其中抽取出关系类的属性,组成实体关系三元组。
在步骤S104中根据所述关系类型属性值将所述各个词条划分为一个或多个实体关系三元组,其中,所述实体关系三元组由第一实体、第一实体和第二实体的关系类型属性值、以及所述第二实体组成。
在步骤S105中对各个所述实体关系三元组的关系类型属性值进行归一化处理。在百科中存在大量的属性多词一义的情况,比如妻子、配偶、老婆等,因此需要借助词林进行属性语义归一化处理,以此减少边类型的维度。
在步骤S106中将抽取出的各个实体作为节点、关系类型属性值作为边,从而构建出所述百科知识图谱。之后可以将所述百科知识图谱处理成标准的 RDF三元组格式存储。
在步骤S2中对图卷积网络模型进行训练。对图卷积网络模型进行训练包括:若领域图谱中具有人工标注的结构化的三元组数据,则将所述人工标注的结构化的三元组数据作为验证集,并采用所述验证集对所述图卷积网络模型的参数进行优化。另外,若领域图谱中不具有人工标注的结构化的三元组数据,则采用交叉验证的方式训练所述图卷积网络模型。
具体地,所述采用交叉验证的方式训练所述图卷积网络模型包括:在所述百科知识图谱中忽略边的关系类型,生成第一邻接矩阵,矩阵中的元素值为两个节点之间的关联权重,即两个节点在百科知识图谱中共同出现的次数,如果两个节点没有直接相连,矩阵的元素值为0,在形成邻接矩阵时,忽略掉关系类型,只保留实体关系的共现特性,以保持和领域图谱结构的一致性;在所述百科知识图谱中保留边的关系类型,生成第二邻接矩阵,其中,所述第二邻接矩阵是异构邻接矩阵;采用传统GCN工具对所述第一邻接矩阵进行迭代训练,生成第一图卷积网络模型;采用传统GCN工具对所述第二邻接矩阵进行迭代训练,生成第二图卷积网络模型以及边的语义嵌入表示。
在步骤S3中基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型。
基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型包括:加载所述第一图卷积网络模型;在所述领域图谱中忽略边的关系类型,生成第三邻接矩阵;根据所述第一图卷积网络模型以及所述第三邻接矩阵对所述领域图谱中的两个实体之间的关系进行链接预测,输出预测概率;将所述预测概率与预设阈值进行比较,若所述预测概率高于所述预设阈值,则判定两个实体之间具有确定的关系;根据所述百科知识图谱判断具有确定的关系的两个实体之间的关系类型,若所述百科知识图谱中的该两个实体之间的关系类型是唯一的,则将该唯一的关系类型确定为该两个实体之间的关系类型。
所述判定方法还包括:若所述百科知识图谱中的该两个实体之间的关系类型不是唯一的,则借助关系线索进行消歧。其中,所述借助关系线索进行消歧包括:从所述第二图卷积网络模型中加载所述边的语义嵌入表示;读取并加载该两个实体之间的原始文本,且根据该原始文本获取关系线索集合;将所述关系线索集合转化为多个线索语义向量,其中,一个关系线索对应一个线索语义向量。可选地,可以利用doc2vec等方法将线索集合转化为语义向量表示;采用余弦相似度算法计算每个所述线索语义向量和所述边的语义嵌入表示向量之间的语义相似度值,将最大的所述语义相似度值所对应的关系线索确定为该两个实体之间的关系类型。
基于同样的发明构思,如图3所示,一实施方式中还提供了一种基于开放百科图谱的领域图谱关系的判定系统,其包括:图谱构建模块10、模型训练模块11、关系类型确定模块12。
图谱构建模块10用于构建百科知识图谱。具体而言,所述图谱构建模块 10用于:根据百科的分类、标签从百科词条中筛选出与百科实体相关的各个词条;根据所述各个词条以及所述各个词条的描述信息对所述各个词条进行实体抽取;从百科中的半结构化的词条属性信息中抽取出关系类型属性值;根据所述关系类型属性值将所述各个词条划分为一个或多个实体关系三元组,其中,所述实体关系三元组由第一实体、第一实体和第二实体的关系类型属性值、以及所述第二实体组成;对各个所述实体关系三元组的关系类型属性值进行归一化处理;将抽取出的各个实体作为节点、关系类型属性值作为边,从而构建出所述百科知识图谱。
模型训练模块11用于对图卷积网络模型进行训练。
具体而言,所述模型训练模块11用于:若领域图谱中具有人工标注的结构化的三元组数据,则将所述人工标注的结构化的三元组数据作为验证集,并采用所述验证集对所述图卷积网络模型的参数进行优化;若领域图谱中不具有人工标注的结构化的三元组数据,则采用交叉验证的方式训练所述图卷积网络模型。
具体地,所述模型训练模块11采用交叉验证的方式训练所述图卷积网络模型包括:在所述百科知识图谱中忽略边的关系类型,生成第一邻接矩阵,矩阵中的元素值为两个节点之间的关联权重,即两个节点在百科知识图谱中共同出现的次数,如果两个节点没有直接相连,矩阵的元素值为0,在形成邻接矩阵时,忽略掉关系类型,只保留实体关系的共现特性,以保持和领域图谱结构的一致性;在所述百科知识图谱中保留边的关系类型,生成第二邻接矩阵,其中,所述第二邻接矩阵是异构邻接矩阵;采用传统GCN工具对所述第一邻接矩阵进行迭代训练,生成第一图卷积网络模型;采用传统GCN工具对所述第二邻接矩阵进行迭代训练,生成第二图卷积网络模型以及边的语义嵌入表示。
关系类型确定模块12与所述图谱构建模块10以及所述模型训练模块11 均相耦合,用于基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型。
具体地,所述关系类型确定模块12用于:加载所述第一图卷积网络模型;在所述领域图谱中忽略边的关系类型,生成第三邻接矩阵;根据所述第一图卷积网络模型以及所述第三邻接矩阵对所述领域图谱中的两个实体之间的关系进行链接预测,输出预测概率;将所述预测概率与预设阈值进行比较,若所述预测概率高于所述预设阈值,则判定两个实体之间具有确定的关系;根据所述百科知识图谱判断具有确定的关系的两个实体之间的关系类型,若所述百科知识图谱中的该两个实体之间的关系类型是唯一的,则将该唯一的关系类型确定为该两个实体之间的关系类型。
所述关系类型确定模块12还用于:若所述百科知识图谱中的该两个实体之间的关系类型不是唯一的,则借助关系线索进行消歧,其中,所述借助关系线索进行消歧包括:从所述第二图卷积网络模型中加载所述边的语义嵌入表示;读取并加载该两个实体之间的原始文本,且根据该原始文本获取关系线索集合;将所述关系线索集合转化为多个线索语义向量,其中,一个关系线索对应一个线索语义向量。可选地,可以利用doc2vec等方法将线索集合转化为语义向量表示;采用余弦相似度算法计算每个所述线索语义向量和所述边的语义嵌入表示向量之间的语义相似度值,将最大的所述语义相似度值所对应的关系线索确定为该两个实体之间的关系类型。
基于同样的发明构思,一实施方式中还提供了一种电子装置,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施方式的判定方法的步骤。
基于同样的发明构思,一实施方式中还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施方式的判定方法的步骤。
为了验证本发明的效果,一实施方式中,还进行了实验。实验中,一方面采用目前大量的科技新闻,构建了千万级实体数量规模的新闻图谱,虽然有一定的语料标注,但是在真正构建出的图谱中发现关系抽取的效果很不理想,共现关系仍然占有绝大多分数,且不少比例的关系类型判断也不对。另一方面借助本发明的方法进行实验,验证该方法是否对原有图谱具有大的改观。新闻图谱关注人物、地点、组织、产品等实体类型,以及之间的亲属、工作、高管、发布等关系。因此可以从百科中组织出这些类型的百科知识图谱,训练图卷积网络,从而利用图卷积网络和新闻线索对关系进行判断,发现判断准确性较高,而且知识图谱的质量较高。
综上,根据本实施方式的基于开放百科图谱的领域图谱关系的判定方法及系统,利用大规模的开放百科图谱数据训练图卷积网络,然后基于构建的领域图谱和图卷积网络对图谱的关系进行确认,从而在无标注语料的情况下,快速高效提高知识图谱的质量,且能够对非结构化构建的领域图谱进行关系增强,能够在不进行语料标注的情况下完成快速完成关系图谱的构建以及关系判定。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (4)
1.一种基于开放百科图谱的领域图谱关系的判定方法,其特征在于,包括:
构建百科知识图谱;
对图卷积网络模型进行训练;
基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型;
其中,对图卷积网络模型进行训练包括:
若领域图谱中具有人工标注的结构化的三元组数据,则将所述人工标注的结构化的三元组数据作为验证集;
采用所述验证集对所述图卷积网络模型的参数进行优化;
其中,对所述图卷积网络模型进行训练包括:
若领域图谱中不具有人工标注的结构化的三元组数据,则采用交叉验证的方式训练所述图卷积网络模型;
其中,所述采用交叉验证的方式训练所述图卷积网络模型包括:
在所述百科知识图谱中忽略边的关系类型,生成第一邻接矩阵;
在所述百科知识图谱中保留边的关系类型,生成第二邻接矩阵,其中,所述第二邻接矩阵是异构邻接矩阵;
采用传统GCN工具对所述第一邻接矩阵进行迭代训练,生成第一图卷积网络模型;
采用传统GCN工具对所述第二邻接矩阵进行迭代训练,生成第二图卷积网络模型以及边的语义嵌入表示;
其中,基于所述百科知识图谱以及训练后的所述图卷积网络模型确定出领域图谱的实体关系类型包括:
加载所述第一图卷积网络模型;
在所述领域图谱中忽略边的关系类型,生成第三邻接矩阵;
根据所述第一图卷积网络模型以及所述第三邻接矩阵对所述领域图谱中的两个实体之间的关系进行链接预测,输出预测概率;
将所述预测概率与预设阈值进行比较,若所述预测概率高于所述预设阈值,则判定两个实体之间具有确定的关系;
根据所述百科知识图谱判断具有确定的关系的两个实体之间的关系类型,若所述百科知识图谱中的该两个实体之间的关系类型是唯一的,则将该唯一的关系类型确定为该两个实体之间的关系类型;
所述判定方法还包括:若所述百科知识图谱中的该两个实体之间的关系类型不是唯一的,则借助关系线索进行消歧,
其中,所述借助关系线索进行消歧包括:
从所述第二图卷积网络模型中加载所述边的语义嵌入表示;
读取并加载该两个实体之间的原始文本,且根据该原始文本获取关系线索集合;
将所述关系线索集合转化为多个线索语义向量,其中,一个关系线索对应一个线索语义向量;
采用余弦相似度算法计算每个所述线索语义向量和所述边的语义嵌入表示向量之间的语义相似度值,将最大的所述语义相似度值所对应的关系线索确定为该两个实体之间的关系类型。
2.如权利要求1所述的基于开放百科图谱的领域图谱关系的判定方法,其特征在于,所述构建百科知识图谱包括:
根据百科的分类、标签从百科词条中筛选出与百科实体相关的各个词条;
根据所述各个词条以及所述各个词条的描述信息对所述各个词条进行实体抽取;
从百科中的半结构化的词条属性信息中抽取出关系类型属性值;
根据所述关系类型属性值将所述各个词条划分为一个或多个实体关系三元组,其中,所述实体关系三元组由第一实体、第一实体和第二实体的关系类型属性值、以及所述第二实体组成;
对各个所述实体关系三元组的关系类型属性值进行归一化处理;
将抽取出的各个实体作为节点、关系类型属性值作为边,从而构建出所述百科知识图谱。
3.一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述的判定方法的步骤。
4.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1或2所述的判定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011535423.5A CN112528045B (zh) | 2020-12-23 | 2020-12-23 | 基于开放百科图谱的领域图谱关系的判定方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011535423.5A CN112528045B (zh) | 2020-12-23 | 2020-12-23 | 基于开放百科图谱的领域图谱关系的判定方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528045A CN112528045A (zh) | 2021-03-19 |
CN112528045B true CN112528045B (zh) | 2024-04-02 |
Family
ID=74975803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011535423.5A Active CN112528045B (zh) | 2020-12-23 | 2020-12-23 | 基于开放百科图谱的领域图谱关系的判定方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528045B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
CN109446338A (zh) * | 2018-09-20 | 2019-03-08 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
CN110083838A (zh) * | 2019-04-29 | 2019-08-02 | 西安交通大学 | 基于多层神经网络与外部知识库的生物医学语义关系提取方法 |
CN110209832A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(北京)有限公司 | 上下位关系的判别方法、系统和计算机设备 |
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110688850A (zh) * | 2019-09-20 | 2020-01-14 | 北京三快在线科技有限公司 | 餐饮类型确定方法和装置 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
CN111709243A (zh) * | 2020-06-19 | 2020-09-25 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6922809B2 (en) * | 2001-01-25 | 2005-07-26 | International Business Machines Corporation | Method and apparatus providing capitalization recovery for text |
US10073840B2 (en) * | 2013-12-20 | 2018-09-11 | Microsoft Technology Licensing, Llc | Unsupervised relation detection model training |
US9996607B2 (en) * | 2014-10-31 | 2018-06-12 | International Business Machines Corporation | Entity resolution between datasets |
-
2020
- 2020-12-23 CN CN202011535423.5A patent/CN112528045B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN105956052A (zh) * | 2016-04-27 | 2016-09-21 | 青岛海尔软件有限公司 | 一种基于垂直领域的知识图谱的构建方法 |
CN107145503A (zh) * | 2017-03-20 | 2017-09-08 | 中国农业大学 | 基于word2vec的远监督非分类关系提取方法及系统 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
CN110209832A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(北京)有限公司 | 上下位关系的判别方法、系统和计算机设备 |
CN109446338A (zh) * | 2018-09-20 | 2019-03-08 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN110083838A (zh) * | 2019-04-29 | 2019-08-02 | 西安交通大学 | 基于多层神经网络与外部知识库的生物医学语义关系提取方法 |
CN110377747A (zh) * | 2019-06-10 | 2019-10-25 | 河海大学 | 一种面向百科网站的知识库融合方法 |
CN110688850A (zh) * | 2019-09-20 | 2020-01-14 | 北京三快在线科技有限公司 | 餐饮类型确定方法和装置 |
CN111639190A (zh) * | 2020-04-30 | 2020-09-08 | 南京理工大学 | 医疗知识图谱构建方法 |
CN111709243A (zh) * | 2020-06-19 | 2020-09-25 | 南京优慧信安科技有限公司 | 一种基于深度学习的知识抽取方法与装置 |
Non-Patent Citations (9)
Title |
---|
(印)苏雷什·库马尔·戈拉卡拉.《自己动手做推荐引擎》.机械工业出版社,2020,第79页. * |
一种利用语义相似特征提升细粒度情感分析方法;陈自岩;《计算机应用与软件》;全文 * |
互联网人物摘要知识图谱构建方法研究;魏玉良;《中国博士学位论文全文数据库 信息科技辑》;全文 * |
利用中文在线资源的远程监督人物关系抽取;潘云;布勒布丽汗・伊沙巴依;杨静;尹敏;;小型微型计算机系统(第04期);全文 * |
医学百科知识图谱构建;刘燕;《中华医学图书情报杂志》;论文第28-34页 * |
唐子惠.《医学人工智能导论》.上海科学技术出版社,2020,第223页. * |
基于句法语义特征的实体关系抽取技术;姚春华;《通信技术》;论文第1828-1835页 * |
结合百科知识与句子语义特征的关系抽取方法;吕亿林;田宏韬;高建伟;万怀宇;;计算机科学(第S1期);全文 * |
面向非结构化文本的开放式实体属性抽取;曾道建;来斯惟;张元哲;刘康;赵军;;江西师范大学学报(自然科学版)(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112528045A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241538B (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN107463548B (zh) | 短语挖掘方法及装置 | |
KR102034346B1 (ko) | 학습 기반의 비속어 탐지 장치 및 방법 | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
US20190317986A1 (en) | Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method | |
CN110188349A (zh) | 一种基于抽取式多文档摘要方法的自动化写作方法 | |
CN107832297B (zh) | 一种面向特征词粒度的领域情感词典构建方法 | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN111159412A (zh) | 分类方法、装置、电子设备及可读存储介质 | |
Bodrunova et al. | Topics in the Russian Twitter and relations between their interpretability and sentiment | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN114861636A (zh) | 文本纠错模型的训练方法及装置、文本纠错方法及装置 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN110866389B (zh) | 信息价值评估方法、装置、设备及计算机可读存储介质 | |
CN111859962A (zh) | 一种提取汽车口碑词云所需数据的方法及装置 | |
US20200175068A1 (en) | Method and system to extract domain concepts to create domain dictionaries and ontologies | |
CN112528045B (zh) | 基于开放百科图谱的领域图谱关系的判定方法及系统 | |
US20160078036A1 (en) | Building a Domain Knowledge and Term Identity Using Crowd Sourcing | |
CN114153951A (zh) | 用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质 | |
KR101240330B1 (ko) | 다차원 문서 분류 시스템 및 방법 | |
CN112487214A (zh) | 基于实体共现矩阵的知识图谱关系抽取方法及系统 | |
CN111930880A (zh) | 一种文本编码检索的方法、装置及介质 | |
CN112287215A (zh) | 一种智能就业推荐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |