CN111339321B - 知识图谱中三元组真实性检测方法和装置 - Google Patents
知识图谱中三元组真实性检测方法和装置 Download PDFInfo
- Publication number
- CN111339321B CN111339321B CN202010417038.4A CN202010417038A CN111339321B CN 111339321 B CN111339321 B CN 111339321B CN 202010417038 A CN202010417038 A CN 202010417038A CN 111339321 B CN111339321 B CN 111339321B
- Authority
- CN
- China
- Prior art keywords
- vector
- triple
- knowledge graph
- word
- capsule network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种知识图谱中三元组真实性检测方法和装置。所述方法包括:从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量,将第一向量和第二向量进行融合,得到融合向量,根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数,根据评分函数,构建用于训练胶囊网络的损失函数,根据融合向量构建样本集,根据样本集和损失函数对胶囊网络模型进行训练,得到训练好的胶囊网络,将待预测三元组对应的融合向量输入训练好的胶囊网络,根据评分函数的输出值,确定三元组的关系是否准确。采用本方法能够提高三元组真实性检测的准确率。
Description
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种知识图谱中三元组真实性检测方法和装置。
背景技术
自Google于2012年首次提出知识图谱的概念以来,它就以非常快的速度在人工智能领域发展。如今,与知识图谱相关的研究和工作在人工智能的各个领域中都发挥了举足轻重的作用。就其本身而言,知识图谱通常以三元组(head, relation, tail)的方式存储。三元组可显示图谱内部结构和关系的特征。近年来,关于表示学习,关系预测和图谱补全的研究是基础部分。它们也是知识图谱中最重要的部分。有许多相关方法,例如TransE(Bordes et al., 2013), DistMult (Yang et al., 2014), ComplEx (Trouillon etal., 2016), ProjE (Shi and Weninger, 2017b) and RDF2Vec (Ristoski andPaulheim, 2016).这些方法的共同特点是对三元组真实性的判断。有些人还使用胶囊网络(Dai Quoc Nguyen et al., 2019)来判断知识图谱三元组的真实性。
知识图在现实中应用时,通常会有新的实体出现。这些实体不在知识图中,但是我们还需要判断它们是否与图中的实体有关系。在应用中使用知识图谱时,如果仅使用或检索图谱中的实体和关系,即知识图在使用过程中不再更改和更新,则我们将这种知识图称为静态知识图谱。在应用中,我们将使用和检索不在知识图谱中的实体,也就是说,知识图谱在使用过程中发生更改和更新。我们称这种知识图谱为开放世界知识图谱。例如,在回答“Is Beijing the capital of china”的问题时,我们需要判断三元组(Beijing,capital_of, China)是否正确。如果三元组中的Beijing不是知识图谱中的实体,那么在这种情况下,我们将此知识图谱称为开放世界知识图。
然而传统的三元组真实性检测方法,是基于三元组中实体和关系的向量进行预测,无法体现实体与关系之间的关联,从而导致三元组真实性检测不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决三元组真实性检测不准确问题的知识图谱中三元组真实性检测方法和装置。
一种知识图谱中三元组真实性检测方法,所述方法包括:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
在其中一个实施例中,还包括:从文本中提取知识图谱中的三元组;将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量。
在其中一个实施例中,还包括:从文本提取知识图谱的三元组;根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
在其中一个实施例中,还包括:采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量。
在其中一个实施例中,还包括:将所述第一向量和所述第二向量映射至同一向量空间中。
在其中一个实施例中,还包括:根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
在其中一个实施例中,还包括:根据所述评分函数,构建用于训练所述胶囊网络的损失函数为:
一种知识图谱中三元组真实性检测装置,所述装置包括:
向量提取模块,用于从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
融合模块,用于将所述第一向量和所述第二向量进行融合,得到融合向量;
训练模块,用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;根据所述评分函数,构建用于训练所述胶囊网络的损失函数;根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
真实性检测模块,用于将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
上述知识图谱中三元组真实性检测方法、装置、计算机设备和存储介质,通过将知识图谱中的三元组表示转化为描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量,然后进行融合,得到融合向量,可以增强三元组中关系与实体之间的关联,然后将融合向量输入训练好的胶囊网络,根据评分函数输出的输出值,确定三元组的关系是否正确。本发明实施例可以提高三元组真实性检测的准确率。
附图说明
图1为一个实施例中知识图谱中三元组真实性检测方法的流程示意图;
图2为一个实施例中知识图谱中三元组真实性检测装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种知识图谱中三元组真实性检测方法,包括以下步骤:
步骤102,从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量。
第一和第二仅是为了区分两个向量而进行的限定,没有实际含义。在知识图谱中,三元组的结构为(head, relation, tail),head指的是头实体,relation指的是关系,tail指的是尾实体。第一向量和第二向量指的是向量空间中的向量,第一向量的向量空间和第二向量的向量空间,可能不同也可能相同。三元组结构信息指的是体现三元组的结构的信息,三元组的描述信息指的是描述三元组中头实体、关系以及尾实体的文本、句子或者单词。具体的,将三元组转化为向量,可以通过词袋、词库等方式,在此不做限定。
对于三元组的描述信息,以三元组(Australia national soccer team,Position, Midfielder)为例进行说明,对应的头实体的描述信息为“sports team thatrepresents Australia”,尾实体的描述信息为“association football position playedon both ends of the field”,通过描述信息和三元组,形成了完整的三元组表示。从上例可以看出,三元组的描述信息指的是对三元组中实体的额外描述,可以是文本、句子以及单词。
步骤104,将第一向量和第二向量进行融合,得到融合向量。
融合方式包括多种,例如:拼接、求均值或者点乘等。
步骤106,根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数。
一般而言,评分函数可以输出评分值,评分越高,表示三元组真实性越高,评分越低,表示三元组的真实性越低,本步骤根据胶囊网络的网络结构,定义的评分函数,具体可以是胶囊网络的输出层的输出。
步骤108,根据评分函数,构建用于训练胶囊网络的损失函数。
评分函数可以输出胶囊网络对输入数据的处理结果,从而与标签形成损失,因此,可以根据评分函数,建立损失函数。
步骤110,根据融合向量构建样本集,根据样本集和损失函数对胶囊网络模型进行训练,得到训练好的胶囊网络。
可以采用反向训练方式,对胶囊网络进行训练。
步骤112,将待预测三元组对应的融合向量输入训练好的胶囊网络,根据评分函数的输出值,确定三元组的关系是否准确。
上述知识图谱中三元组真实性检测方法中,通过将知识图谱中的三元组表示转化为描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量,然后进行融合,得到融合向量,可以增强三元组中关系与实体之间的关联,然后将融合向量输入训练好的胶囊网络,根据评分函数输出的输出值,却低的那个三元的关系是否正确。本发明实施例可以提高三元组真实性检测的准确率。
在其中一个实施例中,提取第一向量的步骤包括:从文本中提取知识图谱中的三元组;将三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量。
值得说明的是,本实施例还可以采用其他模型实现。
在其中一个实施例中,提取第二向量的步骤包括:从文本提取知识图谱的三元组;根据预先设置的词库模型,将三元组中的实体和关系分别转化为词向量表示,得到实体中多个单词对应的单词词向量和关系对应的关系词向量;根据关系词向量对单词词向量进行相关性计算,得到每个单词词向量的权重;根据权重对单词词向量进行加权计算,得到实体对应实体词向量;根据关系词向量和实体词向量,构建描述知识图谱中三元组描述信息的第二向量。本实施例中,将三元组中的实体与关系进行更好的关联,从而提高了真实性检测的准确率。
具体的,在得到三元组之后,还需要判断三元组中实体或者关系中是否是短语表示,若是,则需要对其进行分词,得到每个部分对应的单词,通过对每个单词转化为词向量,从而得到每个部分的向量表示。本实施例中,针对实体与关系能够进行更好的关联,还需要对实体中每个单词对应的单词词向量进行如下处理:
根据相关性,可以得到每个单词的权重表示为:
其中,k表示单词的数量,最后可以采用单词相加作为实体的描述向量表示为:
在其中一个实施例中,融合的过程包括:采用拼接或者求均值的方式,将第一向量述第二向量进行融合,得到融合向量。
在其中一个实施例中,由于第一向量和第二向量可能在不同的向量空间,因此需要将第一向量和第二向量映射到同一向量空间中。
具体的,映射的方式包括:比例函数映射、线性函数映射以及多层感知函数映射。
另外,还可以利用训练数据,分别就上述三种映射函数,训练过程最小化损失函数值,损失函数如下:
在其中一个实施例中,需要对本发明采用的胶囊网络进行说明,首先,将视为一个矩阵,其中是的行,在胶囊网络中,利用一个过滤器作为卷积层,过滤器由的每一行生成特征图,其中,是一个偏置单元,是一个非线性的激活函数例如ReLU,利用多个过滤器生成特征图,若设定是过滤器的集合。是过滤器的个数,这样就是获得了N个 -dim 的特征图。
胶囊网络由两个胶囊层组成,在第一个胶囊层,创建 个胶囊,其中来自所有特征图的相同维度的条目被封装到相应的胶囊中。因此,每个胶囊可以在嵌入三元组中相应尺寸的条目中捕获许多特征。这些特性被概括为第二层的一个胶囊,该胶囊产生矢量输出,其长度用作三元组的分数。
在其中一个实施例中,构建评分函数的步骤包括:根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
在其中一个实施例中,根据评分函数,构建用于训练胶囊网络的损失函数为:
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种知识图谱中三元组真实性检测装置,包括:向量提取模块202、融合模块204、训练模块206和真实性检测模块208,其中:
向量提取模块202,用于从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
融合模块204,用于将所述第一向量和所述第二向量进行融合,得到融合向量;
训练模块206,用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;根据所述评分函数,构建用于训练所述胶囊网络的损失函数;根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
真实性检测模块208,用于将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
在其中一个实施例中,向量提取模块202还用于从文本中提取知识图谱中的三元组;将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量。
在其中一个实施例中,向量提取模块202还用于从文本提取知识图谱的三元组;根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
在其中一个实施例中,融合模块204采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量。
在其中一个实施例中,融合模块204还用于将所述第一向量和所述第二向量映射至同一向量空间中。
在其中一个实施例中,训练模块206还用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
在其中一个实施例中,训练模块206还用于根据所述评分函数,构建用于训练所述胶囊网络的损失函数为:
关于知识图谱中三元组真实性检测装置的具体限定可以参见上文中对于知识图谱中三元组真实性检测方法的限定,在此不再赘述。上述知识图谱中三元组真实性检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱中三元组真实性检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种知识图谱中三元组真实性检测方法,所述方法包括:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确;
所述从文本中提取描述知识图谱中三元组结构信息的第一向量,包括:
从文本中提取知识图谱中的三元组;
将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量;
从文本中提取描述知识图谱中三元组描述信息的第二向量,包括:
从文本提取知识图谱的三元组;
根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;
根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;
根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;
根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
2.根据权利要求1所述的方法,其特征在于,将所述第一向量和所述第二向量进行融合,得到融合向量,包括:
采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量。
3.根据权利要求2所述的方法,其特征在于,在采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量之前,还包括:
将所述第一向量和所述第二向量映射至同一向量空间中。
6.一种知识图谱中三元组真实性检测装置,其特征在于,所述装置包括:
向量提取模块,用于从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
融合模块,用于将所述第一向量和所述第二向量进行融合,得到融合向量;
训练模块,用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;根据所述评分函数,构建用于训练所述胶囊网络的损失函数;根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
真实性检测模块,用于将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确;
向量提取模块还用于从文本中提取知识图谱中的三元组;将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量;
向量提取模块还用于从文本提取知识图谱的三元组;根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417038.4A CN111339321B (zh) | 2020-05-18 | 2020-05-18 | 知识图谱中三元组真实性检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010417038.4A CN111339321B (zh) | 2020-05-18 | 2020-05-18 | 知识图谱中三元组真实性检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339321A CN111339321A (zh) | 2020-06-26 |
CN111339321B true CN111339321B (zh) | 2020-08-21 |
Family
ID=71186456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010417038.4A Active CN111339321B (zh) | 2020-05-18 | 2020-05-18 | 知识图谱中三元组真实性检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339321B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984796B (zh) * | 2020-07-31 | 2022-11-04 | 西安理工大学 | 一种基于规范知识图谱ifc模型的自动合规性检查方法 |
CN112308464B (zh) * | 2020-11-24 | 2023-11-24 | 中国人民公安大学 | 业务流程数据处理方法和装置 |
CN113032582A (zh) * | 2021-04-20 | 2021-06-25 | 杭州叙简科技股份有限公司 | 一种基于知识图谱建立实体统一模型及实体统一方法 |
CN113268612B (zh) * | 2021-06-25 | 2022-09-23 | 中国人民解放军国防科技大学 | 基于均值融合的异构信息网知识图谱补全方法和装置 |
CN113420163B (zh) * | 2021-06-25 | 2022-09-16 | 中国人民解放军国防科技大学 | 基于矩阵融合的异构信息网知识图谱补全方法和装置 |
CN113282764B (zh) * | 2021-06-29 | 2023-05-23 | 南方电网科学研究院有限责任公司 | 一种网络安全数据知识图谱构建方法及装置 |
CN114330281B (zh) * | 2022-03-08 | 2022-06-07 | 北京京东方技术开发有限公司 | 自然语言处理模型的训练方法、文本处理方法和装置 |
CN114596574A (zh) * | 2022-03-22 | 2022-06-07 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备和介质 |
CN117453923B (zh) * | 2023-08-30 | 2024-03-19 | 广东电白建设集团有限公司 | 一种对施工现场施工设备和建筑设施的关系进行优化的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934042A (zh) * | 2017-03-16 | 2017-07-07 | 中国人民解放军国防科学技术大学 | 一种知识图谱表示模型及其方法 |
CN110929047A (zh) * | 2019-12-11 | 2020-03-27 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
CN111125434A (zh) * | 2019-11-26 | 2020-05-08 | 北京理工大学 | 一种基于集成学习的关系抽取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200143261A1 (en) * | 2018-11-02 | 2020-05-07 | Unchained Logic, LLC | Systems and methods for processing content using a pattern language |
-
2020
- 2020-05-18 CN CN202010417038.4A patent/CN111339321B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934042A (zh) * | 2017-03-16 | 2017-07-07 | 中国人民解放军国防科学技术大学 | 一种知识图谱表示模型及其方法 |
CN111125434A (zh) * | 2019-11-26 | 2020-05-08 | 北京理工大学 | 一种基于集成学习的关系抽取方法及系统 |
CN110929047A (zh) * | 2019-12-11 | 2020-03-27 | 中国人民解放军国防科技大学 | 关注邻居实体的知识图谱推理方法和装置 |
Non-Patent Citations (2)
Title |
---|
改进的胶囊网络知识图谱补全方法;王维美等;《https://doi.org/10.19678/j.issn.1000-3428.0055390》;20191011;全文 * |
胶囊网络在知识图谱补全中的应用;陈恒等;《计算机工程与应用》;20191115;第56卷(第8期);第111-116页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111339321A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339321B (zh) | 知识图谱中三元组真实性检测方法和装置 | |
CN112528035B (zh) | 基于关系注意力的知识图谱推理方法、装置和计算机设备 | |
CN113420163B (zh) | 基于矩阵融合的异构信息网知识图谱补全方法和装置 | |
CN113268612B (zh) | 基于均值融合的异构信息网知识图谱补全方法和装置 | |
CN109493976A (zh) | 基于卷积神经网络模型的慢性病复发预测方法和装置 | |
CN111310613B (zh) | 一种图像检测方法、装置以及计算机可读存储介质 | |
CN111429482A (zh) | 目标跟踪方法、装置、计算机设备和存储介质 | |
CN110162681A (zh) | 文本识别、文本处理方法、装置、计算机设备和存储介质 | |
CN111862260B (zh) | 基于跨域对偶生成式对抗网络的偏见消除方法与装置 | |
CN114330499A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN109376741A (zh) | 商标侵权的识别方法、装置、计算机设备和存储介质 | |
CN112069329A (zh) | 文本语料的处理方法、装置、设备及存储介质 | |
CN116304341A (zh) | 基于用户网络大数据的欺诈判别方法及系统 | |
CN115062779A (zh) | 基于动态知识图谱的事件预测方法及装置 | |
CN112464660B (zh) | 文本分类模型构建方法以及文本数据处理方法 | |
CN114282258A (zh) | 截屏数据脱敏方法、装置、计算机设备及存储介质 | |
CN114064852A (zh) | 自然语言的关系抽取方法、装置、电子设备和存储介质 | |
CN114549849A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN109101984A (zh) | 一种基于卷积神经网络的图像识别方法及装置 | |
CN111401055B (zh) | 从金融资讯提取脉络信息的方法和装置 | |
CN116030341A (zh) | 基于深度学习的植物叶片病害检测方法、计算机设备和存储介质 | |
CN114359741A (zh) | 基于区域特征的图像描述模型注意力机制评价方法与系统 | |
CN113177110B (zh) | 一种虚假新闻检测方法、装置、计算机设备和存储介质 | |
CN114244558B (zh) | 注入攻击检测方法、装置、计算机设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |