CN111339321B - 知识图谱中三元组真实性检测方法和装置 - Google Patents

知识图谱中三元组真实性检测方法和装置 Download PDF

Info

Publication number
CN111339321B
CN111339321B CN202010417038.4A CN202010417038A CN111339321B CN 111339321 B CN111339321 B CN 111339321B CN 202010417038 A CN202010417038 A CN 202010417038A CN 111339321 B CN111339321 B CN 111339321B
Authority
CN
China
Prior art keywords
vector
triple
knowledge graph
word
capsule network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010417038.4A
Other languages
English (en)
Other versions
CN111339321A (zh
Inventor
谭真
赵翔
王俞涵
郭得科
李欣奕
徐浩
肖卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010417038.4A priority Critical patent/CN111339321B/zh
Publication of CN111339321A publication Critical patent/CN111339321A/zh
Application granted granted Critical
Publication of CN111339321B publication Critical patent/CN111339321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种知识图谱中三元组真实性检测方法和装置。所述方法包括:从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量,将第一向量和第二向量进行融合,得到融合向量,根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数,根据评分函数,构建用于训练胶囊网络的损失函数,根据融合向量构建样本集,根据样本集和损失函数对胶囊网络模型进行训练,得到训练好的胶囊网络,将待预测三元组对应的融合向量输入训练好的胶囊网络,根据评分函数的输出值,确定三元组的关系是否准确。采用本方法能够提高三元组真实性检测的准确率。

Description

知识图谱中三元组真实性检测方法和装置
技术领域
本申请涉及知识图谱技术领域,特别是涉及一种知识图谱中三元组真实性检测方法和装置。
背景技术
自Google于2012年首次提出知识图谱的概念以来,它就以非常快的速度在人工智能领域发展。如今,与知识图谱相关的研究和工作在人工智能的各个领域中都发挥了举足轻重的作用。就其本身而言,知识图谱通常以三元组(head, relation, tail)的方式存储。三元组可显示图谱内部结构和关系的特征。近年来,关于表示学习,关系预测和图谱补全的研究是基础部分。它们也是知识图谱中最重要的部分。有许多相关方法,例如TransE(Bordes et al., 2013), DistMult (Yang et al., 2014), ComplEx (Trouillon etal., 2016), ProjE (Shi and Weninger, 2017b) and RDF2Vec (Ristoski andPaulheim, 2016).这些方法的共同特点是对三元组真实性的判断。有些人还使用胶囊网络(Dai Quoc Nguyen et al., 2019)来判断知识图谱三元组的真实性。
知识图在现实中应用时,通常会有新的实体出现。这些实体不在知识图中,但是我们还需要判断它们是否与图中的实体有关系。在应用中使用知识图谱时,如果仅使用或检索图谱中的实体和关系,即知识图在使用过程中不再更改和更新,则我们将这种知识图称为静态知识图谱。在应用中,我们将使用和检索不在知识图谱中的实体,也就是说,知识图谱在使用过程中发生更改和更新。我们称这种知识图谱为开放世界知识图谱。例如,在回答“Is Beijing the capital of china”的问题时,我们需要判断三元组(Beijing,capital_of, China)是否正确。如果三元组中的Beijing不是知识图谱中的实体,那么在这种情况下,我们将此知识图谱称为开放世界知识图。
然而传统的三元组真实性检测方法,是基于三元组中实体和关系的向量进行预测,无法体现实体与关系之间的关联,从而导致三元组真实性检测不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够解决三元组真实性检测不准确问题的知识图谱中三元组真实性检测方法和装置。
一种知识图谱中三元组真实性检测方法,所述方法包括:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
在其中一个实施例中,还包括:从文本中提取知识图谱中的三元组;将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量。
在其中一个实施例中,还包括:从文本提取知识图谱的三元组;根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
在其中一个实施例中,还包括:采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量。
在其中一个实施例中,还包括:将所述第一向量和所述第二向量映射至同一向量空间中。
在其中一个实施例中,还包括:根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
Figure 763226DEST_PATH_IMAGE001
其中,
Figure 211525DEST_PATH_IMAGE002
表示评分函数,
Figure 787999DEST_PATH_IMAGE003
表示胶囊网络,
Figure 183209DEST_PATH_IMAGE004
表示融合向量,
Figure 732002DEST_PATH_IMAGE005
表示胶囊网络中过滤器的集合,
Figure 351202DEST_PATH_IMAGE006
表示非线性激活函数。
在其中一个实施例中,还包括:根据所述评分函数,构建用于训练所述胶囊网络的损失函数为:
Figure 352656DEST_PATH_IMAGE007
其中,G表示样本集,
Figure 348294DEST_PATH_IMAGE008
表示根据样本集构建的反集;
Figure 751593DEST_PATH_IMAGE009
其中,
Figure 744957DEST_PATH_IMAGE010
表示训练集或者反集中的样本。
一种知识图谱中三元组真实性检测装置,所述装置包括:
向量提取模块,用于从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
融合模块,用于将所述第一向量和所述第二向量进行融合,得到融合向量;
训练模块,用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;根据所述评分函数,构建用于训练所述胶囊网络的损失函数;根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
真实性检测模块,用于将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
上述知识图谱中三元组真实性检测方法、装置、计算机设备和存储介质,通过将知识图谱中的三元组表示转化为描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量,然后进行融合,得到融合向量,可以增强三元组中关系与实体之间的关联,然后将融合向量输入训练好的胶囊网络,根据评分函数输出的输出值,确定三元组的关系是否正确。本发明实施例可以提高三元组真实性检测的准确率。
附图说明
图1为一个实施例中知识图谱中三元组真实性检测方法的流程示意图;
图2为一个实施例中知识图谱中三元组真实性检测装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种知识图谱中三元组真实性检测方法,包括以下步骤:
步骤102,从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量。
第一和第二仅是为了区分两个向量而进行的限定,没有实际含义。在知识图谱中,三元组的结构为(head, relation, tail),head指的是头实体,relation指的是关系,tail指的是尾实体。第一向量和第二向量指的是向量空间中的向量,第一向量的向量空间和第二向量的向量空间,可能不同也可能相同。三元组结构信息指的是体现三元组的结构的信息,三元组的描述信息指的是描述三元组中头实体、关系以及尾实体的文本、句子或者单词。具体的,将三元组转化为向量,可以通过词袋、词库等方式,在此不做限定。
对于三元组的描述信息,以三元组(Australia national soccer team,Position, Midfielder)为例进行说明,对应的头实体的描述信息为“sports team thatrepresents Australia”,尾实体的描述信息为“association football position playedon both ends of the field”,通过描述信息和三元组,形成了完整的三元组表示。从上例可以看出,三元组的描述信息指的是对三元组中实体的额外描述,可以是文本、句子以及单词。
步骤104,将第一向量和第二向量进行融合,得到融合向量。
融合方式包括多种,例如:拼接、求均值或者点乘等。
步骤106,根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数。
一般而言,评分函数可以输出评分值,评分越高,表示三元组真实性越高,评分越低,表示三元组的真实性越低,本步骤根据胶囊网络的网络结构,定义的评分函数,具体可以是胶囊网络的输出层的输出。
步骤108,根据评分函数,构建用于训练胶囊网络的损失函数。
评分函数可以输出胶囊网络对输入数据的处理结果,从而与标签形成损失,因此,可以根据评分函数,建立损失函数。
步骤110,根据融合向量构建样本集,根据样本集和损失函数对胶囊网络模型进行训练,得到训练好的胶囊网络。
可以采用反向训练方式,对胶囊网络进行训练。
步骤112,将待预测三元组对应的融合向量输入训练好的胶囊网络,根据评分函数的输出值,确定三元组的关系是否准确。
上述知识图谱中三元组真实性检测方法中,通过将知识图谱中的三元组表示转化为描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量,然后进行融合,得到融合向量,可以增强三元组中关系与实体之间的关联,然后将融合向量输入训练好的胶囊网络,根据评分函数输出的输出值,却低的那个三元的关系是否正确。本发明实施例可以提高三元组真实性检测的准确率。
在其中一个实施例中,提取第一向量的步骤包括:从文本中提取知识图谱中的三元组;将三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量。
具体的,对于从文本中提取知识图谱中的三元组
Figure 296024DEST_PATH_IMAGE011
,采用TransE模型的表示如下:
Figure 767457DEST_PATH_IMAGE012
其中,
Figure 589045DEST_PATH_IMAGE013
为第一向量。
值得说明的是,本实施例还可以采用其他模型实现。
在其中一个实施例中,提取第二向量的步骤包括:从文本提取知识图谱的三元组;根据预先设置的词库模型,将三元组中的实体和关系分别转化为词向量表示,得到实体中多个单词对应的单词词向量和关系对应的关系词向量;根据关系词向量对单词词向量进行相关性计算,得到每个单词词向量的权重;根据权重对单词词向量进行加权计算,得到实体对应实体词向量;根据关系词向量和实体词向量,构建描述知识图谱中三元组描述信息的第二向量。本实施例中,将三元组中的实体与关系进行更好的关联,从而提高了真实性检测的准确率。
具体的,在得到三元组之后,还需要判断三元组中实体或者关系中是否是短语表示,若是,则需要对其进行分词,得到每个部分对应的单词,通过对每个单词转化为词向量,从而得到每个部分的向量表示。本实施例中,针对实体与关系能够进行更好的关联,还需要对实体中每个单词对应的单词词向量进行如下处理:
Figure 753310DEST_PATH_IMAGE014
其中,
Figure 994935DEST_PATH_IMAGE016
表示实体中第
Figure 66796DEST_PATH_IMAGE018
个单词,
Figure 444688DEST_PATH_IMAGE019
表示关系词向量,
Figure 576592DEST_PATH_IMAGE020
表示关系与实体中每个单词的相关性。
根据相关性,可以得到每个单词的权重表示为:
Figure 39934DEST_PATH_IMAGE021
其中,k表示单词的数量,最后可以采用单词相加作为实体的描述向量表示为:
Figure 915487DEST_PATH_IMAGE022
这种方法更能凸显三元组中实体与关系的关联性。使得同样的实体在不同的三元组中的描述性向量有所差别,更好的满足实体在不同语境中的特异性。具体的,第二向量可以用
Figure 147885DEST_PATH_IMAGE023
表示。
在其中一个实施例中,融合的过程包括:采用拼接或者求均值的方式,将第一向量述第二向量进行融合,得到融合向量。
具体的,拼接指的是将两个向量进行首尾里连接,以头实体为例,假设第一向量中头实体为
Figure 716269DEST_PATH_IMAGE024
,第二向量中头实体
Figure 666908DEST_PATH_IMAGE025
,进行拼接后得到融合向量的头实体
Figure 283834DEST_PATH_IMAGE026
具体的,求均值指的是将对应的元素进行取均值,以头实体为例,求均值的结果为
Figure 433056DEST_PATH_IMAGE027
具体的,融合向量采用
Figure 110025DEST_PATH_IMAGE028
表示。
在其中一个实施例中,由于第一向量和第二向量可能在不同的向量空间,因此需要将第一向量和第二向量映射到同一向量空间中。
具体的,映射的方式包括:比例函数映射、线性函数映射以及多层感知函数映射。
另外,还可以利用训练数据,分别就上述三种映射函数,训练过程最小化损失函数值,损失函数如下:
Figure 344697DEST_PATH_IMAGE029
其中,n表示三元组的数目,
Figure 499735DEST_PATH_IMAGE030
指的是上述函数的参数。
在其中一个实施例中,需要对本发明采用的胶囊网络进行说明,首先,将
Figure 972304DEST_PATH_IMAGE031
视为一个矩阵
Figure 882491DEST_PATH_IMAGE032
,其
Figure 542143DEST_PATH_IMAGE033
中是
Figure 61724DEST_PATH_IMAGE034
Figure 857641DEST_PATH_IMAGE035
行,在胶囊网络中,利用一个过滤器
Figure 938730DEST_PATH_IMAGE036
作为卷积层,过滤器
Figure 85677DEST_PATH_IMAGE037
Figure 113676DEST_PATH_IMAGE038
的每一行生成特征图
Figure 91997DEST_PATH_IMAGE039
,其中
Figure 16090DEST_PATH_IMAGE040
Figure 712651DEST_PATH_IMAGE041
是一个偏置单元,
Figure 13182DEST_PATH_IMAGE042
是一个非线性的激活函数例如ReLU,利用多个过滤器生成特征图,若设定
Figure 111588DEST_PATH_IMAGE043
是过滤器的集合。
Figure 472162DEST_PATH_IMAGE044
是过滤器的个数,这样就是获得了N个
Figure 593702DEST_PATH_IMAGE045
-dim 的特征图。
胶囊网络由两个胶囊层组成,在第一个胶囊层,创建
Figure 760241DEST_PATH_IMAGE046
个胶囊,其中来自所有特征图的相同维度的条目被封装到相应的胶囊中。因此,每个胶囊可以在嵌入三元组中相应尺寸的条目中捕获许多特征。这些特性被概括为第二层的一个胶囊,该胶囊产生矢量输出,其长度用作三元组的分数。
第一个胶囊层包含
Figure 385258DEST_PATH_IMAGE047
个胶囊,其中每个胶囊
Figure 979050DEST_PATH_IMAGE048
有一个向量输出
Figure 322307DEST_PATH_IMAGE049
。向量输出
Figure 292537DEST_PATH_IMAGE050
乘权重矩阵
Figure 303218DEST_PATH_IMAGE051
并求和以生成向量输出
Figure 5595DEST_PATH_IMAGE052
传递到第二个胶囊层。然后胶囊经过非线性压缩函数去生成向量输出
Figure 399929DEST_PATH_IMAGE053
Figure 845954DEST_PATH_IMAGE054
其中
Figure 242300DEST_PATH_IMAGE055
,是由路由过程确定的耦合系数,由于第二层中有一个胶囊,因此在提出的路由过程中仅做一个差异,为此应用softmax从上一层中的所有胶囊到下一层中的每个胶囊的方向。
在其中一个实施例中,构建评分函数的步骤包括:根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
Figure 177895DEST_PATH_IMAGE056
其中,
Figure 495744DEST_PATH_IMAGE057
表示评分函数,
Figure 542198DEST_PATH_IMAGE058
表示胶囊网络,
Figure 261892DEST_PATH_IMAGE059
表示融合向量,
Figure 571651DEST_PATH_IMAGE060
表示胶囊网络中过滤器的集合,
Figure 439112DEST_PATH_IMAGE061
表示非线性激活函数。
在其中一个实施例中,根据评分函数,构建用于训练胶囊网络的损失函数为:
Figure 226940DEST_PATH_IMAGE062
其中,G表示样本集,
Figure 863458DEST_PATH_IMAGE063
表示根据样本集构建的反集;
Figure 78538DEST_PATH_IMAGE064
其中,
Figure 370979DEST_PATH_IMAGE065
表示训练集或者反集中的样本。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种知识图谱中三元组真实性检测装置,包括:向量提取模块202、融合模块204、训练模块206和真实性检测模块208,其中:
向量提取模块202,用于从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
融合模块204,用于将所述第一向量和所述第二向量进行融合,得到融合向量;
训练模块206,用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;根据所述评分函数,构建用于训练所述胶囊网络的损失函数;根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
真实性检测模块208,用于将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确。
在其中一个实施例中,向量提取模块202还用于从文本中提取知识图谱中的三元组;将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量。
在其中一个实施例中,向量提取模块202还用于从文本提取知识图谱的三元组;根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
在其中一个实施例中,融合模块204采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量。
在其中一个实施例中,融合模块204还用于将所述第一向量和所述第二向量映射至同一向量空间中。
在其中一个实施例中,训练模块206还用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
Figure 24815DEST_PATH_IMAGE066
其中,
Figure 453522DEST_PATH_IMAGE067
表示评分函数,
Figure 901821DEST_PATH_IMAGE068
表示胶囊网络,
Figure 681558DEST_PATH_IMAGE069
表示融合向量,
Figure 372040DEST_PATH_IMAGE070
表示胶囊网络中过滤器的集合,
Figure 655254DEST_PATH_IMAGE071
表示非线性激活函数。
在其中一个实施例中,训练模块206还用于根据所述评分函数,构建用于训练所述胶囊网络的损失函数为:
Figure 540033DEST_PATH_IMAGE072
其中,G表示样本集,
Figure 807067DEST_PATH_IMAGE073
表示根据样本集构建的反集;
Figure 740387DEST_PATH_IMAGE074
其中,
Figure DEST_PATH_IMAGE075
表示训练集或者反集中的样本。
关于知识图谱中三元组真实性检测装置的具体限定可以参见上文中对于知识图谱中三元组真实性检测方法的限定,在此不再赘述。上述知识图谱中三元组真实性检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱中三元组真实性检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种知识图谱中三元组真实性检测方法,所述方法包括:
从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
将所述第一向量和所述第二向量进行融合,得到融合向量;
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;
根据所述评分函数,构建用于训练所述胶囊网络的损失函数;
根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确;
所述从文本中提取描述知识图谱中三元组结构信息的第一向量,包括:
从文本中提取知识图谱中的三元组;
将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量;
从文本中提取描述知识图谱中三元组描述信息的第二向量,包括:
从文本提取知识图谱的三元组;
根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;
根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;
根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;
根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
2.根据权利要求1所述的方法,其特征在于,将所述第一向量和所述第二向量进行融合,得到融合向量,包括:
采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量。
3.根据权利要求2所述的方法,其特征在于,在采用拼接或者求均值的方式,将所述第一向量和所述第二向量进行融合,得到融合向量之前,还包括:
将所述第一向量和所述第二向量映射至同一向量空间中。
4.根据权利要求1所述的方法,其特征在于,所述根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数,包括:
根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数为:
Figure 134808DEST_PATH_IMAGE001
其中,
Figure 317527DEST_PATH_IMAGE002
表示评分函数,
Figure 362844DEST_PATH_IMAGE003
表示胶囊网络,
Figure 23632DEST_PATH_IMAGE004
表示融合向量,
Figure 838005DEST_PATH_IMAGE005
表示胶囊网络中过滤器的集合,
Figure 801412DEST_PATH_IMAGE006
表示非线性激活函数。
5.根据权利要求4所述的方法,其特征在于,根据所述评分函数,构建用于训练所述胶囊网络的损失函数,包括:
根据所述评分函数,构建用于训练所述胶囊网络的损失函数为:
Figure 334025DEST_PATH_IMAGE007
其中,G表示样本集,
Figure 798504DEST_PATH_IMAGE008
表示根据样本集构建的反集;
Figure 732962DEST_PATH_IMAGE009
其中,
Figure 726326DEST_PATH_IMAGE010
表示训练集或者反集中的样本。
6.一种知识图谱中三元组真实性检测装置,其特征在于,所述装置包括:
向量提取模块,用于从文本中提取描述知识图谱中三元组结构信息的第一向量和描述知识图谱中三元组描述信息的第二向量;
融合模块,用于将所述第一向量和所述第二向量进行融合,得到融合向量;
训练模块,用于根据预先设置的胶囊网络的网络结构,构建用于定义三元组得分的评分函数;根据所述评分函数,构建用于训练所述胶囊网络的损失函数;根据所述融合向量构建样本集,根据所述样本集和所述损失函数对所述胶囊网络模型进行训练,得到训练好的胶囊网络;
真实性检测模块,用于将待预测三元组对应的融合向量输入训练好的胶囊网络,根据所述评分函数的输出值,确定三元组的关系是否准确;
向量提取模块还用于从文本中提取知识图谱中的三元组;将所述三元组输入预先训练的TransE模型,得到描述知识图谱中三元组结构信息的第一向量;
向量提取模块还用于从文本提取知识图谱的三元组;根据预先设置的词库模型,将所述三元组中的实体和关系分别转化为词向量表示,得到所述实体中多个单词对应的单词词向量和所述关系对应的关系词向量;根据所述关系词向量对所述单词词向量进行相关性计算,得到每个所述单词词向量的权重;根据所述权重对所述单词词向量进行加权计算,得到所述实体对应实体词向量;根据所述关系词向量和所述实体词向量,构建描述知识图谱中三元组描述信息的第二向量。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202010417038.4A 2020-05-18 2020-05-18 知识图谱中三元组真实性检测方法和装置 Active CN111339321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010417038.4A CN111339321B (zh) 2020-05-18 2020-05-18 知识图谱中三元组真实性检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010417038.4A CN111339321B (zh) 2020-05-18 2020-05-18 知识图谱中三元组真实性检测方法和装置

Publications (2)

Publication Number Publication Date
CN111339321A CN111339321A (zh) 2020-06-26
CN111339321B true CN111339321B (zh) 2020-08-21

Family

ID=71186456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010417038.4A Active CN111339321B (zh) 2020-05-18 2020-05-18 知识图谱中三元组真实性检测方法和装置

Country Status (1)

Country Link
CN (1) CN111339321B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984796B (zh) * 2020-07-31 2022-11-04 西安理工大学 一种基于规范知识图谱ifc模型的自动合规性检查方法
CN112308464B (zh) * 2020-11-24 2023-11-24 中国人民公安大学 业务流程数据处理方法和装置
CN113032582A (zh) * 2021-04-20 2021-06-25 杭州叙简科技股份有限公司 一种基于知识图谱建立实体统一模型及实体统一方法
CN113268612B (zh) * 2021-06-25 2022-09-23 中国人民解放军国防科技大学 基于均值融合的异构信息网知识图谱补全方法和装置
CN113420163B (zh) * 2021-06-25 2022-09-16 中国人民解放军国防科技大学 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN113282764B (zh) * 2021-06-29 2023-05-23 南方电网科学研究院有限责任公司 一种网络安全数据知识图谱构建方法及装置
CN114330281B (zh) * 2022-03-08 2022-06-07 北京京东方技术开发有限公司 自然语言处理模型的训练方法、文本处理方法和装置
CN114596574A (zh) * 2022-03-22 2022-06-07 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和介质
CN117453923B (zh) * 2023-08-30 2024-03-19 广东电白建设集团有限公司 一种对施工现场施工设备和建筑设施的关系进行优化的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934042A (zh) * 2017-03-16 2017-07-07 中国人民解放军国防科学技术大学 一种知识图谱表示模型及其方法
CN110929047A (zh) * 2019-12-11 2020-03-27 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置
CN111125434A (zh) * 2019-11-26 2020-05-08 北京理工大学 一种基于集成学习的关系抽取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200143261A1 (en) * 2018-11-02 2020-05-07 Unchained Logic, LLC Systems and methods for processing content using a pattern language

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934042A (zh) * 2017-03-16 2017-07-07 中国人民解放军国防科学技术大学 一种知识图谱表示模型及其方法
CN111125434A (zh) * 2019-11-26 2020-05-08 北京理工大学 一种基于集成学习的关系抽取方法及系统
CN110929047A (zh) * 2019-12-11 2020-03-27 中国人民解放军国防科技大学 关注邻居实体的知识图谱推理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
改进的胶囊网络知识图谱补全方法;王维美等;《https://doi.org/10.19678/j.issn.1000-3428.0055390》;20191011;全文 *
胶囊网络在知识图谱补全中的应用;陈恒等;《计算机工程与应用》;20191115;第56卷(第8期);第111-116页 *

Also Published As

Publication number Publication date
CN111339321A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339321B (zh) 知识图谱中三元组真实性检测方法和装置
CN112528035B (zh) 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN113420163B (zh) 基于矩阵融合的异构信息网知识图谱补全方法和装置
CN113268612B (zh) 基于均值融合的异构信息网知识图谱补全方法和装置
CN109493976A (zh) 基于卷积神经网络模型的慢性病复发预测方法和装置
CN111310613B (zh) 一种图像检测方法、装置以及计算机可读存储介质
CN111429482A (zh) 目标跟踪方法、装置、计算机设备和存储介质
CN110162681A (zh) 文本识别、文本处理方法、装置、计算机设备和存储介质
CN111862260B (zh) 基于跨域对偶生成式对抗网络的偏见消除方法与装置
CN114330499A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN109376741A (zh) 商标侵权的识别方法、装置、计算机设备和存储介质
CN112069329A (zh) 文本语料的处理方法、装置、设备及存储介质
CN116304341A (zh) 基于用户网络大数据的欺诈判别方法及系统
CN115062779A (zh) 基于动态知识图谱的事件预测方法及装置
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN114282258A (zh) 截屏数据脱敏方法、装置、计算机设备及存储介质
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN114549849A (zh) 图像识别方法、装置、计算机设备和存储介质
CN109101984A (zh) 一种基于卷积神经网络的图像识别方法及装置
CN111401055B (zh) 从金融资讯提取脉络信息的方法和装置
CN116030341A (zh) 基于深度学习的植物叶片病害检测方法、计算机设备和存储介质
CN114359741A (zh) 基于区域特征的图像描述模型注意力机制评价方法与系统
CN113177110B (zh) 一种虚假新闻检测方法、装置、计算机设备和存储介质
CN114244558B (zh) 注入攻击检测方法、装置、计算机设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant