CN106886543B - 结合实体描述的知识图谱表示学习方法和系统 - Google Patents

结合实体描述的知识图谱表示学习方法和系统 Download PDF

Info

Publication number
CN106886543B
CN106886543B CN201510947068.5A CN201510947068A CN106886543B CN 106886543 B CN106886543 B CN 106886543B CN 201510947068 A CN201510947068 A CN 201510947068A CN 106886543 B CN106886543 B CN 106886543B
Authority
CN
China
Prior art keywords
entity
vector representation
vector
model
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510947068.5A
Other languages
English (en)
Other versions
CN106886543A (zh
Inventor
孙茂松
谢若冰
刘知远
栾焕博
刘奕群
马少平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201510947068.5A priority Critical patent/CN106886543B/zh
Publication of CN106886543A publication Critical patent/CN106886543A/zh
Application granted granted Critical
Publication of CN106886543B publication Critical patent/CN106886543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种结合实体描述的知识图谱表示学习方法和系统,本发明中,提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。

Description

结合实体描述的知识图谱表示学习方法和系统
技术领域
本发明涉及自然语言处理以及知识图谱领域,尤其涉及一种结合实体描述的知识图谱表示学习方法和系统。
背景技术
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的实体与信息产生。互联网作为当今最为便捷的信息获取平台,用户对有效信息筛选与归纳的需求日益迫切,如何从海量数据中获取有价值的信息成为一个难题。知识图谱于此应运而生。
知识图谱将世上所有人物、地名、书名、球队名等专有名词与事物表示为实体,将实体之间的内在联系表示为关系,旨在将数据库中的海量知识表示为实体之间利用关系作为桥梁的三元关系组。例如,北京是中国的首都这一知识,在知识图谱中则利用三元组关系(北京,是……首都,中国)进行表示。知识图谱能够对一个关键词的不同语义建立不同的实体,消除语言多义性的干扰,同时能够展现目标实体与其它相关实体之间更深更广的内在联系,被广泛运用于数据挖掘、信息检索、问答系统等多个领域。由于现有实体规模巨大,且实体与关系每日都在变化与增加,难以人工维护与挖掘新的信息,对知识图谱的表示与自动补全是当今重要的研究热点。
知识图谱实体数量巨大,网络结构稀疏性严重。而近年来在知识图谱的研究上取得了显著的进展,表示学习运用于知识图谱中,将所有实体与关系映射到一个低维连续向量空间中,解决了之前知识图谱学习时产生的稀疏性与效率问题。但是,目前已有的知识图谱表示学习方法在训练时需要学习实体之间的关系,对于新出现的实体无法进行表示;同时,绝大多数已有的方法仅使用了知识图谱中实体之间的结构关系,而忽略了知识图谱中的实体文本描述等额外信息,知识图谱补全以及实体分类等任务中准确率比较低。
发明内容
本发明的一个目的在于解决如下技术问题:如何提供一种新的结合实体描述的知识图谱表示学习方法,高效准确地完成知识图谱的表示学习,以克服现有技术无法表示新的实体,以及未能充分利用实体描述信息的问题。
第一方面,本发明提供了一种结合实体描述的知识图谱表示学习方法,该方法包括:
步骤S1、以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;
步骤S2、根据实体向量与关系向量之间基于转化的模型,对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;
步骤S3、使用步骤S2学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。
进一步的,当建立的模型为模型一时,所述步骤S1具体包括:
步骤S11a,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;
步骤S12a,根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;
步骤S13a,基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;
步骤S14a,从关键词词向量构建实体基于描述的向量表示。
进一步的,当建立的模型为模型二时,步骤S1具体包括:
步骤S11b,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;
步骤S12b,根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;
步骤S13b,根据用户输入设置卷积层的结构与参数;
步骤S14b,根据用户输入设置池化层的结构与参数;
步骤S15b,利用前向传播过程建立实体基于描述的向量表示。
进一步的,当步骤S13b中用户输入的池化层的层数为2时,步骤S13b中得到的第一层池化层的输出公式为
Figure BDA0000880863170000031
第二层池化层的输出公式为
Figure BDA0000880863170000032
其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,
Figure BDA0000880863170000034
表示第l层卷积层输出矩阵的第i个向量。
进一步的,所述步骤S2具体包括:
步骤S21,根据实体向量与关系向量之间基于转化的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||,其中hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;
步骤S22、通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习 与更新;其中,基于边际的评价函数
Figure BDA0000880863170000033
其中γ>0是超参数,d (h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的负例的 向量表示;r′尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系组的负例 集
第二方面,本发明提供了一种结合实体描述的知识图谱表示学习系统,该系统包括:
第一获取模块,用于以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;
第二获取模块,用于根据实体向量与关系向量之间基于转化的模型,对第一获取模块得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;
表示模块,用于使用第二获取模块学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。
进一步的,当建立的模型为模型一时,所述第一获取模块,具体用于构建数据集和进行预处理;根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;从关键词词向量构建实体基于描述的向量表示;其中,所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。
进一步的,当建立的模型为模型二时,所述第一获取模块具体用于构建数据集和进行预处理;根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;根据用户输入设置卷积层的结构与参数;根据用户输入设置池化层的结构与参数;利用前向传播过程建立实体基于描述的向量表示;其中,所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。
进一步的,当用户输入的池化层的层数为2时,所述第一获取模块设置的第一层池化层的输出公式为
Figure BDA0000880863170000051
第二层池化层的输出公式为
Figure BDA0000880863170000052
其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,
Figure BDA0000880863170000054
表示第l层卷积层输出矩阵的第i个向量。
进一步的,所述第二获取模块,具体用于根据实体向量与关系向量之间基于转化 的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td|| +||hd+r-td||;通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更 新;其中,hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基 于描述的向量表示,td为尾实体基于描述的向量表示;r为关系的向量表示;基于边际的评 价函数为
Figure BDA0000880863170000053
其中γ>0是 超参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体 的负例的向量表示;r′尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系 组的负例集。
本发明提供的方法和系统,提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。
附图说明
通过参考附图会更加清楚的理解本发明的特征信息和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了一个知识图谱中三元关系组及其实体描述的示例图;
图2示出了本发明的一个实施例提供的一种结合实体描述的知识图谱表示学习方法的流程示意图;
图3为示出了一种基于连续词袋模型的向量表示;
图4示出了一种基于卷积神经网络模型的向量表示;
图5输出了本发明的一个实施例提供的一种结合实体描述的知识图谱表示学习系统的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
首先对本发明的基本思想以及其中涉及到的基本概念进行解释说明。
知识图谱表示学习方法旨在将所有实体与关系映射到一个低维连续向量空间中,使用向量对实体与关系进行表示,解决了知识图谱学习中产生的稀疏性问题。本发明提出的一种结合实体描述的知识图谱表示学习方法,能够充分利用实体的文本描述信息提升表示学习的效果,并且能够拓展至新实体上,具有良好的实用性。
图1给出了一个知识图谱中三元关系组及其实体描述的示例图。其中,“WilliamShakespeare”为首实体(为了方便说明,以下以h代表首实体),“Romeo and Juliet”为尾实体(为了方便说明,以下以t代表首实体),“book/author/works_written”为关系(为了方便说明,以下以r代表关系),两个实体下面为其实体描述的节选。我们可以看到,在首实体的实体描述中,“English”、“poet”、“playwriter”等词都间接地给出了实体的信息,在尾实体的实体描述中,“William Shakespeare”、“tragedy”等词也能够对此三元组的关系预测提供文本层面的信息。从图1我们可以发现,从实体描述为基础建立基于描述的向量表示是可行且有益的,表示学习的结果在多个任务上均能取得优秀的结果。
基于此,本发明的第一方面提供了一种结合实体描述的知识图谱表示学习方法,参见图2,该方法包括:
步骤S1、以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;
步骤S2、根据实体向量与关系向量之间基于转化的模型,对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;
步骤S3、使用步骤S2学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。
本发明提供的方法中,提出基于连续词袋的模型以及基于卷积神经网络的模型两种模型构建实体基于描述的向量表示。不仅利用了实体之间的三元组关系信息,也利用了实体描述中蕴含的文本信息,使用模型学习得到的两种实体向量表示方式,能够在知识图谱补全以及实体分类等任务中得到更高的准确率;同时基于描述的向量表示通过文本信息构建实体向量,能够很好地对新实体或训练集中不存在的实体进行表示,具有良好的实用性。
在具体实施时,当建立的模型为模型一时,步骤S1可以具体包括图中未示出的:
步骤S11a,构建数据集和进行预处理;
具体来说,可以包括收集知识图谱的实体关系三元组以及实体描述,选择训练集、开发集和测试集;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;
所述进行预处理包括对数据集中的实体描述去除停用词以及符号信息、统一转换大小写等,同时根据实体的名称,获取实体描述中的词组信息,将词组的处理等同于词;
步骤S12a,根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;
步骤S13a,基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;
步骤S14a,从关键词词向量构建实体基于描述的向量表示。
具体地,所述模型参数包括关键词的个数以及不同关键词的权值;所述实体描述中的词向量初始化可以具体是指使用已有词向量在大规模语料下的表示学习结果作为初始化值;所述文本特征包括词频和逆向文件频率。使用其它模型参数、初始化方法以及文本特征和预处理的简单变化不构成本质上的创新,也应理解为本发明要保护的范围。
所述基于描述的向量表示计算公式如下:
ed=x1+x2+…+xk,
其中xi表示实体第i个关键词的词向量,ed表示实体的基于描述的向量表示。
综上所述,基于连续词袋的模型能够以实体描述作为输入,输出一个固定长度的向量,作为实体基于描述的向量表示。经上述的步骤S11a-步骤S14a得到的基于连续词袋模型的向量表示可以如图3所示。
在具体实施时,当建立的模型为模型二时,步骤S1可以具体包括图中未示出的:
步骤S11b,构建数据集和进行预处理;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;
这里的步骤S11b可以同步骤S11a,在此不再详细说明;
步骤S12b,根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;
步骤S13b,根据用户输入设置卷积层的结构与参数;
步骤S14b,根据用户输入设置池化层的结构与参数;
步骤S15b,利用前向传播过程建立实体基于描述的向量表示。
在具体实施时,这里的卷积神经网络的整体结构可以共有五层,以实体描述作为输入,输出一个固定维数的向量。与一般神经网络不同,卷积神经网络能够充分利用实体描述的词序信息,同时能够自动发现描述中包含重要信息的词组,并且能够处理变长的输入。
所述设计卷积层的结构与参数包括窗口过程以及卷积过程,其中窗口过程公式如下:
Figure BDA0000880863170000091
卷积层的输出公式如下:
Figure BDA0000880863170000092
其中表示第l层卷积层输出矩阵的第i个向量,xi (l)表示第l层卷积层输入矩阵的第i个向量;xi′是窗口过程的第i个输出向量,即输入向量xi到xi+k-1串联起来的向量,k是窗口的大小;W(l)分别是第l层卷积层的卷积核矩阵以及偏置向量,σ是激发函数,本发明使用tanh作为非线性函数。
所述池化层的结构与参数设计如下:为了减小参数空间,过滤掉噪声和冗余信息,第一层池化层使用最大值池化;为了是描述各部分都对向量表示产生影响,第二层池化层使用平均值池化。
第一层池化层的输出公式如下:
Figure BDA0000880863170000101
第二层池化层的输出公式如下:
Figure BDA0000880863170000102
其中,n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数。
综上所述,基于连续词袋的模型能够以实体描述作为输入,输出一个固定维数的向量,作为实体基于描述的向量表示,参与步骤S2中实体向量与关系向量之间基于转化的模型的学习。
实体向量与关系向量之间基于转化的模型是近年来知识图谱表示学习中的经典模型。在本发明模型中,每个实体均有两种向量表示:基于描述的向量表示以及基于结构的向量表示,基于结构的向量表示与已有基于转化的模型中的表示方法一致,直接使用向量表示实体,而基于描述的向量表示则由步骤S1中两个模型得到。
经上述的步骤S11b-步骤S14b得到的基于卷积网络模型的向量表示可以如图4所示。
在具体实施时,这里的步骤S2可以具体包括图中未示出的:
步骤S21、根据实体向量与关系向量之间基于转化的模型,构造能量方程;
步骤S22、通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新。
其中步骤S21中的能量方程公式可以如下:
E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||
其中hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示,两种表示方法共用关系向量的表示r。
在步骤S22中,基于边际的评价函数如下:
Figure BDA0000880863170000111
其中γ>0是超参数,d(h+r,t)是评价t和h+r相似度的函数,可以使用L1范式或者L2范式;h′为首实体的负例的向量表示;t′为尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系组的负例集,r′尾实体的负例的向量表示;具体定义可以如下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}
可见T′可以通过随机替换三元组中h,r或者t并去除替换后是正例的三元组后得到。评价函数中的实体向量可使用基于描述的向量表示或者基于结构的向量表示。所述后向传播算法使用标准随机梯度下降算法,根据链式法则对所有参数进行更新。
在具体实施时,上述的步骤S3中,根据任务的不同可以灵活选择不同的向量表示。比如针对需要表示的实体在训练集中出现过的情况,可以联合使用两种实体向量表示方式进行预测;针对需要表示的实体为新实体的情况,可以使用基于描述的向量表示进行预测。
第二方面,本发明还提供了一种结合实体描述的知识图谱表示学习系统,可用于实现第一方面所述的学习方法,参见图5,该系统包括:
第一获取模块51,用于以实体的文本描述为基础,建立模型一或/模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型二;
第二获取模块52,用于根据实体向量与关系向量之间基于转化的模型,对第一获取模块得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;
表示模块53,用于使用第二获取模块学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果。
进一步的,当建立的模型为模型一时,第一获取模块51,具体用于构建数据集和进行预处理;根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;从关键词词向量构建实体基于描述的向量表示;其中,所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。
进一步的,当建立的模型为模型二时,第一获取模块51具体用于构建数据集和进行预处理;根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;根据用户输入设置卷积层的结构与参数;根据用户输入设置池化层的结构与参数;利用前向传播过程建立实体基于描述的向量表示;其中,所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。
进一步,当用户输入的池化层的层数为2时,所述第一获取模块设置的第一层池化层的输出公式为
Figure BDA0000880863170000121
第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,表示第l层卷积层输出矩阵的第i个向量。
进一步的,第二获取模块52,具体用于根据实体向量与关系向量之间基于转化的 模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+| |hd+r-td||;通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新; 其中,hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于 描述的向量表示,td为尾实体基于描述的向量表示;r为关系的向量表示;基于边际的评价 函数为
Figure BDA0000880863170000131
其中γ>0是超 参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的 负例的向量表示;r′尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系组 的负例集。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (8)

1.一种结合实体描述的知识图谱表示学习方法,其特征在于,该方法包括:
步骤S1、以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;
步骤S2、根据实体向量与关系向量之间基于转化的模型,对步骤S1中得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;
步骤S3、使用步骤S2学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果;
当建立的模型为模型一时,所述步骤S1具体包括:
步骤S11a,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;
步骤S12a,根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;
步骤S13a,基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;
步骤S14a,从关键词词向量构建实体基于描述的向量表示;
其中,所述模型参数包括关键词的个数以及不同关键词的权值;所述实体描述中的词向量初始化具体是指使用已有词向量在大规模语料下的表示结果作为初始化值;所述文本特征包括词频和逆向文件频率。
2.如权利要求1所述的方法,其特征在于,当建立的模型为模型二时,步骤S1具体包括:
步骤S11b,构建数据集和进行预处理;所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;
步骤S12b,根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;
步骤S13b,根据用户输入设置卷积层的结构与参数;
步骤S14b,根据用户输入设置池化层的结构与参数;
步骤S15b,利用前向传播过程建立实体基于描述的向量表示。
3.如权利要求2所述的方法,其特征在于,当步骤S13b中用户输入的池化层的层数为2时,步骤S13b中得到的第一层池化层的输出公式为
Figure FDF0000006825600000021
第二层池化层的输出公式为其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,
Figure FDF0000006825600000023
表示第l层卷积层输出矩阵的第i个向量。
4.如权利要求1或2所述的方法,其特征在于,所述步骤S2具体包括:
步骤S21,根据实体向量与关系向量之间基于转化的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||,其中hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;
步骤S22、通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新;其中,基于边际的评价函数
Figure FDF0000006825600000024
其中γ>0是超参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的负例的向量表示;r′尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系组的负例集。
5.一种结合实体描述的知识图谱表示学习系统,其特征在于,该系统包括:
第一获取模块,用于以实体的文本描述为基础,建立模型一和/或模型二,基于建立的模型获取基于描述的向量表示;所述模型一为建立基于连续词袋的模型,所述模型二为建立基于卷积神经网络的模型;
第二获取模块,用于根据实体向量与关系向量之间基于转化的模型,对第一获取模块得到的基于描述的向量表示进行学习得到实体的第一向量表示,并对基于结构的向量表示进行学习得到实体的第二向量表示;
表示模块,用于使用第二获取模块学习得到的实体的向量表示,在不同任务中获取向量空间中的表示结果;
当建立的模型为模型一时,所述第一获取模块,具体用于构建数据集和进行预处理;根据用户输入设置基于连续词袋的模型参数,并对实体描述中的词向量进行初始化;基于词袋模型的假设,利用文本特征从实体描述中抽取关键词;从关键词词向量构建实体基于描述的向量表示;其中,所述数据集包括知识图谱的实体关系三元组以及实体描述;所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r;其中,所述模型参数包括关键词的个数以及不同关键词的权值;所述实体描述中的词向量初始化具体是指使用已有词向量在大规模语料下的表示结果作为初始化值;所述文本特征包括词频和逆向文件频率。
6.如权利要求5所述的系统,其特征在于,当建立的模型为模型二时,所述第一获取模块具体用于构建数据集和进行预处理;根据用户输入设计卷积神经网络的整体结构,完成词向量的初始化;根据用户输入设置卷积层的结构与参数;根据用户输入设置池化层的结构与参数;利用前向传播过程建立实体基于描述的向量表示;其中,所述三元组包括首实体的向量表示h,尾实体的向量表示t,关系的向量表示r。
7.如权利要求6所述的系统,其特征在于,当用户输入的池化层的层数为2时,所述第一获取模块设置的第一层池化层的输出公式为
Figure FDF0000006825600000041
第二层池化层的输出公式为
Figure FDF0000006825600000042
其中n表示最大值池化中不重叠的窗口大小,m表示平均值池化的元素个数,
Figure FDF0000006825600000043
表示第l层卷积层输出矩阵的第i个向量。
8.如权利要求5或6所述的系统,其特征在于,所述第二获取模块,具体用于根据实体向量与关系向量之间基于转化的模型,构造能量方程;所述能量方程为E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||;通过后向传播算法,最小化基于边际的评价函数,对所有参数进行学习与更新;其中,hs为首实体基于结构的向量表示,ts为尾实体基于结构的向量表示,hd为首实体基于描述的向量表示,td为尾实体基于描述的向量表示;r为关系的向量表示;基于边际的评价函数为
Figure FDF0000006825600000044
其中γ>0是超参数,d(h+r,t)是评价t和h+r相似度的函数;h′为首实体的负例的向量表示;t′为尾实体的负例的向量表示;r′尾实体的负例的向量表示;T是三元关系组的正例集,T′是三元关系组的负例集。
CN201510947068.5A 2015-12-16 2015-12-16 结合实体描述的知识图谱表示学习方法和系统 Active CN106886543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510947068.5A CN106886543B (zh) 2015-12-16 2015-12-16 结合实体描述的知识图谱表示学习方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510947068.5A CN106886543B (zh) 2015-12-16 2015-12-16 结合实体描述的知识图谱表示学习方法和系统

Publications (2)

Publication Number Publication Date
CN106886543A CN106886543A (zh) 2017-06-23
CN106886543B true CN106886543B (zh) 2020-01-17

Family

ID=59175567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510947068.5A Active CN106886543B (zh) 2015-12-16 2015-12-16 结合实体描述的知识图谱表示学习方法和系统

Country Status (1)

Country Link
CN (1) CN106886543B (zh)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423820B (zh) * 2016-05-24 2020-09-29 清华大学 结合实体层次类别的知识图谱表示学习方法
CN107871158A (zh) * 2016-09-26 2018-04-03 清华大学 一种结合序列文本信息的知识图谱表示学习方法及装置
CN107391623B (zh) * 2017-07-07 2020-03-31 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN107480194B (zh) * 2017-07-13 2020-03-13 中国科学院自动化研究所 多模态知识表示自动学习模型的构建方法及系统
CN107330125B (zh) * 2017-07-20 2020-06-30 云南电网有限责任公司电力科学研究院 基于知识图谱技术的海量非结构化配网数据集成方法
CN107729490B (zh) * 2017-10-18 2020-03-17 华南农业大学 基于多源动态知识图谱的服装个性化设计方法与装置
CN108563653B (zh) * 2017-12-21 2020-07-31 清华大学 一种用于知识图谱中知识获取模型的构建方法及系统
CN108681544A (zh) * 2018-03-07 2018-10-19 中山大学 一种基于图谱拓扑结构和实体文本描述的深度学习方法
CN108536754A (zh) * 2018-03-14 2018-09-14 四川大学 基于blstm和注意力机制的电子病历实体关系抽取方法
CN108509654B (zh) * 2018-04-18 2021-12-28 上海交通大学 动态知识图谱的构建方法
CN109033129B (zh) * 2018-06-04 2021-08-03 桂林电子科技大学 基于自适应权重的多源信息融合知识图谱表示学习方法
CN108921213B (zh) * 2018-06-28 2021-06-22 国信优易数据股份有限公司 一种实体分类模型训练方法及装置
CN109063032B (zh) * 2018-07-16 2020-09-11 清华大学 一种远程监督检索数据的降噪方法
CN110019840B (zh) * 2018-07-20 2021-06-15 腾讯科技(深圳)有限公司 一种知识图谱中实体更新的方法、装置和服务器
CN109325108B (zh) * 2018-08-13 2022-05-27 北京百度网讯科技有限公司 查询处理方法、装置、服务器及存储介质
CN109376864A (zh) * 2018-09-06 2019-02-22 电子科技大学 一种基于堆叠神经网络的知识图谱关系推理算法
CN109376249B (zh) * 2018-09-07 2021-11-30 桂林电子科技大学 一种基于自适应负采样的知识图谱嵌入方法
CN109325131B (zh) * 2018-09-27 2021-03-02 大连理工大学 一种基于生物医学知识图谱推理的药物识别方法
CN110008340A (zh) * 2019-03-27 2019-07-12 曲阜师范大学 一种多源文本知识表示、获取与融合系统
CN110162640A (zh) * 2019-04-28 2019-08-23 北京百度网讯科技有限公司 新实体挖掘方法、装置、计算机设备及存储介质
CN111008186A (zh) * 2019-06-11 2020-04-14 中央民族大学 一种藏文知识库的表示方法
CN110275960B (zh) * 2019-06-11 2021-09-14 中国电子科技集团公司电子科学研究院 基于指称句的知识图谱和文本信息的表示方法及系统
CN110275894B (zh) * 2019-06-24 2021-12-14 恒生电子股份有限公司 一种知识图谱的更新方法、装置、电子设备及存储介质
CN110347847B (zh) * 2019-07-22 2021-09-28 西南交通大学 基于神经网络的知识图谱补全方法
CN110378489B (zh) * 2019-07-30 2022-10-25 哈尔滨工程大学 基于实体超平面投影的知识表示学习模型
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111160564B (zh) * 2019-12-17 2023-05-19 电子科技大学 一种基于特征张量的中文知识图谱表示学习方法
CN111949764B (zh) * 2020-08-18 2021-06-29 桂林电子科技大学 一种基于双向注意力机制的知识图谱补全方法
CN112395428B (zh) * 2020-12-01 2022-09-06 中国科学技术大学 一种基于集合补全知识图谱实体摘要的方法及系统
CN113434626B (zh) * 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN114329234A (zh) * 2022-03-04 2022-04-12 深圳佑驾创新科技有限公司 基于知识图谱的协同过滤推荐方法及系统
CN116562285A (zh) * 2023-04-20 2023-08-08 中国电子科技集团公司第十五研究所 一种结合实体描述信息的多模态知识表示学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1853180A (zh) * 2003-02-14 2006-10-25 尼维纳公司 语义知识提取、管理、捕获、共享、发现、交付、表示之系统与方法
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
US9185147B1 (en) * 2004-04-29 2015-11-10 Paul Erich Keel System and methods for remote collaborative intelligence analysis

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003001413A1 (en) * 2001-06-22 2003-01-03 Nosa Omoigui System and method for knowledge retrieval, management, delivery and presentation
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US7080082B2 (en) * 2002-10-31 2006-07-18 International Business Machines Corporation System and method for finding the acceleration of an information aggregate

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1853180A (zh) * 2003-02-14 2006-10-25 尼维纳公司 语义知识提取、管理、捕获、共享、发现、交付、表示之系统与方法
US9185147B1 (en) * 2004-04-29 2015-11-10 Paul Erich Keel System and methods for remote collaborative intelligence analysis
CN104598588A (zh) * 2015-01-19 2015-05-06 河海大学 基于双聚类的微博用户标签自动生成算法
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于中英平行专利语料的短语复述自动抽取研究";李莉 等;《中文信息学报》;20131130;第27卷(第6期);第151-157页 *

Also Published As

Publication number Publication date
CN106886543A (zh) 2017-06-23

Similar Documents

Publication Publication Date Title
CN106886543B (zh) 结合实体描述的知识图谱表示学习方法和系统
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN107562784A (zh) 基于ResLCNN模型的短文本分类方法
CN107341145B (zh) 一种基于深度学习的用户情感分析方法
Yao et al. Nlp from scratch without large-scale pretraining: A simple and efficient framework
CN111160564B (zh) 一种基于特征张量的中文知识图谱表示学习方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN109948149B (zh) 一种文本分类方法及装置
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN109325231A (zh) 一种多任务模型生成词向量的方法
CN107832326B (zh) 一种基于深层卷积神经网络的自然语言问答方法
CN110232122A (zh) 一种基于文本纠错与神经网络的中文问句分类方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN111008266A (zh) 文本分析模型的训练方法及装置、文本分析方法及装置
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN106970981A (zh) 一种基于转移矩阵构建关系抽取模型的方法
CN109741824A (zh) 一种基于机器学习的医疗问诊方法
CN113190593A (zh) 一种基于数字人文知识图谱的搜索推荐方法
Wenzhen et al. An efficient character-level and word-level feature fusion method for Chinese text classification
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
CN110245292B (zh) 一种基于神经网络过滤噪声特征的自然语言关系抽取方法
CN114003706A (zh) 关键词组合生成模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant