CN109871542B - 一种文本知识提取方法、装置、设备及存储介质 - Google Patents
一种文本知识提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109871542B CN109871542B CN201910178007.5A CN201910178007A CN109871542B CN 109871542 B CN109871542 B CN 109871542B CN 201910178007 A CN201910178007 A CN 201910178007A CN 109871542 B CN109871542 B CN 109871542B
- Authority
- CN
- China
- Prior art keywords
- entity
- data
- description
- knowledge
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims description 165
- 238000011176 pooling Methods 0.000 claims description 91
- 238000000034 method Methods 0.000 claims description 34
- 238000010276 construction Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 239000013589 supplement Substances 0.000 abstract description 7
- 238000005065 mining Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000007786 learning performance Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Abstract
本发明公开了一种基于知识图谱的文本知识提取方法,涉及知识图谱技术领域,为每个实体构建两种表示数据,基于结构的表示以及基于描述的表示,将实体结构化数据与实体描述数据进行信息融合,基于结构的表示能够挖掘实体名字中有相同单词的相似实体之间可能存在的潜在关系,而描述表示能够作为知识图谱中置信度较高的结构化信息的辅助帮助模型构建更准确的知识表示,将实体的描述信息与知识图谱自身的结构信息结合起来,充分考虑了实体描述信息中深入的细节描述作为知识图谱中已有结构化信息的辅助与补充,构建了更全面的知识表示。本发明还公开了一种基于知识图谱的文本知识提取装置、设备及一种可读存储介质,具有上述有益效果。
Description
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于知识图谱的文本知识提取方法、装置、设备及可读存储介质。
背景技术
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是【实体—关系—实体】三元组,以及实体及其【相关属性—值】对,实体之间通过关系相互联结,构成网状的知识结构。作为人工智能时代最重要的知识表示方式之一,知识图谱能够使得企业能够通过互联网便利地获取用户们更为广泛的反馈信息,目前知识图谱广泛应用于用户兴趣分析中。
用户兴趣通常分布在Web上的不同系统中,在分析用户兴趣时需要基于原始数据进行文本信息的获取,根据获取的文本信息进行进一步数据分析。相关技术中知识表示学习的方法主要集中在用户兴趣的结构化信息分析中,但基于结构性信息对于在分布式环境中获得用户兴趣的相对完整描述不是非常有效。
因此,如何提升文本信息提取能力,提升知识表示学习的性能,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种基于知识图谱的文本知识提取方法,该方法嵌入多源信息很好地作为知识图谱中已有结构化信息的辅助与补充,提供更加深入的细节描述,提升了知识表示学习的性能;本发明的另一目的是提供一种基于知识图谱的文本知识提取装置、设备及一种可读存储介质。
为解决上述技术问题,本发明提供一种基于知识图谱的文本知识提取方法,包括:
对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示。
可选地,将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,包括:
对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
将所述卷积输出向量通过池化层进行下采样,得到实体描述数据。
可选地,所述池化层包括最大池化层以及平均池化层;则将所述卷积输出向量通过池化层进行下采样,包括:
将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
将所述初始池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据。
可选地,将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,包括:
将根据所述知识图谱数据预先提取实体结构化数据以及所述实体描述数据映射至同一向量空间,得到结构向量以及描述向量;
将所述结构向量以及所述描述向量输入至加权融合卷积神经网络按预设句子权重进行加权融合,得到融合数据。
可选地,将所述结构向量以及所述描述向量输入至加权融合卷积神经网络按句子权重进行加权融合,包括:
基于句子级别的attention机制对所述实体描述信息以及所述用户结构化信息进行加权融合。
本发明公开一种基于知识图谱的文本知识提取装置,包括:
数据筛选单元,用于对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
描述构建单元,用于将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
信息融合单元,用于将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示。
可选地,所述描述构建单元包括:
预处理子单元,用于对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
卷积提取子单元,用于将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
池化采样子单元,用于将所述卷积输出向量通过池化层进行下采样,得到实体描述数据。
可选地,所述池化层包括最大池化层以及平均池化层;则所述池化采样子单元包括:
最大池化子单元,用于将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
均值池化子单元,用于将所述初始池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据。
本发明公开一种基于知识图谱的文本知识提取设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现所述基于知识图谱的文本知识提取方法的步骤。
本发明公开一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现所述基于知识图谱的文本知识提取方法的步骤。
本发明所提供的基于知识图谱的文本知识提取方法,为每个实体构建两种表示数据,基于结构的表示以及基于描述的表示。对输入的知识图谱进行数据筛选以及基于描述的知识表示的构建,得到的实体描述数据,将实体结构化数据与实体描述数据进行信息融合,基于结构的表示能够挖掘实体名字中有相同单词的相似实体之间可能存在的潜在关系,而描述表示能够作为知识图谱中置信度较高的结构化信息的辅助帮助模型构建更准确的知识表示,将实体的描述信息与知识图谱自身的结构信息结合起来,嵌入多源信息,充分考虑了实体描述信息中深入的细节描述作为知识图谱中已有结构化信息的辅助与补充,充分利用多源信息辅助构建了更全面的知识表示,大大提升了文本信息提取能力。
本发明还提供了一种基于知识图谱的文本知识提取装置、设备及一种可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种基于知识图谱的文本知识提取方法的流程图;
图2为本发明实施例提供的一种知识提取融合过程示意图;
图3为本发明实施例提供的一种基于知识图谱的文本知识提取装置的结构框图;
图4为本发明实施例提供的一种基于知识图谱的文本知识提取设备的结构示意图。
具体实施方式
本发明的核心是提供一种基于知识图谱的文本知识提取方法,该方法嵌入多源信息很好地作为知识图谱中已有结构化信息的辅助与补充,提供更加深入的细节描述,提升了知识表示学习的性能;本发明的另一核心是提供一种基于知识图谱的文本知识提取装置、设备及一种可读存储介质。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
用户兴趣通常分布在Web上的不同系统中。相关技术中对于用户兴趣的研究的知识表示学习模型仅仅关注知识图谱内部基于三元组的结构化信息,而忽略了实体描述对于知识表示学习的潜在作用。例如,目前常用的神经张量模型是较早使用文本信息的知识表示学习模型之一,它使用组成实体名字的每个词的词向量平均作为此实体的向量,这种融合文本和知识的表示学习方法直观且简单,能够挖掘实体名字中有相同单词的相似实体之间可能存在的潜在关系,但是忽略了描述中蕴含着丰富的实体信息,这些信息能够作为知识图谱中置信度较高的结构化信息的辅助,帮助模型构建更准确的知识表示。
本发明提出了一种基于知识图谱的文本信息获取方法,该方法充分利用实体描述的文本信息,将描述信息和结构信息融合进行知识表示,提升了知识表示学习的性能。
实施例一:
请参考图1,图1为本实施例提供的一种基于知识图谱的文本知识提取方法的流程图;该方法可以包括:
步骤s110、对输入的知识图谱进行数据筛选,得到实体描述的文本信息。
对知识图谱进行实体描述文本信息的筛选的过程可以参照相关技术中进行描述信息提取的过程,比如可以根据词袋模型,从文本特征实体描述中筛选关键词,利用关键词词向量构建实体描述的向量表示;也可以借助向量空间模型TF/IDF方法计算每个关键词的权重,选择出有价值的关键词作为描述信息的向量表示等。当然,也可以根据其他方式进行筛选,在此不再赘述。
步骤s120、将实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,得到实体描述数据。
描述表示构建模型为预训练的基于神经网络的描述编码器,描述表示构建模型以实体描述为输入,通过实体描述编码器得到实体基于描述的表示。具体的描述编码器的结构,即选用的神经网络层以及连接方式不做限定,比如可以选用一个卷积层与一个池化层连接的形式,或者一个卷积层与两个池化层连接的形式等,具体的描述编码器的结构可以根据知识图谱所适用的信息范围、需要提取的数据精度以及训练过程中得到的参数进行设置以及适应性调整。训练过程将预先配置的若干知识图谱输入至搭建的描述编码器中,根据学习到的信息通过反向传播更新描述编码器的参数和向量,经过训练即可得到输出精度达到预设要求的描述表示构建模型。
经过实际训练过程,描述编码器主要包括卷积层以及池化层时数据运算效率较高,且精度较高,优选地,在此以对数据预处理、卷积层和池化层三个步骤为例对将实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建的过程进行介绍,主要包括以下步骤:
(1)、对实体描述的文本信息进行数据预处理,得到待处理词向量。
具体地,数据预处理包括但不限于非可用词剔除以及词向量构建,当然,也可以选用其它噪声剔除以及无用单词剔除的数据预处理手段等,在此对具体的数据预处理手段不做限定。
根据停用词词表去除了实体描述中的停用词,对去除停用词后的数据进行向量构建,其中停用词词表可以根据实际词汇筛选需要进行编辑设定,具体包含的词汇在此不做限定,向量构建比如可以通过Word2vec模型在大规模语料上训练得到词向量等。
(2)、将待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量。
(3)、将卷积输出向量通过池化层进行下采样,得到实体描述数据。
步骤s130、将根据知识图谱提取的实体结构化数据与实体描述数据进行信息融合,将得到的融合数据作为知识图谱数据的知识表示。
本实施例中为每个实体设置了两种知识表示:基于结构的表示(词向量和知识库的实体向量)与基于描述的表示。通过上述步骤110至步骤120可以得到基于描述的知识表示,基于结构的知识表示可以参照现有的相关技术中的获取方式,在此不再赘述。
得到两种知识表示后,将实体结构化数据与实体描述数据进行信息融合,将得到的融合数据作为知识图谱数据的知识表示,即可嵌入多源信息很好地作为知识图谱中已有结构化信息的辅助与补充,提供了更加深入的细节描述,提升了知识表示学习的性能。
其中,信息融合的方式可参照相关技术中的信息融合方法,比如可以进行加权融合以及随机融合等。根据加权融合进行合并,相比于非加权融合,考虑到了概念的层次关系和一些背景知识,可以根据获取的知识表示的主要用途是注重于结构信息,还是注重于文本的描述信息进行用户自定义权重的合并,从而使得最终获取的知识表示更贴近用户需求,提高信息可用度。比如情感分析中就会更注重文本的描述信息,这时对于描述信息可以赋予更高的权重。
具体地,进行加权融合的过程可以参照以下步骤:
(1)、将根据知识图谱数据预先提取实体结构化数据以及实体描述数据映射至同一向量空间,得到结构向量以及描述向量。
获取实体结构化数据的过程可以参照现有技术中相关方法,在此不做限定。
由于一般来说结构化信息和实体描述的文本信息不是通过同一个模型学出来的,无法直接放到同一个向量空间,因此需要将两部分数据进行统一向量空间的映射,可以映射至实体化结构数据的向量空间、实体描述数据的向量空间等。当然,若两部分数据可以通过同一模型得到,即两部分数据同属统一向量空间,可忽略该步骤。
(2)、将结构向量以及描述向量输入至加权融合卷积神经网络按预设句子权重进行加权融合,得到融合数据。
预设句子权重指预先设置的根据所要分析的数据侧重设置相应两部分的权重,具体权重数值可以根据实际情况进行设置。优选地,可以基于句子级别的attention机制对实体描述信息以及用户结构化信息进行加权融合。attention机制可以解决对于每个实体对只选用一个句子进行学习和预测,损失了大量的来自其它正确标注句子的信息的问题。
需要说明的是,在此仅以上述加权融合为例进行介绍,其它数据融合方式均可参照本实施例的介绍,在此不再赘述。
将实体的描述信息与知识图谱自身的结构信息结合后,可以充分利用多源信息辅助构建更好的知识表示。
基于上述介绍,本实施例提供的基于知识图谱的文本知识提取方法,为每个实体构建两种表示数据,基于结构的表示以及基于描述的表示。对输入的知识图谱进行数据筛选以及基于描述的知识表示的构建,得到的实体描述数据,将实体结构化数据与实体描述数据进行信息融合,基于结构的表示能够挖掘实体名字中有相同单词的相似实体之间可能存在的潜在关系,而描述表示能够作为知识图谱中置信度较高的结构化信息的辅助帮助模型构建更准确的知识表示,将实体的描述信息与知识图谱自身的结构信息结合起来,嵌入多源信息,充分考虑了实体描述信息中深入的细节描述作为知识图谱中已有结构化信息的辅助与补充,充分利用多源信息辅助构建了更全面的知识表示,大大提升了文本信息提取能力。
实施例二:
上述实施例中对模型结构不做限定,本实施例中以描述表示构建模型为卷积层以及池化层连接的形式为例进行介绍。
优选地,为了从实体描述中尽可能完整地抽取到重要的文本信息,同时减少文本信息中可能存在的噪音,本实施例中基于卷积神经网络设置了两个不同的池化层应对策略。本实施例中池化层具体包括最大池化层以及平均池化层,将卷积输出向量通过池化层进行下采样具体包括:
将待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
将初始池化输出向量通过平均池化层进行均值池化,得到第二池化输出向量,并将第二池化输出向量作为实体描述数据。
用户文本描述通常包括多个句子,在第一个池化层进行最大池化操作,仅使用局部特征最强烈的值作为整个局部的代表,来达到去冗余和去噪声。而考虑到描述中的每个句子都应该对最后的知识表示产生影响,在第二个池化层使用了平均池化的策略综合考虑所有的局部信息。这样设置使得可以在尽可能抽取高质量的文本信息的同时,减少模型复杂度与需要训练的参数量,最终建立更好的实体基于描述的知识表示。
实施例三:
为加深对本发明提出的文本知识提取方法的理解,本实施例中以进行两重池化、基于Attention机制进行加权融合为例对整体文本知识提取过程进行介绍。
首先以实体描述为输入,通过实体描述编码器得到实体基于描述的表示。具体通过对数据预处理、卷积层和池化层三分步骤实现。其中,基于卷积神经网络设置了最大池化和平均池化应对策略,最终建立更好的实体基于描述的知识表示。然后基于描述的表示与基于结构的表示被统一在同一框架(数据融合神经网络)下进行学习。最后为每个实体设置了两种知识表示:基于结构的表示(包括词向量和实体向量)与基于描述的表示。对于获得的三种信息表示采用基于句子级别的attention机制,实现加权融合的知识表示学习模型。具体地,上述过程请参照以下介绍。
一、为了从实体描述中尽可能完整地抽取到重要的文本信息,同时减少文本信息中可能存在的噪音,使用了两层卷积层与对应的池化层及非线性层对基于卷积神经网络的实体描述编码器进行建模。具体步骤如下:
(1)数据预处理:根据停用词词表去除了实体描述中的停用词,利用word2vec模型可以得到词的向量表示,作为卷积神经网络模型的输入用X={x1,...,xn}表示,其中n表示预处理之后实体描述的长度。
(2)卷积层:使用的是一组长度为k的一维卷积核来处理文本序列。用Xl表示第l层输入序列的矩阵,Zl表示第l层的输出矩阵。其中,实体经过预处理后的描述序列X={x1,...,xn}即为第一层卷积层的输入。
(2.1)对于第l层的输入序列将输入序列的第i个向量到第i+k-1个向量共k个向量依序头尾相接,连接成一个长向量,作为下一步输入矩阵的第l个向量。进行卷积操作:
其中是窗口操作后得到矩阵的第l个向量,k是窗口大小。
由于输入序列可能是变长的,所以我们采用补零的方法在序列后补上全零向量。
(2.2)卷积层联合卷积核得到输出结果记为
其中表示第l层的第i个输出向量,W(l)表示第l层的卷积核,b(l)表示第l层的偏置矩阵。σ表示非线性函数。
(3)池化层:在(2.1)中采用最大池化层,对于Z(l),将此输出矩阵按行均等分为窗口大小为m的向量组,不能整除时在序列尾部补上全零向量,每个向量组大小为m×n2。在每个向量组中,针对每一维,我们在m个元素中选择最大的一个组成大小为1×n2输出向量,因此选择局部区域中最强烈的特征信号,同时将描述的表示缩小成原来的达到了减少特征空间并过滤噪声的效果:
在(2.2)中采用平均池化层,平均池化层将输入矩阵按行取均值构成了输出向量,综合考虑了所有输入向量的信息,于是获得实体基于描述的表示如下:
其中x(3)表示卷积神经网络模型得到的实体基于描述的表示,而n2表示第二个池化层的输入矩阵长度。
二、将信息数据映射到了同一向量空间。
在知识图谱方面,我们使用(h,r,t)表示一个三元组,其中h代表头实体,t代表尾实体,而r代表关系。沿用平移模型中的假设,认为三元组内的实体与关系向量之间应该具有的关系。我们使用E表示实体集合,R表示关系集合,T表示三元组集合,并有h,t∈E,r∈R以及(h,r,t)∈T。
利用word2vec模型可以得到词的向量表示X={x1,...,xn},利用知识图谱嵌入模型TransD可以得到知识库实体的向量表示E={e1,...,en}。我们先把知识库实体的向量、实体描述信息的向量和词向量表示通过一个非线性变换映射到同一个向量空间,映射的方式可以是线性变换或者非线性的变换如tanh:
g1(e1:n)=[g(e1)g(e2)…g(en)]
g3(x1:n)=[g(x1)g(x2)...g(xn)]
三、基于Attention机制的知识表示学习模型。
将上述3个向量作为卷积神经网络多通道的输入,在softmax层之前
加入了一种基于句子级别的attention机制,用于解决对于每个实体对只选
用一个句子进行学习和预测,损失了大量的来自其它正确标注句子的信息
的问题。
设b1,...,bq是一个知识库中的所有实例,每个bi都是由上述3个向量
经过池化层输出的一个句向量,利用对应的两个实体的向量差来构造关系
向量V=e1-e2,对于每个bi,计算其与V的相似度,得到ai作为该句子
的权重。
其中[bi;V]表示向量的拼接,ba为补偿值。bi的加权将输出给softmax层,Attention机制的应用能够根据特定关系为实体对的每个句子分配权重通过不断学习能够使得有效句子获得较高的权重,有噪音的句子获得较小的权重。将词、实体、实体描述的向量通过加权融合的方法最终表示为:
B=a1b1+a2b2+…+aqbq;a1+a2+…+aq=1
图2所示为本实施例中知识提取融合过程示意图,实体描述的知识表示学习模型以实体描述为输入,通过实体描述编码器得到实体基于描述的表示。对于卷积层和池化层本实施例基于卷积神经网络设置了两个不同的池化层应对策略,使得在尽可能抽取高质量的文本信息的同时,减少模型复杂度与需要训练的参数量,最终建立更好的实体基于描述的知识表示。最终创新性地为每个实体设置了两种知识表示:基于结构的表示(词向量和知识库的实体向量)与基于描述的实体描述信息,对于获得的多三种知识采用基于Attention机制的知识表示学习模型,用于解决对于每个实体对只选用一个句子进行学习和预测,损失了大量的来自其它正确标注句子的信息的问题。
实施例四:
请参考图3,图3为本实施例提供的一种基于知识图谱的文本知识提取装置的结构框图;可以包括:数据筛选单元210、描述构建单元220、结构信息提取单元以及信息融合单元230。本实施例提供的基于知识图谱的文本知识提取装置可与上述基于知识图谱的文本知识提取方法相互对照。
其中,数据筛选单元210主要用于对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
描述构建单元220主要用于将实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,描述表示构建模型为预训练的基于神经网络的描述编码器;
信息融合单元230主要用于将根据知识图谱提取的实体结构化数据与实体描述数据进行信息融合,得到融合数据,并将融合数据作为知识图谱数据的知识表示。
可选地,描述构建单元包括:
预处理子单元,用于对实体描述的文本信息进行数据预处理,得到待处理词向量;其中,数据预处理包括:非可用词剔除以及词向量构建;
卷积提取子单元,用于将待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
池化采样子单元,用于将卷积输出向量通过池化层进行下采样,得到实体描述数据。
可选地,池化层包括最大池化层以及平均池化层;则池化采样子单元具体包括:
最大池化子单元,用于将待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
均值池化子单元,用于将初始池化输出向量通过平均池化层进行均值池化,得到第二池化输出向量,并将第二池化输出向量作为实体描述数据。
可选地,信息融合单元具体包括:
空间映射子单元,用于将根据知识图谱数据预先提取实体结构化数据以及实体描述数据映射至同一向量空间,得到结构向量以及描述向量;
加权融合子单元,用于将结构向量以及描述向量输入至加权融合卷积神经网络按预设句子权重进行加权融合,得到融合数据。
其中,可选地,加权融合子单元具体为attention子单元,用于:基于句子级别的attention机制对实体描述信息以及用户结构化信息进行加权融合。
本实施例提供的基于知识图谱的文本知识提取装置嵌入多源信息很好地作为知识图谱中已有结构化信息的辅助与补充,提供更加深入的细节描述,提升了知识表示学习的性能。
实施例五:
本实施例提供一种基于知识图谱的文本知识提取设备,包括:存储器以及处理器。
其中,存储器用于存储程序;
处理器用于执行程序时实现如上述基于知识图谱的文本知识提取方法的步骤,具体可参照上述实施例中基于知识图谱的文本知识提取方法的介绍。
请参考图4,为本实施例提供的一种基于知识图谱的文本知识提取设备的结构示意图,该文本知识提取设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)322(例如,一个或一个以上处理器)和存储器332,一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中,存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储介质330通信,在基于知识图谱的文本知识提取设备301上执行存储介质330中的一系列指令操作。
基于知识图谱的文本知识提取设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上面图1所描述的基于知识图谱的文本知识提取方法中的步骤可以由基于知识图谱的文本知识提取设备的结构实现。
实施例六:
本实施例公开一种可读存储介质,其上存储有程序,程序被处理器执行时实现如基于知识图谱的文本知识提取方法的步骤,具体可参照上述实施例中对基于知识图谱的文本知识提取方法的介绍。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的基于知识图谱的文本知识提取方法、装置、设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (6)
1.一种基于知识图谱的文本知识提取方法,其特征在于,包括:
对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示;
将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,包括:
对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
将所述卷积输出向量通过池化层进行下采样,得到实体描述数据;
所述池化层包括最大池化层以及平均池化层;则将所述卷积输出向量通过池化层进行下采样,包括:
将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
将所述第一池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据;
将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,包括:
得到的所述待处理词向量表示X={x1,...,xn},得到知识库实体的向量表示E={e1,...,en},其中在知识图谱方面,使用(h,r,t)表示一个三元组,其中h代表头实体,t代表尾实体,而r代表关系,E表示实体集合,有h,t∈E,将知识库实体的向量、所述实体描述数据的向量和所述待处理词向量通过非线性变换映射到同一个向量空间;
设b1,...,bq是知识库中的实例,每个bi是由所述待处理词向量、所述实体描述数据的向量,知识库实体的向量三个向量经过池化层输出的一个句向量,利用对应的两个实体的向量差来构造关系向量V=e1-e2对于每个bi,计算其与V的相似度,得到ai作为该句子的权重:
其中[bi;V]表示向量的拼接,ba为补偿值,bi的加权将输出给softmax层,将词、实体、实体描述的向量通过加权融合后表示为:
B=a1b1+a2b2+…+aqbq;a1+a2+…+aq=1。
2.如权利要求1所述的基于知识图谱的文本知识提取方法,其特征在于,将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,包括:
将根据所述知识图谱数据预先提取实体结构化数据以及所述实体描述数据映射至同一向量空间,得到结构向量以及描述向量;
将所述结构向量以及所述描述向量输入至加权融合卷积神经网络按预设句子权重进行加权融合,得到融合数据。
3.如权利要求2所述的基于知识图谱的文本知识提取方法,其特征在于,将所述结构向量以及所述描述向量输入至加权融合卷积神经网络按句子权重进行加权融合,包括:
基于句子级别的attention机制对所述实体描述信息以及所述实体结构化数据进行加权融合。
4.一种基于知识图谱的文本知识提取装置,其特征在于,包括:
数据筛选单元,用于对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
描述构建单元,用于将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
信息融合单元,用于将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示;
所述描述构建单元包括:
预处理子单元,用于对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
卷积提取子单元,用于将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
池化采样子单元,用于将所述卷积输出向量通过池化层进行下采样,得到实体描述数据;
所述池化层包括最大池化层以及平均池化层;则所述池化采样子单元包括:
最大池化子单元,用于将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
均值池化子单元,用于将所述第一池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据;
将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,包括:
得到的所述待处理词向量表示X={x1,...,xn},得到知识库实体的向量表示E={e1,...,en},其中在知识图谱方面,使用(h,r,t)表示一个三元组,其中h代表头实体,t代表尾实体,而r代表关系,E表示实体集合,有h,t∈E,将知识库实体的向量、所述实体描述数据的向量和所述待处理词向量通过非线性变换映射到同一个向量空间;
设b1,...,bq是知识库中的实例,每个bi是由所述待处理词向量、所述实体描述数据的向量,知识库实体的向量三个向量经过池化层输出的一个句向量,利用对应的两个实体的向量差来构造关系向量V=e1-e2对于每个bi,计算其与V的相似度,得到ai作为该句子的权重:
wi=Wa T(tanh tanh[bi;V])+ba;
其中[bi;V]表示向量的拼接,ba为补偿值,bi的加权将输出给softmax层,将词、实体、实体描述的向量通过加权融合后表示为:
B=a1b1+a2b2+…+aqbq;a1+a2+…+aq=1。
5.一种基于知识图谱的文本知识提取设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序时实现如权利要求1至3任一项所述基于知识图谱的文本知识提取方法的步骤。
6.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至3任一项所述基于知识图谱的文本知识提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910178007.5A CN109871542B (zh) | 2019-03-08 | 2019-03-08 | 一种文本知识提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910178007.5A CN109871542B (zh) | 2019-03-08 | 2019-03-08 | 一种文本知识提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871542A CN109871542A (zh) | 2019-06-11 |
CN109871542B true CN109871542B (zh) | 2024-03-08 |
Family
ID=66920100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910178007.5A Active CN109871542B (zh) | 2019-03-08 | 2019-03-08 | 一种文本知识提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871542B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489613B (zh) * | 2019-07-29 | 2022-04-26 | 北京航空航天大学 | 协同可视数据推荐方法及装置 |
CN110674358B (zh) * | 2019-08-29 | 2023-08-22 | 平安科技(深圳)有限公司 | 企业信息比对分析方法、装置、计算机设备及存储介质 |
CN110704576B (zh) * | 2019-09-30 | 2022-07-01 | 北京邮电大学 | 一种基于文本的实体关系抽取方法及装置 |
CN111090740B (zh) * | 2019-12-05 | 2023-09-29 | 北京轮子科技有限公司 | 一种用于对话系统的知识图谱生成方法 |
CN111241826B (zh) * | 2020-01-09 | 2023-07-25 | 深圳前海微众银行股份有限公司 | 实体名称识别方法、装置、设备及存储介质 |
CN112445913B (zh) * | 2020-11-25 | 2022-09-27 | 重庆邮电大学 | 一种基于大数据的金融信息负面主体判定分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391623A (zh) * | 2017-07-07 | 2017-11-24 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
CN108197290A (zh) * | 2018-01-19 | 2018-06-22 | 桂林电子科技大学 | 一种融合实体和关系描述的知识图谱表示学习方法 |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8700385B2 (en) * | 2008-04-04 | 2014-04-15 | Microsoft Corporation | Providing a task description name space map for the information worker |
US20150169758A1 (en) * | 2013-12-17 | 2015-06-18 | Luigi ASSOM | Multi-partite graph database |
-
2019
- 2019-03-08 CN CN201910178007.5A patent/CN109871542B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391623A (zh) * | 2017-07-07 | 2017-11-24 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
CN108563653A (zh) * | 2017-12-21 | 2018-09-21 | 清华大学 | 一种用于知识图谱中知识获取模型的构建方法及系统 |
CN108197290A (zh) * | 2018-01-19 | 2018-06-22 | 桂林电子科技大学 | 一种融合实体和关系描述的知识图谱表示学习方法 |
CN109299284A (zh) * | 2018-08-31 | 2019-02-01 | 中国地质大学(武汉) | 一种基于结构信息与文本描述的知识图谱表示学习方法 |
Non-Patent Citations (2)
Title |
---|
知识图谱发展与构建的研究进展;朱木易洁;鲍秉坤;徐常胜;;南京信息工程大学学报(自然科学版)(06);全文 * |
面向企业知识图谱构建的中文实体关系抽取;孙晨;付英男;程文亮;钱卫宁;;华东师范大学学报(自然科学版)(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109871542A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871542B (zh) | 一种文本知识提取方法、装置、设备及存储介质 | |
CN106886543B (zh) | 结合实体描述的知识图谱表示学习方法和系统 | |
JP2021518939A (ja) | データ拡張方策の学習 | |
CN113239186B (zh) | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 | |
CN109857871B (zh) | 一种基于社交网络海量情景数据的用户关系发现方法 | |
CN106897254B (zh) | 一种网络表示学习方法 | |
CN110245364B (zh) | 零平行语料多模态神经机器翻译方法 | |
CN111144553B (zh) | 一种基于时空记忆注意力的图像描述方法 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN112365885B (zh) | 唤醒模型的训练方法、装置和计算机设备 | |
WO2019154411A1 (zh) | 词向量更新方法和装置 | |
CN112364242B (zh) | 针对上下文感知型的图卷积推荐系统 | |
CN112733043B (zh) | 评论推荐方法及装置 | |
CN117194637B (zh) | 基于大语言模型的多层级可视化评估报告生成方法、装置 | |
CN111274790A (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
CN114528398A (zh) | 一种基于交互双重图卷积网络的情感预测方法及系统 | |
CN111353040A (zh) | 基于gru的属性级别情感分析方法 | |
CN116244473B (zh) | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 | |
JP6586026B2 (ja) | 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN116187416A (zh) | 一种基于层剪枝灵敏度的迭代式重训练方法及一种图像处理器 | |
KR20230141828A (ko) | 적응형 그래디언트 클리핑을 사용하는 신경 네트워크들 | |
CN114118058A (zh) | 基于句法特征和注意力机制相融合的情感分析系统及方法 | |
CN113901789A (zh) | 基于门控空洞卷积和图卷积的方面级情感分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Fanlong Inventor after: Wang Tao Inventor after: Wang Jing Inventor before: Wang Tao Inventor before: Wang Jing Inventor before: Zhang Fanlong |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |