CN113010690A - 一种基于文本信息增强实体嵌入的方法 - Google Patents
一种基于文本信息增强实体嵌入的方法 Download PDFInfo
- Publication number
- CN113010690A CN113010690A CN202110334949.5A CN202110334949A CN113010690A CN 113010690 A CN113010690 A CN 113010690A CN 202110334949 A CN202110334949 A CN 202110334949A CN 113010690 A CN113010690 A CN 113010690A
- Authority
- CN
- China
- Prior art keywords
- entity
- embedding
- relation
- vector
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于文本信息增强实体嵌入的方法,包括预训练知识图谱嵌入模型,得到实体向量和关系向量;将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中,得到实体结构嵌入以及关系结构嵌入;预训练词向量模型,得到词向量;查询词嵌入矩阵,得到实体描述词向量和关系词向量;将实体描述词向量输入到BiLSTM网络中,在BiLSTM网络的输出层中引入点积注意力;对关系词向量取平均得到关系嵌入;将实体结构嵌入投影到关系空间,得到实体结构嵌入投影,再将实体描述嵌入和实体结构嵌入投影相加,得到实体嵌入。本发明利用网络安全知识库中附带的文本信息来增强实体的表示能力,进而提高实体链接预测的准确率。
Description
技术领域
本发明涉及知识图谱补全技术领域,具体涉及一种基于文本信息增强实体嵌入的方法。
背景技术
由于国内外缺乏全自动构建知识图谱的技术,现今大多数知识图谱都是通过半自动的技术来构建,这就导致知识图谱的不完整,给诸如知识问答、网页搜索等知识图谱上层应用带来巨大挑战。知识图谱由众多节点和边构成,节点即为实体,边即为实体间存在的关系,将这些实体和关系映射到一个低维连续的向量空间的技术被称为知识表示学习。知识表示学习技术一般是利用事实三元组这一类结构信息来表示实体和关系,但由于知识图谱的稀疏和不完整,得到的实体和关系嵌入往往表示能力不强。最近,有学者将目光投放在知识库中附带的文本信息上,这一类文本包括实体描述、实体名称和实体类型等信息,并且有研究表明,这类文本信息能够帮助发现新的关系以及提供更精准的表示。
利用文本信息改进实体嵌入的技术一般包括了两个过程:对文本信息进行编码和利用文本嵌入对实体语义进行增强。以往文本信息编码大多是基于主题模型。然而,采用主题模型得到的文本嵌入包含较少的语义信息。随着近年来诸如Word2Vec、Glove、Transformer和BERT等词向量模型的发展,越来越多的研究选择词向量模型作为预训练模型,以获取包含更为丰富的语义信息的文本嵌入。因为词嵌入和知识图谱嵌入处于不同的向量空间,不能直接进行计算操作,所以利用文本嵌入对实体语义进行增强这一过程首先要将文本嵌入和知识图谱嵌入统一到同一个向量空间。目前,一些研究把实体或关系表示成文本嵌入的线性变换,具体来说,他们先将文本嵌入映射到实体的向量空间再与原始的实体嵌入相加。还有一些研究是设计一个对齐模型,把文本嵌入和实体嵌入对齐到同一个语义空间,从而将两者联合到一起。
由上述分析可知,要利用文本信息增强原有实体的表示能力必须将实体嵌入和文本嵌入统一到同一个语义空间。针对这一问题,一些现有技术是把生成的文本嵌入直接映射到实体的语义空间,这一做法可以将实体相关的语义提取出来,但忽略了关系语义。事实上,实体和关系之间存在相互作用,同一实体对于不同的关系而表现出不一样的属性。在一个事实三元组中,关系只关注头实体的某一属性,实体的其余属性对于该关系来说属于无关信息,所以从实体描述提取的信息应该是与关系相关的语义。还有一些做法是将实体描述投影到关系空间,得到实体描述嵌入,然后直接与原始的实体嵌入相加。这种做法只是增强了实体描述中与关系相关的部分,没有对实体的结构信息进行处理。由于文本嵌入和知识图谱嵌入处于两个不同的语义空间,如果直接相加可能会将一些无关的语义引入到原来的实体表示当中,反而会削弱原有的语义。因此,现有技术得到的实体表示大都比较片面
发明内容
本发明的目的是为了克服以上现有技术存在的不足,提供了一种提高实体链接预测的准确率的基于文本信息增强实体嵌入的方法。
本发明的目的通过以下的技术方案实现:
一种基于文本信息增强实体嵌入的方法,包括:
S1,采用网络安全数据集预训练知识图谱嵌入模型,得到实体向量和关系向量;将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中,分别得到实体结构嵌入es和关系结构嵌入rs;
S2,预训练词向量模型,得到词向量;采用词向量初始化词嵌入矩阵;
S3,根据实体描述以及关系中每个词的索引查询词嵌入矩阵,得到实体描述词向量和关系词向量;
S4,将实体描述词向量输入到BiLSTM网络中,在BiLSTM网络的输出层中引入点积注意力;对关系词向量取平均得到关系嵌入;将每一时刻BiLSTM网络的输出与关系嵌入做匹配,得到每一时刻的输出对于关系的权重;将权重分配到每个BiLSTM网络的输出,得到对关系加权后的实体描述嵌入;
S5,将预训练得到的实体结构嵌入es投影到关系空间,得到实体结构嵌入投影e⊥,再将实体描述嵌入和实体结构嵌入投影相加,得到实体嵌入e。
优选地,实体描述来自网络安全知识库中附带的文本信息。
优选地,每一时刻的输出对于关系嵌入的权重为:
优选地,对关系加权后的实体描述嵌入为:
其中Vr表示单层神经网络,ReLU表示激活函数。
优选地,将预训练得到的实体结构嵌入es投影到关系空间,得到实体结构嵌入投影e⊥,投影表达式为:
e⊥=esMr。
其中Mr表示关系投影矩阵。
优选地,实体嵌入e表示为:
e=ed+e⊥。
优选地,所述的基于文本信息增强实体嵌入的方法,还包括:对知识图谱嵌入模型进行优化;具体为:随机替换网络安全训练集中的头实体或者尾实体,生成负样本集合;将负样本集合输入知识图谱嵌入模型进行训练;根据评分函数计算正负样本的得分,使用Adam优化算法调整知识图谱嵌入模型参数直至模型收敛。
优选地,知识图谱嵌入模型的损失函数为:
其中γ是分离正负样本的边界值,f(eh,rs,et)为基线模型的评分函数。
本发明相对于现有技术具有如下优点:
本发明利用网络安全知识库中附带的文本信息来增强实体的表示能力,进而提高实体链接预测的准确率。考虑到实体描述中可能存在长句子,本本发明在编码实体描述这一过程中采用的是BiLSTM模型。另外,为了加快模型收敛和降低过拟合,对知识图谱嵌入模型以及词向量模型进行预训练。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的基于文本信息增强实体嵌入的方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明主要适用于网络安全领域中的知识表示学习,通过利用网络安全知识库中的文本信息,提高模型在实体链接预测任务上的准确率。
参见图1、一种基于文本信息增强实体嵌入的方法,包括:
S1,采用网络安全数据集预训练知识图谱嵌入模型,得到实体向量和关系向量,这能加快模型收敛;将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中,分别得到实体结构嵌入es和关系结构嵌入rs;
S2,采用英文维基百科语料集预训练词向量模型,得到词向量;采用词向量初始化词嵌入矩阵;
S3,根据实体描述(x1,x2,…,xn)以及关系(y1,y2,…,ym)中每个词的索引查询词嵌入矩阵,得到实体描述词向量和关系词向量实体描述是从网络安全数据库中抽取得到;实体描述来自网络安全知识库中附带的文本信息,实体描述是一个长句子,且有用信息分布在句子的不同位置。
接着将每一时刻BiLSTM网络的输出与关系嵌入做匹配,即采用点积注意力计算实体描述词向量和关系嵌入的相似程度得分,得到每一时刻的输出对于关系的权重;每一时刻的输出对于关系嵌入的权重为:
将权重分配到每个BiLSTM网络的输出,得到对关系加权后的实体描述嵌入;对关系加权后的实体描述嵌入为:
其中Vr∈Rw×d表示单层神经网络,ReLU(·)表示非线性激活层,激活函数采用线性整流函数。
由于需要从网络安全实体描述中提取和关系相关的语义,而注意力机制可以使BiLSTM网络集中关注输入序列中与关系语义相关的部分。本发明首先查询词嵌入矩阵得到实体描述的词向量和关系的词向量,然后把实体描述的词向量输入到BiLSTM网络得到网络的输出,并且通过对关系序列取平均得到关系嵌入,接着对BiLSTM网络每个时刻的输出和关系做匹配操作,这样一些和关系相关的特征就会得到较高权重,其中在网络输出与关系的匹配上采用的是点积注意力。
把实体描述嵌入和实体结构嵌入统一到关系空间。通过引入注意力机制增强实体描述中和特定关系相关的语义,但如果处理后的实体描述嵌入直接和原始实体嵌入相加,会模糊掉特定关系方向的语义。为此,先把原始的实体嵌入投影到关系空间,得到实体结构嵌入投影,再与实体描述嵌入相加,形成最终的实体嵌入。具体如步骤S5。
S5,引入关系投影矩阵Mr∈Rd×d,将预训练得到的实体结构嵌入es投影到关系空间,得到实体结构嵌入投影e⊥,投影表达式为:
e⊥=esMr。
再将实体描述嵌入和实体结构嵌入投影相加,得到实体嵌入e。实体嵌入e表示为:
e=ed+e⊥。
在本实施例,所述的基于文本信息增强实体嵌入的方法,还包括:对知识图谱嵌入模型进行优化;具体为:
把网络安全训练集中的三元组记为(eh,rs,et)∈Δ,随机替换网络安全训练集中的头实体或者尾实体,生成负样本集合,记为(eh′,rs,et′)∈Δ′;将负样本集合输入知识图谱嵌入模型进行训练;本方案将头尾实体替换为增强后的头尾实体嵌入,根据评分函数f(eh,rs,et)计算正负样本的得分,使用Adam优化算法调整知识图谱嵌入模型参数直至模型收敛。知识图谱嵌入模型的损失函数为:
其中γ是分离正负样本的边界值,f(eh,rs,et)为基线模型(改进前的知识图谱嵌入模型)的评分函数。
在本实施例,把训练好的知识图谱嵌入模型应用到实体链接预测任务当中,预测缺失的头实体或者尾实体,以正确实体的平均排名(Mean Rank)和正确结果位于前十(Hits@10)的百分比作为评价指标,其中测试数据来自网络安全数据集。
综上,本发明提出一种融合注意力机制和关系空间投影的利用文本信息增强实体嵌入的方法,把实体描述嵌入和实体结构嵌入统一到同一个语义空间,增强相关语义,削弱无关语义。由于同一实体对于不同关系而表现出不一样的属性,在一个事实三元组中,关系只关注头实体的某一属性,所以从实体描述中提取的信息应该是与关系相关的语义。该方法采用BiLSTM(Bi-directional Long Short Term Memory)模型进行文本编码以期从实体描述中获取更为丰富的语义信息,然后通过在网络的输出层引入注意力机制来提取与三元组中关系相关的语义;对于实体结构嵌入部分,引入关系投影矩阵来获取相关语义,最后联合两部分的嵌入作为增强后的嵌入表示。此方法可以利用知识库中附带的实体描述信息来改善知识图谱嵌入表示的效果,提升知识图谱链接预测的准确率。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种基于文本信息增强实体嵌入的方法,其特征在于,包括:
S1,采用网络安全数据集预训练知识图谱嵌入模型,得到实体向量和关系向量;将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中,分别得到实体结构嵌入es和关系结构嵌入rs;
S2,预训练词向量模型,得到词向量;采用词向量初始化词嵌入矩阵;
S3,根据实体描述以及关系中每个词的索引查询词嵌入矩阵,得到实体描述词向量和关系词向量;
S4,将实体描述词向量输入到BiLSTM网络中,在BiLSTM网络的输出层中引入点积注意力;对关系词向量取平均得到关系嵌入;将每一时刻BiLSTM网络的输出与关系嵌入做匹配,得到每一时刻的输出对于关系的权重;将权重分配到每个BiLSTM网络的输出,得到对关系加权后的实体描述嵌入;
S5,将预训练得到的实体结构嵌入es投影到关系空间,得到实体结构嵌入投影e⊥,再将实体描述嵌入和实体结构嵌入投影相加,得到实体嵌入e。
3.根据权利要求1所述的基于文本信息增强实体嵌入的方法,其特征在于,实体描述来自网络安全知识库中附带的文本信息。
7.根据权利要求6所述的基于文本信息增强实体嵌入的方法,其特征在于,将预训练得到的实体结构嵌入es投影到关系空间,得到实体结构嵌入投影e⊥,投影表达式为:
e⊥=esMr;
其中Mr表示关系投影矩阵。
8.根据权利要求7所述的基于文本信息增强实体嵌入的方法,其特征在于,实体嵌入e表示为:
e=ed+e⊥。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334949.5A CN113010690B (zh) | 2021-03-29 | 2021-03-29 | 一种基于文本信息增强实体嵌入的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110334949.5A CN113010690B (zh) | 2021-03-29 | 2021-03-29 | 一种基于文本信息增强实体嵌入的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010690A true CN113010690A (zh) | 2021-06-22 |
CN113010690B CN113010690B (zh) | 2022-11-18 |
Family
ID=76408795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110334949.5A Active CN113010690B (zh) | 2021-03-29 | 2021-03-29 | 一种基于文本信息增强实体嵌入的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010690B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723102A (zh) * | 2021-06-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN114329234A (zh) * | 2022-03-04 | 2022-04-12 | 深圳佑驾创新科技有限公司 | 基于知识图谱的协同过滤推荐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
US20190251428A1 (en) * | 2018-02-09 | 2019-08-15 | Oath Inc. | System and method for query to ad matching using deep neural net based query embedding |
CN110413999A (zh) * | 2019-07-17 | 2019-11-05 | 新华三大数据技术有限公司 | 实体关系抽取方法、模型训练方法及相关装置 |
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN111597347A (zh) * | 2020-04-24 | 2020-08-28 | 扬州大学 | 知识嵌入的缺陷报告重构方法及装置 |
CN111753101A (zh) * | 2020-06-30 | 2020-10-09 | 华侨大学 | 一种融合实体描述及类型的知识图谱表示学习方法 |
-
2021
- 2021-03-29 CN CN202110334949.5A patent/CN113010690B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578106A (zh) * | 2017-09-18 | 2018-01-12 | 中国科学技术大学 | 一种融合单词语义知识的神经网络自然语言推理方法 |
US20190251428A1 (en) * | 2018-02-09 | 2019-08-15 | Oath Inc. | System and method for query to ad matching using deep neural net based query embedding |
CN110413999A (zh) * | 2019-07-17 | 2019-11-05 | 新华三大数据技术有限公司 | 实体关系抽取方法、模型训练方法及相关装置 |
CN110851620A (zh) * | 2019-10-29 | 2020-02-28 | 天津大学 | 一种基于文本嵌入和结构嵌入联合的知识表示方法 |
CN111597347A (zh) * | 2020-04-24 | 2020-08-28 | 扬州大学 | 知识嵌入的缺陷报告重构方法及装置 |
CN111753101A (zh) * | 2020-06-30 | 2020-10-09 | 华侨大学 | 一种融合实体描述及类型的知识图谱表示学习方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723102A (zh) * | 2021-06-30 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN113723102B (zh) * | 2021-06-30 | 2024-04-26 | 平安国际智慧城市科技股份有限公司 | 命名实体识别方法、装置、电子设备及存储介质 |
CN114329234A (zh) * | 2022-03-04 | 2022-04-12 | 深圳佑驾创新科技有限公司 | 基于知识图谱的协同过滤推荐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113010690B (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875051B (zh) | 面向海量非结构化文本的知识图谱自动构建方法及系统 | |
CN108509519B (zh) | 基于深度学习的通用知识图谱增强问答交互系统及方法 | |
CN112214593B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN107748757B (zh) | 一种基于知识图谱的问答方法 | |
CN106202256B (zh) | 基于语义传播及混合多示例学习的Web图像检索方法 | |
CN112200317A (zh) | 多模态知识图谱构建方法 | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN111274424B (zh) | 一种零样本图像检索的语义增强哈希方法 | |
CN113064959A (zh) | 一种基于深度自监督排序哈希的跨模态检索方法 | |
CN113010690B (zh) | 一种基于文本信息增强实体嵌入的方法 | |
CN113553850A (zh) | 一种基于有序结构编码指针网络解码的实体关系抽取方法 | |
CN115438674B (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN113779219A (zh) | 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法 | |
CN112559781B (zh) | 一种图像检索系统和方法 | |
US20230138014A1 (en) | System and method for performing a search in a vector space based search engine | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
CN112364132A (zh) | 基于依存句法的相似度计算模型和系统及搭建系统的方法 | |
CN112948601A (zh) | 一种基于受控语义嵌入的跨模态哈希检索方法 | |
CN111368058A (zh) | 一种基于迁移学习的问答匹配方法 | |
Perez-Martin et al. | A comprehensive review of the video-to-text problem | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN117725999A (zh) | 一种基于提示学习和外部知识嵌入的关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |