CN113360675A - 一种基于互联网开放世界的知识图谱特定关系补全方法 - Google Patents
一种基于互联网开放世界的知识图谱特定关系补全方法 Download PDFInfo
- Publication number
- CN113360675A CN113360675A CN202110713908.7A CN202110713908A CN113360675A CN 113360675 A CN113360675 A CN 113360675A CN 202110713908 A CN202110713908 A CN 202110713908A CN 113360675 A CN113360675 A CN 113360675A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- vector
- line
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000013461 design Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000005315 distribution function Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000005284 excitation Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims 4
- 239000013589 supplement Substances 0.000 claims 1
- 239000000284 extract Substances 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于互联网开放世界的知识图谱特定关系补全的方法,包括:通过搜索引擎获取与三元组相关的网页,剔除不相关的网页内容后留下网页正文。对百科类网页和官网类网页,人工设计模式从网页中抽取候选尾实体列表。对于新闻类网页,首先进行分词,并采用词嵌入方法表示正文,再计算与关系向量的余弦相似度抽取出与三元组相关的上下文,再利用CNN进行实体关系抽取,形成候选尾实体列表。最后,将各类网页产生的候选实体列表合并,在知识图谱中提取与三元组相关的子图,结合子图特征确定最终的候选实体。本发明充分利用开放世界的互联网信息,弥补传统方法中信息来源单一的缺点,能够解决开放世界的知识图谱补全问题。
Description
技术领域
本发明涉及自然语言处理和知识图谱领域,提出了一种基于互联网开放世界的知识图谱特定关系补全的方法,对于稀疏的图谱也有良好的效果。
背景技术
知识图谱作为一种语义网络,具有极强的表达能力和建模灵活性,而且其表示方法对计算机友好,因此在各个领域均有重要作用,如智能问答、信息抽取、信息搜索、个性化推荐等。然而由于在知识图谱的构建过程中常采用自动化方法,它们往往存在数据质量问题,数据的缺失就是其中之一。Denis Krompa对一些开源的大型知识库进行了统计,在“Freebase”中,有71%的人的实体缺失了“出生地”属性值,而在“DBpedia”中这个数值为66%。知识图谱作为各类应用的底层工具,数据缺失问题会严重影响应用的最终效果,因此对知识图谱进行补全是有必要的。
知识图谱补全,即对图谱中的缺失三元组(头实体,关系,尾实体)进行补全。由于头实体缺失的场景较少,一般来说指的是尾实体缺失的补全。给定一个知识图谱G=(E,R,T),其中E表示实体集合,R表示关系集合,T表示三元组集合<h,r,t>。最初的知识图谱补全方法关注于利用知识图谱的内部信息来推理完成补全,称为封闭世界的知识图谱补全。即找到一个新的三元组集合T′:
封闭世界的知识图谱补全的方法基本可分为三类。第一类是概率图模型,如马尔可夫逻辑网;第二类是路径排序算法,即通过路径来预测实体间的潜在关系;第三类是基于表示学习的模型,该类方法将实体向量映射到关系决定的空间,之后通过向量运算推断缺失关系。
封闭世界的知识图谱补全的方法能得到的信息是有限的,随着存在于互联网上的数据的快速增长,通过程序从互联网上抽取信息进行补全变得可行。这种从外部世界获取信息进行补全的模型,称为开放世界的知识图谱补全方法。Baoxu Shi首先提出了开放世界的知识图谱补全的详细定义,即找到一个新的三元组集合T′:
其中Ei为实体超集。为了解决开放世界的知识图谱补全的问题,研究者们提出了一些有效的模型,典型的有ConMask模型、OWE模型、MIA模型等。
Baoxu Shi等提出了ConMask模型,它首先使用依赖关系的内容遮蔽来选择相关文本描述中与给定关系相关的词,之后训练一个全卷积神经网络从描述文本中提取基于词的目标实体的嵌入,最后将这个嵌入与图谱中现有的目标候选实体做比较生成排序列表。但该模型依赖于长文本描述,且难以定位候选实体。
Haseeb Shah等提出了OWE模型,将从知识图谱中学习到的规则链接预测模型与从文本语料库中学习到的单词嵌入相结合。在独立训练两者之后,模型习得一种转换,将一个实体的名称与描述的嵌入映射到基于图的嵌入空间中。该模型利用了完整的知识图谱结构,不依赖于长文本,具有很高的扩展性。但该模型训练成本高昂,对原始数据有着很高的质量要求。
LeiNiu等提出了MIA模型,该模型相较于ConMask能充分利用实体描述中的语义信息,它引入了多个候选尾部实体描述之间的交互,使其能够探索多个尾部实体描述之间的隐藏关系,并使用这些关系来形成它们之间的交互,增强它们的表示。该模型收敛能力强,效果好,但非常依赖实体描述的丰富性,对于信息缺乏的描述文本效果很差。
以上针对开放世界的知识图谱补全的方法,都能够达成开放世界的知识图谱补全的目标。但是它们的实体描述文本的来源单一,这些文本都来自实体对应的Wikipedia的词条。对于大多数图谱而言,图谱内的实体没有对应的词条(Wikipedia、百度百科等),其相关的信息分散在互联网不同的网页中,还没有模型能够处理如何从分散的互联网网页中抽取信息补全知识图谱的问题。
发明内容
为了解决上述的问题,本发明对开放世界的知识图谱补全方法进行了深入研究,提出了一种基于互联网开放世界的知识图谱特定关系补全的方法,以克服现有技术无法从分散的互联网网页中获取信息进行知识图谱补全的问题。
本发明通过搜索引擎获取与三元组相关的网页,剔除不相关的网页内容后留下网页正文。所述搜索引擎包括百度、谷歌等;对百科类网页和官网类网页,人工设计模式从网页中抽取候选尾实体列表。对于新闻类网页,首先进行分词,并采用词嵌入方法表示正文,再计算与关系向量的余弦相似度抽取出与三元组相关的上下文,再利用CNN进行实体关系抽取,形成候选尾实体列表。最后,将各类网页产生的候选实体列表合并,在知识图谱中提取与三元组相关的子图,结合子图特征确定最终的候选实体。
本发明的技术方案是:
步骤S1:选定待补全的三元组的类型<H,R,T>。将图谱中完整的该类三元组划分为训练集、验证集和测试集,缺失尾实体T的三元组留待补全。
步骤S2:将训练集中的三元组作为关键词依次输入百度搜索引擎,每个关键词获取前K1有效网页。
步骤S3:对于步骤S2获得的网页可分为两种,百科类、官网类网页为第一种,其他网页为第二种(主要是新闻类网页)。使用“行块分布算法”A1从网页中提取正文。
步骤S4:利用中文实体关系抽取方法从正文中抽取出带评分的候选尾实体列表,评分阈值为Score1,列表大小为K2。限定抽取的关系类型为待补全的三元组的关系类型。
步骤S5:在知识图谱中提取与三元组紧密相关的子图,结合子图的一些拓扑信息,确定候选尾实体列表中的最终结果。
步骤S6:在测试集上完成模型的测试与优化。
步骤S7:将图谱中缺失尾实体的三元组依次输入百度搜索引擎,关键词为“头实体名称关系名称”,获取前K1个有效网页。重复步骤S3、S4、S5,抽取出尾实体。
进一步的,步骤S3中的行块分布算法A1的具体步骤如下:
步骤S31:预处理,剔除网页HTML标签,去掉所有的无效字符(\n,\t,\r等)。然后依据“\n”分行,得到一个包含有空白的粗糙正文块。
步骤S32:以si表示HTML中第i行的字符数,ti表示正文块中第i行的字符数(即HTML对应行剔除网页标签后的文本字符数),size表示HTML行数,最大化公式(1)如下:
其中m和n表示行数,小于行m和大于行n的文本即为网页正文。
进一步的,当网页类型为第一种时,所述步骤S4具体包括:
步骤S41a:在步骤S3得到的正文中抽取所有头实体与尾实体的共现情况,观察统计后人工设计模式进行尾实体抽取。
进一步的,当网页类型为第二种时,所属步骤S4具体包括:
步骤S41b:在步骤S3得到的正文中借鉴ConMask模型中内容遮蔽的思想从正文中抽取相关上下文。该方法通过为文本分配依赖关系的相似性分数来屏蔽不相关的单词,计算公式如下公式(2)所示:
其中e是一个实体,r是一个关系,返回一段文本的词向量表示,ψ返回一个关系的名称的词向量表示。是e的描述矩阵,每一行表示一个在中的单词的k维向量。Wψ(r)∈R|ψ(r)|*k是r的名称矩阵,每一行表示在关系ψ(r)的名称中的一个单词的k维向量。f[i]表示一段文本中第i个单词的向量与关系名称中所有单词向量(关系名称可能为多个单词)的余弦相似度的最大值。找出文本中具有最高f值的前K3个单词,取每个单词所在的完整句子,合并,即为相关上下文。
步骤S42b:在步骤S41b得到的上下文中使用基于CNN的实体关系抽取方法,抽取候选尾实体,从K1个有效网页中抽取出K2x候选实体,形成候选尾实体列表。首先,使用工具将句子分词为{w1,w2,...,wn},每个单词对应一个d1维的词向量,此时每个句子就是一个n*d1的词向量矩阵。再将每个词到实体e1和e2的距离分别表示为p1维和p2维的向量。然后将句子对应的词向量矩阵与位置向量矩阵连接起来,作为该句子的特征向量表示V∈Rn*d,其中d=d1+p1+p2。
步骤S43b:将句子表示为矩阵V后,将V输入CNN。网络的输出是一个K4维的向量y∈R(0,1)k,其中y的第k维的值yk表示实体关系为关系k的概率,满足∑kyk=1。依次判定一个句子中是否含有待抽取的关系类型,若有,将该关系对应的尾实体抽取。多个网页的多个句子的抽取结果合并为候选尾实体列表。
本发明的有益效果在于:知识图谱补全对于维护图谱质量、提升上层应用的效果有着重要的作用。但很多图谱缺失的实体分散在互联网网页中,而传统的开放世界的知识图谱补全方法无法利用这些信息,限制了其应用场景。针对上述缺点,本发明提出了一种基于互联网开放世界的知识图谱特定关系补全方法,包括正文抽取、模式设计、上下文抽取、实体关系抽取模块,能够从分散的互联网网页中提取实体加入到知识图谱,具有广泛的适用性。
附图说明
通过参考附图能更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明流程图;
图2为两种网页特点的对比;
图3为一个网页的“行块分布”情况,横轴表示行块,纵轴表示行块的长度;
图4为从一段正文中抽取到的上下文的示意图,分词颜色越深表示与关系名称的相似度越高;
图5为CNN的网络结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点表达地更加清楚明白,以下结合附图和具体实施步骤对本发明进行详细描述,但不作为对本发明的限定;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
步骤S1:如图1所示为知识图谱补全的整体流程图,以下步骤以补全缺失“单位”的<专家,就职,单位>类三元组为例进行说明。将图谱中完整的<专家,就职,单位>类三元组按8:1:1的比例划分训练集、验证集和测试集。
步骤S2:关键词的形式为“专家名称就职单位名称”,如“李未就职北京航空航天大学”。百度返回的网页中可能存在空白网页,或者网页中不存在头实体或尾实体,这样的网页是无效网页,只计算有效网页数量。
步骤S3:观察图2所示的各类网页,发现网页的链接和内容都能帮助判断网页类型,判断顺序如下。若链接中包含“baike”字符串则为百科类网页;若链接中包含“edu.cn”则为官网类网页;若包含“sohu”、“people”等则为新闻类网页;若网页中包含“邮箱”、“地址”等则为官网类网页;其他均为第二类网页。
在实施时,根据网页结果收集新闻类网站的链接,建立官网类网页的链接集合和新闻类网页的链接集合,若是后续收集到的网页链接包含集合中的某个链接,则可以直接判定网页的所属类型。
在实施时,步骤S3中的“行块分布算法”A1的具体步骤如下:
步骤S31:由于不同网页之间的结构多种多样,无法用统一的正则表达式进行预处理,因此使用“行块分布算法”提取正文。首先使用正则表达式去除网页标签、脚本内容,保留去除后的空白位置信息。正则表达式为:“<!--.*?-->”,“<{0}.*?>([\s\S]*?)<\/{0}>”,“<[\s\S]*?>|[\t\r\f\v]”。然后依据“\n”分行,得到一个包含有空白行的粗糙正文块。
步骤S32:行块i的定义是从第i行到第i+blockSize行的文本,行块i的长度是该行块去掉所有空白符后的字符总数。计算出行块长度基于行号的分布函数。然后根据公式1求出正文文本的开始行n与结束行m。小于行m和大于行n的文本即为网页正文。如图3所示为一个网页中行块的分布情况,其中横轴表示第i个行块,纵轴表示该行块的长度。
步骤S4:。评分阈值Score1的值为0.7,K2的值为5。若评分大于阈值的候选实体个数大于K2,则取前K2个实体组成候选实体列表。限定抽取的关系类型为待补全的三元组的关系类型。
在具体实施时,当抽取的网页为第一类时,步骤S4如下所示:
步骤S41a:在步骤S3得到的正文中筛选出第一类网页,分批次进行这些网页的模式设计。将这些网页分为10批次,首先自动抽取第一批次中所有头实体与尾实体的共现情况,观察统计后人工设计模式。以图2中的百科类和官网类网页为例,可以提取出如下的模式:“($头实体)[.*?]<$机构名称>[.*?][。|!|?|;]”,“($头实体)[.*?]<$机构名称>[.*?\n]”。第一批次的模式设计完毕后,在第二批次的正文中利用其抽取尾实体,如果某个网页没有抽取出尾实体,再抽取该网页中头实体与尾实体的共现情况并设计模式,将第二批次和第一批次的模式利用在第三批次的正文中。以此类推,完成第一类网页的目标尾实体抽取。
当抽取的网页为第二类时,步骤S4如下所示:
步骤S41b:使用哈工大LTP工具对正文文本进行分词,使用在百度百科语料库上训练的300维Word2vec中文词向量作为正文中的词向量表示。假设正文长度N,则该正文被表示为一个词向量矩阵W∈RN*k,k=300表示词向量维度。假设“就职”的词向量表示为Xr,使用公式2计算正文中所有单词向量与Xr的余弦相似度,在中文情况下,公式(2)可以简化为公式(3):
f[i]表示正文中第i个单词的向量与关系向量的余弦相似度。找出文本中具有最高f值的前K3个单词,取每个单词所在的完整句子,合并,即为相关上下文。如图4所示为从一个正文中抽取上下文的示意图。
步骤S42b:依然使用步骤S41b中的分词结果和向量表示,假设句子分词为n个词,每个句子就是一个n*d1的词向量矩阵,d1=300。然后再计算每个词到头实体e1和尾实体e2的距离,两个词的距离表示句子分词后这两个词中间的词语数量。将每个词到实体e1和e2的距离分别表示为p1维和p2维的向量。然后将句子对应的词向量矩阵与位置向量矩阵连接起来,作为该句子的特征向量表示V∈Rn*d,其中d=d1+p1+p2。
步骤S43b:将句子表示为矩阵V后,将V输入CNN。CNN的网络结构如图5所示。网络的输入是矩阵V,之后是一个卷积层,卷积核宽度为d,高度为h。则每个卷积核h*d个参数,这些参数随机初始化。将卷积核与V的第一行相接,按照高度向下滑动,直至矩阵最后一行。卷积操作如下公式(4)所示:
Ck=f(Wk*V[i:j]+b) (4)
其中Wk表示卷积核参数,V[i:j]表示V的第i到第j行,b表示偏置,f为激励函数relu。经过卷积后,从中输入矩阵得到一个特征图C。
卷积层之后是池化层,采用最大池化,得到m维向量h,m的大小与句子长度n无关。由于训练样本较少,为防止出现过拟合的情况,网络训练时采用dropout技术,以一定的概率关闭一些隐藏层神经元。令r∈Rm表示概率为p的伯努利随机变量向量,将h与p按位相乘,得到向量g。
池化层之后是全连接层,其输出是K4维向量y∈R(0,1)k,令K4=2,即只存在两种关系“就职”关系和“其他”关系。对于待补全的其他种类的关系,分别训练各自的网络。这样虽然过程比较复杂,但可以提升准确率。
网络训练时采用的损失函数为:
依次判定文本中的多个句子中是否含有“就职”关系类型,若有则将对应的尾实体抽取。多个网页的多个句子的抽取结果合并,取前K2个组成候选尾实体列表。
步骤S5:抽取出候选尾实体列表后,提取知识图谱以头实体为中心的4层深度的子图G1,假设头实体是“专家1”,G1中存在“专家1-论文1-专家2-单位2”类似的路径,那么有可能“单位2”就是“专家1”的单位,因为合作发表一篇论文的作者大概率就是同一单位的。如果候选尾实体列表中存在某个实体,它出现在子图G1中,那么该实体即为三元组中缺失的尾实体。如果存在多个这样的候选实体,则选取评分最高的。
步骤S6:主要是测试、优化方法中的超参数,包括K1、K2、K3、K4、Score1。
步骤S7:由于不存在验证集,需要通过人工评定确定最终补全的三元组是否为真,并统计正确率。
显然,通过上述7个步骤,本发明可以利用分散于互联网上的信息发现新的实体并加入知识图谱。本说明未详细阐述的部分属于本领域的公知技术。
Claims (6)
1.一种基于开放互联网世界的知识图谱特定关系补全方法,其特征在于,包括如下步骤:
步骤S1:选定待补全的三元组的类型<H,R,T>,将知识图谱中完整的该类三元组划分为训练集、验证集和测试集,缺失尾实体T的三元组作为“补全集”留待补全;
步骤S2:将训练集中的三元组作为关键词依次输入网页搜索引擎,每个关键词获取前K1有效网页;
步骤S3:使用“行块分布算法”从步骤S2获得的网页中提取正文;
步骤S4:利用中文实体关系抽取方法从正文中抽取出带评分的候选实体列表;
步骤S5:在知识图谱中提取与三元组相关的子图,结合子图特征确定最终尾实体;
步骤S6:在测试集上完成模型的测试与优化,包括测试、优化方法中的超参数;
步骤S7:利用训练好的模型补全“补全集”中的三元组。
2.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法,其特征在于,所述步骤S3具体包括:
步骤S31:使用正则表达式对网页进行预处理,去掉所有的无用字符,保留去除后的空白位置信息,得到一个包含有空白的粗糙正文块;
步骤S32:行块i的定义是从第i行到第i+blockSize行的文本,行块i的长度是该行块去掉所有空白符后的字符总数,blockSize是行块的大小,即一个行块有几行文本;计算出行块长度基于行号的分布函数;以si表示HTML中第i行的字符数,ti表示正文块中第i行的字符数,size表示HTML行数,最大化公式(1)如下:
其中m和n表示行数,小于行m和大于行n的文本即为网页正文。
3.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法,其特征在于,当步骤S2获取的网页为百科类或官网类时,步骤S4具体包括:
步骤S41a:在步骤S3得到的正文中自动抽取所有头实体与尾实体的共现情况,观察统计后人工设计模式进行尾实体抽取。
4.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法,其特征在于,当步骤S2获取的网页为新闻类时,步骤S4具体包括:
步骤S41b:使用哈工大LTP工具对正文文本进行分词,使用在百度百科语料库上训练的k维Word2vec中文词向量作为正文中的词向量表示;假设正文长度为N,则该正文被表示为一个词向量矩阵W∈RN*k,k表示词向量维度;假设待处理的关系词向量表示为Xr,使用公式(2)计算正文中所有单词向量与Xr的余弦相似度:
步骤S42b:依然使用步骤S41b中的分词结果和向量表示,假设句子分词为n个词,每个句子就是一个n*d1的词向量矩阵,d1=k;然后再计算每个词到头实体e1和尾实体e2的距离,两个词的距离表示句子分词后这两个词中间的词语数量;将每个词到实体e1和e2的距离分别表示为p1维和p2维的向量;然后将句子对应的词向量矩阵与位置向量矩阵连接起来,作为该句子的特征向量表示V∈Rn*d,其中d=d1+p1+p2;
步骤S43b:使用CNN进行中文实体关系抽取,CNN的输入是矩阵V,之后是一个卷积层,卷积核宽度为d,卷积核的高度为h;则每个卷积核包含h*d个参数,设置多个卷积核;这些参数随机初始化,将卷积核与V的第一行相接,按照高度向下滑动,直至矩阵最后一行,卷积操作如下公式(3)所示:
Ck=f(Wk*V[i:j]+b) (3)
其中Wk表示卷积核参数,V[i:j]表示V的第i到第j行,b表示偏置,f为激励函数relu,经过卷积后,从输入矩阵得到一个特征图C;
卷积层之后是池化层,采用最大池化,得到m维向量h,m的大小与句子长度n无关,网络训练时采用dropout技术,以一定的概率关闭一些隐藏层神经元,令r∈Rm表示概率为p的伯努利随机变量向量,将h与p按位相乘,得到向量g;
池化层之后是全连接层,其输出是K4维向量y∈R(0,1)k,其中y的第k维的值yk表示实体关系为关系k的概率,满足∑kyk=1;依次判定一个句子中是否含有待抽取的关系类型,若有,将该关系对应的尾实体抽取,多个网页的多个句子的抽取结果合并为候选尾实体列表;
网络训练时采用的损失函数为公式(4):
5.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法,其特征在于,步骤S5具体包括:
提取知识图谱以头实体为中心的4层深度的子图G1,假设头实体是“A1”,G1中存在“A1-R1-A2-R2-B1”路径,那么有可能“B1”也是“A1”的所属属性信息;如果候选尾实体列表中存在某个实体,它出现在子图G1中,那么该实体即为三元组中缺失的尾实体;如果存在多个这样的候选实体,则选取评分最高的。
6.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法,其特征在于,步骤S7具体包括:
将“补全集”中的三元组依次输入网页搜索引擎,根据关键词获取前K1个有效网页;重复步骤S3、S4、S5,抽取出尾实体,由于不存在验证集,需要通过人工评定确定最终补全的三元组是否为真,并统计正确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110713908.7A CN113360675B (zh) | 2021-06-25 | 2021-06-25 | 一种基于互联网开放世界的知识图谱特定关系补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110713908.7A CN113360675B (zh) | 2021-06-25 | 2021-06-25 | 一种基于互联网开放世界的知识图谱特定关系补全方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113360675A true CN113360675A (zh) | 2021-09-07 |
CN113360675B CN113360675B (zh) | 2024-02-13 |
Family
ID=77536595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110713908.7A Active CN113360675B (zh) | 2021-06-25 | 2021-06-25 | 一种基于互联网开放世界的知识图谱特定关系补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113360675B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003730A (zh) * | 2021-10-29 | 2022-02-01 | 福州大学 | 基于关系特定门过滤的开放世界知识补全方法及系统 |
CN114817647A (zh) * | 2022-04-28 | 2022-07-29 | 清华大学 | 一种子图检索的方法、装置及电子设备 |
CN115878847A (zh) * | 2023-02-21 | 2023-03-31 | 云启智慧科技有限公司 | 基于自然语言的视频引导方法、系统、设备及存储介质 |
CN117094395A (zh) * | 2023-10-19 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
CN117557425A (zh) * | 2023-12-08 | 2024-02-13 | 广州市小马知学技术有限公司 | 基于智慧题库系统的题库数据优化方法及系统 |
CN117610541A (zh) * | 2024-01-17 | 2024-02-27 | 之江实验室 | 大规模数据的作者消歧方法、装置及可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052683A (zh) * | 2018-01-22 | 2018-05-18 | 桂林电子科技大学 | 一种基于余弦度量规则的知识图谱表示学习方法 |
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109508385A (zh) * | 2018-11-06 | 2019-03-22 | 云南大学 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
CN109977234A (zh) * | 2019-03-28 | 2019-07-05 | 哈尔滨工程大学 | 一种基于主题关键词过滤的知识图谱补全方法 |
US20200057946A1 (en) * | 2018-08-16 | 2020-02-20 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111368092A (zh) * | 2020-02-21 | 2020-07-03 | 中国科学院电子学研究所苏州研究院 | 一种基于可信网页资源的知识图谱构建方法 |
CN112000815A (zh) * | 2020-10-28 | 2020-11-27 | 科大讯飞(苏州)科技有限公司 | 知识图谱补全方法、装置、电子设备及存储介质 |
-
2021
- 2021-06-25 CN CN202110713908.7A patent/CN113360675B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052683A (zh) * | 2018-01-22 | 2018-05-18 | 桂林电子科技大学 | 一种基于余弦度量规则的知识图谱表示学习方法 |
US20200057946A1 (en) * | 2018-08-16 | 2020-02-20 | Oracle International Corporation | Techniques for building a knowledge graph in limited knowledge domains |
CN109271529A (zh) * | 2018-10-10 | 2019-01-25 | 内蒙古大学 | 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法 |
CN109508385A (zh) * | 2018-11-06 | 2019-03-22 | 云南大学 | 一种基于贝叶斯网的网页新闻数据中的人物关系分析方法 |
CN109977234A (zh) * | 2019-03-28 | 2019-07-05 | 哈尔滨工程大学 | 一种基于主题关键词过滤的知识图谱补全方法 |
CN111159485A (zh) * | 2019-12-30 | 2020-05-15 | 科大讯飞(苏州)科技有限公司 | 尾实体链接方法、装置、服务器及存储介质 |
CN111368092A (zh) * | 2020-02-21 | 2020-07-03 | 中国科学院电子学研究所苏州研究院 | 一种基于可信网页资源的知识图谱构建方法 |
CN112000815A (zh) * | 2020-10-28 | 2020-11-27 | 科大讯飞(苏州)科技有限公司 | 知识图谱补全方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
MARCO CREMASCHI 等: "A fully automated approach to a complete Semantic Table Interpretation", 《FUTURE GENERATION COMPUTER SYSTEMS》, pages 478 - 500 * |
佟强 等: "基于路径分析和关系描述的知识图谱补全方法", 《科学技术与工程》, pages 4999 - 5004 * |
周泽华 等: "基于图上下文的知识表示学习", 《 计算机应用与软件》, pages 120 - 125 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114003730A (zh) * | 2021-10-29 | 2022-02-01 | 福州大学 | 基于关系特定门过滤的开放世界知识补全方法及系统 |
CN114817647A (zh) * | 2022-04-28 | 2022-07-29 | 清华大学 | 一种子图检索的方法、装置及电子设备 |
CN115878847A (zh) * | 2023-02-21 | 2023-03-31 | 云启智慧科技有限公司 | 基于自然语言的视频引导方法、系统、设备及存储介质 |
CN117094395A (zh) * | 2023-10-19 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
CN117094395B (zh) * | 2023-10-19 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 对知识图谱进行补全的方法、装置和计算机存储介质 |
CN117557425A (zh) * | 2023-12-08 | 2024-02-13 | 广州市小马知学技术有限公司 | 基于智慧题库系统的题库数据优化方法及系统 |
CN117557425B (zh) * | 2023-12-08 | 2024-04-16 | 广州市小马知学技术有限公司 | 基于智慧题库系统的题库数据优化方法及系统 |
CN117610541A (zh) * | 2024-01-17 | 2024-02-27 | 之江实验室 | 大规模数据的作者消歧方法、装置及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113360675B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113360675B (zh) | 一种基于互联网开放世界的知识图谱特定关系补全方法 | |
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与系统 | |
CN110263180B (zh) | 意图知识图谱生成方法、意图识别方法及装置 | |
CN108846029B (zh) | 基于知识图谱的情报关联分析方法 | |
CN106104519B (zh) | 短语对收集装置以及计算机可读取的存储介质 | |
CN111950285A (zh) | 多模态数据融合的医疗知识图谱智能自动构建系统和方法 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
CN111221968B (zh) | 基于学科树聚类的作者消歧方法及装置 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN108009135A (zh) | 生成文档摘要的方法和装置 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN109101490B (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
TW202001620A (zh) | 自動化網站資料蒐集方法 | |
CN110851593B (zh) | 一种基于位置与语义的复值词向量构建方法 | |
CN114492423B (zh) | 基于特征融合及筛选的虚假评论检测方法、系统及介质 | |
CN112256939A (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
Pan et al. | Deep neural network-based classification model for Sentiment Analysis | |
CN114580638A (zh) | 基于文本图增强的知识图谱表示学习方法及系统 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110889505A (zh) | 一种图文序列匹配的跨媒体综合推理方法和系统 | |
Ma et al. | Matching descriptions to spatial entities using a siamese hierarchical attention network | |
CN111079840B (zh) | 基于卷积神经网络和概念格的图像语义完备标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |