CN108021682A - 开放式信息抽取背景下一种基于维基百科的实体语义化方法 - Google Patents

开放式信息抽取背景下一种基于维基百科的实体语义化方法 Download PDF

Info

Publication number
CN108021682A
CN108021682A CN201711309920.1A CN201711309920A CN108021682A CN 108021682 A CN108021682 A CN 108021682A CN 201711309920 A CN201711309920 A CN 201711309920A CN 108021682 A CN108021682 A CN 108021682A
Authority
CN
China
Prior art keywords
mrow
entity
wikipedia
msup
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711309920.1A
Other languages
English (en)
Inventor
杜友田
卢秋颢
王雪
李雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201711309920.1A priority Critical patent/CN108021682A/zh
Publication of CN108021682A publication Critical patent/CN108021682A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/111Mathematical or scientific formatting; Subscripts; Superscripts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

针对开放式信息抽取结果缺乏清晰语义的特性,本发明提出了一种基于维基百科的实体语义化方法。该方法将知识三元组中的字符串参数映射到外部知识库维基百科中的真实世界实体上,从而实现实体语义化。该研究思路优点有二:开放式信息抽取中具备相似谓语的知识三元组往往具备相似的域约束概率分布,以此特征融合多信息源特征,使方法具备很好的鲁棒性;以基于语义传播的相似性度量代替直接计算相似度,挖掘了维基百科实体之间深层次的关联。

Description

开放式信息抽取背景下一种基于维基百科的实体语义化方法
技术领域
本发明属于计算机应用技术领域,涉及数据挖掘、自然语言处理、机器学习,特别涉及开放式信息抽取背景下一种基于维基百科的实体语义化方法。
背景技术
近几年来,信息抽取(Information Extraction,IE)的研究取得了很大进展。典型的信息抽取系统需要预先指定抽取目标,并为每个目标学习相应的抽取器。当目标数量非常巨大或者目标不能提前规定时,典型的方法将失效。因此,典型的信息抽取系统很难从大规模非结构化的网页中发现事实。与之相反,开放式信息抽取(Open IE)系统如Reverb和OLLIE学习词汇无关抽取器来提取事实。这些系统利用语言固有的特征,自然地避免了特定的名词和动词。因此,开放式信息抽取方法通常与领域无关,其系统也不像典型的信息抽取系统那样受到固定模式的约束。
开放式信息抽取系统抽取的数据对于了解文档,发现网络上的新事实和帮助搜索引擎开发问答功能十分重要。这些提取的事实可以被视为被处理文本中最重要的信息或知识。然而,由于开放式信息抽取缺乏一个预定义的本体或抽取目标,其提取的事实不可避免地是模糊的,因此机器难以解释和直接利用。开放式信息抽取系统提取知识三元组的原则是它认为该事实有一些具体的含义,但它并不真正明白这个含义究竟是什么。例如,三元组(Michael Jordan,is an,American scientist)的主语可能是指多个名为“MichaelJordan”的实体,我们需要做的就是将字符串参数映射到正确的维基百科实体“Michael I.Jordan(scientist)”而不是其他实体。
该映射任务有时也被称为实体链接或命名实体消歧。基本上,任务是将文档中的实体名称映射到知识库(例如维基百科)的相应实体。在过去十年里,实体链接任务已有相当丰富的研究进展。Bunescu和Pasca训练了一个消歧SVM内核,并以有监督的方式完成了映射任务。Cucerzan则选择语境上下文极大相似,同时实体类别标签极大相似的实体。
不同于典型的实体链接,本发明尝试将开放式信息抽取得到的三元组中的字符串参数映射到知识库中的实体,实现语义化。开放式信息抽取系统从网页提取(arg1,predicate,arg2)三元组。arg1和arg2是文本字符串,分别指主语和宾语。谓语是指定arg1和arg2之间的具体关系的短语。典型实体链接和面向开放式信息抽取的实体链接的主要区别在于,开放式信息抽取系统从网页中提取数以百万计的知识三元组,从而提供了可在映射任务中利用的大量有用的统计信息。相关研究例如,Meilicke等人使用链接到维基百科实体的页面数来衡量其显著程度,并在所有候选中选择显著性最高的实体。这种方法比较简单,但却得到了鲁棒性很强的结果。Lin等人分别计算每个候选的字符串匹配级别,显著程度得分和上下文匹配程度得分,并将三者的乘积作为每个候选实体的最终得分。他们还引入两个统计特征以提高精度。最近,Dutta等人不仅将开放式知识三元组的主语和宾语映射到相应的实体,而且尝试将关系短语映射到知识库中定义的实体属性上。他们希望通过这样的做法完全语义化知识三元组,从而扩展了目标知识库。
开放式信息抽取能够从大规模非结构化文本中快速准确地抽取知识三元组,但因其缺乏清晰的语义,使得机器难以解释和直接利用。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供开放式信息抽取背景下一种基于维基百科的实体语义化方法,将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体,从而赋予其相应的语义。
为了实现上述目的,本发明采用的技术方案是:
开放式信息抽取背景下一种基于维基百科的实体语义化方法,将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体,从而赋予其相应的语义,其特征在于:
设E={(s1,p1,o1),…,(sn,pn,on)}为开放式信息抽取系统抽取的知识三元组集,S={s1,…,sn}为待语义化的字符串参数集,n表示三元组个数,集合中的元素si为待语义化的字符串参数,在不涉及下标时简写为s,表示知识三元组的主语,pi,oi为谓语和宾语,在不涉及下标时简写为p,o,T={t1,…,tm}为维基百科实体集,其中元素ti为维基百科实体,在不涉及下标时简写为t,则该映射的问题从数学上转化成以下最优化问题:
其中,T*(s)表示字符串参数s最可能映射的维基百科实体,得分函数φ(s,t)表示三元组e∈E中字符串参数s∈S被正确映射到维基百科实体t∈T的可能性,求解该问题,即得映射结果。
本发明通过如下步骤求解所述最优化问题:
步骤1),生成候选实体集并计算先验映射概率:引入基于内容的相关性(ROC)和基于主题的相关性(ROT)两类特征,分别根据两类相关性,计算获得基于内容相关的候选实体集CC(s)和基于主题相关的候选实体集CT(s),求其并集C(s)=CC(s)∪CT(s)作为候选实体集合,对每一个候选实体,综合考虑三种信息源的特征,计算先验映射概率Ppri(s,t),包括显著程度、标题相似度以及语义类别标签的一致性程度;
步骤2),基于图的语境相似度证据计算:以待语义化的字符串参数s,以及其所有的候选实体t∈C(s)作为节点,构造带权重的无向近邻图,通过计算两种类型节点的语境文本之间的余弦距离作为节点之间的距离,分别用distw(ti,tj)和dist(s,ti)表示,利用高斯核函数将距离转变为相似性度量作为边权重,分别用ww(ti,tj)和w(s,ti)表示,同时得到相似矩阵Wp,在该无向近邻图上进行语义传播至收敛状态,得到最终的基于图的相似性度量GraphSim(s,t);
步骤3),候选实体排序:通过贝叶斯理论将所述先验映射概率和基于图的语境相似度证据结合在一起,计算出每个候选实体的后验映射概率,以此排序得到最终映射实体。
所述步骤1)中,采用基于内容的维基搜索引擎获取相关实体,其集合为CC(s);通过遍历实体网页,获取引用和被引用实体作为主题相关实体,记作CT(s);利用维基百科实体的被引用实体数量表征显著程度,记作inlinks(t);利用字符串参数和候选实体标题的编辑距离表征标题相似度,记作diste;利用谓语相似的三元组的域约束概率分布来表征语义类别的一致性程度,记作Ptsub(e.pred,t.type),其中,nr(si.type)表示字符串参数si的语义类别数量,E(e.pred)表示谓语为e.pred的三元组集合;所述先验映射概率Ppri(s,t)的计算公式如下:
其中,inlinks(t)表示引用链接的数量,即利用维基百科实体的被引用次数表征显著程度,diste(s,t.title)表示字符串参数和实体标题的编辑距离,α和β是平衡参数。
所述步骤2)中,字符串参数s和候选实体ti之间的距离为候选实体之间的距离为s.D表示字符串参数的语境文本内容,t.Dwti.Dw表示维基百科实体ti的对面页面文本内容。
本发明利用高斯核函数将距离distw(ti,tj)转变为相似性度量作为边权重,用ww(ti,tj)表示,且ww(ti,ti)=0;将距离dist(s,ti)转变为相似性度量作为边权重,用w(s,ti)表示,将待语义化的字符串参数视作唯一的信息源,在构建出的近邻图上进行语义信息传播,传播的公式如下:
F(k+1)=αpSpF(k)+(1-αp)Y
其中,αp是(0,1)之间的参数,Y表示初始标签,即Y=[100…]T,代表字符串参数是唯一的语义信息源,Sp根据计算,其中Dp是对角矩阵,值分别为Wp矩阵中每行元素之和,Wp的元素值是ww(ti,tj)和dist(s,ti)的计算结果,传播达到收敛时的结果即GraphSim(s,t)。
所述步骤3)通过改写T*(s)呈现,即:
其中,GraphSim(s,t)表示基于图的语境相似性度量,Ppri(s,t)表示先验映射概率,同时,对每个映射结果,计算相应的置信度,用conf(s,T*(s))表示,公式如下:
其中,T2nd(s)是具有第二大后验映射概率的候选实体。
不同于以往的研究,本发明提出了一种新的方法将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体,从而实现语义化。该研究思路优点有二:开放式信息抽取中具备相似谓语的知识三元组往往具备相似的域约束概率分布,以此特征融合多信息源特征,使该方法具备很好的鲁棒性;以基于语义传播的相似性度量代替独立计算相似度,更真实地刻画了实体之间深层次的关联。
具体实施方式
下面结合实施例详细说明本发明的实施方式。
开放式信息抽取背景下一种基于维基百科的实体语义化方法,设E={(s1,p1,o1),…,(sn,pn,on)}为开放式信息抽取系统抽取的知识三元组集,S={s1,…,sn}为待语义化的字符串参数集,n表示三元组个数,集合中的元素si为待语义化的字符串参数,在不涉及下标时也可简写为s,表示知识三元组的主语,pi,oi为谓语和宾语,在不涉及下标时也可简写为p,o,T={t1,…,tm}为维基百科实体集,其中元素ti为维基百科实体,在不涉及下标时也可简写为t,则该映射的问题从数学上转化成以下最优化问题:
其中,T*(s)表示字符串参数s最可能映射的维基百科实体,得分函数φ(s,t)表示三元组e∈E中字符串参数s∈S被正确映射到维基百科实体t∈T的可能性,求解该问题,即得映射结果。
其求解过程如下:
步骤1:生成候选实体集并计算先验映射概率
为了生成候选实体集,则需快速准确地找到和字符串参数最相关的维基百科实体。本发明认为维基百科至少提供了两类相关性,即基于内容的相关性(ROC)以及基于主题的相关性(ROT)。基于内容的相关性主要体现在文本内容上,即文本内容相似的实体往往具备较高的相关性。对此本发明采用基于内容的维基搜索引擎获取相关实体,其集合为CC(s)。基于主题的相关性主要体现在维基百科实体的相关引用上,即有引用链接的实体往往具备相关的主题。对此本发明通过遍历实体网页,获取引用和被引用实体作为主题相关实体,记作CT(s)。两类相关实体集的并集就是最终的候选实体集,即C(s)=CC(s)∪CT(s)。
对每一个候选实体,综合考虑三种信息源的特征计算先验映射概率Ppri(s,t),包括显著程度、标题相似度以及语义类别标签的一致性程度。本发明利用维基百科实体的被引用实体数量表征显著程度,记作inlinks(t);利用字符串参数和候选实体标题的编辑距离表征标题相似度,记作diste。特别地,本发明认为在开放式信息抽取中,谓语相似的三元组往往具有类似的域约束概率分布,因此利用此概率分布来表征语义类别的一致性程度,公式如下:
其中,nr(si.type)表示字符串参数si的语义类别数量。E(e.pred)表示谓语为e.pred的三元组集合。最后,结合以上三种特征,计算先验映射概率:
其中,inlinks(t)表示进入链接的数量,diste(s,t.title)表示字符串参数和实体标题的编辑距离。α和β是平衡前两项的参数。
步骤2:基于图的语境相似度证据计算
以待语义化字符串参数s,以及其所有的候选实体t∈C(s)作为节点,构造带权重的无向近邻图。设s.D表示字符串参数的语境文本内容,t.Dw表示维基百科实体的文本内容。节点之间距离的计算如下:
其中,因为字符串参数s和候选实体ti∈T是不同类型的节点,所以采用不同的公式计算距离。得到距离后,利用高斯核函数将其转换成相似性度量,作为权重。计算公式如下:
特别地,ww(ti,ti)=0。
本发明将待语义化的字符串参数视作唯一的信息源,在构建出的近邻图上进行语义信息传播。传播的公式如下:
F(k+1)=αpSpF(k)+(1-αp)Y (9)
其中,αp是(0,1)之间的参数,Y表示初始标签,即Y=[100…]T,代表字符串参数是唯一的语义信息源。Sp根据计算,其中Dp是对角矩阵,值分别为Wp矩阵中每行元素之和。Wp是相关矩阵,其元素值是(7)(8)的计算结果。在每次的迭代过程中,每个节点在接受邻接节点的语义信息的同时,也保持了自身初始的语义信息。通过这种方式,字符串参数的语义信息被合理地传播到其他节点上。传播达到收敛时的结果可以被视作一种基于图的语境相似性度量,该相似度既包含了基于内容的相似性(ROC),又包含了基于主题的相似性(ROT),因此能更准确地刻画节点之间深层次的相似性。
步骤3:候选实体排序
在步骤1计算出的先验映射概率和步骤2计算出的基于图的语境相似度证据的基础上,本发明采用贝叶斯理论将两者结合,将先验映射概率转换为后验映射概率,将优化问题转换成最大后验概率(MAP)的计算问题,如式(2):
其中,GraphSim(s,t)表示基于图的语境相似性度量,Ppri(s,t)表示先验映射概率。同时,对每个映射结果,计算相应的置信度,用conf(s,T*(s))表示,公式如下:
其中,T2nd(s)是具有第二大后验映射概率的候选实体。

Claims (6)

1.开放式信息抽取背景下一种基于维基百科的实体语义化方法,将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体,从而赋予其相应的语义,其特征在于:
设E={(s1,p1,o1),…,(sn,pn,on)}为开放式信息抽取系统抽取的知识三元组集,S={s1,…,sn}为待语义化的字符串参数集,n表示三元组个数,集合中的元素si为待语义化的字符串参数,在不涉及下标时简写为s,表示知识三元组的主语,pi,oi为谓语和宾语,在不涉及下标时简写为p,o,T={t1,…,tm}为维基百科实体集,其中元素ti为维基百科实体,在不涉及下标时简写为t,则该映射的问题从数学上转化成以下最优化问题:
<mrow> <msup> <mi>T</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>argmax</mi> <mi>&amp;phi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <mo>;</mo> <mi>s</mi> <mo>&amp;Element;</mo> <mi>S</mi> </mrow>
其中,T*(s)表示字符串参数s最可能映射的维基百科实体,得分函数φ(s,t)表示三元组e∈E中字符串参数s∈S被正确映射到维基百科实体t∈T的可能性,求解该问题,即得映射结果。
2.根据权利要求1所述开放式信息抽取背景下基于维基百科的实体语义化方法,其特征在于,通过如下步骤求解所述最优化问题:
步骤1),生成候选实体集并计算先验映射概率:引入基于内容的相关性(ROC)和基于主题的相关性(ROT)两类特征,分别根据两类相关性,计算获得基于内容相关的候选实体集CC(s)和基于主题相关的候选实体集CT(s),求其并集C(s)=CC(s)∪CT(s)作为候选实体集合,对每一个候选实体,综合考虑三种信息源的特征,计算先验映射概率Ppri(s,t),包括显著程度、标题相似度以及语义类别标签的一致性程度;
步骤2),基于图的语境相似度证据计算:以待语义化的字符串参数s,以及其所有的候选实体t∈C(s)作为节点,构造带权重的无向近邻图,通过计算两种类型节点的语境文本之间的余弦距离作为节点之间的距离,分别用distw(ti,tj)和dist(s,ti)表示,利用高斯核函数将距离转变为相似性度量作为边权重,分别用ww(ti,tj)和w(s,ti)表示,同时得到相似矩阵Wp,在该无向近邻图上进行语义传播至收敛状态,得到最终的基于图的相似性度量GraphSim(s,t);
步骤3),候选实体排序:通过贝叶斯理论将所述先验映射概率和基于图的语境相似度证据结合在一起,计算出每个候选实体的后验映射概率,以此排序得到最终映射实体。
3.根据权利要求2所述开放式信息抽取背景下基于维基百科的实体语义化方法,其特征在于,所述步骤1)中,采用基于内容的维基搜索引擎获取相关实体,其集合为CC(s);通过遍历实体网页,获取引用和被引用实体作为主题相关实体,记作CT(s);利用维基百科实体的被引用实体数量表征显著程度,记作inlinks(t);利用字符串参数和候选实体标题的编辑距离表征标题相似度,记作diste;利用谓语相似的三元组的域约束概率分布来表征语义类别的一致性程度,记作Ptsub(e.pred,t.type),其中,nr(si.type)表示字符串参数si的语义类别数量,E(e.pred)表示谓语为e.pred的三元组集合;所述先验映射概率Ppri(s,t)的计算公式如下:
<mrow> <msub> <mi>P</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&amp;alpha;</mi> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>i</mi> <mi>n</mi> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>k</mi> <mi>s</mi> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>&amp;beta;e</mi> <mrow> <msub> <mi>dist</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>.</mo> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>l</mi> <mi>e</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>+</mo> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <mi>&amp;alpha;</mi> <mo>-</mo> <mi>&amp;beta;</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>I</mi> <mo>+</mo> <msub> <mi>P</mi> <mrow> <mi>t</mi> <mi>s</mi> <mi>u</mi> <mi>b</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>e</mi> <mo>.</mo> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mo>,</mo> <mi>t</mi> <mo>.</mo> <mi>t</mi> <mi>y</mi> <mi>p</mi> <mi>e</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>
其中,inlinks(t)表示引用链接的数量,即利用维基百科实体的被引用次数表征显著程度,diste(s,t.title)表示字符串参数和实体标题的编辑距离,α和β是平衡参数。
4.根据权利要求2或3所述开放式信息抽取背景下基于维基百科的实体语义化方法,其特征在于,所述步骤2)中,字符串参数s和候选实体ti之间的距离为候选实体之间的距离为s.D表示字符串参数的语境文本内容,t.Dwti.Dw表示维基百科实体ti的对面页面文本内容。
5.根据权利要求4所述开放式信息抽取背景下基于维基百科的实体语义化方法,其特征在于,利用高斯核函数将距离distw(ti,tj)转变为相似性度量作为边权重,用ww(ti,tj)表示,且ww(ti,ti)=0;将距离dist(s,ti)转变为相似性度量作为边权重,用w(s,ti)表示,将待语义化的字符串参数视作唯一的信息源,在构建出的近邻图上进行语义信息传播,传播的公式如下:
F(k+1)=αpSpF(k)+(1-αp)Y
其中,αp是(0,1)之间的参数,Y表示初始标签,即Y=[1 0 0 …]T,代表字符串参数是唯一的语义信息源,Sp根据计算,其中Dp是对角矩阵,值分别为Wp矩阵中每行元素之和,Wp的元素值是ww(ti,tj)和dist(s,ti)的计算结果,传播达到收敛时的结果即GraphSim(s,t)。
6.根据权利要求2所述开放式信息抽取背景下基于维基百科的实体语义化方法,其特征在于,所述步骤3)通过改写T*(s)呈现,即:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>T</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>argmax</mi> <mi>&amp;phi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>|</mo> <mi>s</mi> <mo>.</mo> <mi>e</mi> <mi>v</mi> <mi>i</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>e</mi> <mi>v</mi> <mi>i</mi> <mi>d</mi> <mo>|</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>t</mi> <mo>&amp;Element;</mo> <mi>T</mi> </mrow> </munder> <mi>G</mi> <mi>r</mi> <mi>a</mi> <mi>p</mi> <mi>h</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
其中,GraphSim(s,t)表示基于图的语境相似性度量,Ppri(s,t)表示先验映射概率,同时,对每个映射结果,计算相应的置信度,用conf(s,T*(s))表示,公式如下:
<mrow> <mi>c</mi> <mi>o</mi> <mi>n</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <msup> <mi>T</mi> <mo>*</mo> </msup> <mo>(</mo> <mi>s</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>&amp;phi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <msup> <mi>T</mi> <mo>*</mo> </msup> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> <mrow> <mi>&amp;phi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <msup> <mi>T</mi> <mrow> <mn>2</mn> <mi>n</mi> <mi>d</mi> </mrow> </msup> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mfrac> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </msup> </mrow> </mfrac> </mrow>
其中,T2nd(s)是具有第二大后验映射概率的候选实体。
CN201711309920.1A 2017-12-11 2017-12-11 开放式信息抽取背景下一种基于维基百科的实体语义化方法 Pending CN108021682A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711309920.1A CN108021682A (zh) 2017-12-11 2017-12-11 开放式信息抽取背景下一种基于维基百科的实体语义化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711309920.1A CN108021682A (zh) 2017-12-11 2017-12-11 开放式信息抽取背景下一种基于维基百科的实体语义化方法

Publications (1)

Publication Number Publication Date
CN108021682A true CN108021682A (zh) 2018-05-11

Family

ID=62073253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711309920.1A Pending CN108021682A (zh) 2017-12-11 2017-12-11 开放式信息抽取背景下一种基于维基百科的实体语义化方法

Country Status (1)

Country Link
CN (1) CN108021682A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783797A (zh) * 2018-12-11 2019-05-21 北京百度网讯科技有限公司 语义关系的抽取方法、装置、设备及存储介质
CN109992670A (zh) * 2019-04-04 2019-07-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112948417A (zh) * 2021-01-29 2021-06-11 上海维外科技有限公司 一种基于选择交互的样本知识聚合度计算方法、系统以及存储介质
CN113486189A (zh) * 2021-06-08 2021-10-08 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统
CN112613315B (zh) * 2020-12-29 2024-06-07 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649259A (zh) * 2016-09-30 2017-05-10 西安交通大学 一种从课件文本自动抽取知识单元间学习依赖关系的方法
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN106909655A (zh) * 2017-02-27 2017-06-30 中国科学院电子学研究所 基于产生式别名挖掘的知识图谱实体发现和链接方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649259A (zh) * 2016-09-30 2017-05-10 西安交通大学 一种从课件文本自动抽取知识单元间学习依赖关系的方法
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN106909655A (zh) * 2017-02-27 2017-06-30 中国科学院电子学研究所 基于产生式别名挖掘的知识图谱实体发现和链接方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIUHAO LU AND YOUTIAN DU: "Wikipedia-based Entity Semantifying in Open Information Extraction", 《2017 14TH IAPR INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783797A (zh) * 2018-12-11 2019-05-21 北京百度网讯科技有限公司 语义关系的抽取方法、装置、设备及存储介质
CN109992670A (zh) * 2019-04-04 2019-07-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法
CN109992670B (zh) * 2019-04-04 2021-04-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法
CN112613315A (zh) * 2020-12-29 2021-04-06 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112613315B (zh) * 2020-12-29 2024-06-07 重庆农村商业银行股份有限公司 一种文本知识自动抽取方法、装置、设备及存储介质
CN112948417A (zh) * 2021-01-29 2021-06-11 上海维外科技有限公司 一种基于选择交互的样本知识聚合度计算方法、系统以及存储介质
CN113486189A (zh) * 2021-06-08 2021-10-08 广州数说故事信息科技有限公司 一种开放性知识图谱挖掘方法及系统

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
US20190065576A1 (en) Single-entity-single-relation question answering systems, and methods
CN109710932A (zh) 一种基于特征融合的医疗实体关系抽取方法
US9009134B2 (en) Named entity recognition in query
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN102799577B (zh) 一种中文实体间语义关系抽取方法
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN104391942A (zh) 基于语义图谱的短文本特征扩展方法
CN102831121A (zh) 一种网页信息抽取的方法和系统
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
EP3940582A1 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN110188359B (zh) 一种文本实体抽取方法
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
CN104317882A (zh) 一种决策级中文分词融合方法
Nityasya et al. Hypernym-hyponym relation extraction from indonesian wikipedia text
CN106484676B (zh) 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN104537280A (zh) 基于文本关系相似性的蛋白质交互关系识别方法
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
Bhattacharjee et al. Survey and gap analysis of word sense disambiguation approaches on unstructured texts
Tao et al. Leveraging pattern semantics for extracting entities in enterprises
Tilak et al. Visual entity linking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180511