CN108304552B - 一种基于知识库特征抽取的命名实体链接方法 - Google Patents

一种基于知识库特征抽取的命名实体链接方法 Download PDF

Info

Publication number
CN108304552B
CN108304552B CN201810102597.9A CN201810102597A CN108304552B CN 108304552 B CN108304552 B CN 108304552B CN 201810102597 A CN201810102597 A CN 201810102597A CN 108304552 B CN108304552 B CN 108304552B
Authority
CN
China
Prior art keywords
entity
candidate
entities
freebase
mention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810102597.9A
Other languages
English (en)
Other versions
CN108304552A (zh
Inventor
汤斯亮
杨希远
林升
陈博
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810102597.9A priority Critical patent/CN108304552B/zh
Publication of CN108304552A publication Critical patent/CN108304552A/zh
Application granted granted Critical
Publication of CN108304552B publication Critical patent/CN108304552B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Abstract

本发明公开了一种基于知识库特征抽取的命名实体链接方法。该方法包括如下步骤:(1)从Freebase data dump中抽取具有指定特征的三元组条目,形成关系数据表,存入知识库;(2)设计复杂的规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;(3)采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对上述特征进行Embedding化;(4)将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。本发明结合了基于复杂规则的候选生成技术和基于统计学习的候选排序技术,针对特定类型的命名实体,建立了一套适用于实体链接的处理框架,方便用户使用批处理的方式获取实体链接的结果。

Description

一种基于知识库特征抽取的命名实体链接方法
技术领域
本发明涉及自然语言处理,尤其涉及一种基于知识库特征抽取的命名实体链 接方法。
背景技术
自然语言处理(Nature Language Processing,简称NLP)是一门集语言学与计 算机科学为一体的交叉学科。命名实体链接(Named Entity Linking,简称NEL) 是自然语言处理中的一项基本任务,旨在对文本中具有歧义的提及(mention)进行 消歧,并链接到知识库中。随着信息抽取和大数据概念的兴起,命名实体链接任 务日益受到人们重视,已成为舆情分析、信息检索、自动问答、机器翻译等自然 语言处理的重要组成部分。如何从海量的互联网文本信息中自动、准确、快速地 链接到目标实体,逐渐成为了学术界和工业界关注的热点问题。
传统的非协同方法在衡量候选实体与提及上下文间的匹配程度方面,做法不 一,已经有许多种不同的尝试。这些方法一般都是在内容方面比较提及上下文和 知识库中对候选实体的文本描述,认为如果候选实体的文本描述与提及上下文在 内容方面越吻合,该实体是目标实体的可能性也就越大。这种方法的缺陷在于只 考虑了文章间的相似度,而没有考虑其他方面的信息,结果的准确率比较低。还 有一些协同的方法,需要根据知识库计算实体间的相关性,将所有实体和提及构 建一个无向图,然后利用PageRank的方法得到目标实体。这种方法考虑了全局 的信息,但需要进行大量的计算,运行时间比较久。
近年来深度学习方法流行,其在自然语言处理领域的应用也取得了不少的成 果。面对传统方法的不足,通过手动提取少量重要的特征,然后通过多层的神经 网络对实体和提及的匹配程度打分,在大量数据的训练下已经取得了很好的效果。
发明内容
本发明的目的是为了对自然文本中的提及进行消歧,并将其链接到知识库中, 以得到有效的文本信息,提出一种基于知识库特征抽取的命名实体链接方法。 基于知识库特征抽取的命名实体链接方法,包括以下步骤:
S1:从Freebase data dump中抽取具有目标特征的三元组条目,形成关系数 据表,存入知识库;
S2:设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体;
S3:采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对 抽取到的特征进行Embedding化;
S4:将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候 选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。
上述各步骤可具体采用如下实现方式:
S1中所述的从Freebase data dump中抽取具有目标特征的三元组条目,形成 关系数据表,存入知识库的步骤如下:
S11:根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息, 分别形成关系表ObjectType、ObjectName、WikiID和WikiRedirect并存入MySQL 数据库中;
S12:抽取主体和客体均为MID的三元组,并统计每个MID出现的次数, 形成关系表NodeHot存入MySQL数据库中;
S13:利用关系表ObjectType,将实体提及类型和Freebase Object类型建立 一对多的映射关系,根据实体提及PER、ORG、GPE、LOC以及FAC的五种 类型,形成PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、 FACNeedType五张关系表并存入MySQL数据库中。
S2中所述的设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体的步骤如下:
S21:将实体提及的名称进行查询扩展,使用的扩展包括字符子串扩展、缩 略词扩展、中英文扩展、国家民族扩展、指代扩展和中文繁简扩展;
S22:读取实体提及的类型,在关系表PERNeedType、ORGNeedType、 GPENeedType、LOCNeedType、FACNeedType的约束下,在MySQL数据库中对 实体提及的扩展查询词进行全词匹配式检索,并将查询所得的MID加入到候选 实体列表中;
S23:在重定向关系表WikiRedirect中,对实体提及的扩展查询词进行检索, 将查询所得的MID加入到候选实体列表中;
S24:对实体提及进行消歧扩展,利用Wikipedia消歧目录资源,将消歧所得 的MID加入到候选实体列表中;
S25:对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引,利 用Wikipedia标题和首段的Lucene索引,对实体提及进行模糊检索,将相似度前 10的MID直接加入候选实体列表,并取相似度前100的MID聚成集合E1;利 用Wikipedia上下文的Lucene索引,对实体提及所在的上下文进行模糊检索,将 相似度前100的MID形成集合E2,最后将E1∩E2加入到候选实体列表;
S26:将S22~S25获得的提及的候选实体列表记为{e1,e1,...,eK},K为候选实 体个数。
S3中所述的采用基于统计的方法,设计并抽取实体提及与其候选实体的特征 并对上述特征进行Embedding化包含以下步骤::
S31:实体提及与候选实体的Embedding化:以Wikipedia data dump作为语料库,整理获得词表V,采用word2vec方法训练并获得均为100维的字向量列表,则 实体提及和其候选实体的词向量为所有字向量的平均向量;
S32:实体提及类型与候选实体类型的特征提取:基于关系表ObjectType, 获取候选实体的Freebase Object类型,并根据S13所建立的五张提及类型映射关 系表,得到该候选实体所属的提及类型,然后分别用一个5维向量表示实体提及 和候选实体的类型特征,每一维根据是否包含该类型用1或者0表示;
S33:实体热度的Embedding化:基于关系表NodeHot,对表内的热度值进 行归一化处理,并将数值离散化为10维的向量表示;
S34:文档相似度计算:采用基于TF-IDF的词袋模型计算实体提及所处的上 下文与候选实体所关联的Wikipedia页面的相似度,每个字的TF-IDF值具体计 算如下:
Figure BDA0001566753890000031
其中,N为文档总数,nw表示字w在文章中出现的总次数。
在基于TF-IDF的词袋模型中,每篇文章表示为向量vdoc=[v1,v2,...,v|V|],其 中向量的每一维表示一个字的TF-IDF值,|V|表示每篇文章的字总数;两篇文 章的相似度计算的公式如下:
Figure BDA0001566753890000041
最后,计算结果经离散化处理,得到一个10维向量。
S4中所述的将抽取特征的Embedding作为一个多层的神经网络的输入,获 取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID 包含以下步骤:
S41:将S3中抽取特征的Embedding拼接成一体,并作为输入,记为x, x∈R230
S42:将x作为三层全连接神经网络的输入进行计算,每一层的计算公式依 次如下所示:
h1=reLU(W1x)
h2=reLU(W2h1)
s=W3h2+b
其中,h1、h2、s分别是第一层、第二层、第三层神经网络的输出;W1∈R256×230, W2∈R128×256,W3∈R1×128分别是第一层、第二层、第三层神经网络的权重参数, b为常数,b∈R;reLU为几率函数;
S43:将S42中神经网络输出的结果即每个候选实体的评分si,记为 S={s1,s2,...,sK};利用Softmax函数计算实体提及与候选实体的后验分布概率 P(ei|m),计算公式如下所示:
Figure BDA0001566753890000042
最后返回后验分布概率最高的候选实体的Freebase MID。
本发明与现有技术相比的有点在于:充分利用wikipedia、Freebase等资源得 到覆盖率较高且相关性较高的候选实体,再通过少量提取特征,如实体类型、实 体热度、文档相似度等,充分考虑了实体的信息,然后通过多层的神经网络来打 分,计算提及与实体的相关性,获得了比较高的准确率。
具体实施方式
下面结合具体实施方式对本发明做进一步阐述。
本发明主要针对命名实体链接任务,具体分为两个模块,候选生成和候选排 序。候选生成时,通过子串扩展、缩略词扩展等得到query,然后根据query得 到候选实体列表,候选实体的产生来源于维基百科的重定向、MySQL数据库的 全词查询以及Lucene的模糊索引。最后,需要对候选实体列表进行筛选和过滤, 主要根据表1的提及类型和实体类型的映射关系,把一些实体类型不匹配的候选 实体从候选表中删除。候选排序时,先手工提取一些特征,如文档相似度、实体 热度等,然后通过一个3层的全连接网络为每个实体和提及的匹配程度打分,最 后用softmax计算每个实体为目标实体的概率。
表1提及类型和实体类型映射关系
Figure BDA0001566753890000051
本发明是基于wikipedia和神经网络的命名实体链接方法,
S1:从Freebase data dump中抽取具有目标特征的三元组条目,形成关系数 据表,存入知识库;本步骤的具体实现方式为:
S11:根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息, 分别形成关系表ObjectType、ObjectName、WikiID和WikiRedirect并存入MySQL 数据库中;
S12:抽取主体和客体均为MID的三元组,并统计每个MID出现的次数, 形成关系表NodeHot存入MySQL数据库中;
S13:利用关系表ObjectType,将实体提及类型和Freebase Object类型建立 一对多的映射关系,根据实体提及PER、ORG、GPE、LOC以及FAC的五种 类型,形成PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、 FACNeedType五张关系表并存入MySQL数据库中。
S2:设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体;本步骤的具体实现方式为:
S21:将实体提及的名称进行查询扩展,使用的扩展包括字符子串扩展、缩 略词扩展、中英文扩展、国家民族扩展、指代扩展和中文繁简扩展;
S22:读取实体提及的类型,在关系表PERNeedType、ORGNeedType、 GPENeedType、LOCNeedType、FACNeedType的约束下,在MySQL数据库中对 实体提及的扩展查询词进行全词匹配式检索,并将查询所得的MID加入到候选 实体列表中;
S23:在重定向关系表WikiRedirect中,对实体提及的扩展查询词进行检索, 将查询所得的MID加入到候选实体列表中;
S24:对实体提及进行消歧扩展,利用Wikipedia消歧目录资源,将消歧所 得的MID加入到候选实体列表中;
S25:对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引,利 用Wikipedia标题和首段的Lucene索引,对实体提及进行模糊检索,将相似度前 10的MID直接加入候选实体列表,并取相似度前100的MID聚成集合E1;利 用Wikipedia上下文的Lucene索引,对实体提及所在的上下文进行模糊检索,将 相似度前100的MID形成集合E2,最后将E1∩E2加入到候选实体列表;
S26:将S22~S25获得的提及的候选实体列表记为{e1,e1,...,eK},K为候选实 体个数。
S3:采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对 抽取到的特征进行Embedding化;本步骤的具体实现方式为:
S31:实体提及与候选实体的Embedding化:以Wikipedia data dump作为语 料库,整理获得词表V,采用word2vec方法训练并获得均为100维的字向量列 表,则实体提及和其候选实体的词向量为所有字向量的平均向量,用以下公式表 示:
w=[w1,w2,...wl]/l
其中l为实体提及或其候选实体的字符长度,wi表示第i个字符的字向量;
S32:实体提及类型与候选实体类型的特征提取:基于关系表ObjectType, 获取候选实体的Freebase Object类型,并根据S13所建立的五张提及类型映射关 系表,得到该候选实体所属的提及类型,然后分别用一个5维向量表示实体提及 和候选实体的类型特征,每一维根据是否包含该类型用1或者0表示;
S33:实体热度的Embedding化:基于关系表NodeHot,对表内的热度值进 行归一化处理,并将数值离散化为10维的向量表示;
S34:文档相似度计算:采用基于TF-IDF的词袋模型计算实体提及所处的 上下文与候选实体所关联的Wikipedia页面的相似度,每个字的TF-IDF值具体 计算如下:
Figure BDA0001566753890000071
其中,N为文档总数,nw表示字w在文章中出现的总次数。
在基于TF-IDF的词袋模型中,每篇文章表示为向量vdoc=[v1,v2,...,v|V|],其 中向量的每一维表示一个字的TF-IDF值,|V|表示每篇文章的字总数;两篇文 章的相似度计算的公式如下:
Figure BDA0001566753890000072
最后,计算结果经离散化处理,得到一个10维向量。
S4:将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个 候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID。本步 骤的具体实现方式为:
S41:将S3中抽取特征的Embedding拼接成一体,并作为输入,记为x, x∈R230
S42:将x作为三层全连接神经网络的输入进行计算,每一层的计算公式依 次如下所示:
h1=reLU(W1x)
h2=reLU(W2h1)
s=W3h2+b
其中,h1、h2、s分别是第一层、第二层、第三层神经网络的输出;W1∈R256×230, W2∈R128×256,W3∈R1×128分别是第一层、第二层、第三层神经网络的权重参数, b为常数,b∈R;reLU为几率函数;
S43:将S42中神经网络输出的结果即每个候选实体的评分si,记为 S={s1,s2,...,sK};利用Softmax函数计算实体提及与候选实体的后验分布概率 P(ei|m),计算公式如下所示:
Figure BDA0001566753890000081
最后返回后验分布概率最高的候选实体的Freebase MID。
下面将该方法应用于下述实施例,以便本领域技术人员更好地理解本发明的 具体实现。
实施例
以如下这则新闻为例,“奥朗德赶往枪击现场,法新社刚刚援引检方消息, 枪击事件已造成10人死亡,法国总统奥朗德正赶往现场,并将召集紧急内阁会 议。”进行实体链接,方法和步骤如下:
1.根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息,形成 关系表ObjectType、ObjectName、WikiID和WikiRedirect存入MySQL数据库中;
2.抽取主体和客体均为MID的三元组,并统计每个MID出现的次数,形成关系 表NodeHot存入MySQL数据库中;
3.利用关系表ObjectType,将实体提及类型和Freebase Object类型建立一对多的 映射关系,并形成一系列关系表PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType存入MySQL数据库中;
4.将文章通过实体识别的任务,得到所有的提及以及提及的类型,奥朗德(PER)、法国(GPE)、法新社(ORG)。将提及名称进行查询的扩展,包括子串扩展、缩略 词扩展等。如将法新社扩展为法国新闻社、法国扩展为法兰西共和国等;
5.读取实体提及的类型,在关系表PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType的约束下,在MySQL数据库中对实体提及的扩展 查询词进行全词匹配式检索,并将查询所得的MID加入到候选实体列表中;
6.在重定向关系表WikiRedirect中,对实体提及的扩展查询词进行检索,将查询所得的MID加入到候选实体列表中;
7.对实体提及进行消歧扩展,利用Wikipedia消歧目录资源,将消歧所得的MID 加入到候选实体列表中;
8.对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引。利用Wikipedia标题和首段的Lucene索引,对实体提及进行模糊检索,将相似度前10的MID 直接加入候选实体列表,并取相似度前100的MID聚成集合e1。利用Wikipedia 上下文的Lucene索引,对实体提及所在的上下文进行模糊检索,将相似度前100 的MID形成集合e2。最后将e1∩e2加入到候选实体列表。记提及m的候选实体 列表为{e1,e1,...,eK},K为候选实体个数;
9.实体提及与候选实体的Embedding化。以Wikipedia data dump作为语料库,整理获得词表V,采用word2vec方法训练并获得词(字)向量列表,工具为python 的gensim包,将|V|维的one-hot表示形式嵌入到低维的空间,每个词(字)向量 均为100维。实体提及和候选实体均视为由若干个字w=[w1,w2,...wl]组成,l为 字符长度,wi表示第i个字符的字向量。基于上述安排,实体提及和候选实体的 词向量即是其所有字向量的平均向量值。
10.实体提及类型与候选实体类型的特征提取。实体提及的类型共有五类:PER、LOC、GPE、ORG以及FAC。基于关系表ObjectType,获取候选实体的Freebase Object类型,并根据前述所建立的映射关系表,得到该候选实体所属的提及类型。 然后分别用一个5维向量表示实体提及和候选实体的类型特征,每一维根据是否 包含该类型用1或者0表示;
11.实体热度的Embedding化。基于关系表NodeHot,对表内的热度值进行归一 化处理,并将数值离散化为10维的向量表示;
12.文档相似度计算。文档相似度计算是采用基于TF-IDF的词袋模型,计算实体提及所处的上下文与候选实体所关联的Wikipedia页面的相似度。其中,TF表示 词频,IDF表示逆文档频率,具体公式由(1)给出:
Figure BDA0001566753890000101
在基于TF-IDF的词袋模型中,每篇文章表示为向量vdoc=[v1,v2,...,v|V|]。其中,每一维表示每个字的TF-IDF值,相似度计算的公式由(2)给出。最后,计算结果 经离散化处理,得到一个10维向量。
Figure BDA0001566753890000102
13.将3中的embedding连接作为输入,记为x,x∈R230
14.将输入x通过三层全连接神经网络,每一层的计算公式由(3)~(5)给出:
h1=reLU(W1x) (3)
h2=reLU(W2h1) (4)
s=W3h2+b (5)
其中,W1∈R256×230,W2∈R128×256,W3∈R1×128,b∈R
15.上述神经网络输出每个候选实体的评分,记为S={s1,s1,...,sK}。基于上述评分, 再利用Softmax计算实体提及与候选实体的后验分布概率,公式由(6)给出。最后 返回概率最高的候选实体的Freebase MID。
Figure BDA0001566753890000111
最终得到的文档链接结果如下:
Type span Title wikipageID
奥朗德 PER 0-2 弗朗索瓦·奥朗德 1852655
法新社 ORG 11-13 法新社 93478
法国 GPE 35-36 法国 543
奥朗德 PER 39-41 弗朗索瓦·奥朗德 1852655

Claims (1)

1.一种基于知识库特征抽取的命名实体链接方法,其特征在于包括以下步骤:
S1:从Freebase data dump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库;
S2:设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的Freebase Object作为候选实体;
S3:采用基于统计的方法,设计并抽取实体提及与其候选实体的特征,并对抽取到的特征进行Embedding化;
S4:将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID;
S1中所述的从Freebase data dump中抽取具有目标特征的三元组条目,形成关系数据表,存入知识库的步骤如下:
S11:根据不同谓词抽取实体类型、实体名称、实体ID以及实体重定向信息,分别形成关系表ObjectType、ObjectName、WikiID和WikiRedirect并存入MySQL数据库中;
S12:抽取主体和客体均为MID的三元组,并统计每个MID出现的次数,形成关系表NodeHot存入MySQL数据库中;
S13:利用关系表ObjectType,将实体提及类型和Freebase Object类型建立一对多的映射关系,根据实体提及PER、ORG、GPE、LOC以及FAC的五种类型,形成PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType五张关系表并存入MySQL数据库中;
S2中所述的设计搜寻规则,在知识库中搜寻若干个与实体提及关系紧密的FreebaseObject作为候选实体的步骤如下:
S21:将实体提及的名称进行查询扩展,使用的扩展包括字符子串扩展、缩略词扩展、中英文扩展、国家民族扩展、指代扩展和中文繁简扩展;
S22:读取实体提及的类型,在关系表PERNeedType、ORGNeedType、GPENeedType、LOCNeedType、FACNeedType的约束下,在MySQL数据库中对实体提及的扩展查询词进行全词匹配式检索,并将查询所得的MID加入到候选实体列表中;
S23:在重定向关系表WikiRedirect中,对实体提及的扩展查询词进行检索,将查询所得的MID加入到候选实体列表中;
S24:对实体提及进行消歧扩展,利用Wikipedia消歧目录资源,将消歧所得的MID加入到候选实体列表中;
S25:对Wikipedia各页面的标题、首段、上下文分别建立Lucene索引,利用Wikipedia标题和首段的Lucene索引,对实体提及进行模糊检索,将相似度前10的MID直接加入候选实体列表,并取相似度前100的MID聚成集合E1;利用Wikipedia上下文的Lucene索引,对实体提及所在的上下文进行模糊检索,将相似度前100的MID形成集合E2,最后将E1∩E2加入到候选实体列表;
S26:将S22~S25获得的提及的候选实体列表记为{e1,e2,...,eK},K为候选实体个数;
S3中所述的采用基于统计的方法,设计并抽取实体提及与其候选实体的特征并对上述特征进行Embedding化包含以下步骤:
S31:实体提及与候选实体的Embedding化:以Wikipedia data dump作为语料库,整理获得词表V,采用word2vec方法训练并获得均为100维的字向量列表,则实体提及和其候选实体的词向量为所有字向量的平均向量;
S32:实体提及类型与候选实体类型的特征提取:基于关系表ObjectType,获取候选实体的Freebase Object类型,并根据S13所建立的五张提及类型映射关系表,得到该候选实体所属的提及类型,然后分别用一个5维向量表示实体提及和候选实体的类型特征,每一维根据是否包含该类型用1或者0表示;
S33:实体热度的Embedding化:基于关系表NodeHot,对表内的热度值进行归一化处理,并将数值离散化为10维的向量表示;
S34:文档相似度计算:采用基于TF-IDF的词袋模型计算实体提及所处的上下文与候选实体所关联的Wikipedia页面的相似度,每个字的TF-IDF值具体计算如下:
Figure FDA0002776468900000021
其中,N为文档总数,nw表示字w在文章中出现的总次数;
在基于TF-IDF的词袋模型中,每篇文章表示为向量vdoc=[v1,v2,...,v|V|],其中向量的每一维表示一个字的TF-IDF值,|V|表示每篇文章的字总数;两篇文章的相似度计算的公式如下:
Figure FDA0002776468900000031
最后,计算结果经离散化处理,得到一个10维向量;
S4中所述的将抽取特征的Embedding作为一个多层的神经网络的输入,获取每个候选实体为目标实体的概率,并返回概率最高的候选实体的Freebase MID包含以下步骤:
S41:将S3中抽取特征的Embedding拼接成一体,并作为输入,记为x,x∈R230
S42:将x作为三层全连接神经网络的输入进行计算,每一层的计算公式依次如下所示:
h1=reLU(W1x)
h2=reLU(W2h1)
s=W3h2+b
其中,h1、h2、s分别是第一层、第二层、第三层神经网络的输出;W1∈R256×230,W2∈R128×256,W3∈R1×128分别是第一层、第二层、第三层神经网络的权重参数,b为常数,b∈R;reLU为几率函数;
S43:将S42中神经网络输出的结果即每个候选实体的评分si,记为S={s1,s2,...,si,...sK};利用Softmax函数计算实体提及与候选实体的后验分布概率P,计算公式如下所示:
Figure FDA0002776468900000032
最后返回后验分布概率最高的候选实体的Freebase MID。
CN201810102597.9A 2018-02-01 2018-02-01 一种基于知识库特征抽取的命名实体链接方法 Active CN108304552B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810102597.9A CN108304552B (zh) 2018-02-01 2018-02-01 一种基于知识库特征抽取的命名实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810102597.9A CN108304552B (zh) 2018-02-01 2018-02-01 一种基于知识库特征抽取的命名实体链接方法

Publications (2)

Publication Number Publication Date
CN108304552A CN108304552A (zh) 2018-07-20
CN108304552B true CN108304552B (zh) 2021-01-08

Family

ID=62850983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810102597.9A Active CN108304552B (zh) 2018-02-01 2018-02-01 一种基于知识库特征抽取的命名实体链接方法

Country Status (1)

Country Link
CN (1) CN108304552B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959270B (zh) * 2018-08-10 2022-08-19 新华智云科技有限公司 一种基于深度学习的实体链接方法
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110659368A (zh) * 2019-09-20 2020-01-07 北京明略软件系统有限公司 知识图谱构建方法、装置、电子设备及可读存储介质
CN112861990B (zh) * 2021-03-05 2022-11-04 电子科技大学 一种基于关键词和实体的主题聚类方法、设备及计算机可读存储介质
CN113157861B (zh) * 2021-04-12 2022-05-24 山东浪潮科学研究院有限公司 一种融合Wikipedia的实体对齐方法
CN113051922A (zh) * 2021-04-20 2021-06-29 北京工商大学 一种基于深度学习的三元组抽取方法及系统
CN113505587B (zh) * 2021-06-23 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 实体抽取方法及相关装置、设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960001A (zh) * 2017-02-08 2017-07-18 北京师范大学 一种检索词的实体链接方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336280B2 (en) * 2013-12-02 2016-05-10 Qbase, LLC Method for entity-driven alerts based on disambiguated features
US10235633B2 (en) * 2014-12-19 2019-03-19 Medidata Solutions, Inc. Method and system for linking heterogeneous data sources
CN104915448B (zh) * 2015-06-30 2018-03-27 中国科学院自动化研究所 一种基于层次卷积网络的实体与段落链接方法
CN106940702A (zh) * 2016-01-05 2017-07-11 富士通株式会社 连接短文本中实体提及与语义知识库中实体的方法和设备
CN106295796B (zh) * 2016-07-22 2018-12-25 浙江大学 基于深度学习的实体链接方法
CN106570191B (zh) * 2016-11-11 2020-05-26 浙江大学 基于维基百科的中英文跨语言实体匹配方法
CN107102989B (zh) * 2017-05-24 2020-09-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106960001A (zh) * 2017-02-08 2017-07-18 北京师范大学 一种检索词的实体链接方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Max-margin latent feature relational models for entity-attribute networks";Fei Xia等;《2014 International Joint Conference on Neural Networks (IJCNN)》;20140904;全文 *
"基于词向量的实体链接方法";齐爱芹等;《数据采集与处理》;20170331;第604-611页 *

Also Published As

Publication number Publication date
CN108304552A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108304552B (zh) 一种基于知识库特征抽取的命名实体链接方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN110750995B (zh) 一种基于自定义图谱的文件管理方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN112836008B (zh) 基于去中心化存储数据的索引建立方法
Wang et al. Constructing a comprehensive events database from the web
CN115828854B (zh) 一种基于上下文消歧的高效表格实体链接方法
Song et al. Cross-language record linkage based on semantic matching of metadata
KR101686067B1 (ko) 개체간 암묵적 관계 추론을 통한 정보 추출 증강 시스템 및 이를 이용한 정보 추출 방법
Yin et al. Using a three-step social media similarity (TSMS) mapping method to analyze controversial speech relating to COVID-19 in Twitter collections
Akhgari et al. Sem-TED: semantic twitter event detection and adapting with news stories
CN113590738A (zh) 一种基于内容与情感的网络敏感信息的检测方法
Tohalino et al. Using virtual edges to extract keywords from texts modeled as complex networks
Selvi et al. Context similarity measure using fuzzy formal concept analysis
Aref Mining publication papers via text mining Evaluation and Results
Pham Sensitive keyword detection on textual product data: an approximate dictionary matching and context-score approach
CN117688319B (zh) 一种使用ai分析数据库结构的方法
Lu et al. OnPerDis: Ontology-based personal name disambiguation on the web
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant