CN108959258B - 一种基于表示学习的特定领域集成实体链接方法 - Google Patents

一种基于表示学习的特定领域集成实体链接方法 Download PDF

Info

Publication number
CN108959258B
CN108959258B CN201810717561.1A CN201810717561A CN108959258B CN 108959258 B CN108959258 B CN 108959258B CN 201810717561 A CN201810717561 A CN 201810717561A CN 108959258 B CN108959258 B CN 108959258B
Authority
CN
China
Prior art keywords
entity
similarity
item
vector
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810717561.1A
Other languages
English (en)
Other versions
CN108959258A (zh
Inventor
余正涛
蒋胜臣
郭剑毅
线岩团
王红斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810717561.1A priority Critical patent/CN108959258B/zh
Publication of CN108959258A publication Critical patent/CN108959258A/zh
Application granted granted Critical
Publication of CN108959258B publication Critical patent/CN108959258B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于表示学习的特定领域集成实体链接方法,属于自然语言处理和深度学习技术领域。本发明包括步骤:首先利用旅游领域的百科语料对词向量模型进行训练;利用旅游领域的百科语料构建领域知识库;利用TransE模型得到候选实体向量;对实体指称项进行词扩展和语义排序;对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度,根据此相似度得到目标实体链接;对实体指称项进行动态实体链接。本发明提高了实体链接的正确率,本发明取得了较好的效果。

Description

一种基于表示学习的特定领域集成实体链接方法
技术领域
本发明涉及一种基于表示学习的特定领域集成实体链接方法,属于自然语言处理和深度学习技术领域。
背景技术
实体链接是自然语言处理领域的重要任务之一,该任务通过对文本中多义词的义项加以明确,旨在让实体指称项正确链接到知识库中无歧义的候选实体,为人类和计算机更好理解自然语言信息提供帮助,实体链接的任务针对通用文本,如新闻、网页等,使用的语料库由多个领域的文本构成,然而在实际的应用中,经常需要对某一特定领域的文本进行实体链接,这不仅对领域知识的挖掘具有重要的意义,而且有助于领域知识库的构建、专业文献自动翻译等任务。
发明内容
本发明提供了一种基于表示学习的特定领域集成实体链接方法,以用于解决现有集成实体链接方法实体链接准确率不高,不能将文本信息和现有知识库信息很好结合的问题。
本发明的技术方案是:一种基于表示学习的特定领域集成实体链接方法,所述方法的具体步骤如下:
Step1、首先利用旅游领域的百科语料对词向量模型进行训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理,采用开源的工具包汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料;
Step1.4、选择开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
Step2、利用旅游领域的百科语料构建领域知识库。
所述步骤Step2的具体步骤为:
Step2.1、人工编写爬虫程序,从维基百科爬取旅游领域资源,保存在文本中;
Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系,然后采用批量导入的方式导入到图数据库Neo4j,构建领域知识库;
领域知识库是实体链接任务的支撑,通用领域有现成的知识库,对于特定领域,没有现成可用的知识库,通过半手工构建特定领域知识库,包括领域实体或概念、领域实体层级关系,去除掉重复、无效的信息后,最终以(实体,关系,实体)三元组的形式批量导入图数据库Neo4j中进行管理。
所述步骤Step2.1的具体步骤为:
Step2.1.1、深入分析领域属性及行业属性,人工定义领域知识体系,收集领域相关概念种子集合;
Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。
Step3、利用TransE模型得到候选实体向量;
Step3.1、利用TransE模型对领域知识库中的三元组进行训练,得到所有实体的向量形式;
Step3.2、对待链接的目标文本进行命名实体识别,得到实体指称项;
Step3.3、通过实体指称项在构建的领域知识库中搜索,得到相应的候选实体集合;
在构建特定领域知识库时,对知识库中同名实体采用加后缀标签的方式进行区分,且后缀标签用小括号与实体隔离。例如:香格里拉。在本地知识库中有三个相应实体,分别加上后缀标签地名、酒店、电影,并用小括号进行隔离。如:香格里拉(酒店);
Step3.4、根据得到的候选实体集合,利用训练好的实体向量形式,从中选出候选实体的向量形式,最终得到候选实体的向量表达形式;
Step4、对实体指称项进行词扩展和语义排序;
Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式;
Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序,距离之和最小的,语义重要性越高;
语义排序是根据实体指称项在目标文本中的重要程度进行排序,是为了实体链接任务从语义最重要的实体指称项开始进行链接;词扩展是为了最大程度的利用共现实体,体现集成实体链接的优点。
Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展;
Step5、对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度,根据此相似度得到目标实体链接;
Step5.1、对Step4得到实体指称项的语义排序,按照语义从高到低分别计算指称项与候选实体的相似度;
Step5.2、对Step4得到的扩展词,分别计算指称项的扩展词与候选实体的相似度;
Step5.3、将Step5.1和Step5.2得到的相似度相加,得到最后的相似度,将相似度最高的候选实体作为目标实体链接;
Step6、对实体指称项进行动态实体链接。
所述步骤Step3.3的具体步骤为:
Step3.3.1、针对每个实体指称项mi,在构建的领域知识库中寻找与之同名实体作为它的候选实体集合Ni={ni1,ni2,,,};
Step3.3.2、如果领域知识库中没有同名实体,则把相应的实体指称项归为空实体。
所述步骤Step4.2的具体步骤为:
Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项mi与mj的距离,公式表示为:
Figure BDA0001717896760000041
其中n为向量维度;xik为实体指称项mi向量表示的第k维;xjk为实体指称项mj向量表示的第k维;
Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离,计算每个实体与其它实体的距离之和,公式表示为:
Figure BDA0001717896760000042
其中m为指称项个数;dij为实体指称项mi与mj的距离;
Step4.2.3、根据计算得到的di从大到小排序,拥有最小的距离和的指称项就处于共现实体的中心,则认为它具有最重要的语义相关性,从而得到文本实体指称项的语义相关性。
本发明的语义排序是为了实体链接可以从文本中语义最重要的指称项开始,一方面语义重要的指称项更容易消歧,另一方面有助于我们构建动态实体链接系统,语义重要的指称项实体链接后利用它的无歧义实体进行后续的实体链接。
所述步骤Step4.3的具体步骤为:
Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项与其它实体指称项的距离;
Step4.3.2、选取距离实体指称项mi最近的K个实体指称项作为它的扩展,通过实验,K=2效果最好。
本发明的词扩展是为了更好地利用共现实体间的语义相关关系,发挥集成实体链接的最大优势。例如:乔丹,候选实体有:乔丹(篮球运动员)、乔丹(大学教授),当我们计算指称项与候选实体的相似度时,也许差别不大,乔丹的扩展词为实体指称项“公牛”,我们再计算“公牛”与候选实体“乔丹(篮球运动员)”、“乔丹(大学教授)”的相似度,结合词扩展计算相似度可以最大程度区分与各个候选实体的差别。
所述步骤Step5.1的具体步骤为:
Step5.1.1、对于某待消歧的实体指称项G,其背景文本经过预处理后,用Step1 训练好的词向量模型进行向量的表示,其向量表示为
Figure BDA0001717896760000051
Step5.1.2、对于候选实体,通过Step3.3在领域知识库中获取,经过TransE模型向量表示后为
Figure DEST_PATH_7
Step5.1.3、实体指称项G和候选实体G候选之间的相似度通过计算
Figure BDA0001717896760000053
Figure DEST_PATH_5
之间的相似度来计算,相似度计算公式:
Figure BDA0001717896760000055
其中
Figure BDA0001717896760000056
为实体指称项的向量表示;
Figure BDA0001717896760000057
为候选实体的向量表示。
所述步骤Step5.2的具体步骤为:
Step5.2.1、通过Step4.3得到实体指称项G的扩展词G扩展,用Step1训练好的词向量模型进行向量的表示,其向量表示为
Figure BDA0001717896760000058
Step5.2.2、对于候选实体,通过在领域知识库中获取,经过TransE模型向量表示后为
Figure DEST_PATH_7
Step5.2.3、实体指称项的扩展词G扩展和候选实体G候选之间的相似度通过计算
Figure BDA00017178967600000510
Figure DEST_PATH_5
之间的相似度来计算;相似度计算公式:
Figure BDA00017178967600000512
其中
Figure BDA00017178967600000513
为候选实体G候选的向量表示;
Figure BDA00017178967600000514
为实体指称项扩展词G扩展的向量表示。
所述步骤Step6的具体步骤为:
Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接,使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算;
Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确,然后再动态调整实体链接;
所述步骤Step6.2的具体步骤为:
Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的相似度:
Figure BDA0001717896760000061
其中
Figure BDA0001717896760000062
为实体指称项链接后的无歧义实体的向量表示;
Figure BDA0001717896760000063
为实体指称项的扩展词链接后的无歧义实体的向量表示;
Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的关系指数;如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1;如果没有直接关系,则它们之间的关系指数为0;
Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加,两者之和如果小于阈值,则判断链接错误,重新让相似度第二高的候选实体作为无歧义目标实体,继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值,依次迭代,最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标;其中设定阈值为0.54。
本发明对实体指称项进行动态实体链接,目前的实体链接都是无重复计算每个实体指称项与其候选实体的相似度,选择一个相似度最高的候选实体进行连接,并没有进一步考虑这个已经连接的目标候实体是对还是错,本文中对实体指称项进行动态实体链接,这样不仅可以利用前面链接过的信息,也可以对前面的链接进行纠错。
本发明的有益效果是:
1、本发明与现有的实体链接方法相比较,提高了实体链接的正确率,本发明取得了较好的效果;
2、本发明的一种基于表示学习的特定领域集成实体链接方法,与现有的实体链接方法相比较,本文在基于表示学习的基础上融合了语义排序和词扩展,能更好的对领域实体进行链接。
3、本发明的一种基于表示学习的特定领域集成实体链接方法,对领域实体进行了链接,为后续工作的实体融合和知识图谱构建等工作提供强有力的支撑。
附图说明
图1为本发明中的总的流程图。
具体实施方式
实施例1:如图1所示,一种基于表示学习的特定领域集成实体链接方法,所述方法的具体步骤如下:
Step1、首先利用旅游领域的百科语料对词向量模型进行训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理,采用开源的工具包汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料;
Step1.4、选择开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
Step2、利用旅游领域的百科语料构建领域知识库。
所述步骤Step2的具体步骤为:
Step2.1、人工编写爬虫程序,从维基百科爬取旅游领域资源,保存在文本中;
Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系,然后采用批量导入的方式导入到图数据库Neo4j,构建领域知识库;
领域知识库是实体链接任务的支撑,通用领域有现成的知识库,对于特定领域,没有现成可用的知识库,通过半手工构建特定领域知识库,包括领域实体或概念、领域实体层级关系,去除掉重复、无效的信息后,最终以(实体,关系,实体)三元组的形式批量导入图数据库Neo4j中进行管理。
所述步骤Step2.1的具体步骤为:
Step2.1.1、深入分析领域属性及行业属性,人工定义领域知识体系,收集领域相关概念种子集合;
Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。
Step3、利用TransE模型得到候选实体向量;
Step3.1、利用TransE模型对领域知识库中的三元组进行训练,得到所有实体的向量形式;
Step3.2、对待链接的目标文本进行命名实体识别,得到实体指称项;
Step3.3、通过实体指称项在构建的领域知识库中搜索,得到相应的候选实体集合;
在构建特定领域知识库时,对知识库中同名实体采用加后缀标签的方式进行区分,且后缀标签用小括号与实体隔离。例如:香格里拉。在本地知识库中有三个相应实体,分别加上后缀标签地名、酒店、电影,并用小括号进行隔离。如:香格里拉(酒店);
Step3.4、根据得到的候选实体集合,利用训练好的实体向量形式,从中选出候选实体的向量形式,最终得到候选实体的向量表达形式;
Step4、对实体指称项进行词扩展和语义排序;
Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式;
Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序,距离之和最小的,语义重要性越高;
语义排序是根据实体指称项在目标文本中的重要程度进行排序,是为了实体链接任务从语义最重要的实体指称项开始进行链接;词扩展是为了最大程度的利用共现实体,体现集成实体链接的优点。
Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展;
Step5、对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度,根据此相似度得到目标实体链接;
Step5.1、对Step4得到实体指称项的语义排序,按照语义从高到低分别计算指称项与候选实体的相似度;
Step5.2、对Step4得到的扩展词,分别计算指称项的扩展词与候选实体的相似度;
Step5.3、将Step5.1和Step5.2得到的相似度相加,得到最后的相似度,将相似度最高的候选实体作为目标实体链接;
Step6、对实体指称项进行动态实体链接。
进一步的,所述步骤Step3.3的具体步骤为:
Step3.3.1、针对每个实体指称项mi,在构建的领域知识库中寻找与之同名实体作为它的候选实体集合Ni={ni1,ni2,,,};
Step3.3.2、如果领域知识库中没有同名实体,则把相应的实体指称项归为空实体。
进一步的,所述步骤Step4.2的具体步骤为:
Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项mi与mj的距离,公式表示为:
Figure BDA0001717896760000091
其中n为向量维度;xik为实体指称项mi向量表示的第k维;xjk为实体指称项mj向量表示的第k维;
Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离,计算每个实体与其它实体的距离之和,公式表示为:
Figure BDA0001717896760000101
其中m为指称项个数;dij为实体指称项mi与mj的距离;
Step4.2.3、根据计算得到的di从大到小排序,拥有最小的距离和的指称项就处于共现实体的中心,则认为它具有最重要的语义相关性,从而得到文本实体指称项的语义相关性。
本发明的语义排序是为了实体链接可以从文本中语义最重要的指称项开始,一方面语义重要的指称项更容易消歧,另一方面有助于我们构建动态实体链接系统,语义重要的指称项实体链接后利用它的无歧义实体进行后续的实体链接。
进一步的,所述步骤Step4.3的具体步骤为:
Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项与其它实体指称项的距离;
Step4.3.2、选取距离实体指称项mi最近的K个实体指称项作为它的扩展,通过实验,K=2效果最好。
本发明的词扩展是为了更好地利用共现实体间的语义相关关系,发挥集成实体链接的最大优势。例如:乔丹,候选实体有:乔丹(篮球运动员)、乔丹(大学教授),当我们计算指称项与候选实体的相似度时,也许差别不大,乔丹的扩展词为实体指称项“公牛”,我们再计算“公牛”与候选实体“乔丹(篮球运动员)”、“乔丹(大学教授)”的相似度,结合词扩展计算相似度可以最大程度区分与各个候选实体的差别。
进一步的,所述步骤Step5.1的具体步骤为:
Step5.1.1、对于某待消歧的实体指称项G,其背景文本经过预处理后,用Step1 训练好的词向量模型进行向量的表示,其向量表示为
Figure BDA0001717896760000102
Step5.1.2、对于候选实体,通过Step3.3在领域知识库中获取,经过TransE模型向量表示后为
Figure 731862DEST_PATH_7
Step5.1.3、实体指称项G和候选实体G候选之间的相似度通过计算
Figure BDA0001717896760000104
Figure 554485DEST_PATH_5
之间的相似度来计算,相似度计算公式:
Figure BDA0001717896760000111
其中
Figure BDA0001717896760000112
为实体指称项的向量表示;
Figure BDA0001717896760000113
为候选实体的向量表示。
进一步的,所述步骤Step5.2的具体步骤为:
Step5.2.1、通过Step4.3得到实体指称项G的扩展词G扩展,用Step1训练好的词向量模型进行向量的表示,其向量表示为
Figure BDA0001717896760000114
Step5.2.2、对于候选实体,通过在领域知识库中获取,经过TransE模型向量表示后为
Figure 127072DEST_PATH_7
Step5.2.3、实体指称项的扩展词G扩展和候选实体G候选之间的相似度通过计算
Figure BDA0001717896760000116
Figure 409309DEST_PATH_5
之间的相似度来计算;相似度计算公式:
Figure BDA0001717896760000118
其中
Figure BDA0001717896760000119
为候选实体G候选的向量表示;
Figure BDA00017178967600001110
为实体指称项扩展词G扩展的向量表示。
进一步的,所述步骤Step6的具体步骤为:
Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接,使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算;
Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确,然后再动态调整实体链接;
所述步骤Step6.2的具体步骤为:
Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的相似度:
Figure BDA00017178967600001111
其中
Figure BDA00017178967600001112
为实体指称项链接后的无歧义实体的向量表示;
Figure BDA00017178967600001113
为实体指称项的扩展词链接后的无歧义实体的向量表示;
Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的关系指数;如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1;如果没有直接关系,则它们之间的关系指数为0;
Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加,两者之和如果小于阈值,则判断链接错误,重新让相似度第二高的候选实体作为无歧义目标实体,继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值,依次迭代,最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标;其中设定阈值为0.54。
本发明对实体指称项进行动态实体链接,目前的实体链接都是无重复计算每个实体指称项与其候选实体的相似度,选择一个相似度最高的候选实体进行连接,并没有进一步考虑这个已经连接的目标候实体是对还是错,本文中对实体指称项进行动态实体链接,这样不仅可以利用前面链接过的信息,也可以对前面的链接进行纠错。
为了验证本发明实体链接的效果,将采用统一的评价标准:正确率(Precision)衡量本发明的性能。
Figure BDA0001717896760000121
本发明为了验证该发明的有效性、可行性设计以下几组实验进行验证:
实验一:不同相似度特征组合的实验对比。以验证在实际实体链接任务中,词向量表示、语义排序、词扩展、动态实体链接系统对实体相似度计算的贡献程度不同,对实体链接的结果也有不同影响。本实验通过依次加入不同特征进行对比实验,结果如表1所示:
表1
Figure BDA0001717896760000122
实验结果分析:通过以上实验数据,词扩展对实体链接的作用比语义排序更大,增加的动态连接系统相比于传统的实体链接有明显效果。
实验二:对于词扩展,选取了n个词作为实体指称项的词扩展,以验证词的数量n对结果的影响。本实验就扩展词个数n的确定做了5组实验,分布测试n在取 1,2,3,4时对实体链接准确率的影响,结果如表2所示;
表2
词扩展个数 准确率
1 0.52
2 0.74
3 0.61
4 0.65
实验结果分析:通过选取不同的词扩展个数确定了最佳的词扩展个数,实验结果表明,词扩展个数为2时效果最好。
实验三:为了验证本文提出方法的可行性,将本文的方法与其他几种主流实体链接方法进行比较;
表3本文方法与其他方法的比较
方法名 准确率(%)
Wikify 70.2
Cucerzan 75.3
SVM[15] 82.5
本文的方法 82.6
实验结果分析:通过与主流方法的比较,本文提出的方法在准确率上达到了较高水平,证明了本方法在对特定领域实体链接任务的可行性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.一种基于表示学习的特定领域集成实体链接方法,其特征在于:所述方法的具体步骤如下:
Step1、首先利用旅游领域的百科语料对词向量模型进行训练;
Step2、利用旅游领域的百科语料构建领域知识库;
Step3、利用TransE模型得到候选实体向量;
Step3.1、利用TransE模型对领域知识库中的三元组进行训练,得到所有实体的向量形式;
Step3.2、对待链接的目标文本进行命名实体识别,得到实体指称项;
Step3.3、通过实体指称项在构建的领域知识库中搜索,得到相应的候选实体集合;
Step3.4、根据得到的候选实体集合,利用训练好的实体的向量形式,从中选出候选实体的向量形式,最终得到候选实体的向量表达形式;
Step4、对实体指称项进行词扩展和语义排序;
Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式;
Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序,距离之和越小,语义重要性越高;
Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展;
Step5、对语义排序后的实体指称项分别计算候选实体与其本身的相似度以及候选实体与扩展的指称项的相似度,根据此相似度得到目标实体链接;
Step5.1、对Step4得到实体指称项的语义排序,按照语义从高到低分别计算指称项与候选实体的相似度;
Step5.2、分别计算扩展的指称项与候选实体的相似度;
Step5.3、将Step5.1和Step5.2得到的相似度相加,得到最后的相似度,将相似度最高的候选实体作为目标实体链接;
Step6、对实体指称项进行动态实体链接。
2.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理,采用开源的工具包汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别的过程;
Step1.4、选择开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
3.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、人工编写爬虫程序,从维基百科爬取旅游领域资源,保存在文本中;
Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系,然后采用批量导入的方式导入到图数据库Neo4j,构建领域知识库;
所述步骤Step2.1的具体步骤为:
Step2.1.1、深入分析领域属性及行业属性,人工定义领域知识体系,收集领域相关概念种子集合;
Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。
4.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step3.3的具体步骤为:
Step3.3.1、针对每个实体指称项mi,在构建的领域知识库中寻找与之同名实体作为它的候选实体集合Ni={ni1,ni2...};
Step3.3.2、如果领域知识库中没有同名实体,则把相应的实体指称项归为空实体。
5.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step4.2的具体步骤为:
Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项mi与mj的距离,公式表示为:
Figure FDA0003016928790000031
其中n为向量维度;xik为实体指称项mi向量表示的第k维;xjk为实体指称项mj向量表示的第k维;
Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离,计算每个实体与其它实体的距离之和,公式表示为:
Figure FDA0003016928790000032
其中m为指称项个数;dij为实体指称项mi与mj的距离;
Step4.2.3、根据计算得到的di从大到小排序,拥有最小的距离之和的指称项就处于共现实体的中心,则认为它具有最重要的语义相关性,从而得到文本实体指称项的语义相关性。
6.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step4.3的具体步骤为:
Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项与其它实体指称项的距离;
Step4.3.2、选取距离实体指称项mi最近的K个实体指称项作为它的扩展,通过实验,K=2效果最好。
7.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step5.1的具体步骤为:
Step5.1.1、对于某待消歧的实体指称项G,其背景文本经过预处理后,用Step1训练好的词向量模型进行向量的表示,其向量表示为
Figure FDA0003016928790000033
Step5.1.2、对于候选实体,通过Step3.3在领域知识库中获取,经过TransE模型向量表示后为
Figure FDA0003016928790000034
Step5.1.3、实体指称项G和候选实体G候选之间的相似度通过计算
Figure FDA0003016928790000035
Figure FDA0003016928790000036
之间的相似度来计算,相似度计算公式:
Figure FDA0003016928790000041
其中
Figure FDA0003016928790000042
为实体指称项的向量表示;
Figure FDA0003016928790000043
为候选实体的向量表示。
8.根据权利要求1所述的一种基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step5.2的具体步骤为:
Step5.2.1、通过Step4.3得到实体指称项G的扩展词G扩展,用Step1训练好的词向量模型进行向量的表示,其向量表示为
Figure FDA0003016928790000044
Step5.2.2、对于候选实体,通过在领域知识库中获取,经过TransE模型向量表示后为
Figure FDA0003016928790000045
Step5.2.3、实体指称项的扩展词G扩展和候选实体G候选之间的相似度通过计算
Figure FDA0003016928790000046
Figure FDA0003016928790000047
之间的相似度来计算;相似度计算公式:
Figure FDA0003016928790000048
其中
Figure FDA0003016928790000049
为候选实体G候选的向量表示;
Figure FDA00030169287900000410
为实体指称项扩展词G扩展的向量表示。
9.根据权利要求1所述的一种基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step6的具体步骤为:
Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接,使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算;
Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确,然后再动态调整实体链接;
所述步骤Step6.2的具体步骤为:
Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的相似度:
Figure FDA00030169287900000411
其中
Figure FDA00030169287900000412
为实体指称项链接后的无歧义实体的向量表示;
Figure FDA00030169287900000413
为实体指称项的扩展词链接后的无歧义实体的向量表示;
Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的关系指数;如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1;如果没有直接关系,则它们之间的关系指数为0;
Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加,两者之和如果小于阈值,则判断链接错误,重新让相似度第二高的候选实体作为无歧义目标实体,继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值,依次迭代,最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标;其中设定阈值为0.54。
CN201810717561.1A 2018-07-02 2018-07-02 一种基于表示学习的特定领域集成实体链接方法 Active CN108959258B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810717561.1A CN108959258B (zh) 2018-07-02 2018-07-02 一种基于表示学习的特定领域集成实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810717561.1A CN108959258B (zh) 2018-07-02 2018-07-02 一种基于表示学习的特定领域集成实体链接方法

Publications (2)

Publication Number Publication Date
CN108959258A CN108959258A (zh) 2018-12-07
CN108959258B true CN108959258B (zh) 2021-06-18

Family

ID=64485238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810717561.1A Active CN108959258B (zh) 2018-07-02 2018-07-02 一种基于表示学习的特定领域集成实体链接方法

Country Status (1)

Country Link
CN (1) CN108959258B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635297B (zh) * 2018-12-11 2022-01-04 湖南星汉数智科技有限公司 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN109597885A (zh) * 2018-12-11 2019-04-09 福建亿榕信息技术有限公司 一种知识地图构建方法及存储介质
CN110096492A (zh) * 2019-04-26 2019-08-06 北京零秒科技有限公司 基于知识库的操作处理方法及装置
CN110188189B (zh) * 2019-05-21 2021-10-08 浙江工商大学 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
CN110889288A (zh) * 2019-11-18 2020-03-17 量子数聚(北京)科技有限公司 中文实体链接方法以及装置、文本处理方法、设备、存储介质
CN110888946A (zh) * 2019-12-05 2020-03-17 电子科技大学广东电子信息工程研究院 一种基于知识驱动的查询的实体链接方法
CN111428031B (zh) * 2020-03-20 2023-07-07 电子科技大学 一种融合浅层语义信息的图模型过滤方法
CN112330408A (zh) * 2020-11-13 2021-02-05 上海络昕信息科技有限公司 一种产品推荐方法、装置及电子设备
CN112966117A (zh) * 2020-12-28 2021-06-15 成都数之联科技有限公司 实体链接方法
CN112966513B (zh) * 2021-03-05 2023-08-01 北京百度网讯科技有限公司 用于实体链接的方法和装置
CN115759096A (zh) * 2022-11-04 2023-03-07 北京智源人工智能研究院 探测实体链接中空实体的方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN105468780A (zh) * 2015-12-18 2016-04-06 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
CN106055616A (zh) * 2016-05-25 2016-10-26 中山大学 一种基于命名实体的社交网站好友推荐方法
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN105468780A (zh) * 2015-12-18 2016-04-06 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
CN106055616A (zh) * 2016-05-25 2016-10-26 中山大学 一种基于命名实体的社交网站好友推荐方法
CN107765883A (zh) * 2016-08-22 2018-03-06 富士通株式会社 输入法的候选词语的排序方法和排序设备
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于弱监督与表示学习的关系抽取算法研究;刘玉明;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415(第4期);第I138-3818页 *
基于特征加权重叠度的中文实体协同消歧方法;线岩团 等;《中文信息学报》;20170331;第31卷(第2期);第36-41页 *

Also Published As

Publication number Publication date
CN108959258A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959258B (zh) 一种基于表示学习的特定领域集成实体链接方法
CN107861939B (zh) 一种融合词向量和主题模型的领域实体消歧方法
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
Zhai et al. Neural models for sequence chunking
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Zhang et al. Entity linking with effective acronym expansion, instance selection and topic modeling
Zahran et al. Word representations in vector space and their applications for arabic
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN103678576A (zh) 基于动态语义分析的全文检索系统
Woodsend et al. Text rewriting improves semantic role labeling
CN103823857A (zh) 基于自然语言处理的空间信息检索方法
Youssef et al. MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion
Aghaebrahimian et al. Open-domain factoid question answering via knowledge graph search
CN112699018B (zh) 基于软件缺陷关联分析的软件缺陷定位方法
CN108491375B (zh) 基于CN-DBpedia的实体识别与链接系统和方法
Ehsan et al. A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection.
CN116795979A (zh) 一种基于触发词增强的标签信号指导事件检测方法
Du et al. Using entity information from a knowledge base to improve relation extraction
Tezcan et al. UGENT-LT3 SCATE system for machine translation quality estimation
Efremova et al. A hybrid disambiguation measure for inaccurate cultural heritage data
CN113392189B (zh) 基于自动分词的新闻文本处理方法
Saeidi et al. Context-enhanced concept disambiguation in Wikification
Lai et al. An unsupervised approach to discover media frames
Sun et al. Generalized abbreviation prediction with negative full forms and its application on improving chinese web search
Lazemi et al. Persian plagirisim detection using CNN s

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yu Zhengtao

Inventor after: Jiang Shengchen

Inventor after: Guo Jianyi

Inventor after: Xian Yantuan

Inventor after: Wang Hongbin

Inventor before: Guo Jianyi

Inventor before: Jiang Shengchen

Inventor before: Yu Zhengtao

Inventor before: Xian Yantuan

Inventor before: Wang Hongbin

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant