CN108959258B - 一种基于表示学习的特定领域集成实体链接方法 - Google Patents
一种基于表示学习的特定领域集成实体链接方法 Download PDFInfo
- Publication number
- CN108959258B CN108959258B CN201810717561.1A CN201810717561A CN108959258B CN 108959258 B CN108959258 B CN 108959258B CN 201810717561 A CN201810717561 A CN 201810717561A CN 108959258 B CN108959258 B CN 108959258B
- Authority
- CN
- China
- Prior art keywords
- entity
- similarity
- item
- vector
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于表示学习的特定领域集成实体链接方法,属于自然语言处理和深度学习技术领域。本发明包括步骤:首先利用旅游领域的百科语料对词向量模型进行训练;利用旅游领域的百科语料构建领域知识库;利用TransE模型得到候选实体向量;对实体指称项进行词扩展和语义排序;对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度,根据此相似度得到目标实体链接;对实体指称项进行动态实体链接。本发明提高了实体链接的正确率,本发明取得了较好的效果。
Description
技术领域
本发明涉及一种基于表示学习的特定领域集成实体链接方法,属于自然语言处理和深度学习技术领域。
背景技术
实体链接是自然语言处理领域的重要任务之一,该任务通过对文本中多义词的义项加以明确,旨在让实体指称项正确链接到知识库中无歧义的候选实体,为人类和计算机更好理解自然语言信息提供帮助,实体链接的任务针对通用文本,如新闻、网页等,使用的语料库由多个领域的文本构成,然而在实际的应用中,经常需要对某一特定领域的文本进行实体链接,这不仅对领域知识的挖掘具有重要的意义,而且有助于领域知识库的构建、专业文献自动翻译等任务。
发明内容
本发明提供了一种基于表示学习的特定领域集成实体链接方法,以用于解决现有集成实体链接方法实体链接准确率不高,不能将文本信息和现有知识库信息很好结合的问题。
本发明的技术方案是:一种基于表示学习的特定领域集成实体链接方法,所述方法的具体步骤如下:
Step1、首先利用旅游领域的百科语料对词向量模型进行训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理,采用开源的工具包汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料;
Step1.4、选择开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
Step2、利用旅游领域的百科语料构建领域知识库。
所述步骤Step2的具体步骤为:
Step2.1、人工编写爬虫程序,从维基百科爬取旅游领域资源,保存在文本中;
Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系,然后采用批量导入的方式导入到图数据库Neo4j,构建领域知识库;
领域知识库是实体链接任务的支撑,通用领域有现成的知识库,对于特定领域,没有现成可用的知识库,通过半手工构建特定领域知识库,包括领域实体或概念、领域实体层级关系,去除掉重复、无效的信息后,最终以(实体,关系,实体)三元组的形式批量导入图数据库Neo4j中进行管理。
所述步骤Step2.1的具体步骤为:
Step2.1.1、深入分析领域属性及行业属性,人工定义领域知识体系,收集领域相关概念种子集合;
Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。
Step3、利用TransE模型得到候选实体向量;
Step3.1、利用TransE模型对领域知识库中的三元组进行训练,得到所有实体的向量形式;
Step3.2、对待链接的目标文本进行命名实体识别,得到实体指称项;
Step3.3、通过实体指称项在构建的领域知识库中搜索,得到相应的候选实体集合;
在构建特定领域知识库时,对知识库中同名实体采用加后缀标签的方式进行区分,且后缀标签用小括号与实体隔离。例如:香格里拉。在本地知识库中有三个相应实体,分别加上后缀标签地名、酒店、电影,并用小括号进行隔离。如:香格里拉(酒店);
Step3.4、根据得到的候选实体集合,利用训练好的实体向量形式,从中选出候选实体的向量形式,最终得到候选实体的向量表达形式;
Step4、对实体指称项进行词扩展和语义排序;
Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式;
Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序,距离之和最小的,语义重要性越高;
语义排序是根据实体指称项在目标文本中的重要程度进行排序,是为了实体链接任务从语义最重要的实体指称项开始进行链接;词扩展是为了最大程度的利用共现实体,体现集成实体链接的优点。
Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展;
Step5、对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度,根据此相似度得到目标实体链接;
Step5.1、对Step4得到实体指称项的语义排序,按照语义从高到低分别计算指称项与候选实体的相似度;
Step5.2、对Step4得到的扩展词,分别计算指称项的扩展词与候选实体的相似度;
Step5.3、将Step5.1和Step5.2得到的相似度相加,得到最后的相似度,将相似度最高的候选实体作为目标实体链接;
Step6、对实体指称项进行动态实体链接。
所述步骤Step3.3的具体步骤为:
Step3.3.1、针对每个实体指称项mi,在构建的领域知识库中寻找与之同名实体作为它的候选实体集合Ni={ni1,ni2,,,};
Step3.3.2、如果领域知识库中没有同名实体,则把相应的实体指称项归为空实体。
所述步骤Step4.2的具体步骤为:
Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项mi与mj的距离,公式表示为:
其中n为向量维度;xik为实体指称项mi向量表示的第k维;xjk为实体指称项mj向量表示的第k维;
Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离,计算每个实体与其它实体的距离之和,公式表示为:
其中m为指称项个数;dij为实体指称项mi与mj的距离;
Step4.2.3、根据计算得到的di从大到小排序,拥有最小的距离和的指称项就处于共现实体的中心,则认为它具有最重要的语义相关性,从而得到文本实体指称项的语义相关性。
本发明的语义排序是为了实体链接可以从文本中语义最重要的指称项开始,一方面语义重要的指称项更容易消歧,另一方面有助于我们构建动态实体链接系统,语义重要的指称项实体链接后利用它的无歧义实体进行后续的实体链接。
所述步骤Step4.3的具体步骤为:
Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项与其它实体指称项的距离;
Step4.3.2、选取距离实体指称项mi最近的K个实体指称项作为它的扩展,通过实验,K=2效果最好。
本发明的词扩展是为了更好地利用共现实体间的语义相关关系,发挥集成实体链接的最大优势。例如:乔丹,候选实体有:乔丹(篮球运动员)、乔丹(大学教授),当我们计算指称项与候选实体的相似度时,也许差别不大,乔丹的扩展词为实体指称项“公牛”,我们再计算“公牛”与候选实体“乔丹(篮球运动员)”、“乔丹(大学教授)”的相似度,结合词扩展计算相似度可以最大程度区分与各个候选实体的差别。
所述步骤Step5.1的具体步骤为:
所述步骤Step5.2的具体步骤为:
所述步骤Step6的具体步骤为:
Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接,使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算;
Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确,然后再动态调整实体链接;
所述步骤Step6.2的具体步骤为:
Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的相似度:
Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的关系指数;如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1;如果没有直接关系,则它们之间的关系指数为0;
Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加,两者之和如果小于阈值,则判断链接错误,重新让相似度第二高的候选实体作为无歧义目标实体,继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值,依次迭代,最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标;其中设定阈值为0.54。
本发明对实体指称项进行动态实体链接,目前的实体链接都是无重复计算每个实体指称项与其候选实体的相似度,选择一个相似度最高的候选实体进行连接,并没有进一步考虑这个已经连接的目标候实体是对还是错,本文中对实体指称项进行动态实体链接,这样不仅可以利用前面链接过的信息,也可以对前面的链接进行纠错。
本发明的有益效果是:
1、本发明与现有的实体链接方法相比较,提高了实体链接的正确率,本发明取得了较好的效果;
2、本发明的一种基于表示学习的特定领域集成实体链接方法,与现有的实体链接方法相比较,本文在基于表示学习的基础上融合了语义排序和词扩展,能更好的对领域实体进行链接。
3、本发明的一种基于表示学习的特定领域集成实体链接方法,对领域实体进行了链接,为后续工作的实体融合和知识图谱构建等工作提供强有力的支撑。
附图说明
图1为本发明中的总的流程图。
具体实施方式
实施例1:如图1所示,一种基于表示学习的特定领域集成实体链接方法,所述方法的具体步骤如下:
Step1、首先利用旅游领域的百科语料对词向量模型进行训练;
所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
本发明考虑到由于不同的网页结构,爬虫程序中爬取的位置和标签也不同,且没有现成的程序,因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条,旅游网页信息等。
Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理,采用开源的工具包汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别过程;
本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音,这些噪音是无效的。因此,要通过过滤、去噪音等操作去除,得到只含有旅游领域的高质量的文本级语料;
Step1.4、选择开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;
本发明中词向量模型的训练过程,是领域实体消歧的前提与基础,是不可缺少的一步,同时由于中文主要由字符组成,相比英文而言,字符间的语义关系表达比较复杂,因此中文文本表示成词向量时,必须先进行分词处理。使用分词工具进行分词之后,需要人工校对;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
Step2、利用旅游领域的百科语料构建领域知识库。
所述步骤Step2的具体步骤为:
Step2.1、人工编写爬虫程序,从维基百科爬取旅游领域资源,保存在文本中;
Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系,然后采用批量导入的方式导入到图数据库Neo4j,构建领域知识库;
领域知识库是实体链接任务的支撑,通用领域有现成的知识库,对于特定领域,没有现成可用的知识库,通过半手工构建特定领域知识库,包括领域实体或概念、领域实体层级关系,去除掉重复、无效的信息后,最终以(实体,关系,实体)三元组的形式批量导入图数据库Neo4j中进行管理。
所述步骤Step2.1的具体步骤为:
Step2.1.1、深入分析领域属性及行业属性,人工定义领域知识体系,收集领域相关概念种子集合;
Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。
Step3、利用TransE模型得到候选实体向量;
Step3.1、利用TransE模型对领域知识库中的三元组进行训练,得到所有实体的向量形式;
Step3.2、对待链接的目标文本进行命名实体识别,得到实体指称项;
Step3.3、通过实体指称项在构建的领域知识库中搜索,得到相应的候选实体集合;
在构建特定领域知识库时,对知识库中同名实体采用加后缀标签的方式进行区分,且后缀标签用小括号与实体隔离。例如:香格里拉。在本地知识库中有三个相应实体,分别加上后缀标签地名、酒店、电影,并用小括号进行隔离。如:香格里拉(酒店);
Step3.4、根据得到的候选实体集合,利用训练好的实体向量形式,从中选出候选实体的向量形式,最终得到候选实体的向量表达形式;
Step4、对实体指称项进行词扩展和语义排序;
Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式;
Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序,距离之和最小的,语义重要性越高;
语义排序是根据实体指称项在目标文本中的重要程度进行排序,是为了实体链接任务从语义最重要的实体指称项开始进行链接;词扩展是为了最大程度的利用共现实体,体现集成实体链接的优点。
Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展;
Step5、对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度,根据此相似度得到目标实体链接;
Step5.1、对Step4得到实体指称项的语义排序,按照语义从高到低分别计算指称项与候选实体的相似度;
Step5.2、对Step4得到的扩展词,分别计算指称项的扩展词与候选实体的相似度;
Step5.3、将Step5.1和Step5.2得到的相似度相加,得到最后的相似度,将相似度最高的候选实体作为目标实体链接;
Step6、对实体指称项进行动态实体链接。
进一步的,所述步骤Step3.3的具体步骤为:
Step3.3.1、针对每个实体指称项mi,在构建的领域知识库中寻找与之同名实体作为它的候选实体集合Ni={ni1,ni2,,,};
Step3.3.2、如果领域知识库中没有同名实体,则把相应的实体指称项归为空实体。
进一步的,所述步骤Step4.2的具体步骤为:
Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项mi与mj的距离,公式表示为:
其中n为向量维度;xik为实体指称项mi向量表示的第k维;xjk为实体指称项mj向量表示的第k维;
Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离,计算每个实体与其它实体的距离之和,公式表示为:
其中m为指称项个数;dij为实体指称项mi与mj的距离;
Step4.2.3、根据计算得到的di从大到小排序,拥有最小的距离和的指称项就处于共现实体的中心,则认为它具有最重要的语义相关性,从而得到文本实体指称项的语义相关性。
本发明的语义排序是为了实体链接可以从文本中语义最重要的指称项开始,一方面语义重要的指称项更容易消歧,另一方面有助于我们构建动态实体链接系统,语义重要的指称项实体链接后利用它的无歧义实体进行后续的实体链接。
进一步的,所述步骤Step4.3的具体步骤为:
Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项与其它实体指称项的距离;
Step4.3.2、选取距离实体指称项mi最近的K个实体指称项作为它的扩展,通过实验,K=2效果最好。
本发明的词扩展是为了更好地利用共现实体间的语义相关关系,发挥集成实体链接的最大优势。例如:乔丹,候选实体有:乔丹(篮球运动员)、乔丹(大学教授),当我们计算指称项与候选实体的相似度时,也许差别不大,乔丹的扩展词为实体指称项“公牛”,我们再计算“公牛”与候选实体“乔丹(篮球运动员)”、“乔丹(大学教授)”的相似度,结合词扩展计算相似度可以最大程度区分与各个候选实体的差别。
进一步的,所述步骤Step5.1的具体步骤为:
进一步的,所述步骤Step5.2的具体步骤为:
进一步的,所述步骤Step6的具体步骤为:
Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接,使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算;
Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确,然后再动态调整实体链接;
所述步骤Step6.2的具体步骤为:
Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的相似度:
Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的关系指数;如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1;如果没有直接关系,则它们之间的关系指数为0;
Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加,两者之和如果小于阈值,则判断链接错误,重新让相似度第二高的候选实体作为无歧义目标实体,继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值,依次迭代,最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标;其中设定阈值为0.54。
本发明对实体指称项进行动态实体链接,目前的实体链接都是无重复计算每个实体指称项与其候选实体的相似度,选择一个相似度最高的候选实体进行连接,并没有进一步考虑这个已经连接的目标候实体是对还是错,本文中对实体指称项进行动态实体链接,这样不仅可以利用前面链接过的信息,也可以对前面的链接进行纠错。
为了验证本发明实体链接的效果,将采用统一的评价标准:正确率(Precision)衡量本发明的性能。
本发明为了验证该发明的有效性、可行性设计以下几组实验进行验证:
实验一:不同相似度特征组合的实验对比。以验证在实际实体链接任务中,词向量表示、语义排序、词扩展、动态实体链接系统对实体相似度计算的贡献程度不同,对实体链接的结果也有不同影响。本实验通过依次加入不同特征进行对比实验,结果如表1所示:
表1
实验结果分析:通过以上实验数据,词扩展对实体链接的作用比语义排序更大,增加的动态连接系统相比于传统的实体链接有明显效果。
实验二:对于词扩展,选取了n个词作为实体指称项的词扩展,以验证词的数量n对结果的影响。本实验就扩展词个数n的确定做了5组实验,分布测试n在取 1,2,3,4时对实体链接准确率的影响,结果如表2所示;
表2
词扩展个数 | 准确率 |
1 | 0.52 |
2 | 0.74 |
3 | 0.61 |
4 | 0.65 |
实验结果分析:通过选取不同的词扩展个数确定了最佳的词扩展个数,实验结果表明,词扩展个数为2时效果最好。
实验三:为了验证本文提出方法的可行性,将本文的方法与其他几种主流实体链接方法进行比较;
表3本文方法与其他方法的比较
方法名 | 准确率(%) |
Wikify | 70.2 |
Cucerzan | 75.3 |
SVM[15] | 82.5 |
本文的方法 | 82.6 |
实验结果分析:通过与主流方法的比较,本文提出的方法在准确率上达到了较高水平,证明了本方法在对特定领域实体链接任务的可行性。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (9)
1.一种基于表示学习的特定领域集成实体链接方法,其特征在于:所述方法的具体步骤如下:
Step1、首先利用旅游领域的百科语料对词向量模型进行训练;
Step2、利用旅游领域的百科语料构建领域知识库;
Step3、利用TransE模型得到候选实体向量;
Step3.1、利用TransE模型对领域知识库中的三元组进行训练,得到所有实体的向量形式;
Step3.2、对待链接的目标文本进行命名实体识别,得到实体指称项;
Step3.3、通过实体指称项在构建的领域知识库中搜索,得到相应的候选实体集合;
Step3.4、根据得到的候选实体集合,利用训练好的实体的向量形式,从中选出候选实体的向量形式,最终得到候选实体的向量表达形式;
Step4、对实体指称项进行词扩展和语义排序;
Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式;
Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序,距离之和越小,语义重要性越高;
Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展;
Step5、对语义排序后的实体指称项分别计算候选实体与其本身的相似度以及候选实体与扩展的指称项的相似度,根据此相似度得到目标实体链接;
Step5.1、对Step4得到实体指称项的语义排序,按照语义从高到低分别计算指称项与候选实体的相似度;
Step5.2、分别计算扩展的指称项与候选实体的相似度;
Step5.3、将Step5.1和Step5.2得到的相似度相加,得到最后的相似度,将相似度最高的候选实体作为目标实体链接;
Step6、对实体指称项进行动态实体链接。
2.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、从维基百科的中文离线数据库,提取旅游分类下的页面信息,并提取页面的摘要信息,保存在文本中;
Step1.2、人工编写爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,与维基的文本进行结合;
Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理,采用开源的工具包汉语词法分析系统ICTCLAS完成,包括分词、词性标注、去停用词和命名实体识别的过程;
Step1.4、选择开源工具包word2vec,采用Skip-gram模型对预处理后的语料进行词向量模型训练;
所述步骤Step1.3的具体步骤为:
Step1.3.1、对爬取的网页文本信息进行有效的过滤,去无效字符和网页;
Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作;
Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。
3.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、人工编写爬虫程序,从维基百科爬取旅游领域资源,保存在文本中;
Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系,然后采用批量导入的方式导入到图数据库Neo4j,构建领域知识库;
所述步骤Step2.1的具体步骤为:
Step2.1.1、深入分析领域属性及行业属性,人工定义领域知识体系,收集领域相关概念种子集合;
Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。
4.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step3.3的具体步骤为:
Step3.3.1、针对每个实体指称项mi,在构建的领域知识库中寻找与之同名实体作为它的候选实体集合Ni={ni1,ni2...};
Step3.3.2、如果领域知识库中没有同名实体,则把相应的实体指称项归为空实体。
5.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step4.2的具体步骤为:
Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项mi与mj的距离,公式表示为:
其中n为向量维度;xik为实体指称项mi向量表示的第k维;xjk为实体指称项mj向量表示的第k维;
Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离,计算每个实体与其它实体的距离之和,公式表示为:
其中m为指称项个数;dij为实体指称项mi与mj的距离;
Step4.2.3、根据计算得到的di从大到小排序,拥有最小的距离之和的指称项就处于共现实体的中心,则认为它具有最重要的语义相关性,从而得到文本实体指称项的语义相关性。
6.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step4.3的具体步骤为:
Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式,利用实体指称项的向量表示,计算实体指称项与其它实体指称项的距离;
Step4.3.2、选取距离实体指称项mi最近的K个实体指称项作为它的扩展,通过实验,K=2效果最好。
9.根据权利要求1所述的一种基于表示学习的特定领域集成实体链接方法,其特征在于:所述步骤Step6的具体步骤为:
Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接,使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算;
Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确,然后再动态调整实体链接;
所述步骤Step6.2的具体步骤为:
Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的相似度:
Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体,计算实体指称项与其词扩展链接后的无歧义实体的关系指数;如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1;如果没有直接关系,则它们之间的关系指数为0;
Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加,两者之和如果小于阈值,则判断链接错误,重新让相似度第二高的候选实体作为无歧义目标实体,继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值,依次迭代,最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标;其中设定阈值为0.54。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810717561.1A CN108959258B (zh) | 2018-07-02 | 2018-07-02 | 一种基于表示学习的特定领域集成实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810717561.1A CN108959258B (zh) | 2018-07-02 | 2018-07-02 | 一种基于表示学习的特定领域集成实体链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108959258A CN108959258A (zh) | 2018-12-07 |
CN108959258B true CN108959258B (zh) | 2021-06-18 |
Family
ID=64485238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810717561.1A Active CN108959258B (zh) | 2018-07-02 | 2018-07-02 | 一种基于表示学习的特定领域集成实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959258B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635297B (zh) * | 2018-12-11 | 2022-01-04 | 湖南星汉数智科技有限公司 | 一种实体消歧方法、装置、计算机装置及计算机存储介质 |
CN109597885A (zh) * | 2018-12-11 | 2019-04-09 | 福建亿榕信息技术有限公司 | 一种知识地图构建方法及存储介质 |
CN110096492A (zh) * | 2019-04-26 | 2019-08-06 | 北京零秒科技有限公司 | 基于知识库的操作处理方法及装置 |
CN110188189B (zh) * | 2019-05-21 | 2021-10-08 | 浙江工商大学 | 一种基于知识的自适应事件索引认知模型提取文档摘要的方法 |
CN110889288A (zh) * | 2019-11-18 | 2020-03-17 | 量子数聚(北京)科技有限公司 | 中文实体链接方法以及装置、文本处理方法、设备、存储介质 |
CN110888946A (zh) * | 2019-12-05 | 2020-03-17 | 电子科技大学广东电子信息工程研究院 | 一种基于知识驱动的查询的实体链接方法 |
CN111428031B (zh) * | 2020-03-20 | 2023-07-07 | 电子科技大学 | 一种融合浅层语义信息的图模型过滤方法 |
CN112330408A (zh) * | 2020-11-13 | 2021-02-05 | 上海络昕信息科技有限公司 | 一种产品推荐方法、装置及电子设备 |
CN112966117A (zh) * | 2020-12-28 | 2021-06-15 | 成都数之联科技有限公司 | 实体链接方法 |
CN112966513B (zh) * | 2021-03-05 | 2023-08-01 | 北京百度网讯科技有限公司 | 用于实体链接的方法和装置 |
CN115759096A (zh) * | 2022-11-04 | 2023-03-07 | 北京智源人工智能研究院 | 探测实体链接中空实体的方法、装置和电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN105468780A (zh) * | 2015-12-18 | 2016-04-06 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN106055616A (zh) * | 2016-05-25 | 2016-10-26 | 中山大学 | 一种基于命名实体的社交网站好友推荐方法 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
CN107765883A (zh) * | 2016-08-22 | 2018-03-06 | 富士通株式会社 | 输入法的候选词语的排序方法和排序设备 |
-
2018
- 2018-07-02 CN CN201810717561.1A patent/CN108959258B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462126A (zh) * | 2013-09-22 | 2015-03-25 | 富士通株式会社 | 一种实体链接方法及装置 |
CN105468780A (zh) * | 2015-12-18 | 2016-04-06 | 北京理工大学 | 一种微博文本中产品名实体的规范化方法及装置 |
CN106055616A (zh) * | 2016-05-25 | 2016-10-26 | 中山大学 | 一种基于命名实体的社交网站好友推荐方法 |
CN107765883A (zh) * | 2016-08-22 | 2018-03-06 | 富士通株式会社 | 输入法的候选词语的排序方法和排序设备 |
CN107463607A (zh) * | 2017-06-23 | 2017-12-12 | 昆明理工大学 | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 |
Non-Patent Citations (2)
Title |
---|
基于弱监督与表示学习的关系抽取算法研究;刘玉明;《中国优秀硕士学位论文全文数据库信息科技辑》;20180415(第4期);第I138-3818页 * |
基于特征加权重叠度的中文实体协同消歧方法;线岩团 等;《中文信息学报》;20170331;第31卷(第2期);第36-41页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959258A (zh) | 2018-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959258B (zh) | 一种基于表示学习的特定领域集成实体链接方法 | |
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
Zhai et al. | Neural models for sequence chunking | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
Zhang et al. | Entity linking with effective acronym expansion, instance selection and topic modeling | |
Zahran et al. | Word representations in vector space and their applications for arabic | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
Woodsend et al. | Text rewriting improves semantic role labeling | |
CN103823857A (zh) | 基于自然语言处理的空间信息检索方法 | |
Youssef et al. | MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion | |
Aghaebrahimian et al. | Open-domain factoid question answering via knowledge graph search | |
CN112699018B (zh) | 基于软件缺陷关联分析的软件缺陷定位方法 | |
CN108491375B (zh) | 基于CN-DBpedia的实体识别与链接系统和方法 | |
Ehsan et al. | A Pairwise Document Analysis Approach for Monolingual Plagiarism Detection. | |
CN116795979A (zh) | 一种基于触发词增强的标签信号指导事件检测方法 | |
Du et al. | Using entity information from a knowledge base to improve relation extraction | |
Tezcan et al. | UGENT-LT3 SCATE system for machine translation quality estimation | |
Efremova et al. | A hybrid disambiguation measure for inaccurate cultural heritage data | |
CN113392189B (zh) | 基于自动分词的新闻文本处理方法 | |
Saeidi et al. | Context-enhanced concept disambiguation in Wikification | |
Lai et al. | An unsupervised approach to discover media frames | |
Sun et al. | Generalized abbreviation prediction with negative full forms and its application on improving chinese web search | |
Lazemi et al. | Persian plagirisim detection using CNN s |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Yu Zhengtao Inventor after: Jiang Shengchen Inventor after: Guo Jianyi Inventor after: Xian Yantuan Inventor after: Wang Hongbin Inventor before: Guo Jianyi Inventor before: Jiang Shengchen Inventor before: Yu Zhengtao Inventor before: Xian Yantuan Inventor before: Wang Hongbin |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |