CN110569496B - 实体链接方法、装置及存储介质 - Google Patents
实体链接方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110569496B CN110569496B CN201810576250.8A CN201810576250A CN110569496B CN 110569496 B CN110569496 B CN 110569496B CN 201810576250 A CN201810576250 A CN 201810576250A CN 110569496 B CN110569496 B CN 110569496B
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- candidate
- context
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种实体链接的方法、装置及存储介质,其中所述方法中,首先确定输入文本中的提及词,然后从所述知识库中获取每个所述提及词对应的所有候选实体,以及各所述候选实体的上个下文信息,然后通过确定每个所述提及词的所有输入上下文,以确定各所述候选实体的所有目标上下文和各所述目标上下文的等级,从而基于各候选实体的各个目标上下文等级,确定每个所述提及词的链接实体,通过上述方式,可以有效地对候选实体进行消歧,可以提高实体链接的准确性。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种实体链接方法、装置及存储介质。
背景技术
随着互联网的迅猛发展,网络信息不断增加,越来越多用户通过互联网的搜索功能获取自己需要的信息,比如购物、视频、新闻资讯等网站都提供有搜索服务,用户可以在各网站的搜索框内输入搜索内容来获取相关信息。
实体链接技术可用于信息检索、语义化搜索、知识库构建等应用领域,实体链接是指将自然语言文本中的提及词(也即实体名称)链接到知识库中的目标实体的过程,一个实体表达了通常意义下无歧义的一个概念,例如水果中的苹果是一个无歧义的实体。然而,同一个实体名称可能指代不同的实体,例如实体名称“苹果”可以指代水果中的“苹果”,也可以指代“苹果公司”,因此,在实体链接中有必要进行实体消歧,以在候选实体中选出与输入文本语境最符合的实体。
发明内容
本发明实施例提供一种实体链接方法、装置及存储介质,能够有效地对实体链接中的实体进行消歧,提高实体链接的准确性。
本发明实施例提供一种实体链接的方法,包括:
根据知识库中的实体名称,确定输入文本中的提及词;
从所述知识库中获取每个所述提及词对应的所有候选实体以及各所述候选实体的上下文信息;
根据所述提及词和/或所述输入文本中除所述提及词之外的其他分词,确定每个所述提及词的所有输入上下文;
根据每个所述提及词的所有输入上下文、以及每个所述提及词对应的各所述候选实体的上下文信息,确定各所述候选实体的所有目标上下文和各所述目标上下文的等级;
基于每个所述提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个所述提及词的链接实体。
本发明实施例还提供一种实体链接的装置,包括:
第一确定模块,用于根据知识库中的实体名称,确定输入文本中的提及词;
第一获取模块,用于从所述知识库中获取每个所述提及词对应的所有候选实体以及各所述候选实体的上下文信息;
第二确定模块,用于根据所述提及词和/或所述输入文本中除所述提及词之外的其他分词,确定每个所述提及词的所有输入上下文;
第三确定模块,用于根据每个所述提及词的所有输入上下文、以及每个所述提及词对应的各所述候选实体的上下文信息,确定各所述候选实体的所有目标上下文和各所述目标上下文的等级;
第四确定模块,用于基于每个所述提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个所述提及词的链接实体。
本发明实施例还提供一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述所述的实体链接的方法中的步骤。
本发明的实体链接方法中,根据提及词和输入文本中的其他分词确定各提及词的输入上下文,进而确定提及词对应的各候选实体的目标上下文以及各目标上下文的等级,从而基于各目标上下文的等级确定每个提及词的链接实体,通过充分利用输入文本中的每个词来确定提及词的上下文,以获得候选实体的目标上下文,并通过等级来区分目标上下文的重要性,从而可以有效地对候选实体进行消歧,提高提及词的实体链接的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的实体链接的方法的场景示意图;
图2是本发明实施例提供的实体链接的方法的流程图;
图3是本发明实施例提供的实体链接的方法中,知识库中的实体名称的存储方式示意图;
图4是本发明实施例提供的实体链接的方法中,对输入文本进行词切分的示意图;
图5是本发明实施例提供的实体链接的方法中,分词树的示意图;
图6是利用本发明实施例提供的实体链接方法进行搜索和利用传统搜索技术进行搜索的一搜索结果对比图;
图7是利用本发明实施例提供的实体链接方法进行搜索和利用传统搜索技术进行搜索的另一搜索结果对比图;
图8是本发明实施例提供的实体链接的装置一结构示意图;
图9是本发明实施例提供的实体链接的装置另一结构示意图;
图10是本发明实施例提供的实体链接的装置又一结构示意图;
图11是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种实体链接的方法、装置及存储介质。其中,该实体链接装置可以集成在服务器等设备中。
例如,参阅图1,用户在通过手机、电脑等终端输入搜索内容后,终端通过网络将用户的输入文本传输给该实体链接装置,该实体链接装置可以用于根据知识库中的实体名称,确定输入文本中的提及词;从知识库中获取每个提及词对应的所有候选实体以及各候选实体的上下文信息,然后根据提及词和/或输入文本中除提及词之外的其他分词,确定每个提及词所有输入上下文,并根据每个提及词的所有输入上下文、以及每个提及词对应的各候选实体的上下文信息,确定各所述候选实体的所有目标上下文和各所述目标上下文的等级,之后基于每个提及词对应的所有候选实体的各目标上下文的等级,确定每个提及词的链接实体,通过上述方式,本发明通过充分利用输入文本中的每个词来确定提及词的上下文,并通过等级来区分目标上下文的重要性,从而可以有效地对候选实体进行消歧,提高提及词的实体链接的准确性。
其中,本发明实施例的实体链接方法可以应用于各种搜索领域,比如购物网站的商品搜索、小说网站的小说搜索以及视频网站的视频搜索,等等。在对本发明的实体链接过程进行介绍之前,先对本发明的知识库进行说明,其中对于不同的搜索领域知识库中的内容可以不相同。以视频搜索领域为例,本发明实施例的知识库中记录的实体主要包括人名、角色、电影、电视剧、综艺节目、动漫、少儿、语言、地区、语意标签以及年份等类型的实体,实体即是指URL(Uniform Resource Locator,统一资源定位符)。每一类型的实体可以使用若干属性字段进行描述,不同类型的实体其属性字段可能不同,比如,人名类的实体可以有如下属性信息:实体ID、姓名、别名、性别、身高、体重、血型、星座、学校、生日、出生地、职业、兴趣、简介等;而视频类实体比如电影、电视剧、综艺节目等可以有如下属性信息:实体ID、主名、别名、系列名、制片地区、语言、相关人员列表(包括导演、主演等)、角色列表、频道、类型、年份、语义标签、简介等。其中实体ID是实体的唯一标识,比如可以直接是实体的URL地址,表示的是唯一的无歧义的实体链接,或者可以是与实体的URL地址对应的标识符号。其中,知识库中每个实体的属性字段至少包括实体ID和名字字段。另外,知识库中还可以设置关于实体的好友关系、搭档关系、导演关系等各种关系信息。
以下将分别进行详细说明。
第一实施例、
本实施例将从服务器的角度进行说明,并且以视频搜索为例进行描述。
参阅图2,本实施例实体链接的方法可以包括步骤201~205。其中,在步骤201之前,可以先对知识库中的实体数据进行预处理,如建立知识库中实体名称与对应实体之间的映射关系,以及对各实体进行上下文挖掘,具体可以包括如下步骤:
(11)确定知识库中每个实体对应的实体名称。
遍历知识库中的每个实体,可以得到每个实体对应的所有实体名称。一个实体可能对应多个实体名称,一个实体名称也可能对应多个实体。
(12)根据知识库中每个实体的佩奇排名值,获取每个实体的先验值,并建立每个实体名称与对应实体、对应实体的先验值之间的映射关系。
其中,实体的先验值越大,表示在没有上下文时,该实体作为实体名称对应的实体的可能性就越大。每个实体的先验值可以通过公式计算得到,prior表示先验值,pr为利用pagerank算法计算得到的pagerank值,也即佩奇排名值,pagerank算法是Google(谷歌公司)研发的主要应用于评估网站可靠度和重要性的一种算法,是进行网页排名的考量指标之一,其中,当一个网页被更多网页所链接时,其排名会越靠前,并且当一个网页被排名高的网页所链接时,其排名也对应提高。因此,pagerank算法的计算模型主要是:一个网页的排名等于所有链接到该网页的其他网页的加权排名之和。
基于上述先验值的计算公式,本实施例对于视频类实体和人名类实体的先验值进一步可以根据其他参数进行计算,视频类实体比如可以是电影实体、电视剧实体或者综艺节目实体,等等,人名类实体比如可以是某个明星的名字、某部电视剧中主演的名字,等等。
其中,当知识库中的实体为视频类实体时,根据视频类实体的佩奇排名值、流行度、总播放量、预设时间内的播放量以及预设的权重因子,获取视频类实体的先验值。具体可以通过如下公式进行计算:
其中,pp表示流行度,可以通过获取预定网站中全网用户对视频类实体的评论数而得到,比如对于某一个视频类实体,可以通过获取豆瓣网上的豆瓣用户对该视频类实体的评论数而得到该视频类实体的流行度。avc表示视频类实体在视频网站中的总播放量,yvc表示视频类实体在视频网站中在预设时间内的播放量,该预设时间为当前时刻之前的历史时间,比如可以是相对于当前时刻而言的前一天,即预设时间内的播放量为昨日播放量,或者在其他实施方式中,预设时间内的播放量也可以是当前时刻的前两天、前七天内的播放量。λ和γ为预设的权重因子,取值范围可以在0~1之间,α的取值为小于或等于0.5。
其中,当知识库中的实体为人名类实体时,根据人名类实体的佩奇排名值和流行度,获取人名类实体的先验值,具体可以通过如下公式进行计算:
其中,对于人名类实体,流行度pp可以通过获取人名类实体在预订网站中的粉丝数而得到,比如可以通过获取人名类实体在豆瓣网上的粉丝数得到该人名类实体的流行度,或者也可以通过获取人名类实体在微博上的粉丝数得到。
获取预设知识库中每个实体的先验值后,可以建立预设知识库中每个实体名称与对应实体、对应实体的先验值之间的映射关系,也就是将每个实体名称对应的所有实体、所对应的所有实体的先验值建立对应关系,从而生成实体的字典数据。字典数据可以以前缀树的结构进行存储,譬如,先将实体名称进行分词,其中分词方式可以有多种,比如可以根据动词、名词等属性进行划分,或者也可以采用统计分词方法、字符串匹配的分词方法进行分词。对每个实体名称进行分词后,再构建前缀树,其中前缀树中的每一条从根节点到叶子节点的完整路径表示一个实体名称,每一条完整路径指向一段内存,该段内存存储的是该条完整路径的实体名称所对应的所有实体以及这些实体的先验值。
例如,如图3所示,图3示意出了实体名称“非诚勿扰”和“非常1+1”的树结构,如“非诚勿扰”分词后得到“非”、“诚”、“勿扰”三个分词,三个分词从前缀树的根节点到叶子节点依次进行存放,该三个分词组成的一条路径指向存储有“非常勿扰”该实体名称所对应的所有实体以及实体的先验值。
(13)根据知识库中每个实体的属性信息,获取每个实体的预设上下文,并设置预设上下文的等级,并建立每个实体与对应预设上下文、对应预设上下文的等级之间的映射关系。
在知识库中,每个实体都有相应的属性信息,比如对于某一部电影实体,其属性信息可以包括实体名称、导演、主演、角色列表、语言,等等。实体的预设上下文可以直接从属性信息中获取,比如每一个属性信息可以是对应实体的一个预设上下文,如导演可以作为一部电影实体的一个预设上下文,或者可以是多个属性信息的组合作为对应实体的一个预设上下文,如导演+主演可以作为电影实体的一个预设上下文。当然,还可以在属性信息的基础上,获取实体的其他上下文,例如可以获取与属性信息相关联的其他信息作为实体的上下文。在获取实体的预设上下文后,设置各个预设上下文的等级,即按照预设上下文的重要性对每个实体的预设上下文进行等级分类。预设上下文的等级划分原则是在这个上下文和实体名称同时出现时,该实体名称对应的实体被确定的程度。
其中,预设上下文的等级数量可以根据实际需要进行设定,本实施例中,预设上下文的等级数量有1-5级,其中等级数字越大,级别越低,相应级别的预设上下文的可起的作用也就越低,即实体被确定的程度越低,即实体名称在和该级别的上下文同时出现时,该实体名称对应的实体难以确定是哪一个,准确度不高。
比如,以视频类实体的预设上下文等级为例,相关人员列表(导演、主演等)和角色列表这两个属性字段中的每一项具体内容均为视频类实体的一个上下文,如男主演和女主演各为一个上下文,角色列表中的每个角色也为一个上下文。当搜索内容中同时包含了一个视频类实体的实体名称和该视频类实体的相关人员或角色时,则该视频类实体的实体名称将会被极大概率地唯一确定下来。例如,当搜索内容中同时出现“葛优非常勿扰”,而葛优为电影实体“非诚勿扰”这部电影的演员,因此用户使用搜索内容“葛优非诚勿扰”进行搜索的目的极大可能是寻找电影“非诚勿扰”,也就是搜索内容中的实体名称“非诚勿扰”极大是指电影“非诚勿扰”,而不是指综艺节目“非诚勿扰”。
因此,在视频类实体中,将相关人员列表和角色列表中的每一项内容设置为视频类实体的第1级别的预设上下文,也为最高级别的上下文,表明该预设上下文对于实体确定可起的作用越大。
在视频类实体中,实体的系列名、制片地区、语言、类型这四个属性字段的内容设置为第2级别的预设上下文。当搜索内容中同时包含实体名称和第2级别的预设上下文时,可以确定搜索目的是为了寻找视频类型的实体,可以在一定程度上限定视频类实体的范围,只是相对于第1级别的预设上下文而言不具有非常强烈的明确性。
视频类实体中,实体的年份和语义标签这两个属性字段的内容可以设置为第3级别的预设上下文,而频道属性字段的内容则可以设置为第4级别的预设上下文,而对于从视频类实体的简介字段通过分词而得到的内容则设置为第5级别的预设上下文,也为最低级别的上下文。
通过上述类似的方法,可以对知识库中各个实体的预设上下文进行等级划分,并建立每个实体和对应预设上下文、以及预设上下文的等级之间的映射关系。
通过上述方式,根据实体名称和实体之间的映射关系,可以得到知识库中每个实体名称对应的所有实体以及各个所有实体的先验值,根据每个实体和预设上下文之间的映射关系,可以确定知识库中每个实体的所有预设上下文以及各个预设上下文的等级。
如图2所示,本实施例实体链接的方法包括:
201、根据知识库中的实体名称,确定输入文本中的提及词。
例如,当用户在一个视频网站中进行视频搜索时,通过获取用户在视频网站的搜索框中输入的搜索内容以获取输入文本,因此本发明实施例的输入文本可以是用户的搜索串等类型的短文本,当然也可以是如视频文档等长文本。提及词也即输出文本中出现的实体名称。确定输入文本中的提及词,也即确定输入文本中所提及的实体名称。在本步骤中,主要是基于知识库中的实体名称和实体之间的映射关系对输入文本进行命名实体识别。具体地,确定输入文本中的提及词可以包括如下步骤:
(21)对输入文本进行词切分,以获取输入文本的多个分词。
比如,可以根据动词、名词等词性对输入文本进行词切分,或者还可以通过基于字符串匹配等其他方法进行词划分,从而将输入文本划分为多个分词。其中,为了更准确地识别输入文本中的出现的实体名称,本实施例,可以采用多种方式分别对输入文本进行切分,比如可以先根据词性对输入文本进行词切分,然后在基于字符串匹配方法对输入文本进行词切分,从而多种词切分方式分别对输入文本进行切分后,得到输入文本的多个分词。其中对输入文本的词切分次数可以根据实际需要进行设定,可以是采取两种或三种等词切分方式分别对输入文本进行切分。
例如,如图4所示,输入文本例如为“你的名字国语版”,输入文本可以切分为“你”、“的”、“名字”、“国语”和“版”,也可以切分为“你”、“的”、“名字国语”和“版”,还可以切分为“你的名字”和“国语版”。因此,最终得到输入文本的多个分词为“你”、“的”、“名字”、“国语”、“版”、“名字国语”、“你的名字”以及“国语版”。
(22)将多个分词逐一与知识库中的实体名称进行匹配。
其中,知识库中关于实体名称的前缀树中的一条从根节点到叶子节点的完整路径即表示一个完整的实体名称。将输入文本切分得到的每个分词和知识库中的实体名称进行匹配,当在知识库中匹配到与分词相同的实体名称时,则该分词和知识库中的实体名称匹配成功,若知识库中不存在与分词相同的实体名称,则该分词匹配失败。
(23)根据多个分词在输入文本中的位置,构建至少一棵分词树,其中多个分词按照在输入文本中的位置、从分词树的根节点至至子节点依次进行存放,同一棵分词树的父节点和子节点的分词不存在重叠,且同一棵分词树的父节点下的任意两个子节点的分词存在重叠。
其中,每棵分词树的根节点均是用于存放输入文本的第一个分词,比如对于上述“你的名字国语版”,通过三种方式切分后,第一个分词包括“你”和“你的名字”,因此“你的名字国语版”可以构成两棵分词树,两棵分词树的根节点分别存放分词“你”和“你的名字”。其中,分词树的每一条根节点到子节点的完整路径均为输入文本的完整内容,父节点和子节点的分词不存在重叠,父节点下的任意两个子节点的分词都有重叠。
譬如,如图5所示,对输入文本的多个分词“你”、“的”、“名字”、“国语”、“版”、“名字国语”、“你的名字”以及“国语版”构建分词树,最终得到两棵分词树。第一棵分词树的根节点为分词“你”,在该分词树中,比如父节点“的”下属的两个子节点为“名字”和“名字国语”,该两个分词存在重叠部分,即“名字”,两棵分词树的每一条从根节点到子节点的完整路径均表示出了完整的“你的名字国语版”。
(24)在至少一棵分词树中,确定从根节点到子节点的最短完整路径。
其中,在所有分词树中,确定一条从根节点到子节点的最短完整路径,即能够表示出完整的输入文本且最短的路径。例如,如图5所示,在“你的名字国语版”的分词树中,从图中可知,由根节点“你的名字”和子节点“国语版”构成的完整路径最短,因此该条路径为最短完整路径。
(25)将匹配成功且位于最短完整路径中的分词确定为输入文本的提及词。
本实施例中,在步骤(22)中可得到与知识库中的实体名称匹配成功的分词,例如,对于“你的名字国语版”的多个分词“你”、“的”、“名字”、“国语”、“版”、“名字国语”、“你的名字”以及“国语版”,经过与知识库中的实体名称进行匹配之后,匹配成功的分词有“你”、“名字”、“国语”、“版”、“名字国语”、“你的名字”以及“国语版”,通过对匹配成功的分词进行筛选,即只选取位于分词树中的最短完整路径中的分词确定为输入文本的提及词,从而可以获得输入文本中的最有效的实体名称,因此,“你的名字国语版”中的提及词最终确定为“你的名字”和“国语版”这两个。
当然,在其他实施例中,也可以是直接将与知识库中的实体名称匹配成功的分词均确定为输入文本的提及词。
202、从知识库中获取每个提及词对应的所有候选实体以及各候选实体的上下文信息。
其中,本实施例中,当至少有两个提及词和/或输入文本中存在除提及词之外的其他分词时,从知识库中获取每个提及词对应的所有候选实体以及各候选实体的上下文信息。各候选实体的上下文信息包括候选实体的预设上下文以及各预设上下文的等级。
具体地,在确定输入文本中的提及词后,当提及词的数量有至少两个,或者输入文本中除了所有提及词之外还存在其他分词,或者提及词的数量有至少两个且也输入文本也存在其他分词,其中该其他分词是指没有出现在任何一个提及词中的分词,此时可以根据知识库中的实体名称与其所对应的所有实体之间的映射关系,从知识库中获取每个提及词对应的所有候选实体,并获取各候选实体的预设上下文以及预设上下文的等级。其中提及词对应的候选实体也即知识库中与提及词匹配成功的实体名称所对应的实体,各候选实体的预设上下文即为与提及词匹配成功的实体名称所对应的实体的预设上下文。
203、根据提及词和/或输入文本中除提及词之外的其他分词,确定每个提及词的所有输入上下文。
其中,可以包括如下步骤:
(31)获取输入文本中除提及词之外的所有其他分词。当输入文本中除了提及词之外,还存在其他分词,获取该所有其他分词。
(32)对于任意一个提及词,将其他提及词和所有其他分词,确定为该任意一个提及词的所有输入上下文,其中一个其他提及词或一个其他分词对应为一个输入上下文。
本实施例中,在步骤201之后,假设输入文本中共有k个提及词(m1,m2,...,mk)和h个其他分词(t1,t2,...,th),则对于任意一个提及词mi,将除了提及词mi之外的(k-1)个其他提及词以及h个其他分词均确定为提及词mi的输入上下文,由此得到提及词mi的所有输入上下文,即提及词mi的所有输入上下文均为除了提及词mi之外的(k-1)个其他提及词以及h个其他分词。其中,可以将一个该其他提及词作为一个输入上下文,以及将一个其他分词作为一个输入上下文,从而提及词mi的输入上下文有(k-1+h)个。
204、根据每个提及词的所有输入上下文、以及每个提及词对应的各候选实体的上下文信息,确定各候选实体的所有目标上下文和各目标上下文的等级。
本发明实施例中,目标上下文的等级用于指示提及词在结合相应目标上下文时对应的链接实体被确定的程度。目标上下文的等级和知识库中各实体的预设上下文的等级的意义是相类似的,用于表明在该目标上下文与提及词同时出现时,该提及词对应的候选实体被确定的程度。
其中,根据知识库中的各个实体和各实体的所有预设上下文、每个预设上下文的等级之间的映射关系,确定提及词对应的各候选实体的目标上下文及目标上下文的等级。具体地,对于任意一个提及词,将每个提及词的所有输入上下文逐一与该提及词对应的各候选实体的所有预设上下文进行匹配,例如,一个提及词对应的候选实体有3个,将该提及词的每个输入上下文分别与该3各候选实体对应的所有预设上下文进行匹配,匹配的过程为判断候选实体的预设上下文中是否存在与输入上下文相同的预设上下文。
当某个候选实体中存在和输入上下文相同的预设上下文时,则匹配成功,将匹配成功的输入上下文确定为该对应候选实体的目标上下文,并将与该输入上下文匹配成功的预设上下文的等级确定该目标上下文的等级。
205、基于每个提及词对应的所有候选实体的各目标上下文的等级,确定每个所述提及词的链接实体。
具体地,可以包括如下步骤:从知识库中获取每个提及词对应的各候选实体的先验值,根据每个提及词对应的各候选实体的先验值和各个目标上下文的等级,获取每个提及词对应的各个候选实体的分值,然后根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体。
其中,各候选实体的先验值即为与提及词匹配成功的实体名称所对应的实体的先验值。
其中,可以预先设置各个级别的目标上下文对应的分值,其中可以是等级越高对应的分值越大,比如第1级别的目标上下文对应的分值可以是10分,第2级别的目标上下文对应的分值可以是8分、第3级别的目标上下文对应的分值可以是6分,等等。
具体地,获取每个提及词对应的各个候选实体分值,可以包括如下步骤:
(41)根据各候选实体的各个目标上下文的等级,确定各候选实体的各个目标上下文对应的分值,其中目标上下文的等级越高,对应的分值越大,提及词在结合相应目标上下文时对应的链接实体被确定的程度也越大。
根据各个等级对应的预设的分值,从而可以根据各目标上下文的等级确定各个目标上下文对应的分值。
(42)对每个候选实体的各个目标上下文对应的分值进行求和,得到上下文累积分值。
对于每个提及词的每个候选实体,将每个候选实体的各个目标上下文对应的分值进行相加,从而得到每个候选实体的上下文累积分值。
(43)获取每个候选实体的上下文累积分值和先验值的平均值,得到每个候选实体的分值。
其中,可以直接对每个候选实体的上下文累积分值和先验值进行求和再平均,以得到平均值。或者在另一种实施例中,获取上下文累计分值和先验值的平均值还可以包括:根据预设权重,对每个候选实体的上下文累积分值和先验值进行加权平均,以得到每个候选实体的上下文累积分值和先验值的平均值。其中,预设权重例如为β,每个候选实体的上下文累积分值和先验值的平均值可以通过公式p=(βr+(1-β)prior)/2进行加权平均得到,其中p表示平均值,r表示一个候选实体的上下文累计分值,prior表示该对应候选实体的先验值。
其中,在根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体时,比如,可以将每个提及词对应的各候选实体中分值最高的候选实体确定为相应提及词的链接实体,从而将该提及词链接到分值最高的候选实体上。当然,在其他实现方式中,也可以将分值排名在前面的多个候选实体都确定为相应提及词的链接实体,比如将分值排名在前2位或前3位的候选实体作为提及词的链接实体。
本实施方式中,当输入文本中存在多个提及词或者除提及词之外输入文本还包括其他分词,通过充分利用输入文本中的每一个词作为提及词的上下文,进而确定提及词对应的各候选实体的目标上下文,并对各目标上下文进行等级划分,以区分各目标上下文的重要性,其中等级越高目标上下文对应的分值越大,链接实体被确定的程度也越大,由此根据各候选实体的各目标上下文对应的分值获取各候选实体的分值时,候选实体的分值越大,说明候选实体作为提及词的链接实体的概率也就越大,也就更接近用户的搜索目的,因此将分值最高的候选实体作为提及词的链接实体,由此,可以对输入文本中的每个提及词的候选实体有效地进行消歧,使得提及词的实体链接更准确。另外,即使在输入文本是短文本的情况下,在输入文本中没有丰富的关于提及词的上下文时,通过本发明实施例,通过充分利用输入文本中的每个词作为提及词的上下文,可以有效地对短文本中涉及的实体进行消歧,可以提高短文本的实体链接的准确性。
当然,在本发明实施例中,输入文本也可以是长文本,比如视频文档,通过采用图2所示实施例的方法对长文本的视频文档进行实体链接,也能够提高视频文档的实体链接的准确性。进一步地,在本发明实施例中,知识库中的实体和实体名称等信息可以通过对视频文档进行实体识别而得到,即可以通过对视频文档采用本发明实施例的实体链接方法构建知识库,比如,可以预先在语料库中存储丰富的视频文档,通过对每一篇视频文档采取如图2所示的实施例进行实体链接,也即将视频文档作为输入文本,从而识别视频文档中的提及词,进而确定该提及词的链接实体,从而将视频文档中的提及词链接到所确定的链接实体上,由此通过将识别到的提及词和其对应的链接实体存储至知识库中,以立知识库中的实体名称和对应实体之间的索引,以构建知识库,从而为后续对用户输入的搜索串等短文本进行实体链接时,可以利用知识库存储的实体资源对用户输入的搜索串进行实体召回。
利用本发明实施例的实体链接的方法进行搜索,比如进行视频搜索,相对于传统的搜索技术而言,可以提高搜索结果的质量,使得返回给用户的搜索结果更符合用户的要求,如图6和图7所示,图6的左右两个图分别为使用了本发明实施例的实体链接方法和传统搜索技术对输入文本“长城”进行搜索后返回的搜索结果,图7的左右两个图分别为使用了本发明实施例的实体链接方法和传统搜索技术对输入文本“殷商传奇”进行搜索后返回的搜索结果。从搜索结果来看,图6和图7的左图的搜索结果与用户输入的搜索内容更为相符。
通过本发明实施例,可以确定输入文本中每个提及词的链接实体,并根据每个提及词的链接实体,将搜索结果返回给用户。其中,返回的搜索结果可以根据每个提及词的链接实体的分值高低进行排序,比如,对于“你的名字”和“国语版”两个提及词,如果“你的名字”对应的链接实体的分值比较高,则在搜索结果中将“你的名字”对应的链接实体排在前面,“国语版”对应的链接实体则排在后面,当然,也可以是随机进行排序,对此不做限定。
需要说明的是,本发明实施例中,是基于候选实体的先验值和目标上下文来获取提及词对应的各个候选实体的分值,以确定最有可能作为提及词的链接实体的候选实体,然而任何一个提及词都有可能是某个链接实体的实体名称,因此,为了减小实体误识别的概率,还可以进一步验证分值最高的候选实体是否是输入文本语境中对应提及词的链接实体,比如可以通过判断该分值最高的候选实体的先验值、目标上下文的个数、上下文累计分值以及对应提及词的长度等这几项特征参数是否满足预设条件。若均满足预设条件,则确定该分值最高的候选实体为对应提及词的链接实体;若超过预定项特征参数例如超过2项特征参数不满足预设条件,则可以判定提及词对应的所有候选实体中不存在提及词的链接实体,可以输出匹配不到链接实体的信息,或者也可以是在任意一项特征参数不满足预设条件时,判断提及词对应的所有候选实体中不存在提及词的链接实体。
其中,可以设定先验值阈值、目标上下文数量阈值、上下文分值阈值和提及词长度阈值等作为对应特征参数的预设条件,当某一特征参数大于或等于相应阈值时,则可以判定其满足预设条件,否则判定为不满足预设条件。
在本发明的其他实施例中,也可以仅是基于候选实体的目标上下文来获取提及词对应的各个候选实体的分值,即在一种实施例中,基于每个所述提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个所述提及词的链接实体,可以包括:根据每个提及词对应的各候选实体的各个目标上下文的等级,获取每个提及词对应的各所述候选实体的分值;根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体。其中,获取各候选实体的分值可以是根据各候选实体的各个目标上下文的等级,确定各候选实体的各个目标上下文对应的分值,对每个候选实体的各个目标上下文对应的分值进行求和,得到上下文累计分值,从而将每个候选实体的上下文累计分值作为该候选实体的分值。由此,可以将分值最高的候选实体确定为提及词对应的链接实体。
在本发明实施例中,当输入文本中的提及词的数量为一、且输入文本中不存在除提及词之外的其他分词时,还可以包括如下步骤:
(51)从知识库中获取提及词对应的所有候选实体和各候选实体的先验值。
(52)将各候选实体的先验值按照从大到小进行排序。
(53)根据排序结果,将先验值排名位于前n位的候选实体确定为提及词的链接实体。
其中,先验值越大,说明对应的候选实体越有可能是提及词对应的链接实体。当输入文本中仅包含一个提及词,且也无其他分词,也即该提及词就是输入文本的所有内容,因此根据输入文本难以确定提及词的输入上下文,因此将先验值排名靠前的前n位候选实体确定为提及词的链接实体。其中,n可以为3或4,等等。
例如,输入文本为“非诚勿扰”,经过实体名称匹配后,确定的提及词即为“非常勿扰”,因此输入文本中除了唯一一个提及词外,没有其他分词,此时可以返回“非诚勿扰”对应的先验值排名前3位的候选实体,作为“非诚勿扰”的链接实体,如下表所示,将返回实体1、实体2和实体3作为“非诚勿扰”的链接实体。
第二实施例、
本实施例将从服务器的角度进行描述,并且以视频搜索为例进行描述。
参阅图8,本实施例提供的一种实体链接的装置中,该装置包括第一确定模块801、第一获取模块802、第二确定模块803、第三确定模块804以及第四确定模块805。
其中,第一确定模块801用于根据知识库中的实体名称,确定输入文本中的提及词。例如,当用户在一个视频网站中进行视频搜索时,通过获取用户在视频网站的搜索框中输入的搜索内容以获取输入文本。提及词也即输出文本中出现的实体名称。确定输入文本中的提及词,也即确定输入文本中所提及的实体名称。具体地,第一确定模块801具体可以用于:对输入文本进行词切分,以获取输入文本的多个分词,然后将多个分词逐一与知识库中的实体名称进行匹配;根据多个分词在输入文本中的位置,构建至少一棵分词树,其中多个分词按照在输入文本中的位置、从分词树的根节点至至子节点依次进行存放,同一棵分词树的父节点和子节点的分词不存在重叠,且同一棵分词树的父节点下的任意两个子节点的分词存在重叠;在至少一棵分词树中,确定从根节点到子节点的最短完整路径;将匹配成功且位于最短完整路径中的分词确定为输入文本的提及词。
其中,为了更准确地识别输入文本中的出现的实体名称,本实施例,可以采用多种方式分别对输入文本进行切分,比如可以先根据词性对输入文本进行词切分,然后在基于字符串匹配方法对输入文本进行词切分,从而多种词切分方式分别对输入文本进行切分后,得到输入文本的多个分词。将输入文本切分得到的每个分词和知识库中的实体名称进行匹配,当在知识库中匹配到与分词相同的实体名称时,则该分词和知识库中的实体名称匹配成功,若知识库中不存在与分词相同的实体名称,则该分词匹配失败。
其中,每棵分词树的根节点均是用于存放输入文本的第一个分词,分词树的每一条根节点到子节点的完整路径均为输入文本的完整内容,父节点和子节点的分词不存在重叠,父节点下的任意两个子节点的分词都有重叠。在所有分词树中,确定一条从根节点到子节点的最短完整路径,即能够表示出完整的输入文本且最短的路径。在得到与知识库中的实体名称匹配成功的分词后,通过对匹配成功的分词进行筛选,即只选取位于分词树中的最短完整路径中的分词确定为输入文本的提及词,从而可以获得输入文本中的最有效的实体名称。
当然,在其他实施例中,在将多个分词逐一与知识库中的实体名称进行匹配之后,第一确定模块801也可以是直接将与知识库中的实体名称匹配成功的分词均确定为输入文本的提及词。
第一获取模块802用于从知识库中获取每个提及词对应的所有候选实体,以及各候选实体的上下文信息。
其中,本实施例中,第一获取模块802具体用于当至少有两个提及词和/或输入文本中存在除提及词之外的其他分词时,从知识库中获取每个提及词对应的所有候选实体以及各候选实体的上下文信息。各候选实体的上下文信息包括候选实体的预设上下文以及各预设上下文的等级。
具体地,在确定输入文本中的提及词后,当提及词的数量有至少两个,或者输入文本中除了所有提及词之外还存在其他分词,其中该其他分词是指没有出现在任何一个提及词中的分词,此时可以根据知识库中的实体名称与其所对应的所有实体之间的映射关系,从知识库中获取每个提及词对应的所有候选实体,并获取各候选实体的先验值、各候选实体的预设上下文以及预设上下文的等级。其中提及词对应的候选实体也即知识库中与提及词匹配成功的实体名称所对应的实体,各候选实体的先验值、预设上下文即为与提及词匹配成功的实体名称所对应的实体的先验值、预设上下文。
第二确定模块803用于根据提及词和/或输入文本中除提及词之外的其他分词,确定每个提及词的所有输入上下文。
其中,第二确定模块803具体可以用于获取输入文本中除提及词之外的所有其他分词,对于任意一个提及词,将其他提及词和所有其他分词,确定为该任意一个提及词的所有输入上下文,其中一个其他提及词或一个其他分词对应为一个输入上下文。通过上述方式,可以得到每个提及词的所有输入上下文。
第三确定模块804用于根据每个提及词的所有输入上下文、以及每个提及词对应的各候选实体的上下文信息,确定各候选实体的所有目标上下文和各目标上下文的等级。
其中目标上下文的等级用于指示提及词在结合相应目标上下文时对应的链接实体被确定的程度。
其中,根据知识库中的各个实体和各实体的所有预设上下文、每个预设上下文的等级之间的映射关系,确定提及词对应的各候选实体的目标上下文及目标上下文的等级。具体地,对于任意一个提及词,将每个提及词的所有输入上下文逐一与该提及词对应的各候选实体的所有预设上下文进行匹配,匹配的过程为判断候选实体的预设上下文中是否存在与输入上下文相同的预设上下文。当某个候选实体中存在和输入上下文相同的预设上下文时,则匹配成功,将匹配成功的输入上下文确定为该对应候选实体的目标上下文,并将与该输入上下文匹配成功的预设上下文的等级确定该目标上下文的等级
第四确定模块805用于基于每个提及词对应的所有候选实体的各目标上下文的等级,确定每个提及词的链接实体。
具体地,第四确定模块805用于从知识库中获取每个提及词对应的各候选实体的先验值,根据每个提及词对应的各候选实体的先验值和各个目标上下文的等级,获取每个提及词对应的各个候选实体的分值,然后根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体。
其中,各候选实体的先验值即为与提及词匹配成功的实体名称所对应的实体的先验值。
其中,可以预先设置各个级别的目标上下文对应的分值,其中可以是等级越高对应的分值越大。第四确定模块805具体可以用于根据各候选实体的各个目标上下文的等级,确定各候选实体的各个目标上下文对应的分值,其中目标上下文的等级越高,对应的分值越大,提及词在结合相应目标上下文时对应的链接实体被确定的程度也越大,然后对每个候选实体的各个目标上下文对应的分值进行求和,得到上下文累积分值,之后获取每个候选实体的上下文累积分值和先验值的平均值,从而得到每个候选实体的分值。
其中,可以直接对每个候选实体的上下文累积分值和先验值进行求和再平均,以得到平均值。或者在另一种实施例中,获取上下文累计分值和先验值的平均值还可以包括:根据预设权重,对每个候选实体的上下文累积分值和先验值进行加权平均,以得到每个候选实体的上下文累积分值和先验值的平均值。其中,预设权重例如为β,每个候选实体的上下文累积分值和先验值的平均值可以通过公式p=(βr+(1-β)prior)/2进行加权平均得到,其中p表示平均值,r表示一个候选实体的上下文累计分值,prior表示该对应候选实体的先验值。
在确定每个提及词的链接实体时,比如,第四确定模块805可以将每个提及词对应的各候选实体中分值最高的候选实体确定为相应提及词的链接实体,从而将该提及词链接到分值最高的候选实体上。
通过本实施方式的实体链接的装置,当输入文本中存在多个提及词或者除提及词之外输入文本还包括其他分词,通过充分利用输入文本中的每一个词作为提及词的上下文,进而确定提及词对应的各候选实体的目标上下文,并对各目标上下文进行等级划分,以区分各目标上下文的重要性,其中等级越高目标上下文对应的分值越大,链接实体被确定的程度也越大,由此根据各候选实体的各目标上下文对应的分值获取各候选实体的分值时,候选实体的分值越大,说明候选实体作为提及词的链接实体的概率也就越大,也就更接近用户的搜索目的,因此将分值最高的候选实体作为提及词的链接实体,由此,可以对输入文本中的每个提及词的候选实体有效地进行消歧,使得提及词的实体链接更准确。
需要说明的是,本发明实施例中,是基于候选实体的先验值和目标上下文来获取提及词对应的各个候选实体的分值,以确定最有可能作为提及词的链接实体的候选实体,然而任何一个提及词都有可能是某个链接实体的实体名称,因此,为了减小实体误识别的概率,还可以进一步验证分值最高的候选实体是否是输入文本语境中对应提及词的链接实体,比如可以通过判断该分值最高的候选实体的先验值、目标上下文的个数、上下文累计分值以及对应提及词的长度等这几项特征参数是否满足预设条件。若均满足预设条件,则确定该分值最高的候选实体为对应提及词的链接实体;若超过预定项特征参数例如超过2项特征参数不满足预设条件,则可以判定提及词对应的所有候选实体中不存在提及词的链接实体,可以输出匹配不到链接实体的信息,或者也可以是在任意一项特征参数不满足预设条件时,判断提及词对应的所有候选实体中不存在提及词的链接实体。
其中,可以设定先验值阈值、目标上下文数量阈值、上下文分值阈值和提及词长度阈值等作为对应特征参数的预设条件,当某一特征参数大于或等于相应阈值时,则可以判定其满足预设条件,否则判定为不满足预设条件。
在本发明的其他实施例中,也可以仅是基于候选实体的目标上下文来获取提及词对应的各个候选实体的分值,即在另一种实施例中,第四确定模块805具体可以用于根据每个提及词对应的各候选实体的各个目标上下文的等级,获取每个提及词对应的各所述候选实体的分值;根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体。其中,第四确定模块805获取各候选实体的分值可以是根据各候选实体的各个目标上下文的等级,确定各候选实体的各个目标上下文对应的分值,对每个候选实体的各个目标上下文对应的分值进行求和,得到上下文累计分值,从而将每个候选实体的上下文累计分值作为该候选实体的分值。由此,可以将分值最高的候选实体确定为提及词对应的链接实体。
进一步地,参阅图9,本发明的实体链接装置还可以包括排序模块806。其中,第一获取模块802还用于当输入文本中的提及词的数量为一、且输入文本中不存在除提及词之外的其他分词时,从知识库中获取提及词对应的所有候选实体和各候选实体的先验值。排序模块806用于将各候选实体的先验值按照从大到小进行排序。第四确定模块805还用于根据排序结果,将先验值排名位于前n位的候选实体确定为提及词的链接实体。
其中,先验值越大,说明对应的候选实体越有可能是提及词对应的链接实体。当输入文本中仅包含一个提及词,且也无其他分词,也即该提及词就是输入文本的所有内容,因此根据输入文本难以确定提及词的输入上下文,因此将先验值排名靠前的前n位候选实体确定为提及词的链接实体,可以提高实体链接的准确性。其中,n可以为3或4,等等。
参阅图10,在本发明的另一实施例中,实体链接的装置进一步还可以包括第五确定模块807、第一建立模块808和第二建立模块809。
其中,第五确定模块807用于在第一确定模块801确定输入文本中的提及词之前,确定知识库中每个实体对应的实体名称。
第一建立模块808用于根据知识库中每个实体的佩奇排名值,获取每个实体的先验值,并建立每个实体名称与对应实体、对应实体的先验值之间的映射关系。其中,每个实体的先验值可以通过公式计算得到,prior表示先验值,pr为利用pagerank算法计算得到的pagerank值,也即佩奇排名值
其中,当知识库中的实体为视频类实体时,第一建立模块809用于根据视频类实体的佩奇排名值、流行度、总播放量、预设时间内的播放量以及预设的权重因子,获取视频类实体的先验值。具体可以通过如下公式进行计算:
其中,pp表示流行度,可以通过获取预定网站中全网用户对视频类实体的评论数而得到,比如对于某一个视频类实体,可以通过获取豆瓣网上的豆瓣用户对该视频类实体的评论数而得到该视频类实体的流行度。avc表示视频类实体在视频网站中的总播放量,yvc表示视频类实体在视频网站中在预设时间内的播放量,该预设时间为当前时刻之前的历史时间,比如可以是相对于当前时刻而言的前一天,即预设时间内的播放量为昨日播放量,或者在其他实施方式中,预设时间内的播放量也可以是当前时刻的前两天、前七天内的播放量。λ和γ为预设的权重因子,取值范围可以在0~1之间,α的取值为小于或等于0.5。
其中,当知识库中的实体为人名类实体时,第一建立模块809用于根据人名类实体的佩奇排名值和流行度,获取人名类实体的先验值,具体可以通过如下公式进行计算:
其中,对于人名类实体,流行度pp可以通过获取人名类实体在预订网站中的粉丝数而得到,比如可以通过获取人名类实体在豆瓣网上的粉丝数得到该人名类实体的流行度,或者也可以通过获取人名类实体在微博上的粉丝数得到。
获取预设知识库中每个实体的先验值后,可以建立预设知识库中每个实体名称与对应实体、对应实体的先验值之间的映射关系,也就是将每个实体名称对应的所有实体、所对应的所有实体的先验值建立对应关系。
第二建立模块809用于根据知识库中每个实体的属性信息,获取每个实体的预设上下文,并设置预设上下文的等级,并建立每个实体与对应预设上下文、对应预设上下文的等级之间的映射关系。
在知识库中,每个实体都有相应的属性信息,比如对于某一部电影实体,其属性信息可以包括实体名称、导演、主演、角色列表、语言,等等。实体的预设上下文可以直接从属性信息中获取,比如每一个属性信息可以是对应实体的一个预设上下文,如导演可以作为一部电影实体的一个预设上下文,或者可以是多个属性信息的组合作为对应实体的一个预设上下文,如导演+主演可以作为电影实体的一个预设上下文。当然,还可以在属性信息的基础上,获取实体的其他上下文,例如可以获取与属性信息相关联的其他信息作为实体的上下文。在获取实体的预设上下文后,设置各个预设上下文的等级,即按照预设上下文的重要性对每个实体的预设上下文进行等级分类。预设上下文的等级划分原则是在这个上下文和实体名称同时出现时,该实体名称对应的实体被确定的程度。
通过上述方式,根据实体名称和实体之间的映射关系,可以得到知识库中每个实体名称对应的所有实体以及各个所有实体的先验值,根据每个实体和预设上下文之间的映射关系,可以确定知识库中每个实体的所有预设上下文以及各个预设上下文的等级。
第三实施例、
本发明实施例还提供一种服务器,如图11所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器1101、一个或一个以上计算机可读存储介质的存储器1102、电源1103和输入单元1104等部件。本领域技术人员可以理解,图11中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器1101是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器1102内的软件程序和/或模块,以及调用存储在存储器1102内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器1101可包括一个或多个处理核心;优选的,处理器1101可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1101中。
存储器1102可用于存储软件程序以及模块,处理器1101通过运行存储在存储器1102的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1102可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1102还可以包括存储器控制器,以提供处理器1101对存储器1102的访问。
服务器还包括给各个部件供电的电源1103,优选的,电源1103可以通过电源管理系统与处理器1101逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1103还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元1104,该输入单元1104可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器1101会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1102中,并由处理器1101来运行存储在存储器1102中的应用程序,从而实现各种功能,如下:
根据知识库中的实体名称,确定输入文本中的提及词,从知识库中获取每个提及词对应的所有候选实体以及各候选实体的上下文信息,然后根据提及词和/或输入文本中除提及词之前的其他分词,确定每个提及词的所有输入上下文,并根据每个提及词的所有输入上下文、以及每个提及词对应的各候选实体的上下文信息,确定各候选实体的所有目标上下文和各目标上下文的等级,从而基于每个提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个提及词的链接实体。
其中,可以从知识库中获取每个提及词对应的各候选实体的先验值;根据每个提及词对应的各候选实体的先验值和各个目标上下文的等级,获取每个提及词对应的各候选实体的分值;然后根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体。
其中,可以根据各候选实体的各个目标上下文的等级,确定各候选实体的各个目标上下文对应的分值,然后对每个候选实体的各个目标上下文对应的分值进行求和,得到上下文累计分值,通过获取每个候选实体的上下文累计分值和先验值的平均值,该平均值例如可以通过对上下文累计分值和先验值进行加权平均而得到,由此得到每个候选实体的分值,从而可以将每个提及词对应的各候选实体中分值最高的候选实体确定为相应提及词的链接实体。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
通过上述方式,可以对输入文本中的每个提及词的候选实体有效地进行消歧,使得提及词的实体链接更准确。
第四实施例、
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种实体链接的方法中的步骤。例如,该指令可以如下步骤:
根据知识库中的实体名称,确定输入文本中的提及词,从知识库中获取每个提及词对应的所有候选实体以及各候选实体的上下文信息,然后根据提及词和/或输入文本中除提及词之前的其他分词,确定每个提及词的所有输入上下文,并根据每个提及词的所有输入上下文、以及每个提及词对应的各候选实体的上下文信息,确定各候选实体的所有目标上下文和各目标上下文的等级,从而基于每个提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个提及词的链接实体。
其中,可以从知识库中获取每个提及词对应的各候选实体的先验值;根据每个提及词对应的各候选实体的先验值和各个目标上下文的等级,获取每个提及词对应的各候选实体的分值;然后根据每个提及词对应的各候选实体的分值,确定每个提及词的链接实体。
其中,可以根据各候选实体的各个目标上下文的等级,确定各候选实体的各个目标上下文对应的分值,然后对每个候选实体的各个目标上下文对应的分值进行求和,得到上下文累计分值,通过获取每个候选实体的上下文累计分值和先验值的平均值,该平均值例如可以通过对上下文累计分值和先验值进行加权平均而得到,由此得到每个候选实体的分值,从而可以将每个提及词对应的各候选实体中分值最高的候选实体确定为相应提及词的链接实体。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种实体链接的方法中的步骤,因此,可以实现本发明实施例所提供的任一种实体链接的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种实体链接的方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种实体链接的方法,其特征在于,包括:
根据知识库中的实体名称,确定输入文本中的提及词;
从所述知识库中获取每个所述提及词对应的所有候选实体以及各所述候选实体的上下文信息;
根据所述提及词和/或所述输入文本中除所述提及词之外的其他分词,确定每个所述提及词的所有输入上下文;
根据每个所述提及词的所有输入上下文、以及每个所述提及词对应的各所述候选实体的上下文信息,确定各所述候选实体的所有目标上下文和各所述目标上下文的等级;
基于每个所述提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个所述提及词的链接实体;
所述根据知识库中的实体名称,确定输入文本中的提及词,包括:
对输入文本进行词切分,以获取所述输入文本的多个分词;
将所述多个分词逐一与知识库中的实体名称进行匹配;
根据所述多个分词在所述输入文本中的位置,构建至少一棵分词树,其中所述多个分词按照在输入文本中的位置,从所述分词树的根节点至子节点依次进行存放,同一棵分词树的父节点和子节点的分词不存在重叠,且同一棵分词树的父节点下的任意两个子节点的分词存在重叠;
在所述至少一棵分词树中,确定从根节点至子节点的最短完整路径;
将匹配成功且位于所述最短完整路径中的分词确定为所述输入文本的提及词。
2.根据权利要求1所述的方法,其特征在于,所述基于每个所述提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个所述提及词的链接实体,包括:
从所述知识库中获取每个所述提及词对应的各所述候选实体的先验值;
根据每个所述提及词对应的各所述候选实体的先验值和各个目标上下文的等级,获取每个所述提及词对应的各所述候选实体的分值;
根据每个所述提及词对应的各所述候选实体的分值,确定每个所述提及词的链接实体。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述提及词对应的各所述候选实体的先验值和各个目标上下文的等级,获取每个所述提及词对应的各所述候选实体的分值,包括:
根据各所述候选实体的各个目标上下文的等级,确定各所述候选实体的各个目标上下文对应的分值,其中目标上下文的等级越高,对应的分值越大,所述提及词在结合相应目标上下文时对应的链接实体被确定的程度也越大;
对每个所述候选实体的各个目标上下文对应的分值进行求和,得到上下文累计分值;
获取每个所述候选实体的上下文累计分值和先验值的平均值,得到每个所述候选实体的分值;
所述根据每个所述提及词对应的各所述候选实体的分值,确定每个所述提及词的链接实体,包括:将每个所述提及词对应的各所述候选实体中分值最高的候选实体确定为相应提及词的链接实体。
4.根据权利要求3所述的方法,其特征在于,所述获取每个所述候选实体的上下文累计分值和先验值的平均值,包括:
根据预设权重,对每个所述候选实体的上下文累计分值和先验值进行加权平均,以得到每个所述候选实体的上下文累计分值和先验值的平均值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述提及词和/或所述输入文本中除所述提及词之外的其他分词,确定每个所述提及词的所有输入上下文,包括:
获取所述输入文本中除所述提及词之外的所有其他分词;
对于任意一个所述提及词,将其他所述提及词和所述所有其他分词,确定为任意一个所述提及词的所有输入上下文,其中一个其他所述提及词或一个所述其他分词对应为一个输入上下文。
6.根据权利要求1所述的方法,其特征在于,所述上下文信息包括预设上下文以及所述预设上下文的等级;
所述根据每个所述提及词的所有输入上下文、以及每个所述提及词对应的各所述候选实体的上下文信息,确定各所述候选实体的所有目标上下文和各所述目标上下文的等级,包括:
将每个所述提及词的所有输入上下文逐一与每个所述提及词对应的各候选实体的预设上下文进行匹配,若匹配成功,则将匹配成功的所述输入上下文确定为对应候选实体的目标上下文,并将匹配成功的预设上下文的等级确定为对应候选实体的目标上下文的等级。
7.根据权利要求1所述的方法,其特征在于,所述根据知识库中的实体名称,确定输入文本中的提及词之后,还包括:
当至少有两个所述提及词和/或所述输入文本中存在除所述提及词之外的其他分词时,执行从所述知识库中获取每个所述提及词对应的所有候选实体以及各所述候选实体的上下文信息的步骤;
当所述提及词的数量为一、且所述输入文本中不存在除所述提及词之外的其他分词时,从所述知识库中获取所述提及词对应的所有候选实体和各所述候选实体的先验值;将各所述候选实体的先验值按照从大到小进行排序;根据排序结果,将先验值排名位于前n位的候选实体确定为所述提及词的链接实体。
8.根据权利要求1-7任一项所述的方法,其特征在于,所述方法还包括:
确定知识库中每个实体对应的实体名称;
根据所述知识库中每个实体的佩奇排名值,获取每个实体的先验值,并建立每个实体名称与对应实体、所述对应实体的先验值之间的映射关系;
根据所述知识库中每个实体的属性信息,获取每个实体的预设上下文,并设置所述预设上下文的等级,并建立每个实体与对应预设上下文、所述对应预设上下文的等级之间的映射关系。
9.根据权利要求8所述的方法,其特征在于,所述根据所述知识库中每个实体的佩奇排名值,获取每个实体的先验值,包括:
当所述知识库中的实体为视频类实体时,根据所述视频类实体的佩奇排名值、流行度、总播放量、预设时间内的播放量以及预设的权重因子,获取所述视频类实体的先验值;
当所述知识库中的实体为人名类实体时,根据所述人名类实体的佩奇排名值和流行度,获取所述人名类实体的先验值。
10.一种实体链接的装置,其特征在于,包括:
第一确定模块,用于根据知识库中的实体名称,确定输入文本中的提及词;所述根据知识库中的实体名称,确定输入文本中的提及词,包括:对输入文本进行词切分,以获取所述输入文本的多个分词;将所述多个分词逐一与知识库中的实体名称进行匹配;根据所述多个分词在所述输入文本中的位置,构建至少一棵分词树,其中所述多个分词按照在输入文本中的位置,从所述分词树的根节点至子节点依次进行存放,同一棵分词树的父节点和子节点的分词不存在重叠,且同一棵分词树的父节点下的任意两个子节点的分词存在重叠;在所述至少一棵分词树中,确定从根节点至子节点的最短完整路径;将匹配成功且位于所述最短完整路径中的分词确定为所述输入文本的提及词;
第一获取模块,用于从所述知识库中获取每个所述提及词对应的所有候选实体以及各所述候选实体的上下文信息;
第二确定模块,用于根据所述提及词和/或所述输入文本中除所述提及词之外的其他分词,确定每个所述提及词的所有输入上下文;
第三确定模块,用于根据每个所述提及词的所有输入上下文、以及每个所述提及词对应的各所述候选实体的上下文信息,确定各所述候选实体的所有目标上下文和各所述目标上下文的等级;
第四确定模块,用于基于每个所述提及词对应的所有所述候选实体的各所述目标上下文的等级,确定每个所述提及词的链接实体。
11.根据权利要求10所述的装置,其特征在于,所述第四确定模块用于:
从所述知识库中获取每个所述提及词对应的各所述候选实体的先验值;
根据每个所述提及词对应的各所述候选实体的先验值和各个目标上下文的等级,获取每个所述提及词对应的各所述候选实体的分值;
根据每个所述提及词对应的各所述候选实体的分值,确定每个所述提及词的链接实体。
12.根据权利要求11所述的装置,其特征在于,所述第四确定模块用于:
根据各所述候选实体的各个目标上下文的等级,确定各所述候选实体的各个目标上下文对应的分值,其中目标上下文的等级越高,对应的分值越大,所述提及词在结合相应目标上下文时对应的链接实体被确定的程度也越大;
对每个所述候选实体的各个目标上下文对应的分值进行求和,得到上下文累计分值;
获取每个所述候选实体的上下文累计分值和先验值的平均值,得到每个所述候选实体的分值;
将每个所述提及词对应的各所述候选实体中分值最高的候选实体确定为相应提及词的链接实体。
13.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至9任一项所述的实体链接的方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576250.8A CN110569496B (zh) | 2018-06-06 | 2018-06-06 | 实体链接方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576250.8A CN110569496B (zh) | 2018-06-06 | 2018-06-06 | 实体链接方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569496A CN110569496A (zh) | 2019-12-13 |
CN110569496B true CN110569496B (zh) | 2022-05-17 |
Family
ID=68772341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810576250.8A Active CN110569496B (zh) | 2018-06-06 | 2018-06-06 | 实体链接方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569496B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339778B (zh) * | 2020-03-13 | 2023-08-25 | 苏州跃盟信息科技有限公司 | 文本处理方法、装置、存储介质和处理器 |
CN111523326B (zh) * | 2020-04-23 | 2023-03-17 | 北京百度网讯科技有限公司 | 实体链指方法、装置、设备以及存储介质 |
CN113723605A (zh) * | 2020-05-26 | 2021-11-30 | 株式会社理光 | 实体链接方法、装置及可读存储介质 |
CN112364640A (zh) * | 2020-11-09 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 实体名词链接方法、装置、计算机设备和存储介质 |
CN112732917B (zh) * | 2021-01-13 | 2024-08-30 | 上海明略人工智能(集团)有限公司 | 一种实体链指结果的确定方法和装置 |
CN112989235B (zh) * | 2021-03-09 | 2023-08-01 | 北京百度网讯科技有限公司 | 基于知识库的内链构建方法、装置、设备和存储介质 |
CN113761218B (zh) * | 2021-04-27 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 一种实体链接的方法、装置、设备及存储介质 |
CN114048348B (zh) * | 2021-10-14 | 2024-08-16 | 盐城天眼察微科技有限公司 | 视频质量评分方法和装置、以及存储介质和电子设备 |
CN113971216B (zh) * | 2021-10-22 | 2023-02-03 | 北京百度网讯科技有限公司 | 数据处理方法、装置、电子设备和存储器 |
CN114330331B (zh) * | 2021-12-27 | 2022-09-16 | 北京天融信网络安全技术有限公司 | 一种链接中分词重要度确定方法和装置 |
CN115982389B (zh) * | 2023-03-10 | 2023-05-30 | 北京国华众联科技有限公司 | 知识图谱生成方法、装置和设备 |
CN116049447B (zh) * | 2023-03-24 | 2023-06-13 | 中科雨辰科技有限公司 | 一种基于知识库的实体链接系统 |
CN117113993B (zh) * | 2023-10-23 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 实体链接方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015062117A (ja) * | 2013-09-22 | 2015-04-02 | 富士通株式会社 | 実体のリンク付け方法及び実体のリンク付け装置 |
CN105045826A (zh) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | 一种基于图模型的实体链接算法 |
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN107220300A (zh) * | 2017-05-05 | 2017-09-29 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107291684A (zh) * | 2016-04-12 | 2017-10-24 | 华为技术有限公司 | 语言文本的分词方法和系统 |
CN107608960A (zh) * | 2017-09-08 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10585924B2 (en) * | 2014-08-08 | 2020-03-10 | Cuong Duc Nguyen | Processing natural-language documents and queries |
US10410139B2 (en) * | 2016-01-05 | 2019-09-10 | Oracle International Corporation | Named entity recognition and entity linking joint training |
-
2018
- 2018-06-06 CN CN201810576250.8A patent/CN110569496B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015062117A (ja) * | 2013-09-22 | 2015-04-02 | 富士通株式会社 | 実体のリンク付け方法及び実体のリンク付け装置 |
CN105045826A (zh) * | 2015-06-29 | 2015-11-11 | 华东师范大学 | 一种基于图模型的实体链接算法 |
CN105183770A (zh) * | 2015-08-06 | 2015-12-23 | 电子科技大学 | 一种基于图模型的中文集成实体链接方法 |
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
CN107092605A (zh) * | 2016-02-18 | 2017-08-25 | 北大方正集团有限公司 | 一种实体链接方法及装置 |
CN107291684A (zh) * | 2016-04-12 | 2017-10-24 | 华为技术有限公司 | 语言文本的分词方法和系统 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107220300A (zh) * | 2017-05-05 | 2017-09-29 | 平安科技(深圳)有限公司 | 信息挖掘方法、电子装置及可读存储介质 |
CN107608960A (zh) * | 2017-09-08 | 2018-01-19 | 北京奇艺世纪科技有限公司 | 一种命名实体链接的方法和装置 |
Non-Patent Citations (2)
Title |
---|
Entity Linking with a Knowledge Base: Issues,Techniques, and Solutions;Wei Shen et al.;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20150228;第27卷(第2期);第443-460页 * |
面向教学资源的实体链接算法;李纯 等;《南京大学学报(自然科学)》;20150731;第51卷(第4期);第901-908页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110569496A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569496B (zh) | 实体链接方法、装置及存储介质 | |
WO2020207074A1 (zh) | 一种信息推送的方法及设备 | |
WO2019223552A1 (zh) | 文章推荐方法、装置、计算机设备及存储介质 | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
US8135739B2 (en) | Online relevance engine | |
US10289717B2 (en) | Semantic search apparatus and method using mobile terminal | |
US9864803B2 (en) | Method and system for multimodal clue based personalized app function recommendation | |
US10437894B2 (en) | Method and system for app search engine leveraging user reviews | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
US20220083874A1 (en) | Method and device for training search model, method for searching for target object, and storage medium | |
CN111460083A (zh) | 文档标题树的构建方法、装置、电子设备及存储介质 | |
JP6124917B2 (ja) | 情報検索のための方法および装置 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
US11640506B2 (en) | Entity disambiguation | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
JP2023516209A (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US20230086735A1 (en) | Systems and methods for retrieving videos using natural language description | |
CN113660541B (zh) | 新闻视频的摘要生成方法及装置 | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
Wei et al. | Online education recommendation model based on user behavior data analysis | |
Al Awienoor et al. | Movie Recommendation System Based on Tweets Using Switching Hybrid Filtering with Recurrent Neural Network. | |
CN111930949B (zh) | 搜索串处理方法、装置、计算机可读介质及电子设备 | |
US9223833B2 (en) | Method for in-loop human validation of disambiguated features | |
CN110795562A (zh) | 图谱优化方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018725 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |