CN104794163B - 实体集合扩展方法 - Google Patents
实体集合扩展方法 Download PDFInfo
- Publication number
- CN104794163B CN104794163B CN201510133520.4A CN201510133520A CN104794163B CN 104794163 B CN104794163 B CN 104794163B CN 201510133520 A CN201510133520 A CN 201510133520A CN 104794163 B CN104794163 B CN 104794163B
- Authority
- CN
- China
- Prior art keywords
- entity
- entity sets
- sets
- candidate
- seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种实体集合扩展方法,该方法包括:获取用户输入的种子实体集合,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种子实体对应的属性信息;根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属性特征,确定RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;将扩展实体集合中包括的实体添加到种子实体集合中,得到扩展后的实体集合。本发明提供一种基于RDF知识库的实体集合扩展方法,由于RDF知识库使用的是结构化的XML数据,服务器可以挖掘出了种子实体之间的语义信息,使得扩展结果变得更为智能和准确,保证了实体集合扩展的效率。
Description
技术领域
本发明涉及信息抽取技术,尤其涉及一种实体集合扩展方法。
背景技术
文本信息抽取(Text Information Extraction)指的是从自然语言文本中抽取指定类型的实体(Entity)、关系(Relation)、事件(Event)等事实信息,并形成结构化数据输出的文本处理技术。例如从有线新闻和广播电视的文本中抽取恐怖事件相关情况:时间、地点、作案者、受害者、袭击目标等信息。
传统信息抽取任务是面向限定领域文本的、限定类别实体、关系和事件等的抽取,这大大制约了文本信息抽取技术的发展和应用,例如问答系统所需要的信息抽取技术远远超越我们通常研究的人名、地名、机构名、时间、日期等有限实体类别;上下位、部分整体、地理位置等有限关系类别;毁坏、创造、所有权转移等有限事件类别,甚至所需要的类别是未知的、不断变化的。这种应用需求为信息抽取技术的研究提出了新的挑战。另一方面,从信息抽取的技术手段来讲,由于网络文本具有不规范性、开放性以及海量性的特点,使得传统的依赖于训练语料的统计机器学习方法遇到严重挑战。
为了适应互联网实际应用的需求,越来越多的研究者开始研究开放式信息抽取技术,目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。开放式实体抽取的任务是在给出特定语义类的若干实体(又称为“种子”)的情况下,找出该语义类包含的其他实体,其中特定语义类的标签可能显式给出,也可能隐式给出。在互联网应用领域,开放式实体抽取技术对于知识库构建、网络内容管理、语义搜索、推荐系统、问答系统等都具有重要应用价值。
开放式实体信息抽取又称为实体集合扩展(Entity Set Expansion),目标是根据用户输入的种子词从网络中抽取同类型的实体扩展至实体集合中,在这一过程中需要自动判别用户输入种子词的类别信息,或者根据用户输入的类别进行类别词扩展。具体难点如下:1)初始信息少,实体抽取通常采用半监督或无监督的方法,己知信息一般有以下三种:种子实体、语义类别标签以及预先定义的信息。其中给出的种子通常少于5个,语义类别标签有时会给出有时不会给出,而预先定义的信息通常是若干模板,可以利用的己知信息非常少;2)语义类别难以确定,在没有给定语义类别标签的情况下,种子实体可能会同时属于多个语义类,使得目标语义类别的确定非常困难。比如给出“中国、美国、俄罗斯”三个种子实体,这三个种子实体都可归为“国家”类别,但同时又都可归为“联合国安理会常任理事会成员”类别,或者归为“有核武器的国家”类别。
现有的实体集合扩展方法是:根据与种子节点在网页中的共现频率进行扩展,也就是同类实体在网络上具有相似的网页结构或者相似的上下文特征,抽取过程就是首先找到这样的网页或者文本,然后从中抽取未知的同类型实体,或者根据已有的种子节点信息,通过训练语料的统计机器学习方法,估计候选实体与种子相似的概率,完成实体集合扩展。例如在某网页中,“奥迪”、“宝马”、“保时捷”等具有相同的网页结构,如果己知“奥迪”、“宝马”、“保时捷”为汽车品牌名,那么该网页中其他具有相同上下文特征的字符串也很可能是汽车品牌类型实体。
现有的实体集合扩展方法都是基于网页来获取候选实体的概率分布信息或者统计信息,都是一种模糊的扩展,不能保证扩展结果的准确性,且由于网页信息的海量、冗余、异构、不规范、含有大量噪声等因素,使得扩展过程时间消耗很大,效率较低。
发明内容
本发明提供一种实体集合扩展方法,其目的在于解决现有基于网页的实体集合扩展方法的扩展结果不准确,扩展过程时间消耗较大,效率较低的问题。
本发明实施例提供的实体集合扩展方法包括:
获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至少两个;
根据上述种子实体集合中每个种子实体的实体名,在RDF知识库中确定所述每个种子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存储有预先建立的每个实体的实体名和属性信息的关联关系;
根据上述每个种子实体对应的属性信息,确定所述种子实体集合对应的相同属性特征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征;
确定上述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合,将所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合;
将所述扩展后的实体集合发送给用户终端设备。
基于上述,本发明提供的实体集合扩展方法通过以种子实体为关键字,在RDF知识库中查询种子实体的相同属性特征,并且根据相同属性特征信息在RDF知识库中查询候选实体,由候选实体构成扩展实体集合进行实体集合扩展。由于RDF知识库使用的是结构化的XML数据,在进行实体集合扩展时,可以挖掘出了种子实体之间的语义信息,使得扩展结果变得更为智能和准确,而且结构化的数据更易于处理,保证了实体集合扩展的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一实体集合扩展方法的流程示意图;
图2为本发明实施例提供的另一实体集合扩展方法的流程示意图;
图3为本发明实施例提供的再一实体集合扩展方法的流程示意图;
图4为本发明实施例提供的再一实体集合扩展方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例的技术方案具体可以应用于命名实体特征获取、推荐系统、QA系统以及知识库构建等方面。该方法可以通过实体集合扩展装置来实现,该实体集合扩展装置可以集成在网络设备中,也可以单独设置,该实体集合扩展装置可以通过软件和/或硬件的方式来实现。网络设备具体可以是服务器,或可以进行Internet访问的计算机等。
在发明实施例中,用于实体集合扩展的数据来源为资源描述框架(ResourceDescription Framework,简称RDF)类型的网络知识库。例如,互联网中的freebase、yago和dbpedia等具有较高数据质量的知识库(Knowledge Base,简称KB)。RDF是一种用于描述Web资源的标记语言。RDF是一个处理元数据的可扩展标记语言(Extensible MarkupLanguage,简称XML)应用,XML是标准通用标记语言的子集,XML可以对文档和数据进行结构化处理,从而能够实现动态内容生成,XML可以使我们能够更准确的搜索,更方便的传送软件组件,更好的描述一些事物,例如电子商务交易等。
RDF使用XML语法和RDF架构(RDF schema,简称RDFS)来将元数据描述成为数据模型。所谓元数据,就是“描述数据的数据”或者“描述信息的信息”。举个简单的例子,书的内容是书的数据,而作者的名字、出版社的地址或版权信息就是书的元数据。数据和元数据的划分不是绝对的,有些数据既可以作为数据处理,也可以作为元数据处理,例如可以将作者的名字作为数据而不是元数据处理。
众所周知,对资源的描述是领域和应用相关的,比如对一本书的描述和对一个Web站点的描述是不一样的,即对不同资源的描述需要采取不同的词汇表。因此RDF规范并没有定义描述资源所用的词汇表,而是定义了一些规则,这些规则是各领域和应用定义用于描述资源的词汇表时必须遵循的。当然,RDF也提供了描述资源时具有基础性的词汇表。
简单而言,一个RDF文件包含多个资源描述,而一个资源描述是由多个语句构成,一个语句是由资源、属性类型、属性值构成的三元组,表示资源具有的一个属性特征。通过RDF,人们可以使用自己的词汇表描述任何资源,由于使用的是结构化的XML数据,搜索引擎可以理解元数据的精确含义,使得搜索变得更为智能和准确。
图1为本发明实施例提供的一实体集合扩展方法的流程示意图,如图1所示,本实施例提供的实体集合扩展方法包括:
S101,获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至少两个;
示例性的,用户可以通过访问操作来间接输入种子实体,也可以直接通过用户终端设备直接输入种子实体。举例来说,用户先后访问了淘宝网、京东商城、一号店和亚马逊,则实体集合扩展装置可以根据用户的访问获取包含淘宝网、京东商城、一号店和亚马逊四个种子实体的种子实体集合。用户也可以在终端设备相应的种子实体输入框中直接输入种子实体淘宝网、京东商城、一号店和亚马逊。可以理解,种子实体集合中包含的种子实体的个数可以是基于用户的历史访问记录,或是用户的输入,需要说明的是,本实施例中种子实体集合中包含的种子实体的数量为至少两个。
S102,根据种子实体集合中每个种子实体的实体名,在RDF知识库中确定每个种子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存储有预先建立的每个实体的实体名和属性信息的关联关系;
S103,根据每个种子实体对应的属性信息,确定种子实体集合对应的相同属性特征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征;
在实际应用中,作为一种优选的实施方式,可以将所使用的RDF知识库下载到实体集合扩展装置的存储器中,以供进行实体集合扩展时使用,例如可以将RDF知识库存储在一台或多台支持云平台的计算机中。RDF知识库中包含多个实体信息,换句话说,RDF知识库中的每一个资源都有对应的实体名和属性信息。
示例性的,实体集合扩展装置执行S101获取用户输入的种子实体集合包括“中国、美国、俄罗斯、印度”四个种子实体;根据这四个种子实体,可以确定出四个种子实体包括如下相同属性特征:国家、联合国安理会常任理事会成员、有核武器的国家、领土面积排名前10名的国家、……受限于知识库的数量和质量等因素,根据种子节点实体找到的特征可以不要求所有的种子都满足,以便获取更多的相同属性特征,丰富扩展结果。
优选的,本实施例中设定所获取的种子实体集合对应的相同属性特征包括至少两个种子实体所具有的相同的属性特征。请继续参照上述示例,实体集合扩展装置执行S102和S103可以获取该种子实体集合对应的相同属性特征包括:国家、联合国安理会常任理事会成员、有核武器的国家、领土面积排名前10名的国家、与朝鲜接壤的国家、八国联军成员、领土面积排名前3名的国家、……
另外,当获取的种子实体集合之间没有所有种子实体都满足的属性特征时,例如种子实体集合为“中国、华盛顿、首尔、巴黎、乔布斯、金泰熙、奥黛丽·赫本”,实体集合扩展装置执行S102和S103依然可以确定出所述种子实体集合对应的相同属性特征,如首都城市(华盛顿、首尔和巴黎)、以人名命名的地名(华盛顿和巴黎)、影视剧演员(金泰熙和奥黛丽·赫本)、美国著名的人物(华盛顿和乔布斯)等等。
S104,确定RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;
S105,将所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合;
S106,将所述扩展后的实体集合发送给用户终端设备。
举例来说,具有相同属性特征“领土面积排名前10名的国家”的其他实体包括加拿大、巴西、澳大利亚、阿根廷、哈萨克斯坦和苏丹6个国家。所有具有种子实体集合对应的相同属性特征的其他实体都可以作为候选实体,构成扩展实体集合,将扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合,将扩展后的实体集合发送给用户终端设备。例如输出至显示器或者打印机,以提供给用户。
可以理解,如果根据用户输入的种子实体集合未在RDF知识库中查找到种子实体集合对应的相同属性特征,则得到的扩展实体集合为空集,也就是扩展后的实体集合依然是原来的种子实体集合。
本实施例提供的实体集合扩展方法通过以种子实体为关键字,在RDF知识库中查询种子实体集合对应的的相同属性特征,并且根据相同属性特征信息在RDF知识库中查询候选实体,由候选实体构成扩展实体集合进行实体集合扩展。由于RDF知识库使用的是结构化的XML数据,在进行实体集合扩展时,可以挖掘出种子实体之间的语义信息,使得扩展结果变得更为智能和准确,而且结构化的数据更易于处理,保证了实体集合扩展的效率。
在实际应用中,根据种子实体集合,在RDF知识库中确定该种子实体集合具有的相同属性特征可能包含多个,也可能为零个。图2为本发明实施例提供的另一实体集合扩展方法的流程示意图,本实施例在图1所示实施例的基础上,较佳的,根据种子实体集合,在RDF知识库中至少可以确定该种子实体集合具有的一个相同属性特征,可以将种子实体集合具有的相同属性特征的数量记为N,显然N为大于0的整数。此时,上述实施例S104具体可以包括如下步骤:
S1041,分别确定各相同属性特征对应的候选实体集合;
S1042,分别确定每个所述候选实体集合中包含的实体的数量,并根据所述数量确定每个候选实体的第一权重值,所述候选实体属于至少一个候选实体集合;
S1043,根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合。
为了更清楚地说明本发明实施例中的技术方案,下面将通过数学描述和具体示例对本发明实施例的技术方案做详细介绍。
首先,可以先给出一些合适的定义:
定义1:设种子实体集合为M={e1,e2,......,em},其中e1,e2,......,em为m个种子实体;
定义2:设M对应的相同属性特征为π;
定义3:设M对应的相同属性特征的集合为Φ(M),即π∈Φ(M);
定义4:设具有相同属性特征π的候选实体集合为E(π);
举例来说,种子实体集合M={中国,美国,俄罗斯、印度};Φ(M)={国家,联合国安理会常任理事会成员,有核武器的国家、领土面积排名前10名的国家、与朝鲜接壤的国家、八国联军成员、领土面积排名前3名的国家、……};当相同属性特征π1为“领土面积排名前10名的国家”时,E(π1)={加拿大,巴西,澳大利亚,阿根廷,哈萨克斯坦,苏丹},当相同属性特征π2为“联合国安理会常任理事会成员”时,E(π2)={英国,法国},当相同属性特征π3为“八国联军成员”时,E(π3)={英国,法国,德国,日本,意大利,奥匈帝国}……
可以理解,根据种子实体集合在RDF知识库中确定的种子实体集合对应的相同属性特征可能不止一个,而且某些候选实体可能同时属于多个候选实体集合,例如英国和法国,为了使扩展实体集合的结果更加智能化,更符合用户的查询期望,较佳的,还可以对各个候选实体进行排序,作为本实施例一种可选的实施方式,可以通过计算每个候选实体集合E(π)中包含的实体的数量|E(π)|,并根据|E(π)|确定每个候选实体的第一权重值,然后按照第一权重值的大小对各个候选实体进行排序确定扩展实体集合。
优选的,可以根据公式计算每个候选实体的第一得分,然后对每个候选实体的第一得分按照由高到低的顺序进行排序得到扩展实体集合。
本实施例提供的实体集合扩展方法,在图1所示实施例的基础上,进一步的,如果某一候选实体满足多个相同属性特征,则将其权值累加作为该候选实体的第一得分,并按照第一得分的高低顺序对候选实体进行排序,使得扩展实体集合的结果更加智能化,更加符合用户的查询期望。
图3为本发明实施例提供的再一实体集合扩展方法的流程示意图,本实施例在图2所示实施例的基础上,进一步的,在S1041之后还包括:
S1044:分别确定各相同属性特征对应的候选实体集合与种子实体集合的相关性,并根据所述相关性确定每个所述候选实体的第二权重值。
需要说明的是,受限于知识库的数量和质量,根据种子实体集合找到的相同属性特征并不要求所有的种子都满足,如果对于某一相同属性特征πn,种子实体集合M中不具有所述相同属性特征πn的种子实体数目越多,则说明πn相对于给定的种子实体集合的歧义性越大。基于此,进一步的,作为一种可选的实施方式,还可以确定各相同属性特征对应的候选实体集合E(π)与种子实体集合M的相关性,并根据两者的相关性确定每个候选实体的第二权重值。此处,需要再给出其他定义进行辅助说明:
定义5:设种子实体集合M中不具有相同属性特征π的种子实体集合为M'(π);
定义6:设种子实体集合M中至多有|M'(π)|个种子实体不具有的相同属性特征的集合为Φ|M'(π)|(M)。
基于上述示例,作为一种优选的实施方式,可以通过M'(π)的数量来确定各相同属性特征π与种子实体集合M之间的歧义性。
较佳的,可以通过公式A(π,M)=|ΦM'(π)(M)|,计算各相同属性特征π与种子实体集合M的歧义性。
进一步的,可以通过公式计算各相同属性特征π对应的候选实体集合E(π)与种子实体集合M的一致性,然后根据公式计算各相同属性特征π对应的候选实体集合E(π)与种子实体集合M的相关性,并以此确定每个候选实体的第二权重值。
需要说明的是,J(e',e)表示两个实体(e’和e)所具有的属性特征的Jaccard相似度系数,根据Jaccard相似度系数的定义可知,J(e',e)可以通过公式计算得到,其中Ω(e)为实体e所具有的属性特征的集合。
相应的,上述S1043具体可以包括:根据每个候选实体的第一权重值的大小和第二权重值的大小确定所述扩展实体集合(S1043-1)。
可选的,可以根据公式计算每个候选实体的第二得分,然后对每个候选实体的第二得分按照由高到低的顺序进行排序得到扩展实体集合。
本实施例提供的实体集合扩展方法,在图2所示实施例的基础上,进一步的,还计算了每个相同属性特征对应的候选实体集合与种子实体集合的相关性,并根据该相关性确定每个候选实体的第二权重值。通过计算每个候选实体的第一权重值和第二权重值对应的第二得分,并按照第二得分的高低顺序对候选实体进行排序,使得扩展实体集合的结果更加智能和准确,更加符合用户的查询期望。
图4为本发明实施例提供的再一实体集合扩展方法的流程示意图,本实施例在图3所示实施例的基础上,进一步的,在S1043之前还包括如下步骤:
S1045,接收用户输入的待查询实体属性特征;
S1046,确定所述待查询实体属性特征与所述各相同属性特征的匹配性;
S1047,根据所述匹配性分别确定每个所述候选实体的第三权重值;
继续通过上述示例加以说明,用户在输入种子实体之后,又输入了用户期望查询的属性特征,例如获取用户输入的种子实体集合M={中国,美国,俄罗斯、印度},用户又通过用户终端输入了待查询实体属性特征“领土面积排名前10名的国家”。实体集合扩展装置接收用户输入的待查询实体属性特征,进一步的,还可以确定所述待查询实体属性特征与根据种子实体集合在RDF知识库中确定的各相同属性特征的匹配性。
作为一种优选的实施方式,可以通过计算待查询实体属性特征中包含的词条与所述相同属性特征中包含的词条的Jaccard相似度系数来确定待查询实体属性特征与根据种子实体集合在RDF知识库中确定的各相同属性特征的匹配性。
根据Jaccard相似度系数的定义可知,可以根据公式计算所述待查询实体属性特征中包含的词条与所述相同属性特征中包含的词条的Jaccard相似度系数,其中Q为所述待查询实体属性特征,E'(Q)为所述待查询实体属性特征中包含的词条集合,E'(π)为所述相同属性特征中包含的词条集合。
需要说明的是,本实施例中词条可以通过下述示例加以解释。词条可以是字、词,也可以由字、词等组成,词条也包括其中的释文。如:明,朝代名;北京,中国首都;朝鲜民主主义人民共和国,位于朝鲜半岛北部的国家等。其中,“明”、“北京”、“朝鲜民主主义人民共和国”,均是词条。由字、词等组成的词条,必须是固定的、不能拆分的,更不能是生造的。词条也不能是一句话。如:“学校”是词条,但“学校上课”就不是词条;“中国”是词条,但“中国首都”就不是词条。
在实际应用中,可选的,还可以通过预先设置的修正系数λ对J(π,Q)进行修正。具体的可以根据公式修正J(π,Q)。
相应的,上述S1043具体可以包括:根据每个候选实体的第三权重值的大小、第一权重值的大小和第二权重值的大小确定所述扩展实体集合(S1043-2)。
可选的,可以根据公式计算每个候选实体的第三得分,然后对每个候选实体的第三得分按照由高到低的顺序进行排序得到扩展实体集合。
本实施例提供的实体集合扩展方法,在图3所示实施例的基础上,进一步的,提出了在用户输入了待查询实体属性特征的情况下的优选实施方案。通过计算待查询实体属性特征与各相同属性特征的匹配性确定与各相同属性特征对应的每个候选实体的第三权重值。通过计算每个候选实体的第一权重值、第二权重值和第三权重值对应的第三得分,并按照第三得分的高低顺序对候选实体进行排序,使得扩展实体集合的结果更加智能和准确,更加符合用户的查询期望。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种实体集合扩展方法,其特征在于,包括:
获取用户输入的种子实体集合,所述种子实体集合中包含的种子实体的数量为至少两个;
根据所述种子实体集合中每个种子实体的实体名,在RDF知识库中确定所述每个种子实体对应的属性信息,所述属性信息中包括至少一个属性特征,所述RDF知识库中存储有预先建立的每个实体的实体名和属性信息的关联关系;
根据所述每个种子实体对应的属性信息,确定所述种子实体集合对应的相同属性特征,所述相同属性特征包括至少两个种子实体所具有的相同的属性特征;
确定所述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合;
将所述扩展实体集合中包括的实体添加到所述种子实体集合中,得到扩展后的实体集合;
将所述扩展后的实体集合发送给用户终端设备。
2.根据权利要求1所述的方法,其特征在于,所述相同属性特征的数量为N个,所述N为大于0的整数;
所述确定所述RDF知识库中具有所述相同属性特征的其他实体构成扩展实体集合,包括:
分别确定各相同属性特征对应的候选实体集合;
分别确定每个所述候选实体集合中包含的实体的数量,并根据所述数量确定每个候选实体的第一权重值,所述候选实体属于至少一个候选实体集合;
根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合。
3.根据权利要求2所述的方法,其特征在于,所述根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合,包括:
根据公式计算每个所述候选实体的第一得分,其中π为所述相同属性特征,E(π)为具有所述相同属性特征π的候选实体集合,M为所述种子实体集合,Φ(M)为所述相同属性特征的集合;
根据每个所述候选实体的第一得分确定所述扩展实体集合。
4.根据权利要求3所述的方法,其特征在于,所述分别确定各相同属性特征对应的候选实体集合之后,还包括:
分别确定各相同属性特征对应的候选实体集合与所述种子实体集合的相关性,并根据所述相关性确定每个所述候选实体的第二权重值;
相应的,所述根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合,包括:
根据每个所述候选实体的所述第一权重值的大小和所述第二权重值的大小确定所述扩展实体集合。
5.根据权利要求4所述的方法,其特征在于,所述分别确定各相同属性特征对应的候选实体集合与所述种子实体集合的相关性,包括:
根据公式A(π,M)=|ΦM'(π)(M)|,计算各相同属性特征与所述种子实体集合的歧义性,其中M'(π)为所述种子实体集合M中不具有所述相同属性特征π的种子实体集合,Φ|M'(π)|(M)为所述种子实体集合M中至多有|M'(π)|个种子实体不具有的所述相同属性特征的集合;
根据公式计算各相同属性特征对应的候选实体集合与所述种子实体集合的一致性,其中Ω(e)为实体e所具有的属性特征的集合,e'是所述种子实体集合M中不具有所述相同属性特征π的种子实体;
根据公式计算各相同属性特征对应的候选实体集合与所述种子实体集合的相关性。
6.根据权利要求5所述的方法,其特征在于,所述根据每个所述候选实体的所述第一权重值的大小和所述第二权重值的大小确定所述扩展实体集合,包括:
根据公式计算每个所述候选实体的第二得分;
根据每个所述候选实体的第二得分确定所述扩展实体集合。
7.根据权利要求6所述的方法,其特征在于,所述根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合之前,还包括:
接收所述用户输入的待查询实体属性特征;
确定所述待查询实体属性特征与所述各相同属性特征的匹配性;
根据所述匹配性分别确定每个所述候选实体的第三权重值;
相应的,所述根据每个所述候选实体的第一权重值的大小确定所述扩展实体集合,包括:
根据每个所述候选实体的所述第三权重值的大小、所述第一权重值的大小和所述第二权重值的大小确定所述扩展实体集合。
8.根据权利要求7所述的方法,其特征在于,所述确定所述待查询实体属性特征与所述各相同属性特征的匹配性,包括:
根据公式计算所述待查询实体属性特征中包含的词条与所述相同属性特征中包含的词条的Jaccard相似度系数,其中Q为所述待查询实体属性特征,E'(Q)为所述待查询实体属性特征中包含的词条集合,E'(π)为所述相同属性特征中包含的词条集合;
根据所述Jaccard相似度系数确定所述待查询实体属性特征与所述各相同属性特征的匹配性。
9.根据权利要求8所述的方法,其特征在于,还包括:
根据公式修正所述Jaccard相似度系数,其中λ为预先设置的修正系数。
10.根据权利要求8或9所述的方法,其特征在于,所述根据每个所述候选实体的所述第三权重值的大小、所述第一权重值的大小和所述第二权重值的大小确定所述扩展实体集合,包括:
根据公式:计算每个所述候选实体的第三得分;
根据每个所述候选实体的第三得分确定所述扩展实体集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510133520.4A CN104794163B (zh) | 2015-03-25 | 2015-03-25 | 实体集合扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510133520.4A CN104794163B (zh) | 2015-03-25 | 2015-03-25 | 实体集合扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104794163A CN104794163A (zh) | 2015-07-22 |
CN104794163B true CN104794163B (zh) | 2018-07-13 |
Family
ID=53558955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510133520.4A Active CN104794163B (zh) | 2015-03-25 | 2015-03-25 | 实体集合扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104794163B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550226B (zh) * | 2015-12-07 | 2018-09-04 | 中国人民大学 | 一种基于知识库的查询分面生成方法 |
US20170337486A1 (en) * | 2016-05-17 | 2017-11-23 | Futurewei Technologies, Inc. | Feature-set augmentation using knowledge engine |
CN106844718B (zh) * | 2017-02-08 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 数据集合的确定方法和装置 |
CN108334528B (zh) * | 2017-03-02 | 2020-12-01 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法和装置 |
CN108536709B (zh) * | 2017-03-03 | 2021-04-30 | 北京明略软件系统有限公司 | 一种搜索优化方法及装置 |
CN108921213B (zh) * | 2018-06-28 | 2021-06-22 | 国信优易数据股份有限公司 | 一种实体分类模型训练方法及装置 |
CN109902156B (zh) * | 2019-01-09 | 2021-12-24 | 千城数智(北京)网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN103699689A (zh) * | 2014-01-09 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 事件知识库的构建方法及装置 |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
CN104239340A (zh) * | 2013-06-19 | 2014-12-24 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
US8984019B2 (en) * | 2012-11-20 | 2015-03-17 | International Business Machines Corporation | Scalable summarization of data graphs |
US20140280008A1 (en) * | 2013-03-15 | 2014-09-18 | International Business Machines Corporation | Axiomatic Approach for Entity Attribution in Unstructured Data |
US10360232B2 (en) * | 2013-07-08 | 2019-07-23 | Sap Se | Semantic mapping of data from an entity-relationship model to a graph-based data format to facilitate simplified querying |
-
2015
- 2015-03-25 CN CN201510133520.4A patent/CN104794163B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104239340A (zh) * | 2013-06-19 | 2014-12-24 | 北京搜狗信息服务有限公司 | 搜索结果筛选方法与装置 |
CN103699663A (zh) * | 2013-12-27 | 2014-04-02 | 中国科学院自动化研究所 | 一种基于大规模知识库的热点事件挖掘方法 |
CN103699689A (zh) * | 2014-01-09 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 事件知识库的构建方法及装置 |
CN104035917A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 一种基于语义空间映射的知识图谱管理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104794163A (zh) | 2015-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104794163B (zh) | 实体集合扩展方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
KR100849272B1 (ko) | 마크업 문서 자동 요약 방법 | |
US20230043891A1 (en) | Systems, devices, and methods for improved affix-based domain name suggestion | |
US8560485B2 (en) | Generating a domain corpus and a dictionary for an automated ontology | |
US20130054650A1 (en) | Automatic detection of columns to be obfuscated in database schemas | |
CN104765729B (zh) | 一种跨平台微博社区账户匹配方法 | |
US10521474B2 (en) | Apparatus and method for web page access | |
WO2002010957A2 (en) | Computer method and apparatus for determining content types of web pages | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN102314440B (zh) | 利用网络维护语言模型库的方法和系统 | |
Palma et al. | Semantic analysis of RESTful APIs for the detection of linguistic patterns and antipatterns | |
CN104615768B (zh) | 文档的同本识别方法及装置 | |
Cordobés et al. | Graph-based techniques for topic classification of tweets in Spanish | |
Pavllo et al. | Quootstrap: Scalable unsupervised extraction of quotation-speaker pairs from large news corpora via bootstrapping | |
CN107391682B (zh) | 知识验证方法、知识验证设备以及存储介质 | |
CN112805715A (zh) | 识别实体属性关系 | |
US10489024B2 (en) | UI rendering based on adaptive label text infrastructure | |
Yang et al. | Automatic generation of English/Chinese thesaurus based on a parallel corpus in laws | |
US9336311B1 (en) | Determining the relevancy of entities | |
Lisowska | Metadata for the open data portals | |
Alfrjani et al. | A new approach to ontology-based semantic modelling for opinion mining | |
CN111460808A (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
US11914960B2 (en) | System and method for statistical subject identification from input data | |
CN110008352A (zh) | 实体发现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |