CN105550336B - 单一实体实例的挖掘方法和装置 - Google Patents

单一实体实例的挖掘方法和装置 Download PDF

Info

Publication number
CN105550336B
CN105550336B CN201510971804.0A CN201510971804A CN105550336B CN 105550336 B CN105550336 B CN 105550336B CN 201510971804 A CN201510971804 A CN 201510971804A CN 105550336 B CN105550336 B CN 105550336B
Authority
CN
China
Prior art keywords
entity
name
attribute
same
instance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510971804.0A
Other languages
English (en)
Other versions
CN105550336A (zh
Inventor
邸楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201510971804.0A priority Critical patent/CN105550336B/zh
Publication of CN105550336A publication Critical patent/CN105550336A/zh
Application granted granted Critical
Publication of CN105550336B publication Critical patent/CN105550336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support

Abstract

本发明提供了一种单一实体实例的挖掘方法和装置。其中,方法包括:抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。本发明最终合并得到的单一实体实例描述的即为同一实体,挖掘结果较为准确,因此采用上述单一实体实例构建的知识库更加准确,进而使后续用户查询知识库时的查询结果也更加准确,提升用户体验。

Description

单一实体实例的挖掘方法和装置
技术领域
本发明涉及数据处理技术领域,特别是涉及一种单一实体实例的挖掘方法和装置。
背景技术
知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
在建立知识库之前,需要通过领域知识,建立该领域里内统一的数据架构,该数据架构用来描述领域内知识的整体架构,一般来说数据架构可以以实体为单位来进行描述。制定好以实体为单位的结构之后,将每个实体对应的实体实例信息规范到该实体对应的数据架构下,实体实例信息包括实体名、属性名、属性值等,这些数据经过处理之后,得到提供服务的结构化数据组成知识库。
但是,在真实世界中存在很多实体名相同但实际不同的实体,如果基于实体名对实体进行区分,将实体名相同的实体实例作为同一实体对应的实体实例,则可能会将实际上为不同实体的实体实例作为同一实体对应的实体实例,因此现有采用上述实体对应的实体实例构建的知识库不准确,进而导致后续用户查询知识库时的查询结果不准确,影响用户体验。
发明内容
本发明提供一种单一实体实例的挖掘方法和装置,以解决现有方法中描述同一实体的实体实例不准确,导致构建的知识库不准确,进而导致后续用户查询知识库时的查询结果不准确,影响用户体验的问题。
为了解决上述问题,本发明公开了一种单一实体实例的挖掘方法,包括:
抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。
优选的,所述同名实体对应的具有单一区分度的属性名为预设的;
或者,通过以下步骤确定所述同名实体对应的具有单一区分度的属性名:比较所述同名实体下的不同实体实例之间,各个相同属性名下的属性值的相同程度;将属性值相同程度超过第一设定阈值的属性名判定为所述同名实体对应的具有单一区分度的属性名。
优选的,所述针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例的步骤,包括:
针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集;将每个子集中的实体实例,合并得到所述同一实体的单一实体实例。
优选的,所述针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集的步骤,包括:
针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;分别判断各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件;如果符合,则对该子集不再划分;如果不符合,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合所述预设条件为止。
优选的,所述针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集的步骤,包括:针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,对所述集合进行划分,直到划分得到的每个子集对应的具有单一区分度的属性名下的属性值都相等为止。
优选的,在所述分别抽取所述页面中包括的实体实例的实体名、属性名和属性值的步骤之后,还包括:
基于所述同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
优选的,所述挖掘所述同名实体对应的同义属性名的步骤,包括:基于所述属性名的相似度,聚类挖掘得到所述同名实体对应的同义属性名;或者,基于所述属性名的相似度和属性共现约束,聚类挖掘得到所述同名实体对应的同义属性名;其中,所述属性共现约束为:出现在同一实体实例中的不同属性名是不同义的。
优选的,所述方法还包括:基于所述同一实体的单一实体实例,构建知识库。
本发明还公开了一种单一实体实例的挖掘装置,包括:
抓取模块,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。
本发明还公开了一种用于单一实体实例挖掘的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。
与现有技术相比,本发明包括以下优点:
本发明抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面,并分别抽取页面中包括的实体实例的实体名、属性名和属性值,对同名实体抽取到的实体实例可能有多个,然后针对同名实体的实体实例集合,按照该同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将集合中描述同一实体的实体实例合并成该同一实体的单一实体实例。由此可知,本发明并非是按照实体名是否相同区分是否为同一实体,而是根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,合并得到的单一实体实例描述的即为同一实体,合并结果较为准确,因此采用上述单一实体实例构建的知识库更加准确,进而使后续用户查询知识库时的查询结果也更加准确,提升用户体验。
附图说明
图1是本发明实施例一的一种单一实体实例的挖掘方法的步骤流程图;
图2是本发明实施例一中抓取的页面的示意图;
图3是本发明实施例二的一种单一实体实例的挖掘方法的步骤流程图;
图4是本发明实施例三的一种构建知识库的方法的步骤流程图;
图5是本发明实施例四的一种构建知识库的方法的步骤流程图;
图6是本发明实施例五的一种单一实体实例的挖掘装置的结构框图;
图7是本发明实施例六的一种单一实体实例的挖掘装置的结构框图;
图8是本发明实施例七的一种构建知识库的装置的结构框图;
图9是本发明实施例八的一种构建知识库的装置的结构框图;
图10是本发明一示例性实施例的一种用于单一实体实例挖掘的装置的结构框图;
图11是本发明一示例性实施例中服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参照图1,示出了本发明实施例一的一种单一实体实例的挖掘方法的步骤流程图。
本实施例的单一实体实例的挖掘方法可以包括以下步骤:
步骤101,抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面。
其中,实体是一个具体事物或概念,实体一般会划分类型,例如人物类实体、电影类实体等。同一个实体可以对应多个实体实例,实体实例是在网络(或其它媒介)中对一个实体的描述性页面(内容),例如各种百科的页面中即包含实体对应的实体实例。
本发明实施例中,首先抓取来自于多个数据来源,包含特定类型实体对应实体实例的页面。其中,多个数据来源可以指各网站网页、多个类型的百科,例如百度百科、搜狗百科、好搜百科、互动百科等,特定类型为预先设定的某一类型,如人物类、电影类等,本发明实施例即是针对同一类型的实体进行处理。例如,本步骤可以从百度百科、搜狗百科、好搜百科、互动百科等多数据来源中抓取包含人物类实体对应实体实例的页面,或者从百度百科、搜狗百科、好搜百科、互动百科等多数据来源中抓取包含电影类实体对应实体实例的页面,等等,本发明实施例对此并不加以限制。
需要说明的是,对于抓取页面的具体过程,本领域技术人员根据实际经验选取任意可行的方式均可,例如可以采用网络爬虫程序抓取页面等,本发明实施例在此不再详细论述。
步骤102,分别抽取所述页面中包括的实体实例的实体名、属性名和属性值。
参照图2,示出了本发明实施例一中抓取的页面的示意图。由图2可知,该页面的数据来源为搜狗百科,其中包含人物类实体对应的实体实例,实体实例可以包括有该实体的实体名、属性名和属性值,一个实体实例可以对应有一个实体名,一个实体实例可以对应有多个属性,每个属性对应有属性名和该属性对应的属性值。如图2中实体实例的实体名为“刘德华”,其中的“国籍”、“民族”、“出生地”、“出生日期”、“星座”等为该实体实例包括属性的属性名,各个属性对应的数据为该属性的属性值,如属性名为“国籍”的属性的属性值为“中国”,属性名为“民族”的属性的属性值为“汉族”,属性名为“出生地”的属性的属性值为“香港新界大埔镇泰亨村”,属性名为“出生日期”的属性的属性值为“1961年9月27日”,等等。
在抓取页面后,即可分别抽取各个页面中包括的实体实例的实体名、属性名和属性值。其中,实体名可以从页面的title(标题)中抽取,或者可以从页面的预设位置(可以是固定或者已知的位置)抽取,属性名和属性值可以从页面的预设位置(可以是固定或者已知的位置)抽取。
步骤103,针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例。
其中,所述同名实体可以为实体名相同的实体实例;所述同名实体的实体实例集合即为实体名相同的实体实例构成的集合。
上述得到的为特定类型实体对应的多个实体实例,其中可能包括实体名不相同的实体实例,例如对于人物类实体,其中可能包括实体名为“刘德华”的多个实体实例,实体名为“李娜”的多个实体实例;再例如对于电影类实体,其中可能包括实体名为“港囧”的多个实体实例,实体名为“夏洛特烦恼”的多个实体实例,等等,本发明实施例将针对同名实体的实体实例进行处理,因此首先可以划分出至少一个同名实体的实体实例集合。
由于存在很多实体名相同但实际不同的实体,因此本发明实施例并非直接将同名实体的实体实例集合作为该同名实体对应的实体实例,而是对于同名实体的实体实例集合,进一步按照该同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将集合中描述同一实体的实体实例查找到,并将描述同一实体的实体实例合并成该同一实体的单一实体实例,因此得到的单一实体实例即为能够准确地描述同一实体的实体实例。对于该步骤的具体过程,将在下面的实施例二中详细论述。
本发明实施例并非是按照实体名是否相同区分是否为同一实体,而是根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,合并得到的单一实体实例描述的即为同一实体,合并结果更加准确。
实施例二
参照图3,示出了本发明实施例二的一种单一实体实例的挖掘方法的步骤流程图。
本实施例的单一实体实例的挖掘方法可以包括以下步骤:
步骤301,抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面。
本发明实施例中,针对某一特定类型的实体进行处理,以下以特定类型是人物类为例进行说明,对于其他类型实体的处理过程参照人物类实体的处理过程即可。
步骤302,分别抽取所述页面中包括的实体实例的实体名、属性名和属性值。
抓取来自于各网站网页,例如百度百科、搜狗百科、好搜百科等多个数据来源,且包含人物类实体对应实体实例的多个页面,并针对每个页面中的实体实例,分别抽取该实体实例的实体名、属性名和属性值。一个实体实例对应有一个实体名,对应有多个属性,每个属性对应有各自的属性名和属性值,本实施例中针对一个实体实例抽取多组包括实体名、属性名和属性值的三元组,其中抽取的三元组的个数与该实体实例的属性名的个数相等。
例如,某个页面中的实体实例“李娜”,包括三个属性,对应的属性名分别为“出生日期”、“性别”、“职业”。则,该实体实例可以表示为:实体实例1={(实体名)name=李娜,(属性)出生日期=1982年2月26日,(属性)性别=女,(属性)职业=网球选手},则针对该实体实例1可以抽取出如下的三个三元组:{李娜,出生日期,1982年2月26日},{李娜,性别,女},{李娜,职业,网球选手}。
再例如,另一个页面中的实体实例可以表示为:实体实例2={name=李娜,生日=1982年2月26日,职业=网球选手,出生地=湖北省武汉市江岸区},则针对该实体实例2可以抽取出如下的三个三元组:{李娜,生日,1982年2月26日},{李娜,职业,网球选手},{李娜,出生地,湖北省武汉市江岸区}。
再例如,另一个页面中的实体实例可以表示为:实体实例3={name=李娜,出生日期=1963年7月25日,性别=女,出生地=河南郑州,职业=歌手},则针对该实体实例3可以抽取出如下的四个三元组:{李娜,出生日期,1963年7月25日},{李娜,性别,女},{李娜,出生地,河南郑州},{李娜,职业,歌手}。
再例如,另一个页面中的实体实例可以表示为:实体实例4={name=李娜,出生日期=1963-7-25,职业=歌手},则针对该实体实例4可以抽取出如下的两个三元组:{李娜,出生日期,1963-7-25},{李娜,职业,歌手}。
再例如,另一个页面中的实体实例可以表示为:实体实例5={name=李娜,出生日期=1982年2月26日,性别=女,职业=歌手},则针对该实体实例5可以抽取出如下的三个三元组:{李娜,出生日期,1982年2月26日},{李娜,性别,女}{李娜,职业,歌手}。
再例如,另一个页面中的实体实例可以表示为:实体实例6={name=李娜,出生日期=1985年1月1日,职业=歌手},则针对该实体实例6可以抽取出如下的两个三元组:{李娜,出生日期,1985年1月1日},{李娜,职业,歌手}。
再例如,另一个页面中的实体实例可以表示为:实体实例7={name=刘德华,出生日期=1961年9月27日,性别=男,职业=歌手,民族=汉},则针对该实体实例7可以抽取出如下的四个三元组:{刘德华,出生日期,1961年9月27日},{刘德华,性别,男},{刘德华,职业,歌手},{刘德华,出生地,香港新界大埔镇泰亨村}。
再例如,另一个页面中的实体实例可以表示为:实体实例8={name=刘德华,生日=1961年9月27日,出生地=香港新界大埔镇泰亨村},则针对该实体实例8可以抽取出如下的两个三元组:{刘德华,生日,1961年9月27日},{刘德华,出生地,香港新界大埔镇泰亨村}。
步骤303,基于同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
将上述得到的实体实例中的同名实体实例作为一个集合,例如,上述的实体实例1、实体实例2、实体实例3、实体实例4、实体实例5和实体实例6的实体名相同,作为一个同名实体的实体实例集合;实体实例7和实体实例8的实体名相同,作为一个同名实体的实体实例集合。以下将以实体实例1、实体实例2、实体实例3、实体实例4、实体实例5和实体实例6这一同名实体的实体实例集合为例进行介绍。
不同页面中对同一属性对应的属性名的描述可能是多样的,例如对“人物”类实体的属性“生日”,其属性名可以为“出生日期”,也可以为“生日”,也可以为“生辰”,也可以为“出生年月日”等。如上述的实体实例1、实体实例3、实体实例4、实体实例5、实体实例6和实体实例7中即用“出生日期”表示,实体实例2和实体实例8中即用“生日”表示,但是这两种不同的属性名实际上对应的是同一个属性,可以称之为同义属性名。针对该种情况,本实施例中将基于同名实体的实体实例集合,挖掘该同名实体对应的同义属性名。
进一步地,考虑到页面中对属性值的描述也可能是多样的,例如对于属性值为日期的情况,页面中可以记录为实体实例3中的“1963年7月25日”,也可以记录为实体实例4中的“1963-7-25”。针对该种情况,为了保证依据属性值进行相关处理时的准确性,本实施例中还可以离线学习各类属性值的归一化方法,在基于同名实体的实体实例集合挖掘同义属性名之前,对属性值进行归一化处理,使其都归为同一形式,例如,将日期这类属性值都归一为YYYYMMDD这样的八位数字形式,如上述的“1963年7月25日”和“1963-7-25”都将归一为“19630725”的形式。对于将属性值进行归一化处理的具体过程,本领域技术人员根据实际经验进行相关处理即可,本发明实施例在此不再详细论述。
优选地,本实施例步骤303中挖掘同名实体对应的同义属性名的步骤可以包括:基于属性名的相似度,聚类挖掘得到同名实体对应的同义属性名。其中,属性名的相似度可以通过计算属性名下的属性值的相同程度来度量,具体可以统计同名实体的实体实例集合下的不同实体实例中,每两个不同属性名对应的属性值相同的第一概率,将该第一概率作为这两个属性名的相似度。例如“生日”、“出生日期”两个属性名,在同名实体对应的1000个不同实体实例中,有900个对应的值是相同的,则“生日”、“出生日期”的相似度可以900/1000即0.9。在得到属性名的相似度后,即可依据属性名的相似度对同名实体的实体实例集合中的属性名进行聚类,从而挖掘得到该同名实体对应的同义属性名。
优选地,本实施例步骤303中挖掘同名实体对应的同义属性名的步骤可以包括:基于属性名的相似度和属性共现约束,聚类挖掘得到所述同名实体对应的同义属性名。其中,属性共现约束是指出现在同一实体实例中的不同属性名是不同义的,也即在同一实体实例中同义的属性名最多只会出现一次,例如实体实例1中的出生日期、性别、职业这3个属性名是不同义的,因此可以统计同名实体的实体实例集合下的同一实体实例中,每两个不同属性名对应的属性值相同的第二概率,将该第二概率作为这两个属性名之间的属性共现约束。在得到属性名的相似度和属性共现约束后,即可依据属性名的相似度和属性共现约束对同名实体的实体实例集合中的属性名进行聚类,从而挖掘得到该同名实体对应的同义属性名。
上述聚类可以采用层次聚类、划分聚类等聚类方法,本发明实施例对此并不加以限制,对于具体的聚类过程,本领域技术人员根据实际经验进行相关处理即可,本实施例在此不再详细论述。例如,基于实体实例1、实体实例2、实体实例3、实体实例4、实体实例5和实体实例6这一同名实体的实体实例集合,即可挖掘得到该同名实体对应的同义属性名为“出生日期”和“生日”。
步骤304,针对同名实体的实体实例集合,结合所述同名实体对应的同义属性名,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例。
同名实体对应有至少一个具有单一区分度的属性名,具有单一区分度的属性名的特征是,如果两个实体对应的该属性名下的属性值不同,则这两个实体不是同一实体。
优选地,本实施例中所述的同名实体对应的具有单一区分度的属性名可以为预设的。预先对各个不同类型的实体进行分析,得到该类型的实体对应的具有单一区分度的属性名,例如对于人物类实体进行分析发现,如果两个实体对应的“出生日期”这一属性名下的属性值不同,则这两个实体不是同一实体;如果两个实体对应的“性别”这一属性名下的属性值不同,则这两个实体也不是同一实体,因此可以预设人物类实体对应的具有单一区分度的属性名为“出生日期”、“性别”等。
优选地,本实施例中所述的同名实体对应的具有单一区分度的属性名可以通过以下步骤确定:结合所述同名实体对应的同义属性名,比较同名实体下的不同实体实例之间,各个相同属性名下的属性值的相同程度;将属性值相同程度超过第一设定阈值的属性名判定为该同名实体对应的具有单一区分度的属性名。需要说明的是,上述确定同名实体对应的具有单一区分度的属性名的过程是在步骤303中挖掘出同义属性名的基础上执行的,也即在比较同名实体下的不同实体实例之间,各个属性名下的属性值的相同程度时,是指相同属性名之间进行比较,其中,文字表示上相同的属性名为相同属性名,如实体实例1中的“出生日期”和实体实例3中的“出生日期”,经过上述步骤303中挖掘出的同义属性名也为相同属性名,如实体实例1中的“出生日期”和实体实例2中的“生日”,也即,上述相同属性名包括文字表示上相同的属性名和同义属性名。例如,针对人物类实体下实体名为“李娜”的若干实体实例中,比较不同实体实例之间,相同属性名下的属性值的相同程度,如果属于同一实体,则“出生日期”这个属性名下的属性值应该都是相同的,而主要成就这个属性的属性值则可能差别较大,因此可以判定“出生日期”为该实体名为“李娜”的同名实体对应的具有单一区分度的属性名。对于上述第一设定阈值的具体数值,本领域技术人员根据实际经验进行相关设置即可,例如可以设置为70%、80%等,本发明实施例对此并不加以限制。
针对同名实体的实体实例集合,获取到该同名实体对应的具有单一区分度的属性名后,即可按照这些具有单一区分度的属性名下的属性值的分布熵指标,将集合中描述同一实体的实体实例合并成该同一实体的单一实体实例。熵是描述一个随机变量不确定性的度量指标,本实施例中可以通过分布熵指标来衡量一个属性名在同名实体中对应属性值的混乱程度,如果同名实体的实体实例集合中属性名下的属性值的混乱程度低即分布熵较小(属性值都倾向于相同),说明当前实体实例集合已经只包含同一实体的实体实例,不可再分了;反之如果混乱度高即分布熵较大(属性值倾向于不同),说明当前实体实例集合中还包括了不同实体的实体实例,需要继续划分。
优选地,该步骤304可以包括以下子步骤a1至a2:
子步骤a1,针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集;
优选地,该子步骤a1包括a11至a12:
a11,针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;
同名实体对应的具有单一区分度的属性名包括多个,分别计算各个具有单一区分度的属性名下的属性值的分布熵,选取其中分布熵最大的一个具有单一区分度的属性名,按照该选取的分布熵最大的具有单一区分度的属性名下的属性值的不同,将该集合划分为至少两个子集。对于其中属性值的分布熵的计算,本领域技术人员根据实际经验进行相关处理即可,本发明实施例对此不再详细论述。
例如,上述包括实体实例1、实体实例2、实体实例3、实体实例4、实体实例5和实体实例6的实体名为“李娜”的集合,其对应的具有单一区分度的属性名为“出生日期”和“职业”,经过计算属性名“出生日期”下的属性值的分布熵最大,则按照“出生日期”将该集合划分为3个子集,其中实体实例1、实体实例2和实体实例5为一个子集,实体实例3和实体实例4为一个子集,实体实例6为一个子集。
a12,分别判断各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件;如果符合,则对该子集不再划分;如果不符合,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合所述预设条件为止。
划分得到子集后,再分别计算各个子集对应的具有单一区分度的属性名下的属性值的分布熵,并判断具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件,如果不符合,则对该子集继续划分,具体为选取其中分布熵最大的一个具有单一区分度的属性名,按照该选取的具有单一区分度的属性名下的属性值的不同,将该子集继续划分为至少两个子集。其中,预设条件为每个具有单一区分度的属性名下的属性值的分布熵均小于第二设定阈值,对于第二设定阈值的具体数值,本领域技术人员根据实际经验进行相关设置即可,例如可以设置为0.2、0.1等,本发明实施例对此并不加以限制。
例如,分别计算上述实体实例1、实体实例2和实体实例5组成的子集对应的具有单一区分度的属性名“职业”和“出生日期”下的属性值的分布熵,实体实例3和实体实例4组成的子集对应的具有单一区分度的属性名“职业”和“出生日期”下的属性值的分布熵,实体实例6组成的子集对应的具有单一区分度的属性名“职业”和“出生日期”下的属性值的分布熵,经过判断,实体实例1、实体实例2和实体实例5组成的子集对应的具有单一区分度的属性名“职业”下的属性值的分布熵不符合预设条件,其他两个子集对应的具有单一区分度的属性名下的属性值的分布熵符合预设条件,因此对实体实例1、实体实例2和实体实例5组成的子集继续划分,按照具有单一区分度的属性名“职业”下的属性值的不同,将该子集继续划分为包括实体实例1和实体实例2的子集,以及包括实体实例5的子集。再分别计算包括实体实例1和实体实例2的子集对应的具有单一区分度的属性名“职业”和“出生日期”下的属性值的分布熵,以及包括实体实例5的子集对应的具有单一区分度的属性名“职业”和“出生日期”下的属性值的分布熵,经过判断,两个子集对应的具有单一区分度的属性名下的属性值的分布熵均符合预设条件,则不再进行划分。因此,最终划分得到四个子集,分别为:包括实体实例1和实体实例2的子集,包括实体实例3和实体实例4的子集,包括实体实例5的子集,包括实体实例6的子集。
另一优选地,该子步骤a1可以包括a13:
a13,针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,对所述集合进行划分,直到划分得到的每个子集对应的具有单一区分度的属性名下的属性值都相等为止。
该a13具体可以包括:针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;分别判断各个子集对应的具有单一区分度的属性名下的属性值的是否相等;如果相等,则对该子集不再划分;如果不相等,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值都相等为止。
a13的方式与上述a11和a12的方式的区别在于,a11和a12的方式中结束划分的条件为各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件(划分后各个子集对应的具有单一区分度的属性名下的属性值不一定都相等,而是一定程度的相等,例如某个子集中包括100个实体实例,其中只有一个实体实例的某个单一区分度的属性名下的属性值与其他99个不同,那么该种情况下根据分布熵指标判断出符合预设条件,则对该子集也不再继续划分);而a13的方式中结束划分的条件为各个子集对应的具有单一区分度的属性名下的属性值都相等,相对来说a13划分得到的子集更加准确。
子步骤a2,结合所述同名实体对应的同义属性名,将每个子集中的实体实例,合并得到所述同一实体的单一实体实例。
经过上述划分后,可以确定得到的每个子集中的实体实例描述的即为同一实体,因此将每个子集中的实体实例合并,即可得到同一实体的单一实体实例。其中,每个子集中的实体实例的实体名是相同的,合并时具体为:针对每个子集中的实体实例,将子集中实体实例的实体名作为单一实体实例的实体名,将子集中实体实例的属性名和属性值均作为单一实体实例的属性名和属性值,并将其中的相同属性名合并为同一属性名,其中相同属性名包括文字表示上相同的属性名和同义属性名。
优选地,本实施例中还可以将步骤303中挖掘出的同义属性名进行归一化处理,即将同义属性名归一为同一形式,例如将“出生日期”和“生日”归一为“出生日期”,以方便实体实例的合并。其中对同义属性名的归一化处理可以在挖掘出同义属性名之后执行,也可以在合并实体实例之前执行,本发明实施例对此并不加以限制。
例如,对于上述a11和a12中最终划分得到的子集中,将包括实体实例1和实体实例2的子集中的两个实体实例合并得到一个单一实体实例,即为单一实体实例1={name=李娜,出生日期=1982年2月26日,性别=女,职业=网球选手,出生地=湖北省武汉市江岸区};将包括实体实例3和实体实例4的子集中的两个实体实例合并得到一个单一实体实例,即为单一实体实例2={name=李娜,出生日期=1963年7月25日,性别=女,出生地=河南郑州,职业=歌手};将包括实体实例5的子集作为一个单一实体实例,即为单一实体实例3={name=李娜,出生日期=1982年2月26日,性别=女,职业=歌手};将包括实体实例6的子集作为一个单一实体实例,即为单一实体实例4={name=李娜,出生日期=1985年1月1日,职业=歌手}。
本发明实施例在对实体实例进行处理时,对属性名进行同义属性名挖掘,并对属性值进行归一化处理,后续根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,从而进一步提高了合并结果的准确性。
实施例三
参照图4,示出了本发明实施例三的一种构建知识库的方法的步骤流程图。
本实施例的构建知识库的方法可以包括以下步骤:
步骤401,抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面。
步骤402,分别抽取所述页面中包括的实体实例的实体名、属性名和属性值。
步骤403,针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例。
对于上述步骤401、步骤402、步骤403的具体过程,与实施例一和实施例二中的对应步骤相同,具体参照实施例一和实施例二的相关说明即可,本发明实施例在此不再详细论述。
步骤404,基于所述同一实体的单一实体实例,构建知识库。
基于上述得到的同一实体的单一实体实例,可以以单一实体实例为单位作为知识库的数据架构,一个单一实体实例作为一个知识节点,将每个单一实体实例对应的实体名、属性名、属性值规范到该实体实例对应的数据架构下,进而依据这些数据架构构建整体的知识库。对于构建知识库的具体过程,本领域技术人员根据实际经验进行相关处理即可,本发明实施例在此不再详细论述。
本发明实施例并非是按照实体名是否相同区分是否为同一实体,而是根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,合并得到的单一实体实例描述的即为同一实体,合并结果较为准确,因此采用上述单一实体实例构建的知识库更加准确,进而使后续用户查询知识库时的查询结果也更加准确,提升用户体验。
实施例四
参照图5,示出了本发明实施例四的一种构建知识库的方法的步骤流程图。
本实施例的构建知识库的方法可以包括以下步骤:
步骤501,抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面。
步骤502,分别抽取所述页面中包括的实体实例的实体名、属性名和属性值。
步骤503,基于同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
步骤504,针对同名实体的实体实例集合,结合所述同名实体对应的同义属性名,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例。
对于上述步骤501、步骤502、步骤503、步骤504的具体过程,与实施例一和实施例二中的对应步骤相同,具体参照实施例一和实施例二的相关说明即可,本发明实施例在此不再详细论述。
步骤505,基于所述同一实体的单一实体实例,构建知识库。
该步骤505参照上述步骤404的相关描述即可。
本发明实施例融合多个数据来源中对一个实体描述的不同实体实例,使得知识库中的内容相对于其每一个数据来源都包含更丰富的信息,基于单一实体实例构建知识库,解决了同名实体带来的实体查询歧义问题,提升用户体验。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
实施例五
参照图6,示出了本发明实施例五的一种单一实体实例的挖掘装置的结构框图。
本实施例的单一实体实例的挖掘装置可以包括以下模块:
抓取模块601,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块602,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块603,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例,所述同名实体为实体名相同的实体实例。
本发明实施例并非是按照实体名是否相同区分是否为同一实体,而是根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,合并得到的单一实体实例描述的即为同一实体,合并结果更加准确。
实施例六
参照图7,示出了本发明实施例六的一种单一实体实例的挖掘装置的结构框图。
本实施例的单一实体实例的挖掘装置可以包括以下模块:
抓取模块701,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块702,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块703,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例,所述同名实体为实体名相同的实体实例。
优选地,本实施例的装置还包括:挖掘模块704,用于在所述抽取模块分别抽取所述页面中包括的实体实例的实体名、属性名和属性值之后,基于同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
优选地,上述同名实体对应的具有单一区分度的属性名为预设的。
优选地,所述装置还可以包括:比较模块和判断模块。所述比较模块,用于比较所述同名实体下的不同实体实例之间,各个相同属性名下的属性值的相同程度;所述判定模块,用于将属性值相同程度超过第一设定阈值的属性名判定为所述同名实体对应的具有单一区分度的属性名。
优选地,合并模块703包括:集合划分子模块7031,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,其中,每个子集中的实体实例用于描述同一实体;子集合并子模块7032,用于将每个子集中的实体实例,合并得到所述同一实体的单一实体实例。
优选地,集合划分子模块7031,具体用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;分别判断各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件;如果符合,则对该子集不再划分;如果不符合,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合所述预设条件为止。
优选地,集合划分子模块7031,具体用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,对所述集合进行划分,直到划分得到的每个子集对应的具有单一区分度的属性名下的属性值都相等为止。
优选地,挖掘模块704包括:第一挖掘子模块7041,用于基于属性名的相似度,聚类挖掘得到所述同名实体对应的同义属性名。
优选地,挖掘模块704包括:第二挖掘子模块7042,用于基于属性名的相似度和属性共现约束,聚类挖掘得到所述同名实体对应的同义属性名;其中,所述属性共现约束为:出现在同一实体实例中的不同属性名是不同义的。
本发明实施例中,挖掘模块704可以仅包括上述第一挖掘子模块7041,或者仅包括上述第二挖掘子模块7042,还可以包括上述第一挖掘子模块7041和第二挖掘子模块7042两者。
本发明实施例在对实体实例进行处理时,对属性名进行同义属性名挖掘,并对属性值进行归一化处理,后续根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,从而进一步提高了合并结果的准确性。
实施例七
参照图8,示出了本发明实施例七的一种构建知识库的装置的结构框图。
本实施例的构建知识库的装置可以包括以下模块:
抓取模块801,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块802,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块803,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例,所述同名实体为实体名相同的实体实例;
构建模块804,用于基于所述同一实体的单一实体实例,构建知识库。
本发明实施例并非是按照实体名是否相同区分是否为同一实体,而是根据同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标对实体实例进行合并,合并得到的单一实体实例描述的即为同一实体,合并结果较为准确,因此采用上述单一实体实例构建的知识库更加准确,进而使后续用户查询知识库时的查询结果也更加准确,提升用户体验。
实施例八
参照图9,示出了本发明实施例八的一种构建知识库的装置的结构框图。
本实施例的构建知识库的装置可以包括以下模块:
抓取模块901,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块902,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块903,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例,所述同名实体为实体名相同的实体实例;
构建模块904,用于基于所述同一实体的单一实体实例,构建知识库。
优选地,本实施例的装置还包括:挖掘模块905,用于在所述抽取模块分别抽取所述页面中包括的实体实例的实体名、属性名和属性值之后,基于同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
优选地,上述同名实体对应的具有单一区分度的属性名为预设的。
优选地,所述装置还可以包括:比较模块和判断模块。所述比较模块,用于比较所述同名实体下的不同实体实例之间,各个相同属性名下的属性值的相同程度;所述判定模块,用于将属性值相同程度超过第一设定阈值的属性名判定为所述同名实体对应的具有单一区分度的属性名。
优选地,合并模块903包括:集合划分子模块9031,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,其中,每个子集中的实体实例用于描述同一实体;子集合并子模块9032,用于将每个子集中的实体实例,合并得到所述同一实体的单一实体实例。
优选地,集合划分子模块9031,具体用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;分别判断各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件;如果符合,则对该子集不再划分;如果不符合,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合所述预设条件为止。
优选地,集合划分子模块9031,具体用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,对所述集合进行划分,直到划分得到的每个子集对应的具有单一区分度的属性名下的属性值都相等为止。
优选地,挖掘模块905包括:第一挖掘子模块9051,用于基于属性名的相似度,聚类挖掘得到所述同名实体对应的同义属性名。
优选地,挖掘模块905包括:第二挖掘子模块9052,用于基于属性名的相似度和属性共现约束,聚类挖掘得到所述同名实体对应的同义属性名;其中,所述属性共现约束为:出现在同一实体实例中的不同属性名是不同义的。
本发明实施例中,挖掘模块905可以仅包括上述第一挖掘子模块9051,或者仅包括上述第二挖掘子模块9052,还可以包括上述第一挖掘子模块9051和第二挖掘子模块9052两者。
本发明实施例融合多个数据来源中对一个实体描述的不同实体实例,使得知识库中的内容相对于其每一个数据来源都包含更丰富的信息,基于单一实体实例构建知识库,解决了同名实体带来的实体查询歧义问题,提升用户体验。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图10是根据一示例性实施例示出的一种用于单一实体实例挖掘的装置1800的框图。例如,装置1800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,装置1800可以包括以下一个或多个组件:处理组件1802,存储器1804,电源组件1806,多媒体组件1808,音频组件1810,输入/输出(I/O)的接口1812,传感器组件1814,以及通信组件1816。
处理组件1802通常控制装置1800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1802可以包括一个或多个处理器1820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1802可以包括一个或多个模块,便于处理组件1802和其他组件之间的交互。例如,处理部件1802可以包括多媒体模块,以方便多媒体组件1808和处理组件1802之间的交互。
存储器1804被配置为存储各种类型的数据以支持在设备1800的操作。这些数据的示例包括用于在装置1800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件1806为装置1800的各种组件提供电力。电力组件1806可以包括电源管理系统,一个或多个电源,及其他与为装置1800生成、管理和分配电力相关联的组件。
多媒体组件1808包括在所述装置1800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1808包括一个前置摄像头和/或后置摄像头。当设备1800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1810被配置为输出和/或输入音频信号。例如,音频组件1810包括一个麦克风(MIC),当装置1800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1804或经由通信组件1816发送。在一些实施例中,音频组件1810还包括一个扬声器,用于输出音频信号。
I/O接口1812为处理组件1802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1814包括一个或多个传感器,用于为装置1800提供各个方面的状态评估。例如,传感器组件1814可以检测到设备1800的打开/关闭状态,组件的相对定位,例如所述组件为装置1800的显示器和小键盘,传感器组件1814还可以检测装置1800或装置1800一个组件的位置改变,用户与装置1800接触的存在或不存在,装置1800方位或加速/减速和装置1800的温度变化。传感器组件1814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1816被配置为便于装置1800和其他设备之间有线或无线方式的通信。装置1800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1804,上述指令可由装置1800的处理器1820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种单一实体实例挖掘的方法,所述方法包括:抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合中描述同一实体的实体实例合并成所述同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。
图11是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种单一实体实例的挖掘方法,其特征在于,包括:
抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件为止;所述同名实体为实体名相同的实体实例;
将每个子集中的实体实例,合并得到同一实体的单一实体实例。
2.根据权利要求1所述的方法,其特征在于,
所述同名实体对应的具有单一区分度的属性名为预设的;
或者,
通过以下步骤确定所述同名实体对应的具有单一区分度的属性名:
比较所述同名实体下的不同实体实例之间,各个相同属性名下的属性值的相同程度;
将属性值相同程度超过第一设定阈值的属性名判定为所述同名实体对应的具有单一区分度的属性名。
3.根据权利要求1所述的方法,其特征在于,所述针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集的步骤,包括:
针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,将所述集合划分为至少两个子集;
分别判断各个子集对应的具有单一区分度的属性名下的属性值的分布熵指标是否符合预设条件;如果符合,则对该子集不再划分;如果不符合,则对该子集继续划分,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合所述预设条件为止。
4.根据权利要求1所述的方法,其特征在于,所述针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集的步骤,包括:
针对所述同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的不同,对所述集合进行划分,直到划分得到的每个子集对应的具有单一区分度的属性名下的属性值都相等为止。
5.根据权利要求1所述的方法,其特征在于,在所述分别抽取所述页面中包括的实体实例的实体名、属性名和属性值的步骤之后,还包括:
基于所述同名实体的实体实例集合,挖掘所述同名实体对应的同义属性名。
6.根据权利要求5所述的方法,其特征在于,所述挖掘所述同名实体对应的同义属性名的步骤,包括:
基于所述属性名的相似度,聚类挖掘得到所述同名实体对应的同义属性名;或者,基于所述属性名的相似度和属性共现约束,聚类挖掘得到所述同名实体对应的同义属性名;
其中,所述属性共现约束为:出现在同一实体实例中的不同属性名是不同义的。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述同一实体的单一实体实例,构建知识库。
8.一种单一实体实例的挖掘装置,其特征在于,包括:
抓取模块,用于抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
抽取模块,用于分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
合并模块,用于针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件为止;将每个子集中的实体实例,合并得到同一实体的单一实体实例;所述同名实体为实体名相同的实体实例。
9.一种用于单一实体实例挖掘的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
抓取来自于多个数据来源、包含特定类型实体对应实体实例的页面;
分别抽取所述页面中包括的实体实例的实体名、属性名和属性值;
针对同名实体的实体实例集合,按照所述同名实体对应的具有单一区分度的属性名下的属性值的分布熵指标,将所述集合划分为至少两个子集,直到划分得到的子集对应的具有单一区分度的属性名下的属性值的分布熵指标符合预设条件为止;所述同名实体为实体名相同的实体实例;
将每个子集中的实体实例,合并得到同一实体的单一实体实例。
CN201510971804.0A 2015-12-22 2015-12-22 单一实体实例的挖掘方法和装置 Active CN105550336B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510971804.0A CN105550336B (zh) 2015-12-22 2015-12-22 单一实体实例的挖掘方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510971804.0A CN105550336B (zh) 2015-12-22 2015-12-22 单一实体实例的挖掘方法和装置

Publications (2)

Publication Number Publication Date
CN105550336A CN105550336A (zh) 2016-05-04
CN105550336B true CN105550336B (zh) 2018-12-18

Family

ID=55829525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510971804.0A Active CN105550336B (zh) 2015-12-22 2015-12-22 单一实体实例的挖掘方法和装置

Country Status (1)

Country Link
CN (1) CN105550336B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202041B (zh) * 2016-07-01 2019-07-09 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN108009184B (zh) * 2016-10-27 2021-08-27 北大方正集团有限公司 知识库同名实例混淆检测的方法及装置
CN107766322A (zh) * 2017-08-31 2018-03-06 平安科技(深圳)有限公司 同名实体识别方法、电子设备及计算机可读存储介质
CN108154198B (zh) * 2018-01-25 2021-07-13 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
CN109408646A (zh) * 2018-10-12 2019-03-01 中国科学技术信息研究所 富媒体知识本体构建方法、装置及电子设备
CN110390099B (zh) * 2019-06-28 2023-01-31 河海大学 一种基于模板库的对象关系抽取系统和抽取方法
CN113157996B (zh) * 2020-01-23 2022-09-16 久瓴(上海)智能科技有限公司 文档信息处理方法、装置、计算机设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226547A (zh) * 2008-01-11 2008-07-23 孟小峰 一种用在实体识别系统中的Web实体识别方法
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法
US8156155B1 (en) * 2008-01-25 2012-04-10 Intuit Inc. Method and apparatus for displaying data models and data-model instances
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089934A1 (en) * 2010-10-11 2012-04-12 Bhargav Senjalia Methods and apparatus for presenting information identifying relationships in a database

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101226547A (zh) * 2008-01-11 2008-07-23 孟小峰 一种用在实体识别系统中的Web实体识别方法
US8156155B1 (en) * 2008-01-25 2012-04-10 Intuit Inc. Method and apparatus for displaying data models and data-model instances
CN102004802A (zh) * 2010-12-30 2011-04-06 北京大学 Xml关键词检索的摘要生成方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置

Also Published As

Publication number Publication date
CN105550336A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN105550336B (zh) 单一实体实例的挖掘方法和装置
TWI754855B (zh) 人臉圖像識別方法、裝置、電子設備及儲存介質
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN109522424A (zh) 数据的处理方法、装置、电子设备及存储介质
CN104735243B (zh) 联系人列表显示方法及装置
TWI721374B (zh) 基於多分類器的推薦方法、裝置及電子設備
CN110457481A (zh) 一种分类模型训练的方法、装置、设备以及存储介质
CN109543066A (zh) 视频推荐方法、装置和计算机可读存储介质
KR20220042356A (ko) 타깃 재식별 방법, 장치, 기기, 저장 매체 및 프로그램 제품
TWI785267B (zh) 影像處理方法、電子設備和儲存介質
CN108073606A (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN109670077A (zh) 视频推荐方法、装置和计算机可读存储介质
CN113590881A (zh) 视频片段检索方法、视频片段检索模型的训练方法及装置
CN110178129A (zh) 生成用于图像处理操作的目标图像的语义表示的系统和方法
CN110288710A (zh) 一种三维地图的处理方法、处理装置及终端设备
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN106774969A (zh) 一种输入方法和装置
CN114861618A (zh) 表格生成方法、装置、电子设备及存储介质
CN112307281A (zh) 一种实体推荐方法及装置
CN111797148A (zh) 数据处理方法、装置、存储介质及电子设备
CN113779257A (zh) 文本分类模型的解析方法、装置、设备、介质及产品
US20210150243A1 (en) Efficient image sharing
EP2836927B1 (en) Systems and methods for searching for analog notations and annotations
CN107343104A (zh) 处理收藏信息的方法、装置和终端设备
CN111797175B (zh) 数据存储方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant