CN105574098B - 知识图谱的生成方法及装置、实体对比方法及装置 - Google Patents

知识图谱的生成方法及装置、实体对比方法及装置 Download PDF

Info

Publication number
CN105574098B
CN105574098B CN201510920987.3A CN201510920987A CN105574098B CN 105574098 B CN105574098 B CN 105574098B CN 201510920987 A CN201510920987 A CN 201510920987A CN 105574098 B CN105574098 B CN 105574098B
Authority
CN
China
Prior art keywords
attribute
entity
information
data
knowledge mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510920987.3A
Other languages
English (en)
Other versions
CN105574098A (zh
Inventor
戴祥鹰
甘露
秦敏
李�浩
陈晓昕
罗雨
李羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510920987.3A priority Critical patent/CN105574098B/zh
Publication of CN105574098A publication Critical patent/CN105574098A/zh
Application granted granted Critical
Publication of CN105574098B publication Critical patent/CN105574098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种知识图谱的生成方法及装置、实体对比方法及装置。一方面,本发明实施例通过采集各实体的结构化数据和非结构化数据;从而,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;进而,根据经过数据校验的各实体的属性信息,构建知识图谱。因此,本发明实施例提供的技术方案用以解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。

Description

知识图谱的生成方法及装置、实体对比方法及装置
【技术领域】
本发明涉及互联网应用技术领域,尤其涉及一种知识图谱的生成方法及装置、实体对比方法及装置。
【背景技术】
目前,用户获取信息的主要方式是搜索。当用户需要通过搜索获取两个实体对应某属性的对比结果时,如用户想要获取两个人在身高上的对比结果时,主要会采取两种方式来获取对比结果,一个是在搜索引擎中搜索“人物A和人物B谁高”,另一个是分别查询人物A的身高和人物B的身高,然后人工对比。
然而,现有技术中,第一种方式所获得的对比结果通常从网络上其他用户所提供的信息中获得,并通过搜索结果提供给用户,因此对比结果的准确性比较低。第二种方式由于需要用户手动查找并进行人工计算,因此获取对比结果的效率比较低,操作成本比较高。
【发明内容】
有鉴于此,本发明实施例提供了一种知识图谱的生成方法及装置、实体对比方法及装置,用以解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。
本发明实施例的一方面,提供一种知识图谱的生成方法,包括:
采集各实体的结构化数据和非结构化数据;
对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
根据经过数据校验的各实体的属性信息,构建知识图谱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述采集各实体的结构化数据,包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据包含实体的属性信息,所述属性信息包含属性名和对应的属性值,以及实体与其他实体的关系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,包括:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对经过数据预处理后的属性信息进行数据校验,包括:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据经过数据校验的各实体的属性信息,构建知识图谱之前,所述方法还包括:根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
所述根据经过数据校验的各实体的属性信息,构建知识图谱,包括:
根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
本发明实施例的一方面,提供一种实体对比方法,包括:
所述根据经过数据校验的各实体的属性信息,构建知识图谱之前,所述方法还包括:根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
所述根据经过数据校验的各实体的属性信息,构建知识图谱,包括:
根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中存在所述属性名;对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果,包括:
对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中不存在所述属性名;根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值,包括:
根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
本发明实施例的一方面,提供一种知识图谱的生成装置,包括:
采集模块,用于采集各实体的结构化数据和非结构化数据;
处理模块,用于对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
生成模块,用于根据经过数据校验的各实体的属性信息,构建知识图谱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,采集模块,用于采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
处理模块,用于对所述结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
生成模块,用于根据经过数据校验的各实体的属性信息,构建知识图谱。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,具体用于:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,具体用于:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述处理模块,还用于根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
所述生成模块,具体用于:
根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
本发明实施例的一方面,提供一种实体对比装置,包括:
获取模块,用于获得查询信息,所述查询信息包括参与对比的至少两个实体和对比的属性名;
处理模块,用于根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值;所述知识图谱为权利要求1至5中任一项所述的知识图谱的生成方法生成的;
对比模块,用于对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中存在所述属性名;所述对比模块,具体用于:
对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,若所述知识图谱中不存在所述属性名;所述处理模块,具体用于:
根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例提供的技术方案中,通过对结构化数据和非结构化数据进行挖掘和处理,然后构建知识图谱,在知识图谱的基础上能够获取所需要的属性值,最终实现实体对应于属性进行对比。与现有技术中,从网络上其他用户提供的信息中获得对比结果的方式相比,本发明实施例所提供的技术方案获得的对比结果的准确性更高。与现有技术中用户手动查找并人工计算的方式相比,本发明实施例所提供的技术方案提高了获得对比结果的效率,降低了操作成本。所以,本发明实施例所提供的技术方案能够解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的知识图谱的生成方法的流程示意图;
图2是本发明实施例所提供的知识图谱的生成示例图;
图3是本发明实施例所提供的实体对比方法的流程示意图;
图4是本发明实施例所提供的实体对比的对比结果的第一示例图;
图5是本发明实施例所提供的实体对比的对比结果的第二示例图;
图6是本发明实施例所提供的知识图谱的生成装置的功能方块图;
图7是本发明实施例所提供的实体对比装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例一
本发明实施例给出一种知识图谱的生成方法,请参考图1,其为本发明实施例所提供的知识图谱的生成方法的流程示意图,如图所示,该方法包括以下步骤:
S101,采集各实体的结构化数据和非结构化数据。
具体的,本发明实施例中,采集各实体的结构化数据的方法可以包括:从网络百科中采集各实体的结构化数据。
在一个具体的实现过程中,可以从百度百科、互动百科和维基百科中获取各实体的结构化数据,以作为本发明实施例中构建知识图谱所需要使用的数据源。
本发明实施例中,采集各实体的非结构化数据的方法可以包括:可以采集互联网上的所有网页,然后计算每个网页的质量度,并提取质量度超过指定阈值的网页,从这些网页中采集所需要的各实体的非结构化数据。
可以理解的是,每个实体的结构化数据和非结构化数据中可以包含但不限于该实体的属性信息。
进一步的,实体的属性信息可以包含但不限于:实体自身的属性信息以及实体与其他实体的关系。
进一步的,实体自身的属性信息可以包括但不限于:属性名和对应的属性值。
例如,实体是某人物,实体自身的属性信息可以包括该人物的身高、年龄和性别等。又例如,实体是某人物,实体与其他实体的关系信息可以包括该人物是其他人物的丈夫,该人物是其他人物的哥哥等关系。
S102,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验。
具体的,需要说明的是,由于采集到的各实体的结构化数据和非结构化数据的来源众多且数据质量不一,因此在构建知识图谱之间,需要先对各实体的结构化数据和非结构化数据进行处理,以提高构建出的知识图谱的准确性。
请参考图2,其为本发明实施例所提供的知识图谱的生成示例图,如图所示,本发明实施例中,可以先对所述结构化数据和非结构化数据中各实体的属性信息进行数据预处理,再对经过数据预处理后的属性信息进行数据校验。
举例说明,对所述结构化数据和非结构化数据中各实体的属性信息进行数据预处理的方法可以包括但不限于:
首先,在所述结构化数据和非结构化数据中各实体的属性信息中去除错误的属性信息。然后,从所述结构化数据和非结构化数据中各实体的属性信息中,识别出语义相同的属性信息。最后,对识别出的语义相同的属性信息执行去重或者归一化处理。
可以理解得是,在结构化数据和非结构化数据中各实体的属性信息中可能会存在错误的属性信息,因此有必要对错误的属性信息进行清除,以提高知识图谱的准确性。例如,可以基于已有的其他知识图谱中实体与其他实体的关系,对采集的结构化数据和非结构化数据中各实体的关系中的错误的关系进行识别,从而对识别出的错误的关系进行去除。
在一个具体的实现过程中,可以根据结构化数据中实体的描述文本中对应关系的说明,识别出语义相同的属性信息。或者,也可以根据非结构化数据中实体的共现数据,识别出语义相同的属性信息。或者,还可以根据该实体在其他知识图谱中有共同指向的其他实体的数目比例数据,识别出语义相同的属性信息。
在一个具体的实现过程中,由于不同结构化数据和非结构化数据中实体的属性信息语义相同但是描述不同,因此,在识别出语义相同的属性信息后,对识别出的语义相同的属性信息进行去重处理,去除其中一个属性信息;或者,也可以进行归一化处理。该归一化处理可以是以其中一个属性信息为准,或者也可以根据两个属性信息,重新生成一个属性信息,将该重新生成的属性信息作为归一化处理的结果,且对语义相同的两个属性信息进行去除。
例如,某人物的绰号和外号在语义上是相同的,因此,可以保留绰号,去除外号,或者,也可以保留外号,去除绰号。
可以理解得是,去重处理和归一化处理都是为了在实体的属性信息中去除冗余的重复数据,减少后续的数据处理量。
如图2所示,在对各实体的属性信息进行数据预处理后,还需要对属性信息进行数据校验。
举例说明,对经过数据预处理后的属性信息进行数据校验的方法可以包括但不限于:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
可以理解的是,校验规则中可以定义属性信息中的属性值的合理数值,若属性信息中的属性值与合理数值不符,则该属性信息的属性值是错误的,即该属性信息属于错误数据,因此需要删除该属性信息。
例如,实体是人物,人物的身高属性的属性值不会超过2.5米,所以若判断出某人物的身高属性的属性值超过2.5米,表示该属性信息是错误的。
或者,又例如,实体是人物,人物的女儿属性的属性值的性别是女性,所以若判断出某人物的女儿属性的属性值的性别是男性,表示该属性信息是错误的。
另外,本发明实施例中,还可以在上述数据校验之后,再进行一次人工数据校验,以进一步提高数据准确性。
S103,根据经过数据校验的各实体的属性信息,构建知识图谱。
具体的,S102中获得经过数据校验的各实体的属性信息之后,就可以根据经过数据校验的各实体的属性信息,构建知识图谱。
可选的,本发明实施例中,在构建知识图谱之前,还可以先根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息。
例如,实体A与实体B的关系是父子,实体B与实体C的关系是父子,因此通过推理运算可以确定实体C是实体A的孙子,从而可以获得实体A的扩展属性信息,即实体A的扩展属性信息为实体A的孙子属性。
举例说明,根据经过数据校验的各实体的属性信息,构建知识图谱的方法可以包括但不限于:
根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息。然后,根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
在一个具体的实现过程中,可以设置预定义属性,预定义属性用于定义实际需要用于生成知识图谱的属性信息,相当于通过预定义属性来定义实际存储的属性信息。实际应用中,在设置预定义属性时,需要考虑到预定义属性中属性的合理性,避免数据冗余,例如,一般可以在预定义属性中设置无法由其他属性信息推导出的属性信息,因此,需要筛除可以由其他属性信息推导出的属性信息。或者,又例如,可以在预定义属性中设置属性值不变的属性信息,也就是说,需要筛除属性值会发生变化的属性信息。
例如,对于生日和年龄是两个属性,实际上生成知识图谱时,只需要使用生日属性即可,其原因是年龄属性可以根据生日属性经过推理计算获得,而且年龄属性中的属性值,即年龄的数值,是随时间变化而变化的。因此,在从经过数据校验的各实体的属性信息中,可以筛除年龄属性,而保留生日属性。
实施例二
本发明实施例还给出一种实体对比方法,请参考图3,其为本发明实施例所提供的实体对比方法的流程示意图,如图所示,该方法包括以下步骤:
S301,获得查询信息,所述查询信息包括参与对比的至少两个实体和对比的属性名。
S302,根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值;所述知识图谱为实施例一提供的知识图谱的生成方法生成的。
S303,对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
在一个具体的实现过程中,可以接收客户端发送的查询信息,该查询信息为用户在客户端中点击或者输入的查询信息。其中,所述查询信息中可以包括但不限于:参与对比的至少两个实体以及对比的属性名。
例如,查询信息可以为“刘德华和张学友身高谁高”,其中,“刘德华”和“张学友”是参与对比的两个实体,“身高”是对比的属性名。
或者,又例如,查询信息可以为“赵本山和潘长江谁大”,其中,“赵本山”和“潘长江”是参与对比的两个实体,“谁大”对应的属性名是“年龄”,“年龄”是对比的属性名。
如图2所示,在一个具体的实现过程中,可以根据所述参与对比的至少两个实体和所述属性名,从知识图谱中查找每个所述实体对应于该属性名的属性值。
若在知识图谱存在该查询信息中包含的属性名,则可以从所述知识图谱中获得查询信息中每个实体对应该属性名的属性值。然后,对从知识图谱中获得的每个所述实体的属性值进行单位归一化,对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
进一步的,可以输出所述对比结果,以作为与所述查询信息相匹配的搜索结果。
其中,由于至少两个实体的属性值的单位可能不统一,因此如果不进行单位归一化处理,将无法进行属性值的对比,因此本发明实施例中,在对比之前,将各实体的属性值都转换成同一个单位。
例如,请参考图4,其为本发明实施例所提供的实体对比的对比结果的第一示例图,如图所示,对于获得的查询信息“刘德华和张学友身高谁高”,可以利用“刘德华”和“身高”,从知识图谱中获取属性值“174cm”,并利用“张学友”和“身高”,从知识图谱中获取属性值“1.76米”,对属性值“174cm”和“1.76米”进行单位归一化处理,获得属性值“174cm”和“176cm”,然后对“刘德华”和“张学友”和对应于这两个属性值进行对比,生成对比结果,如:张学友比刘德华高2cm。可以将该对比结果作为搜索结果输出给客户端,以使得客户端可以展现该对比结果。另外,还可以输出参考数据,如参考数据可以包括参与对比的每个实体对应于属性名的属性值。如图4所示,输出的参考数据包括“张学友的身高是176cm”以及“刘德华的身高是174cm”。
或者,若在知识图谱中不存在该查询信息中包含的属性名,则无法直接从所述知识图谱中获得查询信息中每个实体对应该属性名的属性值,则本发明实施例中,需要根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;然后,从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
例如,请参考图5,其为本发明实施例所提供的实体对比的对比结果的第二示例图,如图所示,对于获得的查询信息“赵本山和潘长江谁大”,可以利用“赵本山”和“年龄”、“潘长江”和“年龄”在知识图谱中查找属性值,但是没有查找到年龄属性的属性名,因此,基于推理规则可以确定通过生日属性可以计算出年龄,因此,利用“潘长江”和“生日”,从知识图谱中获取属性值“1957年7月1日”,并且,利用“赵本山”和“生日”,从知识图谱中获取属性值“1957年10月2日”,对属性值“1957年7月1日”和“1957年10月2日”进行单位归一化处理,然后对“潘长江”和“赵本山”对应于这两个属性值进行对比,生成对比结果,如:潘长江比赵本山大3个月。可以将该对比结果作为搜索结果输出给客户端,以使得客户端可以展现该对比结果。另外,还可以输出参考数据,如参考数据可以包括参与对比的每个实体对应于属性名的属性值。如图5所示,输出的参考数据包括“潘长江生于1957年7月1日,今年58岁”以及“赵本山生于1957年10月2日,今年58岁”。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图6,其为本发明实施例所提供的知识图谱的生成装置的功能方块图。如图所示,该装置包括:
采集模块61,用于采集各实体的结构化数据和非结构化数据;
处理模块62,用于对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
生成模块63,用于根据经过数据校验的各实体的属性信息,构建知识图谱。
在一个具体的实现过程中,所述采集模块61,具体用于:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据包含实体的属性信息,所述属性信息包含属性名和对应的属性值,以及实体与其他实体的关系。
在一个具体的实现过程中,所述处理模块62,具体用于:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
在一个具体的实现过程中,所述处理模块62,具体用于:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
在一个具体的实现过程中,所述处理模块62,还用于根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
所述生成模块63,具体用于:
根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
由于本实施例中的各单元能够执行图1所示的方法,本实施例未详细描述的部分,可参考对图1的相关说明。
请参考图7,其为本发明实施例所提供的实体对比装置的功能方块图。如图所示,该装置包括:
获取模块71,用于获得查询信息,所述查询信息包括参与对比的至少两个实体和对比的属性名;
处理模块72,用于根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值;所述知识图谱为权利要求1至5中任一项所述的知识图谱的生成方法生成的;
对比模块73,用于对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
在一个具体的实现过程中,若所述知识图谱中存在所述属性名;所述对比模块73,具体用于:
对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
在一个具体的实现过程中,若所述知识图谱中不存在所述属性名;所述处理模块72,具体用于:
根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
由于本实施例中的各单元能够执行图3所示的方法,本实施例未详细描述的部分,可参考对图3的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,通过采集各实体的结构化数据和非结构化数据;从而,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;进而,根据经过数据校验的各实体的属性信息,构建知识图谱。当进行实体对比时,可以根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值,进而,对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
本发明实施例提供的技术方案中,通过对结构化数据和非结构化数据进行挖掘和处理,然后构建知识图谱,在知识图谱的基础上能够获取所需要的属性值,最终实现实体对应于属性进行对比。与现有技术中,从网络上其他用户提供的信息中获得对比结果的方式相比,本发明实施例所提供的技术方案获得的对比结果的准确性更高。与现有技术中用户手动查找并人工计算的方式相比,本发明实施例所提供的技术方案提高了获得对比结果的效率,降低了操作成本。所以,本发明实施例所提供的技术方案能够解决现有技术中获取实体对比结果的效率比较低,获取成本比较高以及对比结果的准确率比较低的问题。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (14)

1.一种知识图谱的生成方法,其特征在于,所述方法包括:
采集各实体的结构化数据和非结构化数据;
对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;
根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述采集各实体的结构化数据,包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据包含实体的属性信息,所述属性信息包含属性名和对应的属性值,以及实体与其他实体的关系。
3.根据权利要求1或2所述的方法,其特征在于,对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,包括:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
4.根据权利要求1所述的方法,其特征在于,所述对经过数据预处理后的属性信息进行数据校验,包括:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
5.一种实体对比方法,其特征在于,所述方法包括:
获得查询信息,所述查询信息包括参与对比的至少两个实体和对比的属性名;
根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值;所述知识图谱为权利要求1至4中任一项所述的知识图谱的生成方法生成的;
对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
6.根据权利要求5所述的方法,其特征在于,若所述知识图谱中存在所述属性名;对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果,包括:
对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
7.根据权利要求5所述的方法,其特征在于,若所述知识图谱中不存在所述属性名;根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值,包括:
根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
8.一种知识图谱的生成装置,其特征在于,所述装置包括:
采集模块,用于采集各实体的结构化数据和非结构化数据;
处理模块,用于对所述结构化数据和所述非结构化数据中各实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;根据经过数据校验的各实体的属性信息,对所述属性信息中每个实体与其他实体的关系进行推理运算,以获得各实体中至少一个实体的扩展属性信息;
生成模块,用于根据预定义属性,从经过数据校验的各实体的属性信息中筛除不属于所述预定义属性的属性信息;根据筛除后得到的各实体的属性信息和各实体中至少一个实体的扩展属性信息,构建所述知识图谱。
9.根据权利要求8所述的装置,其特征在于,所述采集模块,具体用于:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据包含实体的属性信息,所述属性信息包含属性名和对应的属性值,以及实体与其他实体的关系。
10.根据权利要求8或9所述的装置,其特征在于,所述处理模块,具体用于:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
11.根据权利要求8所述的装置,其特征在于,所述处理模块,具体用于:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
12.一种实体对比装置,其特征在于,所述装置包括:
获取模块,用于获得查询信息,所述查询信息包括参与对比的至少两个实体和对比的属性名;
处理模块,用于根据所述参与对比的至少两个实体和所述属性名,从知识图谱中获得每个所述实体的属性值;所述知识图谱为权利要求1至4中任一项所述的知识图谱的生成方法生成的;
对比模块,用于对所述参与对比的至少两个实体对应于所述属性值进行对比,生成对比结果。
13.根据权利要求12所述的装置,其特征在于,若所述知识图谱中存在所述属性名;所述对比模块,具体用于:
对从知识图谱中获得的每个所述实体的属性值进行单位归一化;
对所述参与对比的至少两个实体对应于经过单位归一化的所述属性值进行对比,生成对比结果。
14.根据权利要求12所述的装置,其特征在于,若所述知识图谱中不存在所述属性名;所述处理模块,具体用于:
根据预定义的推理规则,确定所述知识图谱中可以计算出所述属性值的其他属性名;
从所述其他属性名中获得每个所述实体对应于其他属性名的属性值,并根据每个所述实体对应于其他属性名的属性值,计算所述属性名对应的属性值。
CN201510920987.3A 2015-12-11 2015-12-11 知识图谱的生成方法及装置、实体对比方法及装置 Active CN105574098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510920987.3A CN105574098B (zh) 2015-12-11 2015-12-11 知识图谱的生成方法及装置、实体对比方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510920987.3A CN105574098B (zh) 2015-12-11 2015-12-11 知识图谱的生成方法及装置、实体对比方法及装置

Publications (2)

Publication Number Publication Date
CN105574098A CN105574098A (zh) 2016-05-11
CN105574098B true CN105574098B (zh) 2019-02-12

Family

ID=55884229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510920987.3A Active CN105574098B (zh) 2015-12-11 2015-12-11 知识图谱的生成方法及装置、实体对比方法及装置

Country Status (1)

Country Link
CN (1) CN105574098B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391512B (zh) * 2016-05-17 2021-05-11 北京邮电大学 知识图谱预测的方法和装置
CN106156365B (zh) * 2016-08-03 2019-06-18 北京儒博科技有限公司 一种知识图谱的生成方法及装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN108463818A (zh) * 2016-10-31 2018-08-28 微软技术许可有限责任公司 建立和更新连接分段图谱
CN106886572B (zh) * 2017-01-18 2020-06-19 中国人民解放军信息工程大学 基于Markov逻辑网的知识图谱关系类型推测方法及其装置
CN106951539A (zh) * 2017-03-23 2017-07-14 苏州大学 一种信息真伪验证方法及系统
CN108268581A (zh) 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置
CN107360044A (zh) * 2017-08-29 2017-11-17 海南大学 面向类型化资源的价值导向的处理优化系统
CN110019828B (zh) * 2017-09-13 2023-06-30 新方正控股发展有限责任公司 基于知识图谱的参见落实校验方法及系统
CN107943873B (zh) * 2017-11-13 2021-05-14 平安科技(深圳)有限公司 知识图谱建立方法、装置、计算机设备及存储介质
CN108154198B (zh) * 2018-01-25 2021-07-13 北京百度网讯科技有限公司 知识库实体归一方法、系统、终端和计算机可读存储介质
US10884865B2 (en) 2018-01-26 2021-01-05 International Business Machines Corporation Identifying redundant nodes in a knowledge graph data structure
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN109325038A (zh) * 2018-09-05 2019-02-12 天津航旭科技发展有限公司 知识图谱扩展模型、结构化知识存储方法与设备
CN109508420B (zh) * 2018-11-26 2021-12-07 北京羽扇智信息科技有限公司 一种知识图谱属性的清洗方法及装置
CN109885697B (zh) * 2019-02-01 2022-02-18 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN110222198A (zh) * 2019-06-18 2019-09-10 卓尔智联(武汉)研究院有限公司 有色金属行业知识图谱构建方法、电子装置及存储介质
CN110245242B (zh) * 2019-06-20 2022-01-18 北京百度网讯科技有限公司 医学知识图谱构建方法、装置以及终端
CN110413760B (zh) * 2019-07-31 2022-06-21 北京百度网讯科技有限公司 人机对话方法、装置、存储介质及计算机程序产品
CN112905712B (zh) * 2019-12-04 2023-08-15 北京百度网讯科技有限公司 知识图谱处理方法、装置、电子设备和介质
CN111444189B (zh) * 2020-04-17 2021-04-16 北京房江湖科技有限公司 数据处理方法、装置、介质和电子设备
CN113535968A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 数据关键属性的提取方法和装置
CN112559766B (zh) * 2020-12-08 2022-08-26 杭州互仲网络科技有限公司 一种法律知识图谱构建系统
CN112818072A (zh) * 2021-03-09 2021-05-18 携程旅游信息技术(上海)有限公司 旅游知识图谱更新方法、系统、设备及存储介质
CN113128231A (zh) * 2021-04-25 2021-07-16 深圳市慧择时代科技有限公司 一种数据质检方法、装置、存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN104077415A (zh) * 2014-07-16 2014-10-01 百度在线网络技术(北京)有限公司 搜索方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995870A (zh) * 2014-05-21 2014-08-20 百度在线网络技术(北京)有限公司 交互式搜索方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103577549A (zh) * 2013-10-16 2014-02-12 复旦大学 一种基于微博标签的人群画像系统和方法
CN104077415A (zh) * 2014-07-16 2014-10-01 百度在线网络技术(北京)有限公司 搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于多种数据源的中文知识图谱构建方法研究";胡芳槐;《中国博士学位论文全文数据库 信息科技辑》;20150515;第22-27页第3.1节,第63-65页第4.4.3-4.4.5节,第68页第4.7节

Also Published As

Publication number Publication date
CN105574098A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
CN105574098B (zh) 知识图谱的生成方法及装置、实体对比方法及装置
US20180365525A1 (en) Multi-sampling model training method and device
US9886500B2 (en) System and method for providing technology assisted data review with optimizing features
CN106557558B (zh) 一种数据分析方法及装置
CN110262273A (zh) 一种家居设备控制方法、装置、存储介质及智能家居系统
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN105095179B (zh) 对用户评价进行处理的方法及装置
CN105446741B (zh) 一种基于api比对的移动应用程序辨识方法
CN111508604A (zh) 一种急性肾损伤患者死亡率预测方法、服务器及存储介质
CN106528755A (zh) 热点话题的生成方法及装置
CN111581969B (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
CN108984514A (zh) 词语的获取方法及装置、存储介质、处理器
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN111198897A (zh) 科研热点主题分析方法、装置与电子设备
CN109460299B (zh) 一种分布式并行多源社交网络数据采集系统和方法
Spezzano et al. STONE: shaping terrorist organizational network efficiency
De Raedt et al. IDAS: Intent discovery with abstractive summarization
CN109800275A (zh) 模型构建方法和系统
Roy et al. Classification and summarization for informative tweets
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
CN112907358A (zh) 贷款用户信用评分方法、装置、计算机设备和存储介质
CN103902709A (zh) 一种关联分析方法
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
Corso et al. Big social data and GIS: visualize predictive crime
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant