CN104484459B - 一种对知识图谱中的实体进行合并的方法及装置 - Google Patents

一种对知识图谱中的实体进行合并的方法及装置 Download PDF

Info

Publication number
CN104484459B
CN104484459B CN201410838342.0A CN201410838342A CN104484459B CN 104484459 B CN104484459 B CN 104484459B CN 201410838342 A CN201410838342 A CN 201410838342A CN 104484459 B CN104484459 B CN 104484459B
Authority
CN
China
Prior art keywords
entity
secondary characteristics
vector
level
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410838342.0A
Other languages
English (en)
Other versions
CN104484459A (zh
Inventor
胡士文
项碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410838342.0A priority Critical patent/CN104484459B/zh
Publication of CN104484459A publication Critical patent/CN104484459A/zh
Application granted granted Critical
Publication of CN104484459B publication Critical patent/CN104484459B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明涉及一种对知识图谱中的实体进行合并的方法及装置,该方法包括如下步骤:根据知识图谱中实体对应的结构化数据,生成一级特征向量;根据实体对应的文档中包含的term,生成二级特征向量;根据所述一级特征向量和二级特征向量确定不同实体间的相似度;本发明通过将实体ID分别构建一级特征向量和二级特征向量,来对同名的实体ID进行相似度计算,可以准确地判断同名的实体ID是否为同一事物,从而可以减少知识图谱中同一事物存在多个实体ID,使得知识图谱内容更加准确,结构更加紧凑。

Description

一种对知识图谱中的实体进行合并的方法及装置
技术领域
本发明涉及计算机搜索技术领域,尤其是涉及一种对知识图谱中的实体进行合并的方法及装置。
背景技术
计算机快速发展和普及的今天,为了更方便地、清晰地获取信息、学习知识,更经常的使用搜索引擎服务来进行信息搜索和查询。由于搜索引擎是基于爬虫抓取的方式获得网络资源信息,以关键词匹配的方式给出相应的搜索结果,然而往往搜索结果纷繁多样,有时不能直接满足用户特定的精准需求或全面性需求,用户可能还需调整搜索关键词发起多次搜索请求,效率比较低,用户体验也较差,因此对于搜索资源尚待进一步的挖掘及更准确的分类。另外,搜索引擎虽然从垂直网站中能获得的垂直数据质量较高,但是有时也会出现错误和遗漏,因此需要对错误进行处理和属性补充。基于此,不同渠道获取的数据在进行调整和更新时,由于来自不同的数据对于同一事物的描述方式不同,或者对于同一事物,不同的数据来源对其进行不同角度的描述,会出现同一个事物具有多个不同版本的数据描述,也需要对数据进行关联和梳理。。
发明内容
鉴于上述问题,本发明创造性的提出使用知识图谱的模式来克服上述问题或者至少部分地解决或者减缓上述问题,同时进一步创造性的对应用于知识图谱对实体类数据进行合并。
根据本发明的一个方面,提供一种对知识图谱中的实体进行合并的方法,其特征在于,包括如下步骤:
根据知识图谱中实体对应的结构化数据,生成一级特征向量;
根据实体对应的文档中包含的term,生成二级特征向量;
根据所述一级特征向量和二级特征向量确定不同实体间的相似度;
将相似度大于预设阈值的不同实体进行合并。
其中,根据知识图谱中实体对应的结构化数据生成一级特征向量的步骤进一步包括:根据与实体对应的URL获取结构化数据。
其中,根据实体对应的文档中包含的term生成二级特征向量的步骤进一步包括;
获取实体对应的文档中的term的逆文档频率,
根据所述逆文档频率确定二级特征向量候选term;
根据二级特征向量候选term生成二级特征向量。
其中,根据所述逆文档频率确定二级特征向量候选term的步骤进一步包括:
将所述逆文档频率与预定阈值进行比较;
选择逆文档频率高于预定阈值的term,作为二级特征向量候选term。
其中,根据所述一级特征向量和二级特征向量确定不同实体间的相似度的步骤进一步包括:
获取所述一级特征向量和二级特征向量的同义词;
根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。
其中,根据所述一级特征向量和二级特征向量确定不同实体间的相似度,进一步包括:
在第一级特征向量不同时,判断第一级特征向量是否为特定属性的相关数据;
如果是,则不进行实体合并;所述特定属性为预先设定的进行实体区分的属性。
根据本发明的另一个方面,提供一种知识图谱中的实体合并装置,包括:
知识图谱实体库,适于存储知识图谱;
一级特征向量生成单元,用于根据知识图谱中实体对应的结构化数据,生成一级特征向量;
二级特征向量生成单元,用于根据实体对应的文档中包含的term,生成二级特征向量;
相似度确定单元,用于根据所述一级特征向量和二级特征向量确定不同实体间的相似度;
实体合并单元,用于将相似度大于预设阈值的不同实体进行合并。
其中,所述一级特征向量生成单元进一步包括:结构化数据获取子单元,用于根据与实体对应的URL获取结构化数据。
其中,所述二级特征向量生成单元进一步包括;
逆文档频率获取子单元,用于获取实体对应的文档中的term的逆文档频率,
候选term确定子单元,用于根据所述逆文档频率确定二级特征向量候选term;
二级特征向量生成子单元,用于根据二级特征向量候选term生成二级特征向量。
其中,逆文档频率获取子单元进一步包括:
比较模块,用于将所述逆文档频率与预定阈值进行比较;
选择模块,用于选择逆文档频率高于预定阈值的term,作为二级特征向量候选term。
其中,相似度确定单元进一步包括:
同义词获取子单元,用于获取所述一级特征向量和二级特征向量的同义词;
相似度确定子单元,用于根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。
其中,相似度确定单元进一步包括:
第一特征向量比较单元,用于判断不同实体的第一特征向量是否相同;
属性判断单元,用于在第一级特征向量不同时判断第一级特征向量是否为特定属性的相关数据;如果是,且指示实体合并单元不进行实体合并,所述特定属性为预先设定的进行实体区分的属性。
本发明的有益效果为:
本发明的对知识图谱中实体进行合并的方法及装置,通过将实体ID分别构建一级特征向量和二级特征向量,能够对每个实体ID的特征清楚,有层次地描述,并根据一级特征向量与二级特征向量之间的相似度来对同名的实体ID进行相似度计算,可以准确地判断同名的实体ID是否为同一事物,是否需要合并,从而可以减少知识图谱中对同一事物存在多个实体ID的问题,使得知识图谱内容更加准确,结构更加紧凑。进一步地,本发明的技术方案应用到搜索引擎中,对其海量数据进行关联和梳理,从而能够更好的优化搜索结果,提高搜索效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示意性示出了本发明实施例的搜索结果的推送方法的流程图。
图2示意性地示出了本发明实施例的对知识图谱中的实体进行合并的方法的步骤S2的具体流程图。
图3示意性地示出了本发明实施例的知识图谱中实体合并装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
在构建知识图谱或对知识图谱进行更新时,在进行数据融合的过程中,需要解决语义一致性的问题,即判断不同的实体实际上是否描述的是同一事物,并对不同来源的相同实体进行合并,本发明的实施例通过为每个实体构件特征向量来解决上述问题。
本发明的一个实施例中,提供一种对知识图谱中的实体进行合并的方法。
图1示意性地示出了本发明实施例的一种对知识图谱中的实体进行合并的方法。
参照图1,本发明实施例的对知识图谱中的实体进行合并的方法,包括如下步骤:
S1、根据知识图谱中实体对应的结构化数据,生成一级特征向量;
知识图谱中的结构化数据,是适合查阅与处理的AVP数据,AVP数据通指含有属性与属性值的结构化数据对,即“属性名—属性值”对。本实施例的AVP数据格式为:实体名+<tab>+属性名+<tab>+属性值+<tab>+数据所在url+<tab>+网页的爬取时间。
基于知识图谱中与实体对应的结构化数据,根据与实体对应的URL获取结构化数据,然后将结构化数据生成一级特征向量。
在本实施例中,实体ID的特征向量为与实体ID相关联的一系列term。如在影视作品中常见的存在同名作品存在多个版本的数据问题,为了确定不同版本是否为同一实体ID,首先将实体ID对应URL的结构化数据生成一级特征向量。如实体天龙八部(黄日华)版的一个一级特征向量term可以生成为以主演为内容:黄日化、李若彤、樊少皇、陈浩民。
S2、根据实体对应的文档中包含的term,生成二级特征向量;
二级特征向量是根据实体ID对应的文档中包含的term的逆文档频率来生成的。本实施例中,term为文档中的兴趣词。
图2示意性地示出了本发明实施例的对知识图谱中的实体进行合并的方法的步骤S2的具体流程图。
参照图2,步骤S2具体包括:
S21、获取实体对应的文档中的term的逆文档频率,
S22、根据所述逆文档频率确定二级特征向量候选term;
S23、根据二级特征向量候选term生成二级特征向量。
上述过程中,步骤S22进一步包括:
S221、将所述逆文档频率与预定阈值进行比较;
S222、选择逆文档频率高于预定阈值的term,作为二级特征向量候选term。
S3、根据所述一级特征向量和二级特征向量确定不同实体间的相似度;
该步骤S3具体为:
获取所述一级特征向量和二级特征向量的同义词;
根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。
在本实施例中,与实体ID相关联的同义词通过以下方式产生:
获取用户搜索日志;
统计通过同义词到实体相应URL的点击次数;
根据所述点击次数确定同义词对于实体的可信度;
将所述可信度满足预定条件的同义词与相应的实体ID进行关联。
另外,同义词的查询获取通过从可靠的数据源挖掘获取、和/或从结构化数据的别名信息中挖掘获取、和/或从预设的同义词关联存储数据库中查询获取。
S4、将相似度大于预设阈值的不同实体进行合并。
在另一个实施例中,步骤S3根据所述一级特征向量和二级特征向量确定不同实体间的相似度,还可以通过以下方式实现:
在第一级特征向量不同时,判断第一级特征向量是否为特定属性的相关数据;
如果是,则不进行实体合并;所述特定属性为预先设定的进行实体区分的属性。
为使本发明实施例容易理解,现举例对其进行具体说明。
以人物姓名张大伟为例,在网络数据中,姓名为张大伟的实体有多个,每个实体对应了不同的结构化数据,根据每个实体的结构化数据,生成每个实体张大伟的一级特征向量为:
张大伟1:“教授,XX大学老师”、张大伟2:“演员,XX剧团成员”、张大伟3:“教授,XX电影协会会员,话剧演员”;
由于上述的特征向量并不能确定上述三个实体中是否有实体是表示同一个人,因此根据每个实体对应的文档中包含的term,生成二级特征向量。
在张大伟1的文档中逆文档频率较高的term生成的二级特征向量有:数学教师、XX理工大学、数学建模XX大赛等。
张大伟2的文档中逆文档频率较高的term包含有:XX电视剧主演,XX话剧演员,演员XX的研究生导师;
张大伟3的文档中逆文档频率较高的term生成的二级特征向量有:主演XX电视剧,演员XX在读XX学校时的研究生导师,出演话剧XX。
根据上述三个张大伟实体的一级特征向量和二级特征向量进行相似度对比,张大伟2和张大伟3的一级特征向量均包含了特征“演员”,二级特征向量中“XX电视剧主演”与“主演XX电视剧”为同义词,“XX话剧演员”与“出演XX话剧”为同义词,“演员XX的研究生导师”与“演员XX在读XX学校时的研究生导师”为相似词组,因此可以得出实体张大伟2与实体张大伟3表示同一个人,因此将这两个实体的数据进行合并,以减少数据的冗余。
另外,张大伟1与张大伟2的一级特征向量中虽然都包含了“教授”,但是二级特征向量中的term并不相同或相似,因此这两个实体并不表示同一个人。
上述的方法中,通过将实体ID分贝构建一级特征向量和二级特征向量,能够对每个实体ID的特征清楚,有层次地划分,从而可以准确地判断不同实体是否为同一事物,是否需要合并,从而可以减少知识图谱中对同一事物存在多个实体ID的问题,使得知识图谱内容更加准确,结构更加紧凑。
根据本发明的另一个方面,提供一种知识图谱中的实体合并装置。
图3示意性地示出了本发明实施例的知识图谱中实体合并装置的结构框图。
参照图3,本发明实施例的知识图谱中的实体合并装置具体包括:
知识图谱实体库10,适于存储知识图谱;
一级特征向量生成单元20,用于根据知识图谱中实体对应的结构化数据,生成一级特征向量;
二级特征向量生成单元30,用于根据实体对应的文档中包含的term,生成二级特征向量;
相似度确定单元40,用于根据所述一级特征向量和二级特征向量确定不同实体间的相似度;
实体合并单元50,用于将相似度大于预设阈值的不同实体进行合并。
在上述实施例中,一级特征向量生成单元20包括:结构化数据获取子单元201,用于根据与实体对应的URL获取结构化数据。
二级特征向量生成单元30还包括;
逆文档频率获取子单元301,用于获取实体对应的文档中的term的逆文档频率,
候选term确定子单元302,用于根据所述逆文档频率确定二级特征向量候选term;
二级特征向量生成子单元303,用于根据二级特征向量候选term生成二级特征向量。
在又一个实施例中,逆文档频率获取子单元301进一步包括:
比较模块,用于将所述逆文档频率与预定阈值进行比较;
选择模块,用于选择逆文档频率高于预定阈值的term,作为二级特征向量候选term。
相似度确定单元40进一步包括:
同义词获取子单元401,用于获取所述一级特征向量和二级特征向量的同义词;
相似度确定子单元402,用于根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度。
另外,在又一个实施例中,相似度确定单元40也可以包括:
第一特征向量比较单元403,用于判断不同实体的第一特征向量是否相同;
属性判断单元404,用于在第一级特征向量不同时判断第一级特征向量是否为特定属性的相关数据;如果是,且指示实体合并单元不进行实体合并,所述特定属性为预先设定的进行实体区分的属性。
本发明的知识图谱中实体合并的方法和装置,通过将实体ID分别构建一级特征向量和二级特征向量,能够对每个实体ID的特征清楚,有层次地描述,并根据一级特征向量与二级特征向量之间的相似度来对同名的实体ID进行相似度计算,从而可以准确地判断同名的实体ID是否为同一事物,是否需要合并,从而可以减少知识图谱中对同一事物存在多个实体ID的问题,使得知识图谱内容更加准确,结构更加紧凑。进一步地,本发明的技术方案应用到搜索引擎中,对其海量数据进行关联和梳理,从而能够更好的优化搜索结果,提高搜索效率。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端,和系统等设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种对知识图谱中的实体进行合并的方法,包括如下步骤:
根据知识图谱中实体对应的结构化数据,生成一级特征向量;
根据实体对应的文档中包含的term,生成二级特征向量;
根据所述一级特征向量和二级特征向量确定不同实体间的相似度;
将相似度大于预设阈值的不同实体进行合并;
其中,所述结构化数据是适合查阅与处理的AVP数据,所述AVP数据通指含有属性与属性值的结构化数据对;
其中,根据所述一级特征向量和二级特征向量确定不同实体间的相似度的步骤进一步包括:
获取所述一级特征向量和二级特征向量的同义词;
根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度;
同义词的查询获取通过从可靠的数据源挖掘获取、和/或从结构化数据的别名信息中挖掘获取、和/或从预设的同义词关联存储数据库中查询获取。
2.根据权利要求1所述的方法,根据知识图谱中实体对应的结构化数据生成一级特征向量的步骤进一步包括:根据与实体对应的URL获取结构化数据。
3.根据权利要求1或2所述的方法,根据实体对应的文档中包含的term生成二级特征向量的步骤进一步包括;
获取实体对应的文档中的term的逆文档频率,
根据所述逆文档频率确定二级特征向量候选term;
根据二级特征向量候选term生成二级特征向量。
4.根据权利要求3所述的方法,根据所述逆文档频率确定二级特征向量候选term的步骤进一步包括:
将所述逆文档频率与预定阈值进行比较;
选择逆文档频率高于预定阈值的term,作为二级特征向量候选term。
5.根据权利要求1、2或4所述的方法,根据所述一级特征向量和二级特征向量确定不同实体间的相似度,进一步包括:
在第一级特征向量不同时,判断第一级特征向量是否为特定属性的相关数据;
如果是,则不进行实体合并;所述特定属性为预先设定的进行实体区分的属性。
6.一种知识图谱中的实体合并装置,包括:
知识图谱实体库,适于存储知识图谱;
一级特征向量生成单元,用于根据知识图谱中实体对应的结构化数据,生成一级特征向量;
二级特征向量生成单元,用于根据实体对应的文档中包含的term,生成二级特征向量;
相似度确定单元,用于根据所述一级特征向量和二级特征向量确定不同实体间的相似度;
实体合并单元,用于将相似度大于预设阈值的不同实体进行合并;
其中,所述结构化数据是适合查阅与处理的AVP数据,所述AVP数据通指含有属性与属性值的结构化数据对;
相似度确定单元进一步包括:
同义词获取子单元,用于获取所述一级特征向量和二级特征向量的同义词;
相似度确定子单元,用于根据所述一级特征向量、二级特征向量以及其同义词确定不同实体间的相似度;
同义词的查询获取通过从可靠的数据源挖掘获取、和/或从结构化数据的别名信息中挖掘获取、和/或从预设的同义词关联存储数据库中查询获取。
7.根据权利要求6所述的实体合并装置,所述一级特征向量生成单元进一步包括:结构化数据获取子单元,用于根据与实体对应的URL获取结构化数据。
8.根据权利要求6或7所述的实体合并装置,所述二级特征向量生成单元进一步包括;
逆文档频率获取子单元,用于获取实体对应的文档中的term的逆文档频率,
候选term确定子单元,用于根据所述逆文档频率确定二级特征向量候选term;
二级特征向量生成子单元,用于根据二级特征向量候选term生成二级特征向量。
9.根据权利要求8所述的实体合并装置,逆文档频率获取子单元进一步包括:
比较模块,用于将所述逆文档频率与预定阈值进行比较;
选择模块,用于选择逆文档频率高于预定阈值的term,作为二级特征向量候选term。
10.根据权利要求6、7或9所述的实体合并装置,相似度确定单元进一步包括:
第一特征向量比较单元,用于判断不同实体的第一特征向量是否相同;
属性判断单元,用于在第一级特征向量不同时判断第一级特征向量是否为特定属性的相关数据;如果是,且指示实体合并单元不进行实体合并,所述特定属性为预先设定的进行实体区分的属性。
CN201410838342.0A 2014-12-29 2014-12-29 一种对知识图谱中的实体进行合并的方法及装置 Expired - Fee Related CN104484459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410838342.0A CN104484459B (zh) 2014-12-29 2014-12-29 一种对知识图谱中的实体进行合并的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838342.0A CN104484459B (zh) 2014-12-29 2014-12-29 一种对知识图谱中的实体进行合并的方法及装置

Publications (2)

Publication Number Publication Date
CN104484459A CN104484459A (zh) 2015-04-01
CN104484459B true CN104484459B (zh) 2019-07-23

Family

ID=52759000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838342.0A Expired - Fee Related CN104484459B (zh) 2014-12-29 2014-12-29 一种对知识图谱中的实体进行合并的方法及装置

Country Status (1)

Country Link
CN (1) CN104484459B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866625B (zh) * 2015-06-15 2018-08-17 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105045863B (zh) * 2015-07-13 2018-09-28 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105279277A (zh) * 2015-11-12 2016-01-27 百度在线网络技术(北京)有限公司 知识数据的处理方法和装置
CN105335519B (zh) * 2015-11-18 2021-08-17 百度在线网络技术(北京)有限公司 模型生成方法及装置、推荐方法及装置
CN105550336B (zh) * 2015-12-22 2018-12-18 北京搜狗科技发展有限公司 单一实体实例的挖掘方法和装置
US10140286B2 (en) 2017-02-22 2018-11-27 Google Llc Optimized graph traversal
CN107480191B (zh) * 2017-07-12 2020-08-21 清华大学 一种迭代的实体对齐模型
CN107491555B (zh) * 2017-09-01 2020-11-20 北京纽伦智能科技有限公司 知识图谱构建方法和系统
CN107943873B (zh) * 2017-11-13 2021-05-14 平安科技(深圳)有限公司 知识图谱建立方法、装置、计算机设备及存储介质
CN108304381B (zh) * 2018-01-25 2021-09-21 北京百度网讯科技有限公司 基于人工智能的实体建边方法、装置、设备及存储介质
CN108509654B (zh) * 2018-04-18 2021-12-28 上海交通大学 动态知识图谱的构建方法
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置
CN110019948B (zh) * 2018-08-31 2022-04-26 北京字节跳动网络技术有限公司 用于输出信息的方法和装置
CN109840284B (zh) * 2018-12-21 2020-11-13 中科曙光南京研究院有限公司 家族亲缘关系知识图谱构建方法与系统
CN109726398B (zh) * 2018-12-27 2023-07-07 奇安信科技集团股份有限公司 一种实体识别及属性判断方法、系统、设备及介质
US10891117B2 (en) * 2019-02-19 2021-01-12 Loring G. Craymer, III Method and system for using subroutine graphs for formal language processing
CN112784063A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN110134800A (zh) * 2019-04-17 2019-08-16 深圳壹账通智能科技有限公司 一种文档关系可视化处理方法及装置
CN110245198B (zh) * 2019-06-18 2021-08-27 北京百度网讯科技有限公司 多源售票数据管理方法及系统、服务器和计算机可读介质
CN110609903B (zh) * 2019-08-01 2022-11-11 华为技术有限公司 信息表示方法及装置
CN110427381A (zh) * 2019-08-07 2019-11-08 北京嘉和海森健康科技有限公司 一种数据处理方法及相关设备
CN110569396B (zh) * 2019-09-03 2022-05-06 上海赜睿信息科技有限公司 一种数据搜索方法、电子设备和计算机可读存储介质
CN110674313B (zh) * 2019-09-20 2022-12-13 四川长虹电器股份有限公司 一种基于用户日志动态更新知识图谱的方法
CN111125376B (zh) * 2019-12-23 2023-08-29 秒针信息技术有限公司 知识图谱生成方法、装置、数据处理设备及存储介质
CN111178615B (zh) * 2019-12-24 2023-10-27 成都数联铭品科技有限公司 一种企业风险识别模型的构建方法及系统
CN111475653B (zh) * 2019-12-30 2021-03-02 北京国双科技有限公司 油气勘探开发领域的知识图谱的构建方法及装置
CN111259137B (zh) * 2020-01-17 2023-04-07 平安科技(深圳)有限公司 知识图谱摘要的生成方法及系统
WO2021147041A1 (zh) * 2020-01-22 2021-07-29 华为技术有限公司 语义分析方法、装置、设备及存储介质
CN111814477B (zh) * 2020-07-06 2022-06-21 重庆邮电大学 一种基于争议焦点实体的争议焦点发现方法、装置及终端
CN111949307B (zh) * 2020-07-06 2021-06-25 北京大学 一种开源项目知识图谱的优化方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN103064907A (zh) * 2012-12-18 2013-04-24 上海电机学院 基于无监督的实体关系抽取的主题元搜索系统及方法
CN103324666A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博数据的话题跟踪方法及装置
CN103488789A (zh) * 2013-10-08 2014-01-01 百度在线网络技术(北京)有限公司 推荐方法、装置和搜索引擎

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8214304B2 (en) * 2005-10-17 2012-07-03 Koninklijke Philips Electronics N.V. Method and device for calculating a similarity metric between a first feature vector and a second feature vector

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853250A (zh) * 2009-04-03 2010-10-06 华为技术有限公司 对文档进行分类的方法及装置
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN103064907A (zh) * 2012-12-18 2013-04-24 上海电机学院 基于无监督的实体关系抽取的主题元搜索系统及方法
CN103324666A (zh) * 2013-05-14 2013-09-25 亿赞普(北京)科技有限公司 一种基于微博数据的话题跟踪方法及装置
CN103488789A (zh) * 2013-10-08 2014-01-01 百度在线网络技术(北京)有限公司 推荐方法、装置和搜索引擎

Also Published As

Publication number Publication date
CN104484459A (zh) 2015-04-01

Similar Documents

Publication Publication Date Title
CN104484459B (zh) 一种对知识图谱中的实体进行合并的方法及装置
US10678835B2 (en) Generation of knowledge graph responsive to query
US11163957B2 (en) Performing semantic graph search
US10169471B2 (en) Generating and executing query language statements from natural language
JP5638616B2 (ja) 情報検索方法およびシステム
CN108052613B (zh) 用于生成页面的方法和装置
JP2017504876A (ja) テキストのコンテキストベースの定義および翻訳を提供するためのシステムおよび方法
US11461321B2 (en) Technology to reduce cost of concatenation for hash array
US10191946B2 (en) Answering natural language table queries through semantic table representation
WO2016062099A1 (zh) 搜索方法及搜索装置
US9292595B2 (en) Creating new documents based on global intent and local context
US11755931B2 (en) Performing natural language based reasoning and automation by transforming a configuration management database to a knowledge base
JP7146961B2 (ja) 音声パッケージの推薦方法、装置、電子機器および記憶媒体
US11947595B2 (en) Storing semi-structured data
US20190258682A1 (en) Hybrid processing of disjunctive and conjunctive conditions of a search query for a similarity search
US10642897B2 (en) Distance in contextual network graph
US10635725B2 (en) Providing app store search results
US9552375B2 (en) Geocoding of images based on search queries
US20160328468A1 (en) Generating multilingual queries
US20160048567A1 (en) Search query refinement interface
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
US11222051B2 (en) Document analogues through ontology matching
US20160196348A1 (en) Re-ordering search results based on viewed pages
US10365808B2 (en) Metadata-based navigation in semantic zoom environment
CN109857838B (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190723

Termination date: 20211229