CN106202041A - 一种解决知识图谱中的实体对齐问题的方法和装置 - Google Patents

一种解决知识图谱中的实体对齐问题的方法和装置 Download PDF

Info

Publication number
CN106202041A
CN106202041A CN201610509704.0A CN201610509704A CN106202041A CN 106202041 A CN106202041 A CN 106202041A CN 201610509704 A CN201610509704 A CN 201610509704A CN 106202041 A CN106202041 A CN 106202041A
Authority
CN
China
Prior art keywords
entity
dictionary entry
same name
attribute information
concrete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610509704.0A
Other languages
English (en)
Other versions
CN106202041B (zh
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201610509704.0A priority Critical patent/CN106202041B/zh
Publication of CN106202041A publication Critical patent/CN106202041A/zh
Application granted granted Critical
Publication of CN106202041B publication Critical patent/CN106202041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种解决知识图谱中的实体对齐问题的方法和装置,通过对所述两个或两个以上具体相同名字的实体与百科中的多义项做比较,来判断所述两个或两个以上具体相同名字的实体是否为相同的实体。本发明的技术方案能够有效解决现有技术中通过人工方式解决实体对齐的问题,不仅节约了成本,而且能够大大提高效率。

Description

一种解决知识图谱中的实体对齐问题的方法和装置
技术领域
本发明涉及通信网络技术领域,具体涉及一种解决知识图谱中的实体对齐问题的方法和装置。
背景技术
随着互联网的飞速发展,为了更方便地、清晰地获取信息、学习知识,更经常的使用搜索引擎服务来进行信息搜索和查询。在知识图谱领域,面临实体对齐的问题。所谓实体对齐指的是:从不同网页中抽取的实体(概念),如何判断这些实体是否是同一个。“实体”可以是现实中的一个事物,也可以是一个概念等等。比如一个公司就是一个实体,一个术语也是一个实体。不同渠道获取的数据在进行调整和更新时,由于来自不同的数据对于同一事物的描述方式不同,或者对于同一事物,不同的数据来源对其进行不同角度的描述,会出现同一个事物具有多个不同版本的数据描述,也需要对数据进行关联和梳理。
比如从网页http://movie.douban.com/subject/24751756/中抽取的实体中有一个名为“冯小刚”的实体,从网页http://baike.so.com/doc/1168497-1236034.html中抽取的实体中也有一个名为“冯小刚”的实体,这两个实体是同一个。
在解决实体对齐的问题中,很难找到一个策略保证100%的正确,因此容易把两个不同的实体误认为是同一个实体。比如从不同的网页中抽出来的两个“成龙”并不是同一个实体,一个为影星成龙,另一个为动漫《成龙历险记》中的角色成龙。因为他们都曾在动漫《成龙历险记》中出现过(比如豆瓣网页https://movie.douban.com/subject/1933857/中明确标出了《成龙历险记》的主演直接链接到影星成龙的页面https://movie.douban.com/celebrity/1054531/,其实影星成龙在此动漫中是配音),如果先前并不知道他们的类型(确定类型是难度较大的工作,也存在一定的错误率),往往会被认为是同一个。
现有技术中存在如下不足:,往往只能人工的方式来解决问题,例如设定一些黑名单等,以明确标出这些实体不是同一个。但人工的方式成本较高,且效率低下。
发明内容
鉴于上述问题,提出了本发明的技术方案以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题。
根据本发明的一个方面,提供了一种解决知识图谱中的实体对齐问题的方法,所述方法包括:
从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;
对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;
如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;
否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。
进一步的,所述实体集合为百科多义项,所述元素为百科多义项中的多义项。
进一步的,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。
进一步的,所述对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较包括:
获取所述实体的属性信息;
对所述实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。
进一步的,所述获取与实体对应的属性信息包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。
进一步的,对所述实体的属性信息进行数据预处理,包括:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
进一步的,所述对经过数据预处理后的属性信息进行数据校验,包括:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
进一步的,根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同包括:
按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序;
对预定数量的属性信息进行加权求和以计算其相似度;
如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定所述两个或两个以上具体相同名字的实体为相同的实体;否则,判定所述两个或两个以上具体相同名字的实体为不相同的实体。
根据本发明的另一方面,提供了一种解决知识图谱中的实体对齐问题的装置,所述装置包括:
实体获取模块,用于从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;
比较模块,用于对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;
判断模块,用于根据比较的结果进行判断:如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;
否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。
进一步的,所述实体集合为百科多义项,所述元素为百科多义项中的多义项。
进一步的,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。
进一步的,所述比较模块包括:
属性信息获取单元,用于获取所述实体的属性信息;
预处理单元,用于对所述实体的属性信息进行数据预处理;
校验单元,用于对经过数据预处理后的属性信息进行数据校验;
确定单元,用于根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。
进一步的,所述属性信息获取单元包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。
进一步的,对预处理单元包括:
在所述结构化数据和所述非结构化数据中各实体的属性信息中去除错误的属性信息;
从所述结构化数据和所述非结构化数据中各实体的属性信息中,识别出语义相同的属性信息;
对识别出的语义相同的属性信息执行去重或者归一化处理。
进一步的,所述校验单元包括:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;
若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
进一步的,所述确定单元进一步包括:
按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序;
对预定数量的属性信息进行加权求和以计算其相似度;
如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定所述两个或两个以上具体相同名字的实体为相同的实体;否则,判定所述两个或两个以上具体相同名字的实体为不相同的实体。
本发明的有益效果为:
本发明提供了一种解决知识图谱中的实体对齐问题的方法和装置,通过对所述两个或两个以上具体相同名字的实体与百科中的多义项做比较,来判断所述两个或两个以上具体相同名字的实体是否为相同的实体。本发明的技术方案能够有效解决现有技术中通过人工方式解决实体对齐的问题,不仅节约了成本,而且能够大大提高效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文具体实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出具体实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明的解决知识图谱中的实体对齐问题的方法流程图;
图2为本发明的方法中预处理和校验步骤的示意图;
图3为本发明的方法中确定步骤的示意图;
图4为本发明的解决知识图谱中的实体对齐问题的装置示意图;
图5为本发明的装置中比较模块的示意图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步详细的描述。
图1为本发明的解决知识图谱中的实体对齐问题的方法流程图。本实施例的方法可以由解决知识图谱中的实体对齐问题的装置来执行,该装置可以通过软件的方式实现,并集成于搜索引擎客户端(如360搜索等)所在的终端设备(例如,笔记本、pad、手机等)中。
在构建知识图谱或对知识图谱进行更新时,在进行数据融合的过程中,需要解决实体对齐的问题,即判断不同的实体实际上是否描述的是同一事物。如图1所示,本发明提供了一种解决知识图谱中的实体对齐问题的方法,所述方法包括:
S101、从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;
S102、对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;
S103、如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;
否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。
进一步的,所述实体集合为百科多义项,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。所述百科,包括但不限于360百科、维基百科、互动百科、百度百科等网络百科数据。多义项,指百科中包含有两个或两个以上的义项。百科词条中,每一个不同概念意义事物的叙述内容称为义项。每一个义项,具有独立的义项名、百科名片、基本信息模块、正文、参考资料等内容。义项名是对词条名所指代事物作明确识别的词组,是义项内容说明。义项名一般为事物的属性、从属关系等,应具有代表性强、认知度高、简短易识别的特点。
图2为本发明的方法中预处理和校验步骤的示意图。
进一步的,所述对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较包括:
S201、获取与实体对应的属性信息;
S202、对所述实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
S203、根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。
进一步的,步骤S201具体为:
所述获取与实体对应的属性信息包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。
进一步的,由于采集到的各实体的结构化数据和非结构化数据的来源众多且数据质量不一,因此需要先对各实体的结构化数据和非结构化数据进行处理,以提高获取的属性信息准确性。
进一步的,所述S202、对所述实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验具体为:
对所述结构化数据和非结构化数据中各实体的属性信息进行数据预处理的方法可以包括但不限于:
首先,在所述结构化数据和非结构化数据中各实体的属性信息中去除错误的属性信息。然后,从所述结构化数据和非结构化数据中各实体的属性信息中,识别出语义相同的属性信息。最后,对识别出的语义相同的属性信息执行去重或者归一化处理。
可以理解得是,在结构化数据和非结构化数据中各实体的属性信息中可能会存在错误的属性信息,因此有必要对错误的属性信息进行清除,以提高知识图谱的准确性。例如,可以基于已有的其他知识图谱中实体与其他实体的关系,对采集的结构化数据和非结构化数据中各实体的关系中的错误的关系进行识别,从而对识别出的错误的关系进行去除。
在一个具体的实现过程中,可以根据结构化数据中实体的描述文本中对应关系的说明,识别出语义相同的属性信息。或者,也可以根据非结构化数据中实体的共现数据,识别出语义相同的属性信息。或者,还可以根据该实体在其他知识图谱中有共同指向的其他实体的数目比例数据,识别出语义相同的属性信息。
由于不同结构化数据和非结构化数据中实体的属性信息语义相同但是描述不同,因此,在识别出语义相同的属性信息后,对识别出的语义相同的属性信息进行去重处理,去除其中一个属性信息;或者,也可以进行归一化处理。该归一化处理可以是以其中一个属性信息为准,或者也可以根据两个属性信息,重新生成一个属性信息,将该重新生成的属性信息作为归一化处理的结果,且对语义相同的两个属性信息进行去除。
例如,某人物的绰号和外号在语义上是相同的,因此,可以保留绰号,去除外号,或者,也可以保留外号,去除绰号。再例如,对于与时间相关的实体,将1999年8月1号下午3点24分24秒和一九九九年八月一日15点24分24秒进行时间归一化,标准ISO6801(19990801152424),以供后期进行合并。对于与地点相关的实体进行地点归一化处理(例如通过最大生成树算法(MST)),得到地点的标准格式(国家.省/州/自治区.城市.区.镇,以及经纬度)。
去重处理和归一化处理都是为了在实体的属性信息中去除冗余的重复数据,减少后续的数据处理量。
在对各实体的属性信息进行数据预处理后,还需要对属性信息进行数据校验。
举例说明,对经过数据预处理后的属性信息进行数据校验的方法可以包括但不限于:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
可以理解的是,校验规则中可以定义属性信息中的属性值的合理数值,若属性信息中的属性值与合理数值不符,则该属性信息的属性值是错误的,即该属性信息属于错误数据,因此需要删除该属性信息。
例如,实体是人物,人物的身高属性的属性值不会超过2.5米,所以若判断出某人物的身高属性的属性值超过2.5米,表示该属性信息是错误的。或者,又例如,实体是人物,人物的女儿属性的属性值的性别是女性,所以若判断出某人物的女儿属性的属性值的性别是男性,表示该属性信息是错误的。
校验步骤的目的是提高属性信息的准确性。
另外,还可以在上述数据校验之后,再进行一次人工数据校验,以进一步提高数据准确性。
图3为本发明的方法中确定步骤的示意图。
进一步的,根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同包括:
S301、按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序;
S302、对预定数量的属性信息进行加权求和以计算其相似度;
S303、如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定所述两个或两个以上具体相同名字的实体为相同的实体;否则,判定所述两个或两个以上具体相同名字的实体为不相同的实体。
进一步的,S301、按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序具体为:对实体进行对比,其本质是对其属性信息进行对比。而属性信息的区分度显然是不同的,因此按照重要性(即区分度)从高到低的顺序对所述属性信息进行排序,将有利于对实体进行比较和区分。
进一步的,S302、对预定数量的属性信息进行加权求和以计算其相似度;S303、如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定所述两个或两个以上具体相同名字的实体为相同的实体;否则,判定所述两个或两个以上具体相同名字的实体为不相同的实体具体为:
首先对排序好的属性信息赋予适当的权重值。属性信息不同,则其权重值也不同。例如,实体“成龙”的“身份”属性信息最为重要,其权重值应该最大。相比之下,由于真人的成龙与动漫中的成龙的武功都很好,因此该属性信息对应的权重值应相应较小。
如果与百科做比较的实体具有该属性信息,则将该属性信息相应的记为1,否则记为0。对所有预定数量的属性信息进行加权求和之后即可得到从网页获取的实体与百科的实体之间的相似度。
当然,相似度的计算方法包括但并不限于上述方法,其他的方法如采用逆文档频率的方法也可以得到实体之间的相似度。
进一步的,将计算得到的相似度与预定的阈值做比较包括:如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定网页获取的两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项均为同一个实体,即所述两个或两个以上具体相同名字的实体为相同的实体;
否则,如果所述两个或两个以上具体相同名字的实体与百科中的不同的实体义项相似度大于等于预定的阈值,则判定两个或两个以上具体相同名字的实体为不相同的实体。此时,可以基于上述相似度的判定结果对所述两个或两个以上具体相同名字的实体进行进一步区分。例如:第一个实体“成龙”为中国香港演员、导演;第二个实体“成龙”为美国动漫《成龙历险记》中的角色。
图4为本发明的解决知识图谱中的实体对齐问题的装置示意图;
如图4所示,本发明提供了一种解决知识图谱中的实体对齐问题的装置,所述装置包括:
实体获取模块401,用于从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;
比较模块402,用于对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;
判断模块403,用于根据比较的结果进行判断:如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;
否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。
进一步的,所述实体集合为百科多义项,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。所述百科,包括但不限于360百科、维基百科、互动百科、百度百科等网络百科数据。多义项,指百科中包含有两个或两个以上的义项。百科词条中,每一个不同概念意义事物的叙述内容称为义项。每一个义项,具有独立的义项名、百科名片、基本信息模块、正文、参考资料等内容。义项名是对词条名所指代事物作明确识别的词组,是义项内容说明。义项名一般为事物的属性、从属关系等,应具有代表性强、认知度高、简短易识别的特点。
图5为本发明的装置中比较模块的示意图。
进一步的,所述比较模块包括:
属性信息获取单元501,用于获取所述实体的属性信息;
预处理单元502,用于对所述实体的属性信息进行数据预处理;
校验单元503,用于对经过数据预处理后的属性信息进行数据校验;
确定单元504,用于根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。
进一步的,所述属性信息获取单元包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。
进一步的,由于采集到的各实体的结构化数据和非结构化数据的来源众多且数据质量不一,因此需要先对各实体的结构化数据和非结构化数据进行处理,以提高获取的属性信息准确性。
进一步的,对所述实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验具体为:
对所述结构化数据和非结构化数据中各实体的属性信息进行数据预处理的方法可以包括但不限于:
首先,在所述结构化数据和非结构化数据中各实体的属性信息中去除错误的属性信息。然后,从所述结构化数据和非结构化数据中各实体的属性信息中,识别出语义相同的属性信息。最后,对识别出的语义相同的属性信息执行去重或者归一化处理。
可以理解得是,在结构化数据和非结构化数据中各实体的属性信息中可能会存在错误的属性信息,因此有必要对错误的属性信息进行清除,以提高知识图谱的准确性。例如,可以基于已有的其他知识图谱中实体与其他实体的关系,对采集的结构化数据和非结构化数据中各实体的关系中的错误的关系进行识别,从而对识别出的错误的关系进行去除。
在一个具体的实现过程中,可以根据结构化数据中实体的描述文本中对应关系的说明,识别出语义相同的属性信息。或者,也可以根据非结构化数据中实体的共现数据,识别出语义相同的属性信息。或者,还可以根据该实体在其他知识图谱中有共同指向的其他实体的数目比例数据,识别出语义相同的属性信息。
由于不同结构化数据和非结构化数据中实体的属性信息语义相同但是描述不同,因此,在识别出语义相同的属性信息后,对识别出的语义相同的属性信息进行去重处理,去除其中一个属性信息;或者,也可以进行归一化处理。该归一化处理可以是以其中一个属性信息为准,或者也可以根据两个属性信息,重新生成一个属性信息,将该重新生成的属性信息作为归一化处理的结果,且对语义相同的两个属性信息进行去除。
例如,某人物的绰号和外号在语义上是相同的,因此,可以保留绰号,去除外号,或者,也可以保留外号,去除绰号。再例如,对于与时间相关的实体,将1999年8月1号下午3点24分24秒和一九九九年八月一日15点24分24秒进行时间归一化,标准ISO6801(19990801152424),以供后期进行合并。对于与地点相关的实体进行地点归一化处理(例如通过最大生成树算法(MST)),得到地点的标准格式(国家.省/州/自治区.城市.区.镇,以及经纬度)。
去重处理和归一化处理都是为了在实体的属性信息中去除冗余的重复数据,减少后续的数据处理量。
在对各实体的属性信息进行数据预处理后,还需要对属性信息进行数据校验。
举例说明,对经过数据预处理后的属性信息进行数据校验的方法可以包括但不限于:
根据预设的校验规则,判断经过数据预处理后的属性信息的属性值是否正确;若判断出经过数据预处理后的属性信息的属性值不正确,在经过数据预处理后的属性信息中删除属性值不正确的属性信息。
可以理解的是,校验规则中可以定义属性信息中的属性值的合理数值,若属性信息中的属性值与合理数值不符,则该属性信息的属性值是错误的,即该属性信息属于错误数据,因此需要删除该属性信息。
例如,实体是人物,人物的身高属性的属性值不会超过2.5米,所以若判断出某人物的身高属性的属性值超过2.5米,表示该属性信息是错误的。或者,又例如,实体是人物,人物的女儿属性的属性值的性别是女性,所以若判断出某人物的女儿属性的属性值的性别是男性,表示该属性信息是错误的。
校验步骤的目的是提高属性信息的准确性。
另外,还可以在上述数据校验之后,再进行一次人工数据校验,以进一步提高数据准确性。
进一步的,根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同包括:
按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序;
对预定数量的属性信息进行加权求和以计算其相似度;
如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定所述两个或两个以上具体相同名字的实体为相同的实体;否则,判定所述两个或两个以上具体相同名字的实体为不相同的实体。
进一步的,按照重要性从高到低的顺序对百科多义项中的多义项的预定数量的所述属性信息进行排序具体为:对实体进行对比,其本质是对其属性信息进行对比。而属性信息的区分度显然是不同的,因此按照重要性(即区分度)从高到低的顺序对所述属性信息进行排序,将有利于对实体进行比较和区分。
进一步的,对预定数量的属性信息进行加权求和以计算其相似度;如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定所述两个或两个以上具体相同名字的实体为相同的实体;否则,判定所述两个或两个以上具体相同名字的实体为不相同的实体具体为:
首先对排序好的属性信息赋予适当的权重值。属性信息不同,则其权重值也不同。例如,实体“成龙”的“身份”属性信息最为重要,其权重值应该最大。相比之下,由于真人的成龙与动漫中的成龙的武功都很好,因此该属性信息对应的权重值应相应较小。
如果与百科做比较的实体具有该属性信息,则将该属性信息相应的记为1,否则记为0。对所有预定数量的属性信息进行加权求和之后即可得到从网页获取的实体与百科的实体之间的相似度。
当然,相似度的计算方法包括但并不限于上述方法,其他的方法如采用逆文档频率的方法也可以得到实体之间的相似度。
进一步的,将计算得到的相似度与预定的阈值做比较包括:如果所述两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项相似度均大于等于预定的阈值,则判定网页获取的两个或两个以上具体相同名字的实体与百科多义项中的同一个多义项均为同一个实体,即所述两个或两个以上具体相同名字的实体为相同的实体;
否则,如果所述两个或两个以上具体相同名字的实体与百科中的不同的实体义项相似度大于等于预定的阈值,则判定两个或两个以上具体相同名字的实体为不相同的实体。此时,可以基于上述相似度的判定结果对所述两个或两个以上具体相同名字的实体进行进一步区分。例如:第一个实体“成龙”为中国香港演员、导演;第二个实体“成龙”为美国动漫《成龙历险记》中的角色。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置。这样的实现本发明的程序可以存储在计算机可读介质上。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本发明的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
此外,还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种解决知识图谱中的实体对齐问题的方法,其特征在于,所述方法包括:
从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;
对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;
如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;
否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。
2.如权利要求1所述的方法,其特征在于,所述实体集合为百科多义项,所述元素为百科多义项中的多义项。
3.如权利要求1-2中任一项所述的方法,其特征在于,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较包括:
获取所述实体的属性信息;
对所述实体的属性信息进行数据预处理,并对经过数据预处理后的属性信息进行数据校验;
根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述获取与实体对应的属性信息包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。
6.一种解决知识图谱中的实体对齐问题的装置,其特征在于,所述装置包括:
实体获取模块,用于从网页中获取知识图谱中的两个或两个以上具体相同名字的实体;
比较模块,用于对所述两个或两个以上具体相同名字的实体与指定的实体集合中的元素做比较;
判断模块,用于根据比较的结果进行判断:如果所述两个或两个以上具体相同名字的实体均与所述实体集合中的同一个元素相同,则判断所述两个或两个以上具体相同名字的实体为相同的实体;
否则,判断所述两个或两个以上具体相同名字的实体为不相同的实体。
7.如权利要求6所述的方法,其特征在于,所述实体集合为百科多义项,所述元素为百科多义项中的多义项。
8.如权利要求6-7中任一项所述的方法,其特征在于,所述百科多义项包括具有相同名字的两个或者两个以上的多义项。
9.如权利要求6-8中任一项所述的方法,其特征在于,所述比较模块包括:
属性信息获取单元,用于获取所述实体的属性信息;
预处理单元,用于对所述实体的属性信息进行数据预处理;
校验单元,用于对经过数据预处理后的属性信息进行数据校验;
确定单元,用于根据所述与实体对应的属性确定所述两个或两个以上具体相同名字的实体是否均与所述百科多义项中的同一个多义项相同。
10.如权利要求6-9中任一项所述的方法,其特征在于,所述属性信息获取单元包括:
从网络百科中采集各实体的结构化数据,以及,从质量度超过指定阈值的网页中采集各实体的非结构化数据;
其中,所述结构化数据和非结构化数据中包含实体的属性信息,所述属性信息包含属性名和对应的属性值。
CN201610509704.0A 2016-07-01 2016-07-01 一种解决知识图谱中的实体对齐问题的方法和装置 Active CN106202041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610509704.0A CN106202041B (zh) 2016-07-01 2016-07-01 一种解决知识图谱中的实体对齐问题的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610509704.0A CN106202041B (zh) 2016-07-01 2016-07-01 一种解决知识图谱中的实体对齐问题的方法和装置

Publications (2)

Publication Number Publication Date
CN106202041A true CN106202041A (zh) 2016-12-07
CN106202041B CN106202041B (zh) 2019-07-09

Family

ID=57463210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610509704.0A Active CN106202041B (zh) 2016-07-01 2016-07-01 一种解决知识图谱中的实体对齐问题的方法和装置

Country Status (1)

Country Link
CN (1) CN106202041B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897403A (zh) * 2017-02-14 2017-06-27 中国科学院电子学研究所 面向知识图谱构建的细粒度中文属性对齐方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN108376160A (zh) * 2018-02-12 2018-08-07 北京大学 一种中文知识图谱构建方法和系统
CN108509479A (zh) * 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109033303A (zh) * 2018-07-17 2018-12-18 东南大学 一种基于约简锚点的大规模知识图谱融合方法
CN109145003A (zh) * 2018-08-24 2019-01-04 蜜小蜂智慧(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109255002A (zh) * 2018-09-11 2019-01-22 浙江大学 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN109347798A (zh) * 2018-09-12 2019-02-15 东软集团股份有限公司 网络安全知识图谱的生成方法、装置、设备及存储介质
CN109359172A (zh) * 2018-08-02 2019-02-19 浙江大学 一种基于图划分的实体对齐优化方法
CN109885697A (zh) * 2019-02-01 2019-06-14 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN112528644A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112579770A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 知识图谱的生成方法,装置,存储介质及设备
WO2021082100A1 (zh) * 2019-10-30 2021-05-06 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质
CN113204643A (zh) * 2021-06-23 2021-08-03 北京明略软件系统有限公司 一种实体对齐方法、装置、设备及介质
CN115659985A (zh) * 2022-12-09 2023-01-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备
CN115828882A (zh) * 2022-09-23 2023-03-21 华能澜沧江水电股份有限公司 面向大坝安全知识库风险联动的实体对齐方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246826A (ja) * 2012-05-25 2013-12-09 Ricoh Co Ltd 対象の異構造インスタンスの属性値整列システム、対象の異構造インスタンスの属性値整列方法、及びプログラム
CN103455524A (zh) * 2012-06-05 2013-12-18 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置
CN105335378A (zh) * 2014-06-25 2016-02-17 富士通株式会社 多数据源的信息处理装置、服务器及方法
CN105550336A (zh) * 2015-12-22 2016-05-04 北京搜狗科技发展有限公司 单一实体实例的挖掘方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013246826A (ja) * 2012-05-25 2013-12-09 Ricoh Co Ltd 対象の異構造インスタンスの属性値整列システム、対象の異構造インスタンスの属性値整列方法、及びプログラム
CN103455524A (zh) * 2012-06-05 2013-12-18 北京搜狗信息服务有限公司 展现和获取词条信息的方法和装置
CN105335378A (zh) * 2014-06-25 2016-02-17 富士通株式会社 多数据源的信息处理装置、服务器及方法
CN105550336A (zh) * 2015-12-22 2016-05-04 北京搜狗科技发展有限公司 单一实体实例的挖掘方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
庄严 等: "知识库实体对齐技术综述", 《计算机研究与发展》 *
徐佳俊: "命名实体语义消歧方法的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897403A (zh) * 2017-02-14 2017-06-27 中国科学院电子学研究所 面向知识图谱构建的细粒度中文属性对齐方法
CN106897403B (zh) * 2017-02-14 2019-03-26 中国科学院电子学研究所 面向知识图谱构建的细粒度中文属性对齐方法
CN106909643A (zh) * 2017-02-20 2017-06-30 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN106909643B (zh) * 2017-02-20 2020-08-14 同济大学 基于知识图谱的社交媒体大数据主题发现方法
CN108509479A (zh) * 2017-12-13 2018-09-07 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN108509479B (zh) * 2017-12-13 2022-02-11 深圳市腾讯计算机系统有限公司 实体推荐方法及装置、终端及可读存储介质
CN108376160B (zh) * 2018-02-12 2022-02-18 北京大学 一种中文知识图谱构建方法和系统
CN108376160A (zh) * 2018-02-12 2018-08-07 北京大学 一种中文知识图谱构建方法和系统
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109033303A (zh) * 2018-07-17 2018-12-18 东南大学 一种基于约简锚点的大规模知识图谱融合方法
CN109033303B (zh) * 2018-07-17 2021-07-02 东南大学 一种基于约简锚点的大规模知识图谱融合方法
CN109359172A (zh) * 2018-08-02 2019-02-19 浙江大学 一种基于图划分的实体对齐优化方法
CN109359172B (zh) * 2018-08-02 2020-12-11 浙江大学 一种基于图划分的实体对齐优化方法
CN109145003B (zh) * 2018-08-24 2022-05-27 联动数科(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109145003A (zh) * 2018-08-24 2019-01-04 蜜小蜂智慧(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109255002A (zh) * 2018-09-11 2019-01-22 浙江大学 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN109255002B (zh) * 2018-09-11 2021-08-27 浙江大学 一种利用关系路径挖掘解决知识图谱对齐任务的方法
CN109347798A (zh) * 2018-09-12 2019-02-15 东软集团股份有限公司 网络安全知识图谱的生成方法、装置、设备及存储介质
CN109885697B (zh) * 2019-02-01 2022-02-18 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN109885697A (zh) * 2019-02-01 2019-06-14 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN109960810B (zh) * 2019-03-28 2020-05-19 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN112579770A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 知识图谱的生成方法,装置,存储介质及设备
WO2021082100A1 (zh) * 2019-10-30 2021-05-06 平安科技(深圳)有限公司 知识图谱的实体对齐方法、装置、设备及存储介质
CN112528644A (zh) * 2020-12-24 2021-03-19 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN112528644B (zh) * 2020-12-24 2024-04-12 北京百度网讯科技有限公司 实体挂载的方法、装置、设备以及存储介质
CN113204643A (zh) * 2021-06-23 2021-08-03 北京明略软件系统有限公司 一种实体对齐方法、装置、设备及介质
CN115828882A (zh) * 2022-09-23 2023-03-21 华能澜沧江水电股份有限公司 面向大坝安全知识库风险联动的实体对齐方法和系统
CN115828882B (zh) * 2022-09-23 2023-06-16 华能澜沧江水电股份有限公司 面向大坝安全知识库风险联动的实体对齐方法和系统
CN115659985A (zh) * 2022-12-09 2023-01-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备
CN115659985B (zh) * 2022-12-09 2023-03-31 南方电网数字电网研究院有限公司 电力知识图谱实体对齐方法、装置和计算机设备

Also Published As

Publication number Publication date
CN106202041B (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN106202041A (zh) 一种解决知识图谱中的实体对齐问题的方法和装置
US11347782B2 (en) Internet text mining-based method and apparatus for judging validity of point of interest
US9449271B2 (en) Classifying resources using a deep network
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
US9519718B2 (en) Webpage information detection method and system
CN107992514B (zh) 结构化信息卡的搜索和检索
US20150161230A1 (en) Generating an Answer from Multiple Pipelines Using Clustering
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
US20140358922A1 (en) Routing of Questions to Appropriately Trained Question and Answer System Pipelines Using Clustering
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
CN103455545A (zh) 社交网络用户的位置估计的方法和系统
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN111488468A (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
WO2020199947A1 (zh) 摘要生成方法、装置和设备以及项目管理方法
Schmidt et al. Extraction of address data from unstructured text using free knowledge resources
CN107766498A (zh) 用于生成信息的方法和装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN113992944A (zh) 视频编目方法、装置、设备、系统及介质
CN112528040A (zh) 基于知识图谱的引导教唆语料的检测方法及其相关设备
CN110263135B (zh) 一种数据交换匹配方法、装置、介质和电子设备
CN109726398B (zh) 一种实体识别及属性判断方法、系统、设备及介质
CN116976321A (zh) 文本处理方法、装置、计算机设备、存储介质和程序产品
CN110245243B (zh) 新闻检索的方法和装置、电子设备、计算机可读介质
Hoang et al. Efficient tracking of breaking news in twitter

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220718

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right