CN109145003A - 一种构建知识图谱的方法及装置 - Google Patents

一种构建知识图谱的方法及装置 Download PDF

Info

Publication number
CN109145003A
CN109145003A CN201810973094.9A CN201810973094A CN109145003A CN 109145003 A CN109145003 A CN 109145003A CN 201810973094 A CN201810973094 A CN 201810973094A CN 109145003 A CN109145003 A CN 109145003A
Authority
CN
China
Prior art keywords
instance
title
entity name
instance title
corresponding benchmark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810973094.9A
Other languages
English (en)
Other versions
CN109145003B (zh
Inventor
曾伟雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinyi Digital Technology Co ltd
Original Assignee
Bee Wisdom (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bee Wisdom (beijing) Technology Co Ltd filed Critical Bee Wisdom (beijing) Technology Co Ltd
Priority to CN201810973094.9A priority Critical patent/CN109145003B/zh
Publication of CN109145003A publication Critical patent/CN109145003A/zh
Application granted granted Critical
Publication of CN109145003B publication Critical patent/CN109145003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明实施例公开了一种构建知识图谱的方法及装置。其中方法包括:通过获取待构建知识图谱的结构化数据,确定多个第一实体名称,根据多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称,确定多个第一实体名称分别对应的基准实体名称,并对结构化数据进行更新,进而构建知识图谱。本发明实施例中,通过获取第一实体名称对应的基准实体名称,对结构化数据进行更新,基于更新后的结构化数据构建知识图谱,能够避免将具有不同名称的相同的第一实体识别为不同的第一实体,从而提高构建知识图谱的质量。

Description

一种构建知识图谱的方法及装置
技术领域
本发明涉及数据处理领域,尤其涉及一种构建知识图谱的方法及装置。
背景技术
知识图谱是一种由实体以及实体关系组成的知识体系,通过将不同的实体映射为不同的节点,并将实体关系映射为节点的边,构建清晰的关系网络。这种基于图的数据结构组织实体及实体关系的方式,能够把不同种类的信息连接在一起,形成清晰的有向图网络。随着网络数据的日渐增长,知识图谱以其强大的语义处理能力和开放组织能力,为互联网时代的信息化组织和智能化应用奠定了基础。
在构建知识图谱时,通常采用的方法为将获取的原始数据转化为结构化数据,进而将结构化数据导入知识图谱中。然而由于结构化数据中,针对于同一实体,可能会有多个不同的名称,比如“蜜小蜂智慧(北京)科技有限公司”、“蜜小蜂智慧科技有限公司”、“蜜小蜂智慧公司”等,这些名称均代表同一实体,但在将结构化数据导入知识图谱时,会将这些不同的名称识别为不同的实体而在知识图谱中创建不同的节点,从而导致构建出的知识图谱质量较差、准确性较低。
综上,目前亟需一种构建知识图谱的方法,用于提高构建出的知识图谱的质量。
发明内容
本发明实施例提供一种构建知识图谱的方法及装置,用以提高构建出的知识图谱的质量。
本发明实施例提供的一种构建知识图谱的方法,包括:
获取待构建知识图谱的结构化数据,所述结构化数据中包括多个第一实体名称;
获取所述多个第一实体名称分别对应的基准实体名称,并根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新;其中,所述多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同;
根据更新后的结构化数据构建知识图谱。
可选地,通过如下方式获取所述多个第一实体名称中的每个第一实体名称对应的基准实体名称:
将所述第一实体名称与预设映射表中的第二实体名称进行比较,若确定所述预设映射表中存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将所述目标第二实体名称对应的基准实体名称作为所述第一实体名称对应的基准实体名称。
可选地,若确定所述预设映射表中不存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则生成所述第一实体名称对应的基准实体名称;
根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新。
可选地,根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新,包括:
将所述第一实体名称和所述第一实体名称对应的基准实体名称插入所述预设映射表中。
可选地,根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新,包括:
使用所述多个第一实体名称分别对应的基准实体名称替换所述多个第一实体名称。
本发明实施例提供一种构建知识图谱的装置,该装置包括:
获取模块,用于获取待构建知识图谱的结构化数据,所述结构化数据中包括多个第一实体名称;
更新模块,用于获取所述多个第一实体名称分别对应的基准实体名称,并根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新;其中,所述多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同;
构建模块,用于根据更新后的结构化数据构建知识图谱。
可选地,所述更新模块通过如下方式获取所述多个第一实体名称中的每个第一实体名称对应的基准实体名称:
将所述第一实体名称与预设映射表中的第二实体名称进行比较,若确定所述预设映射表中存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将所述目标第二实体名称对应的基准实体名称作为所述第一实体名称对应的基准实体名称。
可选地,所述更新模块还用于:
若确定所述预设映射表中不存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则生成所述第一实体名称对应的基准实体名称;
根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新。
可选地,所述更新模块具体用于:
将所述第一实体名称和所述第一实体名称对应的基准实体名称插入所述预设映射表中。
可选地,所述更新模块具体用于:
使用所述多个第一实体名称分别对应的基准实体名称替换所述多个第一实体名称。
本发明的上述实施例中,通过获取待构建知识图谱的结构化数据,确定多个第一实体名称,根据多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称,确定多个第一实体名称分别对应的基准实体名称,并对结构化数据进行更新,进而对更新后的结构化数据构建知识图谱。本发明实施例中,在构建知识图谱时,通过获取多个第一实体名称对应的基准实体名称,对结构化数据进行更新,基于更新后的结构化数据构建知识图谱,能够避免将具有两个或两个以上相似实体名称的同一实体识别为两个或两个以上不同实体,相比于现有技术直接使用结构化数据构建知识图谱来说,能够有效提高构建出的知识图谱的质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种知识图谱的示意图;
图2为本发明实施例提供的一种基于现有技术构建的知识图谱的示意图;
图3为本发明实施例提供的一种构建知识图谱的方法对应的流程示意图;
图4为本发明实施例提供的一种构建知识图谱的方法装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为一种知识图谱示例图,如图1所示,该知识图谱中包括:多个不同的实体以及实体与实体之间的关系,实体、关系、实体三者之间构成一个三元组结构。具体地说,在图1中,实体1与实体2、实体3和实体4分别存在关系1、关系2和关系3,实体3与实体5和实体6之间存在关系4和关系5,实体4与实体7之间存在关系6。在知识图谱的构建过程中,通常从每一个实体出发,进行细致的分析和对比,从而将不同的实体作为不同的节点处理,进而构建实体、关系、实体之间的三元组结构。
图2为基于现有技术构建的一种知识图谱的示例图,该知识图谱中包含几个不同的公司和职员之间的对应关系,具体来说,王五所在的单位为联动优势,陈一所在的单位为联动优势科技,黄二所在的单位为联动优势科技,孙八所在的单位为蜜小蜂智慧。在构建知识图谱时,联动优势和联动优势科技为同一个公司,应被识别为相同的实体,但是现有技术采用逐一分析的方式识别获取到的结构化数据中的每一个数据,使得具有不同名称的联动优势和联动优势被识别为不同的实体,如图2所示。也就是说,采用现有技术构建知识图谱可能将相同的实体识别成不同的实体,从而使得构建的知识图谱质量不高。
基于此,本发明实施例提供一种构建知识图谱的方法及装置,用以提高构建知识图谱的质量。
图3为本发明实施例提供的一种构建知识图谱的方法对应的流程示意图,该方法包括:
步骤301,获取待构建知识图谱的结构化数据,所述结构化数据中包括多个第一实体名称。
步骤302,获取所述多个第一实体名称分别对应的基准实体名称,并根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新;
此处,所述多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同;其中,第一预设阈值可以由本领域技术人员根据实际需要和经验进行设置,具体不做限定。
步骤303,根据更新后的结构化数据构建知识图谱。
本发明实施例中,在构建知识图谱时,可获取多个第一实体名称分别对应的基准实体名称,并对结构化数据进行更新,由于多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同,从而根据更新后的结构化数据构建知识图谱,能够避免将具有两个或两个以上相似实体名称的同一实体识别为两个或两个以上不同实体,相比于现有技术直接使用结构化数据构建知识图谱来说,能够有效提高构建出的知识图谱的质量。
可选地,在步骤301中,可首先获取待构建知识图谱的源数据,其中源数据可以为多种形式,比如网页数据、列表等,也就是说,源数据中可能包括结构化数据,也可能包括除结构化数据以外的其它形式的数据(比如可以称为非结构化数据);若源数据中包括非结构化数据,则可通过对源数据进行处理,得到待构建知识图谱的结构化数据,具体的处理方式可能有多种,比如通过模板匹配将非结构化数据转换为结构化数据,本申请实施例对此不作限定。
在一个示例中,待构建知识图谱的结构化数据可以通过二维表的形式来表示,如表1所示,为待构建知识图谱的部分结构化数据示例,该示例主要示意出三列,分别为姓名、关系和单位名称,此处的单位名称即为实体名称(为便于区分也可以称为第一实体名称)。
表1:待构建知识图谱的部分结构化数据示例
姓名 关系 单位名称
张三 所在单位 蜜小蜂智慧(北京)科技有限公司
李四 所在单位 遨博(北京)智能科技有限公司
王五 所在单位 联动优势
赵六 所在单位 蜜小蜂智慧科技有限公司
钱七 所在单位 联动优势科技有限公司
表1中除第一行外的每一行可以理解为一条数据。从表1可以看出,张三所在单位为蜜小蜂智慧(北京)科技有限公司,李四所在单位为遨博(北京)智能科技有限公司,王五所在单位为联动优势,赵六所在单位为蜜小蜂智慧科技有限公司,钱七所在单位为联动优势科技有限公司。由于蜜小蜂智慧(北京)科技有限公司和蜜小蜂智慧科技有限公司这两个单位名称对应的为同一单位,因此在构建知识图谱时应映射为同一实体;由于联动优势和联动优势科技有限公司这两个单位名称对应的为同一单位,因此在构建知识图谱时应映射为同一实体。
需要说明的是,上述示例中的姓名也可以理解为一种实体名称,由于不同姓名代表不同的实体,因此可以将不同的姓名识别为不同实体;但不同的单位名称可能对应于同一单位,将相似度较高的两个或两个以上单位名称识别为不同的实体,可能会导致构建的知识图谱不准确。基于此,本申请实施例中主要侧重于对单位名称进行处理。可以理解的,在其它场景中,针对于存在上述问题的实体名称也可以同样适用,具体不做限定。
在步骤302中,获取多个第一实体名称分别对应的基准实体名称的具体实现方式可以有多种。本申请实施例提供的一种可能的实现方式为,将第一实体名称与预设映射表中的第二实体名称进行比较,若确定预设映射表中存在与第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将目标第二实体名称对应的基准实体名称作为第一实体名称对应的基准实体名称。其中,第二预设阈值可以由本领域技术人员根据实际需要和经验进行设置,具体不做限定。在一个示例中,第二预设阈值可以和第一预设阈值相同,比如第二预设阈值和第一预设阈值均取值为80。
其中,预设映射表可以为一个二维表,具体来说可以包括两列,分别为第二实体名称所在的列和第二实体名称对应的基准实体名称所在的列。预设映射表在初始状态时可以为一张空表,或者,也可以为预先设置好的包含多个第二实体名称及其对应的基准实体名称的表,本申请实施例对此不做具体限定。
表2所示为预设映射表的一种示例,如表2所示,该预设映射表在初始状态时包含三个第二实体名称及其对应的基准实体名称。
表2:预设映射表的一种示例
第二实体名称 基准实体名称
蜜小蜂智慧科技有限公司 FAT1
遨博(北京)智能科技 FAT2
遨博(常州)智能科技 FAT3
需要说明的是,第二实体名称对应的基准实体名称可以包含文字、字母和数字中的任一项或任意组合,比如可以为仅由数字组成、或者仅由字母组成、又或者由字母和数字混合组成,具体不做限定。在其它可能的实施例中,基准实体名称也可以根据需要设定为其他的表示形式,本申请实施例对此不做具体限定。
比如,以表1中第二行所代表的一条数据为例,将该条数据中的第一实体名称(即蜜小蜂智慧(北京)科技有限公司)与表2中所包括的三个第二实体名称分别进行比较,得到蜜小蜂智慧(北京)科技有限公司与三个第二实体名称的相似度,如表3所示。其中,计算相似度的方式可以有多种,比如可以通过模糊匹配将第一实体名称进行标准化,进而将标准化后的第一实体名称与第二实体名称进行比较,从而得到第一实体名称与第二实体名称之间的相似度,从而使得匹配结果更加准确。
表3:第一实体名称与第二实体名称对比的示例1
第一实体名称 第二实体名称 相似度
蜜小蜂智慧(北京)科技有限公司 蜜小蜂智慧科技有限公司 95
蜜小蜂智慧(北京)科技有限公司 遨博(北京)智能科技 10
蜜小蜂智慧(北京)科技有限公司 遨博(常州)智能科技 10
从表3可以看出,预设映射表中存在第二实体名称(即蜜小蜂智慧科技有限公司)与第一实体名称(蜜小蜂智慧(北京)科技有限公司)的相似度大于第二预设阈值(80),进而可以确定目标第二实体名称为蜜小蜂智慧科技有限公司,并可以将蜜小蜂智慧科技有限公司所对应的基准实体名称(FAT1)作为蜜小蜂智慧(北京)科技有限公司对应的基准实体名称。
需要说明的是,上述示例中,仅存在一个第二实体名称(即蜜小蜂智慧科技有限公司)与第一实体名称(蜜小蜂智慧(北京)科技有限公司)的相似度大于第二预设阈值,在其它可能的示例中,若存在多个与蜜小蜂智慧(北京)科技有限公司的相似度大于预设第二阈值的第二实体名称,则可以选取其中相似度最大的第二实体名称作为目标第二实体名称。
比如,以表1中第三行所代表的一条数据为例,获取对应的第一实体名称,即遨博(北京)智能科技有限公司,将该第一实体名称与表2的预设映射表中的每一个第二实体名称进行对比,进而确定该第一实体名称与预设映射表中的每一个第二实体名称的相似度,如表4所示。
表4:第一实体名称与第二实体名称对比的示例2
第一实体名称 第二实体名称 相似度
遨博(北京)智能科技有限公司 蜜小蜂智慧科技有限公司 5
遨博(北京)智能科技有限公司 遨博(北京)智能科技 95
遨博(北京)智能科技有限公司 遨博(常州)智能科技 90
从表4可以看出,第一实体名称为遨博(北京)智能科技有限公司,通过比较,能够确定在预设映射表中存在两个第二实体名称与第一实体名称的相似度大于第二预设阈值,通过选取其中相似度最大的第二实体名称作为目标第二实体名称,进而确定对应的目标第二实体名称为遨博(北京)智能科技,如此,可以将遨博(北京)智能科技所对应的基准实体名称(FAT2)作为遨博(北京)智能科技有限公司对应的基准实体名称。基于模糊匹配的方式计算相似度,能够在计算初始阶段添加一票否决,避免因名称包含的文字相近造成的计算值过高,使得计算结果更为准确,相似度更为准确。
本申请实施例中,若将第一实体名称与预设映射表中的每一个第二实体名称进行对比后,得到的相似度均小于第二预设阈值,则说明预设映射表中不存在目标第二实体名称,此时,可以生成第一实体名称对应的基准实体名称,并根据第一实体名称及其对应的基准实体名称对预设映射表进行更新,具体的更新方式可以为在预设映射表中插入第一实体名称及其对应的基准实体名称。
比如,以表1中第四行所代表的一条数据为例,获取对应的第一实体名称,即联动优势,将该第一实体名称与表2的预设映射表中的每一个第二实体名称进行对比,进而确定该第一实体名称与预设映射表中的每一个第二实体名称的相似度,如表5所示。
表5:第一实体名称与第二实体名称对比的示例3
第一实体名称 第二实体名称 相似度
联动优势 蜜小蜂智慧科技有限公司 5
联动优势 遨博(北京)智能科技 5
联动优势 遨博(常州)智能科技 5
从表5可以看出,第一实体名称为联动优势,通过比较,能够确定在预设映射表中不存在与第一实体名称的相似度大于第二预设阈值的第二实体名称,此时,可以首先为联动优势分配一个对应的基准实体名称(FAT4),通过在预设映射表中插入一行新的空映射关系表,将联动优势插入空映射关系表中的第二实体名称所在的列,对应地,将联动优势对应的基准实体名称(FAT4)插入空映射关系表中的基准实体名称所在的列,进而得到更新后的预设映射表,如表6所示。
表6:一种更新后的预设映射表
进一步地,确定获取到多个第一实体名称对应的基准实体名称后,可以根据多个第一实体名称分别对应的基准实体名称对结构化数据进行更新,具体地,在待构建知识图谱的结构化数据中,使用多个第一实体名称分别对应的基准实体名称替换多个第一实体名称。
比如,以表1中所示的结构化数据和表6所示的更新后的预设映射表为例,在结构化数据中插入一个新列,该列可以为空的数据列,且可以插入在结构化数据表格的任意位置,比如将新的数据列插入第一实体名称右侧的位置,根据更新后的预设映射表6,获得结构化数据中每一个第一实体名称对应的基准实体名称,并在空数据列中填写多个第一实体名称分别对应的基准实体名称,获得更新后的结构化数据,如表7所示。
表7:更新后的结构化数据示例
姓名 关系 单位名称 基准实体名称
张三 所在单位 蜜小蜂智慧(北京)科技有限公司 FAT1
李四 所在单位 遨博(北京)智能科技有限公司 FAT2
王五 所在单位 联动优势 FAT4
赵六 所在单位 蜜小蜂智慧科技有限公司 FAT1
钱七 所在单位 联动优势科技有限公司 FAT4
进一步地,在表7的基础上,将结构化数据中第一实体名称所在的列删除,从而实现使用多个第一实体名称分别对应的基准实体名称替换多个第一实体名称,得到更新后的结构化数据,如表8所示。表8中的结构化数据将第一实体名称替换为对应的基准实体名称,从而可以直接用来构建知识图谱,且构建知识谱图的质量高、准确性好。
表8:更新后的结构化数据示例
姓名 关系 基准实体名称
张三 所在单位 FAT1
李四 所在单位 FAT2
王五 所在单位 FAT4
赵六 所在单位 FAT1
钱七 所在单位 FAT4
本申请实施例中,通过获取多个第一实体名称分别对应的基准实体名称,并对结构化数据进行更新,由于多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同,从而根据更新后的结构化数据构建知识图谱,能够避免将具有两个或两个以上相似实体名称的同一实体识别为两个或两个以上不同实体,相比于现有技术直接使用结构化数据构建知识图谱来说,能够有效提高构建出的知识图谱的质量。
在步骤303中,在构建知识图谱的过程,根据更新的结构化数据构建知识图谱,能够避免将具有不同第一实体名称的相同的第一实体识别成不同的第一实体,从而提高构建知识图谱的质量。
本发明的上述实施例中,通过获取待构建知识图谱的结构化数据,确定多个第一实体名称,根据多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称,确定多个第一实体名称分别对应的基准实体名称,并根据多个第一实体名称分别对应的基准实体名称对结构化数据进行更新,进而对更新后的结构化数据构建知识图谱。本发明实施例中,通过获取多个第一实体名称分别对应的基准实体名称,对结构化数据进行更新,由于多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同,从而根据更新后的结构化数据构建知识图谱,能够避免将具有两个或两个以上相似实体名称的同一实体识别为两个或两个以上不同实体,相比于现有技术直接使用结构化数据构建知识图谱来说,能够有效提高构建出的知识图谱的质量。
针对上述方法流程,本发明实施例还提供一种构建知识图谱的装置,该装置的具体内容可以参照上述方法实施。
图4为本发明实施例提供的一种构建知识图谱的装置的结构示意图,包括:
获取模块401,用于获取待构建知识图谱的结构化数据,所述结构化数据中包括多个第一实体名称;
更新模块402,用于获取所述多个第一实体名称分别对应的基准实体名称,并根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新;其中,所述多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同;
构建模块403,用于根据更新后的结构化数据构建知识图谱。
可选地,所述更新模块通过如下方式获取所述多个第一实体名称中的每个第一实体名称对应的基准实体名称:
将所述第一实体名称与预设映射表中的第二实体名称进行比较,若确定所述预设映射表中存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将所述目标第二实体名称对应的基准实体名称作为所述第一实体名称对应的基准实体名称。
可选地,所述更新模块还用于:
若确定所述预设映射表中不存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则生成所述第一实体名称对应的基准实体名称;
根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新。
可选地,所述更新模块具体用于:
将所述第一实体名称和所述第一实体名称对应的基准实体名称插入所述预设映射表中。
可选地,所述更新模块具体用于:
使用所述多个第一实体名称分别对应的基准实体名称替换所述多个第一实体名称。
从上述内容可以看出:本发明的上述实施例中,通过获取待构建知识图谱的结构化数据,确定多个第一实体名称,根据多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称,确定多个第一实体名称分别对应的基准实体名称,并根据多个第一实体名称分别对应的基准实体名称对结构化数据进行更新,进而对更新后的结构化数据构建知识图谱。本发明实施例中,通过获取多个第一实体名称分别对应的基准实体名称,对结构化数据进行更新,由于多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同,从而根据更新后的结构化数据构建知识图谱,能够避免将具有两个或两个以上相似实体名称的同一实体识别为两个或两个以上不同实体,相比于现有技术直接使用结构化数据构建知识图谱来说,能够有效提高构建出的知识图谱的质量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种构建知识图谱的方法,其特征在于,所述方法包括:
获取待构建知识图谱的结构化数据,所述结构化数据中包括多个第一实体名称;
获取所述多个第一实体名称分别对应的基准实体名称,并根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新;其中,所述多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同;
根据更新后的结构化数据构建知识图谱。
2.根据权利要求1所述的方法,其特征在于,通过如下方式获取所述多个第一实体名称中的每个第一实体名称对应的基准实体名称:
将所述第一实体名称与预设映射表中的第二实体名称进行比较,若确定所述预设映射表中存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将所述目标第二实体名称对应的基准实体名称作为所述第一实体名称对应的基准实体名称。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若确定所述预设映射表中不存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则生成所述第一实体名称对应的基准实体名称;
根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新。
4.根据权利要求3所述的方法,其特征在于,根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新,包括:
将所述第一实体名称和所述第一实体名称对应的基准实体名称插入所述预设映射表中。
5.根据权利要求1-4所述的方法,其特征在于,根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新,包括:
使用所述多个第一实体名称分别对应的基准实体名称替换所述多个第一实体名称。
6.一种构建知识图谱的装置,其特征在于,所述装置包括:
获取模块,用于获取待构建知识图谱的结构化数据,所述结构化数据中包括多个第一实体名称;
更新模块,用于获取所述多个第一实体名称分别对应的基准实体名称,并根据所述多个第一实体名称分别对应的基准实体名称对所述结构化数据进行更新;其中,所述多个第一实体名称中相似度大于第一预设阈值的两个第一实体名称对应的基准实体名称相同;
构建模块,用于根据更新后的结构化数据构建知识图谱。
7.如权利要求6所述的装置,其特征在于,所述更新模块通过如下方式获取所述多个第一实体名称中的每个第一实体名称对应的基准实体名称:
将所述第一实体名称与预设映射表中的第二实体名称进行比较,若确定所述预设映射表中存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则将所述目标第二实体名称对应的基准实体名称作为所述第一实体名称对应的基准实体名称。
8.如权利要求7所述的装置,其特征在于,所述更新模块还用于:
若确定所述预设映射表中不存在与所述第一实体名称的相似度大于第二预设阈值的目标第二实体名称,则生成所述第一实体名称对应的基准实体名称;
根据所述第一实体名称和所述第一实体名称对应的基准实体名称对所述预设映射表进行更新。
9.如权利要求7所述的装置,其特征在于,所述更新模块具体用于:
将所述第一实体名称和所述第一实体名称对应的基准实体名称插入所述预设映射表中。
10.如权利要求6-9所述的装置,其特征在于,所述更新模块具体用于:
使用所述多个第一实体名称分别对应的基准实体名称替换所述多个第一实体名称。
CN201810973094.9A 2018-08-24 2018-08-24 一种构建知识图谱的方法及装置 Active CN109145003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810973094.9A CN109145003B (zh) 2018-08-24 2018-08-24 一种构建知识图谱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810973094.9A CN109145003B (zh) 2018-08-24 2018-08-24 一种构建知识图谱的方法及装置

Publications (2)

Publication Number Publication Date
CN109145003A true CN109145003A (zh) 2019-01-04
CN109145003B CN109145003B (zh) 2022-05-27

Family

ID=64827887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810973094.9A Active CN109145003B (zh) 2018-08-24 2018-08-24 一种构建知识图谱的方法及装置

Country Status (1)

Country Link
CN (1) CN109145003B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902185A (zh) * 2019-03-05 2019-06-18 北京工业大学 一种基于DBpedia的水务领域概念知识图谱构建方法
CN110502645A (zh) * 2019-08-28 2019-11-26 中国联合网络通信集团有限公司 信息查询方法及装置
CN110807103A (zh) * 2019-10-18 2020-02-18 中国银联股份有限公司 知识图谱构建方法、装置、电子设备及存储介质
CN111563173A (zh) * 2020-05-09 2020-08-21 北京中科院软件中心有限公司 一种基于制造领域的知识图谱构建方法及系统
CN113239201A (zh) * 2021-05-20 2021-08-10 国网上海市电力公司 一种基于知识图谱的科技文献分类方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046779A1 (en) * 2013-08-07 2015-02-12 Microsoft Corporation Augmenting and presenting captured data
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150046779A1 (en) * 2013-08-07 2015-02-12 Microsoft Corporation Augmenting and presenting captured data
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
EP3223179A1 (en) * 2016-03-24 2017-09-27 Fujitsu Limited A healthcare risk extraction system and method
CN106202041A (zh) * 2016-07-01 2016-12-07 北京奇虎科技有限公司 一种解决知识图谱中的实体对齐问题的方法和装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106844658A (zh) * 2017-01-23 2017-06-13 中山大学 一种中文文本知识图谱自动构建方法及系统
CN107818124A (zh) * 2017-03-03 2018-03-20 平安医疗健康管理股份有限公司 数据匹配方法及装置
CN108268581A (zh) * 2017-07-14 2018-07-10 广东神马搜索科技有限公司 知识图谱的构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARLIND NOCAJ 等: "Organizing Search Results with a Reference Map", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *
李琳: "面向关联数据的实体对齐方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902185A (zh) * 2019-03-05 2019-06-18 北京工业大学 一种基于DBpedia的水务领域概念知识图谱构建方法
CN110502645A (zh) * 2019-08-28 2019-11-26 中国联合网络通信集团有限公司 信息查询方法及装置
CN110502645B (zh) * 2019-08-28 2022-07-08 中国联合网络通信集团有限公司 信息查询方法及装置
CN110807103A (zh) * 2019-10-18 2020-02-18 中国银联股份有限公司 知识图谱构建方法、装置、电子设备及存储介质
CN111563173A (zh) * 2020-05-09 2020-08-21 北京中科院软件中心有限公司 一种基于制造领域的知识图谱构建方法及系统
WO2021226809A1 (zh) * 2020-05-09 2021-11-18 北京中科院软件中心有限公司 一种基于制造领域的知识图谱构建方法及系统
CN113239201A (zh) * 2021-05-20 2021-08-10 国网上海市电力公司 一种基于知识图谱的科技文献分类方法

Also Published As

Publication number Publication date
CN109145003B (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN109145003A (zh) 一种构建知识图谱的方法及装置
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
JP4997856B2 (ja) データベース分析プログラム、データベース分析装置、データベース分析方法
CN109948641A (zh) 异常群体识别方法及装置
US7834781B2 (en) Method of constructing an approximated dynamic Huffman table for use in data compression
CN111159184B (zh) 元数据追溯方法、装置及服务器
CN114168608B (zh) 一种用于更新知识图谱的数据处理系统
CN112052413B (zh) Url模糊匹配方法、装置和系统
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
CN109753577A (zh) 一种搜索人脸的方法及相关装置
CN115905630A (zh) 一种图数据库查询方法、装置、设备及存储介质
JP2019204246A (ja) 学習データ作成方法及び学習データ作成装置
CN105956158A (zh) 基于海量微博文本和用户信息的网络新词自动提取的方法
CN111104476A (zh) 档案数据生成方法、档案数据生成装置和可读存储介质
CN114372060A (zh) 数据存储方法、装置、设备及存储介质
CN116431837B (zh) 基于大型语言模型和图网络模型的文档检索方法和装置
CN110874366A (zh) 数据处理、查询方法和装置
CN111563068A (zh) 一种多源风控数据清洗处理方法
CN116860963A (zh) 一种文本分类方法、设备及存储介质
Zhang et al. A program plagiarism detection model based on information distance and clustering
CN116108847A (zh) 知识图谱构建方法、cwe社区描述方法以及存储介质
CN106682107A (zh) 数据库表关联关系确定方法及装置
CN114118944A (zh) 一种取证实验室分级管理方法、终端设备及存储介质
CN114328681A (zh) 一种数据转换方法、装置、电子设备及存储介质
CN110147393B (zh) 面向电影信息数据集中数据空间的实体解析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200821

Address after: 501, 5 / F, block B, No. 28, xinjiekouwei street, Xicheng District, Beijing 100032

Applicant after: Joint digital technology (Beijing) Co.,Ltd.

Address before: 100082 9th Floor, Block A, Jingshi Science and Technology Building, 12 South College Road, Haidian District, Beijing

Applicant before: MIXIAOFENG WISDOM (BEIJING) TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Guo Fanghong

Inventor before: Zeng Weixiong

CB03 Change of inventor or designer information
CP01 Change in the name or title of a patent holder

Address after: Room 501, 5 / F, block B, No. 28, Xinjiekou Wai Street, Xicheng District, Beijing 100032

Patentee after: Beijing Xinyi Digital Technology Co.,Ltd.

Address before: Room 501, 5 / F, block B, No. 28, Xinjiekou Wai Street, Xicheng District, Beijing 100032

Patentee before: Joint digital technology (Beijing) Co.,Ltd.

CP01 Change in the name or title of a patent holder