CN108268581A - 知识图谱的构建方法及装置 - Google Patents

知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN108268581A
CN108268581A CN201710576164.2A CN201710576164A CN108268581A CN 108268581 A CN108268581 A CN 108268581A CN 201710576164 A CN201710576164 A CN 201710576164A CN 108268581 A CN108268581 A CN 108268581A
Authority
CN
China
Prior art keywords
instance
attribute
entity
knowledge mapping
property value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710576164.2A
Other languages
English (en)
Inventor
王跃
游维
张卫星
华能威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Guangdong Shenma Search Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shenma Search Technology Co Ltd filed Critical Guangdong Shenma Search Technology Co Ltd
Priority to CN201710576164.2A priority Critical patent/CN108268581A/zh
Publication of CN108268581A publication Critical patent/CN108268581A/zh
Priority to US16/034,799 priority patent/US11720629B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本发明提供一种知识图谱的构建方法及装置,包括:获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。本实施例可以保证知识图谱中的数据的正确性。

Description

知识图谱的构建方法及装置
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种知识图谱的构建方法及装置。
背景技术
随着信息技术的飞速发展,当今社会进入了信息爆炸时代,人们越来越多的借助网络来寻找自己需要的信息。目前,为了向用户提供更精准的搜索服务,知识图谱越来越多的应用到搜索领域。
知识图谱旨在描述真实世界中存在的各种实体及其关系,当知识图谱建立后,在用户输入关键字之后,就可以向用户返回这个关键字的属性、与其它实体的关系等关联信息,这样可以更准确、完善的为用户提供所需要的信息。由此,在知识图谱的构建过程中,如何保证知识图谱中的数据的准确性,变得尤为重要。
发明内容
本发明实施例提供一种知识图谱的构建方法及装置,以提高知识图谱中的数据的准确性。
第一方面,本发明提供一种知识图谱的构建方法,包括:
获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;
基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;
根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。
可选地,所述基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行对齐处理,包括:
根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;
根据确定的度量类型,对所述第一实体进行实体对齐处理。
可选地,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;
所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:
在所述知识图谱中确定数据源为分类树的第二实体;
判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;
所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:
判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;
所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:
判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。
可选地,所述根据实体对齐处理结果,将所述结构化数据导入所述知识图谱,包括:
在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;
若否,则将所述第一属性和第一属性值映射到所述第二实体;
若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;
在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。
可选地,在所述根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型之前,还包括:
获取各所述属性信息所属的描述类型;
根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
可选地,所述方法还包括:
在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。
第二方面,本发明提供一种知识图谱的构建装置,包括:
数据获取模块,用于获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;
对齐处理模块,用于基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;
数据导入模块,用于根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。
可选地,所述对齐处理模块具体用于,根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;
根据确定的度量类型,对所述第一实体进行实体对齐处理。
可选地,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;
所述对齐处理模块,具体用于在所述知识图谱中确定数据源为分类树的第二实体;
判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;
所述对齐处理模块,具体用于判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;
所述对齐处理模块,具体用于判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据导入模块具体用于:
在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;
若否,则将所述第一属性和第一属性值映射到所述第二实体;
若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;
在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。
可选地,还包括:清洗处理模块,用于获取各所述属性信息所属的描述类型;
根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
可选地,还包括:推理模块,用于在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。
本实施例提供的知识图谱的构建及装置,该方法通过获取结构化数据,基于第一实体与知识图谱中的第二实体的相似度度量,对第一实体进行实体对齐处理,相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;通过该些相似度的度量类型,可以保证实体对齐结果的正确性,能够将正确的结构化数据导入知识图谱,避免了将错误的或冗余的数据导入知识图谱,提高了知识图谱的准确性,能够为用户提供准确的搜索结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的知识图谱的结构示意图;
图2为本发明一实施例提供的知识图谱的构建整体框架图;
图3为本发明一实施例提供的知识图谱的构建方法流程图;
图4为本发明一实施例提供的知识图谱的构建方法流程图;
图5为本发明一实施例提供的知识图谱的构建装置的结构示意图;
图6为本发明一实施例提供的知识图谱的构建装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的知识图谱的结构示意图。知识图谱用于描述真实世界中存在的各种实体及其关系。知识图谱中包括实体的属性和属性值以及各实体之间的关系。知识图谱可被看做是一张巨大的图,节点表示实体,边则由属性或关系构成。例如,在图1中示出了实体A的属性和属性值,以及与实体A具有关系的实体B、实体C和实体D。
图2为本发明一实施例提供的知识图谱的构建整体框架图。如图2所示,在构建如图1所示的知识图谱的过程中,整体框架包括数据源、数据获取、数据导入三部分。
其中,数据源是指构建知识图谱的数据来源。该数据源包括结构化数据,例如垂直网站等提供的结构化数据;半结构化数据,例如百科、列表等;非结构化数据,例如文本形式的网页数据等。
数据获取是指从数据源中获取数据,获取的方式包括从合作方接口直接获取垂直网站的信息;通过爬虫结合解析的方式从垂直网站、半结构化网站等获取数据;对百科信息进行抽取;对文本形式的网页数据进行通用抽取等。本实施例获取得到的数据包括结构化数据、半结构化数据以及非结构化数据。对于半结构化数据、非结构化数据,通过模板匹配等方式转换为结构化数据。本实施例对结构化数据的具体实现方式不做特别限制。
本实施例向知识图谱中导入的数据具体为结构化数据。在数据导入过程中,涉及对结构化数据的预处理、实体对齐、属性对齐、属性筛选等过程,最终将满足条件的结构化数据导入知识图谱。后续通过增量迭代等方式,保证知识图谱的可持续更新和扩展。在下述的实施例中,为了便于说明,对实体进行区分,将获取到的结构化数据中的实体称为第一实体,对应的为第一属性和第一属性值,将知识图谱中已有的实体称为第二实体,对应的为第二属性和第二属性值。下面采用详细的实施例对本知识图谱的构建过程进行详细说明。
图3为本发明一实施例提供的知识图谱的构建方法流程图。如图3所示,该方法包括:
S301、获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值。
获取结构化数据的具体实现方式,可参见图2所示的实施例,本实施例此处不再赘述。其中,结构化数据包括第一实体的第一实体名称以及第一实体名称对应的属性信息。该属性信息包括第一属性和第一属性值。在本实施例中,该第一属性有两种含义。
一种含义为:第一属性为第一实体的自身属性,该自身属性可以为第一实体的身高、体重等,对应的第一属性值为该自身属性对应的属性值,例如具体的身高值,体重值等。在知识图谱中,边信息则用于指示第一实体的自身属性。其中,第一实体的自身属性可以有多个,每个自身属性对应的属性值也可以为多个。
另一种含义为:第一属性为第一实体与第二实体之间的关系属性,该关系属性可以为夫妻、子女、父母、朋友等,对应的第一属性值为与该第一实体具有关系的其它实体。在知识图谱中,边信息则用于指示第一实体与其它实体的关系。其中,第一实体对应的关系属性可以有多个,每个关系属性可以对应多个其它实体。
S302、基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;
在获取到结构化数据之后,在创建之初,如果知识图谱中没有数据,则将该结构化数据直接导入知识图谱中,以形成知识图谱。在知识图谱中存在数据时,基于第一实体与知识图谱中的第二实体的相似度度量,对第一实体进行实体对齐处理。其中,实体对齐处理是指发现具有不同ID但却代表真实世界同一对象的实体,并将这些实体归为一个具有全局唯一标识的实体,即找到相同的第一实体和第二实体,以便将第一实体的第一属性和对应的第一属性值映射到第二实体上,即在第二实体的基础上,增加第一属性以及对应的第一属性值。
可选地,在进行实体对齐处理之前,还包括数据预处理过程。具体地,获取各属性信息所属的描述类型;根据描述类型所对应的标准描述语句,对各属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
具体地,不同源的数据对于同一个属性值可能会采用不同的描述方式,例如身高1.75米,不同的描述包括1.75m、1.75M、1米75、175cm、175公分等。清洗归一的目的在于去除原始数据中的噪音,统一数据的表达形式。目前的数据清洗归一,对应不同描述类型的属性,会配置不同的标准描述语句,即每种描述类型,对应一种标准描述语句。例如,针对日期、时间、数值、国家、城市等可以各自对应一种标准描述语句。
通过对数据进行预处理,可以保证数据的描述统一,在进行实体对齐以及属性对齐时,保证了对齐的准确性。
在本实施例中,相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量。下面分别依次进行说明。
一、字符相似度的度量。具体地,判断第一实体名称与知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。
在具体实现过程中,具有相同表述的实体可能是同一实体。例如,从不同房产垂直网站可能采集到上海绿地海珀星晖、绿地海珀星晖、海珀星晖、海珀星晖小区等实体,从名称的字符相似度上可以判断它们可能是同一实体,例如字符相似度大于预设阈值,则判断为同一实体。可选地,在判断字符相似度之前,还可以过滤掉前缀或后缀等,例如过滤掉前缀地名、前缀开发商名,过滤掉后缀“小区”等。
二、实体所处分类树的结构相似度的度量。在知识图谱中确定数据源为分类树的第二实体;判断第一实体的子节点与父节点与各第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。
在具体实现过程中,具有相同邻居节点的实体可能指向同一实体。在数据源为分类树时,可以通过结构相似度的度量来进行度量。例如,从中国植物志和护花网分别采集的植物学分类树时,木樨和桂花的父节点与子节点都相同,则判断两者为同一实体。
三、属性相似度的度量。在本实施例中,第一属性包括关键属性与非关键属性;判断知识图谱中是否存在与关键属性相同的第二属性,若是,则判断关键属性与第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。
在具体实现过程中,具有相同属性和属性值的实体可能代表同一实体。此种相似度度量方式,多用于判断同名实体的对齐。在属性对齐过程中,采用实体的关键属性进行对齐,该关键属性可以为预设的代表实体唯一性的属性,而对于非关键属性,则不作为对齐的判断标准。例如,两个“宝龙广场”,如果关键属性详细地址这一属性值相同,则判断是同一建筑物;两个“李娜”,如果关键属性生日信息一致,则判断是同一个人。本领域技术人员可以理解,该关键属性可以为多个,也可以为一个,本实施例此处对关键属性的数量不做特别限制。
在本实施例中,具体采用哪一种相似度的度量,可根据实际情况而定,在不同的场景中有不同的应用。例如,可以只采用字符相似度,或者只采用属性相似度,或者只采用结构相似度。
再例如,还可以两两结合来实现,如字符相似度结合属性相似度,可以先进行字符相似度的度量,对于满足字符相似度的,可以结合属性相似度的度量进行验证,例如字符相似,但是关键属性对应的属性值不同,则不是同一实体;还可以字符相似度结合结构相似度,对于不满足字符相似度的,可以进行结构相似度的度量。对与两者结合的其它实施例,本实施例此处不再赘述。
再例如,还可以三者结合来实现,即先进行结构类相似的度量,再进行字符度相似的度量,再进行属性相似的度量,通过三者之间的相互补充以及相互验证,来进行实体对齐处理。
在一种可能的实现方式中,可以根据结构化数据的数据源的类型,确定对第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;根据确定的度量类型,对第一实体进行实体对齐处理。
具体地,当数据源的类型为基于分类树的数据源,则度量类型为实体所处分类树的结构相似度的度量。当数据源的类型为非基于分类树的数据源,度量类型为字符相似度的度量和/或度量类型为属性相似度的度量。
即可以先判断数据源的类型,根据数据源的类型,来确定度量类型。当数据源的类型为基于分类树的数据源时,则先采用实体所处分类树的结构相似度的度量,可选地,后续还可以采用字符相似度和/或属性相似度进行补充和验证。当数据源的类型为非基于分类树的数据源,则不考虑结构相似度的度量,而是选择字符相似度的度量和/或属性相似度的度量。
S303、根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。
在得到实体对齐处理结果之后,对于实体对齐的第一实体与第二实体,还可以进行属性对齐的操作。属性对齐是指发现具有不同描述但却代表真实世界同一属性的属性,并将这些属性归为一个属性。例如,将出生日期和生日两个属性归为一个属性,可以用出生日期表示。
在实体对齐和属性对齐之后,实体可区分为对齐实体和未对齐实体。对于未对齐实体,用新增的方式的导入图谱,对于对齐的实体,采用替换、增补等不同方式对知识图谱进行修正,从而构建出知识图谱。
本实施例提供的知识图谱的构建方法,通过获取结构化数据,基于第一实体与知识图谱中的第二实体的相似度度量,对第一实体进行实体对齐处理,相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;通过该些相似度的度量类型,可以保证实体对齐结果的正确性,能够将正确的结构化数据导入知识图谱,避免了将错误的或冗余的数据导入知识图谱,提高了知识图谱的准确性,能够为用户提供准确的搜索结果。
下面采用详细的实施例,主要阐述实体对齐以及属性对齐之后,通过属性筛选的过程,将结构化数据导入知识图谱的实现过程。
图4为本发明一实施例提供的知识图谱的构建方法流程图。如图4所示,该方法包括:
S401、在实体对齐处理结果为第一实体与第二实体对齐,且对第一实体的第一属性和第二实体的第二属性进行属性对齐处理后,判断知识图谱中是否存在与第一属性相同的第二属性;若否,执行S402,若是,执行S403或S404;
S402、将第一属性和第一属性值映射到第二实体;
在第一实体与第二实体对齐时,第一实体的第一属性与第二实体的第二属性不同,则将该第一属性和第一属性值映射到第二实体。例如,第一实体为张三,知识图谱中存在与该张三对齐的第二实体张三,第一属性为出生日期,第二实体的第二属性中没有出生日期,则将第一属性出生日期和对应的属性值映射到知识图谱中的第二实体。
S403、在第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到第二实体。
在第一属性为多值属性时,例如该第一属性为好友,子女等。在第一实体和第二实体对齐,第一实体的第一属性与第二实体的第二属性相同时,可以对第二属性对应的属性值进行补充。
例如,针对张三的子女,第二属性对应的属性值为张一明,张二明,第一属性对应的属性值为张一鸣,张三明,张四明,张小明,针对张一明和张一鸣,为冲突的两个属性值,判断张一明为正确的属性值,张一鸣为错误的属性值,删除张一鸣,然后确定张三明,张四明,张小明为与第二属性值不同的属性值,将张三明、张四明以及张小明映射到第二属性张三的子女上。
S404、在第一属性为单值属性时,判断第一属性对应的第一属性值与第二属性对应的第二属性值是否冲突,若否,执行S405,若是,执行S406;
S405、进行去重处理;
S406、在第一属性值的可靠度高于第二属性值的可靠度时,将第一属性值映射到第二实体,并删除第二属性值。
在第一属性为单值属性时,即第一属性只有一个属性值,则判断第一属性对应的第一属性值与第二属性对应的第二属性值是否冲突,如果不冲突,说明二者都为正确的属性值,则可以进行融合、去重处理,得到一个唯一的属性值,当二者冲突时,则确定第一属性值与第二属性值的可靠性高低,若第一属性值的可靠性高于第二属性值,则删除第二属性值,若第一属性值的可靠度低于第二属性值,则删除第一属性值。
其中,可靠度可根据第一属性值在不同数据源上出现的频次,以及数据源的预设可靠度排名等确定。本实施例对确定可靠度的具体实现方式,不做特别限制。
S407、在实体对齐处理结果为第一实体与第二实体不对齐时,则在知识图谱中新建图谱项,新建的图谱项包括第一实体名称以及第一属性对应的第一属性值。
本实施例充分考虑不同的情况下,将结构化数据导入知识图谱的过程,避免了将错误和重复的数据导入知识图谱,也避免了对数据的遗漏,保证了知识图谱的准确性。
在上述实施例的基础上,本实施例还提供了知识图谱的增量迭代和可持续构建。
在知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将隐含关系映射到知识图谱中。
例如,可以预先定义链式规则:岳父是妻子的父亲,利用这条规则,当已知姚明的妻子(叶莉)和叶莉的父亲(叶发)时,可以推出姚明的岳父是叶发。对于其它的链式规则与此类似,本实施例此处不再赘述。
本实施例通过对知识图谱进行增量迭代的处理,进一步增加了知识图谱的知识覆盖率,保证了知识图谱的构建是一个可检验、可持续增长的过程。
图5为本发明一实施例提供的知识图谱的构建装置的结构示意图,如图5所示,该装置包括:
数据获取模块501,用于获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;
对齐处理模块502,用于基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;
数据导入模块503,用于根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。
本实施例提供的装置可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图6为本发明一实施例提供的知识图谱的构建装置的结构示意图,本实施例在图5实施例的基础上,
所述对齐处理模块502具体用于,根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;
根据确定的度量类型,对所述第一实体进行实体对齐处理。
可选地,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;
所述对齐处理模块502,具体用于在所述知识图谱中确定数据源为分类树的第二实体;
判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;
所述对齐处理模块502,具体用于判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;
所述对齐处理模块502,具体用于判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。
可选地,所述数据导入模块503具体用于:
在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;
若否,则将所述第一属性和第一属性值映射到所述第二实体;
若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;
在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。
可选地,还包括:清洗处理模块504,用于获取各所述属性信息所属的描述类型;
根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
可选地,还包括:推理模块505,用于在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。
本实施例提供的装置可用于执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种知识图谱的构建方法,其特征在于,包括:
获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;
基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;
根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行对齐处理,包括:
根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;
根据确定的度量类型,对所述第一实体进行实体对齐处理。
3.根据权利要求2所述的方法,其特征在于,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;
所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:
在所述知识图谱中确定数据源为分类树的第二实体;
判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。
4.根据权利要求2所述的方法,其特征在于,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;
所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:
判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。
5.根据权利要求2所述的方法,其特征在于,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;
所述根据确定的度量类型,对所述第一实体进行实体对齐处理,包括:
判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据实体对齐处理结果,将所述结构化数据导入所述知识图谱,包括:
在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;
若否,则将所述第一属性和第一属性值映射到所述第二实体;
若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;
在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型之前,还包括:
获取各所述属性信息所属的描述类型;
根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。
9.一种知识图谱的构建装置,其特征在于,包括:
数据获取模块,用于获取结构化数据,所述结构化数据包括第一实体的第一实体名称以及所述第一实体名称对应的属性信息,所述属性信息包括第一属性和第一属性值;
对齐处理模块,用于基于所述第一实体与知识图谱中的第二实体的相似度度量,对所述第一实体进行实体对齐处理,所述相似度的度量类型包括如下中的至少一种:字符相似度的度量、实体所处分类树的结构相似度的度量、属性相似度的度量;
数据导入模块,用于根据实体对齐处理结果,将所述结构化数据导入所述知识图谱。
10.根据权利要求9所述的装置,其特征在于,所述对齐处理模块具体用于,根据所述结构化数据的数据源的类型,确定对所述第一实体与知识图谱中的第二实体之间进行相似度处理的度量类型;
根据确定的度量类型,对所述第一实体进行实体对齐处理。
11.根据权利要求10所述的装置,其特征在于,所述数据源的类型为基于分类树的数据源,所述度量类型包括实体所处分类树的结构相似度的度量;
所述对齐处理模块,具体用于在所述知识图谱中确定数据源为分类树的第二实体;
判断所述第一实体的子节点与父节点与各所述第二实体的子节点与父节点是否相同,若是,则实体对齐,若否,则实体不对齐。
12.根据权利要求10所述的装置,其特征在于,所述数据源的类型为非基于分类树的数据源,所述度量类型包括字符相似度的度量;
所述对齐处理模块,具体用于判断所述第一实体名称与所述知识图谱中的各第二实体名称的字符相似度是否大于预设阈值,若是,则实体对齐,若否,则实体不对齐。
13.根据权利要求10所述的装置,其特征在于,所述数据源的类型为非基于分类树的数据源,所述度量类型包括属性相似度的度量,所述第一属性包括关键属性与非关键属性;
所述对齐处理模块,具体用于判断所述知识图谱中是否存在与所述关键属性相同的第二属性,若是,则判断所述关键属性与所述第二属性对应的属性值是否相同,若是,则实体对齐,若否,则实体不对齐。
14.根据权利要求9至13任一项所述的装置,其特征在于,所述数据导入模块具体用于:
在所述实体对齐处理结果为第一实体与第二实体对齐,且对所述第一实体的第一属性和所述第二实体的第二属性进行属性对齐处理后,判断所述知识图谱中是否存在与所述第一属性相同的第二属性;
若否,则将所述第一属性和第一属性值映射到所述第二实体;
若是,在所述第一属性为单值属性时,判断所述第一属性对应的第一属性值与所述第二属性对应的第二属性值是否冲突,若否,则进行去重处理,若是,则在所述第一属性值的可靠度高于第二属性值的可靠度时,将所述第一属性值映射到所述第二实体,并删除所述第二属性值;在所述第一属性为多值属性时,在多个第一属性值与第二属性值不冲突时,在多个第一属性值中确定与第二属性值不同的属性值,将多个不同的第一属性值映射到所述第二实体;
在所述实体对齐处理结果为第一实体与第二实体不对齐时,则在所述知识图谱中新建图谱项,所述新建的图谱项包括所述第一实体名称以及所述第一属性对应的第一属性值。
15.根据权利要求9所述的装置,其特征在于,还包括:清洗处理模块,用于获取各所述属性信息所属的描述类型;
根据所述描述类型所对应的标准描述语句,对各所述属性信息进行清洗归一处理,以使具有相同语义的属性信息具有相同的描述。
16.根据权利要求9所述的装置,其特征在于,还包括:推理模块,用于在所述知识图谱中,针对用于表征实体之间关系的第二属性,通过预设链式规则发现实体间的隐含关系,将所述隐含关系映射到所述知识图谱中。
CN201710576164.2A 2017-07-14 2017-07-14 知识图谱的构建方法及装置 Pending CN108268581A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710576164.2A CN108268581A (zh) 2017-07-14 2017-07-14 知识图谱的构建方法及装置
US16/034,799 US11720629B2 (en) 2017-07-14 2018-07-13 Knowledge graph construction method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710576164.2A CN108268581A (zh) 2017-07-14 2017-07-14 知识图谱的构建方法及装置

Publications (1)

Publication Number Publication Date
CN108268581A true CN108268581A (zh) 2018-07-10

Family

ID=62771706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710576164.2A Pending CN108268581A (zh) 2017-07-14 2017-07-14 知识图谱的构建方法及装置

Country Status (2)

Country Link
US (1) US11720629B2 (zh)
CN (1) CN108268581A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145003A (zh) * 2018-08-24 2019-01-04 蜜小蜂智慧(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109408645A (zh) * 2018-10-15 2019-03-01 国信优易数据有限公司 一种实体类型确定方法和装置
CN109960722A (zh) * 2019-03-31 2019-07-02 联想(北京)有限公司 一种信息处理方法及装置
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN110008353A (zh) * 2019-04-09 2019-07-12 福建奇点时空数字科技有限公司 一种动态知识图谱的构建方法
CN110263083A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 知识图谱的处理方法、装置、设备和介质
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110457502A (zh) * 2019-08-21 2019-11-15 京东方科技集团股份有限公司 构建知识图谱方法、人机交互方法、电子设备及存储介质
CN110457543A (zh) * 2019-07-25 2019-11-15 中国科学院软件研究所 一种基于端到端多视角匹配的实体消解方法和系统
CN110532399A (zh) * 2019-08-07 2019-12-03 广州多益网络股份有限公司 面向游戏问答系统的知识图谱更新方法、系统及装置
CN110909168A (zh) * 2019-09-23 2020-03-24 腾讯科技(深圳)有限公司 知识图谱的更新方法和装置、存储介质及电子装置
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN111209407A (zh) * 2018-11-21 2020-05-29 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111475657A (zh) * 2020-03-30 2020-07-31 海信集团有限公司 一种显示设备、显示系统及实体对齐方法
CN111488461A (zh) * 2020-03-24 2020-08-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111597788A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 基于实体对齐的属性融合方法、装置、设备及存储介质
CN111831830A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 知识图谱实体领域冲突检测方法、装置及相关设备
CN112015792A (zh) * 2019-12-11 2020-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN112116965A (zh) * 2020-07-20 2020-12-22 上海大学 基于embedding属性相似度的材料工艺流程匹配方法
CN112597315A (zh) * 2020-12-28 2021-04-02 中国航天系统科学与工程研究院 一种基于SysML元模型本体的系统模型图谱构建方法
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN112948566A (zh) * 2021-04-21 2021-06-11 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
WO2021147786A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 知识图谱的构建方法及装置、存储介质、电子设备
CN113535968A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 数据关键属性的提取方法和装置
CN114780756A (zh) * 2022-06-07 2022-07-22 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
TWI780355B (zh) * 2019-01-31 2022-10-11 開曼群島商創新先進技術有限公司 維修對象的定損方法及裝置、電子設備
CN116187446A (zh) * 2023-05-04 2023-05-30 中国人民解放军国防科技大学 基于自适应注意力机制的知识图谱补全方法、装置和设备

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824675B2 (en) * 2017-11-17 2020-11-03 Microsoft Technology Licensing, Llc Resource-efficient generation of a knowledge graph
US11170046B2 (en) * 2018-05-29 2021-11-09 American Express Travel Related Services Company, Inc. Network node consolidation
CN109885697B (zh) * 2019-02-01 2022-02-18 北京百度网讯科技有限公司 构建数据模型的方法、装置、设备和介质
CN110008355A (zh) * 2019-04-11 2019-07-12 华北科技学院 基于知识图谱的灾害场景信息融合方法及装置
CN110245131A (zh) * 2019-06-05 2019-09-17 江苏瑞中数据股份有限公司 一种知识图谱中实体对齐方法、系统及其存储介质
CN110489560A (zh) * 2019-06-19 2019-11-22 民生科技有限责任公司 基于知识图谱技术的小微企业画像生成方法及装置
CN110543573A (zh) * 2019-08-28 2019-12-06 珠海格力电器股份有限公司 一种基于知识图谱的垃圾分类方法及装置
CN111177409A (zh) * 2019-12-27 2020-05-19 北京明略软件系统有限公司 一种实现数据处理的方法、装置、计算机存储介质及终端
CN111597355A (zh) * 2020-05-22 2020-08-28 北京明略软件系统有限公司 一种信息处理方法及装置
CN112115271B (zh) * 2020-06-01 2024-05-03 泰康保险集团股份有限公司 知识图谱构建方法及装置
CN112148735B (zh) * 2020-09-23 2023-05-26 上海爱数信息技术股份有限公司 一种用于结构化表格数据知识图谱的构建方法
CN112612902B (zh) * 2020-12-23 2023-07-14 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN112598563B (zh) * 2020-12-29 2023-11-17 中国科学技术大学 一种基于知识图谱的智慧城市数据构建方法
CN112765370B (zh) * 2021-03-29 2021-07-06 腾讯科技(深圳)有限公司 知识图谱的实体对齐方法、装置、计算机设备和存储介质
CN113656592B (zh) * 2021-07-22 2022-09-27 北京百度网讯科技有限公司 基于知识图谱的数据处理方法、装置、电子设备和介质
CN113824707A (zh) * 2021-09-13 2021-12-21 厦门吉快科技有限公司 一种基于知识图谱的网站性能拨测度量方法和装置
CN114691889B (zh) * 2022-04-15 2024-04-12 中北大学 一种道岔转辙机故障诊断知识图谱构建方法
CN116150929B (zh) * 2023-04-17 2023-07-07 中南大学 一种铁路选线知识图谱的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286713A1 (en) * 2014-04-04 2015-10-08 University Of Southern California System and method for fuzzy ontology matching and search across ontologies
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6687404B1 (en) * 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US20020052858A1 (en) * 1999-10-31 2002-05-02 Insyst Ltd. Method and tool for data mining in automatic decision making systems
US20150235143A1 (en) * 2003-12-30 2015-08-20 Kantrack Llc Transfer Learning For Predictive Model Development
US7542969B1 (en) * 2004-11-03 2009-06-02 Microsoft Corporation Domain knowledge-assisted information processing
US20060179026A1 (en) * 2005-02-04 2006-08-10 Bechtel Michael E Knowledge discovery tool extraction and integration
US8930178B2 (en) * 2007-01-04 2015-01-06 Children's Hospital Medical Center Processing text with domain-specific spreading activation methods
US7734641B2 (en) * 2007-05-25 2010-06-08 Peerset, Inc. Recommendation systems and methods using interest correlation
US8805861B2 (en) * 2008-12-09 2014-08-12 Google Inc. Methods and systems to train models to extract and integrate information from data sources
WO2010087886A1 (en) * 2009-01-27 2010-08-05 Gannon Technologies Group Llc Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints
US8213725B2 (en) 2009-03-20 2012-07-03 Eastman Kodak Company Semantic event detection using cross-domain knowledge
US8645372B2 (en) * 2009-10-30 2014-02-04 Evri, Inc. Keyword-based search engine results using enhanced query strategies
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
US9081501B2 (en) * 2010-01-08 2015-07-14 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
US8713021B2 (en) * 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9443008B2 (en) * 2010-07-14 2016-09-13 Yahoo! Inc. Clustering of search results
US9275001B1 (en) * 2010-12-01 2016-03-01 Google Inc. Updating personal content streams based on feedback
US9245022B2 (en) * 2010-12-30 2016-01-26 Google Inc. Context-based person search
US20120246154A1 (en) * 2011-03-23 2012-09-27 International Business Machines Corporation Aggregating search results based on associating data instances with knowledge base entities
US20120290571A1 (en) * 2011-04-15 2012-11-15 IP Street Evaluating Intellectual Property
US9104979B2 (en) 2011-06-16 2015-08-11 Microsoft Technology Licensing, Llc Entity recognition using probabilities for out-of-collection data
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9037579B2 (en) * 2011-12-27 2015-05-19 Business Objects Software Ltd. Generating dynamic hierarchical facets from business intelligence artifacts
US9721563B2 (en) * 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9461876B2 (en) * 2012-08-29 2016-10-04 Loci System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction
US9703833B2 (en) * 2012-11-30 2017-07-11 Sap Se Unification of search and analytics
WO2014168892A1 (en) * 2013-04-07 2014-10-16 Ziva Corporation Distributed co-operating nodes using time reversal
US9535902B1 (en) * 2013-06-28 2017-01-03 Digital Reasoning Systems, Inc. Systems and methods for entity resolution using attributes from structured and unstructured data
US9424294B2 (en) * 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
US20150286709A1 (en) * 2014-04-02 2015-10-08 Samsung Electronics Co., Ltd. Method and system for retrieving information from knowledge-based assistive network to assist users intent
CN103995847B (zh) * 2014-05-06 2017-08-18 百度在线网络技术(北京)有限公司 信息搜索方法及其装置
CN104462501A (zh) 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN105574098B (zh) 2015-12-11 2019-02-12 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置
US9558265B1 (en) * 2016-05-12 2017-01-31 Quid, Inc. Facilitating targeted analysis via graph generation based on an influencing parameter
US11170306B2 (en) * 2017-03-03 2021-11-09 International Business Machines Corporation Rich entities for knowledge bases

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286713A1 (en) * 2014-04-04 2015-10-08 University Of Southern California System and method for fuzzy ontology matching and search across ontologies
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
CN106447346A (zh) * 2016-08-29 2017-02-22 北京中电普华信息技术有限公司 一种智能电力客服系统的构建方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林海伦等: "基于复合结构的知识库分类体系匹配方法", 《计算机研究与发展》 *
胡芳槐: "基于多种数据源的中文知识图谱构建方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145003A (zh) * 2018-08-24 2019-01-04 蜜小蜂智慧(北京)科技有限公司 一种构建知识图谱的方法及装置
CN109408645A (zh) * 2018-10-15 2019-03-01 国信优易数据有限公司 一种实体类型确定方法和装置
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN111209407B (zh) * 2018-11-21 2023-06-16 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111209407A (zh) * 2018-11-21 2020-05-29 北京嘀嘀无限科技发展有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
TWI780355B (zh) * 2019-01-31 2022-10-11 開曼群島商創新先進技術有限公司 維修對象的定損方法及裝置、電子設備
CN109960810B (zh) * 2019-03-28 2020-05-19 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN109960810A (zh) * 2019-03-28 2019-07-02 科大讯飞(苏州)科技有限公司 一种实体对齐方法及装置
CN109960722A (zh) * 2019-03-31 2019-07-02 联想(北京)有限公司 一种信息处理方法及装置
CN109960722B (zh) * 2019-03-31 2021-10-22 联想(北京)有限公司 一种信息处理方法及装置
CN110008353A (zh) * 2019-04-09 2019-07-12 福建奇点时空数字科技有限公司 一种动态知识图谱的构建方法
CN110263083A (zh) * 2019-06-20 2019-09-20 北京百度网讯科技有限公司 知识图谱的处理方法、装置、设备和介质
CN110275966A (zh) * 2019-07-01 2019-09-24 科大讯飞(苏州)科技有限公司 一种知识抽取方法及装置
CN110457543B (zh) * 2019-07-25 2021-10-22 中国科学院软件研究所 一种基于端到端多视角匹配的实体消解方法和系统
CN110457543A (zh) * 2019-07-25 2019-11-15 中国科学院软件研究所 一种基于端到端多视角匹配的实体消解方法和系统
CN110532399A (zh) * 2019-08-07 2019-12-03 广州多益网络股份有限公司 面向游戏问答系统的知识图谱更新方法、系统及装置
CN110457502A (zh) * 2019-08-21 2019-11-15 京东方科技集团股份有限公司 构建知识图谱方法、人机交互方法、电子设备及存储介质
CN110909168A (zh) * 2019-09-23 2020-03-24 腾讯科技(深圳)有限公司 知识图谱的更新方法和装置、存储介质及电子装置
CN110928894A (zh) * 2019-11-18 2020-03-27 精硕科技(北京)股份有限公司 实体对齐的方法及装置
CN112015792B (zh) * 2019-12-11 2023-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN112015792A (zh) * 2019-12-11 2020-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
WO2021147786A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 知识图谱的构建方法及装置、存储介质、电子设备
CN111488461A (zh) * 2020-03-24 2020-08-04 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN111475657B (zh) * 2020-03-30 2023-10-03 海信集团有限公司 一种显示设备、显示系统及实体对齐方法
CN111475657A (zh) * 2020-03-30 2020-07-31 海信集团有限公司 一种显示设备、显示系统及实体对齐方法
CN113535968A (zh) * 2020-04-20 2021-10-22 北京沃东天骏信息技术有限公司 数据关键属性的提取方法和装置
CN111597788B (zh) * 2020-05-18 2023-11-14 腾讯科技(深圳)有限公司 基于实体对齐的属性融合方法、装置、设备及存储介质
CN111597788A (zh) * 2020-05-18 2020-08-28 腾讯科技(深圳)有限公司 基于实体对齐的属性融合方法、装置、设备及存储介质
CN111831830A (zh) * 2020-07-01 2020-10-27 腾讯科技(深圳)有限公司 知识图谱实体领域冲突检测方法、装置及相关设备
CN111831830B (zh) * 2020-07-01 2023-10-20 腾讯科技(深圳)有限公司 知识图谱实体领域冲突检测方法、装置及相关设备
CN112116965A (zh) * 2020-07-20 2020-12-22 上海大学 基于embedding属性相似度的材料工艺流程匹配方法
CN112116965B (zh) * 2020-07-20 2022-06-14 上海大学 基于embedding属性相似度的材料工艺流程匹配方法
CN112597315B (zh) * 2020-12-28 2023-07-14 中国航天系统科学与工程研究院 一种基于SysML元模型本体的系统模型图谱构建方法
CN112597315A (zh) * 2020-12-28 2021-04-02 中国航天系统科学与工程研究院 一种基于SysML元模型本体的系统模型图谱构建方法
CN112784065B (zh) * 2021-02-01 2023-07-14 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN112784065A (zh) * 2021-02-01 2021-05-11 东北大学 基于多阶邻域注意力网络的无监督知识图谱融合方法及装置
CN112948566A (zh) * 2021-04-21 2021-06-11 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
CN112948566B (zh) * 2021-04-21 2024-02-02 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
CN114780756B (zh) * 2022-06-07 2022-09-16 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
CN114780756A (zh) * 2022-06-07 2022-07-22 国网浙江省电力有限公司信息通信分公司 基于噪音检测和噪音感知的实体对齐方法及装置
CN116187446A (zh) * 2023-05-04 2023-05-30 中国人民解放军国防科技大学 基于自适应注意力机制的知识图谱补全方法、装置和设备

Also Published As

Publication number Publication date
US11720629B2 (en) 2023-08-08
US20190019088A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
CN108268581A (zh) 知识图谱的构建方法及装置
CN106202041B (zh) 一种解决知识图谱中的实体对齐问题的方法和装置
CN109582799B (zh) 知识样本数据集的确定方法、装置及电子设备
CN107957957A (zh) 测试用例的获取方法和装置
CN109582969A (zh) 实体匹配方法、装置及电子设备
CN105279397B (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
CN104346406B (zh) 训练语料扩充装置和训练语料扩充方法
CN104573130B (zh) 基于群体计算的实体解析方法及装置
CN104346438B (zh) 基于大数据数据管理服务系统
CN106156145A (zh) 一种地址数据的管理方法和装置
CN110442725B (zh) 实体关系抽取方法及装置
CN105721279B (zh) 一种电信网络用户的交往圈挖掘方法及系统
CN105426375B (zh) 一种关系网络的计算方法及装置
CN105471647B (zh) 一种电力通信网故障定位方法
CN110442516A (zh) 信息处理方法、设备及计算机可读存储介质
CN111966793B (zh) 基于知识图谱的智慧问答方法、系统和知识图谱更新系统
CN109408821A (zh) 一种语料生成方法、装置、计算设备及存储介质
CN109190033A (zh) 一种用户好友推荐方法及系统
CN109684374A (zh) 一种时间序列数据的键值对的提取方法及装置
CN109492076A (zh) 一种基于网络的社区问答网站答案可信评估方法
CN109614626A (zh) 基于万有引力模型的关键词自动抽取方法
CN110532399A (zh) 面向游戏问答系统的知识图谱更新方法、系统及装置
CN110209585A (zh) 一种软件测试用例智能训练方法,终端及存储介质
CN110020144A (zh) 一种推荐模型建立方法及其设备、存储介质、服务器
CN105323763B (zh) 一种垃圾短消息的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200420

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627 Guangdong city of Guangzhou province Whampoa Tianhe District Road No. 163 Xiping Yun Lu Yun Ping square B radio tower 13 layer self unit 01

Applicant before: GUANGZHOU SHENMA MOBILE INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20180710

RJ01 Rejection of invention patent application after publication