CN108463818A - 建立和更新连接分段图谱 - Google Patents

建立和更新连接分段图谱 Download PDF

Info

Publication number
CN108463818A
CN108463818A CN201680078539.6A CN201680078539A CN108463818A CN 108463818 A CN108463818 A CN 108463818A CN 201680078539 A CN201680078539 A CN 201680078539A CN 108463818 A CN108463818 A CN 108463818A
Authority
CN
China
Prior art keywords
solid data
collection
illustrative plates
connection segment
csg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201680078539.6A
Other languages
English (en)
Inventor
文宁
刘大凡
沈徽
陈亮
韩殿飞
胡家樟
李京伦
李璞
赵振宇
杨懋
郭振宇
张�雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN108463818A publication Critical patent/CN108463818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种用于建立特定于领域的连接分段图谱的方法。所述方法可以包括:从与所述领域相关联的源收集实体数据,以形成针对所述领域的实体数据集;对所述实体数据集进行处理;以及利用经处理的实体数据集来建立所述连接分段图谱,其中,所述建立包括利用包含关于多个领域的知识的知识图谱来丰富所述连接分段图谱。

Description

建立和更新连接分段图谱
背景技术
知识图谱是用于利用从宽泛的多种源收集的语义-搜索信息来增强搜索引擎的搜索结果的知识库。传统的知识图谱是包含与来自多种领域的各种类型的实体有关的知识的单一图谱。单一知识图谱的问题在于难以控制知识图谱的质量,尤其是针对维持高精度的图谱更是如此。
发明内容
提供了该发明内容以用简化的形式引入了对在下文的具体实施方式中所进一步描述的概念的选择。该发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
在一个方面中,本公开提供了一种用于建立特定于领域的连接分段图谱(CSG)的方法。所述方法可以包括:从与所述领域相关联的源收集实体数据,以形成针对所述域的实体数据集。所述方法还可以包括:经由清理、去重、和映射过程来处理所述实体数据集。所述方法还可以包括:利用经处理的实体数据集来建立所述连接分段图谱。所述建立可以包括利用包含关于多个领域的知识的知识图谱来丰富所述连接分段图谱。
在另一个方面中,本公开提供了一种用于建立特定于领域的连接分段图谱(CSG)的装置。所述装置可以包括:收集模块,其被配置为从与所述领域相关联的源收集实体数据,以形成针对所述领域的实体数据集。所述装置还可以包括:处理模块,其被配置为经由清理、去重和映射过程来处理所述实体数据集。所述装置还可以包括:建立模块,其被配置为利用经处理的实体数据集来建立所述连接分段图谱。所述建立模块还可以被配置为利用包含关于多个领域的知识的知识图谱来丰富所述连接分段图谱。
在另一个方面中,本公开提供了一种用于建立特定于领域的连接分段图谱(CSG)的系统。所述系统可以包括一个或多个处理器以及存储器。所述存储器可以存储计算机可执行指令,所述计算机可执行指令当被执行时,使得所述一个或多个处理器执行根据本公开各个方面的用于建立特定于领域的连接分段图谱的方法的任何步骤。
应当注意的是,以上的一个或多个方面包括在下文中详细描述的并且在权利要求中特别指出的特征。以下的描述和附图详细地阐述了一个或多个方面的某些说明性特征。这些特征仅仅指示可以采用各个方面的原理的各种方式中的几种,并且本公开旨在包括所有这些方面及其等同物。
附图说明
下文将结合附图来描述所公开的方面,提供这些附图是为了示出所公开的方面而不是为了限制所公开的方面。
图1示出了根据本公开实施例的示例性实现中的环境。
图2示出了根据本公开实施例的用于建立特定于领域的连接分段图谱(CSG)的方法的流程图。
图3示出了根据本公开实施例的示例性分布式表格服务系统。
图4示出了根据本公开实施例的用于建立特定于领域的连接分段图谱(CSG)的示例性装置。
图5示出了根据本公开实施例的用于建立特定于领域的连接分段图谱(CSG)的示例性系统。
具体实施方式
现在将参考几个示例实现来讨论本公开。应当理解的是,讨论这些实现仅仅是为了使得本领域技术人员能够更好地理解并因此实现本公开的实施例,而不是暗示对本公开范围的任何限制。
知识图谱致力于描述真实世界中的所有类型的实体或概念。知识图谱由实体、描述实体的事实、以及实体之间的关系构成。基于知识图谱,能够利用从宽泛的多种源所收集的语义-搜索信息来增强搜索引擎的搜索结果。
传统的单一知识图谱以及相关联的本体对于改善图谱数据质量、灵活性以及新鲜度施加了巨大的挑战。例如,由于昂贵且复杂的图操作以及实体的互连,针对单一的知识图谱的数据更新可能会花费很长的时间。因此,可能无法满足用户针对特定领域的新鲜度要求。此外,由于使用单个模式而有可能难以引入新的本体,并且由于使用单个图谱而难以引入新的数据源。
本公开可以引入一种特定于领域的连接分段图谱(CSG),其可以被单独地建立,并且与包含关于多个领域的知识的知识图谱连接并由所述知识图谱来丰富。每个CSG可以与一个场景和应用相关联,并因此可以引入场景和应用等级的隔离和策略设置。每个CSG可以具有其自己的可以不同于其他CSG的模式,并因此可以容易地引入新的本体。此外,可以存在特定于不同领域的多个CSG而不是仅仅一个图谱,所以可以容易地引入新的数据源。在本公开中,所提出的CSG可以基于针对与该CSG相关联的领域的新鲜度要求而被单独地更新。因此,能够满足针对特定领域的新鲜度要求。
在以下讨论中,首先描述了可操作以采用在本文中所描述的技术的示例环境。接着,描述各种实施例的示例图示,各种实施例可以在该示例环境以及其他环境中被采用。由此,该示例环境不限于执行所描述的实施例,并且所描述的实施例不限于示例环境中的实现。
图1示出了用于采用在本公开中所描述的技术的示例实现中的环境100。应当理解的是,仅仅作为示例阐述了在本文中所描述的这种和其他布置。除了或者替代那些示出的,可以使用其他布置和元件(例如机器、接口、函数、命令和函数组等),并且可以一起省略一些元件。此外,在本文中所描述的许多元件是功能实体,其可以被实现为离散的或分布式的组件,或者与其他组件相结合。在本文中被描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件来实行。例如,各种功能可以由执行存储在存储器中的指令的处理器来实行。
所示出的环境100可以包括存储设备110、搜索引擎服务器120、以及用户设备130。应当理解的是,在本公开的范围内,可以在环境100内采用任何数量的用户设备、搜索引擎服务器、和存储设备。每个可以包括单个设备或者在分布式环境中协作的多个设备。例如,搜索引擎服务器120可以包括在分布式环境中布置的多个设备,它们共同提供在本文中所描述的搜索引擎服务器120的功能。额外地,没有示出的其他组件也可以被包括在环境100内。
用户设备130可以是任何类型的计算设备,例如台式计算机、膝上型计算机、智能电话等。用户设备130可以经由网络140与搜索引擎服务器120进行通信,网络140可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。
存储设备110可以存储包含关于多个领域的知识的知识图谱,例如包含覆盖各种领域的各种类型的实体、事实和关系的微软Satori知识图谱。存储设备110还可以存储特定于不同领域的多个连接分段图谱(CSG),例如特定于产品和服务的CSG 1、特定于房地产的CSG 2、……、特定于娱乐的CSG N。可以针对个体的场景来建立并更新这些CSG。每个CSG可以通过实体身份和链接服务而与知识图谱相连接并且通过知识图谱来丰富。可以用平面表格格式来存储知识图谱和CSG。尽管在图1中仅仅示出了一个存储设备110,但是可以存在多个存储设备来以分布式的方式存储知识图谱和CSG。
由于可以建立特定于领域的CSG(其在规模上比包含各种类型的实体的传统单一知识图谱小得多,并且与其他CSG相隔离),因此与传统的知识图谱相比,可以花费少得多的时间来更新这样的CSG。
搜索引擎服务器120可以用于从用户设备(例如,用户设备130)接收与特定领域相关联的搜索查询,并且基于存储在存储设备110中的对应的CSG来提供响应于所述搜索查询的搜索结果。例如,用户可能对房地产感兴趣,并且可能针对关于在售房屋的最新价格信息而频繁地提交搜索查询。搜索引擎服务器120可以基于特定于房地产的CSG 2来执行搜索操作并且将最新的信息返回给用户,其中,CSG 2可以基于针对房地产的新鲜度要求例如每隔4个小时更新一次。
在描述了可以采用在本文中所描述的技术的示例运行环境之后,现在考虑对各种实施例的讨论。
图2示出了用于建立特定于领域的连接分段图谱(CSG)的方法200的流程图。
在步骤210中,方法200可以从与所述领域相关联的一个或多个源收集实体数据,以形成针对所述领域的实体数据集。具体地,所述收集可以包括从所述一个或多个源取回信息、利用预先定义的提取模型来从所述信息中提取实体数据、以及将所述实体数据存储至执行方法200的系统。例如,针对特定于产品的CSG而言,方法200可以从Wikipedia网页、Amazon网页、和Walmart网页等取回信息。接着,方法200可以利用特定于该CSG的预先定义的提取模型来从所述信息中提取与产品相关联的实体数据,其中,所述提取模型可以是由特定于产品领域的训练数据集来训练的。此后,方法200可以存储所提取的实体数据以形成特定于产品的实体数据集。
在步骤220中,方法200可以对实体数据集进行处理。例如,所述处理可以包括对实体数据集进行清理以从该数据集中移除噪声。所述处理还可以包括对实体数据集进行去重。所述处理还可以包括将数据集中的来自不同源的实体数据项规范化成相同的格式。所述处理还可以包括将数据集中的实体数据映射至特定于CSG的模式。
在步骤230中,方法200可以利用经处理的实体数据集来建立CSG。具体地,所述建立可以包括在经处理的实体数据集上执行实体匹配。实体匹配可以包括基于实体相似度来为数据集中的每个实体数据项分配实体数据ID。如果两个或更多个实体数据项与同一个实体相关联,则可以给这两个或更多个实体数据项分配同一个实体ID。所述建立还可以包括基于预先定义的CSG组合规则来组合数据集中的两个或更多个实体数据项。例如,对于特定于人的CSG而言,所述规则可以包括在两个或更多个实体数据项具有相同的姓名和生日的情况下,组合这两个或更多个实体数据项。所述建立还可以包括利用包含关于多个领域的知识的知识图谱来丰富CSG。例如,与知识图谱中的实体相关联的数据可以被添加到CSG的对应的实体中。
通过使用上文所描述的方法200,可以建立多个CSG,每个CSG特定于一个领域。一旦建立了这样的CSG,就可以通过使用来自相关联的源的经改变的信息,基于与该CSG相关联的其新鲜度要求来更新该CSG。更新过程与上文所描述的建立过程类似。对于不同的领域可以存在不同的新鲜度要求。例如,对于房地产领域,新鲜度要求可以是在售房屋必须每隔4个小时被刷新一次。对于实时新闻领域,新鲜度要求可以是新闻必须每隔5分钟被刷新一次。在本公开的实施例中,每个CSG可以基于其新鲜度要求而被更新。因此,每个CSG的新鲜度可以满足相应的用户的要求。
在建立了CSG之后,随着对该CSG进行更新,当该CSG满足预先定义的标准时,可以经由映射、合并、以及选择过程来使用来自该CSG的实体数据以更新知识图谱。在本公开的实施例中,预先定义的标准可以与该CSG的新鲜度、正确性、以及属性覆盖中的至少一个相关联。新鲜度可以与针对新鲜度的每用户要求的延迟相关联。正确性可以与属性值的变化和属性分布相关联。例如,CSG中的实体的一些属性(例如,生日和姓名)的值不应当改变。CSG中的实体的一些属性的值应当在预先定义的范围内。例如,纬度/经度的值应当在-90到90以及-180到180的范围内。CSG中的属性分布应当符合常识。例如,一个人应当仅具有双亲(母亲和父亲),一个公司不应当具有多于1百万的雇员,等等。最常查询的实体的属性值的变化应当低于预先定义的百分比,例如5%。在本公开的实施例中,CSG的属性覆盖可以被认为是用于评估CSG的一个因素。例如,CSG的一些重要属性的覆盖应当高于预先定义的阈值。例如,对于CSG中的一个组织而言,诸如名称、地点、网站等等之类的对于描述该组织而言重要的一些属性的覆盖应当高于第一阈值。CSG中诸如电话号码、电子邮件地址、描述等之类的一些属性的覆盖应当高于第二阈值。在本公开的实施例中,第一阈值可以大于第二阈值。
在本公开中,CSG可以与包含关于多个领域的知识的知识图谱相连接,并且通过所述知识图谱进行丰富。反过来,来自CSG的实体数据可以用于更新所述知识图谱。
图3示出了根据本公开的实施例的分布式表格服务系统300。分布式表格服务系统300可以被配置为对包含关于多个领域的知识的知识图谱以及特定于领域的连接分段图谱(CSG)进行存储和处理,所述CSG可以与所述知识图谱相连接并且由所述知识图谱来丰富。系统300可以包括分布式表格存储服务310和计算引擎320。系统300还可以包括图3中没有示出的多个存储服务器。
分布式表格存储服务310可以以平面表格格式来存储来自知识图谱和CSG的实体数据。分布式表格存储服务310可以包括协调器组件312、复制组件314、本地存储组件316。在本公开的实施例中,可以将知识图谱和CSG表示成表格。可以通过垂直分割和水平划分来将所述表格分成多个分区。多个存储服务器可以以分布的方式来存储这些分区。
协调器组件312可以被配置为托管表格等级的元数据,例如表格的模式、表的分区分布、每个存储服务器的状态等等。
为了确保数据的安全性,可以将数据存储在三个或更多个存储服务器中。复制组件314可以被配置为在可变的副本计数中保持数据是可靠的,并且保持副本之间的一致性。此外,复制组件314还可以被配置为将数据从一个存储服务器迁移到另一个存储服务器,以确保均匀的数据分布。
本地存储组件316可以被配置为将数据存储在本地箱(local box)中,并对诸如读取、写入、更新、修改、删除等等之类的针对表格的操作进行处理。本地存储组件316还可以被配置为将数据从复杂的数据结构映射至简单的键-值存储以使得存储高效。
计算引擎320可以被配置为建立特定于领域的CSG。例如,计算引擎320可以被配置为从与所述领域相关联的一个或多个源收集实体数据,以形成针对所述领域的实体数据集。具体地,所述收集可以包括从所述一个或多个源取回信息、利用特定于该CSG的预先定义的提取模型来从所述信息中提取实体数据、以及将实体数据存储到分布式表格服务系统300。
计算引擎320还可以被配置为对实体数据集进行处理。例如,所述处理可以包括清理实体数据集以从该数据集中移除噪声。所述处理还可以包括对实体数据集进行去重。所述处理还可以包括将数据集中来自不同源的实体数据项规范化成同一格式。所述处理还可以包括将数据集中的实体数据映射至特定于该CSG的模式。
计算引擎320还可以被配置为利用经处理的实体数据集来建立该CSG。具体地,所述建立可以包括对经处理的实体数据集执行实体匹配。实体匹配可以包括基于实体相似度给经处理的实体数据集中的每个实体数据项分配实体ID。如果两个或更多个实体数据项与相同的实体相关联,那么可以将相同的实体ID分配给这两个或更多个实体数据项。所述建立还包括基于预先定义的CSG组合规则来组合数据集中的两个或更多个实体数据项。例如,对于与人相关联的CSG,所述规则可以包括在两个或更多个实体数据项具有相同的姓名和生日的情况下,组合这两个或更多个实体数据项。所述建立还可以包括利用包含关于多个领域的知识的知识图谱来丰富该CSG。例如,与知识图谱中的一个实体相关联的数据可以被添加到该CSG的对应的实体中。
计算引擎320可以被配置为建立多个CSG,其中每个CSG特定于不同领域。一旦建立了这样的CSG并将其存储在系统300中,则计算引擎320还可以被配置为通过使用来自相关联的源的经改变的信息,基于针对与该CSG相关联的领域的新鲜度要求来更新该CSG。
计算引擎320还可以被配置为当CSG满足预先定义的标准时,经由映射、合并、和选择过程利用来自该CSG的实体数据来更新知识图谱,其中该CSG被视为知识图谱的源。在本公开实施例中,预先定义的标准可以与CSG的新鲜度、正确性、和属性覆盖中的至少一个相关联。
图4示出了用于建立特定于领域的连接分段图谱(CSG)的示例装置400。
装置400可以包括:收集模块410,其被配置为从与所述领域相关联的一个或多个源收集实体数据,以形成针对所述领域的实体数据集;处理模块420,其被配置为对所述实体数据集进行处理;以及建立模块430,其被配置为利用经处理的实体数据集来建立所述CSG,其中,所述建立模块还被配置为利用包含关于多个领域的知识的知识图谱来丰富所述CSG。
在本公开的实施例中,装置400还包括更新模块,其被配置为在所述CSG满足预先定义的标准的情况下,利用所述CSG来更新所述知识图谱。所述预先定义的标准与所述CSG的新鲜度、正确性、和属性覆盖中的至少一个相关联。
在本公开的实施例中,收集模块410还可以被配置为:从与所述领域相关联的源取回信息;从所取回的信息中提取实体数据;以及将所述实体数据存储至装置400。
在本公开的实施例中,处理模块420还可以被配置为执行以下各项中的至少一个:清理所述实体数据集以移除噪声;对所述实体数据集去重;规范化所述实体数据集中的实体数据;以及将所述实体数据集中的实体数据映射到特定于所述CSG的模式。
在本公开的实施例中,建立模块430还可以被配置为对所述实体数据集执行实体匹配,以及基于预先定义的CSG组合规则来组合两个或更多个实体数据项。所述实体匹配可以包括基于实体相似度来为每个实体数据项分配实体ID。
在本公开的实施例中,所述CSG可以基于针对所述领域的新鲜度要求进行更新。对于不同的知识领域,可以存在不同的新鲜度要求。例如,对于房地产领域,新鲜度要求可以是在售房屋必须每隔4小时刷新一次。对于实时新闻领域,新鲜度要求可以是新闻必须每隔5分钟刷新一次。在本公开的实施例中,每个CSG可以基于其新鲜度要求而被更新。因此,每个CSG的新鲜度可以满足响应用户的要求。
图5示出了根据本公开实施例的用于建立特定于领域的连接分段图谱(CSG)的示例性系统500。CSG可以与包含关于多个领域的知识的知识图谱连接,并且通过所述知识图谱丰富。所述系统500可以包括一个或多个处理器510。所述系统500还可以包括与所述一个或多个处理器连接的存储器520。存储器520可以存储计算机可执行指令,所述计算机可执行指令当被执行时,使得所述一个或多个处理器执行根据本公开的用于建立特定于领域的连接的分段知识图谱(CSG)的方法的任何步骤。
可以在非瞬时性计算机可读介质中实施本公开的方面。非瞬时性计算机可读介质可以包括指令,所述指令当被执行时,使得一个或多个处理器执行根据本公开的用于建立特定于领域的连接分段图谱(CSG)的方法的任何步骤。
已经结合各种装置和方法描述了处理器。可以使用电子硬件、计算机软件或其任何组合来实现这些处理器。这样的处理器被实现为硬件还是软件将取决于特定的应用以及施加在系统上的总体设计约束。作为示例,可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、离散硬件电路、以及被配置为执行本公开通篇所描述的各种功能的其他合适的处理组件,来实现本公开中呈现的处理器、处理器的任何部分、或处理器的任何组合。可以利用由微处理器、微控制器、DSP、或其他合适的平台所执行的软件来实现在本公开中所呈现的处理器、处理器的任何部分、或处理器的任何组合的功能。
应当将软件宽泛地解释为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、执行的线程、过程、函数等。所述软件可以驻留在计算机可读介质上。作为示例,计算机可读介质可以包括存储器,例如磁存储设备(例如,硬盘、软盘、磁带)、光盘、智能卡、闪速存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器、或可移动磁盘。尽管存储器在本公开通篇中呈现的各种方面中是与处理器分开地示出的,但是存储器可以位于处理器内部(例如,高速缓存或寄存器)。
应当理解的是,所公开的方法中的步骤的顺序示出了示例性过程。可以理解的是,可以基于设计偏好来重新布置这些方法中的步骤的顺序。
提供先前的描述以使得本领域技术人员能够实践在本文中所描述的各种方面。对于本领域技术人员而言,对这些方面进行的各种修改都将是显而易见的,并且本文中定义的一般原理可以应用于其他方面。因此,权利要求不旨在受限于再本文中所示出的方面。本领域技术人员已知的或者以后将知道的、贯穿本公开描述的各种方面的元素的所有结构和功能等价形式通过引用而明显地并入本文,并且旨在由权利要求所涵盖。

Claims (20)

1.一种用于建立特定于领域的连接分段图谱的方法,所述方法包括:
从与所述领域相关联的源收集实体数据,以形成针对所述领域的实体数据集;
对所述实体数据集进行处理;以及
利用经处理的实体数据集来建立所述连接分段图谱,
其中,所述建立包括利用包含关于多个领域的知识的知识图谱来丰富所述连接分段图谱。
2.根据权利要求1所述的方法,还包括:
如果所述连接分段图谱满足预先定义的标准,则利用来自所述连接分段图谱的实体数据来更新所述知识图谱。
3.根据权利要求1所述的方法,其中,所述收集包括:
从所述源取回信息;
从所取回的信息中提取实体数据;以及
存储所述实体数据。
4.根据权利要求1所述的方法,其中,所述处理包括以下项中的至少一项:清理所述实体数据集以移除噪声,对所述实体数据集进行去重,将所述实体数据集中的实体数据规范化,以及将所述实体数据集中的实体数据映射至特定于所述连接分段图谱的模式。
5.根据权利要求1所述的方法,其中,所述建立还包括:
对所述实体数据集执行实体匹配;以及
基于与所述连接分段图谱相关联的预先定义的组合规则来组合所述实体数据集中的两个或更多个实体数据项。
6.根据权利要求1所述的方法,其中,所述连接分段图谱是基于针对所述领域的新鲜度要求来更新的。
7.根据权利要求2所述的方法,其中,所述预先定义的标准与所述连接分段图谱的新鲜度、正确性、以及属性覆盖中的至少一个相关联。
8.根据权利要求1所述的方法,其中,所述知识图谱和所述连接分段图谱是以平面表格格式存储的。
9.根据权利要求1所述的方法,其中,所述知识图谱和所述连接分段图谱是通过使用反向索引来搜索的。
10.根据权利要求5所述的方法,其中,所述实体匹配用于为所述实体数据集中的每个实体数据项分配实体ID。
11.一种用于建立特定于领域的连接分段图谱的装置,所述方法包括:
收集模块,其被配置为从与所述领域相关联的源收集实体数据,以形成针对所述领域的实体数据集;
处理模块,其被配置为对所述实体数据集进行处理;以及
建立模块,其被配置为利用经处理的实体数据集来建立所述连接分段图谱,
其中,所述建立模块还被配置为利用包含关于多个领域的知识的知识图谱来丰富所述连接分段图谱。
12.根据权利要求11所述的装置,还包括:
更新模块,其被配置为在所述连接分段图谱满足预先定义的标准的情况下,利用来自所述连接分段图谱的实体数据来更新所述知识图谱。
13.根据权利要求11所述的装置,其中,所述收集模块还被配置为:
从所述源取回信息;
从所取回的信息中提取实体数据;以及
存储所述实体数据。
14.根据权利要求11所述的装置,其中,所述处理模块还被配置为执行以下项中的至少一项:清理所述实体数据集以移除噪声,对所述实体数据集进行去重,将所述实体数据集中的实体数据规范化,以及将所述实体数据集中的实体数据映射至特定于所述连接分段图谱的模式。
15.根据权利要求11所述的装置,其中,所述建立模块还被配置为:
对所述实体数据集执行实体匹配;以及
基于与所述连接分段图谱相关联的预先定义的组合规则来组合所述实体数据集中的两个或更多个实体数据项。
16.根据权利要求11所述的装置,其中,所述连接分段图谱是基于针对所述领域的新鲜度要求来更新的。
17.根据权利要求12所述的装置,其中,所述预先定义的标准与所述连接分段图谱的新鲜度、正确性、以及属性覆盖中的至少一个相关联。
18.根据权利要求11所述的装置,其中,所述知识图谱和所述CSG是以平面表格格式存储的。
19.根据权利要求11所述的装置,其中,所述知识图谱和所述连接分段图谱是通过使用反向索引来搜索的。
20.一种用于建立特定于领域的连接分段图谱的系统,所述系统包括:
一个或多个处理器;以及
存储器,其存储计算机可执行指令,所述计算机可执行指令当被执行时,使得所述一个或多个处理器执行根据权利要求1-10所述的方法。
CN201680078539.6A 2016-10-31 2016-10-31 建立和更新连接分段图谱 Pending CN108463818A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/104045 WO2018076348A1 (en) 2016-10-31 2016-10-31 Building and updating a connected segment graph

Publications (1)

Publication Number Publication Date
CN108463818A true CN108463818A (zh) 2018-08-28

Family

ID=62024224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680078539.6A Pending CN108463818A (zh) 2016-10-31 2016-10-31 建立和更新连接分段图谱

Country Status (2)

Country Link
CN (1) CN108463818A (zh)
WO (1) WO2018076348A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997231B2 (en) 2019-01-17 2021-05-04 International Business Machines Corporation Image-based ontology refinement using clusters
CN114691896B (zh) * 2022-05-31 2022-09-13 浙江大学 一种知识图谱数据清洗方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104462506A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于用户标注信息构建知识图谱的方法和装置
WO2015175936A1 (en) * 2014-05-16 2015-11-19 Microsoft Technology Licensing, Llc Knowledge source personalization to improve language models
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9940584B2 (en) * 2015-02-13 2018-04-10 International Business Machines Corporation Leveraging an external ontology for graph expansion in inference systems
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
WO2015175936A1 (en) * 2014-05-16 2015-11-19 Microsoft Technology Licensing, Llc Knowledge source personalization to improve language models
CN104462227A (zh) * 2014-11-13 2015-03-25 中国测绘科学研究院 一种图形化知识谱系自动构建方法
CN104462506A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于用户标注信息构建知识图谱的方法和装置
CN105574098A (zh) * 2015-12-11 2016-05-11 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、实体对比方法及装置

Also Published As

Publication number Publication date
WO2018076348A1 (en) 2018-05-03

Similar Documents

Publication Publication Date Title
US11762909B2 (en) Method and system for abstracting information for use in link analysis
US11734233B2 (en) Method for classifying an unmanaged dataset
CN108108821A (zh) 模型训练方法及装置
CN103890709B (zh) 基于缓存的键值数据库映射和复制
US20140164362A1 (en) Systems and Methods for Data Relationship Visualization
August et al. AI naturalists might hold the key to unlocking biodiversity data in social media imagery
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
Zhang et al. Mining spatial patterns of food culture in China using restaurant POI data
CN109522332A (zh) 客户信息数据合并方法、装置、设备及可读存储介质
CN105518644A (zh) 在地图上实时处理并显示社交数据的方法
CN108463818A (zh) 建立和更新连接分段图谱
KR101467707B1 (ko) 지식 베이스의 개체 매칭 방법 및 이를 위한 장치
Janecka et al. 3D cadastres best practices, chapter 4: 3D spatial DBMS for 3D cadastres
CN112184300A (zh) 一种达人匹配方法、介质、系统和设备
US20150235138A1 (en) System, method, and storage medium for generating hypotheses in data sets
Savage et al. Distributed mining of contrast patterns
Caldarola et al. Big data: The current wave front of the tsunami
CN109684588B (zh) 一种资产管理系统及方法
CN107004036A (zh) 用以搜索包含大量条目的日志的方法和系统
CN110851540A (zh) 一种基于金融业务图谱的商业银行客户流失预警方法
US20180373739A1 (en) System and method of managing data in a distributed computing environment
Kleeb et al. Wikimaps: dynamic maps of knowledge
JP2009223409A (ja) 文書検索システムおよびプログラム
CN110674137A (zh) 数据处理方法及装置、存储介质、电子设备
JP2020061147A (ja) Cnn基盤イメージ検索方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180828