CN107851098A - 链接数据集 - Google Patents

链接数据集 Download PDF

Info

Publication number
CN107851098A
CN107851098A CN201580081319.4A CN201580081319A CN107851098A CN 107851098 A CN107851098 A CN 107851098A CN 201580081319 A CN201580081319 A CN 201580081319A CN 107851098 A CN107851098 A CN 107851098A
Authority
CN
China
Prior art keywords
equivalence
data set
link
information
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580081319.4A
Other languages
English (en)
Inventor
里沙尔德·霍克斯
路易斯·米格尔·瓦克罗·冈萨雷斯
劳伦斯·威尔科克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Hewlett Packard Enterprise Development LP
Original Assignee
Hewlett Packard Enterprise Development LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Enterprise Development LP filed Critical Hewlett Packard Enterprise Development LP
Publication of CN107851098A publication Critical patent/CN107851098A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

描述了一种方法,其中:提供由第一模型表示的第一数据集;提供由第二模型表示的第二数据集;接收与将在第一数据集和第二数据集之间创建的链接有关的信息;基于所接收的信息来选择链接创建机制;使用所选择的链接创建机制来确定第一数据集和第二数据集之间的等价性;基于所确定的等价性来向第一模型添加等价关系;并且基于所确定的等价性来向第二模型添加等价关系。

Description

链接数据集
背景技术
彼此之间没有可导航关系的数据集可以通过将一个数据集中的对象(实体)与另一数据集中共享共同属性的对象相关联来进行联合。
附图说明
现在将参考附图并通过非限制性示例的方式来描述各示例,其中:
图1是链接两个数据集的方法的示例的流程图;
图2是链接两个数据集的方法的示例的流程图;
图3是链接创建机制的描述的示例;
图4是链接创建机制的示例的流程图;
图5是链接两个数据集的方法的示例;
图6是维护两个数据集之间的链接的方法的示例;以及
图7是用于链接两个数据集的示例装置的示意图。
具体实施方式
存在着用于对数据集进行联合并且用于实现跨联合数据集的查询的多种技术,包括记录联动、关系数据库、概率数据库、演绎数据库和复用图。这些技术中的每一种都涉及创建将被联合的数据集中的每个数据集的模型。术语“模型”旨在指代系统中的底层实体、它们随时间的演变以及它们之间的相互作用的简化表示。
记录联动技术对同一个表中或者数据库不同表中的重复记录进行检测。这些技术中的多种技术允许用户根据哪两个项目将被标记为相同来指定相似性函数。对这些相似性函数加以控制的规则通常被硬编码,因此非专业人士难以对相似性函数进行调整。
概率数据库包括:(1)不完整关系R的集合,其中具有缺失或不确定的数据;(2)跨越这些关系的所有可能的完整版本的概率分布F,也称为可能世界。不完整关系被定义在概型(schema)上,该概型包含有包括R中的所有候选和外键属性在内的确定性属性的(非空)子集、以及概率属性的子集。确定性属性没有与其任何值相关联的不确定性,而概率属性可以包含缺失或不确定的值。这些缺失或不确定的值的概率分布F由诸如贝叶斯网络(Bayesian Network)或马尔可夫随机场(Markov Random Field)等概率图形模型来表示。每个可能的数据库实例都是R中的缺失和不确定的数据的潜在完成。已经提出了一组SQL扩展以使概率数据库能够选择被用于在单个数据库管理系统内创建数据集之间的联合的最佳过程。然而,这些扩展是以高度命令的方式来表达的,这使得非专业人士难以理解和使用。
演绎数据库是能够基于存储在演绎数据库中的规则和事实来执行演绎(即得出更多事实)的数据库系统。演绎数据库代表诸如Prolog等逻辑编程语与关系数据库之间的混合。其结果是,能够使用声明性语言来查询演绎数据库。演绎数据库中的联合可以被看作是逻辑推理过程“采取行动(takes down to earth)”并映射到数据库上的特定动作的模板(templates)。与所有数据库系统一样,演绎数据库中的联合仅包括结果集,而不是数据模型本身的一部分。因此,联合是针对每个查询而重新计算的。
复用图(Multiplex graphs)是一种数据模型,其能够维护跨越图的联合,这是因为联合的结果成为该数据模型本身的一部分。这有助于构建跨越复用图(或多个复用图)的查询。然而,复用图的创建是一个手动过程,它涉及以特定方式来创建复用链接。用户明确地对如何创建跨图链接进行建模,并且响应于对底层图的变更而手动更新这些链接。
在下面的描述中,术语“等价性(equivalence)”被用于指代第一数据集中的实体或实体的属性被认为与第二数据集中的实体或实体的属性相同。用于确定实体或属性是否相同的标准可能会例如依赖于特定应用、用户偏好等而发生变化,因此给定的实体/属性对可能会在一个示例中包含等价性,但是在另一个示例中不包含等价性。
在下面的描述中,术语“高级”被用来指代从计算机或处理的细节中强抽象出的语言,该语言被用来描述该计算机或处理。因此,为了说明的目的,高级语言被理解为查询语言,其并未规定创建联合所要遵循的一系列命令,而是更接近于非技术用户指定这种操作的方式。这样的一个示例可以使用自然语言元素。因此,可以容易地使用高级语言,而无需对将运行查询的底层计算机系统或处理有任何详细的了解。
图1示出例如用于链接两个数据集的方法的示例。在一些示例中,该方法由计算机系统的处理器执行。在第一块101中,将第一数据集和第二数据集提供给例如处理器。第一数据集由第一模型表示,并且第二数据集由第二模型表示。在一些示例中,第一模型和第二模型包括复用图。在这样一些示例中,复用图被包括在多元图(multipartite graph)中。在多元图中,在不同类型的实体(例如汽车和汽车供应商以及所有者)之间建立关系,但是不在相同类型的实体之间建立关系(即,意味着两辆汽车不能相关联)。在一些示例中,第一图中的实体可以等价于不同图中的任何实体。在一些示例中,第一模型和第二模型包括表。第一模型与第二模型具有相同的类型。
然后,在块102中,例如由处理器接收与将在第一数据集和第二数据集之间创建的链接有关的信息。在一些示例中,信息包括声明性查询,该声明性查询提供将要创建的链接的高级描述。信息可以采用例如由计算机系统的用户所提交的规范的形式。在一些示例中,信息包括以高级声明性查询语言编写的查询。由于语言是声明性的,而不是强制性的,所以该信息无需指定如何创建链接(例如,查找到第一和第二数据集之间的等价性的确切方式)。
例如,用于指定特定联合的声明性查询可以具有以下形式:
Database_url1:company{name,count(business_unit),count(department)}
相比之下,指定相同联合的传统SQL查询将具有以下格式:
SELECT"company"."name",COALESCE("business_unit"."count",0),COALESCE("department"."count",0)
FROM"ad"."company"
LEFT OUTER JOIN(SELECT COUNT(TRUE)AS"count","business_unit"."company_code"FROM"ad"."business_unit"GROUP BY 2)AS"business_unit"ON("company"."code"="business_unit"."company_code")
LEFT OUTER JOIN(SELECT COUNT(TRUE)AS"count","department"."company_code"FROM"ad"."department"GROUP BY 2)AS"department"ON("company"."code"="department"."company_code")
ORDER BY"company"."code"DSC
由示例使用的声明性语言可以提供流程处理抽象,该流程处理抽象用于跨链接数据集图表、可组合查询片段和宏包含系统的查询。特别是,使用声明性语言的示例使得数据库表的嵌套聚合和投影易于理解和使用。
在一些示例中,所接收的信息包括标识第一数据集和第二数据集的信息。换言之,该信息指定用户想要链接的数据集的数据源。这些源可以是例如图、数据库表、文件存储库等。在一些这样的示例中,信息为每个数据集指定硬件供应和服务供应。
用户还可以在说明书中指出与用户希望创建的链接所基于的等价性有关的信息。这样的信息可以包括例如:用户希望等价搜索被限制于其的一个类型或一组类型的实体;用户希望由等价搜索考虑的一个类型或一组类型的实体;用户希望等价搜索被限制于其的一个属性或一组属性;用户希望由等价搜索考虑的一个属性或一组属性;和/或将在等价搜索中使用的过程(例如,基于熵的文本相似度的确定)。因此,在一些示例中,所接收的信息另外包括下述中的任何一个或全部:用于对将被链接的数据集之间的等价性将被查找所针对的实体的类型进行识别的信息;用于对将被链接的数据集之间的等价性将被查找所针对的属性或一组属性进行识别的信息;用于对这样的一个属性或一组属性的变换进行识别的信息(例如对携带信号信息的属性的快速傅里叶变换);以及用于对被用于查找等价性的过程进行识别的信息。
在一些示例中,用户可以通过完成模板来创建规范,其中模板为包括可用高级信息填充的字段的形式(与编程代码或命令式查询相反,这两者都被认为包括针对本规范的目的的低级信息)。模板中的一些字段的完成可以是可选的,使得如果用户希望更详细地指定如何创建所请求的链接,则用户能够提供某些类型的信息,但是链接创建过程仍然可以在没有收到这些类型的信息的情况下继续。在一些示例中,如果模板的字段被用户留空(即,所接收的信息不包含与将要创建的链接相关的某些类型的信息),则处理器将考虑与那种类型的信息有关的所有可能选项。例如,如果字段“实体类型”(其中用户可以指示例如是否要考虑文本、数字之间的等价性或者这两者)的字段留空,则处理器可以在搜索等价性时默认考虑文本和数字双方。
模板可以被看作用于表示第一和第二数据集的模型的静态(并且通常是部分)版本。完成的模板表示第一和第二数据集之间的一些可能的等价性的请求状态,并且模板不考虑其他可能的等价性的存在。例如,考虑上面列出的声明性查询:
Database_url1:company{name,count(business_unit),count(department)}
编制该查询涉及用户指定名称、业务单位和部门。处理器实际创建联合所使用的其他信息是由处理器使用如下所述的处理而自动确定的。
在块103中,基于所接收的信息来选择(例如通过处理器)链接创建机制。在一些示例中,处理器可以访问各种链接创建机制的存储,从中处理器可以针对给定的所接收的规范而选择最恰当的链接创建机制。链接创建机制可以是例如用于在两个数据集之间寻找等价性的过程。
在一些示例中,链接创建机制的选择基于该链接创建机制的描述。图2示出了一个这样的示例。块201、202、204和205以与图1的块101、102、104和105相同的方式来执行,因此将不再描述。在图2的块201a中,提供链接创建机制的描述的集合。每个描述包括与所描述的链接创建机制的性能有关的信息。在一些示例中,每个描述包括与所描述的链接创建机制的复杂度有关的信息。在一些示例中,每个描述包括与所描述的链接创建机制的阈值有关的信息(例如,用于指定第一实体等价于第二实体以便第一实体被链接创建机构视为等价于第二实体的最小概率的阈值)。图3示出链接创建机制的描述的示例。
在块203中,基于链接创建机制的描述以及在块202中接收到的信息来选择链接创建机制。在一些示例中,选择链接创建机制包括:针对每个描述,将该描述中的项目与接收到的信息中的项目进行匹配,并且选择与具有最高数量的匹配项目的描述相关联的链接创建机制。在所提供的描述包括与所描述的链接创建机制的复杂度和/或阈值有关的信息的一些示例中,选择链接创建机制包括:选择相比于集合中的另一链接创建机制而具有相对较低复杂度和/或相对较高阈值的链接创建机制。例如,如果数个描述包含相同数量的匹配项目,则从与具有相等的最高数量的匹配项目的各描述相关联的各链接创建机制之中选择具有最低复杂度和/或最高阈值的链接创建机制。如果无法识别符合预定义的选择标准的单个链接创建机制,则在一些示例中将寻求操作人员的协助(例如,通过在计算机系统的显示器上生成错误消息)。
因此,块203的执行可以被看作是处理器解释描述并将它们映射到用户提供的规范,以便找到与用户在规范中所指示的“最佳地”匹配的可用链接创建机制。
现在将描述示例链接创建机制。在一些示例中,例如在其中所接收的信息不包括关于用户希望如何找到等价关系的任何指示或者用户希望被考虑的特定属性或实体的任何指示(例如,所接收的信息是用于标识第一数据集和第二数据集的信息)的示例中,链接创建机制通过将第一数据集中的所有实体属性和第二数据集中的所有实体属性转换为文本来进行操作。然后例如由处理器执行基于文本相似度的聚类处理,该处理器生成具有大于预定义阈值的文本相似度的级别的属性对(即,包括来自每个数据集的一个属性)。在一些示例中,该阈值可以是例如由用户配置的。在一些示例中,处理器向用户呈现所生成的对,并且请求用户确认每个对是否是等价的。
图4示出了例如由链接创建机制使用的不同的示例等价性查找过程的操作。图4的过程包括使用功能性编程术语来表达的lambda函数。在第一块401中,该过程接收包括第一实体(例如在第一数据集中)、第二实体(例如在第二数据集中)、属性标识符(例如,关于应比较第一和第二实体的哪些属性的指示)以及关系标识符(例如,关于将被评估的关系的类型的指示)。在一些示例中,所接收的输入包括多个属性标识符和/或关系标识符。
在第二块402中,该过程确定由第一实体的属性标识符标识出的属性,并且在第三块403中,该过程确定由第二实体的属性标识符标识出的属性。块402和403可以以任何顺序执行或者同时执行。在多个属性标识符被输入到该过程的示例中,对于由输入属性标识符标识出的每个属性执行块402和403。
然后,在块404中,该过程通过比较所确定的第一实体的属性和所确定的第二实体的属性来确定第一实体和第二实体的相似度。在一些示例中,执行块404包括将所确定的属性转换为文本元素,并且比较所确定的属性包括例如使用基于文本相似度的聚类处理来确定文本元素的相似度。在一些这样的示例中,属性与其文本元素之间的关联被存储以用于可配置的预定时间段,如果在预定时间段期间执行进一步的等价性查找过程,则可以减少计算开销。
在块405中,该过程基于所确定的相似度来计算第一实体和第二实体以由输入关系标识符所指定的方式相关联的概率。在将多个属性标识符输入到该过程的示例中,相似度确定包括比较与每个输入属性标识符相对应的一对所确定的属性,并且对这些比较结果进行组合。在一些示例中,块405包括将计算出的概率与预定义的阈值进行比较,其中概率小于阈值将导致该过程确定第一和第二实体并未以由输入关系标识符所指定的方式相关联,而概率大于阈值将导致该过程确定第一和第二实体以由输入关系标识符所指定的方式相相关。
返回图1,一旦选择了链接创建机制,则在块104中,利用所选择的链接创建机制确定第一数据集和第二数据集之间的等价性。确定等价性的方式将取决于所选择的链接创建机制的细节。然后,在块105中,基于所确定的等价性的等价关系被添加到第一模型并且被添加到第二模型。在第一和第二模型包括复用图(或单个全局复用图的不同部分)的一些示例中,等价关系包含边。在第一和第二模型包括表的一些示例中,等价关系包含外键。在一些这样的示例中,等价关系(即外键)被存储在附加表中。以这种方式修改第一和第二模型意味着查询引擎可以使用所确定的等价性。
因此,这些示例为用户提供了一种简单的方法来跨多个数据集查找等价的实体。这些示例允许使用非专家可访问的高级规范语言。而且,由于可以根据所提供的高级规范而自动执行用于确定如何查找等价性的任务,所以可以快速、准确地查找等价性,并且就用户而言只需付出一点努力。
图5示出了例如链接两个数据集的示例方法,其中两个链接请求被并行处理。以与图1的块101、102和105相同的方式来执行块501、502和505,因此将不再描述。在块502a中,接收与将要在第一数据集和第二数据集之间创建的第二链接有关的第二信息。第二信息可以具有上面关于图1的所接收的信息而描述的任何或全部的特征。第二信息可以与所接收的信息由同一用户输入到计算机系统,或者第二信息可以由不同的用户输入。第二信息可以在块502中所接收的信息之前、之后或同时地接收。在一些示例中,第二信息和所接收的信息都在预定的时间段内被接收。换言之,所接收的信息超过一段时间将不被认为包括第二信息,该一段时间与在块502中所接收的信息之后(或之前)的预定时间段的长度相等。第二信息无需与第一信息相似。
在块503中,基于所接收的信息和/或所接收的第二信息来选择链接创建机制。在一些示例中,基于所接收的信息和所接收的第二信息来选择单个链接创建机制。在一些示例中,选择链接创建机制包括:基于所接收的信息来选择第一链接创建机制并且基于所接收的第二信息来选择第二链接创建机制。在一些示例中,执行块503包括例如以上面关于图1的块103而描述的方式,将可用的链接创建机制的描述中的项目与所接收的信息中的项目以及所接收的第二信息中的项目进行比较。
在块504中,以上面关于图1的块104而描述的方式,使用每个选择出的链接创建机制来确定第一数据集和第二数据集之间的等价性。根据所接收的信息及所接收的第二信息的性质以及使用多少个链接创建机制,可以确定出多个等价性。例如,如果所接收的信息包括用于指示实体的第一组属性将被等价搜索考虑的规范,并且所接收的第二信息包括用于指示同一实体的第二不同属性将被考虑的规范,将在块504的执行中寻求针对每个属性的等价性。
在一些示例中,执行示例方法的处理器尽可能并行地运行所接收的规范。当在块505中基于所确定的等价性的等价关系被添加到第一和第二模型中时,这可以触发模型中其他等价关系的创建和/或去除。在这种情况下,处理器执行块504和505数次。第一次遍历包括对所有接收到的信息的并行处理,并且随后的遍历包括对先前遍历中所确定的新的等价的实体进行分析。在一些示例中,初始遍历之后的遍历次数与并行接收和处理的不同信息的数量相同(即,对于图5中的示例,N=2)。确定新的等价性发生得较少,所以后续的遍历证将通常不涉及模型中的所有实体。
图6示出例如维护两个数据集之间的链接的示例方法。在第一块601中,通过将至少一个等价关系添加到第一数据集的模型和第二数据集的模型来链接第一数据集和第二数据集。块601例如可以通过执行图1的方法、图2的方法或图5的方法来执行。然后,在块602中,检测与被添加到第一模型和第二模型中的等价关系所涉及的实体有关的变更。在一些示例中,检测变更包括(例如,处理器的)接收过程(例如,从数据源)不断接收数据集的更新后版本。在一些这样的示例中,接收过程将所接收的更新后数据集和当前数据集进行比较并且标记任何变更后的实体。在一些示例中,接收过程是使用实体的新接收的变更后版本来覆盖该实体的当前本地副本。在一些示例中,接收过程触发链接创建机制的运行以查找涉及变更后实体的等价性。
在一些示例中,检测变更包括例如通过计算机系统的处理器来创建监视过程。在处理器包括接收过程的一些示例中,监视过程和接收过程包括独立的执行线程。监视过程可以持续运行。在一些示例中,单个监视过程用以监视多个等价关系中可能会涉及的多个实体。在一些示例中,监视过程的创建基于由用户提供的监视信息。例如,用户可以提供用于指示用户希望由监视过程观察的一个实体或多个实体和/或一个实体属性或一组实体属性的输入。在一些示例中,监视信息和关于将要在两个数据集之间创建的链接的信息被一起提供。在一些示例中,监视信息和关于将要创建的链接的信息被分开提供。在一些示例中,监视过程用以监视等价关系所涉及的所有实体。
在一些示例中,监视过程用以观察实体的属性并检测这些属性中的任何一个何时发生变更。变更可以包括例如实体的添加、实体的删除或实体的属性值的变更(即,对实体的更新)。在一些示例中,新的、删除的和更新的实体被分开处理,这简化了变更检测过程并且减少了计算开销。在一些示例中,监视过程的输出是“被监视的”属性已发生变更的实体的列表。
在提供监视过程的一些示例中,接收过程不触发用以查找涉及变更后实体的等价性的链接创建机制的运行。这样的示例减少了接收过程的计算负担,使得数据集的更新得以被快速处理。
在块603中,响应于检测到与等价关系所涉及的实体有关的变更(或多个变更),而在第一模型和第二模型中对其中涉及到被监视实体的等价关系进行更新。在一些示例中,所监视的实体可能涉及一个以上的等价关系,在这种情况下,块603包括更新被监视的实体所涉及的每个等价关系。在一些示例中,更新包括运行链接创建机制以查找新的等价性。如上面关于图5的块504和505而描述的,可能需要几次遍历。
图7示出例如用于链接两个数据集的装置70的示例。该装置包括处理器71和耦接到该处理器的存储器72。存储器72可以通过有线或无线通信链路73被耦接到处理器71。存储器包含链接创建过程的集合,该集合中的每个链接创建过程都是在第一数据集和第二数据集之间创建链接。处理器将接收与要在由第一模型表示的第一数据集和由第二模型表示的第二数据集之间创建的链接有关的信息。处理器还基于所接收的信息,从该链接创建过程的集合中选择链接创建过程;通过运行所选择的链接创建过程来确定第一数据集和第二数据集中的实体或实体属性之间的等价性;基于所确定的等价性来向第一模型添加等价关系;并且基于所确定的等价性来向第二模型添加等价关系。在一些示例中,处理器用以执行图1的方法、图2的方法、图5的方法和/或图6的方法。
因此,示例提供了能够使用户仅通过指定一些高级偏好来链接两个数据集的系统。根据用户提供的高级信息,系统自动推断出对于这些数据集而言等价性的含义。这样的示例特别适用于非技术性用户。此外,在一些示例中,对在链接创建过程期间创建的等价关系进行维护,使得它们能够被用于充实当用户稍后查询所链接的数据集中的一个时所生成的结果集。在一些示例中,即使面临包含于所链接的数据集中的底层数据的变更,也维护并更新了等价关系。
本公开中的示例可以被提供为方法、系统或机器可读指令,诸如软件、硬件、固件等的任何组合。这种机器可读指令可以被包括在其中或其上具有计算机可读程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM,光学存储器等)上。
参考根据本公开的示例的方法、设备和系统的流程图和/或框图来描述本公开。虽然以上描述的流程图显示特定的执行顺序,但执行顺序可以与所描述的不同。关联一个流程图而描述的块可以与另一流程图的那些块相组合。
应当理解,流程图和/或框图中的每个流程和/或块、以及流程图和/或框图中的流程和/或图形的组合可以通过机器可读指令来实现。
机器可读指令可以例如由通用计算机、专用计算机、嵌入式处理器或其它可编程数据处理设备的处理器来执行,以实现说明和附图中所描述的功能。具体地,处理器或处理装置可以执行机器可读指令。因此,装置和设备的功能模块可以由执行在存储器中存储的机器可读指令的处理器、或者根据嵌入在逻辑电路中的指令进行操作的处理器来实现。术语“处理器”应被广义地解释为包括CPU、处理单元、ASIC、逻辑单元或可编程门阵列等。方法和功能模块可以全部由单个处理器执行、或者在多个处理器之间分配。
这种机器可读指令还可以存储在计算机可读存储器中,该计算机可读存储器可以引导计算机或其他可编程数据处理设备以特定模式进行操作。
这种机器可读指令还可以被加载到计算机或其他可编程数据处理设备上,使得计算机或其他可编程数据处理设备执行一系列的操作步骤以产生计算机实现的处理,因此在计算机或其他可编程设备上执行的指令提供了用于实现由流程图中的流程(多个)和/或框图中的块(多个)所指定的功能的步骤。
此外,本文的教导可以以计算机软件产品的形式来实现,计算机软件产品被存储在存储介质中并且包括多个指令,该多个指令用于使计算机设备实现本公开的示例中所述的方法。
虽然已经参考某些示例描述了方法、装置和相关方面,但是在不脱离本公开的精神的情况下,可以进行各种修改、变更、省略和替换。因此,旨在是所述方法、装置和相关方面仅由所附权利要求及其等同物的范围来限制。应当注意,上述示例用于说明而并非限制本文所描述的内容,并且本领域技术人员将能够在不脱离所附权利要求的范围的情况下设计许多备选实现。
用语“包括”并不排除存在除了权利要求中所列出的元素之外的元素,“一”或“一个”不排除多个,并且单个处理器或其他单元可以实现权利要求中所述的几个单元的功能。
任何从属权利要求的特征可以与任何独立权利要求或其他从属权利要求的特征相组合。

Claims (15)

1.一种方法,包括:
提供由第一模型表示的第一数据集;
提供由第二模型表示的第二数据集;
接收与将在所述第一数据集和所述第二数据集之间创建的链接有关的信息;
基于所接收的信息来选择链接创建机制;
使用所选择的链接创建机制来确定所述第一数据集和所述第二数据集之间的等价性;
基于所确定的等价性来向所述第一模型添加等价关系;以及
基于所确定的等价性来向所述第二模型添加等价关系。
2.根据权利要求1所述的方法,其中所述第一模型和所述第二模型包括复用图,并且其中所述等价关系包括边。
3.根据权利要求1所述的方法,其中所述第一模型和所述第二模型包括表,并且其中所述等价关系包括外键。
4.根据权利要求1所述的方法,其中所接收的信息包括声明性查询,所述声明性查询提供将要创建的链接的高级描述。
5.根据权利要求1所述的方法,其中所接收的信息包括用于识别所述第一数据集和所述第二数据集的信息。
6.根据权利要求5所述的方法,其中所接收的信息包括下述中的任何一个或全部:
用于对将被链接的所述数据集之间的等价性将被查找所针对的实体的类型进行识别的信息;
用于对将被链接的所述数据集之间的等价性将被查找所针对的属性或一组属性进行识别的信息;
用于对将被链接的所述数据集之间的等价性将被查找所针对的属性或一组属性的变换进行识别的信息;
用于对用于查找等价性的过程进行识别的信息;
用于指示应创建监视过程以检测属性和/或等价关系中的变更的信息。
7.根据权利要求1所述的方法,其中所述链接创建机制包括用于查找两个数据集之间的等价性的过程。
8.根据权利要求7所述的方法,其中所述过程包括lambda函数,用以:
接收输入,所述输入包括:第一实体、第二实体、属性标识符和关系标识符;
确定由所述第一实体的属性标识符标识出的属性;
确定由所述第二实体的属性标识符标识出的属性;
通过比较所确定的所述第一实体的属性和所确定的所述第二实体的属性,来确定所述第一实体和所述第二实体的相似度;以及
基于所确定的相似度,来计算所述第一实体和所述第二实体以由所述关系标识符指定的方式相关联的概率。
9.根据权利要求1所述的方法,包括提供链接创建机制的描述的集合,其中所述集合中的每个描述包括与所描述的链接创建机制的性能有关的信息,并且其中所述链接创建机制另外基于所述链接创建机制的描述被选择。
10.根据权利要求9所述的方法,其中选择链接创建机构包括:
对于每个描述,将该描述中的项目与所接收的信息中的项目进行匹配;以及
选择与具有最高数量的匹配项目的描述相关联的链接创建机制。
11.根据权利要求9所述的方法,其中每个描述包括与所描述的链接创建机制的复杂度和/或阈值有关的信息,并且其中选择链接创建机制包括:选择相比于所述集合中的另一链接创建机制而具有相对较低的复杂度和/或相对较高的阈值的链接创建机制。
12.根据权利要求1所述的方法,包括:接收与将在所述第一数据集和所述第二数据集之间创建的第二链接有关的第二信息,其中所述链接创建机制基于所接收的信息和所接收的第二信息来选择。
13.根据权利要求1所述的方法,包括:
检测与被添加到所述第一模型和所述第二模型中的等价关系中所涉及的实体有关的变更;以及
响应于检测到与等价关系中所涉及的实体有关的变更,对所述第一模型和所述第二模型中的所述等价关系进行更新。
14.根据权利要求13所述的方法,其中检测变更包括创建监视过程,以检测与被添加到所述第一模型和所述第二模型中的等价关系中所涉及的实体有关的变更。
15.一种装置,包括:
处理器;以及
存储器,耦接到所述处理器,所述存储器包含链接创建过程的集合,所述集合中的每个链接创建过程用于创建第一数据集和第二数据集之间的链接,
其中所述处理器用以:
接收与将在由第一模型表示的第一数据集和由第二模型表示的第二数据集之间创建的链接有关的信息;
基于所接收的信息,从所述链接创建过程的集合中选择链接创建过程;
通过运行所选择的链接创建过程来确定所述第一数据集和所述第二数据集中的实体或实体属性之间的等价性;
基于所确定的等价性来向所述第一模型添加等价关系;以及
基于所确定的等价性来向所述第二模型添加等价关系。
CN201580081319.4A 2015-05-28 2015-05-28 链接数据集 Pending CN107851098A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2015/061892 WO2016188587A1 (en) 2015-05-28 2015-05-28 Linking datasets

Publications (1)

Publication Number Publication Date
CN107851098A true CN107851098A (zh) 2018-03-27

Family

ID=53274536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580081319.4A Pending CN107851098A (zh) 2015-05-28 2015-05-28 链接数据集

Country Status (4)

Country Link
US (1) US20180150486A1 (zh)
EP (1) EP3289481A1 (zh)
CN (1) CN107851098A (zh)
WO (1) WO2016188587A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023103311A1 (zh) * 2021-12-09 2023-06-15 紫藤知识产权运营(深圳)有限公司 数据连接与呈现方法、装置、系统及储存介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10866994B2 (en) * 2015-06-23 2020-12-15 Splunk Inc. Systems and methods for instant crawling, curation of data sources, and enabling ad-hoc search
US11042591B2 (en) 2015-06-23 2021-06-22 Splunk Inc. Analytical search engine
CN109937417A (zh) * 2016-08-09 2019-06-25 瑞普科德公司 用于电子记录的上下文检索的系统和方法
CN109523027B (zh) * 2018-10-22 2021-01-05 新智数字科技有限公司 一种基于贝叶斯网络的锅炉运行数据监测方法和装置
US11275770B2 (en) 2019-04-05 2022-03-15 Intfrnational Business Machines Corporation Parallelization of node's fault tolerent record linkage using smart indexing and hierarchical clustering

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166338A (ja) * 1997-08-22 1999-03-09 Sanyo Electric Co Ltd 画像リンク方法、画像表示方法、画像表示装置およびコンピュータ読取可能記録媒体
CN101068498A (zh) * 2004-10-04 2007-11-07 旗帜健康公司 链接来自多模态数据集的图案的方法
CN101506809A (zh) * 2006-07-07 2009-08-12 霍尼韦尔国际公司 链接独立开发的内容部分
US20100223276A1 (en) * 2007-03-27 2010-09-02 Faleh Jassem Al-Shameri Automated Generation of Metadata for Mining Image and Text Data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912842B1 (en) * 2003-02-04 2011-03-22 Lexisnexis Risk Data Management Inc. Method and system for processing and linking data records

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1166338A (ja) * 1997-08-22 1999-03-09 Sanyo Electric Co Ltd 画像リンク方法、画像表示方法、画像表示装置およびコンピュータ読取可能記録媒体
CN101068498A (zh) * 2004-10-04 2007-11-07 旗帜健康公司 链接来自多模态数据集的图案的方法
CN101506809A (zh) * 2006-07-07 2009-08-12 霍尼韦尔国际公司 链接独立开发的内容部分
US20100223276A1 (en) * 2007-03-27 2010-09-02 Faleh Jassem Al-Shameri Automated Generation of Metadata for Mining Image and Text Data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
游毅 成全: "基于关联数据的科研数据资源共享", 《情报杂志》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023103311A1 (zh) * 2021-12-09 2023-06-15 紫藤知识产权运营(深圳)有限公司 数据连接与呈现方法、装置、系统及储存介质

Also Published As

Publication number Publication date
US20180150486A1 (en) 2018-05-31
EP3289481A1 (en) 2018-03-07
WO2016188587A1 (en) 2016-12-01

Similar Documents

Publication Publication Date Title
US11860920B2 (en) System and method for providing technology assisted data review with optimizing features
CN107851098A (zh) 链接数据集
US10475045B2 (en) Database management methods, systems, and devices for identifying related customer support tickets
EP2973039B1 (en) Apparatus, systems, and methods for grouping data records
US8510338B2 (en) Indexing information about entities with respect to hierarchies
US9355152B2 (en) Non-exclusionary search within in-memory databases
US20080243885A1 (en) Method and System for Managing Entities
CN103688260B (zh) 在实体解析系统中搜索实体的方法、计算机系统和装置
US20180067987A1 (en) Database capable of integrated query processing and data processing method thereof
US20170220589A1 (en) Item recommendation method, device, and system
CN108776678B (zh) 基于移动端NoSQL数据库的索引创建方法及装置
US20210334292A1 (en) System and method for reconciliation of data in multiple systems using permutation matching
US20200226160A1 (en) Database for unstructured data
CN110737779A (zh) 知识图谱的构建方法、装置、存储介质和电子设备
US20180336235A1 (en) Reconciled data storage system
CN115470355A (zh) 轨道交通信息查询方法、装置、电子设备和存储介质
Carman et al. Learning semantic definitions of online information sources
Matuszka et al. Geodint: towards semantic web-based geographic data integration
Ba et al. Integration of web sources under uncertainty and dependencies using probabilistic XML
US20220398237A1 (en) Data retrieval from hierarchical industrial asset datasets
US20120066249A1 (en) Utilizing hierarchy metadata to improve path selection
Sarma et al. Uncertainty in data integration
US9158862B2 (en) Narrowing comparison results of associative memories
CN107633870A (zh) 数据提取方法及装置、存储介质、电子设备
US20230133407A1 (en) Systems and methods for managing a software repository

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180327