CN108416056B

CN108416056B - 基于条件包含依赖的相关性学习方法、装置、设备及介质

Info

Publication number: CN108416056B
Application number: CN201810232906.4A
Authority: CN
Inventors: 王宏志; 赵志强
Original assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Current assignee: Hit Big Data Harbin Intelligent Technology Co ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2020-12-04
Anticipated expiration: 2038-03-21
Also published as: CN108416056A

Abstract

本发明实施例提供了一种基于条件包含依赖的相关性学习方法、装置、设备及介质，既实现了使该方法具有对于不同关系模式的独立性，又具有在数据实例层次上进行数据清洗的性能，提高了数据质量。所述方法包括：在关系数据库的关系模式中添加带条件函数的包含依赖；获得与所述带条件函数的包含依赖相关的原子子句；检测所述原子子句中的符号是否满足所述带条件函数的包含依赖；去除所述原子子句中不满足所述带条件函数的包含依赖的符号，以获得新子句；去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止。

Description

基于条件包含依赖的相关性学习方法、装置、设备及介质

技术领域

本发明涉及数据库技术领域，尤其涉及一种基于条件包含依赖的相关性学习方法、装置、设备及介质。

背景技术

在对关系数据库进行分析的过程中，常常会由于对于关系数据库描述的关系模式上选择的不同，而导致关系数据库的特性(例如：数据质量、数据可用性、数据效率等)的不同。而对于各类实际任务，经常需要对多个关系数据库之间已有的关系进行学习，进而得到新的关系。当前广泛应用的关系学习算法都不具有对于关系模式的独立性，这对实际应用中的效率和性能产生了较大的影响。

为了改变这种现状，相关技术提出了一种新的关系学习算法，该方法强调了对于包含依赖的使用，因而具有针对不同关系模式的独立性，但是包含依赖只涉及关系模式层次的信息，而不能针对数据实例层次的数据质量问题进行数据清洗，例如：约束中包含了不能通过传统的包含依赖表达的特定数据，而导致不能检测出某些数据上的错误等，这对于数据质量的保证产生了一定的隐患。

发明内容

本发明实施例提供了一种基于条件包含依赖的相关性学习方法、装置、设备及介质，既实现了使该方法具有对于不同关系模式的独立性，又具有在数据实例层次上进行数据清洗的性能，提高了数据质量。

第一方面，本发明实施例提供了一种基于条件包含依赖的相关性学习方法，所述方法包括：

在关系数据库的关系模式中添加带条件函数的包含依赖；

获得与所述带条件函数的包含依赖相关的原子子句；

检测所述原子子句中的符号是否满足所述带条件函数的包含依赖；

去除所述原子子句中不满足所述带条件函数的包含依赖的符号，以获得新子句；

去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止。

可选地，检测所述原子子句中的符号是否满足所述带条件函数的包含依赖，包括：

去除所述原子子句中的多余的符号，其中，若所述原子子句中一个符号去除前后的两个子句相互包含，则该符号为多余的符号；

检测去除多余的符号后的原子子句中的符号是否满足所述带条件函数的包含依赖。

可选地，去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止，包括：

按序排列出所述新子句中所有的实例；

按序去除非必须实例，直到所述新子句中的实例的数量不发生改变为止。

可选地，所述方法还包括：

通过绑定关系属性和与所述关系属性的语义相关的数据实例，将在数据层次上的约束确定为所述带条件函数的包含依赖。

第二方面，本发明实施例提供了一种基于条件包含依赖的相关性学习装置，所述装置包括：

添加模块，被配置为在关系数据库的关系模式中添加带条件函数的包含依赖；

获得模块，被配置为获得与所述带条件函数的包含依赖相关的原子子句；

检测模块，被配置为检测所述原子子句中的符号是否满足所述带条件函数的包含依赖；

符号去除模块，被配置为去除所述原子子句中不满足所述带条件函数的包含依赖的符号，以获得新子句；

实例去除模块，被配置为去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止。

可选地，所述检测模块包括：

第一去除子模块，被配置为去除所述原子子句中的多余的符号，其中，若所述原子子句中一个符号去除前后的两个子句相互包含，则该符号为多余的符号；

检测子模块，被配置为检测去除多余的符号后的原子子句中的符号是否满足所述带条件函数的包含依赖。

可选地，所述实例去除模块包括：

排序子模块，被配置为按序排列出所述新子句中所有的实例；

第二去除子模块，被配置为按序去除非必须实例，直到所述新子句中的实例的数量不发生改变为止。

可选地，所述装置还包括：

确定模块，被配置为通过绑定关系属性和与所述关系属性的语义相关的数据实例，将在数据层次上的约束确定为所述带条件函数的包含依赖。

第三方面，本发明实施例提供了一种执行基于条件包含依赖的相关性学习方法的设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。

本发明实施例提供的基于条件包含依赖的相关性学习方法、装置、设备及介质，将带条件函数的包含依赖应用于相关性学习方法中，与相关技术中的关系学习算法相比，通过执行以下步骤：在关系数据库的关系模式中添加带条件函数的包含依赖；获得与所述带条件函数的包含依赖相关的原子子句；检测所述原子子句中的符号是否满足所述带条件函数的包含依赖；去除所述原子子句中不满足所述带条件函数的包含依赖的符号，以获得新子句；去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止。既实现了使该方法具有对于不同关系模式的独立性，又具有在数据实例层次上进行数据清洗的性能，提高了数据质量。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于条件包含依赖的相关性学习方法的流程图。

图2是本发明实施例提供的基于条件包含依赖的相关性学习装置的流程示意图。

图3是本发明实施例提供的执行基于条件包含依赖的相关性学习方法的设备的示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种基于条件包含依赖的相关性学习方法。图1是本发明实施例提供的基于条件包含依赖的相关性学习方法的流程图，如图1所示，该方法包括以下步骤：

在步骤S11中，在关系数据库的关系模式中添加带条件函数的包含依赖；

在步骤S12中，获得与所述带条件函数的包含依赖相关的原子子句；

在步骤S13中，检测所述原子子句中的符号是否满足所述带条件函数的包含依赖；

在步骤S14中，去除所述原子子句中不满足所述带条件函数的包含依赖的符号，以获得新子句；

在步骤S15中，去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止。

为了使本发明实施例提供的相关性学习方法具有针对不同关系模式的独立性，同时考虑包含依赖在关系的连接属性上具有等价特性且通常可以表现出较为重要且有效的关系，本发明实施例将包含依赖引入对于相关性学习的算法之中，所以本发明利用该特性来进行元组的寻找，以提高方案对于不同模式的独立性。

本发明实施例中，带条件函数的包含依赖是包含依赖的基础上，附带条件函数，该条件函数可以是人为设定的。为描述方便，下文将带条件函数的包含依赖记为CIND。一种确定CIND的方式是：

通过绑定关系属性和与所述关系属性的语义相关的数据实例，将在数据实例层次上的约束确定为所述带条件函数的包含依赖。

本发明实施例采用将带条件函数的包含依赖应用到相关性学习算法中，利用包含依赖在关系的连接属性上具有等价特性且通常可以表现出较为重要且有效的关系，使得相关性学习算法具有模式独立性，同时利用带条件函数的包含依赖中的条件函数对于各种情况下的包含依赖进行分类与精确化，可以利用计算机在数据实例层次上基于包含依赖进行数据清洗和数据分析，从而提升了数据质量，降低了数据错误的可能性。

在一种实施方式中，步骤S13包括以下步骤：

在一种实施方式中，步骤S15包括以下步骤：

按序排列出所述新子句中所有的实例；

本发明实施例在包含依赖的基础上，引入了带条件函数的包含依赖进行相关分析，考虑到在实际应用中，某些约束对于定义、检测数据实例层次上的错误十分有效，但其中却包含了不能通过传统的包含依赖表达的特定数据。而带条件函数的包含依赖通过绑定关系属性和与其语义相关的数据实例，可以定义在数据实例层次上的约束，因此可以进行较为深入彻底的数据清洗。在清洗的过程中，数据的错误或不一致的特性可通过对于约束的破坏的形式被展现出来，从而可在自主设定的条件函数的指导下进行数据的清洗。因此，带条件函数的包含依赖通过设定条件函数，将依赖层级和数据实例层级相联系，可以完成对于数据实例层级上的数据清洗。

相比于目前在实际应用中的数据清洗工作仍然大量由人工或底层的应用程序完成，引入带条件函数的包含依赖之后，通过设定条件函数，在将数据实例层级引入分析过程中的基础上，综合应用一致性检测与求解极小覆盖等技术，则可以实现对于数据不一致性的自动检测，减少在数据清洗过程中的人工干预带来的影响，提高数据清洗的速度和效果，提高数据质量。

本发明实施例通过在迭代操作中引入基于条件包含依赖的相关性学习方法，完成相关性学习，该学习方法包括：对bottom-clause结构的泛化过程、对bottom-clause结构的最小化过程、对ARMG算法的结果的定向搜索过程以及最终的选择过程。其中，bottom-clause结构以及ARMG算法是现有技术，在此就不再赘述。在一种实施方式中，本发明实施例提供的方法包括以下步骤：

第一步：在关系模式中添加条件函数，以构成带条件函数的包含依赖。

第二步：在首次迭代中，选择一个正例，并选择一个关系并且将该关系中的一个或多个符号加入原子子句之中。

第三步：将该关系模式中的关系标志(第一种关系标志)分解为其他关系模式中的多个关系标志(第二种关系标志)，并同时在数据实例中检测这两种关系标志，从而确认生成的原子子句对不同的关系模式均为等价的。

第四步：对于生成的原子子句，检测当提取出其中的各个符号之后，两者是否等价，并在等价时提取出原子子句中多余的符号，从而减少为原子子句预留的存储空间的大小，同时提高平均检测时间。

第五步：选取一个较大的常数(例如：生成的原子子句中最多的原子子句的数量)，并随机选择一个正例，检测所有在原子子句之中存留的符号，以查找一些带有参与到CIND之中的关系标志的符号。该检测遍历所有的符号以及所有的CIND，从而将所有的不参与CIND的符号剔除掉，获得新子句。目的为使得关系数据库中的数据实例总是满足关系模式中的CIND。

第六步：对于获得的新子句，按序排列出其中的所有的实例。然后在每次迭代时，按序移除非必须实例，该迭代过程在新子句中的实例的数量不发生改变时停止。此时的子句带有与原始的子句相同的首符号，并且包含所有的剩余实例中的符号，在达到减少反例的同时对于正例的数量不产生变化。

下面举例说明本发明实施例提供的基于条件包含依赖的相关性学习方法。以UW-CSE数据库为例，在原始模式和4NF模式下的advisedBy(stud,prof)关系模式的定义如下表所示：

考虑到该表中original模式中有数据元组：s1:student(Abe),s2:inPhase(Abe,prelim),s3:year(Abe,2)。引入带条件函数的包含依赖：

student[stud]＝inPhase[stud],student[stud]＝yearsInProgram[stud]

在原子子句中选择tuple s1，当πstud(s1)＝πstud(s2),πstud(s1)＝πstud(s3)时，将s2和s3引入原子子句之中。采用这种方法，得到与带条件函数的包含依赖相关的原子子句。

接下来针对得到的原子子句中的符号，逐个检测去除一个符号后所得的子句(即第一子句)是否与未去除该符号的原原子子句(即第二子句)具有相同的作用效果，即两个子句(即第一子句和第二子句)是否可以互相包含，如果去除前后两个子句可以互相包含，则将该符号去除以达到简化原子子句复杂度的目的。

接下来选取一个较大的常数并将其与当前的原子子句相联系，从而限制原子子句的数量，并随机选取一个正例，当在原子子句中含有一个blocking atom时，将其与的其他不是头相关的atom均去除，从而确保所有的符号均满足带条件函数的包含依赖，因此，该算法具有模式独立性。

假设现有关系：hardWorking(x)<-student(x),inPhase(x,prelim),yearsInProgram(x,3),hardWorking(x)<-student(x,prelim,3)，并假设关系模式中含有如下的包含依赖为：

students[stud]＝inPhase[stud]和student[stud]＝yearsInProgram[stud]。

当希望对应子句具有对满足student(x)却不满足inPhase(x,prelim)的实例的覆盖作用的时候，就在首子句中去除inPhase符号，并移除与student、yearsInProgram两个关系标志相关的符号，此外，同时移除第二个子句中的student(x,prelim,3)，从而保证等效的generalization。

对于此时得到的子句中的每个符号，计算在子句的inclusion class中起始于该符号的实例，从而形成了一个包含所有得到的实例的序列，而这些实例在序列中按照其被得到的顺序被排列。

接下来迭代地将非必须的实例移除该序列，在每个迭代过程之中，如果找到第一个包含实例，使得包含在该包含实例之前所有实例中的符号的副子句拥有和子句相同的负例个数，则将该实例移除，同时将它的head-connecting包含实例从序列的头部移除。而当迭代过程持续到没有包含实例会被移除时，算法结束，并得到一个更为简化的子句，而不会减少其中正例的个数，也不会改变子句的头符号，同时保证子句中包含所有在inclusionclass的剩余实例之中的符号。

本发明实施例将带条件函数的包含依赖应用于相关性学习算法中，可以检测数据元组的各类特性，体现了特定数据间的内在的语义关联。这种方法既保证了设计的相关性学习算法对于不同的关系模式具有独立性，又具有可以在数据实例层次上进行数据清洗的性能，从而提高了数据质量。

考虑到包含依赖在关系的连接属性上具有等价特性且通常可以表现出较为重要且有效的关系，所以本发明实施例利用该特性来进行元组的寻找，以提高方案对于不同关系模式的独立性。此外，由于合成连接的循环特性具有与分解模式中的包含依赖的循环特性相同的特性，采用该方案还可以避免判断循环结构带来的消耗。此外，在每次迭代过程的末尾，检测在bottom-clause结构中独立变量的个数，如果数量少于输入的参数，则继续进行该迭代过程，直至达到该参数，从而可保证horn从句中的独立变量个数是不变的，以确保可以返回等价的bottom-clause结构，因此，该算法具有针对不同关系模式的独立性。另由于在ARMG算法中，要求数据库中实例对应的clause总是满足不同关系模式下的包含依赖关系，从而保证该算法也具有针对不同关系模式下的独立性。

基于同一发明构思，本发明实施例还提供一种基于条件包含依赖的相关性学习装置。图2是本发明实施例提供的基于条件包含依赖的相关性学习装置的示意图。如图2所示，该装置200包括：

添加模块201，被配置为在关系数据库的关系模式中添加带条件函数的包含依赖；

获得模块202，被配置为获得与所述带条件函数的包含依赖相关的原子子句；

检测模块203，被配置为检测所述原子子句中的符号是否满足所述带条件函数的包含依赖；

符号去除模块204，被配置为去除所述原子子句中不满足所述带条件函数的包含依赖的符号，以获得新子句；

实例去除模块205，被配置为去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止。

可选地，所述检测模块包括：

可选地，所述实例去除模块包括：

可选地，所述装置还包括：

本发明实施例提供了一种执行基于条件包含依赖的相关性学习方法的设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中基于条件包含依赖的相关性学习方法。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如上述实施方式中。

结合图1描述的本发明实施例的基于条件包含依赖的相关性学习方法可以由执行基于条件包含依赖的相关性学习方法的设备来实现。图3示出了本发明实施例提供的执行基于条件包含依赖的相关性学习方法的设备的硬件结构示意图。

执行基于条件包含依赖的相关性学习方法的设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在数据处理装置的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种基于条件包含依赖的相关性学习方法。

在一个示例中，执行基于条件包含依赖的相关性学习方法的设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将执行基于条件包含依赖的相关性学习方法的设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，结合上述实施例中的基于条件包含依赖的相关性学习方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于条件包含依赖的相关性学习方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于条件包含依赖的相关性学习方法，其特征在于，所述方法包括：

在关系数据库的关系模式中添加带条件函数的包含依赖；

获得与所述带条件函数的包含依赖相关的原子子句；

去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止；

检测所述原子子句中的符号是否满足所述带条件函数的包含依赖，包括：

2.根据权利要求1所述的方法，其特征在于，去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止，包括：

按序排列出所述新子句中所有的实例；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种基于条件包含依赖的相关性学习装置，其特征在于，所述装置包括：

实例去除模块，被配置为去除所述新子句中的非必须实例，直到所述新子句中的实例的数量不发生改变为止；

所述检测模块包括：

5.根据权利要求4所述的装置，其特征在于，所述实例去除模块包括：

6.根据权利要求4所述的装置，其特征在于，所述装置还包括：

7.一种执行基于条件包含依赖的相关性学习方法的设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-3中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-3中任一项所述的方法。