CN115033650A - 一种基于关系数据的数据处理方法及其装置 - Google Patents

一种基于关系数据的数据处理方法及其装置 Download PDF

Info

Publication number
CN115033650A
CN115033650A CN202210648304.3A CN202210648304A CN115033650A CN 115033650 A CN115033650 A CN 115033650A CN 202210648304 A CN202210648304 A CN 202210648304A CN 115033650 A CN115033650 A CN 115033650A
Authority
CN
China
Prior art keywords
data
predicate
constant
template
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210648304.3A
Other languages
English (en)
Inventor
谢珉
王尧舒
樊文飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Computing Sciences
Original Assignee
Shenzhen Institute of Computing Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Computing Sciences filed Critical Shenzhen Institute of Computing Sciences
Priority to CN202210648304.3A priority Critical patent/CN115033650A/zh
Priority to PCT/CN2022/099183 priority patent/WO2023236238A1/zh
Publication of CN115033650A publication Critical patent/CN115033650A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种基于关系数据的数据处理方法及其装置,用于通过数据关系修复缺失数据段的目标数据,并验证修复后的目标数据的有效性,所述方法包括:获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据;依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;依据所述谓词总集进行关联规则挖掘生成候选规则总集;依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。使得在大规模关系数据中进行带常数的规则发现时,不需要枚举所有可能的常数,也能发现有效地带常数的规则,从而大大提高了规则发现的执行效率。

Description

一种基于关系数据的数据处理方法及其装置
技术领域
本申请涉及数据处理领域,特别是一种基于关系数据的数据处理方法及其装置。
背景技术
在大规模的关系数据中进行规则发现是一个费时费力的过程。当规则中允许使用常数时,规则发现的代价更是以指数级别的复杂度上升。
比如,考虑以下一个简单的条件函数依赖(Conditional FunctionalDependency,简称CFD):
地址=“广东省深圳市”->邮编=“518000”
这个CFD描述的场景是,如果一个地址属性是在广东省深圳市的话,那么它对应的邮编属性一定是518000。这种规则可被广泛地运用于关系数据中的查错和纠错。具体来说,当关系数据中存储的数据违反了这个规则(即一个地址属性是在广东省深圳市,但是它的邮编属性不是518000),那么可以得知数据中存在错误,可以进一步地进行数据纠正。在这个规则中,“广东省深圳市”和“518000”都是常数,地址和邮编是数据的属性名。
如果在大规模数据中进行带常数的规则发现,不仅需要考虑不同的数据属性间的排列组合,还需要考虑每个属性可能匹配的常数。这个枚举过程的代价是非常昂贵的。比如下面几个CFD:
地址=“广东省广州市”->邮编=“510000”
地址=“广东省东莞市”->邮编=“523000”
地址=“广东省佛山市”->邮编=“528010”
这几个CFD描述的场景都是类似的,区别只在于使用了不同的常数。虽然规则的属性(即地址和邮编)都相同,但是匹配的常数不同。如果需要在数据中枚举所有可能匹配的常数,毫无疑问地,会使规则发现的效率大大降低。可能需要几天甚至几周,在一个普通大小的关系数据中进行规则发现。
CFD规则局限的表达能力使其在实际场景中适用性受限。为了能支持常数谓词,CFD规则挖掘需要枚举所有可能属性和常数的组合,因此费时费力。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种基于关系数据的数据处理方法及其装置,包括:
一种基于关系数据的数据处理方法,所述方法用于通过数据关系修复缺失数据段的目标数据,并验证修复后的目标数据的有效性,包括:
获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;
依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;
依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
依据所述谓词总集进行关联规则挖掘生成候选规则总集;
依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。
进一步地,所述获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个的步骤,包括:
获取所述目标数据内的数据属性;
依据所述数据属性确定所述目标数据的所述词义类型,其中,所述词义类型包括有常数和无常数;
筛选所述词义类型为所述有常数对应的所述目标数据,并确定为所述采样数据。
进一步地,所述依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板的步骤,包括:
依据所述采样数据生成模板谓词;
当所述模板谓词在所述目标数据存在有效值时,则确定所述模板谓词为有效谓词;
依据所述有效谓词构建目标模板。
进一步地,所述依据所述有效谓词构建目标模板的步骤,包括:
对所述有效谓词之间进行组合生成排列组合;
对所述排列组合进行筛选确定模板谓词组合;
依据所述模板谓词组合和所述有效谓词构建所述目标模板。
进一步地,所述依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集的步骤,包括:
依据所述常数谓词对所述目标数据进行数据筛选确定非常数谓词数据,其中,所述非常数谓词数据为非常数谓词集合;
依据所述目标模板对所述非常数谓词数据进行常数值补充生成常数谓词数据,其中,所述常数谓词数据为常数谓词集合;
依据所述非常数谓词集合和所述常数谓词集合构建所述谓词总集。
进一步地,所述依据所述谓词总集进行关联规则挖掘生成候选规则集合的步骤,包括:
依据所述谓词总集进行深度优先搜索生成第一候选规则集合;或,
依据所述谓词总集进行广度优先搜索生成第二候选规则集合;
依据所述第一候选规则集合或所述第二候选规则集合生成所述候选规则总集。
进一步地,所述依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据的步骤,包括:
获取所述候选规则总集内的每一个子候选规则;
依据所述目标数据对每一个所述子候选规则验证确定每一个所述子候选规则的有效性;其中,当在所述目标数据存在一子目标数据与当前子候选规则对应时,则确定所述当前子候选规则为有效规则;
获取所述有效规则对应的所述子目标数据,标记所述子目标数据为所述有效数据。
本申请还公开了一种基于关系数据的数据处理装置,所述装置用于通过数据关系修复缺失数据段的目标数据,并验证修复后的目标数据的有效性,包括:
获取模块,用于获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;
第一构建模块,用于依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;
第二构建模块,用于依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
生成模块,用于依据所述谓词总集进行关联规则挖掘生成候选规则总集;
确定模块,用于依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。
本申请还公开了一种设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的一种基于关系数据的数据处理方法的步骤。
本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的一种基于关系数据的数据处理方法的步骤。
本申请具有以下优点:
在本申请的实施例中,通过获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;依据所述谓词总集进行关联规则挖掘生成候选规则总集;依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。通过提出一种数据处理方法对常数进行修复,使得在大规模关系数据中进行带常数的规则发现时,不需要枚举所有可能的常数,也能发现有效地带常数的规则,从而大大提高了规则发现的执行效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图2是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图3是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图4是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图5是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图6是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图7是本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
图8是本申请一实施例提供的一种基于关系数据的数据处理装置的结构框图;
图9是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,与CFD规则不同,本发明利用的规则是实体增强规则(EntityEnhancing Rules,下述简称REE)。REE的基本组成部分是谓词p,定义如下:
p:=R(t)|t.A◎c|t.A◎s.B|M(t.A,s.B)
其中,◎是一个操作符,可以是等于或不等于。
R(t)表示t是关系表R中的一个元组变量。
t.A表示变量t的A属性;M是一个机器学习模型,如果t.A和s.B是相关的,那么机器学习模型将返回true(正确),否则返回false(错误)。
t.A◎c带有常数,被称为常数谓词。
t.A◎s.B不带有常数,被称为变量谓词。
M(t.A,s.B)被称为机器学习谓词。
基于谓词,REE的定义为:X->e;其中,(1)X是多个谓词的结合,被称为这个REE的条件;(2)e是一个谓词,被称为这个REE的结果。
一个具体的REE实例如下:
快递(t)∧快递(s)∧t.收件人=s.收件人∧t.地址=“广东省深圳市”->s.邮编=“510000”
这个REE描述的场景是,如果快递t和快递s的收件人为同一人,且t的地址在“广东省深圳市”,那么s的邮编一定是“510000”。
可以通过深度优先或者广度优先的搜索方式,在关系数据中发现REE规则。
与REE规则最相关的是上述的CFD规则;CFD规则支持只有一个元组变量的常数谓词和变量谓词,可以看成是REE规则的一种特殊情况。
基于CFD的规则挖掘算法同样利用广度优先或深度优先的搜索方式进行规则挖掘。
本发明的总体技术方案分为两个步骤:模板挖掘和常数修复。为了提高挖掘效率,从全数据D中抽取一部分数据出来组成采样数据Ds。在采样数据Ds上进行模板挖掘,而在全数据D上进行常数修复。模板挖掘在先,常数修复在后,先进行模板挖掘,基于挖掘出的模板,再进行常数修复。
参照图1,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
一种基于关系数据的数据处理方法,所述方法用于通过数据关系修复缺失数据段的目标数据,并验证修复后的目标数据的有效性,所述方法包括:
S110、获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;
S120、依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;
S130、依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
S140、依据所述谓词总集进行关联规则挖掘生成候选规则总集;
S150、依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。
在本申请的实施例中,通过获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;依据所述谓词总集进行关联规则挖掘生成候选规则总集;依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。通过提出一种数据处理方法对常数进行修复,使得在大规模关系数据中进行带常数的规则发现时,不需要枚举所有可能的常数,也能发现有效地带常数的规则,从而大大提高了规则发现的执行效率。
下面,将对本示例性实施例中一种基于强化学习的谓词组合规则挖掘方法作进一步地说明。
如所述步骤S110所述,获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个”的具体过程。
参照图2,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
如下列步骤所述,
S210、获取所述目标数据内的数据属性;
S220、依据所述数据属性确定所述目标数据的所述词义类型,其中,所述词义类型包括有常数和无常数;
S230、筛选所述词义类型为所述有常数对应的所述目标数据,并确定为所述采样数据。
需要说明的是,获取所述目标数据内的数据属性;通过不同的目标数据都有与之一一对应的数据属性。
需要说明的是,依据所述数据属性确定所述目标数据的所述词义类型,其中,所述词义类型包括有常数和无常数;通过数据属性确定目标数据的词义类型;词义类型括有常数和无常数。
需要说明的是,筛选所述词义类型为所述有常数对应的所述目标数据,并确定为所述采样数据;通过筛选词义类型为常数的目标数据,并标记这些目标数据为采样数据。
如所述步骤S120所述,依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板”的具体过程。
参照图3,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
如下列步骤所述,
S310、依据所述采样数据生成模板谓词;
S320、当所述模板谓词在所述目标数据存在有效值时,则确定所述模板谓词为有效谓词;
S330、依据所述有效谓词构建目标模板。
需要说明的是,依据所述采样数据生成模板谓词;其中依据采样数据的数据属性能够组成谓词;依据数据属性生成若干个谓词;通过数据属性的生成谓词的初始状态为无效谓词,需要通过其对应的常数值,决定其是否为模板谓词。
需要说明的是,当对模板谓词进行验证时,只要目标数据中至少有一个子数据在模板谓词的数据属性上存在有效值,那么该谓词就作为有效谓词,进而通过该有效谓词组成模板REE即目标模板。
在一具体实现中,模板REE即目标模板就是将REE中所有常数都用通配符“_”表示的REE规则。
需要说明的是,通配符能与任何和常数值进行匹配。
在一具体实现中,样例REE对应的模板REE如下所示:
快递(t)∧快递(s)∧t.收件人=s.收件人∧t.地址=“_”->s.邮编=“_”。
模板REE的好处是,如果一个或者多个REE规则只在常数谓词的常数上有所不同,可以用同一个模板REE对其进行表示。
多个CFD都可表示为:
快递(t)∧t.地址=“_”->t.邮编=“_”
为了区分同一个模板REE下的多个REE规则,每个REE规则会在模板REE的基础上附加一个模式元组(pattern tuple),用于常数的赋值;
比如CFD地址=“广东省广州市”->邮编=“510000”的模式元组为(“广东省广州市”,“510000”)。
多个模式元组就组成了REE的模式表格(pattern tableau)形式,如表1所示:
Figure BDA0003686832370000091
表1
作为一种示例,对于仅在同一个属性上常数值有所不同的的常数谓词。
在一具体实现中,如t.地址=“广东省深圳市”,t.地址=“广东省广州市”和t.地址=“广东省东莞市”,仅枚举一个模板谓词(template predicate),即t.地址=“_”。
如所述步骤S330所述,依据所述有效谓词构建目标模板;
在本发明一实施例中,可以结合下列描述进一步说明步骤S330所述“依据所述有效谓词构建目标模板”的具体过程。
参照图4,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
如下列步骤所述,
S410、对所述有效谓词之间进行组合生成排列组合;
S420、对所述排列组合进行筛选确定模板谓词组合;
S430、依据所述模板谓词组合和所述有效谓词构建所述目标模板。
需要说明的是,对所述有效谓词之间进行组合生成排列组合,;将若干个有效谓词进行排列生成排列组合;若干个有效谓词之间组合构成排列组合。
需要说明的是,对所述排列组合进行筛选确定模板谓词组合;与其枚举所有的排列组合,通过利用事务数据库中的自由项目集(free itemset)的概念,对排列组合进行初筛,从而确定模板谓词组合。
作为一种示例,与其枚举所有的模板谓词之间的排列组合,通过利用事务数据库中的自由项目集(free itemset)的概念,对所有的模板谓词之间的排列组合进行初筛;只有通过筛选的模板谓词组合,才会组成有效的模板REE即目标模板。
在一具体实现中,比如模板谓词是t.地址=“_”时,采样数据中存在一个快递数据,且地址不是空值(空值就是什么数据都没有),那么这个采样数据就是在这个模板谓词的数据属性上存在有效值。
需要说明的是,对于模板REE即目标模板而言,只要有至少一组数据的数据属性能满足该模板REE即目标模板,那么这个规则就会作为有效规则候选参与后续的规则验证。比如快递(t)∧t.地址=“_”->t.邮编=“_”,数据中存在一个快递数据,且地址和邮编都不是空值,那么这个数据的数据属性能满足该模板REE即目标模板。
如所述步骤S130所述,依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
在本发明一实施例中,可以结合下列描述进一步说明步骤S130所述“依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集”的具体过程。
参照图5,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
如下列步骤所述,
S510、依据所述常数谓词对所述目标数据进行数据筛选确定非常数谓词数据,其中,所述非常数谓词数据为非常数谓词集合;
S520、依据所述目标模板对所述非常数谓词数据进行常数值补充生成常数谓词数据,其中,所述常数谓词数据为常数谓词集合;
S530、依据所述非常数谓词集合和所述常数谓词集合构建所述谓词总集。
需要说明的是,在Ds即采样数据上进行模板REE的挖掘之后,通过利用模板REE在全数据D即目标数据上进行常数修复;其中,常数修复又包括了以下四个主要步骤:(1)用非常数谓词确认枚举范围;(2)利用模板进行常数补充;(3)候选规则生成;(4)规则验证。
需要说明的是,依据所述常数谓词对所述目标数据进行数据筛选确定非常数谓词数据,其中,所述非常数谓词数据为非常数谓词集合;通过常数谓词将目标数据内为常数谓词数据进行筛除,从而得到不是常数谓词数据的目标数据,将不是常数谓词数据的目标数据认定为非常数谓词数据。
需要说明的是,对于筛选出来的非常数谓词数据,根据模板REE即目标模板中的模板谓词进行常数补充,其中,每一个模板谓词都进行常数补充,从而构建出可以进行枚举的常数谓词数据。
作为一种示例,比如对于模板谓词t.地址=“_”,我们找到数据中所有的地址属性值,填充到通配符“_”的位置组成常数谓词数据。
需要说明的是,基于常数谓词集合和非常数谓词集合,能构成一个谓词总集,谓词总集包括了前面得到的所有非常数谓词和所有常数谓词。
作为一种示例,给定一模板REE即目标模板,通过模板REE中的常数谓词对全数据D即目标数据中的子数据进行筛选,只有满足为非常数谓词的子数据,才会参与到下一步的常数补充中,即只有非常数谓词数据才会参与到下一步的常数补充;这样的做法避免了在全数据D中进行代价昂贵的常数补充,在保证完备性的前提下,大大提升了算法的执行效率。
如所述步骤S140所述,依据所述谓词总集进行关联规则挖掘生成候选规则集合;
在本发明一实施例中,可以结合下列描述进一步说明步骤S140所述“依据所述谓词总集进行关联规则挖掘生成候选规则集合”的具体过程。
参照图6,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
如下列步骤所述,
S610、依据所述谓词总集进行深度优先搜索生成第一候选规则集合;或,S620、依据所述谓词总集进行广度优先搜索生成第二候选规则集合;
S630、依据所述第一候选规则集合或所述第二候选规则集合生成所述候选规则总集。
需要说明的是,依据所述谓词总集进行深度优先搜索或广度优先搜索得到若干个候选规则,若干个候选规则从而生成候选规则总集。
作为一种示例,对谓词总集重新进行模板REE即目标模板基于深度优先或者广度优先的规则挖掘,获得候选规则。
如所述步骤S150所述,依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据;
在本发明一实施例中,可以结合下列描述进一步说明步骤S150所述“依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据”的具体过程。
参照图7,示出了本申请一实施例提供的一种基于关系数据的数据处理方法的步骤流程图;
如下列步骤所述,
S710、获取所述候选规则总集内的每一个子候选规则;
S720、依据所述目标数据对每一个所述子候选规则验证确定每一个所述子候选规则的有效性;其中,当在所述目标数据存在一子目标数据与当前子候选规则对应时,则确定所述当前子候选规则为有效规则;
S730、获取所述有效规则对应的所述子目标数据,标记所述子目标数据为所述有效数据。
需要说明的是,依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据;对于候选规则需要通过全数据D即目标数据确定其是否为有效规则。
作为一种示例,对于每一个候选规则,在全数据D即目标数据上验证该候选规则的有效性;当在目标数据存在一子目标数据与当前子候选规则对应时,那么该候选规则就是有效的。
在一具体实现中,比如,如果候选规则是快递(t)∧快递(s)∧t.收件人=s.收件人∧t.地址=“广东省深圳市”->s.邮编=“510000”。如果数据中,存在快递t和快递s的收件人为同一人,且快递t的地址在“广东省深圳市”,那么快递s的邮编一定是“510000”,那么快递t和快递s对应的数据就满足了候选规则,该候选规就认定为有效;有效的规则将组成最终结果输出。
本发明的技术效果:
在CFD中没有类似模板的概念,因此,需要枚举全数据上的所有常数,生成有效的带常数的CFD规则。相反,通过利用模板REE的定义,首先从全局数据中,抽取了一个小型采样数据Ds进行模板的挖掘。由于数据量小,这个过程与CFD在全局数据上进行常数枚举的方法相比是非常快的。其次,利用挖掘出来的模板REE,不需要在全数据D中进行代价昂贵的常数枚举。相反,我们只需要枚举可能组成有效规则的常数。对于不可能组成有效规则的常数,会在枚举前的范围确认中被排除,避免可能导致的多余和无效运算
我们在多个公开数据中对比了三种规则挖掘方法的准确度和挖掘效率,包括:(1)本发明中在Ds进行模板挖掘之后在D进行常数修复的规则挖掘方法;(2)直接在Ds上进行规则挖掘的方法;以及(3)直接在D上进行规则挖掘的方法。
通过与上述方法(2)的对比,本发明的挖掘方法提升了2%的规则召回率;在进行了常数修复之后,挖掘出来的规则更加准确。
通过与方法(3)的对比,本发明平均能够提升12.2倍的运行效率。在有3个关系表,18个属性,180万条数据的大型DBLP数据集上,本发明的运行时间为406秒,而方法(3)的运行时间为2096秒;换言之,挖掘效率更高。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图8,示出了本申请一实施例提供的一种基于关系数据的数据处理装置的结构框图;
所述装置用于关系数据中常数的规则挖掘以及修复,所述关系数据包括全数据和所述全数据中的采样数据,具体包括:
获取模块810,用于获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;
第一构建模块820,用于依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;
第二构建模块830,用于依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
生成模块840,用于依据所述谓词总集进行关联规则挖掘生成候选规则总集;
确定模块850,用于依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。
在本发明一实施例中,所述获取模块810,包括:
第一获取子模块,用于获取所述目标数据内的数据属性;
第一确定子模块,用于依据所述数据属性确定所述目标数据的所述词义类型,其中,所述词义类型包括有常数和无常数;
第二确定子模块,用于筛选所述词义类型为所述有常数对应的所述目标数据,并确定为所述采样数据。
在本发明一实施例中,所述第一构建模块820,包括:
第一生成子模块,用于依据所述采样数据生成模板谓词;
第三确定子模块,用于当所述模板谓词在所述目标数据存在有效值时,则确定所述模板谓词为有效谓词;
第一构建子模块,用于依据所述有效谓词构建目标模板。
在本发明一实施例中,所述第一构建子模块,包括:
第一生成单元,用于对所述有效谓词之间进行组合生成排列组合;
第一确定单元,用于对所述排列组合进行筛选确定模板谓词组合;
第一构建单元,用于依据所述模板谓词组合和所述有效谓词构建所述目标模板。
在本发明一实施例中,所述第二构建模块830,包括:
第一筛选子模块,用于依据所述常数谓词对所述目标数据进行数据筛选确定非常数谓词数据,其中,所述非常数谓词数据为非常数谓词集合;
第二生成子模块,用于依据所述目标模板对所述非常数谓词数据进行常数值补充生成常数谓词数据,其中,所述常数谓词数据为常数谓词集合;
第二构建子模块,用于依据所述非常数谓词集合和所述常数谓词集合构建所述谓词总集。
在本发明一实施例中,所述生成模块840,包括:
第三生成子模块,用于依据所述谓词总集进行深度优先搜索生成第一候选规则集合;或,
第四生成子模块,用于依据所述谓词总集进行广度优先搜索生成第二候选规则集合;
第五生成子模块,用于依据所述第一候选规则集合或所述第二候选规则集合生成所述候选规则总集。
在本发明一实施例中,所述确定模块850,包括:
第二获取子模块,用于获取所述候选规则总集内的每一个子候选规则;
第四确定子模块,用于依据所述目标数据对每一个所述子候选规则验证确定每一个所述子候选规则的有效性;其中,当在所述目标数据存在一子目标数据与当前子候选规则对应时,则确定所述当前子候选规则为有效规则;
第三获取子模块,用于获取所述有效规则对应的所述子目标数据,标记所述子目标数据为所述有效数据。
参照图9,示出了本发明的一种基于关系数据的数据处理方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线18结构中的一种或多种,包括存储器总线18或者存储器控制器,外围总线18,图形加速端口,处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线18,微通道体系结构(MAC)总线18,增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图9中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种基于关系数据的数据处理方法。
也即,上述处理单元16执行上述程序时实现:获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;依据所述谓词总集进行关联规则挖掘生成候选规则总集;依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。通过提出一种数据处理方法对常数进行修复。
在本发明实施例中,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种基于关系数据的数据处理方法:
也即,给程序被处理器执行时实现:获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;依据所述谓词总集进行关联规则挖掘生成候选规则总集;依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。通过提出一种数据处理方法对常数进行修复。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种基于关系数据的数据处理方法及其装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于关系数据的数据处理方法,所述方法用于通过数据关系修复缺失数据段的目标数据,并验证修复后的目标数据的有效性,其特征在于,包括:
获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;
依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;
依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
依据所述谓词总集进行关联规则挖掘生成候选规则总集;
依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。
2.根据权利要求1所述的方法,其特征在于,所述获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个的步骤,包括:
获取所述目标数据内的数据属性;
依据所述数据属性确定所述目标数据的所述词义类型,其中,所述词义类型包括有常数和无常数;
筛选所述词义类型为所述有常数对应的所述目标数据,并确定为所述采样数据。
3.根据权利要求1所述的方法,其特征在于,所述依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板的步骤,包括:
依据所述采样数据生成模板谓词;
当所述模板谓词在所述目标数据存在有效值时,则确定所述模板谓词为有效谓词;
依据所述有效谓词构建目标模板。
4.根据权利要求3所述的方法,其特征在于,所述依据所述有效谓词构建目标模板的步骤,包括:
对所述有效谓词之间进行组合生成排列组合;
对所述排列组合进行筛选确定模板谓词组合;
依据所述模板谓词组合和所述有效谓词构建所述目标模板。
5.根据权利要求1所述的方法,其特征在于,所述依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集的步骤,包括:
依据所述常数谓词对所述目标数据进行数据筛选确定非常数谓词数据,其中,所述非常数谓词数据为非常数谓词集合;
依据所述目标模板对所述非常数谓词数据进行常数值补充生成常数谓词数据,其中,所述常数谓词数据为常数谓词集合;
依据所述非常数谓词集合和所述常数谓词集合构建所述谓词总集。
6.根据权利要求1所述的方法,其特征在于,所述依据所述谓词总集进行关联规则挖掘生成候选规则集合的步骤,包括:
依据所述谓词总集进行深度优先搜索生成第一候选规则集合;或,
依据所述谓词总集进行广度优先搜索生成第二候选规则集合;
依据所述第一候选规则集合或所述第二候选规则集合生成所述候选规则总集。
7.根据权利要求1所述的方法,其特征在于,所述依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据的步骤,包括:
获取所述候选规则总集内的每一个子候选规则;
依据所述目标数据对每一个所述子候选规则验证确定每一个所述子候选规则的有效性;其中,当在所述目标数据存在一子目标数据与当前子候选规则对应时,则确定所述当前子候选规则为有效规则;
获取所述有效规则对应的所述子目标数据,标记所述子目标数据为所述有效数据。
8.一种基于关系数据的数据处理装置,所述装置用于通过数据关系修复缺失数据段的目标数据,并验证修复后的目标数据的有效性,其特征在于,包括:
获取模块,用于获取目标数据,并依据所述目标数据的词义进行数据筛选确定采样数据,其中,所述采样数据为常数谓词,且至少包括一个;
第一构建模块,用于依据所述采样数据生成模板谓词,并依据所述模板谓词构建目标模板;
第二构建模块,用于依据所述常数谓词对所述目标数据进行数据筛选构建谓词总集;
生成模块,用于依据所述谓词总集进行关联规则挖掘生成候选规则总集;
确定模块,用于依据所述目标数据确定所述候选规则总集内的有效规则,并依据所述有效规则确定有效数据。
9.一种计算机设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202210648304.3A 2022-06-09 2022-06-09 一种基于关系数据的数据处理方法及其装置 Pending CN115033650A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210648304.3A CN115033650A (zh) 2022-06-09 2022-06-09 一种基于关系数据的数据处理方法及其装置
PCT/CN2022/099183 WO2023236238A1 (zh) 2022-06-09 2022-06-16 一种基于关系数据的数据处理方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210648304.3A CN115033650A (zh) 2022-06-09 2022-06-09 一种基于关系数据的数据处理方法及其装置

Publications (1)

Publication Number Publication Date
CN115033650A true CN115033650A (zh) 2022-09-09

Family

ID=83122974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210648304.3A Pending CN115033650A (zh) 2022-06-09 2022-06-09 一种基于关系数据的数据处理方法及其装置

Country Status (2)

Country Link
CN (1) CN115033650A (zh)
WO (1) WO2023236238A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610725A (zh) * 2023-05-18 2023-08-18 深圳计算科学研究院 一种应用于大数据的实体增强规则挖掘方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500208B (zh) * 2013-09-30 2016-08-17 中国科学院自动化研究所 结合知识库的深层数据处理方法和系统
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
US9996607B2 (en) * 2014-10-31 2018-06-12 International Business Machines Corporation Entity resolution between datasets
CN108804473B (zh) * 2017-05-04 2022-02-11 华为技术有限公司 数据查询的方法、装置和数据库系统
WO2018208813A1 (en) * 2017-05-09 2018-11-15 Sri International Deep adaptive semantic logic network

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610725A (zh) * 2023-05-18 2023-08-18 深圳计算科学研究院 一种应用于大数据的实体增强规则挖掘方法及装置
CN116610725B (zh) * 2023-05-18 2024-03-12 深圳计算科学研究院 一种应用于大数据的实体增强规则挖掘方法及装置

Also Published As

Publication number Publication date
WO2023236238A1 (zh) 2023-12-14

Similar Documents

Publication Publication Date Title
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
CN113946690A (zh) 潜在客户挖掘方法、装置、电子设备及存储介质
US10339035B2 (en) Test DB data generation apparatus
CN111768096A (zh) 基于算法模型的评级方法、装置、电子设备及存储介质
CN112184304A (zh) 一种辅助决策的方法、系统、服务器和存储介质
CN110826911B (zh) 基于大数据的决策方法、设备及介质
CN115033650A (zh) 一种基于关系数据的数据处理方法及其装置
CN113743080A (zh) 一种分层级地址文本相似度比对方法、装置及介质
CN113792138B (zh) 报表生成方法、装置、电子设备及存储介质
CN115033616A (zh) 一种基于多轮采样的数据筛查规则验证方法及其装置
CN111738290B (zh) 图像检测方法、模型构建和训练方法、装置、设备和介质
CN112101024B (zh) 基于app信息的目标对象识别系统
CN117994021A (zh) 一种资产核销方式的辅助配置方法、装置、设备及介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN111680083A (zh) 智能化多级政府财政数据采集系统及数据采集方法
CN115809228A (zh) 数据比对方法、装置、存储介质及电子设备
CN115114297A (zh) 数据轻量存储及查找方法、装置、电子设备及存储介质
CN112162922A (zh) 一种新旧系统差异性确定方法、装置、服务器和存储介质
CN113869455A (zh) 无监督聚类方法、装置、电子设备及介质
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN113419951A (zh) 人工智能模型优化方法、装置、电子设备及存储介质
CN112700322B (zh) 订单抽样检测方法、装置、电子设备和存储介质
CN112364630B (zh) 证照内容纠错方法、装置及系统
CN112380820A (zh) 数据自动回填方法、装置、电子设备及计算机存储介质
CN111859985A (zh) Ai客服模型测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination