CN111240988B - 一种面向非等值连接负载的数据生成方法及生成系统 - Google Patents

一种面向非等值连接负载的数据生成方法及生成系统 Download PDF

Info

Publication number
CN111240988B
CN111240988B CN202010053458.9A CN202010053458A CN111240988B CN 111240988 B CN111240988 B CN 111240988B CN 202010053458 A CN202010053458 A CN 202010053458A CN 111240988 B CN111240988 B CN 111240988B
Authority
CN
China
Prior art keywords
data
attribute
generation
generating
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010053458.9A
Other languages
English (en)
Other versions
CN111240988A (zh
Inventor
张蓉
李宇明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010053458.9A priority Critical patent/CN111240988B/zh
Publication of CN111240988A publication Critical patent/CN111240988A/zh
Application granted granted Critical
Publication of CN111240988B publication Critical patent/CN111240988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种面向非等值连接负载的数据生成方法,包括查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。

Description

一种面向非等值连接负载的数据生成方法及生成系统
技术领域
本发明涉及数据生成技术领域,尤其涉及一种面向非等值连接负载的数据生成方法及生成系统。
背景技术
在数据库管理系统测试、数据库应用压力测试和应用驱动的测试基准的工作中,常常关注一些关键Query的系统性能。
1.数据库管理系统测试(DBMS testing):论文[1-4]认为在数据库管理系统测试中能够控制查询操作的中间结果集大小是非常有意义的。当开发了一个新的数据库管理系统组件(Join算子、内存管理器等)时,需要一个具有某种负载特征的模拟数据库实例以评测新组件的性能。
2.数据库应用压力测试(Stress testing database applications):在开发一个做海量数据分析的数据库应用时,需要一个与应用负载特征相关的模拟数据库实例以评测该数据库应用的性能。
3.应用驱动的测试基准(Application-driven benchmarking):应用开发者在选择支撑应用的数据库管理系统时,需要针对自己的应用负载来选择适合的数据库管理系统,但是由于数据的隐私性问题,需要生成一个与真实数据库实例在相同查询负载下性能数据一致的模拟数据库实例以评测待选择数据库管理系统的性能。
基于时空数据的非等值连接负载已成为现实应用中的不可或缺的一部分,如何生成一个满足多Query非等值连接基数约束的数据库实例是一个很难、也亟需解决的问题。
当前数据生成主要有两条路线:一个是从数据特征角度生成数据,一个是从负载特征角度生成数据。由于复杂的负载特征以及数据特征上的约束使得属性之间具有复杂的关联关系,可能导致数据生成需要大量的存储和计算并且难以实现并行化。如果仅从数据特征角度生成模拟数据库实例,由于没有考虑查询负载,在相同的查询负载下模拟数据库实例与真实数据库实例的性能数据难以一致。[1-4]与本文一样,都是从负载特征角度生成模拟数据库实例。[1-3]是一个系列的工作。其中[1]针对每一个Query生成一个单独的数据库实例;[2-3]的工作继承于[1],使用启发式算法尽可能融合利用[1]生成的针对多个Query的多个数据库实例,但是不能保证最终仅生成一个数据库实例,并且也难以实现数据生成的完全并行化。[4]利用概率图模型的思想来表示数据分布,但是针对含有多维度数值型属性的基数约束,其算法复杂度太高。非等值连接负载作为一个非常重要和复杂的查询负载,工作[1-4]都无法处理该类型负载。
从数据特征角度生成数据的工作有[5-8,18]。[5]利用DGL(Data GenerationLanguage)描述待生成数据库实例的数据特征。[6]利用图模型控制数据的生成,支持比较复杂的表内和表外的关联关系。[7]提供一个基于XML的数据约束描述语言SDDL,可以在多核的环境下尽可能地并发生成数据。[8]利用伪随机数字生成器实现数据的并行生成。[18]利用数据库管理系统提供的属性上的基本数据特征生成模拟数据库实例。数据生成还有很多其他的工作:[9]为数据流应用(dataflow programs)生成样例数据(example data);[10]在原始数据库实例的基础上生成模拟数据,既保证模拟数据库实例与原始数据库实例的负载性能特征一致,也保证原始数据的隐私性;[15-17]都是生成非关系型数据,[15]生成XML数据,而[16-17]生成图数据;[12]根据一个Query和一个输出,生成一个可能的数据库实例,Query在该数据库实例上的操作结果即为已知输出。与数据生成工作相关还有Query的生成,相关工作有[11,13-14]。[11]根据一个数据库实例和一个输出,利用QRE(Query Reverse Engineering)生成一个Query,而该Query在数据库实例上的操作结果即为已知输出;[13-14]都是在一个数据库实例上生成满足一定基数约束的Query,[13]使用了抽样和空间剪枝的技术,而[14]使用了启发式算法提高搜索效率。
现有技术存在的问题:
定义面向非等值连接负载的数据生成问题,并形式化了本文数据生成器(缩写为NejGen:Data Generator for Non-Equi-Join Workload)的输入和输出。
如图1所示,NejGen的输入包含三部分,分别为:数据表结构(Database SchemaH),数据特征(Data Characteristics D)和目标负载及其负载特征(Query ExecutionTrees,Table of Cardinality Constraints)。数据表结构包含了所有属性的数据类型声明以及主键的声明。在图1中,有三个示例数据表,分别为表R,S和T,表大小分别为10,20和50。其中表R的主键为R.r1,还有一个整型的属性R.r2和一个实型的属性R.r3。针对每个数据表的所有属性都可以定义其数据特征。例如,在图1中,属性R.r2的取值范围为[0,10],其基数大小(非重复值个数)为5。属性S.s3的空值(Null)比例为10%,取值范围为[-100,0],关于基数大小未作约束。针对字符串类型属性T.t3,可以定义其平均长度和最大长度,在图1示例中分别为20和100。
针对查询负载,负载执行的代价主要取决于查询执行过程中每一个操作算子(operator)涉及的数据量,即记录数(number of tuples)。因此,查询负载的负载特征由一组针对查询树(query tree)中间结果集的基数约束表示。在图1中,的示例输入包含两个参数化的查询树(parameterized query trees),即Q1和Q2。这两个查询树包含8个参数,分别为P1,P2,…,P8。在查询树中每一个算子之上都有一个相应的基数约束(cardinalityconstraint),定义了针对该算子输出结果集的期望大小。因此,针对图1中的8个算子,有相应的8个基数约束,分别为c1,c2,…,c8。下面,给出基数约束的形式化定义。
定义1基数约束(cardinality constraint):
针对查询树中的选择(filter)和连接(join)算子,基数约束由三元组[Q,p,s]组成,其中Q表示该基数约束涉及的Query,p表示该基数约束所针对算子的谓词表达式,s为针对该算子输出结果集大小的约束要求。
例如图1中的c1=[Q1,R.r2<P1,4],其表示了在Q1中,谓词为R.r2<P1算子的输出结果集的约束大小为4。这些基数约束通常决定了查询负载的执行代价,因为查询处理引擎的计算代价通常由处理的数据量决定。在后面的实验结构章节,也进一步验证了这个观点。本文仅关注选择算子和连接算子,主要因为其他算子(如group by,order by,aggregation)的输出结果集大小通常是一定的,并不需要附加相应的基数约束。如orderby算子的输出结果集大小必然与输入结果集大小一致,aggregation算子的输出结果集大小必然为1(假设输入数据集不为空),而group by算子的输出结果集的记录数必然也和输入记录数一致,除非在分组之后有having过滤器。并且,这些算子一般都在查询树的顶端(意味着在最后执行),它们的输出结果集大小通常并不影响其他算子的执行代价。所以,本文仅考虑选择算子和连接算子上的基数约束,工作[3]也是如此。由于NejGen是面向非等值连接负载的数据生成器,因此本文的连接算子为非等值连接算子,如图1中Q1和Q2所示。同时基于非等值连接负载的实际业务逻辑,本文的选择算子为范围选择算子(选择谓词中的逻辑运算符可为>,>=,<,<=和between and)。基于上述的说明,给出了如下面向非等值连接负载数据生成问题的定义。
定义2面向非等值连接负载的数据生成问题(data generation problem):
给定数据表结构,数据表的数据特征和目标负载及其负载特征,生成一个数据库实例(database instance),该数据库实例满足要求的数据特征,并且实例化的目标负载(查询树中的符号参数实例化为具体数值)在生成的模拟数据库实例上的运行与要求的负载特征一致。
数据生成问题已在工作[19]中被证明是NP-hard的,因此不可能给出一个通用的没有误差的解决方案。本文针对定义2中关于负载特征的约束要求(即在生成的数据库实例上执行实例化的查询负载,中间结果集的实际大小需要与基数约束中的指定值s一致),进行了适当的弱化,现在不要求中间结果集的实际大小与基数约束完全一致,仅要求其在概率期望上与基数约束一致。因为Query的执行代价与中间结果集的大小是线性相关的,对于中间结果集大小的细微变化,Query的执行代价并不会有很大的改变。例如,对于一个非等值连接算子,当输入记录数为1000000和1000010时,其执行代价基本是相等的。
发明内容
在评测数据库管理系统和数据库应用的查询性能时,通常在人工生成的数据库实例上执行相关的查询负载,然后观察系统的吞吐量和响应时间。由于巨大的数据量和复杂的基于多表多属性的基数约束,模拟数据库的生成一直是一个难以解决的问题。当前,时空数据在应用中越来越普遍,基于时空数据的非等值连接已成为一种常见的重要的应用负载。目前在模拟数据库的生成过程中,还没有技术可以处理针对非等值连接负载的基数约束。本发明文所描述的是一个面向非等值连接负载的数据生成器。本文并没有按照前人思路那样根据约束(数据特征约束或负载特征约束)生成数据,而是按照某种特定规则先生成数据,然后依据此规则计算出满足所有基数约束的查询参数。本文可以处理复杂的针对非等值连接负载的基数约束及其相互依赖关系,其中算法的复杂度仅与基数约束中涉及的属性维度相关,实现了数据生成在属性上的完全并发,并且支持在已有模拟数据库上进行动态基数约束调整。
本发明提出的面向非等值连接负载的数据生成方法,包括以下步骤:
步骤一:查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;
针对各个数据类型的生成函数的具体生成机制如下:
属性生成函数包含:随机索引生成和索引数值转化。
所述随机索引生成:根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数;索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出。
所述索引数值转化针对不同的数据类型转化器会采用不同的转化函数;针对数值型数据类型,采用简单的线性函数作为转化函数;而针对字符型数据类型,先生成一定量满足字符串长度要求的种子字符串,种子字符串的个数一般远小于该属性的指定基数,然后转化器根据输入的索引值通过取余运算确定一个种子字符串的位置,再通过连接索引值和选择的种子字符串作为输出。
步骤二:基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;
步骤三:数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
本发明还提出了一种面向非等值连接负载的数据生成系统,包括以下模块:
查询实例化模块:根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,采用相应数据类型默认的数据特征;
生成函数模块:实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;
数据生成模块:根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
所述属性生成函数主要包含两个模块,一个是随机索引生成器,一个是索引数值转化器:所述随机索引生成器会根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数;索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出;所述索引数值转化器针对不同的数据类型转化器会采用不同的转化函数;针对数值型数据类型,采用简单的线性函数作为转化函数;而针对字符型数据类型,先生成一定量满足字符串长度要求的种子字符串,种子字符串的个数一般远小于该属性的指定基数;然后转化器根据输入的索引值通过取余运算确定一个种子字符串的位置,再通过连接索引值和选择的种子字符串作为输出。
参考文献
[1]C.Binnig,D.Kossmann,E.Lo,et al.QAGen:Generating Query-Aware TestDatabases.In SIGMOD,pages 341-352,2007.
[2]E.Lo,N.Cheng,and W.-K.Hon.Generating Databases for QueryWorkloads.In VLDB,pages 848-859,2010.
[3]E.Lo,N.Cheng,Wilfred W.K.Lin,et al.MyBenchmark:generatingdatabases for query workloads.In VLDBJ,pages 895-913,2014.
[4]A.Arasu,R.Kaushik,and J.Li.Data Generation using DeclarativeConstraints.In SIGMOD,pages 685-696,2011.
[5]N.Bruno and S.Chaudhuri.Flexible Database Generators.In VLDB,pages1097-1107,2005.
[6]K.Houkjaer,K.Torp,and R.Wind.Simple and Realistic DataGeneration.In VLDB,pages 1243-1246,2006.
[7]Joseph E.Hoag,and Craig W.Thompson.A Parallel General-PurposeSynthetic Data Generator.In SIGMOD,pages 19-24,2007.
[8]Alexander Alexandrov,Kostas Tzoumas,and Volker Markl.Myriad:Scalable and Expressive Data Generation.In PVLDB,pages 1890-1894,2012.
[9]C.Olston,S.Chopra,and U.Srivastava.Generating Example Data forDataflow Programs.In SIGMOD,pages 245-256,2009.
[10]Wentian Lu,Gerome Miklau,and Vani Gupta.Generating PrivateSynthetic Databases for Untrusted System Evaluation.In ICDE,pages 652-663,2014.
[11]Quoc Trung Tran,Chee Yong Chan,and Srinivasan Parthasarathy.QueryReverse Engineering.VLDBJ,23(5):721-746,2014.
[12]C.Binnig,D.Kossmann,and E.Lo.Reverse Query Processing.In ICDE,pages 506-515,2007.
[13]Chaitanya Mishra,Nick Koudas,and Calisto Zuzarte.GeneratingTargeted Queries for Database Testing,In SIGMOD,pages 499-510,2008.
[14]N.Bruno,S.Chaudhuri,and D.Thomas.Generating Queries withCardinality Constraints for DBMS Testing.IEEE Trans.Knowl.Data Eng.,18(12):1271-1275,2006.
[15]S.Cohen.Generating XML Structure using Examples andConstraints.PVLDB,1(1):490-501,2008.
[16]J.Leskovec,D.Chakrabarti,J.M.Kleinberg,et al.Realistic,Mathematically Tractable Graph Generation and Evolution,using KroneckerMultiplication.In PKDD,pages 133-145,2005.
[17]S.Lattanzi and D.Sivakumar.Affiliation Networks.In Proceedings ofthe 41st annual ACM symposium on Theory of computing,pages 427-434.ACM,2009.
[18]Entong Shen,Lyublena Antova.Reversing Statistics for ScalableTest Databases Generation.In DBtest,pages 7:1-7:6,2013.
[19]T.
Figure BDA0002372018100000071
Logic programs and cardinality constraints–theory andpractice.2009.
[20]P.J.Davis and P.Rabinowitz.Methods of numericalintegration.Courier Corporation,2007.
附图说明
图1为数据生成器的示例输入。
图2为NejGen的基本架构。
图3为属性随机生成函数(属性T.t3)。
图4为查询参数实例化流程(针对查询Q1)。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
NejGen的实现包括以下模块:
1.查询实例化:根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数。如果某个属性没有指定数据特征,采用相应数据类型默认的数据特征。针对各个数据类型的生成函数的具体生成机制如下。
属性生成函数主要包含两个模块,一个是随机索引生成器(Random IndexGenerator),一个是索引数值转化器(Transformer):
随机索引生成器会根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数。索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出。
索引数值转化器针对不同的数据类型转化器会采用不同的转化函数。针对数值型数据类型,可以采用简单的线性函数作为转化函数。例如针对属性R.r2,其数据特征为Null值比例为0,值域为[0,10],基数为5。采用的转化函数可以为value=index*2。而针对字符型数据类型,可以先生成一定量满足字符串长度要求的种子字符串,种子字符串的个数一般远小于该属性的指定基数。然后转化器根据输入的索引值通过取余运算确定一个种子字符串的位置,再通过连接索引值和选择的种子字符串作为输出。因为在大数据表的生成时,指定的基数可能很大,利用少量的种子字符串组装生成满足要求基数的属性值可以大大降低内存和CPU的消耗。
2.基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致。查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询(供后续测试所用),一个是数据表中所有属性的生成函数(作为数据生成模块的输入)。
3.数据生成模块:根据给定的属性生成函数,分布式控制器(DistributedController)会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器(DataGenerator)上,以便最大化地利用硬件资源进行完全并行的数据生成。生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
基本架构
基于上述数据生成问题的定义,NejGen的输入包含:数据表结构,数据表的数据特征和目标负载及其负载特征;NejGen的输出包含:生成的数据库实例和实例化的查询。NejGen的基本架构主要包含两个模块,分别是查询实例化模块和数据生成模块,如图2所示。
查询实例化:根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数。如果某个属性没有指定数据特征,如图1示例中的属性R.r3,采用相应数据类型默认的数据特征。针对各个数据类型的生成函数的具体生成机制见下一小节。然后基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致。查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询(供后续测试所用),一个是数据表中所有属性的生成函数(作为数据生成模块的输入)。
数据生成模块:根据给定的属性生成函数,分布式控制器(DistributedController)会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器(DataGenerator)上,以便最大化地利用硬件资源进行完全并行的数据生成。生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
属性生成函数
关于属性生成函数,有三点注意事项:1)主键属性并没有属性生成函数,因为主键一般都是按序递增的;2)如果一个属性没有指定相应的数据特征,根据相应数据类型的默认数据特征构建其生成函数;3)属性的生成函数一旦确定,无论在查询实例化还是数据生成过程中都不再更改。
针对不同的数据类型,属性随机生成函数的构建机制有一定的区别。针对数值数据类型的属性,可以指定的数据特征有:Null值比例,值域(最小值和最大值),基数即非重复值个数。目前NejGen支持的数值型数据类型有:Integer,Float,Double,Decimal,DateTime和Boolean。针对字符数据类型的属性,可以指定的数据特征有:Null值比例,基数,字符串的平均长度和最大长度。目前NejGen支持的字符类型有Varchar。
属性生成函数主要包含两个模块,一个是随机索引生成器(Random IndexGenerator),一个是索引数值转化器(Transformer),针对属性T.t3的示例属性随机生成函数见图3。随机索引生成器会根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数。索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出。针对不同的数据类型有,转化器会采用不同的转化函数。针对数值型数据类型,可以采用简单的线性函数作为转化函数。例如针对属性R.r2,其数据特征为Null值比例为0,值域为[0,10],基数为5。采用的转化函数可以为value=index*2。而针对字符型数据类型,可以先生成一定量满足字符串长度要求的种子字符串,种子字符串的个数一般远小于该属性的指定基数。然后转化器根据输入的索引值通过取余运算确定一个种子字符串的位置,再通过连接索引值和选择的种子字符串作为输出,具体见图3中的Transformer。因为在大数据表的生成时,指定的基数可能很大,利用少量的种子字符串组装生成满足要求基数的属性值可以大大降低内存和CPU的消耗。
查询实例化
在确定所有属性的生成函数之后,生成数据库实例的数据分布就已经确定了。基于生成数据库实例已经确定的数据分布,NejGen采用二分搜索(binary search)的思想和数值积分(numerical integration)[20]的计算方法实例化所有基数约束中的符号参数。由于针对每个查询树中的基数约束处理是完全相同的,下面仅基于图1中Q1给出查询参数实例化的基本流程,见图4。
针对一个查询树中的所有基数约束,必须采用自底向上的处理方式,因为孩子节点中的查询参数若没有确定,相应父亲节点的输入数据集便无法确定,从而后续的二分搜索以及数值积分便无从开展。在图4中,针对查询Q1,先处理两个孩子节点上的基数约束,实例化参数P1和P2后,父亲节点(即非等值连接R.r3+S.s2≥P3)的输入数据集便可以根据原始数据表信息和两个孩子节点中的选择谓词(predicate)确定。接下来详细介绍针对一个基数约束,如何实例化其中的符号参数。
由于属性的生成函数是离散的,不利于查询参数实例化过程中的数学计算,因此首先需将离散的属性生成函数连续化,具体的转化机制通过属性R.r2和S.s3进行阐述。属性R.r2的数据特征为Null值比例为0,值域为[0,10],基数为5。随机生成函数为:index=random[1,5],value=index*2。可以将该离散函数转化成连续函数:y=x,x∈[0,10]。属性S.s3的数据特征为Null值比例为10%,值域为[-100,0],基数未作设定(由于表S大小为20,基数默认设置为20*(1–10%)=18)。随机生成函数为:index=random[1,18],value=index*5。该离散函数可转化为连续函数:y=x,x∈[-100,0]。
针对基数约束c1=[Q1,R.r2<P1,4],由于数据表R的大小为10,因此直观上可知P1的值可按比例在值域上直接取为10*(4/10)=4(第一个10为值域的最大值,第二个10为数据表的大小;这里暂不考虑<,<=的区别,因为在大数据集下两者基本没有区别,虽然在当前示例下参数值为4.01更合适)。针对基数约束c2=[Q1,S.s3>P2,13],数据表S的大小为20,P2的值可按比例在值域上直接取为-100*(13/18)=-72(其中18=20*(1–10%),10%为Null值的比例)。但是对于复杂的谓词表达式,这种方法显然是不通用的,如谓词R.r2^3-R.r3<Para;并且对于非等值连接操作上的基数约束,如图4中的c3,由于输入数据集是由原始数据表和孩子节点上实例化的谓词约束共同确定,上述方法显然也是不可行的。当然,对于具有简单谓词表达式的选择操作,其基数约束可采用此种方法实例化查询参数。
Figure BDA0002372018100000101
Figure BDA0002372018100000111
通用参数实例化算法见Algorithm 1。算法1的主要思想是:将查询空间转化为数学空间,基数约束中关于中间结果集的期望大小可以由数学空间中关于基数约束中谓词的数值积分值来表示。在待实例化参数的值域内,根据二分搜索的思想先给出符号参数的预测值,然后基于当前预测的参数值,利用数值积分得到中间结果集在概率期望上的大小,再根据误差判断直至搜索到满足误差要求的参数值。若迭代次数已达到上限,返回当前参数的预测值。后面基于示例基数约束c3给出算法1的详细说明。c3=[Q1,R.r3+S.s2≥P3,20]。在处理c3之前,c1=[Q1,R.r2<P1,4]和c2=[Q1,S.s3>P2,13]中的参数P1和P2应已经实例化,由前文可知P1=4,P2=-72。
在算法中的第1行,获取当前非等值连接操作的查询空间大小。针对非等值连接操作R.r3+S.s2≥P3,数据表R大小为10,数据表S大小为20,非等值连接操作涉及属性R.r3和S.s2都没有Null值,孩子节点中涉及的属性R.r2也没有Null值,但属性S.s2含有10%的Null值。因此查询空间大小应为:10*(20*(1-10%))=180(S表中10%的记录因为在属性S.s2上含有Null值而被忽略不计;因为是多表,所以需作笛卡尔积)。因为c3.s=20,所以q_ratio=20/180=11.11%。基数约束c2的谓词表达式涉及两个属性R.r3和S.s2,两者相应连续函数分别为y=x1,x1∈[0,10](关于数值型数据类型,默认数据特征的值域最小值为0,最大值为数据表大小),y=x2,x2∈[0,100]。c2孩子节点中的谓词表达式涉及另两个属性R.r2和S.s3,连续函数分别为y=x3,x3∈[0,10]和y=x4,x4∈[-100,0]。因此,算法第三行中的数学空间大小为:10*100*10*|-100|=10^6。在算法第4行,需要计算出符号参数的值域,即R.r3+S.s2表达式的最小值和最大值,易得min_value=0,max_value=110,此时参数p被初始化为(0+110)/2=55。算法5至13行是针对参数p(若输入为c3,即为参数P3)的二分搜索。首先在算法第6行,将基数约束c中的符号参数实例化为预测值p=55,此时c.p=R.r3+S.s2≥55(c.p为基数约束的谓词)。算法第7行基于当前的预测参数值(即p=55),利用数值积分的方法计算出中间结果集在数学空间中的相对大小。数值积分的具体表示如下:
Figure BDA0002372018100000112
其中x1+x2≥55为基于预测参数值的c.p,x3<4&x4>-72为孩子节点上实例化的谓词约束。NejGen中的数值积分目前由数学工具Mathematica计算,因此易得inte_size=1.44*10^5,此时m_ratio=inte_size/m_size=(1.44*10^5)/10^6=14.4%。算法9-11行判断当前预测参数值的误差是否小于最大允许误差e和当前迭代次数是否达到上限k,确定是否退出算法并返回实例化的参数值。若算法没有退出,算法12行根据二分搜索的思想重置参数p的值。在上述示例中,因为14.4%大于11.11%,并且参数p前的逻辑运算符为≥,因此重置p=(55+110)/2=82.5,继续迭代直至退出算法。由于算法1关于解(符号参数值)的搜索是指数收敛的,解的精度可以得到有效的保证,并且算法1可处理含有任意连接谓词的非等值连接负载。
算法1的复杂度可由迭代次数与数值积分的代价相乘表示。因为算法1采用了二分搜索的思想,迭代次数是logN的,N为符号参数的值域。而数值积分的代价一般与涉及的变量数目和被积分表达式的复杂度相关,由于非等值连接谓词中往往仅包含一些线性运算,并且NejGen采用了高效的数学计算工具Mathematica支持数值积分运算,因此数值积分的代价可看作是一个常量。综上,算法1是高效的。
数据生成
在图2中,查询实例化模块将基于用户指定数据特征而构建的属性随机生成函数传递给数据生成模块,数据生成模块主要负责多节点并行的模拟数据库生成。由于具有每个属性的生成函数,数据生成是相对容易的,仅需考虑如何做到充分的并行以及数据生成任务的划分。数据生成主要分为两个步骤:(1)首先根据机器配置,将所有的数据生成任务均匀划分到每个节点的每个数据生成线程上。每个节点上开启的数据生成线程数为当前节点CPU的最大并行度,并对所有节点上的线程编号。例如,有三个节点,每个节点的最大并行度为10,那么可以在每个节点上开启10个数据生成线程,针对所有数据生成线程依次编号为:0,1,2,…,29。(2)然后在数据生成的过程中,针对每个数据表的主键值,每个数据生成线程都有一个相应的起始id,并设置为当前线程编号,每生成一条记录,该id的值加上总线程数。例如,在上面的示例中,0号线程生成的记录主键值为:0,30,60,…;1号线程生成的记录主键值为:1,31,61,…。在数据生成过程中,每个数据生成线程的输出文件相互独立,并采用缓存异步刷盘的方式提高性能。生成的数据文件可利用相应的导入工具导入到待测试数据库中。
实验结论
实验环境
实验硬件配置:5个物理节点,每个节点含有2个CPU,型号为Intel Xeon E5-2620@2.0GHz;内存为64GB;存储为3TB,RAID-5,7200转的HDD磁盘。物理节点之间使用千兆以太网通信。
性能评测
实验一:输入如图1,但是数据表R,S,T的大小分别为10^8,2*10^8和5*10^8,其他不变。数据生成节点由1个不断增加到5个,观察数据生成时间和基数约束最大误差。
Figure BDA0002372018100000121
Figure BDA0002372018100000131
实验二:输入如图1,但是数据表R,S,T的大小分别为10^n,2*10^n和5*10^n,n=5,6,7,8,9,其他不变。数据生成节点为5个,观察数据生成时间和基数约束最大误差。
n的大小 5 6 7 8 9
数据生成时间 0.821s 1.280s 4.433s 36.236s 359.642s
基数约束最大误差 0.0078 0.0015 0.00042 0.00021 0.00007
通过实验数据可知,NejGen对于数据生成节点数和生成数据库实例的数据量大小都是线性可扩展的;NejGen的数据生成吞吐量在5个节点时大约为每秒2*10^7条记录;并且基数约束的误差也随着生成数据量的增大而逐渐减小。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (6)

1.一种面向非等值连接负载的数据生成方法,其特征在于,包括以下步骤:
步骤一:查询实例化,根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,则采用相应数据类型默认的数据特征;
步骤二:基于相应属性的生成函数,实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;
步骤三:数据生成,根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
2.如权利要求1所述的面向非等值连接负载的数据生成方法,其特征在于,针对各个数据类型的生成函数的具体生成机制如下:
属性生成函数包含:随机索引生成和索引数值转化。
3.如权利要求2所述的面向非等值连接负载的数据生成方法,其特征在于,所述随机索引生成:根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数;索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出。
4.如权利要求2所述的面向非等值连接负载的数据生成方法,其特征在于,所述索引数值转化针对不同的数据类型转化器会采用不同的转化函数;针对数值型数据类型,采用简单的线性函数作为转化函数;而针对字符型数据类型,先生成满足字符串长度要求的种子字符串,种子字符串的个数小于该属性的指定基数,然后转化器根据输入的索引值通过取余运算确定一个种子字符串的位置,再通过连接索引值和选择的种子字符串作为输出。
5.一种面向非等值连接负载的数据生成系统,其特征在于,包括以下模块:
查询实例化模块:根据给定的数据库结构,以及每个属性的数据特征,首先生成每个属性的随机生成函数;如果某个属性没有指定数据特征,采用相应数据类型默认的数据特征;
生成函数模块:实例化所有基数约束中涉及的符号参数,实例化后的参数保证了各个查询的中间结果集大小在概率期望上与约束的基数一致;查询实例化模块有两部分的输出,一个是填充了具体参数的实例化查询,供后续测试所用;一个是数据表中所有属性的生成函数,作为数据生成模块的输入;
数据生成模块:根据给定的属性生成函数,分布式控制器会依据机器配置信息,将数据生成任务均匀划分到所有的数据生成器上,以便最大化地利用硬件资源进行完全并行的数据生成;生成的数据首先以文本的形式存储在各个节点上,然后再批量导入到待测试的数据库中。
6.如权利要求5所述的面向非等值连接负载的数据生成系统,其特征在于,所述属性生成函数主要包含两个模块,一个是随机索引生成器,一个是索引数值转化器:
所述随机索引生成器会根据该属性的指定基数,生成一个随机索引值,若该属性的指定基数为M,那么生成的随机基数为1至M之间的随机整数;索引数值转化器会依据输入的随机索引值,生成一个具体的数值作为输出;
所述索引数值转化器针对不同的数据类型转化器会采用不同的转化函数;针对数值型数据类型,采用简单的线性函数作为转化函数;而针对字符型数据类型,先生成满足字符串长度要求的种子字符串,种子字符串的个数小于该属性的指定基数;然后转化器根据输入的索引值通过取余运算确定一个种子字符串的位置,再通过连接索引值和选择的种子字符串作为输出。
CN202010053458.9A 2020-01-17 2020-01-17 一种面向非等值连接负载的数据生成方法及生成系统 Active CN111240988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010053458.9A CN111240988B (zh) 2020-01-17 2020-01-17 一种面向非等值连接负载的数据生成方法及生成系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010053458.9A CN111240988B (zh) 2020-01-17 2020-01-17 一种面向非等值连接负载的数据生成方法及生成系统

Publications (2)

Publication Number Publication Date
CN111240988A CN111240988A (zh) 2020-06-05
CN111240988B true CN111240988B (zh) 2021-07-27

Family

ID=70864697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010053458.9A Active CN111240988B (zh) 2020-01-17 2020-01-17 一种面向非等值连接负载的数据生成方法及生成系统

Country Status (1)

Country Link
CN (1) CN111240988B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112241363B (zh) * 2020-07-03 2021-10-12 华东师范大学 面向分析型数据库的大规模随机负载生成及验证方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267773A1 (en) * 2003-06-30 2004-12-30 Microsoft Corporation Generation of repeatable synthetic data
CN105786860A (zh) * 2014-12-23 2016-07-20 华为技术有限公司 一种数据建模中的数据处理方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040267773A1 (en) * 2003-06-30 2004-12-30 Microsoft Corporation Generation of repeatable synthetic data
CN105786860A (zh) * 2014-12-23 2016-07-20 华为技术有限公司 一种数据建模中的数据处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
数据库系统性能评测与质量管理;李宇明;《中国知网博士学位论文》;20191101;全文 *

Also Published As

Publication number Publication date
CN111240988A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
Borkar et al. Hyracks: A flexible and extensible foundation for data-intensive computing
US8326825B2 (en) Automated partitioning in parallel database systems
Zhang et al. Towards efficient join processing over large RDF graph using mapreduce
Ou et al. Architecture-independent locality-improving transformations of computational graphs embedded in k-dimensions
Raghavan et al. Progressive result generation for multi-criteria decision support queries
KR101998020B1 (ko) 그래프 생성 방법 및 장치
Li et al. Touchstone: Generating Enormous {Query-Aware} Test Databases
Gao et al. GLog: A high level graph analysis system using MapReduce
Yang et al. An improved cop-kmeans clustering for solving constraint violation based on mapreduce framework
Lee et al. MRDataCube: Data cube computation using MapReduce
CN111240988B (zh) 一种面向非等值连接负载的数据生成方法及生成系统
CN105608077A (zh) 一种大数据分布式存储方法和系统
Li et al. C2Net: A network-efficient approach to collision counting LSH similarity join
Sergey et al. Applying map-reduce paradigm for parallel closed cube computation
Wang et al. A scalable query-aware enormous database generator for database evaluation
Kang et al. Grace: An efficient parallel SPARQL query system over large-scale RDF data
Cheng et al. FastMFDs: a fast, efficient algorithm for mining minimal functional dependencies from large-scale distributed data with Spark
Yuan et al. Big RDF Data Storage, Computation, and Analysis: A Strawman's Arguments
Zheng et al. User preference-based data partitioning top-k skyline query processing algorithm
Werner et al. Automated composition and execution of hardware-accelerated operator graphs
Pan et al. Parallelizing multiple group-by queries using MapReduce: optimization and cost estimation
Mullangi et al. SCISSOR: scalable and efficient reachability query processing in time-evolving hierarchies
Li et al. An improved distributed query for large-scale RDF data
Burdakov et al. Predicting SQL Query Execution Time with a Cost Model for Spark Platform.
Huangfu et al. Matrixmap: Programming abstraction and implementation of matrix computation for big data applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant