CN113177078B - 基于条件生成模型的近似查询处理算法 - Google Patents

基于条件生成模型的近似查询处理算法 Download PDF

Info

Publication number
CN113177078B
CN113177078B CN202110487805.3A CN202110487805A CN113177078B CN 113177078 B CN113177078 B CN 113177078B CN 202110487805 A CN202110487805 A CN 202110487805A CN 113177078 B CN113177078 B CN 113177078B
Authority
CN
China
Prior art keywords
data
model
network
query
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110487805.3A
Other languages
English (en)
Other versions
CN113177078A (zh
Inventor
白文超
韩希先
何京璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Weihai
Original Assignee
Harbin Institute of Technology Weihai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Weihai filed Critical Harbin Institute of Technology Weihai
Priority to CN202110487805.3A priority Critical patent/CN113177078B/zh
Publication of CN113177078A publication Critical patent/CN113177078A/zh
Application granted granted Critical
Publication of CN113177078B publication Critical patent/CN113177078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息检索技术领域,具体涉及一种近似查询处理算法。基于条件生成模型的高效近似查询处理算法,包括:采用聚集预计算获得用户查询的预聚集值;对用户查询进行处理,获得估计用户查询与预聚集范围之间差异的新查询newQ以及选择的预聚集值;构建基于Wasserstein的条件变分生成对抗网络模型,利用训练完成的模型为新查询newQ生成数据样本;对生成的数据样本进行过滤,并将过滤后的数据样本与选择的预聚集值相结合,计算得到最终的查询估计值。本发明的方法构建了一种高效的深度生成模型,并引入Wasserstein距离作为误差衡量,消除模型坍塌;将该模型应用于近似查询,并与聚集预计算相结合,同时采用表决算法,降低近似查询误差。

Description

基于条件生成模型的近似查询处理算法
技术领域
本发明属于信息检索技术领域,具体涉及一种近似查询处理算法。
背景技术
随着信息技术的快速发展,数据量呈爆炸性的速度持续增长,使得传统的数据库系统软件难以在交互式响应时间内回答用户的聚集查询。而在具体的决策分析任务中,用户通常只需要从数据中获取大致的趋势,不要求精确的结果。而且,在实际情况中,数据分布并不均匀,存在严重的偏斜问题。因此,如何在海量的偏斜数据中以更快的响应速度获取精度较高的查询结果具有重要的意义。
近似查询处理(Approximate Query Processing,AQP)算法(CHAUDHURI S,DINGB,KANDULA S.Approximate query processing:no silver bullet[C]//Proceedings ofthe 2017ACM International Conference on Management of Data,Chicago,May 14-19,2017.New York:ACM,2017:511-519.)以牺牲一定的精度为代价来换取更快的查询响应速度,保证了用户的交互性需求,成为了近年来数据库查询领域的一大研究热点。目前,近似查询处理方法大致可分为三类。第一类是基于抽样的近似查询处理(Sampling-basedApproximate Query Processing,SAQP)(LI K Y,LI G L.Approximate queryprocessing:what is new and where to go?[J].Data Science and Engineering,2018,3(4):379-397.),它以抽样的方法创建一个随机的数据样本,并将该样本作为原始数据的摘要,估计查询结果。SAQP方法原理简单,适用于大多数通用查询,但该方法生成的样本往往不能代表总体数据集,尤其在面临高度偏斜的数据时,基于随机抽样的SAQP算法不能为稀有数据生成足够的样本,影响估计结果的准确性(OLKEN F,ROTEM D.Random samplingfrom databases:a survey[J].Statistics and Computing,1995,5(1):25-42.)。基于分层抽样的SAQP算法可以克服数据偏斜问题,但分层抽样依赖于对数据分布的先验知识,只适用于特定数据的查询,不具有一般性(PANAHBEHAGH B.Stratified and rankedcomposite sampling[J].Communications in Statistics-Simulation andComputation,2020,49(2):504-515.)。另一类是聚集预计算(Aggregate Precomputation,AggPre)(ESCOBAR P,CANDELA G,TRUJILLO J,et al.Adding value to linked open datausing a multidimensional model approach based on the RDF data cubevocabulary-science direct[J].Computer Standards&Interfaces,1994,5(1):25-42.),该方法预先计算一些聚集查询的结果,之后使用该结果快速地回答用户查询。但AggPre方法的查询效率取决于预聚集值的计算,有限数量的预聚集值很难提供足够准确的查询结果,而预先计算较多的聚集值却将花费大量的存储空间。
第三类是采用机器学习中的方法来实现近似查询处理,诸如变分自编码器(Variational Auto-Encoder,VAE)、生成对抗网络(Generative Adversarial Network,GAN)等深度生成模型。此类算法可以学习到原始数据的分布特征,从而达到生成高质量样本的效果,提高查询准确率(HILPRECHT B,SCHMIDT A,KULESSA M,et al.Deepdb:learnfrom data,not from queries![J].Proceedings of the VLDB Endowment,2020,13(7):992-1005.)。其中,VAE是一种常见的生成模型(YAN L C,YOSHUAB,GEOFFREY H.Deeplearning[J].Nature,2015,521(7553):436-444.),通过学习原始数据的低维潜在特征,对各种复杂的数据分布进行建模并生成样本。VAE的训练过程简单高效,具有可解释的潜层空间,但其误差衡量不够精确,难以使潜层空间中生成的数据符合期望分布,影响查询准确率。GAN是另一种有效的生成模型(CRESWELL A,WHITE T,DUMOULIN V,et al.Generativeadversarial networks:an overview[J].IEEE Signal Processing Magazine,2018,35(1):53-65.),通过使内部的生成网络与鉴别网络相互对抗,从而降低模型误差,生成符合原始数据分布的样本。但是,GAN在训练过程中很难保证内部网络均衡,容易出现模型坍塌。
发明内容
针对现有技术中存在的上述问题,本发明首先设计了一种新型的生成模型,该模型将条件变分自编码器的编码网络融入到条件生成对抗网络中,可以高效的近似原始数据的分布,克服数据偏斜;同时,使用Wasserstein距离作为误差衡量,防止模型坍塌。其次,本发明基于该模型实现近似查询处理算法,可根据用户需求生成任意大小的样本,而无需访问底层数据,避免磁盘交互。之后,本发明将该算法与聚集预计算相融合构成交互式分析查询的通用框架,并通过设计的表决算法最小化查询误差,从而更好的处理交互式查询。
本发明解决其技术问题采用的技术方案是:基于条件生成模型的近似查询处理算法,包括:
采用聚集预计算获得用户查询的预聚集值;
对用户查询进行处理,获得估计用户查询与预聚集范围之间差异的新查询newQ及选择的预聚集值
构建基于Wasserstein的条件变分生成对抗网络模型,利用训练完成的模型为新查询newQ生成数据样本;
对生成的数据样本进行过滤,将过滤后的数据样本与选择的预聚集值相结合,计算得到最终的查询估计值。
作为本发明的一种优选方式,所述的模型由编码网络、生成网络以及鉴别网络组成。
进一步优选地,所述模型的训练过程包括数据预处理阶段,对原始数据进行聚类预处理,获得聚类后的真实数据X以及各类的条件特征Y。
进一步优选地,所述模型的训练过程还包括迭代训练阶段,将所述数据预处理阶段获得的真实数据X与对应的条件特征Y相融合作为模型的输入,使用编码网络得到潜层空间中数据分布的均值μ与方差δ2;并以μ和δ2作为参数,通过Random()随机函数产生潜层空间中的噪音数据Z={z1,...,zn};生成网络从潜层空间中随机地抽取一组噪音数据,并通过深层网络模型生成满足条件特征Y的虚假样本X_Fake;使用鉴别网络对X_Fake进行判断,得到X_Fake是否为真的概率值。
进一步优选地,所述迭代训练阶段还包括采用KL散度损失函数来计算编码网络的误差损失,计算公式为:
Figure GDA0003593005940000031
其中,KL_loss表示编码网络构造的潜层空间中,数据的实际分布Q(Z|X)与期望分布P(Z|X)之间的差异;μ和σ2分别表示编码网络生成的均值与方差;k表示模型在预处理阶段聚类所划分的类别的个数;j=1,2,……,k,表示第j个类别。
进一步优选地,所述迭代训练阶段还包括采用交叉熵损失函数来计算生成网络的误差损失:
Figure GDA0003593005940000041
其中,RE_loss表示生成网络生成的虚假数据X_Fake与真实数据X之间的差异。
进一步优选地,所述迭代训练阶段还包括采用Wasserstein距离作为损失函数计算生成网络、鉴别网络的误差损失:
G_loss=-E(D(X_Fake));
D_loss=E(D(X_Fake))-E(D(X));
其中,G、D分别表示生成网络和鉴别网络。
进一步优选地,在所述迭代训练阶段,使用RMSPropOptimizer作为模型优化器,优化各网络的参数。
进一步优选地,采用所述预处理阶段获得的原始数据的各个类别作为预聚集值计算的范围。
进一步优选地,数据样本的过滤采用表决算法;所述的表决算法包括样本过滤器和数据过滤器;所述样本过滤器用于对模型生成的单一样本进行分类预测;所述数据过滤器用于对样本内部数据进行快速预测。
本发明的方法构建了一种高效的深度生成模型,该模型融合CVAE、CGAN等经典的模型算法,并引入Wasserstein距离作为误差衡量,消除模型坍塌;其次,将该模型应用于近似查询,并与聚集预计算相结合,提出CVWGAQP++算法框架;同时,设计了高效的表决算法,降低近似查询误差。本发明提出的算法相较于对比算法在性能上有显著的提高。
附图说明
图1为本发明实施例中提供的基于Wasserstein的条件变分生成对抗网络模型的结构图;
图2为本发明实施例中模型的训练流程图;
图3为本发明实施例中提供的基于条件生成模型的近似查询处理算法的流程图;
图4为样本过滤器的算法流程图;
图5为数据过滤器的算法流程图;
图6为本发明的CVWGAQP++算法与对比算法在偏斜数据中查询结果对比图;
图7为本发明的CVWGAQP++算法与对比算法在不同原始数据规模下查询质量对比图;
图8为本发明的CVWGAQP++算法与对比算法在不同生成数据规模下查询响应时间对比图。
具体实施方式
本发明提供的基于条件生成模型的近似查询处理算法,具体实现过程和步骤详细阐述如下:
一、基于Wasserstein的条件变分生成对抗网络模型的构建本发明提供的基于Wasserstein的条件变分生成对抗网络模型(Conditional Variational WassersteinGenerative Adversarial Network,CVWGAN)以CGAN的网络结构为基础,融入CVAE中的编码网络,保证总体模型的稳定。模型的具体结构如图1所示。
该模型由编码网络(Encoder,E)、生成网络(Generator,G)以及鉴别网络(Discriminator,D)组成。其中,编码网络将真实数据的未知分布映射为潜层空间(LatentSpace,LS)中的常见分布,共有三层,以真实数据X以及对应的条件特征Y作为输入,映射得到各类数据在LS中分布的均值与方差等参数。之后,模型根据该参数构建LS,并从中随机抽取大小为n*1的噪音数据Z{=z1,...,zn},且与Y融合,共同作为生成网络的输入。生成网络共有五层,根据输入的随机噪音,生成符合真实数据分布的虚假数据X_Fake。鉴别网络对X_Fake进行判别,输出得到X_Fake是否为真的概率D(X_Fake)。该网络共有5层,使用Wasserstein距离衡量网络的误差,且在训练过程中,执行回归任务,拟合Wasserstein距离,从而避免梯度消失,防止模型坍塌。模型的具体信息如表1所示。
表1模型信息表
Figure GDA0003593005940000061
二、模型重要参数设置
1、batch_size
batch_size为模型每次训练的样本个数,它的大小与模型的收敛速度以及训练效率密切相关。经实验测试可知,当batch_size为640时,收敛步数最少,收敛速度最快。因此,本发明将模型的batch_size参数设置为640。
2、损失函数
本发明模型的误差分为四部分:KL散度误差KL_loss、重构误差RE_loss、生成误差G_loss以及鉴别误差D_loss。本发明针对上述误差,设计出高效的损失函数,并通过最小化该函数来优化整体模型。
(1)KL_loss表示编码网络构造的潜层空间中,数据的实际分布Q(Z|X)与期望分布P(Z|X)之间的差异,使用KL散度来进行衡量,具体如公式1所示。
Figure GDA0003593005940000062
本发明模型的潜层空间中数据的期望分布为高斯分布,因此,将编码网络生成的均值μ与方差σ2代入公式1,推导可得KL_loss的具体表达式如公式2所示。
Figure GDA0003593005940000071
其中,k表示模型在预处理阶段聚类所划分的类别的个数;j=1,2,……,k,表示第j个类别。每一个类别都有一个属于自己分布,因此也有属于自己的μ、δ2
(2)RE_loss表示G网络生成的虚假数据X_Fake与真实数据X之间的差异,使用交叉熵损失函数计算,如公式3所示。
Figure GDA0003593005940000072
(3)本发明的模型将G、D网络结合,使用Wasserstein距离作为两者的损失函数。Wasserstein距离(又称Earth-Mover(EM)距离)是一种衡量数据分布之间相似程度的有效方法,具体定义如公式4所示。
Figure GDA0003593005940000073
其中,Π(Pr,Pg)表示两个数据分布Pr与Pg组成的联合分布的集合,即Π(Pr,Pg)中的每一个元素的边缘分布都是Pr与Pg。因此,对于每一个可能的联合分布γ,可以从中采样获得(x,y)~γ,其中x~Pr,y~Pg,之后,以||x-y||的期望值来近似表示数据分布Pr与Pg之间的差异。为便于求解,可设连续函数f(x)满足K-Lipschitz,即|f(x)-f(y)|≤K|x-y|,将其代入公式4并近似可得公式5。
Figure GDA0003593005940000074
本发明以D网络作为f(x)函数,且对G、D网络的损失函数均不取对数,同时,将D网络的截断参数clip设置为[-0.1,0.1],代入公式5并推导可得G、D网络的损失函数分别如公式6以及公式7所示。
G_loss=-E(D(X_Fake)) (6)
D_loss=E(D(X_Fake))-E(D(X)) (7)
(4)优化器
本发明通过实验对比发现:相较于Momentum和Adam等基于动量的优化算法,RMSPropOptimizer能够更好地保证鉴别网络在训练过程中误差梯度的稳定,且能够修改传统的梯度积累为指数加权的移动平均,从而能自适应地调节学习率的变化。因此,本发明使用RMSPropOptimizer作为模型优化器,更好地优化各网络模型参数。本发明综合考虑模型的收敛情况以及训练过程中误差大小等因素,将模型的学习率设置为0.001。
三、模型的训练
本发明模型的训练过程分为两个阶段:数据预处理与迭代训练。具体流程如图2所示。
本发明在数据预处理阶段对原始数据按照取值范围进行聚类,可降低类内数据的偏斜程度,提升模型的学习效率。由于本模型处理的原始数据具有规模庞大、分布偏斜等特点,因此,本发明使用Mini_batch_Kmeans算法,对原始数据进行聚类预处理,获得聚类后的真实数据X以及各类的条件特征Y等参数信息。
之后,在迭代训练阶段,本发明将真实数据与对应的条件特征信息相融合作为模型的输入,使用编码网络得到潜层空间中数据分布的均值μ与方差δ2;并以μ和δ2作为参数,通过Random()随机函数产生潜层空间中的噪音数据Z={z1,...,zn}。生成网络从潜层空间中随机地抽取一组噪音数据,并通过深层网络模型生成满足条件特征Y的虚假样本X_Fake。之后,模型使用鉴别网络对X_Fake进行判断,得到X_Fake是否为真的概率值,并根据公式2、3、6、7分别计算编码网络、生成网络以及鉴别网络的误差损失。如果各网络的误差均低于收敛阈值ε,则训练完成,否则继续迭代训练,并使用RMSPropOptimizer优化器根据学习率ρ调整整个模型的参数。
四、基于条件生成模型的近似查询处理算法(CVWGAQP++算法)
本发明利用CVWGAN模型所生成的符合原始数据分布的样本摘要,实现近似查询处理;并与聚集预计算相结合,构成高效的近似查询处理算法,提高查询准确率,满足用户交互性。同时,采用表决算法,对模型生成的样本进行过滤,可提高样本质量,降低近似查询误差。算法流程如图3所示,具体为:
1、采用聚集预计算,计算用户查询的预聚集值,利用模型训练过程中数据预处理阶段对原始数据划分得到的各个类别作为预聚集值计算的范围;
2、使用Deal()函数对用户查询进行处理,匹配预先计算的聚集值的范围,获得估计用户查询与聚集预计算范围之间差异的新查询newQ,以及选择的预聚集值trueValue;
3、利用本发明构建的CVWGAN模型为新查询newQ生成数据样本;
4、通过表决算法对生成的数据样本以及样本内部数据进行过滤。
本发明设计的表决算法包含两种过滤器,分别为样本过滤器(Sample Filter,SF)与数据过滤器(Data Filter,DF)。每种过滤器均采用集成学习的思想,选用多种分类算法,更好、更全面的对模型生成的数据进行过滤。
本发明综合考虑近似查询算法的准确性与实用性,令每种过滤器均包含三种分类算法,从而更加高效的对生成的样本以及样本内部数据进行过滤。其中,样本过滤器选用支持向量机、人工神经网络以及决策树等精度较高的分类算法,对模型生成的单一样本进行分类预测;数据过滤器选用朴素贝叶斯、决策树以及逻辑回归等算法,实现对样本内部数据的快速预测。样本过滤器、数据过滤器的具体算法流程分别如图4和图5所示。
5、将过滤后的样本与选择的预聚集值相结合,计算得到最终的查询估计值。
五、算法评价
为了评价本发明算法的性能,本发明提供以下实验数据予以验证。
1、实验环境设置
实验硬件环境为NVIDIA Tesla K80 GPU;8GB内存;500GB硬盘;操作系统为Windows 10。本发明采用Pycharm 2020.2编程环境与Python编程语言开发了模拟测试程序,使用TensorFlow学习框架构建本发明的生成模型。
2、实验数据集
本发明选用两个数据集进行实验,分别为真实数据集TLCTrip与合成数据集。
TLCTrip数据集:TLCTrip是纽约市出租车和豪华轿车委员会(NYC Taxi andLimousine Commission)的真实数据集。本发明使用2010年至2020年黄车数据表中的”trip_distance”属性数据,截取其中的部分元组4000万个。
合成数据集:本发明使用TPC-H基准生成合成数据集。本发明固定生成数据的规模,将偏斜因子从0变化到2,每次增加0.5,获得5个含有100万行元组,偏斜程度不同的数据集。
3、实验工作负载与评估指标
本发明对实验数据集执行求平均的聚集查询,对每个查询重复执行1000次并对结果求平均。为评估本发明算法的效率,实验使用平均相对误差以及平均查询响应时间作为评估指标,具体如公式8和公式9所示。
Figure GDA0003593005940000101
Figure GDA0003593005940000102
其中,Avg_RE表示平均相对误差;N表示所执行查询的次数;esti表示第i次查询的估计聚集值;truei表示第i次查询的真实聚集值;Avg_Time表示平均响应时间;Timei表示第i次查询的响应时间。
4、对比算法
为了更好的体现本发明提出的CVWGAQP++算法的准确性与高效性,实验选择以下的对比算法。
(1)基于随机抽样的SAQP++
基于随机抽样的SAQP++算法将基于随机抽样的SAQP与AggPre相结合,具有比SAQP以及AggPre更高的性能。因此,本发明选用SAQP++算法作为实验的对比算法,并参照文献(ZHANG D,LEI M,ZHU X.SAQP++:Bridging the gap between sampling-basedapproximate query processing and aggregate precomputation[C]//2018IEEE ThirdInterna tional Conference on Data Science in Cyberspace(DSC),Guangzhou,June18-21,2018,Piscataway:IEEE,2018:258-265.)中的算法思想,在本实验平台进行实现
(2)基于VAE近似查询处理算法以及基于CWGAN的近似查询处理算法
VAE以及CWGAN是基于模型的近似查询处理方向中比较经典的生成模型算法,且两者的模型结构与本发明算法相似,因此,本发明选用VAE以及CWGAN模型所实现的近似查询处理算法作为对比算法,并在本实验平台进行实现。文献(ZHANG M,WANG H.Approximatequery processing for group-by queries based on conditional generative models[J].arXiv preprint arXiv,2021,2101.02914.)采用CWGAN模型实现近似查询处理,回答group-by查询,因此,本发明的CWGAN对比算法以该文献为基础,并进行一定修改以适应本文求平均的聚集查询。本发明的VAE对比算法参照文献(THIRUMURUGANATHAN S,HASAN S,KOUDAS N,et al.Approximate query processing for data exploration using deepgenerative models[C]//2020IEEE 36th International Conference on DataEngineering(ICDE),Dallas,April 20-24,2020.Piscataway:IEEE,2020:1309-1320.)中提出的基于多VAE模型的近似查询算法进行实现。
5、结果分析
(1)克服数据偏斜的效果分析
为测试本发明的CVWGAQP++算法在偏斜数据中的查询效果,本发明在偏斜因子不同的合成数据集中进行实验,并选用上述对比算法进行对比,实验结果如图6所示。
从图6中可以看出,当偏斜因子为0,数据均匀分布时,本发明的算法与各对比算法都有着较高的准确率,Avg_RE相差不大;当偏斜因子为1.0时,SAQP++算法的Avg_RE已经超过0.15,而本发明的算法的Avg_RE却只增加不到0.04,且低于VAE与CWGAN。而且偏斜因子从0增加到2的过程中,本发明算法的Avg_RE前后变化平稳,因此,本发明提出的算法能够有效地克服数据偏斜对近似查询的影响。
(2)查询结果质量分析
本发明在不同规模的真实数据集下,保持生成样本的规模及查询范围的大小不变,将本发明的算法与本实验中的其他对比算法进行对比测试,实验结果如图7所示。从图中可以发现,相较于其他对比算法,本发明的CVWGAQP++算法具有更高的准确性,而且随着原始数据规模的增加,CVWGAQP++算法的平均相对误差增长较小,能够更加准确地回答用户查询。
(3)查询响应时间分析
本发明在真实数据集下,通过变化各算法生成数据的规模,测试CVWGAQP++算法与其他对比算法对用户查询的平均响应时间,实验结果如图8所示。从图中可以看出,在预先加载好生成模型的情况下,随着生成的数据规模的增加,CVWGAQP++等生成模型算法的平均响应时间远小于SAQP++算法,原因在于CVWGAQP++算法在回答用户查询时,只需利用预先加载的生成模型,根据查询需要生成数据样本,而无需访问底层数据,从而能够避免磁盘交互,减少查询时间。CVWGAQP++为保证查询精度引入了表决算法,因此,其查询响应时间高于CWGAN与VAE等算法,但从总体来看,相互之间差距并不大。因此,本文提出的CVWGAQP++算法可以很好地满足用户查询的交互性。
本发明提供了基于条件生成模型的近似查询处理算法。首先,本发明构建了一种高效的深度生成模型,该模型融合CVAE、CGAN等经典的模型算法,并引入Wasserstein距离作为误差衡量,消除模型坍塌;其次,将该模型应用于近似查询,并与聚集预计算相结合,提出CVWGAQP++算法框架;同时,设计了高效的表决算法,降低近似查询误差。实验结果表明,本发明提出的算法相较于对比算法在性能上有显著的提高。

Claims (5)

1.基于条件生成模型的近似查询处理算法,包括:
采用聚集预计算获得用户查询的预聚集值;
对用户查询进行处理,获得估计用户查询与预聚集范围之间差异的新查询newQ及选择的预聚集值;其特征在于:
构建基于Wasserstein的条件变分生成对抗网络模型,利用训练完成的模型为新查询newQ生成数据样本;
对生成的数据样本进行过滤,将过滤后的数据样本与选择的预聚集值相结合,计算得到最终的查询估计值;
所述的模型由编码网络、生成网络以及鉴别网络组成;
所述模型的训练过程包括数据预处理阶段,对原始数据进行聚类预处理,获得聚类后的真实数据X以及各类的条件特征Y;
所述模型的训练过程还包括迭代训练阶段,将所述数据预处理阶段获得的真实数据X与对应的条件特征Y相融合作为模型的输入,使用编码网络得到潜层空间中数据分布的均值μ与方差δ2;并以μ和δ2作为参数,通过Random()随机函数产生潜层空间中的噪音数据Z={z1,...,zn};生成网络从潜层空间中随机地抽取一组噪音数据,并通过深层网络模型生成满足条件特征Y的虚假样本X_Fake;使用鉴别网络对X_Fake进行判断,得到X_Fake为真的概率值;
所述迭代训练阶段还包括采用KL散度损失函数来计算编码网络的误差损失,计算公式为:
Figure FDA0003593005930000011
其中,KL_loss表示编码网络构造的潜层空间中,数据的实际分布Q(Z|X)与期望分布P(Z|X)之间的差异;μ和σ2分别表示编码网络生成的均值与方差;k表示模型在数据预处理阶段聚类所划分的类别的个数;j=1,2,……,k,表示第j个类别;
所述迭代训练阶段还包括采用Wasserstein距离作为损失函数计算生成网络、鉴别网络的误差损失:
G_loss=-E(D(X_Fake))
D_loss=E(D(X_Fake))-E(D(X))
其中,G、D分别表示生成网络和鉴别网络;D(X_Fake)表示虚假数据X_Fake为真的概率。
2.根据权利要求1所述的基于条件生成模型的近似查询处理算法,其特征在于:所述迭代训练阶段还包括采用交叉熵损失函数来计算生成网络的误差损失:
Figure FDA0003593005930000021
其中,RE_loss表示生成网络生成的虚假数据X_Fake与真实数据X之间的差异。
3.根据权利要求1所述的基于条件生成模型的近似查询处理算法,其特征在于:在所述迭代训练阶段,使用RMSPropOptimizer作为模型优化器,优化各网络的参数。
4.根据权利要求1所述的基于条件生成模型的近似查询处理算法,其特征在于:采用所述预处理阶段获得的原始数据的各个类别作为预聚集计算的范围。
5.根据权利要求1-4任一项所述的基于条件生成模型的近似查询处理算法,其特征在于:所述数据样本的过滤采用表决算法;所述的表决算法包括样本过滤器和数据过滤器;所述样本过滤器用于对模型生成的单一样本进行分类预测;所述数据过滤器用于对样本内部数据进行快速预测。
CN202110487805.3A 2021-04-30 2021-04-30 基于条件生成模型的近似查询处理算法 Active CN113177078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110487805.3A CN113177078B (zh) 2021-04-30 2021-04-30 基于条件生成模型的近似查询处理算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110487805.3A CN113177078B (zh) 2021-04-30 2021-04-30 基于条件生成模型的近似查询处理算法

Publications (2)

Publication Number Publication Date
CN113177078A CN113177078A (zh) 2021-07-27
CN113177078B true CN113177078B (zh) 2022-06-17

Family

ID=76928234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110487805.3A Active CN113177078B (zh) 2021-04-30 2021-04-30 基于条件生成模型的近似查询处理算法

Country Status (1)

Country Link
CN (1) CN113177078B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117785930A (zh) * 2022-09-21 2024-03-29 华为云计算技术有限公司 一种数据查询方法和云服务系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763857A (zh) * 2018-05-29 2018-11-06 浙江工业大学 一种基于相似度生成对抗网络的过程软测量建模方法
CN109002686A (zh) * 2018-04-26 2018-12-14 浙江工业大学 一种自动生成样本的多牌号化工过程软测量建模方法
CN109120652A (zh) * 2018-11-09 2019-01-01 重庆邮电大学 基于差分wgan网络安全态势预测
CN110245380A (zh) * 2019-05-10 2019-09-17 西安理工大学 软仪表训练和样本补充方法
CN110414780A (zh) * 2019-06-18 2019-11-05 东华大学 一种基于生成对抗网络的金融交易负样本生成方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112070209A (zh) * 2020-08-13 2020-12-11 河北大学 基于w距离的稳定可控图像生成模型训练方法
CN112489154A (zh) * 2020-12-07 2021-03-12 重庆邮电大学 基于局部优化生成对抗网络的mri运动伪影校正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102019210270A1 (de) * 2019-05-23 2020-11-26 Robert Bosch Gmbh Verfahren zum Trainieren eines Generative Adversarial Networks (GAN), Generative Adversarial Network, Computerprogramm, maschinenlesbares Speichermedium und Vorrichtung

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002686A (zh) * 2018-04-26 2018-12-14 浙江工业大学 一种自动生成样本的多牌号化工过程软测量建模方法
CN108763857A (zh) * 2018-05-29 2018-11-06 浙江工业大学 一种基于相似度生成对抗网络的过程软测量建模方法
CN109120652A (zh) * 2018-11-09 2019-01-01 重庆邮电大学 基于差分wgan网络安全态势预测
CN110245380A (zh) * 2019-05-10 2019-09-17 西安理工大学 软仪表训练和样本补充方法
CN110414780A (zh) * 2019-06-18 2019-11-05 东华大学 一种基于生成对抗网络的金融交易负样本生成方法
CN111966883A (zh) * 2020-08-13 2020-11-20 成都考拉悠然科技有限公司 结合自动编码器和生成对抗网络的零样本跨模态检索方法
CN112070209A (zh) * 2020-08-13 2020-12-11 河北大学 基于w距离的稳定可控图像生成模型训练方法
CN112489154A (zh) * 2020-12-07 2021-03-12 重庆邮电大学 基于局部优化生成对抗网络的mri运动伪影校正方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
anders boesen lindbo larsen.et."autoencoding beyond pixels using a learned similarity metric".《arxiv》.2016, *
Martin Arjovsky.et."TOWARDS PRINCIPLED METHODS FOR TRAINING GENERATIVE ADVERSARIAL NETWORKS".《arxiv》.2017, *

Also Published As

Publication number Publication date
CN113177078A (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
Shekhar et al. Gaussian process bandits with adaptive discretization
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN112861066B (zh) 基于机器学习和fft的盲源分离信源数目并行估计方法
CN112633328A (zh) 一种基于深度学习的致密油藏改造效果评价方法
Huang et al. Weighting method for feature selection in k-means
CN113177078B (zh) 基于条件生成模型的近似查询处理算法
Michel et al. Tree-structured nonlinear signal modeling and prediction
CN111782805A (zh) 一种文本标签分类方法及系统
CN116502091A (zh) 一种基于lstm和注意力机制的网络入侵检测方法
CN110941542A (zh) 基于弹性网络的序列集成高维数据异常检测系统及方法
CN113642029B (zh) 一种度量数据样本与模型决策边界相关性的方法及系统
CN114997366A (zh) 基于图神经网络的蛋白质结构模型质量评估方法
Huang et al. Application of hidden markov chain and artificial neural networks in music recognition and classification
Yang et al. Adaptive density peak clustering for determinging cluster center
Jeong et al. Aerodynamic optimization design with Kriging model
CN112766336A (zh) 一种最大化随机平滑下提高模型可验证防御性能的方法
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
Duch et al. Multilayer perceptron trained with numerical gradient
CN116662859B (zh) 非遗文化数据特征选择方法
Khoram et al. TOCO: A framework for compressing neural network models based on tolerance analysis
Garrison et al. A Technique to Enable Online Machine Learning Applications for Simulation Optimization
CN117614664A (zh) 基于攻击警告权重聚类的多阶段攻击预测方法
Sajib Rejection Sampling Schemes for Simulating from Arbitrary Probability Densities
Jordovic Pavlovic et al. Principal Component Analysis in Processing Photoacoustic Measurement Data
Gao et al. NGSIM vehicle trajectory reconstruction method based on wavelet analysis.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant