CN108920501A - 一种关系表非键属性特征抽取与数据生成方法 - Google Patents
一种关系表非键属性特征抽取与数据生成方法 Download PDFInfo
- Publication number
- CN108920501A CN108920501A CN201810511653.4A CN201810511653A CN108920501A CN 108920501 A CN108920501 A CN 108920501A CN 201810511653 A CN201810511653 A CN 201810511653A CN 108920501 A CN108920501 A CN 108920501A
- Authority
- CN
- China
- Prior art keywords
- attribute
- nonbonding
- feature space
- data set
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种关系表非键属性特征抽取与数据生成方法。该方法可细分为三个处理阶段:特征抽取、特征变换、目标数据集生成。该方法首先对原始数据集进行特征抽取,获取特征空间,对两非键属性间频数的联合分布进行相关性度量排序;然后对抽取自原始数据集的特征空间进行特征变换;最后依照相关性度量系列从特征变换后的特征空间生成目标数据集。本发明提供了两种应用场景:特定数据模式下数据生成场景和预测数据集随时间变化的场景。本发明不但完善了关系表数据生成的研究,而且拓展了数据生成的应用场景。
Description
技术领域
本发明属于数据生成领域。具体涉及一种关系表非键属性特征抽取与数据生成方案。
背景技术
随着信息技术的不断普及与发展,数据在医疗、政务、教育、金融、电信等诸多领域呈现出爆炸式的增长。为了适应爆炸式增长数据的管理需求,数据库管理系统的存储方案设计、集群扩展、新业务应用等都需要在部署之前进行充分的测试。数据生成能够为数据库管理系统在发布前所需的性能测试提供合适的测试数据集,在促进数据管理产业健康有序发展方面具有十分重要的意义。
传统的测试数据集生成方式是使用TPC基准工具——一种面向特定领域的数据集生成工具。例如,TPC-C用于在线交易处理,TPC-H用于决策支持等。随着数据库工具的不断增长以及有关数据集的研究逐步深入,以TPC基准为代表的数据生成方式起着越来越重要的作用。通过使用TPC基准来比较自身数据库产品和其他数据库产品之间的性能,数据库供应商能够不断提高产品质量,并最终为客户提供高性能的数据库产品。为了以更小时间代价获取更好的实验效果,研究人员使用TPC基准来获取合适的实验数据集。
作为一种自顶向下的数据生成方式,TPC基准工具在确定数据模式的基础上生成指定数量的数据集,因而在使用其生成数据集时会面临如下几个问题。
第一,TPC基准发展缓慢,无法满足人们对新领域测试数据集的需求。为一个特定领域的数据设计相应的TPC基准需要首先明确领域数据的通用模式,它要求设计者对领域数据集的特点具有总体把握。而对于来自新领域的数据集,研究人员无法快速了解该领域数据的特点。因此,TPC基准工具无法适应现今新领域数据的发展速度。
第二,TPC基准在数据集生成中的适用场景有限。由于数据模式确定,它只能合成特定数据模式下的数据集,却无法预测数据集随时间变化的趋势。
出于上述两方面因素的考虑,人们逐渐抛弃原来以TPC基准工具为代表的自顶向下的数据生成方式,转而研究自底向上的数据生成方式,即根据抽取自原始数据集的特征来进行数据生成。
数据生成所研究的数据可以是图数据、RDF数据或者是关系表,这取决于数据的存储形式。在数据库管理系统发展的过程中,相比于非关系型数据(图数据、RDF数据等),关系表一直是数据存储的主要形式之一。因此,关系表的数据生成研究,对于帮助提高关系型数据库的产品质量,促进数据管理产业健康有序发展具有十分重要的战略意义和现实意义。
在针对关系表的数据生成研究中,主外键作为关系表中的核心,最先引起人们的关注,因而关系表主外键的数据生成研究也较为成熟;另一方面,作为关系表的重要组成部分,非键属性拥有关系表中除关系以外的大部分有用信息,忽略非键属性进行的数据生成只能保留关系表中的原始关系,却难以保留关系表中数据本身的特征。因此,关系表非键属性的数据生成研究具有十分重要的意义。由于非键属性拥有属性类型不确定、无完整性约束等特点,到目前为止,非键属性的数据生成研究相对缺乏。
综上所述,有关关系表非键属性数据生成的研究在关系表数据生成、基准测试、科研工作、数据流通、数据脱敏等诸如领域具有重要的研究意义和应用价值。
发明内容
本发明的目的是克服现有技术存在的上述不足,提供一种关系表非键属性数据生成的方法,并进一步提供一个关系表非键属性数据生成的统一生成框架。通过该框架,用户可以方便地将其应用于不同领域不同目的的关系表非键属性的数据生成问题中。
本发明提供的关系表非键属性特征抽取与数据生成方法详细步骤包括:
第1、对原始数据集进行特征抽取
第1.1、对原始数据集进行分组映射,获取分组数据集;
将原始数据集非键属性按照数据类型分为类别型和数值型,并对类别型进行一对一的分组映射,对数值型进行离散化分组映射。通过分组映射,将原始数据集转换为相应的分组数据集;
定义1:分组数据集;定义如下:
分组数据集是指非键属性通过分组映射后的所获得的数据集,其存储数据皆为不具有实际意义的自然数值,代表相应属性下的分组类别。
第1.2、对分组数据集进行特征抽取,获取相应的特征空间;
定义2:特征空间;定义如下:
特征空间是指方案期望保留的分组数据集上特征的总称,它包括单属性频数分布和两非键属性频数的联合分布。单属性频数分布是指分组数据集中单个非键属性分组的频数分布;而两非键属性频数的联合分布是指分组数据集中任意两个非键属性之间分组取值组合的频数分布。
第1.3、对特征空间中两非键属性间频数的联合分布进行相关性度量排序;
定义3:相关性度量;定义如下:
相关性度量是两非键属性间相关性强弱的评价指标,通过对两非键属性频数的联合分布进行计算可获取相应的相关性度量。相关性度量的计算方式实际上可看成是一种列联表中关联性度量的计算方式。
本发明通过对特征空间中所有联合分布进行相关性度量来获取特征空间的相关性度量序列,并以此来指导目标数据集非键属性的生成次序。
第2、对抽取自原始数据集的特征空间进行特征变换
变换抽取得到的特征空间中的分布,即扩大或缩小整个特征空间所包含的元组数。该阶段下,方法根据数据生成所要应用的不同场景,选择不同的特征变换方法,具体如下:
(1)若要使得目标合成数据集拥有类似于原始数据集的统计特征,可通过将特征空间中的分布按比例放缩的方式实现整体的变换,再将结果进行微调以使特征空间可用于生成目标分组数据集;
(2)若要使得目标合成数据集成为原始数据集随时间变化的一个未来状态,可通过使用预测的方式来实现特征空间的特征变换。一种可行的方式是,对原始数据集进行切割,并对每个切割块进行特征抽取获取相应的特征空间,再通过对每个分组对进行非线性拟合、预测来实现特征空间的整体特征变换,最后将结果进行微调以使特征空间可用于生成目标分组数据集。
为使变换后的特征空间能够用于第3步的目标数据集生成,要求变换后的特征空间满足下述条件:
(1)任意两个包含有同一非键属性的两非键属性频数的联合分布中,同一非键属性的频数分布保持一致;
(2)任意一个特定的非键属性,在任意一个包含有该非键属性的两非键属性频数的联合分布中,其频数分布与该非键属性的单属性频数分布保持一致。
第3、依照相关性度量序列从变换后的特征空间生成目标数据集
第3.1、目标分组数据集的生成;
采用增量式的生成方式从变换后的特征空间中生成目标分组数据集非键属性的分组序列,目标分组数据集中非键属性的生成次序则依照第1.3步中获取的相关性度量序列来指导,该阶段按如下的步骤生成目标数据集。
(1)新属性选取:根据相关性度量序列和已生成非键属性集合按照topK思想选取下一个要生成的非键属性,通过将已生成非键属性集合中与下一个非键属性的相关性最强的topK个度量值的和作为依据来选取下一个非键属性,其中K小于等于2;
(2)分组生成:根据topK个非键属性与新非键属性之间的联合分布和相应的单属性频数分布来生成新非键属性的分组序列,并将其合并到已生成的分组数据集中;
分组生成阶段方案主要采用三属性下分组合成算法。当新非键属性是前两个要生成的非键属性时,直接根据特征空间中的分布合成;当新非键属性是第三个甚至是第四第五个要生成的非键属性时,根据已生成非键属性集合中与新非键属性的相关性最强的topK个非键属性来生成,其中K等于2。
(3)集合更新:更新已生成非键属性集合、相关性度量序列等,以方便下一个非键属性的生成。
第3.2、将目标分组数据集的分组数值反射回实际意义的属性值。
本发明的优点和积极效果
本发明开创性地专门针对关系表非键属性的数据生成问题提出了一种关系表非键属性特征抽取与数据生成方法,该方法同时为关系表非键属性数据生成问题提供了一个三阶段数据生成框架。在数据生成的具体应用场景中,用户可通过实现自定义的特征变换方法来使整个方法适用于所要应用的场景。
本发明提供了两种应用场景:特定数据模式下数据生成场景(用于替代原TPC合成测试数据集的应用场景)和预测数据集随时间变化的场景。本发明不但完善了关系表数据生成的研究,而且拓展了数据生成的应用场景。
附图说明
图1是方案整体框架图;
图2是方案整体框架及各阶段细节图;
图3是输入数据集Deg;
图4是输入数据集Deg的分组映射后的分组数据集Geg;
图5是分组数据集的特征空间Feg的联合分布集合;
图6是分组数据集的属性间相关性度量序列CoSeeg;
图7是目标分组数据集
图8是目标分组数据集的合成过程图;
图9是目标合成数据集
具体实施方式
本发明的具体实施过程分为三个阶段,以下是结合实例对三个阶段的详细实施过程做具体说明。
第1步、对原始数据集进行特征抽取
为叙述方便,本发明使用图3所示的数据集作为输入样例,原始数据集Deg是一张保存犯罪记录的数据表,包含犯罪发生的时间(星期几)、负责的警方分署以及犯罪发生的地点的经纬度。
分组映射将原始数据集中非键属性的取值转换为相应的分组,并最终获取与原始数据集相对应的分组映射结果数据集G(即由分组映射结果组成的数据集)。由之前的描述可知,本发明考虑了三种类型的非键属性,分别为固定域类别类型、可扩展域类别类型和数值类型。在分组映射过程中,类别类型会直接映射到相应的分组,而数值类型需要经过离散化后再进行映射。
对于输入数据集Deg,其分组映射结果如图4所示,其中的经纬度属性X,Y可能会有如下的映射结果。
([0,10),[10,19),[20,29),...)→(c1,c2,c3,...)
分布抽取将抽取分组映射后所获取的分组数据集G的特征空间F。对图4所描述的分组数据集Geg进行分布抽取,其抽取得到的特征空间Feg将包含如图5所示的联合分布集合。
在所抽取的特征空间F中,联合分布代表了相对应的两个非键属性之间的相关性,然而并非所有的非键属性对之间的相关性都同等重要。度量排序将对非键属性间的相关性强弱进行度量,并获取属性间相关性度量序列。
在图3的示例中,对于参考属性C生成属性D的相关性度量按照如下的步骤计算。
首先,进行归一化,联合分布G(C,D)将被转换为如下的归一化矩阵。
然后计算标准差,可以得到如下的标准差向量。
SD≈(0.2833,0.2079,0.4714)
接着,求和得到相关性度量CorC→D。
CorC→D=0.9626
最后将获取的属性间相关性度量加入到度量序列CoSe中,并保持序列仍然有序。图6是图4所描述的分组数据集的属性间相关性度量排序的结果。
属性间相关性度量序列旨在度量属性间相关性的强弱关系,获取属性间相关性度量序列,并以此来指导目标数据集生成过程中属性的生成顺序。
第2步、对抽取自原始数据集的特征空间进行特征变换
通过特征抽取,我们获取了原始数据集的特征空间,它包括单属性频数分布和两属性间频数的联合分布。由于特征空间中的分布都是频数分布,因此数据集的规模在数据集的特征空间中将得到保留,相反地,对数据集特征空间的规模进行变换将改变对应的数据集的规模。为实现目标数据集拥有指定规模的目标,特征变换对特征抽取所得到的特征空间进行变换,获取能够代表目标数据集的特征空间,变换后的特征空间将拥有目标数据集的规模。
特征变换不仅会改变特征空间本身所代表的目标数据集的规模,而且会对数据集的特征造成影响。因此在特征变换过程中具体采用的变换方法取决于数据生成方案的应用场景。
为适应不同的应用场景,本发明分别使用了两种不同的特征变换方法:
(1)不变频率的特征变换方法。该方法旨在保留原始数据集特征空间中频率分布的基础上,直接对特征空间中分布的频数进行调整,以期实现目标数据集满足相似性和指定规模两个条件的目的。该方法的重点在于,从频率分布的角度合成数据集拥有类似于原始数据集的特征空间。该方法用于适应原TPC基准合成数据集的数据生成场景。
(2)基于时间序列分析的特征变换方法。该方法从数据集随时间变化的角度考虑,通过模拟数据集的增长曲线来预测数据集在目标规模的时间节点所呈现的数据集状态。该方法的重点在于,合成数据集的特征空间类似于原始数据集在增长过程中某个特定时间节点的特征空间,而不是原始数据集本身的特征空间。该方法可应用于预测数据集随时间变化的数据生成场景。
无论是上述哪种方案,特征变换方法的具体实施过程都可分别两个步骤:单属性频数分布变换以及在此基础上的联合分布变换。
(1)单属性频数分布变换。在给定的比例因子s的指导下,方法对单属性频数分布进行变换,使其各分组数量和等于原频数分布下各分组数量和与比例因子s的乘积。
(2)联合分布变换。在给定的比例因子s和变换后的单属性频数分布的指导下,方法对联合分布进行变换,使其最终满足两个条件:不同联合分布中相同非键属性的频数分布应满足最终一致性,以及这些非键属性的频数分布应与该非键属性的单属性频数分布保持最终一致。
在不变频数的特征变换方法中,首先通过比例扩大或缩小特征空间的规模,以图4分组数据集的特征空间为例。该分组数据集中非键属性B的单属性频数分布为(3,3),非键属性C的单属性频数分布为(3,2,1),有关这两个非键属性的联合分布为
假设比例因子s=4/3,则非键属性将被扩大为(4,4),非键属性将被扩大为(4,8/3,4/3),其联合分布将被扩大为
将结果进行取整,非键属性可能的结果为(4,2,1),其联合分布可能的结果为
通过以上变换过程,原特征空间已经拥有了目标数据集的规模。为使变换后的特征空间满足条件,方法需要对经过上述变换得到的特征空间进行微调。
对于单属性频数分布,其分布本身是一维向量,因此方法将计算分布向量和,比较求和结果是否等于目标频数分布向量和,再依概率的方式调整个别位置的数值,并最终使得微调后的单属性频数分布满足条件。
对于联合分布,其分布为二维矩阵,微调需兼顾行向量和及列向量和。本文采用的微调方式并不一定是最优的,但在保证误差在可控范围的基础上,其效率是较为可观的。本方案中,联合分布的微调作为整个特征变换的最后一步,是建立在单属性频数分布的微调之上的,其具体实现步骤如下所述。
(1)统计分组。分别按行按列统计联合分布矩阵的向量和。在此基础上,按行按列比较各个向量和与对应单属性频数分布下相应位置的值,以此将行向量和列向量划分为三个向量集合(向量和小于目标规模、向量和等于目标规模、向量和大于目标规模)。
(2)频数降低。按照先行向量再列向量的次序(也可以反过来),降低向量和大于目标规模的向量的频数,同时更新三个向量集合。此过程中所要降低的向量不做位置上的限制。
(3)频数提升。提升行向量(列向量)中向量和小于目标规模的向量的频数。行向量(列向量)提升时,只提升行向量(列向量)中部分位置的频数,这些位置同时是向量和小于目标规模的列向量(行向量)上的位置。
下面以上述变换后的单属性频数分布以及联合分布为例来具体说明。
首先是单属性频数分布的微调过程。非键属性B的单属性频数分布向量和为8,非键属性C的单属性频数分布向量和为7,而目标规模因此,变换非键属性C的单属性频数分布,其变换结果可能为非键属性B的单属性频数分布不需要变换,其结果为
联合分布的微调过程如下。
(1)统计分组。其中联合分布的行向量的划分结果如下。
联合分布的列向量的划分结果如下。
其中,α<,α=,α>分别代表行向量中向量和小于目标规模的向量的集合、向量和等于目标规模的向量的集合以及向量和大于目标规模的向量的集合;β<,β=,β>是相应的列向量中的集合。
(2)频数降低。我们按先行向量再列向量的次序进行。由于行向量集合中α>为空,因此直接降低列向量集合β>中向量的规模。由可知,变换后的联合分布如下。
更新{α<,α=,α>}。
更新{β<,β=,β>}。
(3)频数提升。由单属性频数分布可知,条件分布的规模应从3提升到4。另一方面,由单属性频数分布可知,条件分布的规模应从2提升到3。因此,变换后的联合分布如下。
更新{α<,α=,α>}以及{β<,β=,β>}可知,除了及以外,其他四个集合都是说明微调后的链合分布及其相应的单属性频数分布满足条件。
在基于时间序列分析的特征变换方法中,本发明使用结合数据集切割、非线性拟合的方式来实现预测。简言之,这是一种基于时间序列分析的变换方法。其基本思路为,通过对数据集按时间维度进行切割的方式获取有关原始数据集的时间序列数据。以此为基础对特征空间的分布频数进行非线性拟合。通过使用拟合曲线和比例因子s来预测目标频数。微调后即可获取目标特征空间
与不变频数的特征变换方法类似,整个方法先变换单属性频数分布,再以此基础变换联合分布。对于可扩展域的非键属性,在数据集随时间增长的过程中,属性可能出现新的分组,因此在单属性频数分布的变换之前,该方法首先会对属性分组数量进行特征变换。整个方法的具体实现步骤如下。
(1)切割。按时间维度对数据集进行切割(若数据集没有时间维度,默认数据集的元组按先后顺序产生)。切割得到的时间序列记为其结果满足且在此基础上,抽取时间序列中每个切割块的特征空间,记为
(2)分组数量变换。针对可扩展域的属性,根据时间序列中每个切割块的特征空间拟合非键属性分组数量的变化曲线;然后根据比例因子s预测结果。
(3)单属性频数分布变换。针对单属性分布上的位置,根据分割序列的特征空间进行非线性拟合;然后根据比例因子s预测结果;通过微调,获取单属性频数分布的预测结果。
(4)联合分布变换。针对联合分布上的位置,根据时间序列中每个切割块的特征空间进行非线性拟合;然后根据单属性频数分布的变换结果和比例因子s来预测结果;通过微调,获取联合分布的变换结果,即满足条件的特征空间
单属性频数分布变换和联合分布变换的具体过程可分为三步骤。1)拟合。对于分布中的特定位置,根据特征空间进行非线性拟合,得到拟合曲线。2)预测。对于分布中的特定位置,利用相应的拟合曲线和比例因子s进行预测,得到预测值,并最终获取预测后的特征空间。若s>1,对于新分组下的分布频数,需要根据数据集中新分组的分布频数变化规律来预测。在一般情况下,可扩展域的属性都遵循局部性原则,即大部分元组的属性取值落在属性取值空间的较小子集上。因此,在误差可控的范围内,本方案使用小的随机量来实现。3)微调。按照与不变频率的特征变换方法类似的方式进行微调。
整个方案中可扩展域非键属性的分组数量变换结果将指导该非键属性的单属性频数分布的变换,而单属性频数分布的变换结果将指导联合分布的变换。
以一个可扩展域的单属性频数分布为例来对以上过程进行简单说明。已知该分布如下所示。
(x1,x2,x3)=(10,12,15)
假设比例因子s=2,分组数量变换可能预测出新的分组数量为4。
然后进行单属性频数分布变换,通过拟合、预测可能得到如下的结果。
其结果的规模与目标规模相差6个元组。在微调中,使用依概率的分配方案可得到如下的结果。
第3步、依照相关性度量序列从变换后的特征空间生成目标数据集
目标数据集生成方法是基于增量式的生成方式设计实现的。特征变换方法的结果和特征抽取阶段得到的属性相关性度量序列CoSe共同构成了此算法的输入。算法的输出为生成的目标分组数据集对于满足特定条件的特征空间算法根据属性间相关性度量序列CoSe是否为空进行三步循环迭代:新属性选取,分组增量合成以及集合更新。
(1)新属性选取。
新属性选取算法在参照已合成非键属性的过程中采用topK的思想进行实现,其中整数K用于限定选取的非键属性所参照的存在于集合H中已合成非键属性的数量上限。通过将整数K设置成负数的方式可实现对数量上限限定的取消。
在算法开始循环之前,算法会初始化一个未合成非键属性集合S。然后,对未合成非键属性集合S中的非键属性X进行如下的循环。
1)根据非键属性相关性度量序列CoSe计算topK个参照已合成非键属性Y生成未合成非键属性X的度量和(若整数K<0,代表不做参照属性数量限制,则对所有参照已合成非键属性Y生成未合成非键属性X的度量求和);
2)通过对比最大化度量和,同时获取对应的未合成非键属性作为所要选取的目标属性A。
对于整个生成方法中初始合成属性的选取,由于已合成非键属性集合G是空集,因此作为替代方案,算法选取非键属性相关性度量序列CoSe中最强的相关性度量CorY→X中的非键属性Y作为初始合成属性。
以图6中的相关性度量序列CoSeeg为例。由于CorC→D和CorD→C同为最强的相关性度量,因此非键属性C和非键属性D都可作为初始合成属性。假设非键属性C被选为初始合成属性并已成功合成,则此时已合成非键属性集合未合成非键属性集合参照非键属性C,非键属性D将作为新的合成属性。在非键属性D合成以后,已合成非键属性集合未合成非键属性集合依次循环,得到合成的非键属性先后序列为
(2)分组增量合成
分组增量合成采用增量式的生成方式,将所选取的非键属性与所参照来自已合成非键属性集合H中的非键属性进行组合,并将结果加入到目标分组数据集。通过按照非键属性先后序列反复迭代,最终获取完整的目标分组数据集
对于初始非键属性而言,由于集合H为空,因此该非键属性的分组会直接加入到目标分组数据集中。对于第二个非键属性而言,方法根据其与初始非键属性的联合分布可以容易的获取分组对,并将结果加入到目标分组数据集当算法要生成第三个甚至更多的非键属性时,其生成过程需要同时考虑多个联合分布。
三属性下分组增量合成分为三个阶段:预处理、迭代合成、分布修订。
1)预处理。算法首先对三个联合分布计算相应的差值矩阵,分别记为它们将在随后的迭代合成过程中辅助算法合成目标三属性分组对。差值矩阵的计算过程如下所示。
2)迭代合成。它是整个分组合成的核心,由两种情形组成:唯一性情形和非唯一性情形。唯一性情形是指存在至少一个分组对满足以下条件的情形。
它意味着,非键属性C与分组对之间的三属性分组对的生成是唯一的。具体地,算法会在联合分布 和之间进行轮询,直至所有满足上式所给条件的分组对已全部合成。相对地,非唯一性情形是指不存在满足上式的分组对的情形。在这种情况下,算法会进行一次探测,生成一个合理的三属性分组对迭代合成阶段的每次循环,算法都会进行一次唯一性合成(对应唯一性情形)或是一次探测合成(对应非唯一性情形)。
3)分布修订。经过迭代合成后,算法可能会留下小量的误差量。分布修订首先会将误差量按满足联合分布和的原则追加到目标分组数据集中。然后联合分布将被修订以满足目标分组数据集中非键属性和的实际联合分布。分布修订阶段不是必要的,若在迭代合成的过程中,算法成功合成了足量的三属性分组对,算法将判断条件不满足,并跳过该阶段。
举例说明,假设经过特征变换方法获取的特征空间包含如图5所示的联合分布,属性相关性度量序列如图6所示,并假设非键属性和非键属性已经生成。根据前文在新属性选取阶段的例子所述可知,下一个要合成的属性为非键属性
首先,计算出三个初始化差值矩阵如下。
在第一次循环过程中,注意到且此时处于唯一性情形。通过在三个差值矩阵之间进行轮询,算法将合成三属性对和更新联合分布 和可得如下的结果。
更新差值矩阵可得如下的结果。
进入第二次循环,由于不存在满足唯一性情形所给条件的两属性分组对,因此判断其为非唯一性情形。此时算法通过探测,合成分组对并再次更新三个联合分布得到如下结果。
更新三个差值矩阵得到如下的结果。
第三次循环过程中,与第一次循环过程一样,其被判断为唯一性情形。算法将再次通过轮询合成分组对 和并更新三个联合分布可得如下的结果。
由此可知,所有的非键分组对已经全部合成,因此算法将跳过分布修正阶段直接返回。最终生成的目标分组数据集如图7所示。
以上的例子中,由于所有三属性分组对都成功生成,因此算法没有进入分布修正阶段。在实际实验的过程中,三个联合分布可能出现如下的情形。
计算相应的差值矩阵可得如下结果。
此时,算法将进入分布修正阶段。在确保联合分布和满足的基础上(假设此时选取的新属性为非键属性),算法将合成三属性分组对和然后对原始联合分布进行修订以契合目标分组数据集中非键属性和的实际联合分布。
当生成第三个非键属性时,分组合成算法采用三属性下分组合成算法来实现。当生成第四第五甚至更多的非键属性时,由于已合成非键属性集合H所拥有的非键属性数量不断增加,重新设计一个算法并将新生成非键属性与所有已合成非键属性之间的联合分布考虑在内会使得算法本身变的越来越复杂以至于难以实现。因此,分组合成算法延用三属性下分组合成算法来实现。具体地,分组合成算法首先从已合成非键属性集合H中选取与新生成非键属性相关性最强的两个非键属性,然后以此为基础采用三属性下分组合成算法来合成三属性分组对,并将其合并到目标合成数据集中。
从目标分组数据集的角度看,整个分组合成的过程如图8所示。
3)集合更新。在一个非键属性合成以后,算法需要对非键属性相关性度量序列CoSe和已合成非键属性集合H进行更新。对于度量序列CoSe,算法从中移除所有类似于CorX→A的相关性度量;对于集合H,算法将新合成的非键属性加到已合成非键属性集合H中。
回到三属性合成算法下的例子,假设集合且此时非键属性已经合成。则序列CoSe将移除相关性度量CorD→B和CorC→B,并得到更新后的序列如下。
CoSe={CorD→A,CorC→A,CorB→A}
集合H将增加非键属性并得到更新后的集合如下。
(3)值反射。
根据一个满足特定条件的特征空间分组合成能够生成一个合适的目标分组数据集其包含原始分组数据集G所拥有的所有非键属性,且满足接下来,为了得到类似于图3所示的目标数据集需要对目标分组数据集进行值反射。
特征抽取方法已经将原始数据集D进行了分组映射,而值反射是其逆过程,它使用分组映射时获取的映射空间来获取值反射的结果。针对映射空间中不存在的新的分组(可扩展域的非键属性在基于时间序列分析的特征变换方法中会产生新的分组),值反射将生成合适的随机量来代替。
具体地,对于类别类型的非键属性,值反射直接根据映射空间来获取相应的类别值;对于不存在的分组,它将生成新的随机类别;对于数值类型的非键属性,它首先根据映射空间来获取相应的区间,然后在区间内随机生成数值作为最终的反射结果。
由图7所示的目标分组数据集经过值反射后可能的目标合成数据集如图9所示。
Claims (4)
1.一种关系表非键属性特征抽取与数据生成方法,所述方法详细步骤如下:
第1、对原始数据集进行特征抽取
第1.1、对原始数据集进行分组映射,获取分组数据集;
将原始数据集非键属性按照数据类型分为类别型和数值型,并对类别型进行一对一的分组映射,对数值型进行离散化分组映射;通过分组映射,将原始数据集转换为相应的分组数据集;
定义1:分组数据集;定义如下:
分组数据集是指非键属性通过分组映射后的所获得的数据集,其存储数据皆为不具有实际意义的自然数值,代表相应属性下的分组类别;
第1.2、对分组数据集进行特征抽取,获取相应的特征空间;
定义2:特征空间;定义如下:
特征空间是指方案期望保留的分组数据集上特征的总称,它包括单属性频数分布和两非键属性频数的联合分布;单属性频数分布是指分组数据集中单个非键属性分组的频数分布;而两非键属性频数的联合分布是指分组数据集中任意两个非键属性之间分组取值组合的频数分布;
第1.3、对特征空间中两非键属性间频数的联合分布进行相关性度量排序;
定义3:相关性度量;定义如下:
相关性度量是两非键属性间相关性强弱的评价指标,通过对两非键属性频数的联合分布进行计算可获取相应的相关性度量;相关性度量的计算方式实际上可看成是一种列联表中关联性度量的计算方式;
通过对特征空间中所有联合分布进行相关性度量来获取特征空间的相关性度量序列,并以此来指导目标数据集非键属性的生成次序;
第2、对抽取自原始数据集的特征空间进行特征变换
变换抽取得到的特征空间中的分布,使整个特征空间所包含的元组数扩大或缩小;
第3、依照相关性度量序列从变换后的特征空间生成目标数据集
第3.1、目标分组数据集的生成;
采用增量式的生成方式从变换后的特征空间中生成目标分组数据集非键属性的分组序列,目标分组数据集中非键属性的生成次序则依照第1.3步中获取的相关性度量序列来指导;
第3.2、将目标分组数据集的分组数值反射回实际意义的属性值。
2.根据权利要求1所述的方法,其特征在于,第2步所述的特征变换阶段根据数据生成的最终目标自由选择不同的处理方式,具体如下:
(1)若要使得目标合成数据集拥有类似于原始数据集的统计特征,可通过将特征空间中的分布按比例放缩的方式实现整体的变换,再将结果进行微调以使特征空间可用于生成目标分组数据集;
(2)若要使得目标合成数据集成为原始数据集随时间变化的一个未来状态,可通过使用预测的方式来实现特征空间的特征变换;一种可行的方式是,对原始数据集进行切割,并对每个切割块进行特征抽取获取相应的特征空间,再通过对每个分组对进行非线性拟合、预测来实现特征空间的整体特征变换,最后将结果进行微调以使特征空间可用于生成目标分组数据集。
3.根据权利要求1所述的方法,其特征在于,第2步所述的特征变换后的特征空间应满足如下条件:
(1)任意两个包含有同一非键属性的两非键属性频数的联合分布中,同一非键属性的频数分布保持一致;
(2)任意一个特定的非键属性,在任意一个包含有该非键属性的两非键属性频数的联合分布中,其频数分布与该非键属性的单属性频数分布保持一致。
4.根据权利要求1所述的方法,其特征在于,第3步所述的目标分组数据集生成方法的具体流程如下:
目标分组数据集生成采取增量式生成方式,按如下步骤增量式生成非键属性:
(1)新属性选取:根据相关性度量序列和已生成非键属性集合按照topK思想选取下一个要生成的非键属性,通过将已生成非键属性集合中与下一个非键属性的相关性最强的topK个度量值的和作为依据来选取下一个非键属性,其中K小于等于2;
(2)分组生成:根据topK个非键属性与新非键属性之间的联合分布和相应的单属性频数分布来生成新非键属性的分组序列,并将其合并到已生成的分组数据集中;
分组生成阶段方案主要采用三属性下分组合成算法;当新非键属性是前两个要生成的非键属性时,直接根据特征空间中的分布合成;当新非键属性是第三个甚至是第四第五个要生成的非键属性时,根据已生成非键属性集合中与新非键属性的相关性最强的topK个非键属性来生成,其中K等于2;
(3)集合更新:更新已生成非键属性集合和相关性度量序列,以方便下一个非键属性的生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810511653.4A CN108920501B (zh) | 2018-05-25 | 2018-05-25 | 一种关系表非键属性特征抽取与数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810511653.4A CN108920501B (zh) | 2018-05-25 | 2018-05-25 | 一种关系表非键属性特征抽取与数据生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920501A true CN108920501A (zh) | 2018-11-30 |
CN108920501B CN108920501B (zh) | 2021-09-03 |
Family
ID=64409998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810511653.4A Active CN108920501B (zh) | 2018-05-25 | 2018-05-25 | 一种关系表非键属性特征抽取与数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920501B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694884A (zh) * | 2020-06-12 | 2020-09-22 | 广元量知汇科技有限公司 | 基于大数据的智慧政务请求处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095522A (zh) * | 2015-09-22 | 2015-11-25 | 南开大学 | 基于最近邻搜索的关系表集合外键识别方法 |
CN105843891A (zh) * | 2016-03-22 | 2016-08-10 | 浙江大学 | 一种增量式的在线特征提取分析方法及系统 |
US9886483B1 (en) * | 2010-04-29 | 2018-02-06 | Quest Software Inc. | System for providing structured query language access to non-relational data stores |
-
2018
- 2018-05-25 CN CN201810511653.4A patent/CN108920501B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9886483B1 (en) * | 2010-04-29 | 2018-02-06 | Quest Software Inc. | System for providing structured query language access to non-relational data stores |
CN105095522A (zh) * | 2015-09-22 | 2015-11-25 | 南开大学 | 基于最近邻搜索的关系表集合外键识别方法 |
CN105843891A (zh) * | 2016-03-22 | 2016-08-10 | 浙江大学 | 一种增量式的在线特征提取分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
JIANMIN BAO等: "A ranking algorithm based on contents and non-key attributes for object-level keyword search over relational databases", 《IEEE》 * |
苏茁: "基于XML的异构数据库集成研究", 《制造业自动化》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694884A (zh) * | 2020-06-12 | 2020-09-22 | 广元量知汇科技有限公司 | 基于大数据的智慧政务请求处理方法 |
CN111694884B (zh) * | 2020-06-12 | 2020-12-29 | 广州阳光耐特电子有限公司 | 基于大数据的智慧政务请求处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108920501B (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | An efficient 3D R-tree spatial index method for virtual geographic environments | |
Parimala et al. | A survey on density based clustering algorithms for mining large spatial databases | |
Pepper et al. | Solving the traveling salesman problem with annealing-based heuristics: a computational study | |
CN106919769B (zh) | 一种基于多层次方法和赋权超图的层次式fpga布局布线方法 | |
CN107292919B (zh) | 一种面向空间剖分的多尺度居民地匹配方法 | |
CN108803332B (zh) | 基于改进生物地理学的路径规划方法 | |
CN103905246B (zh) | 基于分组遗传算法的链路预测方法 | |
CN101196905A (zh) | 一种智能图形检索方法 | |
CN104462163A (zh) | 一种三维模型表征方法、检索方法及检索系统 | |
Ghose et al. | Generalizable cross-graph embedding for gnn-based congestion prediction | |
CN105912562A (zh) | 基于层次化模型的数据可视化方法及其系统 | |
CN107741999A (zh) | 一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法 | |
CN106095920A (zh) | 面向大规模高维空间数据的分布式索引方法 | |
CN109299301A (zh) | 一种基于形状分布和曲度的三维模型检索方法 | |
Alonso-Sanz | Cellular automata with memory | |
CN114970216A (zh) | 一种基于剖分网格的电磁环境可视化表达方法 | |
CN108920501A (zh) | 一种关系表非键属性特征抽取与数据生成方法 | |
CN111524214A (zh) | 一种植被生物群落的制作方法及装置 | |
CN109961129A (zh) | 一种基于改进粒子群的海上静止目标搜寻方案生成方法 | |
CN114239237A (zh) | 一种支持数字孪生的配电网仿真场景生成系统与方法 | |
KR20210027910A (ko) | 이미지 간 유사도를 이용한 유사 영역 강조 방법 및 시스템 | |
CN110020456A (zh) | 利用基于图的相似性搜索逐步生成fpga实现的方法 | |
CN117193988A (zh) | 一种晶圆级架构ai加速芯片的任务调度方法及介质 | |
WO2023061408A1 (en) | Macro placement using artificial intelligence approach | |
Gao et al. | Model similarity calculation based on self-adaptive global best harmony search algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |