CN103714095B - 一种面向模糊数据库的多维轮廓计算数据处理方法 - Google Patents

一种面向模糊数据库的多维轮廓计算数据处理方法 Download PDF

Info

Publication number
CN103714095B
CN103714095B CN201210380730.XA CN201210380730A CN103714095B CN 103714095 B CN103714095 B CN 103714095B CN 201210380730 A CN201210380730 A CN 201210380730A CN 103714095 B CN103714095 B CN 103714095B
Authority
CN
China
Prior art keywords
fuzzy
profile
calculating
module
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210380730.XA
Other languages
English (en)
Other versions
CN103714095A (zh
Inventor
黄震华
陈千
郭鑫
王栋
向阳
蒋亚琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201210380730.XA priority Critical patent/CN103714095B/zh
Publication of CN103714095A publication Critical patent/CN103714095A/zh
Application granted granted Critical
Publication of CN103714095B publication Critical patent/CN103714095B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向模糊数据库的多维轮廓计算数据处理方法,通过等价重构模块、子轮廓优化模块以及模糊数据库模式设计模块实现对多维轮廓计算的数据处理,等价重构模块接收到用户的多维轮廓计算请求后,对该多维轮廓计算进行等价重构,分解为若干个子轮廓计算和若干个轮廓视图分别进行处理,再向用户返回结果。与现有技术相比,本发明具有高效、准确等优点,能够有效应用于城市规划、智能监控、互联网舆情监测和数建模等领域。

Description

一种面向模糊数据库的多维轮廓计算数据处理方法
技术领域
本发明涉及一种数据处理方法,尤其是涉及一种面向模糊数据库的多维轮廓计算数据处理方法。
背景技术
多维轮廓计算的前身是数学领域的最大矢量计算问题,它旨在所有多维矢量中,虑除那些在各维上都不具有优势的矢量集合。对于过滤之后而剩下的那些矢量,它至少使得一个单调函数取得最优值。在最大矢量计算设计方面,有3个比较经典的算法来解决最大矢量问题,即1975年提出的DD&C算法,1978年提出的LD&C算法以及1990年提出的FLET算法。由于数学领域中的最大矢量计算问题的输入矢量个数相对较少,所以这些算法均是基于内存设计的,而不具有可扩展性。
随着数据库以及相关领域的成熟和壮大,人们从数据库领域的自身特点和应用出发来重新研究最大矢量计算问题,为重新命名为多维轮廓计算。然而这些应用的一个显著特点就是数据量的巨大性,因此在数学领域所使用的方法将不再适用。2001年的ICDE国际会议上,两个不基于任何索引技术且不限于内存的计算算法,即BNL算法和SD&C算法,被提出用于处理多维轮廓计算。由于不使用任何索引机制,因此这两个算法效率比较低。基于这个原因,随后的大部分工作均是从采用某种空间索引技术来研究如何提高多维轮廓计算的速度。比较典型和高效的工作是2002年D.Kossmann等人在VLDB会议上提出的NN算法、2003年D.Papadias等人在SIGMOD会议上提出的BBS算法、2006年M.Sharifzadeh等人在VLDB会议上提出的B2S2算法以及2009年A.Cuzzocrea等人在CIKM提出的LCMA算法。这4个算法均采用空间R树索引来加快产生多维轮廓计算结果集的速度。目前,多数企业针对确定数据库,都使用这四个算法来进行多维轮廓计算。
然而,随着企业对数据采集需求的不断深化和提高,模糊数据得到广泛的重视。在多数实际行业中(例如先进制造、物流、金融、电信、航空航天等行业),企业由于受数据采集设备的精度、数据自身不完整性等因素的制约,使得数据模糊性在企业内部数据源中普遍存在,模糊数据正扮演着关键的角色。由于模糊数据库的结构和模式比确定数据库更为复杂和灵活,因此现有确定数据库上的多维轮廓计算方法无法有效适用于模糊数据库。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种高效、准确的面向模糊数据库的多维轮廓计算数据处理方法。
本发明的目的可以通过以下技术方案来实现:
一种面向模糊数据库的多维轮廓计算数据处理方法,该方法通过等价重构模块、子轮廓优化模块以及模糊数据库模式设计模块实现对多维轮廓计算的数据处理,等价重构模块接收到用户的多维轮廓计算请求后,对该多维轮廓计算进行等价重构,分解为若干个子轮廓计算和若干个轮廓视图,并分别对若干个子轮廓计算和若干个轮廓视图进行处理,再向用户返回结果;
所述的子轮廓计算通过子轮廓优化模块进行优化,其具体过程为:首先从逻辑层面上确定子轮廓计算的原子操作关系及其最优执行顺序,并根据该顺序逐一执行原子操作,然后在物理层面上与模糊数据库模式设计模块内的模糊数据库建立索引;
所述的轮廓视图直接由等价重构模块从模糊数据库模式设计模块内的轮廓视图存储库中获取。
所述的等价重构模块进行等价重构的过程具体包括以下步骤:
1)在一阶谓词逻辑重构语义的基础上,设定多维轮廓计算的外延条件,并计算在该外延条件下的时间复杂度开销;
2)根据反转规则和局胚组合优化理论构造等价重构胚源集;
3)由步骤2)得到的胚源集利用演化和代理映射机制生成可造轮廓计算重构片段,最终产生若干个子轮廓计算和轮廓视图。
所述的模糊数据库模式设计模块内的模糊数据库通过三个层次进行底层数据构造,分别为:模糊实体-关系模式、模糊关系代数体系和模糊函数依赖推理系统。
模糊数据库的模糊数据通过无线传感器网络和异构信息抽取系统采集得到。
与现有技术相比,本发明通过等价重构,将多维轮廓计算分解为若干个子轮廓计算和若干个轮廓视图分别进行处理,提高了处理的效率,对于重构后的子轮廓计算,从逻辑层面和物理层面两个层次进行优化,使得多维轮廓计算能够有效的适用于模糊数据库。而且模糊数据库通过三个层次进行底层数据构造,引进了实体概率的定义,使得数据间和属性间的关系、操作和函数依赖蕴含和体现模糊性和不确定特征,从而更准确返回模糊数据库上的多维轮廓计算的结果。
附图说明
图1为本发明的技术框架图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种面向模糊数据库的多维轮廓计算数据处理方法,该方法通过等价重构模块1、子轮廓优化模块2以及模糊数据库模式设计模块3实现对多维轮廓计算的数据处理,主要的处理过程为等价重构模块接收到用户的多维轮廓计算请求后,对该多维轮廓计算进行等价重构,分解为若干个子轮廓计算和若干个轮廓视图,并分别对若干个子轮廓计算和若干个轮廓视图进行处理,再向用户返回结果。
其中,等价重构模块进行等价重构的过程具体包括以下步骤:首先,在一阶谓词逻辑重构语义的基础上,设定多维轮廓计算的外延条件,并计算在该外延条件下的时间复杂度开销,包括等价重构中包含/不包含HAVING子句重构的时间复杂度开销、包含/不包含算术谓词重构的时间复杂度开销、以及在包(即多集)语义下重构的时间复杂度开销等。然后,根据反转规则和局胚组合优化理论构造等价重构胚源集,其中反转规则捕获等价重构在一阶谓词逻辑中的Skolem函数描述,而局胚组合优化理论用于产生能够构成轮廓计算最大包含重构的所有胚源;最后,由得到的胚源集,利用演化和代理映射机制生成可造轮廓计算重构片段,最终产生若干个子轮廓计算和轮廓视图。
轮廓视图直接由等价重构模块从模糊数据库模式设计模块3内的轮廓视图存储库中获取,而子轮廓计算需要通过子轮廓优化模块2进行优化,其优化分为逻辑层面和物理层面两个方面:
逻辑层面:由于子轮廓计算由若干个原子操作组成(如选择、连接和轮廓建模等),是一个原子操作序列。为了能够提高子轮廓计算的实施效率,我们需要等价变换这些原子操作的执行顺序,从而获取一个最佳的子轮廓计算执行顺序。首先基于数据集的概率密度函数确定轮廓计算的精确代价模型,并基于代价的方式扩展传统的轮廓计算优化树,得到左深度轮廓计算优化树。然后,将轮廓计算作为一个关系代数操作符,从理论上确定它与传统关系代数操作符,聚集代数操作符以及RANK代数操作符之间组合等价关系的约束条件和正确性判定。接着,在左深度轮廓计算优化树上使用执行顺序等价变换规则,通过各代数操作符的上移、下移、增加代数操作符、以及变换代数操作符等策略来生成计算代价最小的代数操作符执行序列。最后,评估轮廓计算代数操作符融入传统关系代数操作符中将如何影响实施计划的搜索空间,并据此获取子轮廓计算的最佳执行顺序。
物理层面:与模糊数据库模式设计模块3内的模糊数据库建立索引,来有效进行轮廓计算代数操作符的物理层面实施。该索引结构采用动态正规桶索引结构,基于MonteCarlo方法,使用VG动态产生器来伪随机生成正规桶各维度的区间直方图片断,当底层数据周期性更新时,它能够实时捕获这些数据的概率分布变化情况,从而使得单元桶中的数据分布具有一致性,并且各单元桶所包含的数据容量基本均衡,因此,当数据分布动态变化时,动态正规桶索引结构能够保证轮廓计算代数操作符的实施效率不会出现严重的抖动。另一方面,动态正规桶索引结构能够有效识别单元桶的三种关系,即完全支配关系,局部支配关系,以及互斥关系,并根据这些关系来缩减数据间的比较次数,从而进一步降低轮廓计算代数操作符实施的时间开销。
模糊数据库模式设计模块内的模糊数据库模糊数据通过无线传感器网络和异构信息抽取系统采集得到,通过三个层次进行底层数据构造,分别为:模糊实体-关系(ER)模式、模糊关系代数体系和模糊函数依赖推理系统。
其中,模糊实体-关系(ER)模式主要通过如下四个步骤来实现:(1)在传统确定性实体-关系(ER)模式图的基础上,对于每个模糊实体赋上标签“f”,并且基于Monte Carlo方法,使用VG动态产生器来构造模糊实体属性的概率分布;(2)将模糊实体-关系(ER)模式与模糊数据库关系表引用对应;(3)在模糊数据库关系表中,构造属性级和元组级的不确定向量,从而能够从特征和内容上进行刻画数据的模糊性;(4)基于现有的模糊索引技术(如模糊R-树、模糊RD-树以及模糊M-树等)来产生数据库关系表。
在模糊关系代数体系的设计上,从两方面来具体实施:首先对于每个传统关系代数操作符,我们通过增加属性级和元组级两个层次上的概率分布来产生对应的模糊关系代数操作符,包括模糊选择、模糊投影、模糊并、模糊交、模糊差、模糊连接、模糊聚集以及模糊RANK等。其次,对于T-SQL查询语句,我们通过添加模糊关键字“FUZZY UNCERTAIN”来表明关系表的模糊特性,以及通过Monte Carlo可变系数来评估属性和元组的概率值。
在模糊函数依赖推理系统的设计上,基于模糊语义贴近度理论,通过如下三个步骤来具体实施:(1)首先给出模糊不确定函数依赖的内涵和外延,以及具有正确性和完备性的模糊不确定函数依赖基本公理系统FUArmstrong;(2)其次,从理论上论证FUArmstrong公理系统的自封闭性,即Armstrong公理系统为FUArmstrong公理系统的特例;(3)最后,使用FUArmstrong基本公理系统来实现模糊传递依赖、模糊多值依赖、模糊连接依赖,并评估传统传递依赖满足模糊传递依赖、传统多值依赖满足模糊多值依赖以及传统连接依赖满足模糊连接依赖。

Claims (3)

1.一种面向模糊数据库的多维轮廓计算数据处理方法,该方法通过等价重构模块、子轮廓优化模块以及模糊数据库模式设计模块实现对多维轮廓计算的数据处理,其特征在于,
等价重构模块接收到用户的多维轮廓计算请求后,对该多维轮廓计算进行等价重构,分解为若干个子轮廓计算和若干个轮廓视图,并分别对若干个子轮廓计算和若干个轮廓视图进行处理,再向用户返回结果;
所述的子轮廓计算通过子轮廓优化模块进行优化,其具体过程为:首先从逻辑层面上确定子轮廓计算的原子操作关系及其最优执行顺序,并根据该顺序逐一执行原子操作,然后在物理层面上与模糊数据库模式设计模块内的模糊数据库建立索引;
所述的轮廓视图直接由等价重构模块从模糊数据库模式设计模块内的轮廓视图存储库中获取;
所述的等价重构模块进行等价重构的过程具体包括以下步骤:
1)在一阶谓词逻辑重构语义的基础上,设定多维轮廓计算的外延条件,并计算在该外延条件下的时间复杂度开销;
2)根据反转规则和局胚组合优化理论构造等价重构胚源集;
3)由步骤2)得到的胚源集利用演化和代理映射机制生成可造轮廓计算重构片段,最终产生若干个子轮廓计算和轮廓视图。
2.根据权利要求1所述的一种面向模糊数据库的多维轮廓计算数据处理方法,其特征在于,所述的模糊数据库模式设计模块内的模糊数据库通过三个层次进行底层数据构造,分别为:模糊实体-关系模式、模糊关系代数体系和模糊函数依赖推理系统。
3.根据权利要求2所述的一种面向模糊数据库的多维轮廓计算数据处理方法,其特征在于,模糊数据库的模糊数据通过无线传感器网络和异构信息抽取系统采集得到。
CN201210380730.XA 2012-10-09 2012-10-09 一种面向模糊数据库的多维轮廓计算数据处理方法 Expired - Fee Related CN103714095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210380730.XA CN103714095B (zh) 2012-10-09 2012-10-09 一种面向模糊数据库的多维轮廓计算数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210380730.XA CN103714095B (zh) 2012-10-09 2012-10-09 一种面向模糊数据库的多维轮廓计算数据处理方法

Publications (2)

Publication Number Publication Date
CN103714095A CN103714095A (zh) 2014-04-09
CN103714095B true CN103714095B (zh) 2017-02-01

Family

ID=50407080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210380730.XA Expired - Fee Related CN103714095B (zh) 2012-10-09 2012-10-09 一种面向模糊数据库的多维轮廓计算数据处理方法

Country Status (1)

Country Link
CN (1) CN103714095B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182491B (zh) * 2014-08-11 2017-06-13 同济大学 一种最优轮廓服务集获取方法
CN106023315B (zh) * 2016-05-10 2019-07-12 国网电力科学研究院武汉南瑞有限责任公司 分布式虚拟现实系统中的三维实体模型细粒度多分辨率分级方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100994724B1 (ko) * 2009-01-07 2010-11-16 포항공과대학교 산학협력단 불확실성 데이터 베이스에서의 확률이 높은 상위 k개의 스카이라인 질의 방법
CN102254016A (zh) * 2011-07-22 2011-11-23 中国人民解放军国防科学技术大学 一种面向云计算环境的容错并行Skyline查询方法
CN102323957A (zh) * 2011-10-26 2012-01-18 中国人民解放军国防科学技术大学 基于垂直划分模式的分布并行Skyline查询方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100994724B1 (ko) * 2009-01-07 2010-11-16 포항공과대학교 산학협력단 불확실성 데이터 베이스에서의 확률이 높은 상위 k개의 스카이라인 질의 방법
CN102254016A (zh) * 2011-07-22 2011-11-23 中国人民解放军国防科学技术大学 一种面向云计算环境的容错并行Skyline查询方法
CN102323957A (zh) * 2011-10-26 2012-01-18 中国人民解放军国防科学技术大学 基于垂直划分模式的分布并行Skyline查询方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
不确定数据库中概率top_k和排序查询算法;周帆 等;《计算机应用》;20101031;第30卷(第10期);全文 *
不确定数据查询技术研究;王意洁 等;《计算机研究与发展》;20120715;全文 *
分布式不确定数据上的概率Skyline计算;王晓伟 等;《计算机科学与探索》;20101031;第952页第1段、第953页第1段至第954页第1段 *

Also Published As

Publication number Publication date
CN103714095A (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
Zhou et al. A learned query rewrite system using monte carlo tree search
Yuan et al. Automatic view generation with deep learning and reinforcement learning
Kim et al. Learned cardinality estimation: An in-depth study
Wang et al. FACE: A normalizing flow based cardinality estimator
Sun et al. Learned cardinality estimation: A design space exploration and a comparative evaluation
Silva et al. The similarity join database operator
CN102867066B (zh) 数据汇总装置和数据汇总方法
CN105095522A (zh) 基于最近邻搜索的关系表集合外键识别方法
Han et al. An autonomous materialized view management system with deep reinforcement learning
CN104834754A (zh) 一种基于连接代价的sparql语义数据查询优化方法
Shi et al. Learned index benefits: Machine learning based index performance estimation
Zhang et al. Learnedsqlgen: Constraint-aware sql generation using reinforcement learning
CN103049555A (zh) 保证语义正确性的动态分层集成数据访问方法
Zou et al. Survey on learnable databases: A machine learning perspective
CN103714095B (zh) 一种面向模糊数据库的多维轮廓计算数据处理方法
Aluç et al. chameleon-db: a workload-aware robust RDF data management system
Fischer et al. Offline design tuning for hierarchies of forecast models
Han et al. $\mathtt {AutoView} $: An Autonomous Materialized View Management System With Encoder-Reducer
Wang et al. Cardinality estimation using normalizing flow
Savnik et al. Statistics of knowledge graphs based on the conceptual schema
CN102737134A (zh) 适用于大规模实时数据流的查询处理方法
Galić et al. OCEANUS: a spatio-temporal data stream system prototype
CN102346873B (zh) 一种不确定数据上的多准则信息处理方法
Ge et al. Uncertain data: Representations, query processing, and applications
Silva et al. Integrating Machine Learning Model Ensembles to the SAVIME Database System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170201

Termination date: 20191009

CF01 Termination of patent right due to non-payment of annual fee