CN110969253A - 云环境下基于粒度计算的大数据处理方法 - Google Patents
云环境下基于粒度计算的大数据处理方法 Download PDFInfo
- Publication number
- CN110969253A CN110969253A CN201811145357.3A CN201811145357A CN110969253A CN 110969253 A CN110969253 A CN 110969253A CN 201811145357 A CN201811145357 A CN 201811145357A CN 110969253 A CN110969253 A CN 110969253A
- Authority
- CN
- China
- Prior art keywords
- fuzzy
- approximation
- entropy
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000009467 reduction Effects 0.000 claims abstract description 34
- 239000002245 particle Substances 0.000 claims abstract description 29
- 230000001133 acceleration Effects 0.000 claims abstract description 15
- 238000007405 data analysis Methods 0.000 claims abstract description 10
- 238000004439 roughness measurement Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 32
- 230000000295 complement effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 24
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000011160 research Methods 0.000 abstract description 9
- 238000005259 measurement Methods 0.000 description 4
- 238000000691 measurement method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/02—Computing arrangements based on specific mathematical models using fuzzy logic
- G06N7/023—Learning or tuning the parameters of a fuzzy system
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种云环境下基于粒度计算的大数据方法,(1)建立面向混合型数据分析的变精度模糊粗糙集模型;将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则,在上下集近似中考虑信息表元素来评价决策近似集的包含度,并且这些元素是包含在包含度够高的近似集中;(2)提出基于随机熵的数据粗糙性度量方法,方便研究行之有效的粗糙性度量技术;(3)设计一种基于粒计算的海量数据并行属性约简加速算法,将大数据分析处理充分结合云计算平台,采用模型‑数据并行的研究方法,旨在解决海量数据、高维复杂数据属性约简。
Description
技术领域
本发明在对粒度计算的基本原理与应用的研究基础上,对大数据处理的现状进行系 统、全面地分析与总结,以云平台为基础,引入粒度计算的“分而治之”的特性来降低 大数据的复杂性,研究大数据处理的三个关键技术,主要工作分为如下三个方面:建立 面向混合型数据的变精度模糊粗糙集模型,提出数据粗糙性的度量方法,提出了一种基 于粒计算的海量数据并行属性约简加速算法。
背景技术
随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行 业应用所产生的数据呈爆炸性增长。由于大数据处理需求的迫切性和重要性,美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划,以推动政府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。国内的学术 界和工业界也都迅速行动,广泛开展大数据技术的研究和开发。
大数据技术的发展将给我们研究计算机技术的专业人员带来新的挑战和机遇。大数 据使得很多在小数据集上有效的传统的串行化算法在面对大数据处理时难以在可接受的 时间内完成计算;同时大数据含有较多噪音、样本稀疏、样本不平衡等特点使得现有的很 多机器学习算法有效性降低。针对大数据所具有的4V特点:Volume(巨量)、Velocity(高速)、Variety(多样)、Value(价值),云计算平台为大数据的处理提供了良好的平 台基础;粒度计算的思想起源于上世纪70年代末,它是模仿人类思考问题的方式,用来 处理不完全、不可靠、不精确、不一致和不确定的知识。它是人工智能研究的最重要基 础,可以将其运用到当前世界面临的大数据处理的挑战中。当前的大数据处理研究主要 分为四个方面:大数据处理范式、大数据处理算法、大数据处理平台以及大数据处理应 用。它们之间的逻辑关系如图1所示。
发明内容
本发明在对粒度计算的基本原理与应用的研究基础上,对大数据处理的现状进行系 统、全面地分析与总结,以云平台为基础,引入粒度计算的“分而治之”的特性来降低 大数据的复杂性。本项目重点研究变精度模糊粗糙集模型、基于这种模型的粗糙性度量 方法以及基于粒计算的海量数据并行属性约简加速算法,旨在解决云环境下大数据挖掘 问题,提供一种云环境下基于粒度计算的大数据处理方法。本发明主要体现在如下三个 方面:
(1)面向混合型数据分析的变精度模糊粗糙集模型
大数据的结构相对复杂,且高度动态变化,因此,合理的对其进行有效的管理和组织, 对整个大数据的处理效率具有极大的改善。本发明针对大数据的特性,将扩展的ziarko 变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗 糙集模型的创新点是上下近似集的确定规则,在上下集近似中考虑信息表元素来评价决 策近似集的包含度,并且这些元素是包含在包含度够高的近似集中。这种大数据组织模 型能够提高大数据处理效率,为大数据处理奠定良好的组织基础。
(2)基于随机熵的数据粗糙性度量方法
云环境下的大数据处理的请求相对比较复杂,在变精度模糊粗糙集模型中,粗糙性具 有信息的不确定性,而数据的随机性、模糊性、与粗糙性是主要的不确定表现形式。粗糙性是知识不完备和目标概念的上、下近似不相等产生的边界域问题导致的,是信息不 确定的刻画方式。虽然国内外学者已经从不同角度研究了粗糙性和模糊性与随机性的关 系和其度量,但是没有形成一种数学公理化定义。本发明提出提出一种基于随机熵的粗 糙集模糊度量公式,方便研究行之有效的粗糙性度量技术。
(3)一种基于粒计算的海量数据并行属性约简加速算法
基于变精度模糊粗糙集模型和粗糙性度量方法,本发明提出了一种基于粒计算的海 量数据并行属性约简加速算法,本算法将大数据分析处理充分结合云计算平台,采用模型-数据并行的研究方法,旨在解决海量数据、高维复杂数据属性约简。这些算法能够有 效的解决大数据处理中可靠性差的问题,同时在很大程度上提高大数据处理的效率。
具体而言,本发明提供的云环境下基于粒度计算的大数据方法以大数据环境下的粒 计算处理框架为基础,包括:
100、建立面向混合型数据的变精度模糊粗糙集模型;
200、提出基于随机熵的数据粗糙性度量方法;
300、设计一种基于粒计算的海量数据并行属性约简加速算法。
上述云环境下基于粒度计算的大数据方法,所述步骤100建立面向混合型数据的变 精度模糊粗糙集模型,具体包括:
本发明针对大数据的特性,将扩展的z iarko变精度粗糙集思想同模糊粗糙集理论相 结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定 规则,在上下集近似中考虑信息表元素来评价决策近似集的包含度,并且这些元素是包 含在包含度够高的近似集中。该步骤包括以下分步骤:
101、扩展的变精度粗糙集模型
它带有对称的边界l和u,其中:0≤l<u≤1。借助于下限l和上限u,对于论域U及 U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为:
102、模糊逻辑算子
t-模,t-余模和反子是模糊逻辑算子中的概念基础,模糊逻辑算子有很多,其中和本 文相关的蕴含算子为S-蕴涵算子为:基于和Ns的Lukasiewicz蕴涵算子 φL(x,y)=min{1,1-x+y};R-蕴涵算子为:基于θL的Lukasiewicz蕴涵算子 φL(x,y)=min{1,1-x+y};QL-蕴涵算子为:基于θL和和Ns的kleene-Dienes蕴涵算 子φKD(x,y)=max{1-x,y};
103、模糊包含集
假设U是论域,A和B是论域U上的模糊子集,可以称集合A包含于集合B,如果关系μA(x)≤μB(x)成立,则称集合A包含于B的程度等于1或称集合A包含 于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度,定义一个新的模糊 集称为模糊包含集,记作AB。
A属于B的模糊包含集AB用蕴含算子表示:
104、变精度模糊粗糙集模型
假设T是[0,1]上的三角模,R是有限论域U上的二元模糊T相似关系,即R满足对 于任意x,y,z∈U。此定义具有自反性、对称性和T-传递性,称(U,R)为模糊T-近似空 间。在此近似空间上,我们可以在论域U上定义任意模糊集从而获得相似类的近似描述。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤1,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...Un}是论域U的相似类,F是论域U上定义的任意模糊 集,则集合F关于R的u-下近似(l-上近似)是U/R上的一个模糊集,其成员函数为:
在集合F关于R的u-下近似中,假设αu存在的话,集合Su又包含了至少以包含度αu包含于集合F的相似类Ui的元素,成员函数fu是由Su中较好的元素决定的,而不是由全体类 Ui(i=1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似, 从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出:在评价α-包含错误率 Pα(A,B),应该使用R-蕴涵算子。
在集合F关于R的l-上近似中,我们同样想阻止大类Ui中“好”的元素增加上近似。包含错误率是基于交集Ui∩F(t-模算子),并描述为Pα'(Ui,F)。同包含错误率Pα(Ui,F) 一样,在清晰集中,对于任意的非空的子集A,和α∈(0,1],则相对错误率P(A,B)与 a-包含错误率Pα'(A,B)等价。
本发明提出的模型基础为:基于混合数据分析处理,应该使得模型更加适用于实际 的数据分析,所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤l,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...,Un}是论域U的相似类,F是论域U上定义的任意模 糊集,则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集,其成员 函数定义为:
数值fu和fl表示了相似类Ui包含于模糊集F的包含度的平均值,它是由至少分别以αu和αl包含于模糊集F的Ui中元素构成的。
上述云环境下基于粒度计算的大数据方法,所述200基于随机熵的粗糙性度量方法; 在粗糙集理论框架下,问题是由目标边界的存在引起的,随机性度量与粗糙集的本质是 刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示。该步骤包括以下分步骤:
201、根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息 表的不确定性便可以用这一概率分布的Shannon熵表示,其特征包括:
给定一个信息表S=(U,C),Xi∈U/C,那么信息表S的Shannon熵定义为:
决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如,给定 决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的熵定义为:
这种熵的特点是同时包含了目标概念和其互补集的信息。
给定信息表S=(U,C),Xi∈U/C,那么信息表S的互补熵定义为:给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的互补条件熵定义为: 其中和分别是Yj和Xi的补集。那么目标概念Y 关于C的互补熵定义为:其中Yc和是Y和Xi的补集。 本文提出随机熵的粗糙度量伦理。
由定理可知,目标概念的互补熵可以度量其粗糙性,而且互补熵比Shannon熵更加精 细的反应了粗糙性的变化。
202、近似约简算法执行步骤
步骤一、初始化目标信息系统;
步骤二、计算原目标信息系统的近似质量γR;
步骤三、计算原目标信息系统的互补条件熵,确定属性约简的粗糙性变化;
步骤四、求便目标信息系统中删除一个属性元素的关系R',由R'确定的划分 Γ'=U/R'={U1,U2,...Un}和新目标信息系统的近似质量γR';
步骤五、比较γR和γR',记误差值ε,当|γR-γR'|<ε时,称新目标信息系统是原目标 信息系统的一个近似约简;
步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探,直 到试探完所有的属性,并得到目标信息系统的近似约简。
上述云环境下基于粒度计算的大数据方法,所述300基于粒计算的海量数据并行属 性约简加速算法;本发明着重于数据量大、特征维度高的特点,给出一种统一的并行大规模特征选择框架。在并行特征提取方法上,本文采用模型-数据并行方法,基于模型层面、数据层面的双重加速,用于解决大数据中数据量大和特征维度高的问题。该步骤包 括以下分步骤:
301、粒度粗细划分定义,
302、基于模型-数据的并行大规模属性约简算法的详细算法步骤
步骤一、初始化信息粒表示,即G(A)(其中A=C∪D)。在Spark中,G(A)是一个 RDD对象,计算完成后惊醒缓存,后续计算只需要条用缓存数据即可;
步骤二、初始化属性候选集;
步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值;
步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G(A), 并行构建相应的信息粒表示G(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey 和Sum。
步骤五、计算属性核;
步骤六、用迭代更新的方法计算属性约简,直到满足停止条件。
本发明具有以下有益效果:
本发明在对粒度计算的基本原理与应用的研究基础上,对大数据处理的现状进行系 统、全面地分析与总结,以云平台为基础,引入粒度计算的“分而治之”的特性来降低 大数据的复杂性。重点提出解决基于粒度计算的大数据处理的三个主要问题,即:变精 度模糊粗糙集模型,以及基于这种模型的粗糙性度量方法,旨在解决云环境下大数据处 理的一种基于粒计算的海量数据并行属性约简加速算法。
附图说明
图1大数据处理研究逻辑关系。
图2大数据环境下的粒计算处理框架。
具体实施方式
针对大数据的特性,目前比较常用的大数据问题粒计算解决框架如图2所示。对大数据处理的基本流程可以总结为如下七个步骤:
步骤一、使用数据过滤和数据集成将分布式存储的多样、异质数据进行转换、抽取、 粒化,得到较为规范的数据表,消除其中的不确定性。
步骤二、针对问题,引入粒计算中的具体模型和技术将原数据粒化为粒度大小合适 的粒,降低数据规模,并构建相应的粒层及各粒层上的结构。
步骤三、在其他机器学习方法的辅导下,对信息粒进行数据挖掘或者机器学习。
步骤四、将用到的方法改造为分布式、在线增量学习的版本以满足大数据处理的及 时性要求。
步骤五、在大数据处理中,粒度的自由切换,需要考虑多个粒度层次上粒的分解与合并,还有相应解的快速构建;对某些特定问题,需要同时考虑多个粒度层次的信息, 使用“跨粒度”机制求解问题。
步骤六、从整个处理过程中,可以发现原始数据是否具有合适的粒度,为是否需要调整及如何调整原始数据的产生或采集提供指导。
步骤七、借鉴深度学习(Deep Learning)的基本思想,将关键的处理流程调整为多个 层次,让具体参数,比如:粒的大小以及粒层次数等在学习中得到优化,从而优化最终学习结果。
(1)面向混合型数据分析的变精度模糊粗糙集模型
ziarko变精度粗糙集是建立在Pawlak近似空间上的粗糙集模型,在很多实际问题中, 论域的对象之间不具有等价关系,或者说,我们很难得到关于论域的绝对准确的划分。为 了实际问题的需要,有必要研究建立在广义近似空间上的变精度粗糙集,即一般二元关系 下的变精度粗糙集模型,我们称之为广义变精度粗糙集模型。
在实际应用中,大数据分析往往存在多种类型的数据,如字符型、符号型、数值型、混合数据等等。虽然粗糙集建模和属性约简在这方面表现的知识学习效果不错,但是对 复杂数据的数据融合存在种种问题,尤其表现在数据在海量和高维时。
将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,可以得到变精度模糊粗 糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则,在上下集近似中考 虑信息表元素来评价决策近似集的包含度,并且这些元素是包含在包含度够高的近似集 中。变精度粗糙集模型思想用于动态控制过程中获得决策表是十分有实用价值的。而扩 展的变精度粗糙集模型中,它带有对称的边界l和u,其中:0≤l<u≤1。
借助于下限l和上限u,对于论域U及U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为:
或者为:
本文提出的模糊粗糙集模型是在一个划分论域与模糊关系基础上讨论模糊数据近似 问题,具体的定义如下:
a)模糊逻辑算子
t-模,t-余模和反子是模糊逻辑算子中的概念基础,模糊逻辑算子有很多,其中和本 文相关的蕴含算子为S-蕴涵算子为:基于和Ns的Lukasiewicz蕴涵算子 φL(x,y)=min{1,1-x+y}。
R-蕴涵算子为:基于θL的Lukasiewicz蕴涵算子φL(x,y)=min{1,1-x+y}。
b)模糊包含集
假设U是论域,A和B是论域U上的模糊子集,可以称集合A包含于集合B,如果关系μA(x)≤μB(x)成立,则称集合A包含于B的程度等于1或称集合A包含 于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度,定义一个新的模糊 集称为模糊包含集,记作AB。
A属于B的模糊包含集AB用蕴含算子表示:
C)α-截集
α-截集的使用可以逐渐改变水平,可以淘汰近似集中的一些成员。全部近似集在上 下近似中的包含度评价可以通过近似集中的剩余元素来实现。而水平α的取值于(0,1]中的任意值。
有关变精度模糊粗糙集模型的定义为:假设T是[0,1]上的三角模,R是有限论域U上的二元模糊T相似关系,即R满足对于任意x,y,z∈U。此定义具有自反性、对称性和 T-传递性,称(U,R)为模糊T-近似空间。在此近似空间上,我们可以在论域U上定义任 意模糊集从而获得相似类的近似描述。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤1,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...Un}是论域U的相似类,F是论域U上定义的任意模糊 集,则集合F关于R的u-下近似(l-上近似)是UR上的一个模糊集,其成员函数为:
在集合F关于R的u-下近似中,假设αu存在的话,集合Su又包含了至少以包含度αu包含于集合F的相似类Ui的元素,成员函数fu是由Su中较好的元素决定的,而不是由全体类Ui(i=1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似, 从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出:在评价α-包含错误率 Pα(A,B),应该使用R-蕴涵算子。
在集合F关于R的l-上近似中,我们同样想阻止大类Ui中“好”的元素增加上近似。包含错误率是基于交集Ui∩F(t-模算子),并描述为Pα'(Ui,F)。同包含错误率Pα(Ui,F) 一样,在清晰集中,对于任意的非空的子集和α∈(0,1],则相对错误率P(A,B)与 a-包含错误率Pα'(A,B)等价。
本发明提出的模型基础为:基于混合数据分析处理,应该使得模型更加适用于实际 的数据分析,所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤l,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...,Un}是论域U的相似类,F是论域U上定义的任意模 糊集,则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集,其成员 函数定义为:
数值fu和fl表示了相似类Ui包含于模糊集F的包含度的平均值,它是由至少分别以αu和αl包含于模糊集F的Ui中元素构成的。
(2)数据粗糙性的度量方法
数据粗糙性是信息不确定性,目标概念的下、上近似不相等等产生的边界域引起。
为了解决信息不完备导致的不确定性。提出粗糙集模糊度量,虽然国内外学者已经 从不同角度研究了粗糙性和模糊性与随机性的关系和其度量,但是没有形成一种数学公 理化定义。本文提出一种基于随机熵的粗糙性度量。
在粗糙集理论框架下,问题是由目标边界的存在引起的,随机性度量与粗糙集的本 质是刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示。给定一个信息表S=(U,C),Xi∈U/C,那么信息表S的Shannon熵定义为:
决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如,给定 决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的熵定义为:
给定信息表S=(U,C),Xi∈U/C,那么信息表S的互补熵定义为:给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的互补条件熵定义为: 其中和分别是Yj和Xi的补集。那么目标概念Y 关于C的互补熵定义为:其中Yc和是Y和Xi的补集。 本文提出随机熵的粗糙度量伦理。
由定理可知,目标概念的互补熵可以度量其粗糙性,而且互补熵比Shannon熵更加精 细的反应了粗糙性的变化。
近似约简算法的执行步骤为:
步骤一、初始化目标信息系统;
步骤二、计算原目标信息系统的近似质量γR;
步骤三、计算原目标信息系统的互补条件熵,确定属性约简的粗糙性变化;
步骤四、求便目标信息系统中删除一个属性元素的关系R',由R'确定的划分 Γ'=U/R'={U1,U2,...Un}和新目标信息系统的近似质量γR';
步骤五、比较γR和γR',记误差值ε,当|γR-γR'|<ε时,称新目标信息系统是原目标 信息系统的一个近似约简;
步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探,直 到试探完所有的属性,并得到目标信息系统的近似约简。
(3)一种基于粒计算的海量数据并行属性约简加速算法
属性约简就是特征选择,意思就是从原始特征中选择一个最相关的特征子集,降维 将复杂问题简单化。特征选择从本质上继承了奥卡姆剃刀思想,即从一组特征中选出一些最有效的特征,以构造更好的效果模型。本文比较着重于数据量大、特征维度高的特 点,给出一种统一的并行大规模特征选择框架。在并行特征提取方法上,本文采用模型- 数据并行方法,基于模型层面、数据层面的双重加速,用于解决大数据中数据量大和特 征维度高的问题。单纯采用模型并行方法时,存在不能应对海量数据的缺点。单纯采用 数据并行方法时,存在忽略模型本身并行性缺点。为此,本文将模型和数据结合,简单 来说,在每次迭代中,根据搜索策略产生的一组候选特征子集,我们用多线程实现的方式 同时启动所有特征子集的重要度计算模块;其中,每个特征子集的重要度的计算模块采用 MapReduce的方式进行计算。实际上,MDP就是一个二级并行方式。待全部特征子集的重 要度计算完成后,再根据基准进行特征筛选。
基于并行特征的提取方法,致力于解决海量数据和高维复杂数据分析问题。本发明 提出了一种基于粒计算的海量数据并行属性约简加速算法。
在粗糙集中,等价关系对论域U进行了划分得到等价类,并可对U中任意子集进行近 似描述。从粒计算的巧度看,等价关系确定了决策信息系统的基本知识粒,粒度越细,近似 描述越准确;相反,粒度越粗,近似描述越概略。
基于模型-数据的并行大规模属性约简算法的详细算法步骤如下:
步骤一、初始化信息粒表示,即G(A)(其中A=C∪D)。在Spark中,G(A)是一个 RDD对象,计算完成后惊醒缓存,后续计算只需要条用缓存数据即可;
步骤二、初始化属性候选集;
步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值;
步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G(A), 并行构建相应的信息粒表示G(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey 和Sum。
步骤五、计算属性核;
步骤六、用迭代更新的方法计算属性约简,直到满足停止条件。
Claims (7)
1.一种云环境下基于粒度计算的大数据处理方法,以大数据环境下的粒计算处理框架为基础,其特征在于,包括:
100、建立面向混合型数据的变精度模糊粗糙集模型;
200、提出基于随机熵的数据粗糙性度量方法;
300、设计一种基于粒计算的海量数据并行属性约简加速算法。
2.如权利要求1所述云环境下基于粒度计算的大数据处理方法,其特征在于,所述100包括:
建立面向混合型数据的变精度模糊粗糙集模型,具体包括:
本申请针对大数据的特性,将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则,在上下集近似中考虑信息表元素来评价决策近似集的包含度,并且这些元素是包含在包含度够高的近似集中。
3.如权利要求2所述云环境下基于粒度计算的大数据处理方法,其特征在于以下:
101、扩展的变精度粗糙集模型
它带有对称的边界l和u,其中:0≤l<u≤1。借助于下限l和上限u,对于论域U及U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为:
102、模糊逻辑算子
t-模,t-余模和反子是模糊逻辑算子中的概念基础,模糊逻辑算子有很多,其中和本文相关的蕴含算子为S-蕴涵算子为:基于和Ns的Lukasiewicz蕴涵算子φL(x,y)=min{1,1-x+y};R-蕴涵算子为:基于θL的Lukasiewicz蕴涵算子φL(x,y)=min{1,1-x+y};QL-蕴涵算子为:基于θL和和Ns的kleene-Dienes蕴涵算子φKD(x,y)=max{1-x,y};
103、模糊包含集
假设U是论域,A和B是论域U上的模糊子集,可以称集合A包含于集合B,如果关系μA(x)≤μB(x)成立,则称集合A包含于B的程度等于1或称集合A包含于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度,定义一个新的模糊集称为模糊包含集,记作AB。
A属于B的模糊包含集AB用蕴含算子表示:
104、变精度模糊粗糙集模型
假设T是[0,1]上的三角模,R是有限论域U上的二元模糊T相似关系,即R满足对于任意x,y,z∈U。此定义具有自反性、对称性和T-传递性,称(U,R)为模糊T-近似空间。在此近似空间上,我们可以在论域U上定义任意模糊集从而获得相似类的近似描述。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤1,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...Un}是论域U的相似类,F是论域U上定义的任意模糊集,则集合F关于R的u-下近似(l-上近似)是U/R上的一个模糊集,其成员函数为:
在集合F关于R的u-下近似中,假设αu存在的话,集合Su又包含了至少以包含度αu包含于集合F的相似类Ui的元素,成员函数fu是由Su中较好的元素决定的,而不是由全体类Ui(i=1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似,从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出:在评价α-包含错误率Pα(A,B),应该使用R-蕴涵算子。
在集合F关于R的l-上近似中,我们同样想阻止大类Ui中“好”的元素增加上近似。包含错误率是基于交集Ui∩F(t-模算子),并描述为Pα'(Ui,F)。同包含错误率Pα(Ui,F)一样,在清晰集中,对于任意的非空的子集和α∈(0,1],则相对错误率P(A,B)与a-包含错误率Pα'(A,B)等价。
本申请提出的模型基础为:基于混合数据分析处理,应该使得模型更加适用于实际的数据分析,所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤l,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...,Un}是论域U的相似类,F是论域U上定义的任意模糊集,则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集,其成员函数定义为:
数值fu和fl表示了相似类Ui包含于模糊集F的包含度的平均值,它是由至少分别以αu和αl包含于模糊集F的Ui中元素构成的。
4.如权利要求1所述云环境下基于粒度计算的大数据处理方法,其特征在于,所述200包括:
本申请提出一种基于随机熵的粗糙性度量方法;
在粗糙集理论框架下,问题是由目标边界的存在引起的,随机性度量与粗糙集的本质是刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示。
5.如权利要求4所述云环境下基于粒度计算的大数据处理方法,其特征在于以下:
201、根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示,其特征包括:
给定一个信息表S=(U,C),Xi∈U/C,那么信息表S的Shannon熵定义为:
决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如,给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的熵定义为:
这种熵的特点是同时包含了目标概念和其互补集的信息。
给定信息表S=(U,C),Xi∈U/C,那么信息表S的互补熵定义为:给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的互补条件熵定义为:其中和分别是Yj和Xi的补集。那么目标概念Y关于C的互补熵定义为:其中Yc和是Y和Xi的补集。本文提出随机熵的粗糙度量伦理。
由定理可知,目标概念的互补熵可以度量其粗糙性,而且互补熵比Shannon熵更加精细的反应了粗糙性的变化。
202、近似约简算法执行步骤
步骤一、初始化目标信息系统;
步骤二、计算原目标信息系统的近似质量γR;
步骤三、计算原目标信息系统的互补条件熵,确定属性约简的粗糙性变化;
步骤四、求便目标信息系统中删除一个属性元素的关系R',由R'确定的划分Γ'=U/R'={U1,U2,...Un}和新目标信息系统的近似质量γR';
步骤五、比较γR和γR',记误差值ε,当|γR-γR'|<ε时,称新目标信息系统是原目标信息系统的一个近似约简;
步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探,直到试探完所有的属性,并得到目标信息系统的近似约简。
6.如权利要求1所述云环境下基于粒度计算的大数据处理方法,其特征在于,所述300包括:
一种基于粒计算的海量数据并行属性约简加速算法;
本申请着重于数据量大、特征维度高的特点,给出一种统一的并行大规模特征选择框架。在并行特征提取方法上,本文采用模型-数据并行方法,基于模型层面、数据层面的双重加速,用于解决大数据中数据量大和特征维度高的问题。
7.如权利要求6所述云环境下基于粒度计算的大数据处理方法,其特征在于以下:
301、粒度粗细划分定义,
302、基于模型-数据的并行大规模属性约简算法的详细算法步骤
步骤一、初始化信息粒表示,即G(A)(其中A=C∪D)。在Spark中,G(A)是一个RDD对象,计算完成后惊醒缓存,后续计算只需要条用缓存数据即可;
步骤二、初始化属性候选集;
步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值;
步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G(A),并行构建相应的信息粒表示G(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey和Sum。
步骤五、计算属性核;
步骤六、用迭代更新的方法计算属性约简,直到满足停止条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145357.3A CN110969253A (zh) | 2018-09-29 | 2018-09-29 | 云环境下基于粒度计算的大数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811145357.3A CN110969253A (zh) | 2018-09-29 | 2018-09-29 | 云环境下基于粒度计算的大数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110969253A true CN110969253A (zh) | 2020-04-07 |
Family
ID=70027334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811145357.3A Pending CN110969253A (zh) | 2018-09-29 | 2018-09-29 | 云环境下基于粒度计算的大数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110969253A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685661A (zh) * | 2020-12-29 | 2021-04-20 | 太极计算机股份有限公司 | 基于信息粒空间的信息组织方法、装置和设备 |
CN113012775A (zh) * | 2021-03-30 | 2021-06-22 | 南通大学 | 红斑病电子病历病变分类的增量属性约简Spark方法 |
CN114266277A (zh) * | 2021-12-27 | 2022-04-01 | 四川大学 | 一种电能质量扰动分类方法 |
CN116486067A (zh) * | 2023-04-11 | 2023-07-25 | 南通大学 | 一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法 |
CN118138473A (zh) * | 2024-04-02 | 2024-06-04 | 广东工业大学 | 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法 |
CN118138473B (zh) * | 2024-04-02 | 2024-09-24 | 广东工业大学 | 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法 |
-
2018
- 2018-09-29 CN CN201811145357.3A patent/CN110969253A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685661A (zh) * | 2020-12-29 | 2021-04-20 | 太极计算机股份有限公司 | 基于信息粒空间的信息组织方法、装置和设备 |
CN113012775A (zh) * | 2021-03-30 | 2021-06-22 | 南通大学 | 红斑病电子病历病变分类的增量属性约简Spark方法 |
CN113012775B (zh) * | 2021-03-30 | 2021-10-08 | 南通大学 | 红斑病电子病历病变分类的增量属性约简Spark方法 |
CN114266277A (zh) * | 2021-12-27 | 2022-04-01 | 四川大学 | 一种电能质量扰动分类方法 |
CN116486067A (zh) * | 2023-04-11 | 2023-07-25 | 南通大学 | 一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法 |
CN118138473A (zh) * | 2024-04-02 | 2024-06-04 | 广东工业大学 | 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法 |
CN118138473B (zh) * | 2024-04-02 | 2024-09-24 | 广东工业大学 | 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Understanding and enhancement of internal clustering validation measures | |
Tan et al. | Granularity and entropy of intuitionistic fuzzy information and their applications | |
CN110969253A (zh) | 云环境下基于粒度计算的大数据处理方法 | |
Altman | Fuzzy set theoretic approaches for handling imprecision in spatial analysis | |
Huang et al. | Noise-tolerant fuzzy-$\beta $-covering-based multigranulation rough sets and feature subset selection | |
Wang et al. | Three-way ensemble clustering for incomplete data | |
Wu et al. | A geometric framework for data fusion in information retrieval | |
Kaushik et al. | On the potential of numerical association rule mining | |
Bikku et al. | Hadoop based feature selection and decision making models on big data | |
Li et al. | Deepgraph: Graph structure predicts network growth | |
Maroulas et al. | A stable cardinality distance for topological classification | |
Karim et al. | Spatiotemporal Aspects of Big Data. | |
Zeighami et al. | Neurosketch: Fast and approximate evaluation of range aggregate queries with neural networks | |
Ma et al. | VNAS: Variational Neural Architecture Search | |
Chen et al. | Fusing multi-scale fuzzy information to detect outliers | |
Li et al. | Roughness measure based on description ability for attribute reduction in information system | |
Akhtar et al. | Optimisation algorithm-based recurrent neural network for big data classification | |
Xu | Research on clustering algorithms in data mining | |
Boulmakoul et al. | Ranking triangular fuzzy numbers using fuzzy set inclusion index | |
Hung et al. | An efficient representation model of distance distribution between uncertain objects | |
Lin et al. | Attribute reduction in fuzzy multi-covering decision systems via observational-consistency and fuzzy discernibility | |
Challa et al. | AnyStreamKM: Anytime k-medoids Clustering for Streaming Data | |
Hussain et al. | Parallel Algorithms for Median Consensus Clustering in Complex Networks | |
Kwak et al. | A Study of an modeling method of TS fuzzy system based on moving fuzzy reasoning and its application | |
Boullé | Optimum simultaneous discretization with data grid models in supervised classification: a Bayesian model selection approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200407 |