CN110969253A - 云环境下基于粒度计算的大数据处理方法 - Google Patents

云环境下基于粒度计算的大数据处理方法 Download PDF

Info

Publication number
CN110969253A
CN110969253A CN201811145357.3A CN201811145357A CN110969253A CN 110969253 A CN110969253 A CN 110969253A CN 201811145357 A CN201811145357 A CN 201811145357A CN 110969253 A CN110969253 A CN 110969253A
Authority
CN
China
Prior art keywords
fuzzy
approximation
entropy
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811145357.3A
Other languages
English (en)
Inventor
惠孛
郑莉华
陈佳
黎明
徐嘉莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811145357.3A priority Critical patent/CN110969253A/zh
Publication of CN110969253A publication Critical patent/CN110969253A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/02Computing arrangements based on specific mathematical models using fuzzy logic
    • G06N7/023Learning or tuning the parameters of a fuzzy system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云环境下基于粒度计算的大数据方法,(1)建立面向混合型数据分析的变精度模糊粗糙集模型;将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则,在上下集近似中考虑信息表元素来评价决策近似集的包含度,并且这些元素是包含在包含度够高的近似集中;(2)提出基于随机熵的数据粗糙性度量方法,方便研究行之有效的粗糙性度量技术;(3)设计一种基于粒计算的海量数据并行属性约简加速算法,将大数据分析处理充分结合云计算平台,采用模型‑数据并行的研究方法,旨在解决海量数据、高维复杂数据属性约简。

Description

云环境下基于粒度计算的大数据处理方法
技术领域
本发明在对粒度计算的基本原理与应用的研究基础上,对大数据处理的现状进行系 统、全面地分析与总结,以云平台为基础,引入粒度计算的“分而治之”的特性来降低 大数据的复杂性,研究大数据处理的三个关键技术,主要工作分为如下三个方面:建立 面向混合型数据的变精度模糊粗糙集模型,提出数据粗糙性的度量方法,提出了一种基 于粒计算的海量数据并行属性约简加速算法。
背景技术
随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行 业应用所产生的数据呈爆炸性增长。由于大数据处理需求的迫切性和重要性,美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划,以推动政府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。国内的学术 界和工业界也都迅速行动,广泛开展大数据技术的研究和开发。
大数据技术的发展将给我们研究计算机技术的专业人员带来新的挑战和机遇。大数 据使得很多在小数据集上有效的传统的串行化算法在面对大数据处理时难以在可接受的 时间内完成计算;同时大数据含有较多噪音、样本稀疏、样本不平衡等特点使得现有的很 多机器学习算法有效性降低。针对大数据所具有的4V特点:Volume(巨量)、Velocity(高速)、Variety(多样)、Value(价值),云计算平台为大数据的处理提供了良好的平 台基础;粒度计算的思想起源于上世纪70年代末,它是模仿人类思考问题的方式,用来 处理不完全、不可靠、不精确、不一致和不确定的知识。它是人工智能研究的最重要基 础,可以将其运用到当前世界面临的大数据处理的挑战中。当前的大数据处理研究主要 分为四个方面:大数据处理范式、大数据处理算法、大数据处理平台以及大数据处理应 用。它们之间的逻辑关系如图1所示。
发明内容
本发明在对粒度计算的基本原理与应用的研究基础上,对大数据处理的现状进行系 统、全面地分析与总结,以云平台为基础,引入粒度计算的“分而治之”的特性来降低 大数据的复杂性。本项目重点研究变精度模糊粗糙集模型、基于这种模型的粗糙性度量 方法以及基于粒计算的海量数据并行属性约简加速算法,旨在解决云环境下大数据挖掘 问题,提供一种云环境下基于粒度计算的大数据处理方法。本发明主要体现在如下三个 方面:
(1)面向混合型数据分析的变精度模糊粗糙集模型
大数据的结构相对复杂,且高度动态变化,因此,合理的对其进行有效的管理和组织, 对整个大数据的处理效率具有极大的改善。本发明针对大数据的特性,将扩展的ziarko 变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗 糙集模型的创新点是上下近似集的确定规则,在上下集近似中考虑信息表元素来评价决 策近似集的包含度,并且这些元素是包含在包含度够高的近似集中。这种大数据组织模 型能够提高大数据处理效率,为大数据处理奠定良好的组织基础。
(2)基于随机熵的数据粗糙性度量方法
云环境下的大数据处理的请求相对比较复杂,在变精度模糊粗糙集模型中,粗糙性具 有信息的不确定性,而数据的随机性、模糊性、与粗糙性是主要的不确定表现形式。粗糙性是知识不完备和目标概念的上、下近似不相等产生的边界域问题导致的,是信息不 确定的刻画方式。虽然国内外学者已经从不同角度研究了粗糙性和模糊性与随机性的关 系和其度量,但是没有形成一种数学公理化定义。本发明提出提出一种基于随机熵的粗 糙集模糊度量公式,方便研究行之有效的粗糙性度量技术。
(3)一种基于粒计算的海量数据并行属性约简加速算法
基于变精度模糊粗糙集模型和粗糙性度量方法,本发明提出了一种基于粒计算的海 量数据并行属性约简加速算法,本算法将大数据分析处理充分结合云计算平台,采用模型-数据并行的研究方法,旨在解决海量数据、高维复杂数据属性约简。这些算法能够有 效的解决大数据处理中可靠性差的问题,同时在很大程度上提高大数据处理的效率。
具体而言,本发明提供的云环境下基于粒度计算的大数据方法以大数据环境下的粒 计算处理框架为基础,包括:
100、建立面向混合型数据的变精度模糊粗糙集模型;
200、提出基于随机熵的数据粗糙性度量方法;
300、设计一种基于粒计算的海量数据并行属性约简加速算法。
上述云环境下基于粒度计算的大数据方法,所述步骤100建立面向混合型数据的变 精度模糊粗糙集模型,具体包括:
本发明针对大数据的特性,将扩展的z iarko变精度粗糙集思想同模糊粗糙集理论相 结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定 规则,在上下集近似中考虑信息表元素来评价决策近似集的包含度,并且这些元素是包 含在包含度够高的近似集中。该步骤包括以下分步骤:
101、扩展的变精度粗糙集模型
它带有对称的边界l和u,其中:0≤l<u≤1。借助于下限l和上限u,对于论域U及 U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为:
Figure BDA0001816690430000021
或者为:
Figure BDA0001816690430000022
Figure BDA0001816690430000031
102、模糊逻辑算子
t-模,t-余模和反子是模糊逻辑算子中的概念基础,模糊逻辑算子有很多,其中和本 文相关的蕴含算子为S-蕴涵算子为:基于
Figure BDA0001816690430000037
和Ns的Lukasiewicz蕴涵算子 φL(x,y)=min{1,1-x+y};R-蕴涵算子为:基于θL的Lukasiewicz蕴涵算子 φL(x,y)=min{1,1-x+y};QL-蕴涵算子为:基于θL
Figure BDA0001816690430000038
和Ns的kleene-Dienes蕴涵算 子φKD(x,y)=max{1-x,y};
103、模糊包含集
假设U是论域,A和B是论域U上的模糊子集,可以称集合A包含于集合B,如果关系
Figure BDA0001816690430000039
μA(x)≤μB(x)成立,则称集合A包含于B的程度等于1或称集合A包含 于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度,定义一个新的模糊 集称为模糊包含集,记作AB
A属于B的模糊包含集AB用蕴含算子表示:
Figure BDA0001816690430000032
如果μA(x)→μB(x)对于任意元素x都等于1,则关于x的包含度总是等于1,即:μA(x)→μB(x)=1(μA(x)≤μB(x))。
104、变精度模糊粗糙集模型
假设T是[0,1]上的三角模,R是有限论域U上的二元模糊T相似关系,即R满足对 于任意x,y,z∈U。此定义具有自反性、对称性和T-传递性,称(U,R)为模糊T-近似空 间。在此近似空间上,我们可以在论域U上定义任意模糊集从而获得相似类的近似描述。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤1,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...Un}是论域U的相似类,F是论域U上定义的任意模糊 集,则集合F关于R的u-下近似(l-上近似)是U/R上的一个模糊集,其成员函数为:
Figure BDA0001816690430000033
其中:
Figure BDA0001816690430000034
Figure BDA0001816690430000035
Figure BDA0001816690430000036
其中:
Figure BDA0001816690430000041
Figure BDA0001816690430000042
Figure BDA0001816690430000043
在集合F关于R的u-下近似中,假设αu存在的话,集合Su又包含了至少以包含度αu包含于集合F的相似类Ui的元素,成员函数fu是由Su中较好的元素决定的,而不是由全体类 Ui(i=1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似, 从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出:在评价α-包含错误率 Pα(A,B),应该使用R-蕴涵算子。
在集合F关于R的l-上近似中,我们同样想阻止大类Ui中“好”的元素增加上近似。包含错误率是基于交集Ui∩F(t-模算子),并描述为Pα'(Ui,F)。同包含错误率Pα(Ui,F) 一样,在清晰集中,对于任意的非空的子集A,
Figure BDA0001816690430000047
和α∈(0,1],则相对错误率P(A,B)与 a-包含错误率Pα'(A,B)等价。
本发明提出的模型基础为:基于混合数据分析处理,应该使得模型更加适用于实际 的数据分析,所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤l,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...,Un}是论域U的相似类,F是论域U上定义的任意模 糊集,则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集,其成员 函数定义为:
Figure BDA0001816690430000044
其中
Figure BDA0001816690430000045
Figure BDA0001816690430000046
其中
Figure BDA0001816690430000051
数值fu和fl表示了相似类Ui包含于模糊集F的包含度的平均值,它是由至少分别以αu和αl包含于模糊集F的Ui中元素构成的。
上述云环境下基于粒度计算的大数据方法,所述200基于随机熵的粗糙性度量方法; 在粗糙集理论框架下,问题是由目标边界的存在引起的,随机性度量与粗糙集的本质是 刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示。该步骤包括以下分步骤:
201、根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息 表的不确定性便可以用这一概率分布的Shannon熵表示,其特征包括:
给定一个信息表S=(U,C),Xi∈U/C,那么信息表S的Shannon熵定义为:
Figure BDA0001816690430000053
其中,
Figure BDA0001816690430000054
决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如,给定 决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的熵定义为:
Figure BDA0001816690430000055
其中,
Figure BDA0001816690430000056
分析可知,如果将Pij作为条件类Xi发生时的决策类Yj出现的概率,Shannon条件熵实际上是决策属性D导出的所有决策类的随机性度量的
Figure BDA0001816690430000057
和。
因此,定义给定目标概念Y的Shannon熵为:
Figure BDA0001816690430000058
这种熵的特点是同时包含了目标概念和其互补集的信息。
给定信息表S=(U,C),Xi∈U/C,那么信息表S的互补熵定义为:
Figure BDA0001816690430000059
给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的互补条件熵定义为:
Figure BDA00018166904300000510
其中
Figure BDA00018166904300000511
Figure BDA00018166904300000512
分别是Yj和Xi的补集。那么目标概念Y 关于C的互补熵定义为:
Figure BDA00018166904300000513
其中Yc
Figure BDA00018166904300000514
是Y和Xi的补集。 本文提出随机熵的粗糙度量伦理。
由定理可知,目标概念的互补熵可以度量其粗糙性,而且互补熵比Shannon熵更加精 细的反应了粗糙性的变化。
202、近似约简算法执行步骤
步骤一、初始化目标信息系统;
步骤二、计算原目标信息系统的近似质量γR
步骤三、计算原目标信息系统的互补条件熵,确定属性约简的粗糙性变化;
步骤四、求便目标信息系统中删除一个属性元素的关系R',由R'确定的划分 Γ'=U/R'={U1,U2,...Un}和新目标信息系统的近似质量γR';
步骤五、比较γR和γR',记误差值ε,当|γRR'|<ε时,称新目标信息系统是原目标 信息系统的一个近似约简;
步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探,直 到试探完所有的属性,并得到目标信息系统的近似约简。
上述云环境下基于粒度计算的大数据方法,所述300基于粒计算的海量数据并行属 性约简加速算法;本发明着重于数据量大、特征维度高的特点,给出一种统一的并行大规模特征选择框架。在并行特征提取方法上,本文采用模型-数据并行方法,基于模型层面、数据层面的双重加速,用于解决大数据中数据量大和特征维度高的问题。该步骤包 括以下分步骤:
301、粒度粗细划分定义,
为了方便讨论,我们引入了<>的定义,给定属性集A和B,
Figure BDA0001816690430000061
Figure BDA0001816690430000062
Figure BDA0001816690430000063
使得bi∈A且
Figure BDA0001816690430000064
则称
Figure BDA0001816690430000065
(即
Figure BDA0001816690430000066
)。
Figure BDA0001816690430000067
G(A)和G(B)为相应的信息粒表示。则有
Figure BDA0001816690430000068
使得
Figure BDA0001816690430000069
其中
Figure BDA00018166904300000610
称作G(A)是G(B)的细化表示(或者G(B)是G(A)的粗化表示),记 作G(A)
粗化:给定
Figure BDA00018166904300000611
EA∈U/A,
Figure BDA00018166904300000612
G(A)的粗化表示
Figure BDA00018166904300000613
EB∈U/B可以由以下计算得到:
Figure BDA00018166904300000614
EB=∪EA∈U/A
Figure BDA00018166904300000615
细化:给定
Figure BDA00018166904300000616
G(B)的粗化表示
Figure BDA00018166904300000617
EA∈U/A可以由以下计算得到:
Figure BDA00018166904300000618
302、基于模型-数据的并行大规模属性约简算法的详细算法步骤
步骤一、初始化信息粒表示,即G(A)(其中A=C∪D)。在Spark中,G(A)是一个 RDD对象,计算完成后惊醒缓存,后续计算只需要条用缓存数据即可;
步骤二、初始化属性候选集;
步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值;
步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G(A), 并行构建相应的信息粒表示G(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey 和Sum。
步骤五、计算属性核;
步骤六、用迭代更新的方法计算属性约简,直到满足停止条件。
本发明具有以下有益效果:
本发明在对粒度计算的基本原理与应用的研究基础上,对大数据处理的现状进行系 统、全面地分析与总结,以云平台为基础,引入粒度计算的“分而治之”的特性来降低 大数据的复杂性。重点提出解决基于粒度计算的大数据处理的三个主要问题,即:变精 度模糊粗糙集模型,以及基于这种模型的粗糙性度量方法,旨在解决云环境下大数据处 理的一种基于粒计算的海量数据并行属性约简加速算法。
附图说明
图1大数据处理研究逻辑关系。
图2大数据环境下的粒计算处理框架。
具体实施方式
针对大数据的特性,目前比较常用的大数据问题粒计算解决框架如图2所示。对大数据处理的基本流程可以总结为如下七个步骤:
步骤一、使用数据过滤和数据集成将分布式存储的多样、异质数据进行转换、抽取、 粒化,得到较为规范的数据表,消除其中的不确定性。
步骤二、针对问题,引入粒计算中的具体模型和技术将原数据粒化为粒度大小合适 的粒,降低数据规模,并构建相应的粒层及各粒层上的结构。
步骤三、在其他机器学习方法的辅导下,对信息粒进行数据挖掘或者机器学习。
步骤四、将用到的方法改造为分布式、在线增量学习的版本以满足大数据处理的及 时性要求。
步骤五、在大数据处理中,粒度的自由切换,需要考虑多个粒度层次上粒的分解与合并,还有相应解的快速构建;对某些特定问题,需要同时考虑多个粒度层次的信息, 使用“跨粒度”机制求解问题。
步骤六、从整个处理过程中,可以发现原始数据是否具有合适的粒度,为是否需要调整及如何调整原始数据的产生或采集提供指导。
步骤七、借鉴深度学习(Deep Learning)的基本思想,将关键的处理流程调整为多个 层次,让具体参数,比如:粒的大小以及粒层次数等在学习中得到优化,从而优化最终学习结果。
(1)面向混合型数据分析的变精度模糊粗糙集模型
ziarko变精度粗糙集是建立在Pawlak近似空间上的粗糙集模型,在很多实际问题中, 论域的对象之间不具有等价关系,或者说,我们很难得到关于论域的绝对准确的划分。为 了实际问题的需要,有必要研究建立在广义近似空间上的变精度粗糙集,即一般二元关系 下的变精度粗糙集模型,我们称之为广义变精度粗糙集模型。
在实际应用中,大数据分析往往存在多种类型的数据,如字符型、符号型、数值型、混合数据等等。虽然粗糙集建模和属性约简在这方面表现的知识学习效果不错,但是对 复杂数据的数据融合存在种种问题,尤其表现在数据在海量和高维时。
将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,可以得到变精度模糊粗 糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则,在上下集近似中考 虑信息表元素来评价决策近似集的包含度,并且这些元素是包含在包含度够高的近似集 中。变精度粗糙集模型思想用于动态控制过程中获得决策表是十分有实用价值的。而扩 展的变精度粗糙集模型中,它带有对称的边界l和u,其中:0≤l<u≤1。
借助于下限l和上限u,对于论域U及U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为:
Figure BDA0001816690430000081
或者为:
Figure BDA0001816690430000082
Figure BDA0001816690430000083
本文提出的模糊粗糙集模型是在一个划分论域与模糊关系基础上讨论模糊数据近似 问题,具体的定义如下:
a)模糊逻辑算子
t-模,t-余模和反子是模糊逻辑算子中的概念基础,模糊逻辑算子有很多,其中和本 文相关的蕴含算子为S-蕴涵算子为:基于
Figure BDA0001816690430000084
和Ns的Lukasiewicz蕴涵算子 φL(x,y)=min{1,1-x+y}。
R-蕴涵算子为:基于θL的Lukasiewicz蕴涵算子φL(x,y)=min{1,1-x+y}。
QL-蕴涵算子为:基于θL
Figure BDA0001816690430000085
和Ns的kleene-Dienes蕴涵算子 φKD(x,y)=max{1-x,y}。
b)模糊包含集
假设U是论域,A和B是论域U上的模糊子集,可以称集合A包含于集合B,如果关系
Figure BDA0001816690430000086
μA(x)≤μB(x)成立,则称集合A包含于B的程度等于1或称集合A包含 于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度,定义一个新的模糊 集称为模糊包含集,记作AB
A属于B的模糊包含集AB用蕴含算子表示:
Figure BDA0001816690430000091
如果μA(x)→μB(x)对于任意元素x都等于1,则关于x的包含度总是等于1,即:μA(x)→μB(x)=1(μA(x)≤μB(x))。
C)α-截集
α-截集的使用可以逐渐改变水平,可以淘汰近似集中的一些成员。全部近似集在上 下近似中的包含度评价可以通过近似集中的剩余元素来实现。而水平α的取值于(0,1]中的任意值。
有关变精度模糊粗糙集模型的定义为:假设T是[0,1]上的三角模,R是有限论域U上的二元模糊T相似关系,即R满足对于任意x,y,z∈U。此定义具有自反性、对称性和 T-传递性,称(U,R)为模糊T-近似空间。在此近似空间上,我们可以在论域U上定义任 意模糊集从而获得相似类的近似描述。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤1,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...Un}是论域U的相似类,F是论域U上定义的任意模糊 集,则集合F关于R的u-下近似(l-上近似)是UR上的一个模糊集,其成员函数为:
Figure BDA0001816690430000092
其中:
Figure BDA0001816690430000093
Figure BDA0001816690430000094
Figure BDA0001816690430000095
其中:
Figure BDA0001816690430000096
Figure BDA0001816690430000097
Figure BDA0001816690430000098
在集合F关于R的u-下近似中,假设αu存在的话,集合Su又包含了至少以包含度αu包含于集合F的相似类Ui的元素,成员函数fu是由Su中较好的元素决定的,而不是由全体类Ui(i=1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似, 从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出:在评价α-包含错误率 Pα(A,B),应该使用R-蕴涵算子。
在集合F关于R的l-上近似中,我们同样想阻止大类Ui中“好”的元素增加上近似。包含错误率是基于交集Ui∩F(t-模算子),并描述为Pα'(Ui,F)。同包含错误率Pα(Ui,F) 一样,在清晰集中,对于任意的非空的子集
Figure BDA0001816690430000101
和α∈(0,1],则相对错误率P(A,B)与 a-包含错误率Pα'(A,B)等价。
本发明提出的模型基础为:基于混合数据分析处理,应该使得模型更加适用于实际 的数据分析,所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤l,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...,Un}是论域U的相似类,F是论域U上定义的任意模 糊集,则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集,其成员 函数定义为:
Figure BDA0001816690430000102
其中
Figure BDA0001816690430000103
Figure BDA0001816690430000104
其中
Figure BDA0001816690430000105
数值fu和fl表示了相似类Ui包含于模糊集F的包含度的平均值,它是由至少分别以αu和αl包含于模糊集F的Ui中元素构成的。
(2)数据粗糙性的度量方法
数据粗糙性是信息不确定性,目标概念的下、上近似不相等等产生的边界域引起。
为了解决信息不完备导致的不确定性。提出粗糙集模糊度量,虽然国内外学者已经 从不同角度研究了粗糙性和模糊性与随机性的关系和其度量,但是没有形成一种数学公 理化定义。本文提出一种基于随机熵的粗糙性度量。
在粗糙集理论框架下,问题是由目标边界的存在引起的,随机性度量与粗糙集的本 质是刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示。给定一个信息表S=(U,C),Xi∈U/C,那么信息表S的Shannon熵定义为:
Figure BDA0001816690430000111
其中,
Figure BDA0001816690430000112
决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如,给定 决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的熵定义为:
Figure BDA0001816690430000113
其中,
Figure BDA0001816690430000114
分析可知,如果将Pij作为条件类Xi发生时的决策类Yj出现的概率,Shannon条件熵实际上是决策属性D导出的所有决策类的随机性度量的
Figure BDA0001816690430000115
和。
因此,定义给定目标概念Y的Shannon熵为:
Figure BDA0001816690430000116
这种熵的特点是同时包含了目标概念和其互补集的信息。
给定信息表S=(U,C),Xi∈U/C,那么信息表S的互补熵定义为:
Figure BDA0001816690430000117
给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的互补条件熵定义为:
Figure BDA0001816690430000118
其中
Figure BDA0001816690430000119
Figure BDA00018166904300001110
分别是Yj和Xi的补集。那么目标概念Y 关于C的互补熵定义为:
Figure BDA00018166904300001111
其中Yc
Figure BDA00018166904300001112
是Y和Xi的补集。 本文提出随机熵的粗糙度量伦理。
由定理可知,目标概念的互补熵可以度量其粗糙性,而且互补熵比Shannon熵更加精 细的反应了粗糙性的变化。
近似约简算法的执行步骤为:
步骤一、初始化目标信息系统;
步骤二、计算原目标信息系统的近似质量γR
步骤三、计算原目标信息系统的互补条件熵,确定属性约简的粗糙性变化;
步骤四、求便目标信息系统中删除一个属性元素的关系R',由R'确定的划分 Γ'=U/R'={U1,U2,...Un}和新目标信息系统的近似质量γR';
步骤五、比较γR和γR',记误差值ε,当|γRR'|<ε时,称新目标信息系统是原目标 信息系统的一个近似约简;
步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探,直 到试探完所有的属性,并得到目标信息系统的近似约简。
(3)一种基于粒计算的海量数据并行属性约简加速算法
属性约简就是特征选择,意思就是从原始特征中选择一个最相关的特征子集,降维 将复杂问题简单化。特征选择从本质上继承了奥卡姆剃刀思想,即从一组特征中选出一些最有效的特征,以构造更好的效果模型。本文比较着重于数据量大、特征维度高的特 点,给出一种统一的并行大规模特征选择框架。在并行特征提取方法上,本文采用模型- 数据并行方法,基于模型层面、数据层面的双重加速,用于解决大数据中数据量大和特 征维度高的问题。单纯采用模型并行方法时,存在不能应对海量数据的缺点。单纯采用 数据并行方法时,存在忽略模型本身并行性缺点。为此,本文将模型和数据结合,简单 来说,在每次迭代中,根据搜索策略产生的一组候选特征子集,我们用多线程实现的方式 同时启动所有特征子集的重要度计算模块;其中,每个特征子集的重要度的计算模块采用 MapReduce的方式进行计算。实际上,MDP就是一个二级并行方式。待全部特征子集的重 要度计算完成后,再根据基准进行特征筛选。
基于并行特征的提取方法,致力于解决海量数据和高维复杂数据分析问题。本发明 提出了一种基于粒计算的海量数据并行属性约简加速算法。
在粗糙集中,等价关系对论域U进行了划分得到等价类,并可对U中任意子集进行近 似描述。从粒计算的巧度看,等价关系确定了决策信息系统的基本知识粒,粒度越细,近似 描述越准确;相反,粒度越粗,近似描述越概略。
由于算法是基于粒度分析的,所以对于粒度的粗细划分,给出了以下定义,为了方便讨论,我们引入了<>的定义,给定属性集A和B,
Figure BDA0001816690430000121
Figure BDA0001816690430000122
Figure BDA0001816690430000123
使得bi∈A且
Figure BDA0001816690430000124
则称
Figure BDA0001816690430000125
(即
Figure BDA0001816690430000126
)。
Figure BDA00018166904300001219
G(A)和G(B)为相应的信息粒表示。则有
Figure BDA0001816690430000127
使得
Figure BDA0001816690430000128
其中
Figure BDA0001816690430000129
称作G(A)是G(B)的细化表示(或者G(B)是G(A)的粗化表示),记 作G(A)
粗化:给定
Figure BDA00018166904300001210
EA∈U/A,
Figure BDA00018166904300001211
G(A)的粗化表示
Figure BDA00018166904300001212
EB∈U/B可以由以下计算得到:
Figure BDA00018166904300001213
EB=∪EA∈U/A
Figure BDA00018166904300001214
细化:给定
Figure BDA00018166904300001215
VB∈U/B,
Figure BDA00018166904300001216
G(B)的粗化表示
Figure BDA00018166904300001217
EA∈U/A可以由以下计算得到:
Figure BDA00018166904300001218
EA∈EB/A-BEB∈U/B
基于模型-数据的并行大规模属性约简算法的详细算法步骤如下:
步骤一、初始化信息粒表示,即G(A)(其中A=C∪D)。在Spark中,G(A)是一个 RDD对象,计算完成后惊醒缓存,后续计算只需要条用缓存数据即可;
步骤二、初始化属性候选集;
步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值;
步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G(A), 并行构建相应的信息粒表示G(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey 和Sum。
步骤五、计算属性核;
步骤六、用迭代更新的方法计算属性约简,直到满足停止条件。

Claims (7)

1.一种云环境下基于粒度计算的大数据处理方法,以大数据环境下的粒计算处理框架为基础,其特征在于,包括:
100、建立面向混合型数据的变精度模糊粗糙集模型;
200、提出基于随机熵的数据粗糙性度量方法;
300、设计一种基于粒计算的海量数据并行属性约简加速算法。
2.如权利要求1所述云环境下基于粒度计算的大数据处理方法,其特征在于,所述100包括:
建立面向混合型数据的变精度模糊粗糙集模型,具体包括:
本申请针对大数据的特性,将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则,在上下集近似中考虑信息表元素来评价决策近似集的包含度,并且这些元素是包含在包含度够高的近似集中。
3.如权利要求2所述云环境下基于粒度计算的大数据处理方法,其特征在于以下:
101、扩展的变精度粗糙集模型
它带有对称的边界l和u,其中:0≤l<u≤1。借助于下限l和上限u,对于论域U及U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为:
Figure FDA0001816690420000011
或者为:
Figure FDA0001816690420000012
Figure FDA0001816690420000013
102、模糊逻辑算子
t-模,t-余模和反子是模糊逻辑算子中的概念基础,模糊逻辑算子有很多,其中和本文相关的蕴含算子为S-蕴涵算子为:基于
Figure FDA0001816690420000014
和Ns的Lukasiewicz蕴涵算子φL(x,y)=min{1,1-x+y};R-蕴涵算子为:基于θL的Lukasiewicz蕴涵算子φL(x,y)=min{1,1-x+y};QL-蕴涵算子为:基于θL
Figure FDA0001816690420000015
和Ns的kleene-Dienes蕴涵算子φKD(x,y)=max{1-x,y};
103、模糊包含集
假设U是论域,A和B是论域U上的模糊子集,可以称集合A包含于集合B,如果关系
Figure FDA0001816690420000016
μA(x)≤μB(x)成立,则称集合A包含于B的程度等于1或称集合A包含于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度,定义一个新的模糊集称为模糊包含集,记作AB
A属于B的模糊包含集AB用蕴含算子表示:
Figure FDA0001816690420000021
如果μA(x)→μB(x)对于任意元素x都等于1,则关于x的包含度总是等于1,即:μA(x)→μB(x)=1(μA(x)≤μB(x))。
104、变精度模糊粗糙集模型
假设T是[0,1]上的三角模,R是有限论域U上的二元模糊T相似关系,即R满足对于任意x,y,z∈U。此定义具有自反性、对称性和T-传递性,称(U,R)为模糊T-近似空间。在此近似空间上,我们可以在论域U上定义任意模糊集从而获得相似类的近似描述。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤1,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...Un}是论域U的相似类,F是论域U上定义的任意模糊集,则集合F关于R的u-下近似(l-上近似)是U/R上的一个模糊集,其成员函数为:
Figure FDA0001816690420000022
其中:
Figure FDA0001816690420000023
Figure FDA0001816690420000024
Figure FDA0001816690420000025
其中:
Figure FDA0001816690420000026
Figure FDA0001816690420000027
Figure FDA0001816690420000028
在集合F关于R的u-下近似中,假设αu存在的话,集合Su又包含了至少以包含度αu包含于集合F的相似类Ui的元素,成员函数fu是由Su中较好的元素决定的,而不是由全体类Ui(i=1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似,从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出:在评价α-包含错误率Pα(A,B),应该使用R-蕴涵算子。
在集合F关于R的l-上近似中,我们同样想阻止大类Ui中“好”的元素增加上近似。包含错误率是基于交集Ui∩F(t-模算子),并描述为Pα'(Ui,F)。同包含错误率Pα(Ui,F)一样,在清晰集中,对于任意的非空的子集
Figure FDA0001816690420000031
和α∈(0,1],则相对错误率P(A,B)与a-包含错误率Pα'(A,B)等价。
本申请提出的模型基础为:基于混合数据分析处理,应该使得模型更加适用于实际的数据分析,所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。
假设U是有限非空集合,对称的边界l和u满足:0≤l<u≤l,R是有限论域U上的二元模糊T相似关系,U/R={U1,U2,...,Un}是论域U的相似类,F是论域U上定义的任意模糊集,则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集,其成员函数定义为:
Figure FDA0001816690420000032
其中
Figure FDA0001816690420000033
Figure FDA0001816690420000034
其中
Figure FDA0001816690420000035
数值fu和fl表示了相似类Ui包含于模糊集F的包含度的平均值,它是由至少分别以αu和αl包含于模糊集F的Ui中元素构成的。
4.如权利要求1所述云环境下基于粒度计算的大数据处理方法,其特征在于,所述200包括:
本申请提出一种基于随机熵的粗糙性度量方法;
在粗糙集理论框架下,问题是由目标边界的存在引起的,随机性度量与粗糙集的本质是刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示。
5.如权利要求4所述云环境下基于粒度计算的大数据处理方法,其特征在于以下:
201、根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布,信息表的不确定性便可以用这一概率分布的Shannon熵表示,其特征包括:
给定一个信息表S=(U,C),Xi∈U/C,那么信息表S的Shannon熵定义为:
Figure FDA0001816690420000041
其中,
Figure FDA0001816690420000042
决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如,给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的熵定义为:
Figure FDA0001816690420000043
其中,
Figure FDA0001816690420000044
分析可知,如果将Pij作为条件类Xi发生时的决策类Yj出现的概率,Shannon条件熵实际上是决策属性D导出的所有决策类的随机性度量的
Figure FDA0001816690420000045
和。
因此,定义给定目标概念Y的Shannon熵为:
Figure FDA0001816690420000046
这种熵的特点是同时包含了目标概念和其互补集的信息。
给定信息表S=(U,C),Xi∈U/C,那么信息表S的互补熵定义为:
Figure FDA0001816690420000047
给定决策表S=(U,C∪D),Xi∈U/C,Yj∈U/D,则D关于C的互补条件熵定义为:
Figure FDA00018166904200000413
其中
Figure FDA0001816690420000049
Figure FDA00018166904200000410
分别是Yj和Xi的补集。那么目标概念Y关于C的互补熵定义为:
Figure FDA00018166904200000411
其中Yc
Figure FDA00018166904200000412
是Y和Xi的补集。本文提出随机熵的粗糙度量伦理。
由定理可知,目标概念的互补熵可以度量其粗糙性,而且互补熵比Shannon熵更加精细的反应了粗糙性的变化。
202、近似约简算法执行步骤
步骤一、初始化目标信息系统;
步骤二、计算原目标信息系统的近似质量γR
步骤三、计算原目标信息系统的互补条件熵,确定属性约简的粗糙性变化;
步骤四、求便目标信息系统中删除一个属性元素的关系R',由R'确定的划分Γ'=U/R'={U1,U2,...Un}和新目标信息系统的近似质量γR';
步骤五、比较γR和γR',记误差值ε,当|γRR'|<ε时,称新目标信息系统是原目标信息系统的一个近似约简;
步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探,直到试探完所有的属性,并得到目标信息系统的近似约简。
6.如权利要求1所述云环境下基于粒度计算的大数据处理方法,其特征在于,所述300包括:
一种基于粒计算的海量数据并行属性约简加速算法;
本申请着重于数据量大、特征维度高的特点,给出一种统一的并行大规模特征选择框架。在并行特征提取方法上,本文采用模型-数据并行方法,基于模型层面、数据层面的双重加速,用于解决大数据中数据量大和特征维度高的问题。
7.如权利要求6所述云环境下基于粒度计算的大数据处理方法,其特征在于以下:
301、粒度粗细划分定义,
为了方便讨论,我们引入了
Figure FDA00018166904200000519
的定义,给定属性集A和B,
Figure FDA0001816690420000055
Figure FDA00018166904200000510
Figure FDA0001816690420000059
使得bi∈A且
Figure FDA0001816690420000058
则称
Figure FDA0001816690420000056
(即
Figure FDA0001816690420000057
)。
Figure FDA00018166904200000511
G(A)和G(B)为相应的信息粒表示。则有
Figure FDA00018166904200000518
使得
Figure FDA00018166904200000512
其中
Figure FDA00018166904200000513
称作G(A)是G(B)的细化表示(或者G(B)是G(A)的粗化表示),记作G(A)
粗化:给定
Figure FDA0001816690420000054
G(A)的粗化表示
Figure FDA00018166904200000514
可以由以下计算得到:
Figure FDA00018166904200000515
细化:给定
Figure FDA0001816690420000053
G(B)的粗化表示
Figure FDA00018166904200000517
可以由以下计算得到:
Figure FDA00018166904200000516
302、基于模型-数据的并行大规模属性约简算法的详细算法步骤
步骤一、初始化信息粒表示,即G(A)(其中A=C∪D)。在Spark中,G(A)是一个RDD对象,计算完成后惊醒缓存,后续计算只需要条用缓存数据即可;
步骤二、初始化属性候选集;
步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值;
步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G(A),并行构建相应的信息粒表示G(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey和Sum。
步骤五、计算属性核;
步骤六、用迭代更新的方法计算属性约简,直到满足停止条件。
CN201811145357.3A 2018-09-29 2018-09-29 云环境下基于粒度计算的大数据处理方法 Pending CN110969253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811145357.3A CN110969253A (zh) 2018-09-29 2018-09-29 云环境下基于粒度计算的大数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811145357.3A CN110969253A (zh) 2018-09-29 2018-09-29 云环境下基于粒度计算的大数据处理方法

Publications (1)

Publication Number Publication Date
CN110969253A true CN110969253A (zh) 2020-04-07

Family

ID=70027334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811145357.3A Pending CN110969253A (zh) 2018-09-29 2018-09-29 云环境下基于粒度计算的大数据处理方法

Country Status (1)

Country Link
CN (1) CN110969253A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685661A (zh) * 2020-12-29 2021-04-20 太极计算机股份有限公司 基于信息粒空间的信息组织方法、装置和设备
CN113012775A (zh) * 2021-03-30 2021-06-22 南通大学 红斑病电子病历病变分类的增量属性约简Spark方法
CN114266277A (zh) * 2021-12-27 2022-04-01 四川大学 一种电能质量扰动分类方法
CN116486067A (zh) * 2023-04-11 2023-07-25 南通大学 一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法
CN118138473A (zh) * 2024-04-02 2024-06-04 广东工业大学 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法
CN118138473B (zh) * 2024-04-02 2024-09-24 广东工业大学 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685661A (zh) * 2020-12-29 2021-04-20 太极计算机股份有限公司 基于信息粒空间的信息组织方法、装置和设备
CN113012775A (zh) * 2021-03-30 2021-06-22 南通大学 红斑病电子病历病变分类的增量属性约简Spark方法
CN113012775B (zh) * 2021-03-30 2021-10-08 南通大学 红斑病电子病历病变分类的增量属性约简Spark方法
CN114266277A (zh) * 2021-12-27 2022-04-01 四川大学 一种电能质量扰动分类方法
CN116486067A (zh) * 2023-04-11 2023-07-25 南通大学 一种用于精神分裂症病历图像特征选择的稀疏双向Spark方法
CN118138473A (zh) * 2024-04-02 2024-06-04 广东工业大学 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法
CN118138473B (zh) * 2024-04-02 2024-09-24 广东工业大学 一种基于粗糙集快速近似计算的c2c在线服务信任预测方法

Similar Documents

Publication Publication Date Title
Liu et al. Understanding and enhancement of internal clustering validation measures
Tan et al. Granularity and entropy of intuitionistic fuzzy information and their applications
CN110969253A (zh) 云环境下基于粒度计算的大数据处理方法
Altman Fuzzy set theoretic approaches for handling imprecision in spatial analysis
Huang et al. Noise-tolerant fuzzy-$\beta $-covering-based multigranulation rough sets and feature subset selection
Wang et al. Three-way ensemble clustering for incomplete data
Wu et al. A geometric framework for data fusion in information retrieval
Kaushik et al. On the potential of numerical association rule mining
Bikku et al. Hadoop based feature selection and decision making models on big data
Li et al. Deepgraph: Graph structure predicts network growth
Maroulas et al. A stable cardinality distance for topological classification
Karim et al. Spatiotemporal Aspects of Big Data.
Zeighami et al. Neurosketch: Fast and approximate evaluation of range aggregate queries with neural networks
Ma et al. VNAS: Variational Neural Architecture Search
Chen et al. Fusing multi-scale fuzzy information to detect outliers
Li et al. Roughness measure based on description ability for attribute reduction in information system
Akhtar et al. Optimisation algorithm-based recurrent neural network for big data classification
Xu Research on clustering algorithms in data mining
Boulmakoul et al. Ranking triangular fuzzy numbers using fuzzy set inclusion index
Hung et al. An efficient representation model of distance distribution between uncertain objects
Lin et al. Attribute reduction in fuzzy multi-covering decision systems via observational-consistency and fuzzy discernibility
Challa et al. AnyStreamKM: Anytime k-medoids Clustering for Streaming Data
Hussain et al. Parallel Algorithms for Median Consensus Clustering in Complex Networks
Kwak et al. A Study of an modeling method of TS fuzzy system based on moving fuzzy reasoning and its application
Boullé Optimum simultaneous discretization with data grid models in supervised classification: a Bayesian model selection approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200407