CN110969253A

CN110969253A - 云环境下基于粒度计算的大数据处理方法

Info

Publication number: CN110969253A
Application number: CN201811145357.3A
Authority: CN
Inventors: 惠孛; 郑莉华; 陈佳; 黎明; 徐嘉莉
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2020-04-07

Abstract

本发明公开了一种云环境下基于粒度计算的大数据方法，(1)建立面向混合型数据分析的变精度模糊粗糙集模型；将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则，在上下集近似中考虑信息表元素来评价决策近似集的包含度，并且这些元素是包含在包含度够高的近似集中；(2)提出基于随机熵的数据粗糙性度量方法，方便研究行之有效的粗糙性度量技术；(3)设计一种基于粒计算的海量数据并行属性约简加速算法，将大数据分析处理充分结合云计算平台，采用模型‑数据并行的研究方法，旨在解决海量数据、高维复杂数据属性约简。

Description

云环境下基于粒度计算的大数据处理方法

技术领域

本发明在对粒度计算的基本原理与应用的研究基础上，对大数据处理的现状进行系统、全面地分析与总结，以云平台为基础，引入粒度计算的“分而治之”的特性来降低大数据的复杂性，研究大数据处理的三个关键技术，主要工作分为如下三个方面：建立面向混合型数据的变精度模糊粗糙集模型，提出数据粗糙性的度量方法，提出了一种基于粒计算的海量数据并行属性约简加速算法。

背景技术

随着计算机和信息技术的迅猛发展和普及应用，行业应用系统的规模迅速扩大，行业应用所产生的数据呈爆炸性增长。由于大数据处理需求的迫切性和重要性，美国和欧洲一些发达国家政府都从国家科技战略层面提出了一系列的大数据技术研发计划，以推动政府机构、重大行业、学术界和工业界对大数据技术的探索研究和应用。国内的学术界和工业界也都迅速行动，广泛开展大数据技术的研究和开发。

大数据技术的发展将给我们研究计算机技术的专业人员带来新的挑战和机遇。大数据使得很多在小数据集上有效的传统的串行化算法在面对大数据处理时难以在可接受的时间内完成计算；同时大数据含有较多噪音、样本稀疏、样本不平衡等特点使得现有的很多机器学习算法有效性降低。针对大数据所具有的4V特点：Volume(巨量)、Velocity(高速)、Variety(多样)、Value(价值)，云计算平台为大数据的处理提供了良好的平台基础；粒度计算的思想起源于上世纪70年代末，它是模仿人类思考问题的方式，用来处理不完全、不可靠、不精确、不一致和不确定的知识。它是人工智能研究的最重要基础，可以将其运用到当前世界面临的大数据处理的挑战中。当前的大数据处理研究主要分为四个方面：大数据处理范式、大数据处理算法、大数据处理平台以及大数据处理应用。它们之间的逻辑关系如图1所示。

发明内容

本发明在对粒度计算的基本原理与应用的研究基础上，对大数据处理的现状进行系统、全面地分析与总结，以云平台为基础，引入粒度计算的“分而治之”的特性来降低大数据的复杂性。本项目重点研究变精度模糊粗糙集模型、基于这种模型的粗糙性度量方法以及基于粒计算的海量数据并行属性约简加速算法，旨在解决云环境下大数据挖掘问题，提供一种云环境下基于粒度计算的大数据处理方法。本发明主要体现在如下三个方面：

(1)面向混合型数据分析的变精度模糊粗糙集模型

大数据的结构相对复杂，且高度动态变化，因此，合理的对其进行有效的管理和组织，对整个大数据的处理效率具有极大的改善。本发明针对大数据的特性，将扩展的ziarko 变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则，在上下集近似中考虑信息表元素来评价决策近似集的包含度，并且这些元素是包含在包含度够高的近似集中。这种大数据组织模型能够提高大数据处理效率，为大数据处理奠定良好的组织基础。

(2)基于随机熵的数据粗糙性度量方法

云环境下的大数据处理的请求相对比较复杂，在变精度模糊粗糙集模型中，粗糙性具有信息的不确定性，而数据的随机性、模糊性、与粗糙性是主要的不确定表现形式。粗糙性是知识不完备和目标概念的上、下近似不相等产生的边界域问题导致的，是信息不确定的刻画方式。虽然国内外学者已经从不同角度研究了粗糙性和模糊性与随机性的关系和其度量，但是没有形成一种数学公理化定义。本发明提出提出一种基于随机熵的粗糙集模糊度量公式，方便研究行之有效的粗糙性度量技术。

(3)一种基于粒计算的海量数据并行属性约简加速算法

基于变精度模糊粗糙集模型和粗糙性度量方法，本发明提出了一种基于粒计算的海量数据并行属性约简加速算法，本算法将大数据分析处理充分结合云计算平台，采用模型-数据并行的研究方法，旨在解决海量数据、高维复杂数据属性约简。这些算法能够有效的解决大数据处理中可靠性差的问题，同时在很大程度上提高大数据处理的效率。

具体而言，本发明提供的云环境下基于粒度计算的大数据方法以大数据环境下的粒计算处理框架为基础，包括：

100、建立面向混合型数据的变精度模糊粗糙集模型；

200、提出基于随机熵的数据粗糙性度量方法；

300、设计一种基于粒计算的海量数据并行属性约简加速算法。

上述云环境下基于粒度计算的大数据方法，所述步骤100建立面向混合型数据的变精度模糊粗糙集模型，具体包括：

本发明针对大数据的特性，将扩展的z iarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则，在上下集近似中考虑信息表元素来评价决策近似集的包含度，并且这些元素是包含在包含度够高的近似集中。该步骤包括以下分步骤：

101、扩展的变精度粗糙集模型

它带有对称的边界l和u，其中：0≤l<u≤1。借助于下限l和上限u,对于论域U及 U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为：

或者为：

102、模糊逻辑算子

t-模，t-余模和反子是模糊逻辑算子中的概念基础，模糊逻辑算子有很多，其中和本文相关的蕴含算子为S-蕴涵算子为：基于

和N_s的Lukasiewicz蕴涵算子 φ_L(x,y)＝min{1,1-x+y}；R-蕴涵算子为：基于θ_L的Lukasiewicz蕴涵算子 φ_L(x,y)＝min{1,1-x+y}；QL-蕴涵算子为：基于θ_L和

和Ns的kleene-Dienes蕴涵算子φ_KD(x,y)＝max{1-x,y}；

103、模糊包含集

假设U是论域，A和B是论域U上的模糊子集，可以称集合A包含于集合B,如果关系

μ_A(x)≤μ_B(x)成立，则称集合A包含于B的程度等于1或称集合A包含于B的错误率等于0。为了评价模糊集合A属于模糊集合B的包含度，定义一个新的模糊集称为模糊包含集，记作A^B。

A属于B的模糊包含集A^B用蕴含算子表示：

如果μ_A(x)→μ_B(x)对于任意元素x都等于1，则关于x的包含度总是等于1，即：μ_A(x)→μ_B(x)＝1(μ_A(x)≤μ_B(x))。

104、变精度模糊粗糙集模型

假设T是[0,1]上的三角模，R是有限论域U上的二元模糊T相似关系，即R满足对于任意x,y,z∈U。此定义具有自反性、对称性和T-传递性，称(U,R)为模糊T-近似空间。在此近似空间上，我们可以在论域U上定义任意模糊集从而获得相似类的近似描述。

假设U是有限非空集合，对称的边界l和u满足：0≤l<u≤1,R是有限论域U上的二元模糊T相似关系，U/R＝{U₁,U₂,...U_n}是论域U的相似类，F是论域U上定义的任意模糊集，则集合F关于R的u-下近似(l-上近似)是U/R上的一个模糊集，其成员函数为：

其中：

其中：

在集合F关于R的u-下近似中,假设α_u存在的话，集合S_u又包含了至少以包含度α_u包含于集合F的相似类U_i的元素,成员函数f_u是由S_u中较好的元素决定的,而不是由全体类 U_i(i＝1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似, 从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出：在评价α-包含错误率 P_α(A,B)，应该使用R-蕴涵算子。

在集合F关于R的l-上近似中,我们同样想阻止大类U_i中“好”的元素增加上近似。包含错误率是基于交集U_i∩F(t-模算子),并描述为P_α'(U_i,F)。同包含错误率P_α(U_i,F) 一样,在清晰集中,对于任意的非空的子集A,

和α∈(0,1]，则相对错误率P(A,B)与 a-包含错误率P_α'(A,B)等价。

本发明提出的模型基础为：基于混合数据分析处理，应该使得模型更加适用于实际的数据分析，所得结果要对应信息系统分析中的统计特性。所以提出一种考虑全体集合包含的特性方法。即利用模糊包含集中成员函数的平均值来定义一种新的变精度模糊撮箕模型。

假设U是有限非空集合,对称的边界l和u满足：0≤l<u≤l，R是有限论域U上的二元模糊T相似关系,U/R＝{U₁,U₂,...,U_n}是论域U的相似类，F是论域U上定义的任意模糊集，则集合F关于R的平均u-下近似(平均l-上近似)是U/R上的一个模糊集，其成员函数定义为：

其中

其中

数值f_u和f_l表示了相似类U_i包含于模糊集F的包含度的平均值，它是由至少分别以α_u和α_l包含于模糊集F的U_i中元素构成的。

上述云环境下基于粒度计算的大数据方法，所述200基于随机熵的粗糙性度量方法；在粗糙集理论框架下，问题是由目标边界的存在引起的，随机性度量与粗糙集的本质是刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布，信息表的不确定性便可以用这一概率分布的Shannon熵表示。该步骤包括以下分步骤：

201、根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布，信息表的不确定性便可以用这一概率分布的Shannon熵表示，其特征包括：

给定一个信息表S＝(U,C)，X_i∈U/C,那么信息表S的Shannon熵定义为：

其中，

决策表的目标决策的粗糙性可以用决策表中某一决策属性的熵值去度量。例如，给定决策表S＝(U,C∪D)，X_i∈U/C，Y_j∈U/D，则D关于C的熵定义为：

其中，

分析可知，如果将Pij作为条件类Xi发生时的决策类Yj出现的概率，Shannon条件熵实际上是决策属性D导出的所有决策类的随机性度量的

和。

因此，定义给定目标概念Y的Shannon熵为：

这种熵的特点是同时包含了目标概念和其互补集的信息。

给定信息表S＝(U,C)，Xi∈U/C,那么信息表S的互补熵定义为：

给定决策表S＝(U,C∪D)，X_i∈U/C，Y_j∈U/D，则D关于C的互补条件熵定义为：

其中

和

分别是Yj和Xi的补集。那么目标概念Y 关于C的互补熵定义为：

其中Y^c和

是Y和Xi的补集。本文提出随机熵的粗糙度量伦理。

由定理可知，目标概念的互补熵可以度量其粗糙性，而且互补熵比Shannon熵更加精细的反应了粗糙性的变化。

202、近似约简算法执行步骤

步骤一、初始化目标信息系统；

步骤二、计算原目标信息系统的近似质量γ_R；

步骤三、计算原目标信息系统的互补条件熵，确定属性约简的粗糙性变化；

步骤四、求便目标信息系统中删除一个属性元素的关系R'，由R'确定的划分 Γ'＝U/R'＝{U₁,U₂,...U_n}和新目标信息系统的近似质量γ_R'；

步骤五、比较γ_R和γ_R'，记误差值ε，当|γ_R-γ_R'|<ε时，称新目标信息系统是原目标信息系统的一个近似约简；

步骤六、按照上述步骤三到步骤五对目标信息系统中的各个条件属性进行试探，直到试探完所有的属性，并得到目标信息系统的近似约简。

上述云环境下基于粒度计算的大数据方法，所述300基于粒计算的海量数据并行属性约简加速算法；本发明着重于数据量大、特征维度高的特点，给出一种统一的并行大规模特征选择框架。在并行特征提取方法上，本文采用模型-数据并行方法，基于模型层面、数据层面的双重加速，用于解决大数据中数据量大和特征维度高的问题。该步骤包括以下分步骤：

301、粒度粗细划分定义，

为了方便讨论，我们引入了＜＞的定义，给定属性集A和B，

若

使得b_i∈A且

则称

(即

)。

令

G^(A)和G^(B)为相应的信息粒表示。则有

使得

其中

称作G^(A)是G^(B)的细化表示(或者G^(B)是G^(A)的粗化表示)，记作G^(A)

粗化：给定

E_A∈U/A，

G^(A)的粗化表示

E_B∈U/B可以由以下计算得到：

E_B＝∪E_A∈U/A

细化：给定

G^(B)的粗化表示

E_A∈U/A可以由以下计算得到：

302、基于模型-数据的并行大规模属性约简算法的详细算法步骤

步骤一、初始化信息粒表示，即G^(A)(其中A＝C∪D)。在Spark中，G^(A)是一个 RDD对象，计算完成后惊醒缓存，后续计算只需要条用缓存数据即可；

步骤二、初始化属性候选集；

步骤三、采用模型-数据并行方式计算各个属性子集的评价函数值。其中,整个for循环并行执行,即"模型并行",同时计算多个后续特征子集的评价函数值；

步骤四、采用"数据并行"方式并行计算评价函数值,基于先前缓存的信息粒表示G^(A), 并行构建相应的信息粒表示G^(B)同时求得评价函数值,这个过程依次是Map、ReduceByKey 和Sum。

步骤五、计算属性核；

步骤六、用迭代更新的方法计算属性约简，直到满足停止条件。

本发明具有以下有益效果：

本发明在对粒度计算的基本原理与应用的研究基础上，对大数据处理的现状进行系统、全面地分析与总结，以云平台为基础，引入粒度计算的“分而治之”的特性来降低大数据的复杂性。重点提出解决基于粒度计算的大数据处理的三个主要问题，即：变精度模糊粗糙集模型，以及基于这种模型的粗糙性度量方法，旨在解决云环境下大数据处理的一种基于粒计算的海量数据并行属性约简加速算法。

附图说明

图1大数据处理研究逻辑关系。

图2大数据环境下的粒计算处理框架。

具体实施方式

针对大数据的特性，目前比较常用的大数据问题粒计算解决框架如图2所示。对大数据处理的基本流程可以总结为如下七个步骤：

步骤一、使用数据过滤和数据集成将分布式存储的多样、异质数据进行转换、抽取、粒化，得到较为规范的数据表，消除其中的不确定性。

步骤二、针对问题，引入粒计算中的具体模型和技术将原数据粒化为粒度大小合适的粒，降低数据规模，并构建相应的粒层及各粒层上的结构。

步骤三、在其他机器学习方法的辅导下，对信息粒进行数据挖掘或者机器学习。

步骤四、将用到的方法改造为分布式、在线增量学习的版本以满足大数据处理的及时性要求。

步骤五、在大数据处理中，粒度的自由切换，需要考虑多个粒度层次上粒的分解与合并，还有相应解的快速构建；对某些特定问题，需要同时考虑多个粒度层次的信息，使用“跨粒度”机制求解问题。

步骤六、从整个处理过程中，可以发现原始数据是否具有合适的粒度，为是否需要调整及如何调整原始数据的产生或采集提供指导。

步骤七、借鉴深度学习(Deep Learning)的基本思想，将关键的处理流程调整为多个层次，让具体参数，比如：粒的大小以及粒层次数等在学习中得到优化，从而优化最终学习结果。

(1)面向混合型数据分析的变精度模糊粗糙集模型

ziarko变精度粗糙集是建立在Pawlak近似空间上的粗糙集模型，在很多实际问题中, 论域的对象之间不具有等价关系,或者说,我们很难得到关于论域的绝对准确的划分。为了实际问题的需要,有必要研究建立在广义近似空间上的变精度粗糙集,即一般二元关系下的变精度粗糙集模型,我们称之为广义变精度粗糙集模型。

在实际应用中，大数据分析往往存在多种类型的数据，如字符型、符号型、数值型、混合数据等等。虽然粗糙集建模和属性约简在这方面表现的知识学习效果不错，但是对复杂数据的数据融合存在种种问题，尤其表现在数据在海量和高维时。

将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,可以得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则，在上下集近似中考虑信息表元素来评价决策近似集的包含度，并且这些元素是包含在包含度够高的近似集中。变精度粗糙集模型思想用于动态控制过程中获得决策表是十分有实用价值的。而扩展的变精度粗糙集模型中，它带有对称的边界l和u，其中：0≤l<u≤1。

借助于下限l和上限u,对于论域U及U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为：

或者为：

本文提出的模糊粗糙集模型是在一个划分论域与模糊关系基础上讨论模糊数据近似问题，具体的定义如下：

a)模糊逻辑算子

和Ns的Lukasiewicz蕴涵算子 φ_L(x,y)＝min{1,1-x+y}。

R-蕴涵算子为：基于θ_L的Lukasiewicz蕴涵算子φ_L(x,y)＝min{1,1-x+y}。

QL-蕴涵算子为：基于θ_L和

和Ns的kleene-Dienes蕴涵算子 φ_KD(x,y)＝max{1-x,y}。

b)模糊包含集

A属于B的模糊包含集A^B用蕴含算子表示：

C)α-截集

α-截集的使用可以逐渐改变水平，可以淘汰近似集中的一些成员。全部近似集在上下近似中的包含度评价可以通过近似集中的剩余元素来实现。而水平α的取值于(0,1]中的任意值。

有关变精度模糊粗糙集模型的定义为：假设T是[0,1]上的三角模，R是有限论域U上的二元模糊T相似关系，即R满足对于任意x,y,z∈U。此定义具有自反性、对称性和 T-传递性，称(U,R)为模糊T-近似空间。在此近似空间上，我们可以在论域U上定义任意模糊集从而获得相似类的近似描述。

假设U是有限非空集合，对称的边界l和u满足：0≤l<u≤1,R是有限论域U上的二元模糊T相似关系，U/R＝{U₁,U₂,...U_n}是论域U的相似类，F是论域U上定义的任意模糊集，则集合F关于R的u-下近似(l-上近似)是UR上的一个模糊集，其成员函数为：

其中：

其中：

在集合F关于R的u-下近似中,假设α_u存在的话，集合S_u又包含了至少以包含度α_u包含于集合F的相似类U_i的元素,成员函数f_u是由S_u中较好的元素决定的,而不是由全体类U_i(i＝1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似, 从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出：在评价α-包含错误率 P_α(A,B)，应该使用R-蕴涵算子。

在集合F关于R的l-上近似中,我们同样想阻止大类U_i中“好”的元素增加上近似。包含错误率是基于交集U_i∩F(t-模算子),并描述为P_α'(U_i,F)。同包含错误率P_α(U_i,F) 一样,在清晰集中,对于任意的非空的子集

其中

其中

(2)数据粗糙性的度量方法

数据粗糙性是信息不确定性，目标概念的下、上近似不相等等产生的边界域引起。

为了解决信息不完备导致的不确定性。提出粗糙集模糊度量，虽然国内外学者已经从不同角度研究了粗糙性和模糊性与随机性的关系和其度量，但是没有形成一种数学公理化定义。本文提出一种基于随机熵的粗糙性度量。

在粗糙集理论框架下，问题是由目标边界的存在引起的，随机性度量与粗糙集的本质是刻画边界域的不确定性。随机性度量便是随机熵。根据属性诱导论域的划分可以形成一个关联与信息表的离散型概率分布，信息表的不确定性便可以用这一概率分布的Shannon熵表示。给定一个信息表S＝(U,C)，X_i∈U/C,那么信息表S的Shannon熵定义为：

其中，

其中，

和。

因此，定义给定目标概念Y的Shannon熵为：

这种熵的特点是同时包含了目标概念和其互补集的信息。

给定信息表S＝(U,C)，Xi∈U/C,那么信息表S的互补熵定义为：

其中

和

分别是Yj和Xi的补集。那么目标概念Y 关于C的互补熵定义为：

其中Y^c和

是Y和Xi的补集。本文提出随机熵的粗糙度量伦理。

近似约简算法的执行步骤为：

步骤一、初始化目标信息系统；

步骤二、计算原目标信息系统的近似质量γ_R；

(3)一种基于粒计算的海量数据并行属性约简加速算法

属性约简就是特征选择，意思就是从原始特征中选择一个最相关的特征子集，降维将复杂问题简单化。特征选择从本质上继承了奥卡姆剃刀思想，即从一组特征中选出一些最有效的特征，以构造更好的效果模型。本文比较着重于数据量大、特征维度高的特点，给出一种统一的并行大规模特征选择框架。在并行特征提取方法上，本文采用模型- 数据并行方法，基于模型层面、数据层面的双重加速，用于解决大数据中数据量大和特征维度高的问题。单纯采用模型并行方法时，存在不能应对海量数据的缺点。单纯采用数据并行方法时，存在忽略模型本身并行性缺点。为此，本文将模型和数据结合，简单来说,在每次迭代中,根据搜索策略产生的一组候选特征子集,我们用多线程实现的方式同时启动所有特征子集的重要度计算模块；其中,每个特征子集的重要度的计算模块采用 MapReduce的方式进行计算。实际上,MDP就是一个二级并行方式。待全部特征子集的重要度计算完成后,再根据基准进行特征筛选。

基于并行特征的提取方法，致力于解决海量数据和高维复杂数据分析问题。本发明提出了一种基于粒计算的海量数据并行属性约简加速算法。

在粗糙集中,等价关系对论域U进行了划分得到等价类,并可对U中任意子集进行近似描述。从粒计算的巧度看,等价关系确定了决策信息系统的基本知识粒,粒度越细,近似描述越准确；相反,粒度越粗,近似描述越概略。

由于算法是基于粒度分析的，所以对于粒度的粗细划分，给出了以下定义，为了方便讨论，我们引入了＜＞的定义，给定属性集A和B，

若

使得b_i∈A且

则称

(即

)。

令

G^(A)和G^(B)为相应的信息粒表示。则有

使得

其中

粗化：给定

E_A∈U/A，

G^(A)的粗化表示

E_B∈U/B可以由以下计算得到：

E_B＝∪E_A∈U/A

细化：给定

V_B∈U/B，

G^(B)的粗化表示

E_A∈U/A可以由以下计算得到：

E_A∈E_B/A-BE_B∈U/B

基于模型-数据的并行大规模属性约简算法的详细算法步骤如下：

步骤二、初始化属性候选集；

步骤五、计算属性核；

Claims

1.一种云环境下基于粒度计算的大数据处理方法，以大数据环境下的粒计算处理框架为基础，其特征在于，包括：

100、建立面向混合型数据的变精度模糊粗糙集模型；

200、提出基于随机熵的数据粗糙性度量方法；

2.如权利要求1所述云环境下基于粒度计算的大数据处理方法，其特征在于，所述100包括：

建立面向混合型数据的变精度模糊粗糙集模型，具体包括：

本申请针对大数据的特性，将扩展的ziarko变精度粗糙集思想同模糊粗糙集理论相结合,得到变精度模糊粗糙集模型,变精度模糊粗糙集模型的创新点是上下近似集的确定规则，在上下集近似中考虑信息表元素来评价决策近似集的包含度，并且这些元素是包含在包含度够高的近似集中。

3.如权利要求2所述云环境下基于粒度计算的大数据处理方法，其特征在于以下：

101、扩展的变精度粗糙集模型

它带有对称的边界l和u，其中：0≤l<u≤1。借助于下限l和上限u,对于论域U及U上的等价关系R,我们可以表示论域上任意一个子集A的u下近似和l上近似为：

或者为：

102、模糊逻辑算子

和N_s的Lukasiewicz蕴涵算子φ_L(x,y)＝min{1,1-x+y}；R-蕴涵算子为：基于θ_L的Lukasiewicz蕴涵算子φ_L(x,y)＝min{1,1-x+y}；QL-蕴涵算子为：基于θ_L和

和N_s的kleene-Dienes蕴涵算子φ_KD(x,y)＝max{1-x,y}；

103、模糊包含集

A属于B的模糊包含集A^B用蕴含算子表示：

104、变精度模糊粗糙集模型

其中：

其中：

在集合F关于R的u-下近似中,假设α_u存在的话，集合S_u又包含了至少以包含度α_u包含于集合F的相似类U_i的元素,成员函数f_u是由S_u中较好的元素决定的,而不是由全体类U_i(i＝1,…n)决定的,这个定义帮助阻止了一些大的相似类中的数据进入集合的下近似,从而减小了集合F的下近似集。由前面蕴涵算子的分析可以看出：在评价α-包含错误率P_α(A,B)，应该使用R-蕴涵算子。

在集合F关于R的l-上近似中,我们同样想阻止大类U_i中“好”的元素增加上近似。包含错误率是基于交集U_i∩F(t-模算子),并描述为P_α'(U_i,F)。同包含错误率P_α(U_i,F)一样,在清晰集中,对于任意的非空的子集