CN103324468B

CN103324468B - 关于模糊概念的一种基于负载均衡的并行生成方法

Info

Publication number: CN103324468B
Application number: CN201310292535.6A
Authority: CN
Inventors: 张卓; 杜鹃; 王黎明; 柴玉梅
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2013-07-12
Filing date: 2013-07-12
Publication date: 2016-02-03
Anticipated expiration: 2033-07-12
Also published as: CN103324468A

Abstract

本发明公开了关于模糊概念的一种基于负载均衡的并行生成方法，步骤一，根据所要处理的数据集和精度要求，生成模糊形式背景；步骤二，根据模糊形式背景，初始化全局区间集合,即；步骤三，对高为的叉完全搜索树进行自上而下,广度优先遍历；令<i>i</i>表示当前高度；步骤四，根节点处理器依据由全局搜索区间集合<i>E</i>和公式（1）、（2）计算当前高度下的总负荷;步骤五，根据当前并行计算环境下所能支配的处理器数量和公式（5）、（6）、（7），均衡分配每个节点的子任务范围；步骤六，各个处理器获得局部任务区间集合,令表示。本发明利用并行计算技术和计算负荷均衡方法来解决模糊概念构造过程中时间复杂度过高，时耗较长的问题。

Description

关于模糊概念的一种基于负载均衡的并行生成方法

技术领域

本发明属于模式识别、机器学习和数据挖掘技术领域，具体涉及到完备模糊形式概念的产生方法，尤其是涉及关于模糊概念的一种基于负载均衡的并行生成方法。

背景技术

传统形式概念分析方法具有一定的局限性，只能处理具有布尔类型属性值的形式背景。而现实世界的复杂性和多样性，使得许多事物难于用精确和确定的概念表示。例如,人的高矮、胖瘦，等很难用确定概念表示。虽然使用标尺技术可以将模糊形式背景转化成布尔类型形式背景，但是该方法需要人为参与并选择合适的标尺，从而导致信息易受主观因素的影响，产生失真现象。模糊形式概念分析就是将模糊集、模糊逻辑与传统形式概念分析结合，研究直接处理模糊形式背景的方法。

模糊形式概念是模糊形式概念分析(FuzzyFormalConceptAnalysis,FFCA)方法中的一种基本数据结构，广泛地应用于机器学习、数据挖掘、知识发现、信息检索、数据抽取等诸多计算机技术领域[2]。就如工业生产中需要基础原材料一样，基于形式概念分析应用（例如：生物信息领域中的基因芯片数据聚类分析(microarraydataanalysis)、体育领域中运动员信息的探索性数据分析（exploratorydataanalysis）、用户Web访问习惯关联规则地发现、DeepWeb数据库数据地抽取，等等）都需要首先构造形式概念。然后利用这些所产生的形式概念的内在和它们之间外在的关系特征（例如：Galois联系、偏序关系、相似关系，等）来完成具体、特定的分析应用任务。

然而，由于完备模糊概念的数量与数据集大小成指数倍关系，构造完备L-模糊形式概念是一件非常耗时的工作。因此，提高L-模糊概念构造效率是改善基于模糊概念应用任务时效性所必然面对的问题。

目前,已有的L-模糊概念构造方法并不多，主要有三种：①采用字典序依次构造完备L-模糊概念的FuzzyNextClosure方法，该方法属于串行构造，适合稠密数据集；②利用概念间偏序关系直接构造L-模糊概念格，该方法优点在于构造模糊概念的同时形成它们之间的格结构，但是仍然为串行方法；③基于FuzzyNextClosure的并行化改进方法(ParallelFuzzyNextClosure,记为ParaFuNec)，该方法适合多核计算，提高了构造效率；但是由于其未平衡计算负荷，导致构造效率受模糊概念分布的影响较大；也正因为此，其更适合稠密数据集上的构造任务。

发明内容

本发明的目的在于提供一种关于模糊概念的基于负载均衡的并行生成方法，利用并行计算技术和计算负荷均衡方法来解决模糊概念构造过程中时间复杂度过高，时耗较长的问题。

本发明采用以下技术方案：

关于模糊概念的一种基于负载均衡的并行生成方法，包括如下步骤：

步骤一，根据所要处理的数据集和精度要求，生成模糊形式背景K(L,X,Y,I);其中，L为真值度集合,X为对象集合,Y为属性集合，为对象和属性之间的二元模糊关系；

步骤二，根据模糊形式背景，初始化全局区间集合,即E={[0,||L||^||Y||-1]};

步骤三，对高为||Y||的||L||叉完全搜索树进行自上而下,广度优先遍历；令i表示当前高度；

步骤四，根节点处理器依据当前全局搜索区间集合E_i-1和公式（1）、(2)计算当前高度i下的总负荷Q_i;

a = \{\begin{matrix} 1 & ρ ({pre}_{i} (γ (n_{1}))) < n_{1} \\ 0 & otherwise \end{matrix} - - - (2)

其中，函数ρ为路径p到自然数的映射，定义如下：

ρ(p)=m₀×||L||^||Y||-1+m₁×||L||^||Y||-2+…+m_n-1×||L||¹+m_n×||L||⁰(3)

γ为自然数到路径的映射,定义如下：

andm_i=tmod||L||^||Y||-1-i(4)

路径的定义如下：

对于树状搜索空间，从根节点到其叶子节点的分支序列称之为一条路径，表示为其中m₀，m₁,...,m_n∈{0,1,...,||L||-1}。

其第i级路径前缀pre_i定义如下：

{pre}_{i} (p) = (b_{0}^{m_{0}}, b_{1}^{m_{1}}, . . ., b_{n}^{m_{n}}) \cap (0, . . ., i) = (b_{0}^{m_{0}}, b_{1}^{m_{1}}, . . ., b_{i}^{m_{i}}, b_{i + 1}^{0}, . . ., b_{n}^{0})

其中0≤i<n。

[n₁,n₂]为自然数区间，其表示一个连续的有效搜索空间。搜索区间集合E包含所有有效的自然数搜索区间。L为真值度集合。Y模糊集合全集。

步骤五，根据当前并行计算环境下所能支配的处理器数量D,均衡分配每个节点的子任务范围(B_low,B_up)，进而对全局搜索区间集合中的每个搜索区间e进行分配；并行执行步骤六和步骤七；

步骤六，各个处理器获得局部任务区间集合,令E_sub表示；完成E_sub搜索范围内的第i级的模糊概念生成任务；并缩减搜索空间，产生新的局部任务区间集合

步骤七，如果i＜||Y||-1，则所有非根节点处理器将局部区间集合发送到根节点处理器；否则进入步骤九；

步骤八，根节点处理器接收各个节点的汇总产生全局区间集合E，路径前缀递增,即i=i+1；进入步骤三；

步骤九，汇总各个计算节点所产生的模糊概念到全局模糊概念集合C中。

作为优选，所述步骤六对E_sub中的每个搜索区间e∈E_sub执行以下内容：

1）对搜索区间e内的第i级路径前缀逐一进行检查，如果有效,则产生模糊概念,放入局部模糊概念集合C_rank中,并且缩减当前搜索区间；如果无效,则直接缩减当前路径前缀所代表的搜索区间；

2）将缩减后的搜索区间放入局部区间集合中。

作为优选，所述步骤五中，通过第i级总体负荷Q_i,计算各个处理器所承担的计算负荷，即子任务范围(B_low,B_up)的方法如下：

B_{low} = \{\begin{matrix} Q_{i} & ID \times Step > Q_{i} \\ ID * Step & otherwise \end{matrix} - - - (6)

B_{up} = \{\begin{matrix} Q_{i} & (ID + 1) \times Step > Q_{i} \\ (ID + 1) * Step & otherwise \end{matrix} - - - (7)

其中，ID为并行环境下处理器的ID，D为并行环境下处理器的总个数。

本发明的有益效果为：

1、本发明在充分利用多核计算资源的情况下达到了模糊概念高效并行构造的目标。与已知的模糊概念并行构造方法，ParaFuNec方法相比，优秀的加速性能得益于本发明所采取的广度优先遍历和有效的空间缩减理论，减少了大量无效运算，效率得以明显提升。

2、计算负荷的均匀分配，能够充分使用并行计算资源。相比已知的模糊概念并行构造方法，本发明专门有一个负责计算负荷衡量和划分的过程，并且方法原理与实施流程也不同与ParaFuNec方法，本发明能够达到计算负荷均匀分配。

3、本发明更适合大规模、高精度数据集上模糊概念的生成需求。并且对计算节点的数量没有上限限制，具有优秀的可扩展性。

4、本发明由于采用广度优先的剪枝策略和计算负载均衡分配，其有效的缩减了搜索范围，并且避免了模糊概念分布不均造成各个计算节点任务不平衡的现象，尤其提高了在稀疏数据集上的模糊概念的产生效率。

附图说明：

图1是本发明的系统流程图；

图2是本发明的系统结构示意图；

图3是本发明搜索区间与子任务范围之间的关系示意图。

具体实施方式：

下面结合实施例对本发明作进一步描述：

如图1所示，本发明的方法步骤如下：

步骤二，根据模糊形式背景，初始化全局区间集合,即E={[0，||L||^||Y||-1]};

a = \{\begin{matrix} 1 & ρ ({pre}_{i} (γ (n_{1}))) < n_{1} \\ 0 & otherwise \end{matrix} - - - (2)

其中，函数ρ为路径p到自然数的映射，定义如下：

γ为自然数到路径的映射,定义如下：

andm_i=tmod||L||^||Y||-1-i(4)

路径的定义如下：

对于树状搜索空间，从根节点到其叶子节点的分支序列称之为一条路径，表示为其中m₀,m₁,...,m_n∈{0,1,...,||L||-1}。

其第i级路径前缀pre_i定义如下：

{pre}_{i} (p) = (b_{0}^{m_{0}}, b_{1}^{m_{1}}, . . ., b_{n}^{m_{n}}) \cap (0, . . ., i) = (b_{0}^{m_{0}}, b_{1}^{m_{1}}, . . ., b_{i}^{m_{i}}, b_{i + 1}^{0}, . . ., b_{n}^{0})

其中0≤i<n。

步骤五，根据当前并行计算环境下所能支配的处理器数量D，均衡分配每个节点的子任务范围(B_low,B_up)，进而对全局搜索区间集合中的每个搜索区间e进行分配；并行执行步骤六和步骤七；

步骤六，各个处理器获得局部任务区间集合,令E_sub表示；

对E_sub中的每个搜索区间e执行以下内容：

1）对搜索区间e内的第i级路径前缀逐一进行检查，如果有效，则产生模糊概念，放入局部模糊概念集合C_rank中，并且缩减当前搜索区间；如果无效，则直接缩减当前路径前缀所代表的搜索区间；

2）将缩减后的搜索区间放入局部区间集合中。

步骤七，如果i<||Y||-1，则所有非根节点处理器将局部区间集合发送到根节点处理器；否则进入步骤九；

步骤八，根节点处理器接收各个节点的汇总产生全局区间集合E，路径前缀递增,即i=i+1;进入步骤三；

本发明以模糊伽罗瓦闭包计算为任务划分的最小计算粒度。通过将模糊集合组合空间、树状搜索空间与自然数区间三者之间建立映射关系；进而以自然数区间精简表示有效模糊集合搜索区间；以树状搜索空间组织遍历次序；最终能够广度优先遍历并且逐级缩减搜索空间，同时产生模糊概念。

得利于广度优先遍历树状搜索空间技术方法的实现，本发明可以在树状搜索空间每级遍历之前，衡量该级将要进行的闭包计算次数，从而根据系统当前能够使用的处理器数量均衡分配计算任务，达到负荷均衡，充分利用多核计算资源，提高构造效率的目的。

本发明所提供的子任务计算方法和搜索空间表示方法相辅相成，进而可以通过以下技术手段，获得各个处理器的有效搜索区间：

由本发明所采用的方法获得的各个节点的子任务范围(B_low,B_up)是根据第i级总体计算负荷Q_i，和节点ID计算所得，故节点的任务范围(B_low,B_up)是连续的。因此，对于0节点，搜索区间e与子任务范围(B_low,B_up)不存在图3中的关系(a)；对于（D-1）节点不存在图3中的关系(f)。而对于0<ID<(D-1)的节点只需要考虑关系图3中的关系(b)、(c)、(d)、(e)。区间若满足图3中的关系(a)则落入（ID-1）节点的任务分配范围。区间若满足图3中的关系(f)则落入（ID+1）节点的任务分配范围。全部有效搜索区间通过该方法分配到各个计算节点（处理器），从而实现计算负荷均衡的技术目标。

如图2所示，本发明包含三个主要模块：

（1）负荷计算模块：该模块负责局部子搜索空间的收集和全局计算负荷的衡量；

（2）任务分配模块：负责根据当前并行环境下的处理器个数，将当前有效的搜索空间分配给各个处理器（包括root节点）；

（3）模糊概念计算模块：该模块负责在各自独立的搜索空间内查找和生成模糊概念；并将缩减后的有效搜索空间返回给负荷计算模块。

实施例1：

表1模糊形式背景

令模糊形式背景K为表1中的内容，真值度集合L={0,0.5,1}，在双核CPU上运行，即D=2。

1.初始搜索区间集合E={[0,242]}；

2.整个搜索空间可以看成一颗高度为5的3叉完全搜索树；从第0级（i=0）开始对路径前缀进行检查；

3.依据本发明所提供的计算负荷衡量方法，计算负荷Q₀=3；

4.子任务范围为CPU0:[0,2]，CPU1:[2,3]；

5.依据本发明所提供的任务分配方法,各个CPU获得子搜索区间如下：

E_{sub}^{0} = {[0,161]};

E_{sub}^{1} = [162,242]

6.各个计算节点获得各自子搜索区间，并对高度为i的路径前缀进行有效性检查。产生3个模糊概念，各个处理器上的子搜索区间分别缩减为：

E_{sub}^{0} = {[10,80], [91,161]};

E_{sub}^{1} = {[203,242]}

7.root节点汇总所有子搜索区间集合，即E={10,80],[91,161],[203,242]}；

8.i=1,返回到3，对搜索树的第1级进行路径前缀有效性检查。

9.依次类推，逐级对搜索树的当前有效搜索区间E进行检查。每次均要完成计算负荷的衡量、子任务范围的计算、子搜区间的分配、有效性检查和空间缩减工作。模糊概念在有效性检查的同时产生。

本实施例一共产生16个概念，CPU0:产生7个，CPU1:产生9个。每级检查时各个计算节点所担负的有效性检测任务次数如表2所示。从中我们可以直观地观察到虽然模糊形式背景K所产生的模糊概念分布不均匀，但是通过本发明方法，使得每级检查时各个CPU所承担的闭包计算次数（计算负荷）基本均衡。

表2每级检测次数

i	CPU 0	CPU 1
			0	2	1
1	3	2
			2	2	2
3	5	4
			4	8	8

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.关于模糊概念的一种基于负载均衡的并行生成方法，其特征在于：包括如下步骤：

步骤一，根据所要处理的数据集和精度要求，生成模糊形式背景；其中，L为真值度集合,X为对象集合,Y为属性集合，为对象和属性之间的二元模糊关系；

步骤二，根据模糊形式背景，初始化全局区间集合,即；

步骤三，对高为的叉完全搜索树进行自上而下,广度优先遍历；令i表示当前高度；

步骤四，根节点处理器依据当前全局搜索区间集合和公式（1）、(2)计算当前高度i下的总负荷；

(1)(2)

函数为路径到自然数的映射，定义如下：

(3)

为自然数到路径的映射,定义如下：

(4)

路径的定义如下：

对于树状搜索空间，从根节点到其叶子节点的分支序列称之为一条路径，表示为，其中；

其第i级路径前缀定义如下：

其中；

为自然数区间，其表示一个连续的有效搜索空间；搜索区间集合包含所有有效的自然数搜索区间；L为真值度集合；Y为属性集合；

步骤五，通过第i级总体计算总负荷，计算各个处理器所承担的计算负荷，即子任务范围的方法如下：

(5)

(6)

(7)

其中，ID为并行环境下处理器的ID，D为并行环境下处理器的总个数；根据当前并行计算环境下所能支配的处理器数量D,均衡分配每个节点的子任务范围，进而对全局搜索区间集合中的每个搜索区间进行分配；并行执行步骤六和步骤七；

步骤六，各个处理器获得局部任务区间集合,令表示；完成搜索范围内的第i级的模糊概念生成任务；并缩减搜索空间，产生新的局部任务区间集合；

步骤七，如果i<，则所有非根节点处理器将局部区间集合发送到根节点处理器；否则进入步骤九；

步骤八，根节点处理器接收各个节点的,汇总产生全局区间集合，路径前缀递增,；进入步骤三；

步骤九，汇总各个计算节点所产生的模糊概念到全局模糊概念集合中。

2.根据权利要求1所述的关于模糊概念的一种基于负载均衡的并行生成方法，其特征在于：所述步骤六对中的每个搜索区间执行以下内容：

1）对搜索区间内的第级路径前缀逐一进行检查，如果有效,则产生模糊概念,放入局部模糊概念集合中,并且缩减当前搜索区间；如果无效,则直接缩减当前路径前缀所代表的搜索区间；

2）将缩减后的搜索区间放入局部区间集合中。