CN103324468B - 关于模糊概念的一种基于负载均衡的并行生成方法 - Google Patents

关于模糊概念的一种基于负载均衡的并行生成方法 Download PDF

Info

Publication number
CN103324468B
CN103324468B CN201310292535.6A CN201310292535A CN103324468B CN 103324468 B CN103324468 B CN 103324468B CN 201310292535 A CN201310292535 A CN 201310292535A CN 103324468 B CN103324468 B CN 103324468B
Authority
CN
China
Prior art keywords
search
fuzzy
processor
concept
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310292535.6A
Other languages
English (en)
Other versions
CN103324468A (zh
Inventor
张卓
杜鹃
王黎明
柴玉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN201310292535.6A priority Critical patent/CN103324468B/zh
Publication of CN103324468A publication Critical patent/CN103324468A/zh
Application granted granted Critical
Publication of CN103324468B publication Critical patent/CN103324468B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了关于模糊概念的一种基于负载均衡的并行生成方法,步骤一,根据所要处理的数据集和精度要求,生成模糊形式背景;步骤二,根据模糊形式背景,初始化全局区间集合,即;步骤三,对高为叉完全搜索树进行自上而下,广度优先遍历;令<i>i</i>表示当前高度;步骤四,根节点处理器依据由全局搜索区间集合<i>E</i>和公式(1)、(2)计算当前高度下的总负荷;步骤五,根据当前并行计算环境下所能支配的处理器数量和公式(5)、(6)、(7),均衡分配每个节点的子任务范围;步骤六,各个处理器获得局部任务区间集合,令表示。本发明利用并行计算技术和计算负荷均衡方法来解决模糊概念构造过程中时间复杂度过高,时耗较长的问题。

Description

关于模糊概念的一种基于负载均衡的并行生成方法
技术领域
本发明属于模式识别、机器学习和数据挖掘技术领域,具体涉及到完备模糊形式概念的产生方法,尤其是涉及关于模糊概念的一种基于负载均衡的并行生成方法。
背景技术
传统形式概念分析方法具有一定的局限性,只能处理具有布尔类型属性值的形式背景。而现实世界的复杂性和多样性,使得许多事物难于用精确和确定的概念表示。例如,人的高矮、胖瘦,等很难用确定概念表示。虽然使用标尺技术可以将模糊形式背景转化成布尔类型形式背景,但是该方法需要人为参与并选择合适的标尺,从而导致信息易受主观因素的影响,产生失真现象。模糊形式概念分析就是将模糊集、模糊逻辑与传统形式概念分析结合,研究直接处理模糊形式背景的方法。
模糊形式概念是模糊形式概念分析(FuzzyFormalConceptAnalysis,FFCA)方法中的一种基本数据结构,广泛地应用于机器学习、数据挖掘、知识发现、信息检索、数据抽取等诸多计算机技术领域[2]。就如工业生产中需要基础原材料一样,基于形式概念分析应用(例如:生物信息领域中的基因芯片数据聚类分析(microarraydataanalysis)、体育领域中运动员信息的探索性数据分析(exploratorydataanalysis)、用户Web访问习惯关联规则地发现、DeepWeb数据库数据地抽取,等等)都需要首先构造形式概念。然后利用这些所产生的形式概念的内在和它们之间外在的关系特征(例如:Galois联系、偏序关系、相似关系,等)来完成具体、特定的分析应用任务。
然而,由于完备模糊概念的数量与数据集大小成指数倍关系,构造完备L-模糊形式概念是一件非常耗时的工作。因此,提高L-模糊概念构造效率是改善基于模糊概念应用任务时效性所必然面对的问题。
目前,已有的L-模糊概念构造方法并不多,主要有三种:①采用字典序依次构造完备L-模糊概念的FuzzyNextClosure方法,该方法属于串行构造,适合稠密数据集;②利用概念间偏序关系直接构造L-模糊概念格,该方法优点在于构造模糊概念的同时形成它们之间的格结构,但是仍然为串行方法;③基于FuzzyNextClosure的并行化改进方法(ParallelFuzzyNextClosure,记为ParaFuNec),该方法适合多核计算,提高了构造效率;但是由于其未平衡计算负荷,导致构造效率受模糊概念分布的影响较大;也正因为此,其更适合稠密数据集上的构造任务。
发明内容
本发明的目的在于提供一种关于模糊概念的基于负载均衡的并行生成方法,利用并行计算技术和计算负荷均衡方法来解决模糊概念构造过程中时间复杂度过高,时耗较长的问题。
本发明采用以下技术方案:
关于模糊概念的一种基于负载均衡的并行生成方法,包括如下步骤:
步骤一,根据所要处理的数据集和精度要求,生成模糊形式背景K(L,X,Y,I);其中,L为真值度集合,X为对象集合,Y为属性集合,为对象和属性之间的二元模糊关系;
步骤二,根据模糊形式背景,初始化全局区间集合,即E={[0,||L||||Y||-1]};
步骤三,对高为||Y||的||L||叉完全搜索树进行自上而下,广度优先遍历;令i表示当前高度;
步骤四,根节点处理器依据当前全局搜索区间集合Ei-1和公式(1)、(2)计算当前高度i下的总负荷Qi;
a = 1 &rho; ( pre i ( &gamma; ( n 1 ) ) ) < n 1 0 otherwise - - - ( 2 )
其中,函数ρ为路径p到自然数的映射,定义如下:
ρ(p)=m0×||L||||Y||-1+m1×||L||||Y||-2+…+mn-1×||L||1+mn×||L||0(3)
γ为自然数到路径的映射,定义如下:
andmi=tmod||L||||Y||-1-i(4)
路径的定义如下:
对于树状搜索空间,从根节点到其叶子节点的分支序列称之为一条路径,表示为其中m0,m1,...,mn∈{0,1,...,||L||-1}。
其第i级路径前缀prei定义如下:
pre i ( p ) = ( b 0 m 0 , b 1 m 1 , . . . , b n m n ) &cap; ( 0 , . . . , i ) = ( b 0 m 0 , b 1 m 1 , . . . , b i m i , b i + 1 0 , . . . , b n 0 ) 其中0≤i<n。
[n1,n2]为自然数区间,其表示一个连续的有效搜索空间。搜索区间集合E包含所有有效的自然数搜索区间。L为真值度集合。Y模糊集合全集。
步骤五,根据当前并行计算环境下所能支配的处理器数量D,均衡分配每个节点的子任务范围(Blow,Bup),进而对全局搜索区间集合中的每个搜索区间e进行分配;并行执行步骤六和步骤七;
步骤六,各个处理器获得局部任务区间集合,令Esub表示;完成Esub搜索范围内的第i级的模糊概念生成任务;并缩减搜索空间,产生新的局部任务区间集合
步骤七,如果i<||Y||-1,则所有非根节点处理器将局部区间集合发送到根节点处理器;否则进入步骤九;
步骤八,根节点处理器接收各个节点的汇总产生全局区间集合E,路径前缀递增,即i=i+1;进入步骤三;
步骤九,汇总各个计算节点所产生的模糊概念到全局模糊概念集合C中。
作为优选,所述步骤六对Esub中的每个搜索区间e∈Esub执行以下内容:
1)对搜索区间e内的第i级路径前缀逐一进行检查,如果有效,则产生模糊概念,放入局部模糊概念集合Crank中,并且缩减当前搜索区间;如果无效,则直接缩减当前路径前缀所代表的搜索区间;
2)将缩减后的搜索区间放入局部区间集合中。
作为优选,所述步骤五中,通过第i级总体负荷Qi,计算各个处理器所承担的计算负荷,即子任务范围(Blow,Bup)的方法如下:
B low = Q i ID &times; Step > Q i ID * Step otherwise - - - ( 6 )
B up = Q i ( ID + 1 ) &times; Step > Q i ( ID + 1 ) * Step otherwise - - - ( 7 )
其中,ID为并行环境下处理器的ID,D为并行环境下处理器的总个数。
本发明的有益效果为:
1、本发明在充分利用多核计算资源的情况下达到了模糊概念高效并行构造的目标。与已知的模糊概念并行构造方法,ParaFuNec方法相比,优秀的加速性能得益于本发明所采取的广度优先遍历和有效的空间缩减理论,减少了大量无效运算,效率得以明显提升。
2、计算负荷的均匀分配,能够充分使用并行计算资源。相比已知的模糊概念并行构造方法,本发明专门有一个负责计算负荷衡量和划分的过程,并且方法原理与实施流程也不同与ParaFuNec方法,本发明能够达到计算负荷均匀分配。
3、本发明更适合大规模、高精度数据集上模糊概念的生成需求。并且对计算节点的数量没有上限限制,具有优秀的可扩展性。
4、本发明由于采用广度优先的剪枝策略和计算负载均衡分配,其有效的缩减了搜索范围,并且避免了模糊概念分布不均造成各个计算节点任务不平衡的现象,尤其提高了在稀疏数据集上的模糊概念的产生效率。
附图说明:
图1是本发明的系统流程图;
图2是本发明的系统结构示意图;
图3是本发明搜索区间与子任务范围之间的关系示意图。
具体实施方式:
下面结合实施例对本发明作进一步描述:
如图1所示,本发明的方法步骤如下:
步骤一,根据所要处理的数据集和精度要求,生成模糊形式背景K(L,X,Y,I);其中,L为真值度集合,X为对象集合,Y为属性集合,为对象和属性之间的二元模糊关系;
步骤二,根据模糊形式背景,初始化全局区间集合,即E={[0,||L||||Y||-1]};
步骤三,对高为||Y||的||L||叉完全搜索树进行自上而下,广度优先遍历;令i表示当前高度;
步骤四,根节点处理器依据当前全局搜索区间集合Ei-1和公式(1)、(2)计算当前高度i下的总负荷Qi;
a = 1 &rho; ( pre i ( &gamma; ( n 1 ) ) ) < n 1 0 otherwise - - - ( 2 )
其中,函数ρ为路径p到自然数的映射,定义如下:
ρ(p)=m0×||L||||Y||-1+m1×||L||||Y||-2+…+mn-1×||L||1+mn×||L||0(3)
γ为自然数到路径的映射,定义如下:
andmi=tmod||L||||Y||-1-i(4)
路径的定义如下:
对于树状搜索空间,从根节点到其叶子节点的分支序列称之为一条路径,表示为其中m0,m1,...,mn∈{0,1,...,||L||-1}。
其第i级路径前缀prei定义如下:
pre i ( p ) = ( b 0 m 0 , b 1 m 1 , . . . , b n m n ) &cap; ( 0 , . . . , i ) = ( b 0 m 0 , b 1 m 1 , . . . , b i m i , b i + 1 0 , . . . , b n 0 ) 其中0≤i<n。
[n1,n2]为自然数区间,其表示一个连续的有效搜索空间。搜索区间集合E包含所有有效的自然数搜索区间。L为真值度集合。Y模糊集合全集。
步骤五,根据当前并行计算环境下所能支配的处理器数量D,均衡分配每个节点的子任务范围(Blow,Bup),进而对全局搜索区间集合中的每个搜索区间e进行分配;并行执行步骤六和步骤七;
步骤六,各个处理器获得局部任务区间集合,令Esub表示;
对Esub中的每个搜索区间e执行以下内容:
1)对搜索区间e内的第i级路径前缀逐一进行检查,如果有效,则产生模糊概念,放入局部模糊概念集合Crank中,并且缩减当前搜索区间;如果无效,则直接缩减当前路径前缀所代表的搜索区间;
2)将缩减后的搜索区间放入局部区间集合中。
步骤七,如果i<||Y||-1,则所有非根节点处理器将局部区间集合发送到根节点处理器;否则进入步骤九;
步骤八,根节点处理器接收各个节点的汇总产生全局区间集合E,路径前缀递增,即i=i+1;进入步骤三;
步骤九,汇总各个计算节点所产生的模糊概念到全局模糊概念集合C中。
本发明以模糊伽罗瓦闭包计算为任务划分的最小计算粒度。通过将模糊集合组合空间、树状搜索空间与自然数区间三者之间建立映射关系;进而以自然数区间精简表示有效模糊集合搜索区间;以树状搜索空间组织遍历次序;最终能够广度优先遍历并且逐级缩减搜索空间,同时产生模糊概念。
得利于广度优先遍历树状搜索空间技术方法的实现,本发明可以在树状搜索空间每级遍历之前,衡量该级将要进行的闭包计算次数,从而根据系统当前能够使用的处理器数量均衡分配计算任务,达到负荷均衡,充分利用多核计算资源,提高构造效率的目的。
本发明所提供的子任务计算方法和搜索空间表示方法相辅相成,进而可以通过以下技术手段,获得各个处理器的有效搜索区间:
由本发明所采用的方法获得的各个节点的子任务范围(Blow,Bup)是根据第i级总体计算负荷Qi,和节点ID计算所得,故节点的任务范围(Blow,Bup)是连续的。因此,对于0节点,搜索区间e与子任务范围(Blow,Bup)不存在图3中的关系(a);对于(D-1)节点不存在图3中的关系(f)。而对于0<ID<(D-1)的节点只需要考虑关系图3中的关系(b)、(c)、(d)、(e)。区间若满足图3中的关系(a)则落入(ID-1)节点的任务分配范围。区间若满足图3中的关系(f)则落入(ID+1)节点的任务分配范围。全部有效搜索区间通过该方法分配到各个计算节点(处理器),从而实现计算负荷均衡的技术目标。
如图2所示,本发明包含三个主要模块:
(1)负荷计算模块:该模块负责局部子搜索空间的收集和全局计算负荷的衡量;
(2)任务分配模块:负责根据当前并行环境下的处理器个数,将当前有效的搜索空间分配给各个处理器(包括root节点);
(3)模糊概念计算模块:该模块负责在各自独立的搜索空间内查找和生成模糊概念;并将缩减后的有效搜索空间返回给负荷计算模块。
实施例1:
表1模糊形式背景
令模糊形式背景K为表1中的内容,真值度集合L={0,0.5,1},在双核CPU上运行,即D=2。
1.初始搜索区间集合E={[0,242]};
2.整个搜索空间可以看成一颗高度为5的3叉完全搜索树;从第0级(i=0)开始对路径前缀进行检查;
3.依据本发明所提供的计算负荷衡量方法,计算负荷Q0=3;
4.子任务范围为CPU0:[0,2],CPU1:[2,3];
5.依据本发明所提供的任务分配方法,各个CPU获得子搜索区间如下:
E sub 0 = { [ 0,161 ] } ; E sub 1 = [ 162,242 ]
6.各个计算节点获得各自子搜索区间,并对高度为i的路径前缀进行有效性检查。产生3个模糊概念,各个处理器上的子搜索区间分别缩减为:
E sub 0 = { [ 10,80 ] , [ 91,161 ] } ; E sub 1 = { [ 203,242 ] }
7.root节点汇总所有子搜索区间集合,即E={10,80],[91,161],[203,242]};
8.i=1,返回到3,对搜索树的第1级进行路径前缀有效性检查。
9.依次类推,逐级对搜索树的当前有效搜索区间E进行检查。每次均要完成计算负荷的衡量、子任务范围的计算、子搜区间的分配、有效性检查和空间缩减工作。模糊概念在有效性检查的同时产生。
本实施例一共产生16个概念,CPU0:产生7个,CPU1:产生9个。每级检查时各个计算节点所担负的有效性检测任务次数如表2所示。从中我们可以直观地观察到虽然模糊形式背景K所产生的模糊概念分布不均匀,但是通过本发明方法,使得每级检查时各个CPU所承担的闭包计算次数(计算负荷)基本均衡。
表2每级检测次数
i CPU 0 CPU 1
0 2 1
1 3 2
2 2 2
3 5 4
4 8 8
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.关于模糊概念的一种基于负载均衡的并行生成方法,其特征在于:包括如下步骤:
步骤一,根据所要处理的数据集和精度要求,生成模糊形式背景;其中,L为真值度集合,X为对象集合,Y为属性集合,为对象和属性之间的二元模糊关系;
步骤二,根据模糊形式背景,初始化全局区间集合,即
步骤三,对高为叉完全搜索树进行自上而下,广度优先遍历;令i表示当前高度;
步骤四,根节点处理器依据当前全局搜索区间集合和公式(1)、(2)计算当前高度i下的总负荷
(1)(2)
函数为路径到自然数的映射,定义如下:
(3)
为自然数到路径的映射,定义如下:
(4)
路径的定义如下:
对于树状搜索空间,从根节点到其叶子节点的分支序列称之为一条路径,表示为,其中
其第i级路径前缀定义如下:
其中
为自然数区间,其表示一个连续的有效搜索空间;搜索区间集合包含所有有效的自然数搜索区间;L为真值度集合;Y为属性集合;
步骤五,通过第i级总体计算总负荷,计算各个处理器所承担的计算负荷,即子任务范围的方法如下:
(5)
(6)
(7)
其中,ID为并行环境下处理器的ID,D为并行环境下处理器的总个数;根据当前并行计算环境下所能支配的处理器数量D,均衡分配每个节点的子任务范围,进而对全局搜索区间集合中的每个搜索区间进行分配;并行执行步骤六和步骤七;
步骤六,各个处理器获得局部任务区间集合,令表示;完成搜索范围内的第i级的模糊概念生成任务;并缩减搜索空间,产生新的局部任务区间集合
步骤七,如果i<,则所有非根节点处理器将局部区间集合发送到根节点处理器;否则进入步骤九;
步骤八,根节点处理器接收各个节点的,汇总产生全局区间集合,路径前缀递增,;进入步骤三;
步骤九,汇总各个计算节点所产生的模糊概念到全局模糊概念集合中。
2.根据权利要求1所述的关于模糊概念的一种基于负载均衡的并行生成方法,其特征在于:所述步骤六对中的每个搜索区间执行以下内容:
1)对搜索区间内的第级路径前缀逐一进行检查,如果有效,则产生模糊概念,放入局部模糊概念集合中,并且缩减当前搜索区间;如果无效,则直接缩减当前路径前缀所代表的搜索区间;
2)将缩减后的搜索区间放入局部区间集合中。
CN201310292535.6A 2013-07-12 2013-07-12 关于模糊概念的一种基于负载均衡的并行生成方法 Expired - Fee Related CN103324468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310292535.6A CN103324468B (zh) 2013-07-12 2013-07-12 关于模糊概念的一种基于负载均衡的并行生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310292535.6A CN103324468B (zh) 2013-07-12 2013-07-12 关于模糊概念的一种基于负载均衡的并行生成方法

Publications (2)

Publication Number Publication Date
CN103324468A CN103324468A (zh) 2013-09-25
CN103324468B true CN103324468B (zh) 2016-02-03

Family

ID=49193238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310292535.6A Expired - Fee Related CN103324468B (zh) 2013-07-12 2013-07-12 关于模糊概念的一种基于负载均衡的并行生成方法

Country Status (1)

Country Link
CN (1) CN103324468B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094456B (zh) * 2021-04-09 2022-09-13 郑州大学 一种机器人行走路径生成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117336A (zh) * 2011-03-25 2011-07-06 华南师范大学 一种基于决策表的模糊粗糙单调依赖数据挖掘方法
CN102662743A (zh) * 2012-04-13 2012-09-12 南京信息工程大学 一种启发式粗粒度并行网格任务调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110037184A (ko) * 2009-10-06 2011-04-13 한국과학기술원 뉴로-퍼지 시스템과 병렬처리 프로세서가 결합된, 파이프라이닝 컴퓨터 시스템, 이를 이용하여 영상에서 물체를 인식하는 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117336A (zh) * 2011-03-25 2011-07-06 华南师范大学 一种基于决策表的模糊粗糙单调依赖数据挖掘方法
CN102662743A (zh) * 2012-04-13 2012-09-12 南京信息工程大学 一种启发式粗粒度并行网格任务调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Theoretical Approach to Liu"s Generalized Lambda-Fuzzy Measure;Hsiang-Chuan Liu等;《2011 IEEE International Conference on Fuzzy Systems》;20110630;第356-363页 *
模糊形式概念并行构造算法;张卓等;《模式识别与人工智能》;20130315;第26卷(第3期);第260-269页 *

Also Published As

Publication number Publication date
CN103324468A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
Isaac et al. Low-cost parallel algorithms for 2: 1 octree balance
CN100456281C (zh) 数据划分设备和数据划分方法
CN100495404C (zh) 基于流处理的生物序列数据库搜索多层次加速方法
CN103605161B (zh) 地震三维观测系统的共中心点面元属性的分析方法及装置
Davoodi et al. Common set of weights in data envelopment analysis: a linear programming problem
CN108846338A (zh) 基于面向对象随机森林的极化特征选择及分类方法
CN106600570A (zh) 一种基于云计算的海量点云滤波方法
CN102722531A (zh) 一种云环境中基于分片位图索引的查询方法
CN107480889A (zh) 一种湿地生态安全预警等级评定方法
CN102419794A (zh) 一种机载激光点云数据的快速滤波方法
CN104572295A (zh) 匹配于高性能计算机体系结构的结构网格数据管理方法
CN107292919A (zh) 一种面向空间剖分的多尺度居民地匹配方法
CN106934417A (zh) 一种面向混合属性的数据流自适应聚类方法
CN103714154A (zh) 一种确定最佳聚类数的方法
CN111597230A (zh) 基于MapReduce的并行密度聚类挖掘方法
CN103698809A (zh) 一种无加速比瓶颈的克希霍夫叠前时间偏移并行方法
CN103324468B (zh) 关于模糊概念的一种基于负载均衡的并行生成方法
CN105138607B (zh) 一种基于混合粒度分布式内存网格索引的knn查询方法
CN112948123B (zh) 一种基于Spark的网格水文模型分布式计算方法
Merkel et al. Partitioner selection with ease to optimize distributed graph processing
CN108596390B (zh) 一种解决车辆路径问题的方法
Gui et al. Developing subdomain allocation algorithms based on spatial and communicational constraints to accelerate dust storm simulation
CN115344383A (zh) 一种基于进程并行的流线可视化并行加速方法
CN106526667B (zh) 叠前时间偏移方法和装置
CN112365039B (zh) 一种基于纵横相关性进行月度用电量预测的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160203

Termination date: 20200712