CN104408206A - 分布式支持向量聚类的方法及系统 - Google Patents

分布式支持向量聚类的方法及系统 Download PDF

Info

Publication number
CN104408206A
CN104408206A CN201410815788.1A CN201410815788A CN104408206A CN 104408206 A CN104408206 A CN 104408206A CN 201410815788 A CN201410815788 A CN 201410815788A CN 104408206 A CN104408206 A CN 104408206A
Authority
CN
China
Prior art keywords
support vector
sample
weight coefficient
value
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410815788.1A
Other languages
English (en)
Inventor
平源
李慧娜
张志立
张永
杨月华
马慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuchang University
Original Assignee
Xuchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuchang University filed Critical Xuchang University
Priority to CN201410815788.1A priority Critical patent/CN104408206A/zh
Publication of CN104408206A publication Critical patent/CN104408206A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式支持向量聚类的方法,包括:对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;向各个计算节点分发预定数据集或特定计算结果;当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量样本作为聚类分析的结果;该方法能够有效提高支持向量聚类的效率。

Description

分布式支持向量聚类的方法及系统
技术领域
本发明涉及数据处理技术领域,特别是涉及一种分布式支持向量聚类的方法及系统。
背景技术
聚类分析是通过某种相似测度去发现对象集合中存在紧密关系的观测值簇,使得簇内部的对象彼此之间的相似度尽可能地大,而不同簇类的对象之间的相似度尽可能地小,甚至不同或不相关。
目前对于聚类分析方法的优劣是通过有效性度量和实现性能即时间效率和存储效率进行。
对于有效性来说支持向量聚类方法较好,其中,支持向量聚类是基于核函数方法的一种,它通过使用核函数将数据从输入空间映射到高维特征空间中,寻找一个具有最小半径R的超球体尽可能地包围住所有训练集样本,再将该超球体逆向映射回输入空间时,原描述超球体的样本正好形成能够描述数据分布区域边界的轮廓。相对于其他方法,支持向量聚类的主要优势体现在对任意簇形状的发现和描述能力,且无需预设簇数量。但是该方法最大的不足就是实现性能差,建立在整个训练集上的核矩阵对存储空间的巨大消耗,和为求解描述超球体的支持函数时的昂贵时间代价。
现有的对支持向量聚类分析方法效率提升的主要有1)转换求解支持函数的对偶问题,但其虽对计算效率有益却对一次性建立核矩阵的规模降低没有帮助;2)训练集约简,但作为预处理阶段的改进对于规模大或高维度(或二者兼具)的数据分析性能提升有限,且容易引入更多的参数增加算法复杂度。因此这些方法都不能够有效的提升支持向量聚类分析方法效率。
因此,如何有效提高支持向量聚类的效率,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种分布式支持向量聚类的方法,该方法能够有效的提高支持向量聚类的存储效率以及时间效率,本发明的另一目的是提供一种分布式支持向量聚类的系统。
为解决上述技术问题,本发明提供一种分布式支持向量聚类的方法包括:
对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;
向各个计算节点分发预定数据集或特定计算结果;
当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;
找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;
利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量的簇标号,作为整个数据集的聚类分析的结果。
其中,所述对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化包括:
对输入的数据集进行噪声和/或非重要数据过滤;
对处理后的所述数据集中每个样本进行规范化处理,形成预定数据集;
规定计算节点个数,并对全局参数及任务进行初始化。
其中,所述初始化所述预定数据集的权重向量包括:
设置当前任务编号,并初始化预定数据中每个样本的权重系数,根据特定值序列计算公式计算每个样本相对应的特定值。
其中,所述按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值包括:
根据任务编号确定样本任务,利用临时值计算公式,计算所述样本任务相对应的样本的临时值;
根据所述样本的权重系数值所对应的范围,利用参照值计算公式计算该样本的参照值;
判断所述参照值的绝对值是否等于预定极小值,当等于预定极小值时,该样本任务计算完成,增加任务编号,进行下一个样本任务;
当不等于预定极小值时,根据样本权重更新公式更新该样本的权重系数值,根据任务编号进行样本任务的计算。
其中,所述利用所述支持向量以及各支持向量的权重系数之前还包括:
对所述支持向量根据过滤条件进行过滤,其中,过滤条件包括:
滤除所述支持向量中权重系数大于第一预定值和小于第二预定值的支持向量;
对过滤后的支持向量的权重系数进行规范化操作。
其中,所述标定非支持向量的簇标号包括:
将非支持向量样本的各个样本标定为距离各样本距离数值最小的支持向量对应的簇标号。
本发明提供一种支持向量聚类的系统包括:
准备模块,用于对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;
分配模块,用于向各个计算节点分发预定数据集或特定计算结果;
计算模块,用于当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;
查找模块,用于找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;
确定模块,用于利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量的簇标号,作为整个数据集的聚类分析的结果。
其中,所述计算模块包括:
设置单元,用于当计算节点分到预定数据集,则初始化所述预定数据集的权重向量;
第一计算单元,用于根据特定值序列计算公式计算每个样本相对应的特定值;
第二计算单元,用于利用临时值计算公式,计算所述样本任务相对应的样本的临时值;
第三计算单元,用于根据所述样本的权重系数值所对应的范围,利用参照值计算公式计算该样本的参照值;
判断单元,用于判断所述参照值的绝对值是否等于预定极小值;
处理单元,用于当等于预定极小值时,该样本任务计算完成,增加任务编号,进行下一个样本任务;当不等于预定极小值时,根据样本权重更新公式更新该样本的权重系数值,根据任务编号进行样本任务的计算。
其中,所述的支持向量聚类的系统还包括:
过滤模块,用于对所述支持向量根据过滤条件进行过滤。
其中,所述确定模块包括:
第一确定单元,用于利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号;
第二确定单元,用于将非支持向量样本的各个样本标定为距离各样本距离数值最小的支持向量对应的簇标号,作为整个数据集的支持向量聚类的结果。
基于上述技术方案,本发明所提供的支持向量聚类的方法,对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;向各个计算节点分发预定数据集或特定计算结果;当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,并标定所述支持向量对应的簇标号,作为支持向量聚类的结果;通过构建支持函数而求解的对偶问题分解,避开一次性核函数矩阵的构建对存储空间的消耗,以提升算法的存储效率,并将数据集样本在支持函数中的权重系数的评估过程并行化处理,以达到时间效率的显著提升;并提升支持向量聚类的方法在大规模、高维度数据分析方面的性能。该方法能够有效提高支持向量聚类的效率。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的分布式支持向量聚类方法的流程图;
图2为本发明实施例提供的计算样本权重系数的方法的流程图;
图3为本发明实施例提供的支持向量聚类的系统的结构框图;
图4为本发明实施例提供的计算模块的结构框图;
图5为本发明实施例提供的另一支持向量聚类的系统的结构框图。
具体实施方式
本发明的目的是提供一种分布式支持向量聚类的方法,该方法能够有效的提高支持向量聚类方法的存储效率以及时间效率,本发明的另一目的是提供一种支持向量聚类的系统。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明将支持向量聚类中存储空间消耗巨大、计算复杂度较高且耗时的对偶问题模型,从经典的非线性问题模型转换为线性的支持向量机模型,结合最新的对偶坐标下降法原理,将原本需要一次性构造完整的核函数矩阵或分块顺序处理的对偶问题求解过程做并行化处理,形成可直接完成超大规模、高维数据分析以提取支持函数的、简洁的、快速的分布式处理形式。具体过程可参见图1。
请参考图1,图1为本发明实施例提供的支持向量聚类的方法的流程图;该方法可以包括:
步骤s100、对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;
其中,该过程可以包括:预处理阶段,通过对噪声或非重要数据过滤、规范化处理等;来达到提高处理效率。
全局参数及任务初始化阶段,通过对支持向量聚类过程中所需的样本数、计算节点数、分配数量向量、核函数及惩罚因子等进行全局初始化设置;方便后续计算过程的使用。将可能会消耗时间的过程都尽可能的进行处理。
其中,对输入的数据集中每个样本视为行、每个属性视为列,进行基本的规范化处理,以使数据取值范围位于任务期望范围内。
其中,在进行规范化处理时,通常将数据集中每个样本视为行、每个属性视为列,然后按照横向(行)或纵向(列)进行规范化处理。处理后的数据取值范围应视具体任务而定,通常建议为[-1,1]或[0,1]之间;如果原值域范围较大,且取值分布较为均匀,则应考虑聚类算法对精度的要求,适当扩大规范后的值域范围。
其中,全局参数可以包括:预定数据集样本数L;分布式计算框架下的计算节点数N,其中N≥1;分配数量向量VL=[L1,...,LN],其中Li(i∈[1,N])为需要第i个计算节点完成的计算任务数,即需要计算的权重系数个数;核函数宽度q和惩罚因子C;其中,对于核函数宽度q和惩罚因子C。该两个参数为经典支持向量聚类模型中所需的参数,在用支持向量样本来描述簇轮廓时,前者将决定轮廓的平滑程度,后者将决定轮廓的收缩与扩张。
其中,滤除数据中存在噪声或非重要的数据,以便保留下来的数据具有相对清晰的簇轮廓,并使参数初始化工作变得更加容易。但是,如果待分析的数据维度较高,则通常存在滤除效果不明显,此时建议调整惩罚因子C来解决或者为预处理增加必要的降维映射操作,如主成分提取等。此外,本发明并不对噪声数据或非重要数据进行明确界定,它们与具体的应用和数据的分布有关,通常是那些位于清晰簇轮廓之外的部分稀疏且与多个簇没有明确隶属关系的数据样本。
步骤s110、向各个计算节点分发预定数据集或特定计算结果;
其中,分发数据或特定计算结果阶段,通过向计算节点分发数据集或特定中间结果,并按照数据配比通知每个计算节点待分析的预定数据集中样本数量;即使得每个计算节点有预定个数个样本需要进行处理。
其中,这些计算节点可以位于一个处理器内,也可以位于多个处理器中。例如处理器可以为计算机中。
其中,如果计算节点收到的是预定数据集,则根据任务指示自行计算所需中间结果并存储为本地常量,收到的是特定计算结果只需存储该中间结果以后续计算之用。
步骤s120、当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;
其中,当计算节点分到预定数据集,则初始化所述预定数据集的权重向量可以有两种形式,当所述预定数据集为整个数据集时,将上述设置的全局参数、任务等分发给所有的计算节点,在要求计算节点根据所接收到的数据、参数及任务分配信息,并结合自身的节点编号在本地完成初始化L个样本的权重系数α1,...,αL,然后计算特定值序列并按照分配数量向量VL的要求将特定值序列分组分发给每个计算节点,即第i个节点将得到脚标范围从的子序列值。这里,特定值序列的计算公式为其中K(xv,xu)=exp(-q||xv-xu||2)。得到并存储然后将计算节点为待分析样本子集初始化权重系数,且复制一份作为本地常量存储,然后设置当前任务编号。
当所述预定数据集不为整个数据集时,初始化L个样本的权重系数α1,...,αL,然后计算特定值序列并按照分配数量向量VL的要求将特定值序列分组分发给每个计算节点,即第i个节点将得到脚标范围从的子序列值。这里,特定值序列的计算公式为其中K(xv,xu)=exp(-q||xv-xu||2),第i个计算节点根据自身任务数的要求为待分析的L个样本的权重系数α1,...,αL,且可以复制一份作为本地常量存储,最后可以设置当前任务编号。
其中,按照预定公式进行迭代运算这里可能会进行多轮迭代,计算出所述预定数据集中每个样本的权重系数值。
步骤s130、找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;
其中,所述预定极小值应根据计算机的精度或具体应用需要合理选择一个大于0的极小值作为替代。例如可以根据实际情况将数值0替换为一个大于0的极小值∈,也可使用与整个数据规模L成反比关系的一个较小值ξ来替换,例如取
步骤s140、利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量的簇标号,作为整个数据集的聚类分析的结果。
其中,1)支持函数的构造可以利用NS个支持向量样本和对应的权重系数,构造支持函数并计算得到最小包含球的半径,公式如下:
R = max v = 1 , . . . , N S 1 - 2 Σ j N S α j K ( x j , x v ) + Σ i , j N S α i α j K ( x i , x j )
其中,2)基于NS个支持向量样本值重新计算并更新其对应的权重系数,更新权重系数需求解的二次规划问题如下:
其中,H=QTQ,为NS×NS矩阵;且Q中第j个元素Qj的表达式如下:
Q j = [ 1 - K ( x 1 , x j + 1 ) , K ( x 2 , x 1 ) - K ( x 2 , x j + 1 ) , . . . , K ( x N S , x 1 ) - K ( x N S , x j + 1 ) ]
然后利用更新后的权重系数和样本,沿用步骤1)计算得到半径R。
在经过上述步骤之后就可以得到最小包含球半径、支持向量样本及其对应的权重系数,采用任意主流方法完成簇的识别例如可采用CDCL、CCL、CG、FSVC等主流方法的簇识别及连接性判断部分的方法,并对所有支持向量进行标定簇标号。
其中,标定非支持向量的簇标号可以通过距离的计算可以根据需要选择欧式距离或其他距离衡量方法;参考的对象可以是已标定的支持向量,或者簇的原型(即代表该簇的一个或多个真实样本,或者基于构成该簇的支持向量样本和簇形状而构造出来用以代表该簇的虚拟样本)。其中,优选的,可以根据非支持向量样本规模大小,确定和划分子集后分配至各计算节点,这样可以加快计算效率,将各个样本标定为某种距离测度下与各样本距离最小的支持向量对应的簇标号,通过这样的方法来进行非支持向量的簇标号的标定。
其中,还可以对得到的结果进行输出。
基于上述技术方案,本发明所提供的支持向量聚类的方法,通过构建支持函数而求解的对偶问题分解,避开一次性核函数矩阵的构建对存储空间的消耗,以提升算法的存储效率,并将数据集样本在支持函数中的权重系数的评估过程并行化处理,以达到时间效率的显著提升;并提升支持向量聚类的方法在大规模、高维度数据分析方面的性能。该方法能够有效提高支持向量聚类的效率。
可选的,所述对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化包括:
对输入的数据集进行噪声和/或非重要数据过滤;
对处理后的所述数据集中每个样本进行规范化处理,形成预定数据集;
其中,经过上述处理,可以在不降低精度的情况下,提高计算效率。
规定计算节点个数,并对全局参数及任务进行初始化。
可选的,所述初始化所述预定数据集的权重向量包括:
设置当前任务编号,并初始化预定数据中每个样本的权重系数,根据特定值序列计算公式计算每个样本相对应的特定值。
其中,所述特定值序列计算公式可以为其中,K(xv,xu)=exp(-q||xv-xu||2)。
可选的,请参考图2,图2为本发明实施例提供的计算样本权重系数的方法的流程图;该方法可以包括:
步骤s200、根据任务编号确定样本任务,利用临时值计算公式,计算所述样本任务相对应的样本的临时值;
其中,所述临时值计算公式可以为
其中,Gj为当前计算节点在完成计算任务j过程中的临时变量。
其中,Gj为临时值,aj为权重系数,为特定值,为更新的权重系数值。
步骤s210、根据所述样本的权重系数值所对应的范围,利用参照值计算公式计算该样本的参照值;
其中,所述参照值计算公式可以为 PG = min ( G j , 0 ) if &alpha; j = 0 max ( G j , 0 ) if &alpha; j = C G j if 0 < &alpha; j < C
其中,Gj为临时值,PG为参照值。
其中,PG绝对值|PG|是否等于0的判断,可以在|PG|足够小时将其视为等于0。即如果|PG|≤∈,则认为|PG|≈0,其中∈为一个大于0的极小值,具体取值根据实际应用确定。
步骤s220、判断所述参照值的绝对值是否等于预定极小值,当等于预定极小值时,该样本任务计算完成,增加任务编号,进行下一个样本任务;
其中,这里的等于不是一个严格意义上的等于就是在预定极小值的范围内。
步骤s230、当不等于预定极小值时,根据样本权重更新公式更新该样本的权重系数值,根据任务编号进行样本任务的计算。
其中,所述样本权重更新公式可以为αj=min(max(αj-Gj/2,0),C),然后在从步骤s200开始进行计算处理。
其中,在计算节点是否将每一个样本都进行了权重系数的计算,可以通过下述方法进行判定,例如计算节点在每次准备开始分析一个新样本的权重系数前,步骤s200通过判断递增的任务编号j是否达到被分配的任务数及是否达到样本个数。如果小于该计算节点所分配的样本个数,则表明还有未完成的任务,否则表明任务已经完成。
可选的,所述利用所述支持向量以及各支持向量的权重系数之前还包括:
对所述支持向量根据过滤条件进行过滤,其中,过滤条件包括:
滤除所述支持向量中权重系数大于第一预定值和小于第二预定值的支持向量;
对过滤后的支持向量的权重系数进行规范化操作。
其中,这样的操作可以提高计算效率。
可选的,所述标定非支持向量的簇标号包括:
将非支持向量样本的各个样本标定为距离各样本距离数值最小的支持向量对应的簇标号。
其中,距离的计算可以根据需要选择欧式距离或其他距离衡量方法;参考的对象可以是已标定的支持向量,或者簇的原型(即代表该簇的一个或多个真实样本,或者基于构成该簇的支持向量样本和簇形状而构造出来用以代表该簇的虚拟样本)。
本发明实施例提供了支持向量聚类的方法,可以通过上述方法能够有效的提高支持向量聚类方法的存储效率以及时间效率。
下面对本发明实施例提供的支持向量聚类的系统进行介绍,下文描述的支持向量聚类的系统与上文描述的支持向量聚类的方法可相互对应参照。
请参考图3,图3为本发明实施例提供的支持向量聚类的系统的结构框图;该系统可以包括:
准备模块100,用于对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;
分配模块200,用于向各个计算节点分发预定数据集或特定计算结果;
计算模块300,用于当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;
查找模块400,用于找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;
确定模块500,用于利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量的簇标号,作为整个数据集的聚类分析的结果。
可选的,请参照图4,图4本发明实施例提供的计算模块的结构框图;该模块可以包括:
设置单元310,用于当计算节点分到预定数据集,则初始化所述预定数据集的权重向量;
第一计算单元320,用于根据特定值序列计算公式计算每个样本相对应的特定值;
第二计算单元330,用于利用临时值计算公式,计算所述样本任务相对应的样本的临时值;
第三计算单元340,用于根据所述样本的权重系数值所对应的范围,利用参照值计算公式计算该样本的参照值;
判断单元350,用于判断所述参照值的绝对值是否等于预定极小值;
处理单元360,用于当等于预定极小值时,该样本任务计算完成,增加任务编号,进行下一个样本任务;当不等于预定极小值时,根据样本权重更新公式更新该样本的权重系数值,根据任务编号进行样本任务的计算。
可选的,请参照图5,图5本发明实施例提供的另一支持向量聚类的系统的结构框图;该系统还可以包括:
过滤模块600,用于对所述支持向量根据过滤条件进行过滤。
可选的,所述确定模块包括:
第一确定单元,用于利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号;
第二确定单元,用于将非支持向量样本的各个样本标定为距离各样本距离数值最小的支持向量对应的簇标号,作为整个数据集的支持向量聚类的结果。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的支持向量聚类的方法及系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种分布式支持向量聚类的方法,其特征在于,包括:
对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;
向各个计算节点分发预定数据集或特定计算结果;
当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;
找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;
利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量的簇标号,作为整个数据集的聚类分析的结果。
2.如权利要求1所述的分布式支持向量聚类的方法,其特征在于,所述对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化包括:
对输入的数据集进行噪声和/或非重要数据过滤;
对处理后的所述数据集中每个样本进行规范化处理,形成预定数据集;
规定计算节点个数,并对全局参数及任务进行初始化。
3.如权利要求1所述的分布式支持向量聚类的方法,其特征在于,所述初始化所述预定数据集的权重向量包括:
设置当前任务编号,并初始化预定数据中每个样本的权重系数,根据特定值序列计算公式计算每个样本相对应的特定值。
4.如权利要求1所述的分布式支持向量聚类的方法,其特征在于,所述按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值包括:
根据任务编号确定样本任务,利用临时值计算公式,计算所述样本任务相对应的样本的临时值;
根据所述样本的权重系数值所对应的范围,利用参照值计算公式计算该样本的参照值;
判断所述参照值的绝对值是否等于预定极小值,当等于预定极小值时,该样本任务计算完成,增加任务编号,进行下一个样本任务;
当不等于预定极小值时,根据样本权重更新公式更新该样本的权重系数值,根据任务编号进行样本任务的计算。
5.如权利要求1所述的分布式支持向量聚类的方法,其特征在于,所述利用所述支持向量以及各支持向量的权重系数之前还包括:
对所述支持向量根据过滤条件进行过滤,其中,过滤条件包括:
滤除所述支持向量中权重系数大于第一预定值和小于第二预定值的支持向量;
对过滤后的支持向量的权重系数进行规范化操作。
6.如权利要求1所述的分布式支持向量聚类的方法,其特征在于,所述标定非支持向量的簇标号包括:
将非支持向量样本的各个样本标定为距离各样本距离数值最小的支持向量对应的簇标号。
7.一种分布式支持向量聚类的系统,其特征在于,包括:
准备模块,用于对输入的数据集按照预定处理规则进行处理,并对全局参数及任务进行初始化;
分配模块,用于向各个计算节点分发预定数据集或特定计算结果;
计算模块,用于当计算节点分到预定数据集,则初始化所述预定数据集的权重向量,并按照预定公式进行迭代运算,计算出所述预定数据集中每个样本的权重系数值;
查找模块,用于找到所述权重系数值大于预定极小值的样本作为支持向量,并将所述支持向量进行编号;
确定模块,用于利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号,并标定非支持向量的簇标号,作为整个数据集的聚类分析的结果。
8.如权利要求7所述的分布式支持向量聚类的系统,其特征在于,所述计算模块包括:
设置单元,用于当计算节点分到预定数据集,则初始化所述预定数据集的权重向量;
第一计算单元,用于根据特定值序列计算公式计算每个样本相对应的特定值;
第二计算单元,用于利用临时值计算公式,计算所述样本任务相对应的样本的临时值;
第三计算单元,用于根据所述样本的权重系数值所对应的范围,利用参照值计算公式计算该样本的参照值;
判断单元,用于判断所述参照值的绝对值是否等于预定极小值;
处理单元,用于当等于预定极小值时,该样本任务计算完成,增加任务编号,进行下一个样本任务;当不等于预定极小值时,根据样本权重更新公式更新该样本的权重系数值,根据任务编号进行样本任务的计算。
9.如权利要求7所述的分布式支持向量聚类的系统,其特征在于,还包括:
过滤模块,用于对所述支持向量根据过滤条件进行过滤。
10.如权利要求7所述的分布式支持向量聚类的系统,其特征在于,所述确定模块包括:
第一确定单元,用于利用所述支持向量以及各支持向量的权重系数,构建支持函数,进行簇划分,得到所述支持向量的簇标号;
第二确定单元,用于将非支持向量样本的各个样本标定为距离各样本距离数值最小的支持向量对应的簇标号,作为整个数据集的支持向量聚类的结果。
CN201410815788.1A 2014-12-23 2014-12-23 分布式支持向量聚类的方法及系统 Pending CN104408206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410815788.1A CN104408206A (zh) 2014-12-23 2014-12-23 分布式支持向量聚类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410815788.1A CN104408206A (zh) 2014-12-23 2014-12-23 分布式支持向量聚类的方法及系统

Publications (1)

Publication Number Publication Date
CN104408206A true CN104408206A (zh) 2015-03-11

Family

ID=52645837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410815788.1A Pending CN104408206A (zh) 2014-12-23 2014-12-23 分布式支持向量聚类的方法及系统

Country Status (1)

Country Link
CN (1) CN104408206A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108760595A (zh) * 2018-08-27 2018-11-06 陈鑫宁 分布式气体浊度监测点
CN111755079A (zh) * 2020-07-06 2020-10-09 太原理工大学 一种多晶硅最优原料配比方案确定方法及系统
CN113485798A (zh) * 2021-06-16 2021-10-08 曙光信息产业(北京)有限公司 核函数生成方法、装置、设备以及存储介质
CN114330597A (zh) * 2022-01-14 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 用户聚类方法、数据聚类方法、装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729248A (zh) * 2008-11-03 2010-06-09 华为技术有限公司 密钥管理、密钥验证的方法及装置
EP2449499A1 (en) * 2009-07-01 2012-05-09 Panasonic Corporation Secure boot method and secure boot apparatus
CN102945188A (zh) * 2012-11-15 2013-02-27 北京中电普华信息技术有限公司 一种虚拟机资源调度方法和装置
CN103116664A (zh) * 2011-11-17 2013-05-22 鸿富锦精密工业(深圳)有限公司 长度计算系统及长度计算方法
CN103324440A (zh) * 2013-07-05 2013-09-25 广东欧珀移动通信有限公司 一种利用多点触控选择文字内容的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101729248A (zh) * 2008-11-03 2010-06-09 华为技术有限公司 密钥管理、密钥验证的方法及装置
EP2449499A1 (en) * 2009-07-01 2012-05-09 Panasonic Corporation Secure boot method and secure boot apparatus
CN103116664A (zh) * 2011-11-17 2013-05-22 鸿富锦精密工业(深圳)有限公司 长度计算系统及长度计算方法
CN102945188A (zh) * 2012-11-15 2013-02-27 北京中电普华信息技术有限公司 一种虚拟机资源调度方法和装置
CN103324440A (zh) * 2013-07-05 2013-09-25 广东欧珀移动通信有限公司 一种利用多点触控选择文字内容的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108760595A (zh) * 2018-08-27 2018-11-06 陈鑫宁 分布式气体浊度监测点
CN111755079A (zh) * 2020-07-06 2020-10-09 太原理工大学 一种多晶硅最优原料配比方案确定方法及系统
CN111755079B (zh) * 2020-07-06 2024-03-19 太原理工大学 一种多晶硅最优原料配比方案确定方法及系统
CN113485798A (zh) * 2021-06-16 2021-10-08 曙光信息产业(北京)有限公司 核函数生成方法、装置、设备以及存储介质
CN113485798B (zh) * 2021-06-16 2023-10-31 曙光信息产业(北京)有限公司 核函数生成方法、装置、设备以及存储介质
CN114330597A (zh) * 2022-01-14 2022-04-12 阿里巴巴达摩院(杭州)科技有限公司 用户聚类方法、数据聚类方法、装置、电子设备

Similar Documents

Publication Publication Date Title
CN105956021B (zh) 一种适用于分布式机器学习的自动化任务并行的方法及其系统
CN110399222B (zh) Gpu集群深度学习任务并行化方法、装置及电子设备
CN106611052B (zh) 文本标签的确定方法及装置
Xu et al. Bus arrival time prediction with real-time and historic data
CN106897109A (zh) 基于随机森林回归的虚拟机性能预测方法
Balaprakash et al. Active-learning-based surrogate models for empirical performance tuning
CN108960476B (zh) 基于ap-ti聚类的共享单车流量预测方法及装置
CN106709503B (zh) 一种基于密度的大型空间数据聚类算法k-dbscan
US9916283B2 (en) Method and system for solving a problem involving a hypergraph partitioning
Jiang et al. An efficient community detection method based on rank centrality
CN113763700B (zh) 信息处理方法、装置、计算机设备及存储介质
CN104408206A (zh) 分布式支持向量聚类的方法及系统
CN110414569B (zh) 聚类实现方法及装置
US11748615B1 (en) Hardware-aware efficient neural network design system having differentiable neural architecture search
Zhang et al. Simulation optimization using the particle swarm optimization with optimal computing budget allocation
CN111047130B (zh) 用于交通分析和管理的方法和系统
CN111966495B (zh) 数据处理方法和装置
CN108805174A (zh) 聚类方法及装置
CN108427756A (zh) 基于同类用户模型的个性化查询词补全推荐方法和装置
US20230098447A1 (en) Method for process allocation on multicore systems
CN113886080A (zh) 高性能集群任务调度方法、装置、电子设备及存储介质
Kan et al. Heterogeneous parallel computing accelerated generalized likelihood uncertainty estimation (GLUE) method for fast hydrological model uncertainty analysis purpose
CN114895773A (zh) 异构多核处理器的能耗优化方法、系统、装置及存储介质
CN113838303B (zh) 停车场推荐方法、装置、电子设备及存储介质
Li et al. Research on the method of traffic organization and optimization based on dynamic traffic flow model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150311

RJ01 Rejection of invention patent application after publication