CN106354574A - 一种用于大数据K‑Mean聚类算法的加速系统和方法 - Google Patents

一种用于大数据K‑Mean聚类算法的加速系统和方法 Download PDF

Info

Publication number
CN106354574A
CN106354574A CN201610782471.1A CN201610782471A CN106354574A CN 106354574 A CN106354574 A CN 106354574A CN 201610782471 A CN201610782471 A CN 201610782471A CN 106354574 A CN106354574 A CN 106354574A
Authority
CN
China
Prior art keywords
clustering algorithm
mean clustering
data
pending data
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610782471.1A
Other languages
English (en)
Inventor
王洪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201610782471.1A priority Critical patent/CN106354574A/zh
Publication of CN106354574A publication Critical patent/CN106354574A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4027Coupling between buses using bus bridges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于大数据K‑Mean聚类算法的加速系统和方法,该系统包括:数据处理服务器主机端,用于对数据处理任务按照预设的任务分发机制进行分配;n个数据处理服务器,用于获取Spark集群中的待处理数据和K‑Mean聚类算法,其中,n为大于1的整数;FPGA加速装置,用于获取并存储预设数据量的待处理数据以及计算要求超过预设阈值的K‑Mean聚类算法,并通过迭代的方式逐次调取待处理数据,执行K‑Mean聚类算法对调取的待处理数据进行计算,并将计算结果返回至数据处理服务器主机端。为大数据的K‑Mean聚类算法提供了硬件加速平台,K‑Mean聚类算法在FPGA加速装置上进行加速优化实现,提升机器学习的性能,降低其功耗,缩短大数据处理周期。

Description

一种用于大数据K-Mean聚类算法的加速系统和方法
技术领域
本发明涉及大数据技术领域,特别是涉及一种用于大数据K-Mean聚类算法的加速系统和方法。
背景技术
随着信息技术的发展,当前已经进入了大数据时代。为了保证大数据的处理性能,出现了多种方式对大数据进行处理。
Spark是一种通用的并行框架,其Job中间输出结果可以保存在内存中,而无需读写HDFS,因此,其能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。在Spark的整个生态圈中,最底层为资源管理器,底层存储为文件系统或者其他格式的存储系统如HBase。Spark作为计算框架,为上层多种应用提供服务,如数据挖掘和机器学习服务,以提供高可靠和高吞吐量的计算服务。MLlib是Spark的机器学习库,为其核心部件之一,MLlib机器学习的性能、功耗等指标不仅涉及大数据处理系统的价值,还影响着大数据处理平台的任务调度和管理以及数据吞吐率。
因此,如何提升机器学习的性能,降低其功耗,以缩短大数据处理周期,是本领域技术人员目前需要解决的技术问题。
发明内容
本发明的目的是提供一种用于大数据K-Mean聚类算法的加速系统和方法,可以提升机器学习的性能,降低其功耗,缩短大数据处理周期。
为解决上述技术问题,本发明提供了如下技术方案:
一种用于大数据K-Mean聚类算法的加速系统,包括:
数据处理服务器主机端,用于对数据处理任务按照预设的任务分发机制进行分配;
n个数据处理服务器,用于获取Spark集群中的待处理数据和K-Mean聚类算法,其中,n为大于1的整数;
FPGA加速装置,用于获取并存储预设数据量的所述待处理数据以及计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取所述待处理数据,执行所述K-Mean聚类算法对调取的所述待处理数据进行计算,并将计算结果返回至所述数据处理服务器主机端。
优选地,所述FPGA加速装置包括:
板载存储器,用于获取并存储各所述数据处理服务器发送来的预设数据量的待处理数据,以及存储所述K-Mean聚类算法对调取的待处理数据进行计算的计算结果;
FPGA芯片,用于获取计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取所述板载存储器中的待处理数据,执行所述K-Mean聚类算法以对该待处理数据进行计算,并将每次的计算结果暂存于所述板载存储器中;
FPGA加速装置接口,用于在通过所述FPGA芯片完成当前批次的待处理数据处理完毕后,将所有的计算结果返回至所述数据处理服务器主机端。
优选地,所述FPGA芯片包括:
K-Mean聚类算法加速模块,用于实现所述K-Mean聚类算法在所述FPGA芯片上的逻辑,针对不同维度、不同聚类中心节点数的聚类任务进行动态更新;
FPGA功能模块,用于根据所述K-Mean聚类算法加速模块中的K-Mean聚类算法对调取的所述板载存储器中的待处理数据进行并行计算。
优选地,所述板载存储器为双倍速率同步动态随机存储器。
优选地,所述数据处理服务器包括:
任务获取模块,用于从所述Spark集群中获取对应的待处理数据和K-Mean聚类算法;
数据分配模块,用于根据所述FPGA加速装置中的板载存储器的内存量分次将所述任务获取模块所获取的待处理数据保存至所述板载存储器;
算法分类模块,用于将所述任务获取模块获取的K-Mean聚类算法中计算要求超过预设阈值的K-Mean聚类算法进行分离,并发送至所述FPGA加速装置。
一种用于大数据K-Mean聚类算法的加速方法,包括:
通过预设的任务分发机制,将待处理数据和K-Mean聚类算法分发至各数据处理服务器;
将所述待处理数据以及计算要求超过预设阈值的K-Mean聚类算法存储在FPGA加速装置中;
通过所述FPGA加速装置执行所述K-Mean聚类算法,对所述待处理数据进行计算,获取计算结果。
优选地,所述将所述待处理数据以及计算要求超过预设阈值的K-Mean聚类算法存储在FPGA加速装置中,包括:
将所述待处理数据分次存储至所述FPGA加速装置的板载存储器中;
将超过预设阈值的K-Mean聚类算法进行分离,将分离出的所述超过预设阈值的K-Mean聚类算法发送至所述FPGA加速装置的FPGA芯片中。
优选地,所述通过所述FPGA加速装置执行所述K-Mean聚类算法,对所述待处理数据进行计算,获取计算结果,包括:
通过迭代的方式逐次调取所述板载存储器中的待处理数据;
通过所述FPGA芯片对所述超过预设阈值的K-Mean聚类算法进行加速优化,并对调取的所述待处理数据进行计算;
判断所述板载存储器中的待处理数据是否计算完毕;
若是,则将相应的计算结果返回至数据处理服务器主机端。
优选地,所述K-Mean聚类算法与所述K-Mean聚类算法所在的Spark集群的上层应用松耦合。
与现有技术相比,上述技术方案具有以下优点:
本发明所提供的一种用于大数据K-Mean聚类算法的加速系统,包括:数据处理服务器主机端,用于对数据处理任务按照预设的任务分发机制进行分配;n个数据处理服务器,用于获取Spark集群中的待处理数据和K-Mean聚类算法,其中,n为大于1的整数;FPGA加速装置,用于获取并存储预设数据量的待处理数据以及计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取待处理数据,执行K-Mean聚类算法对调取的待处理数据进行计算,并将计算结果返回至数据处理服务器主机端。本发明的技术方案,采用FPGA加速装置,为大数据的K-Mean聚类算法提供了硬件加速平台,K-Mean聚类算法在FPGA加速装置上进行加速优化实现,为Spark的机器学习提供了计算支持,从而实现了更为高效的对机器学习负载进行加速处理,以提供实时性更优的大数据处理服务,降低其功耗,缩短大数据处理周期。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种具体实施方式所提供的用于大数据K-Mean聚类算法的加速系统结构示意图;
图2为本发明一种具体实施方式所提供的用于大数据K-Mean聚类算法的加速方法流程图。
具体实施方式
本发明的核心是提供一种用于大数据K-Mean聚类算法的加速系统和方法,可以提升机器学习的性能,降低其功耗,缩短大数据处理周期。
为了使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在以下描述中阐述了具体细节以便于充分理解本发明。但是本发明能够以多种不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广。因此本发明不受下面公开的具体实施的限制。
请参考图1,图1为本发明一种具体实施方式所提供的用于大数据K-Mean聚类算法的加速系统结构示意图。
本发明的一种具体实施方式提供了一种用于大数据K-Mean聚类算法的加速系统,包括:
数据处理服务器主机端1,用于对数据处理任务按照预设的任务分发机制进行分配;
n个数据处理服务器2,用于获取Spark集群中的待处理数据和K-Mean聚类算法,其中,n为大于1的整数;
FPGA加速装置3,用于获取并存储预设数据量的待处理数据以及计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取待处理数据,执行K-Mean聚类算法对调取的待处理数据进行计算,并将计算结果返回至数据处理服务器主机端。
在本实施方式中,数据处理服务器主机端、各数据处理服务器和FPGA加速装置形成了基于FPGA异构平台的数据处理底层实现模型。以对机器学习负载进行加速处理,提供实时性更优的大数据处理服务。采用FPGA加速装置,为大数据的K-Mean聚类算法提供了硬件加速平台,K-Mean聚类算法在FPGA加速装置上进行加速优化实现,为Spark的机器学习提供了计算支持,从而实现了更为高效的对机器学习负载进行加速处理,以提供实时性更优的大数据处理服务,降低其功耗,缩短大数据处理周期。
在上述实施方式的基础上,本发明一种实施方式中,FPGA加速装置包括:板载存储器,用于获取并存储各数据处理服务器发送来的预设数据量的待处理数据,以及存储K-Mean聚类算法对调取的待处理数据进行计算的计算结果,优选地,板载存储器为双倍速率同步动态随机存储器。
采用了板载存储器,使得Spark框架充分利用了内存计算技术,改进了IO的使用频度,有效地提升了大数据处理的性能。
FPGA芯片,用于获取计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取板载存储器中的待处理数据,执行K-Mean聚类算法以对该待处理数据进行并行计算,并将每次的计算结果暂存于板载存储器中。
FPGA加速装置接口,用于在通过FPGA芯片完成当前批次的待处理数据处理完毕后,将所有的计算结果返回至数据处理服务器主机端。
在本实施方式中,FPGA加速装置设计为了扩展卡式,其接口优选为PCIE3.0接口,核心部件为FPGA(现场可编程门阵列)芯片,板卡上进一步优选为DDR3/DDR4作为板载存储器,以提高存储速率。
进一步地,FPGA芯片包括:
K-Mean聚类算法加速模块,用于实现K-Mean聚类算法在FPGA芯片上的逻辑,针对不同维度、不同聚类中心节点数的聚类任务进行动态更新,经过对算法的优化,可以较好地匹配FPGA加速装置的硬件属性;
FPGA功能模块,用于根据K-Mean聚类算法加速模块中的K-Mean聚类算法对调取的板载存储器中的待处理数据进行并行计算。
更进一步地,数据处理服务器包括:
任务获取模块,用于从Spark集群中获取对应的待处理数据和K-Mean聚类算法;
数据分配模块,用于根据FPGA加速装置中的板载存储器的内存量分次将任务获取模块所获取的待处理数据保存至板载存储器;
算法分类模块,用于将任务获取模块获取的K-Mean聚类算法中计算要求超过预设阈值的K-Mean聚类算法进行分离,并发送至FPGA加速装置。
在本实施方式中,数据处理服务器主机端根据各数据处理服务器的自身性能对数据处理任务按照预设的任务分发机制进行分配,即性能高的数据处理服务器会分配到更多的数据处理任务,以提高数据处理的速度。而为了进一步提高数据处理性能,各数据处理服务器并不是一次性地将全部的待处理数据输送至板载存储器,而是根据板载存储器的内容容量来分次将待处理数据输送过去,这样保证了数据处理的效率。尤其是,数据处理服务器将K-Mean聚类算法中计算要求超过预设阈值的,即计算要求较高的部分分离,发送至FPGA加速装置中,通过FPGA加速装置对这部分的K-Mean聚类算法进行加速优化,并对相应的待处理数据进行并行处理。这样,对数据处理任务的分配和调度策略,可以有效提升机器学习的性能,还可以细化大数据处理平台的任务分配、调度等粒度,可以更加充分利用硬件计算资源更合理地完成数据分析任务。
此外,当前我国的电能主要由火力发电提供,对环境污染严重,而有效地提高MLlib机器学习的性能,同时可以降低其功耗,可以科学地精确地调度管理计算集群,这样可以有效降低数据中心能耗,减少排放污染,达到绿色环保的目的。
请参考图2,图2为本发明一种具体实施方式所提供的用于大数据K-Mean聚类算法的加速方法流程图。
一种用于大数据K-Mean聚类算法的加速方法,包括:
S11:通过预设的任务分发机制,将待处理数据和K-Mean聚类算法分发至各数据处理服务器。
其中,通过预设的任务分发机制,指的是根据各数据处理服务器的性能来相应地分发任务,即性能较高的数据处理服务器分发到较多的数据处理任务。
S12:将待处理数据以及计算要求超过预设阈值的K-Mean聚类算法存储在FPGA加速装置中。
在本发明的一种实施方式中,将待处理数据以及计算要求超过预设阈值的K-Mean聚类算法存储在FPGA加速装置中,包括:
将待处理数据分次存储至FPGA加速装置的板载存储器中;
将超过预设阈值的K-Mean聚类算法进行分离,将分离出的超过预设阈值的K-Mean聚类算法发送至FPGA加速装置的FPGA芯片中。
采用了板载存储器,使得Spark框架充分利用了内存计算技术,改进了IO的使用频度,有效地提升了大数据处理的性能。将K-Mean聚类算法中计算要求超过预设阈值的,即计算要求较高的部分分离,发送至FPGA加速装置中,通过FPGA加速装置对这部分的K-Mean聚类算法进行加速优化,并对相应的待处理数据进行并行处理。这样,对数据处理任务的分配和调度策略,可以有效提升机器学习的性能,还可以细化大数据处理平台的任务分配、调度等粒度,可以更加充分利用硬件计算资源更合理地完成数据分析任务。
S13:通过FPGA加速装置执行K-Mean聚类算法,对待处理数据进行计算,获取计算结果。
通过FPGA加速装置执行K-Mean聚类算法,对待处理数据进行计算,获取计算结果,包括:
通过迭代的方式逐次调取板载存储器中的待处理数据;
通过FPGA芯片对超过预设阈值的K-Mean聚类算法进行加速优化,并对调取的待处理数据进行计算;
判断板载存储器中的待处理数据是否计算完毕;
若是,则将相应的计算结果返回至数据处理服务器主机端。
在本实施方式中,是按批次来进行数据处理,待当前批次的数据处理完毕后,可以将结果返回给数据处理服务器主机端,即管理节点,如果数据处理服务器还有数据待处理,则进行下一批次的数据的计算,直至分配的所有任务均被处理完成。
在本发明的一种实施方式中,K-Mean聚类算法与K-Mean聚类算法所在的Spark集群的上层应用松耦合。这就使得对上层应用透明,使用户无需关心底层的实现。
综上所述,本发明所提供的用于大数据K-Mean聚类算法的加速系统和方法,能够有效提升大数据K-Mean聚类算法的性能,进而缩短大数据处理周期,且能够降低其功耗,从而降低数据中心的能耗,减少排放污染,实现绿色环保。
以上对本发明所提供的一种用于大数据K-Mean聚类算法的加速系统和方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种用于大数据K-Mean聚类算法的加速系统,其特征在于,包括:
数据处理服务器主机端,用于对数据处理任务按照预设的任务分发机制进行分配;
n个数据处理服务器,用于获取Spark集群中的待处理数据和K-Mean聚类算法,其中,n为大于1的整数;
FPGA加速装置,用于获取并存储预设数据量的所述待处理数据以及计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取所述待处理数据,执行所述K-Mean聚类算法对调取的所述待处理数据进行计算,并将计算结果返回至所述数据处理服务器主机端。
2.根据权利要求1所述的系统,其特征在于,所述FPGA加速装置包括:
板载存储器,用于获取并存储各所述数据处理服务器发送来的预设数据量的待处理数据,以及存储所述K-Mean聚类算法对调取的待处理数据进行计算的计算结果;
FPGA芯片,用于获取计算要求超过预设阈值的K-Mean聚类算法,并通过迭代的方式逐次调取所述板载存储器中的待处理数据,执行所述K-Mean聚类算法以对该待处理数据进行计算,并将每次的计算结果暂存于所述板载存储器中;
FPGA加速装置接口,用于在通过所述FPGA芯片完成当前批次的待处理数据处理完毕后,将所有的计算结果返回至所述数据处理服务器主机端。
3.根据权利要求2所述的系统,其特征在于,所述FPGA芯片包括:
K-Mean聚类算法加速模块,用于实现所述K-Mean聚类算法在所述FPGA芯片上的逻辑,针对不同维度、不同聚类中心节点数的聚类任务进行动态更新;
FPGA功能模块,用于根据所述K-Mean聚类算法加速模块中的K-Mean聚类算法对调取的所述板载存储器中的待处理数据进行并行计算。
4.根据权利要求3所述的系统,其特征在于,所述板载存储器为双倍速率同步动态随机存储器。
5.根据权利要求4所述的系统,其特征在于,所述数据处理服务器包括:
任务获取模块,用于从所述Spark集群中获取对应的待处理数据和K-Mean聚类算法;
数据分配模块,用于根据所述FPGA加速装置中的板载存储器的内存量分次将所述任务获取模块所获取的待处理数据保存至所述板载存储器;
算法分类模块,用于将所述任务获取模块获取的K-Mean聚类算法中计算要求超过预设阈值的K-Mean聚类算法进行分离,并发送至所述FPGA加速装置。
6.一种用于大数据K-Mean聚类算法的加速方法,其特征在于,包括:
通过预设的任务分发机制,将待处理数据和K-Mean聚类算法分发至各数据处理服务器;
将所述待处理数据以及计算要求超过预设阈值的K-Mean聚类算法存储在FPGA加速装置中;
通过所述FPGA加速装置执行所述K-Mean聚类算法,对所述待处理数据进行计算,获取计算结果。
7.根据权利要求6所述的方法,其特征在于,所述将所述待处理数据以及计算要求超过预设阈值的K-Mean聚类算法存储在FPGA加速装置中,包括:
将所述待处理数据分次存储至所述FPGA加速装置的板载存储器中;
将超过预设阈值的K-Mean聚类算法进行分离,将分离出的所述超过预设阈值的K-Mean聚类算法发送至所述FPGA加速装置的FPGA芯片中。
8.根据权利要求7所述的方法,其特征在于,所述通过所述FPGA加速装置执行所述K-Mean聚类算法,对所述待处理数据进行计算,获取计算结果,包括:
通过迭代的方式逐次调取所述板载存储器中的待处理数据;
通过所述FPGA芯片对所述超过预设阈值的K-Mean聚类算法进行加速优化,并对调取的所述待处理数据进行计算;
判断所述板载存储器中的待处理数据是否计算完毕;
若是,则将相应的计算结果返回至数据处理服务器主机端。
9.根据权利要求6-8任一项所述的方法,其特征在于,所述K-Mean聚类算法与所述K-Mean聚类算法所在的Spark集群的上层应用松耦合。
CN201610782471.1A 2016-08-30 2016-08-30 一种用于大数据K‑Mean聚类算法的加速系统和方法 Pending CN106354574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610782471.1A CN106354574A (zh) 2016-08-30 2016-08-30 一种用于大数据K‑Mean聚类算法的加速系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610782471.1A CN106354574A (zh) 2016-08-30 2016-08-30 一种用于大数据K‑Mean聚类算法的加速系统和方法

Publications (1)

Publication Number Publication Date
CN106354574A true CN106354574A (zh) 2017-01-25

Family

ID=57857491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610782471.1A Pending CN106354574A (zh) 2016-08-30 2016-08-30 一种用于大数据K‑Mean聚类算法的加速系统和方法

Country Status (1)

Country Link
CN (1) CN106354574A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107703507A (zh) * 2017-08-31 2018-02-16 西安空间无线电技术研究所 一种基于fpga的目标聚类实现方法及装置
CN108257077A (zh) * 2018-01-02 2018-07-06 深圳云天励飞技术有限公司 基于gpu的聚类数据的处理方法、系统及计算设备
CN108509568A (zh) * 2018-03-26 2018-09-07 深圳大普微电子科技有限公司 一种数据存储管理方法及装置
CN108958852A (zh) * 2018-07-16 2018-12-07 济南浪潮高新科技投资发展有限公司 一种基于fpga异构平台的系统优化方法
CN110188066A (zh) * 2019-05-07 2019-08-30 方一信息科技(上海)有限公司 一种针对大容量数据的FPGA和基于opencl的FPGA算法
CN111324558A (zh) * 2020-02-05 2020-06-23 苏州浪潮智能科技有限公司 数据处理方法、装置、分布式数据流编程框架及相关组件
CN111352475A (zh) * 2018-12-24 2020-06-30 航天信息股份有限公司 一种服务器
CN111652433A (zh) * 2020-06-02 2020-09-11 泰康保险集团股份有限公司 养老费用测算装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253593A1 (en) * 2011-03-31 2012-10-04 Denso International America, Inc. Systems and methods for haptic feedback control in a vehicle
CN104850866A (zh) * 2015-06-08 2015-08-19 电子科技大学 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN105808581A (zh) * 2014-12-30 2016-07-27 Tcl集团股份有限公司 一种数据聚类的方法、装置及Spark大数据平台

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253593A1 (en) * 2011-03-31 2012-10-04 Denso International America, Inc. Systems and methods for haptic feedback control in a vehicle
CN105808581A (zh) * 2014-12-30 2016-07-27 Tcl集团股份有限公司 一种数据聚类的方法、装置及Spark大数据平台
CN104850866A (zh) * 2015-06-08 2015-08-19 电子科技大学 基于SoC-FPGA的自重构K-means聚类技术实现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANAA M.HUSSAIN等: "FPGA implementation of k-means algorithm for bioinformatics application:an accelarated approach to clustering microarray data", 《2011 NASA/ESA CONFERENCE ON ADAPTIVE HARDWARE AND SYSTEMS》 *
YUK-MING CHOI等: "map-reduce processing of k-means algorithm with FPGA-accelerated computer cluster", 《2014 IEEE 25TH INTERNATIONAL CONFERENCE ON APPLICATION-SPECIFIC SYSTEMS,ARCHITECTURES AND PROCESSORS》 *
胡雷钧等: "基于FPGA 的大数据K-means算法优化", 《电力信息与通信技术》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107703507A (zh) * 2017-08-31 2018-02-16 西安空间无线电技术研究所 一种基于fpga的目标聚类实现方法及装置
CN107703507B (zh) * 2017-08-31 2020-04-10 西安空间无线电技术研究所 一种基于fpga的目标聚类实现方法及装置
CN108257077A (zh) * 2018-01-02 2018-07-06 深圳云天励飞技术有限公司 基于gpu的聚类数据的处理方法、系统及计算设备
CN108509568A (zh) * 2018-03-26 2018-09-07 深圳大普微电子科技有限公司 一种数据存储管理方法及装置
CN108958852A (zh) * 2018-07-16 2018-12-07 济南浪潮高新科技投资发展有限公司 一种基于fpga异构平台的系统优化方法
CN111352475A (zh) * 2018-12-24 2020-06-30 航天信息股份有限公司 一种服务器
CN110188066A (zh) * 2019-05-07 2019-08-30 方一信息科技(上海)有限公司 一种针对大容量数据的FPGA和基于opencl的FPGA算法
CN111324558A (zh) * 2020-02-05 2020-06-23 苏州浪潮智能科技有限公司 数据处理方法、装置、分布式数据流编程框架及相关组件
CN111324558B (zh) * 2020-02-05 2021-08-10 苏州浪潮智能科技有限公司 数据处理方法、装置、分布式数据流编程框架及相关组件
CN111652433A (zh) * 2020-06-02 2020-09-11 泰康保险集团股份有限公司 养老费用测算装置
CN111652433B (zh) * 2020-06-02 2023-04-18 泰康保险集团股份有限公司 养老费用测算装置

Similar Documents

Publication Publication Date Title
CN106354574A (zh) 一种用于大数据K‑Mean聚类算法的加速系统和方法
US20210081347A1 (en) Graph processing optimization method based on multi-fpga accelerator interconnection
CN103336808B (zh) 一种基于bsp模型的实时图数据处理系统及方法
Indurkhya et al. Optimal partitioning of randomly generated distributed programs
CN103078941B (zh) 一种分布式计算系统的任务调度方法
CN103617087A (zh) 一种适合迭代计算的MapReduce优化方法
CN104036029B (zh) 大数据一致性对比方法和系统
US20080270653A1 (en) Intelligent resource management in multiprocessor computer systems
CN107436813A (zh) 一种元数据服务器动态负载均衡的方法及系统
CN106933669A (zh) 用于数据处理的装置和方法
CN105071994B (zh) 一种海量数据监控系统
CN104834484B (zh) 基于嵌入式可编程逻辑阵列的数据处理系统及处理方法
CN103700041A (zh) 基于云计算的智能电网负荷预测管理平台
CN103942108B (zh) Hadoop同构集群下的资源参数优化方法
CN101706755A (zh) 片上多核处理器的高速缓存协作系统及其协作处理方法
CN104850866A (zh) 基于SoC-FPGA的自重构K-means聚类技术实现方法
CN104615684A (zh) 一种海量数据通信并发处理方法及系统
CN102760073B (zh) 一种任务调度方法、系统及装置
Fan et al. Intelligent resource scheduling based on locality principle in data center networks
CN113791913B (zh) 一种类脑计算机操作系统的任务迁移方法
CN106802825A (zh) 一种基于实时系统的动态任务调度方法与系统
CN103268261A (zh) 一种适用于大规模高效能计算机的层次式计算资源管理方法
CN105373492A (zh) 一种面向任务流的基于寄存器文件的快速数据交换结构
CN105718991B (zh) 细胞阵列计算系统
CN101969402B (zh) 基于并行处理的数据交换方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170125