CN103049329A - 一种基于cpu/mic异构体系结构的高效能系统 - Google Patents
一种基于cpu/mic异构体系结构的高效能系统 Download PDFInfo
- Publication number
- CN103049329A CN103049329A CN2012104758480A CN201210475848A CN103049329A CN 103049329 A CN103049329 A CN 103049329A CN 2012104758480 A CN2012104758480 A CN 2012104758480A CN 201210475848 A CN201210475848 A CN 201210475848A CN 103049329 A CN103049329 A CN 103049329A
- Authority
- CN
- China
- Prior art keywords
- mic
- cpu
- performance
- equipment
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Power Sources (AREA)
Abstract
本发明提供了一种基于CPU/MIC异构体系结构的高效能系统,涉及到计算机高性能计算领域。本发明的整个系统设计包括三个方面:硬件部分设计、系统环境配置及软件部分设计;该系统实现软硬件一体化设计,采用CPU/MIC异构体系结构,融合了CPU平台的多核计算能力与MIC的众核计算能力,其中CPU参加逻辑计算和密集核心计算,而MIC仅参与核心密集计算,通过CPU与MIC共同计算,实现性能最大化。本发明的有益效果是:该系统通过CPU与MIC协同计算,解决了高性能计算应用的性能瓶颈和功耗问题,具有高性能、低功耗的特点,且降低了机房构建成本和管理、运行、维护费用。
Description
技术领域
本发明涉及高性能计算领域,具体地说是一种基于CPU/MIC异构体系结构的
高效能系统。
背景技术
高性能计算是信息领域的前沿高技术,随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。
计算速度对于高性能计算尤为重要,高性能计算将朝多核、众核发展,采用异构并行提升应用计算速度,目前CPU+GPU是非常成熟的异构协同计算模式,但由于GPU在编程效率、细粒度并行算法、大规模并行性能上都存在巨大挑战。
MIC(Many Integrated Core)是Intel公司开发的,用于高性能并行计算的众核芯片。它是从已有的Xeon处理器产品基础上发展而来,它专为超高性能计算而生的新架构。MIC在计算机体系中,作为CPU的协处理器而存在。MIC芯片通常有50个以上精简的x86核心,每个core支持4个硬件线程,可并行执行的任务数达到200以上,提供高度并行的计算能力,其双精峰值性能达到1TFlops。MIC技术将加快高性能计算的发展,快速解决高性能计算应用的性能瓶颈。
发明内容
本发明鉴于现有计算机异构并行提升效能中存在的不足之处,及MIC众核芯片具有高性能并行计算的特点,提供一种基于CPU/MIC异构体系结构的高效能系统。
本发明所提出的系统针对高性能计算应用,采用CPU/MIC异构体系结构,融合了CPU平台的多核计算能力与MIC的众核计算能力,解决了高性能计算应用的性能瓶颈。该系统是按如下方式解决所述技术问题的:整个系统设计包括三个方面:硬件部分设计、系统环境配置及软件部分设计;该系统实现软硬件一体化设计,采用CPU/MIC异构体系结构,其中CPU参加逻辑计算和密集核心计算,而MIC仅参与核心密集计算,通过CPU与MIC共同计算,实现性能最大化。
下面对该系统的组成部分分别进行说明:
(1)硬件部分设计
a) 系统的每个节点采用双路,能支持两块CPU同时工作;
b) 系统带有两个以上PCIE插槽,能插两块MIC卡;
c) 系统的内存配置要大,是原有CPU系统的2倍以上;
d) 系统的每个节点功耗能支持1300w以上;
(2)系统环境配置
a) 操作系统能支持MIC,需要安装Linux操作系统;
b) 编译器能支持MIC,采用Intel的icc、icpc、ifort编译器;
c) 支持MIC的驱动;
(3)软件部分设计
a) 选择高性能计算应用算法;
b) 对原有应用分析,若原有程序实现是采用单线程运行在CPU平台,则首先利用CPU多核平台,采用OpenMP编程模型把应用程序以多线程方式实现;
c) 然后在CPU多线程程序基础上在MIC卡上实现线程扩展,采用120个线程并行,使其在MIC上并行执行;
d) 把整个系统的计算能力划分为3个设备:第一块MIC卡作为设备0,第二块MIC卡作为设备1,两块CPU作为设备2;
e) 把整个计算任务按照这三个设备的计算能力进行划分,使三个设备同时并行计算,实现CPU与MIC同时计算,并保证负载均衡。
本发明的一种基于CPU/MIC异构体系结构的高效能系统的有益效果是:该系统通过CPU与MIC协同计算,解决了高性能计算应用的性能瓶颈和功耗问题,具有高性能、低功耗的特点,且降低了机房构建成本和管理、运行、维护费用。
附图说明
附图1为本发明所述系统的计算设备划分示意图。
具体实施方式
为了使本发明的目的、技术方案更加清晰,下面结合附图和实施例,对本发明作进一步详细说明。
本发明的目的在于利用CPU/MIC异构体系结构实现一种高效能系统,整个系统设计主要由硬件部分设计、系统环境配置及软件部分设计三部分组成。该系统通过实现软硬件一体化设计,采用CPU/MIC异构体系结构,融合了CPU平台的多核计算能力与MIC的众核计算能力,其中CPU参加逻辑计算和密集核心计算,而MIC仅参与核心密集计算,CPU与MIC共同计算,实现性能最大化。
下面对本发明的整个系统设计的各个部分进行说明:
(1)硬件部分设计
a) 系统的每个节点采用双路,支持两块CPU同时工作;
b) 系统带有两个以上PCIE插槽,能够插两块MIC卡;
c) 系统的内存配置要大,是原有CPU系统的2倍以上;
d) 系统的每个节点功耗支持1300w以上;
(2)系统环境配置
d) 操作系统要求支持MIC,需要安装Linux操作系统;
e) 编译器支持MIC,采用Intel的icc、icpc、ifort编译器;
f) 支持MIC的驱动;
(3)软件部分设计
此系统要实现高效,必须软硬件一体化设计,让应用软件运行跑在此系统上效率最高,整个软件部分设计如下:
a) 选择高性能计算应用算法,此算法有高并行任务,并行任务之间数据无依赖,并行性好,整个应用对系统性能要求高;
b) 对原有应用分析,当原有程序实现是采用单线程运行在CPU平台上时,则首先利用CPU多核平台;采用OpenMP编程模型把应用程序以多线程方式实现,使其两块CPU的所有核的计算能力全部发挥出来;
c) 然后在CPU多线程程序基础上在MIC卡上实现线程扩展,采用120各线程并行,使其在MIC上并行执行,发挥出MIC众核的计算能力;
d) 把整个系统的计算能力划分为3个设备:第一块MIC卡作为设备0,第二块MIC卡作为设备1,两块CPU作为设备2;如图1所示;
e) 把整个计算任务按照这三个设备的计算能力进行划分,使三个设备同时并行计算,实现CPU与MIC同时计算,并保证负载均衡,整个系统实现高性能。
实施例:
下面通过一个实施例来详细说明该高效能系统的技术特点和优点。该实施例中高效能系统如下设计。
(1)硬件部分设计
a) 系统的每个节点采用双路,支持两块CPU同时工作,本实施过程系统采用2块intel Xeon56756核CPU,主频为3.07GHz;
b) 系统带有两个以上PCIE插槽,能够插2块MIC卡,本系统采用2块MIC卡,每个卡上有30个核心;
c) 系统的内存配置要大,本系统每个节点配置96GB内存;
d) 系统的每个节点功耗支持1300w以上,保证整个系统正常运转,本系统最大功率支持1300w。
(2)系统环境配置
a) 操作系统要求支持MIC,本实施过程采用Red Hat Enterprise Linux 6.0 GA 64-bit kernel 2.6.32-71;
b) 编译器支持MIC,采用Intel编译器l_ccompxe_2013_beta.0.047;
c) 支持MIC的驱动,采用KNC-AlphaUpdate1-2.1.2430-9。
(3)软件部分设计
a) 选择地震叠前时间偏移(PSTM)作为我们应用的实施的高性能计算应用,此应用算法的并行任务达到几十万,并行任务之间数据无依赖,并行性好,其对性能要求高;
b) 原有PSTM程序以单线程运行在CPU平台,首先利用CPU多核平台,采用OpenMP编程模型把它以多线程方式实现,把所用计算任务采用16个线程并行起来,使2块CPU的所有核的计算能力全部发挥出来;
c) 然后在PSTM CPU多线程并行程序基础上在MIC卡上实现线程扩展,把所有计算任务数采用120个线程并行起来,使其在MIC上并行执行,发挥出MIC众核的计算能力;
d) 把整个系统的计算能力划分为3个设备,第一块MIC卡作为设备0,启动120个线程,第二块MIC卡作为设备1,启动120个线程,2块CPU作为设备2,启动16个线程;如附图1所示;
e) 把整个PSTM的计算任务按照这三个设备的计算能力进行划分,使三个设备同时并行计算,即这256个线程会共同参与计算,达到CPU与MIC同时计算的效果,并且保证负载均衡,整个系统实现高性能。
(4)性能及正确性测试
测试91条测线,每条测线上963个CMP点,输入110000道数据进行偏移,在原有CPU同构系统下,PSTM以单线程串行方式花费的时间为76053s,而本系统运行时间为1075s,性能大大提升。CPU串行版PSTM运行的效果与本系统运行的效果基本一致,运行结果正确。
从实施例可以看出整个系统实现高性能、低功耗,大大满足了高性能应用的科研要求和工业生产要求,并且减少了机房构建成本和管理、运行、维护费用。
除说明书所述技术特征之外,均为本专业技术人员的已知技术。
Claims (4)
1.一种基于CPU/MIC异构体系结构的高效能系统,其特征在于整个系统设计包括三个方面:硬件部分设计、系统环境配置及软件部分设计;
该系统实现软硬件一体化设计,采用CPU/MIC异构体系结构,融合了CPU平台的多核计算能力与MIC的众核计算能力,其中CPU参加逻辑计算和密集核心计算,而MIC仅参与核心密集计算,通过CPU与MIC共同计算,实现性能最大化。
2.根据权利要求1所述的高效能系统,其特征在于所述硬件部分设计如下:
系统的每个节点采用双路,能支持两块CPU同时工作;
系统带有两个以上PCIE插槽,能插两块MIC卡;
系统的内存配置要大,是原有CPU系统的2倍以上;
系统的每个节点功耗能支持1300w以上。
3.根据权利要求1所述的高效能系统,其特征在于所述系统环境配置如下:
操作系统能支持MIC,需要安装Linux操作系统;
编译器能支持MIC,采用Intel的icc、icpc、ifort编译器;
支持MIC的驱动。
4.根据权利要求1所述的高效能系统,其特征在于所述软件部分设计如下:
选择高性能计算应用算法;
对原有应用分析,若原有程序实现是采用单线程运行在CPU平台,则首先利用CPU多核平台,采用OpenMP编程模型把应用程序以多线程方式实现;
然后在CPU多线程程序基础上在MIC卡上实现线程扩展,采用120个线程并行,使其在MIC上并行执行;
把整个系统的计算能力划分为3个设备:第一块MIC卡作为设备0,第二块MIC卡作为设备1,两块CPU作为设备2;
把整个计算任务按照这三个设备的计算能力进行划分,使三个设备同时并行计算,实现CPU与MIC同时计算,并保证负载均衡。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012104758480A CN103049329A (zh) | 2012-11-22 | 2012-11-22 | 一种基于cpu/mic异构体系结构的高效能系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012104758480A CN103049329A (zh) | 2012-11-22 | 2012-11-22 | 一种基于cpu/mic异构体系结构的高效能系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103049329A true CN103049329A (zh) | 2013-04-17 |
Family
ID=48061979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012104758480A Pending CN103049329A (zh) | 2012-11-22 | 2012-11-22 | 一种基于cpu/mic异构体系结构的高效能系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049329A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123190A (zh) * | 2014-07-23 | 2014-10-29 | 浪潮(北京)电子信息产业有限公司 | 异构集群系统的负载均衡方法和装置 |
CN104408019A (zh) * | 2014-10-29 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种基于mic平台实现gmres算法并行加速的方法 |
CN105893151A (zh) * | 2016-04-01 | 2016-08-24 | 浪潮电子信息产业股份有限公司 | 一种基于cpu+mic异构平台的高维数据流的处理方法 |
CN106886502A (zh) * | 2017-01-08 | 2017-06-23 | 广东工业大学 | 面向用户的异构多处理器阵列体系结构 |
CN108334407A (zh) * | 2016-12-30 | 2018-07-27 | 德州仪器公司 | 在硬件线程调度程序上调度基于并行块的数据处理任务 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083112A1 (en) * | 2000-12-21 | 2002-06-27 | Wheeler William R. | Apparatus and method of developing software for a multi-processor chip |
CN102902655A (zh) * | 2012-09-13 | 2013-01-30 | 浪潮(北京)电子信息产业有限公司 | 信息处理异构系统 |
-
2012
- 2012-11-22 CN CN2012104758480A patent/CN103049329A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020083112A1 (en) * | 2000-12-21 | 2002-06-27 | Wheeler William R. | Apparatus and method of developing software for a multi-processor chip |
CN102902655A (zh) * | 2012-09-13 | 2013-01-30 | 浪潮(北京)电子信息产业有限公司 | 信息处理异构系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123190A (zh) * | 2014-07-23 | 2014-10-29 | 浪潮(北京)电子信息产业有限公司 | 异构集群系统的负载均衡方法和装置 |
CN104123190B (zh) * | 2014-07-23 | 2017-09-19 | 浪潮(北京)电子信息产业有限公司 | 异构集群系统的负载均衡方法和装置 |
CN104408019A (zh) * | 2014-10-29 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种基于mic平台实现gmres算法并行加速的方法 |
CN105893151A (zh) * | 2016-04-01 | 2016-08-24 | 浪潮电子信息产业股份有限公司 | 一种基于cpu+mic异构平台的高维数据流的处理方法 |
CN105893151B (zh) * | 2016-04-01 | 2019-03-08 | 浪潮电子信息产业股份有限公司 | 一种基于cpu+mic异构平台的高维数据流的处理方法 |
CN108334407A (zh) * | 2016-12-30 | 2018-07-27 | 德州仪器公司 | 在硬件线程调度程序上调度基于并行块的数据处理任务 |
CN108334407B (zh) * | 2016-12-30 | 2023-08-08 | 德州仪器公司 | 在硬件线程调度程序上调度基于并行块的数据处理任务 |
CN106886502A (zh) * | 2017-01-08 | 2017-06-23 | 广东工业大学 | 面向用户的异构多处理器阵列体系结构 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101901042B (zh) | 多gpu系统中基于动态任务迁移技术的降功耗方法 | |
Wang et al. | Smart: A mapreduce-like framework for in-situ scientific analytics | |
Prakash et al. | Energy-efficient execution of data-parallel applications on heterogeneous mobile platforms | |
CN103049329A (zh) | 一种基于cpu/mic异构体系结构的高效能系统 | |
Barker et al. | A performance evaluation of the Nehalem quad-core processor for scientific computing | |
EP3742350A1 (en) | Parallelization strategies for training a neural network | |
CN103309889A (zh) | 一种利用gpu协同计算实现实时数据并行压缩的方法 | |
CN103279446A (zh) | 一种利用cpu+gpu+mic异构混合计算的多平台系统 | |
CN102902655A (zh) | 信息处理异构系统 | |
Cui et al. | Research on parallel association rules mining on GPU | |
CN103294639A (zh) | 一种实现大规模计算的cpu+mic混合异构集群系统 | |
Wang et al. | Task scheduling of parallel processing in CPU-GPU collaborative environment | |
Zhang et al. | Comparison and analysis of GPGPU and parallel computing on multi-core CPU | |
Singh et al. | Accelerating smith-waterman on heterogeneous cpu-gpu systems | |
CN103049322A (zh) | 一种针对拓扑关系并行计算的矢量目标集均衡划分方法 | |
Qureshi et al. | Genome sequence alignment-design space exploration for optimal performance and energy architectures | |
Pietroń et al. | Accelerating select where and select join queries on a GPU | |
Zhou et al. | Parallel data cube computation on graphic processing units | |
Saravanan et al. | Big data in massive parallel processing: A multi-core processors perspective | |
CN102866423B (zh) | 地震叠前时间偏移的处理方法和系统 | |
Li et al. | Parallel particle swarm optimization algorithm based on CUDA in the AWS cloud | |
Butko et al. | Position Paper: OpenMP scheduling on ARM big. LITTLE architecture | |
Song | Analysis on heterogeneous computing | |
Yang et al. | The design and implementation of parallel algorithm accelerator based on CPU-GPU collaborative computing environment | |
US20150106589A1 (en) | Small form high performance computing mini hpc |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130417 |
|
WD01 | Invention patent application deemed withdrawn after publication |