CN105786757A - 一种板上集成分布式高性能运算系统装置 - Google Patents
一种板上集成分布式高性能运算系统装置 Download PDFInfo
- Publication number
- CN105786757A CN105786757A CN201610105220.XA CN201610105220A CN105786757A CN 105786757 A CN105786757 A CN 105786757A CN 201610105220 A CN201610105220 A CN 201610105220A CN 105786757 A CN105786757 A CN 105786757A
- Authority
- CN
- China
- Prior art keywords
- subsystem
- operating
- network communicating
- high performance
- arm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/78—Architectures of general purpose stored program computers comprising a single central processing unit
- G06F15/7803—System on board, i.e. computer system on one or more PCB, e.g. motherboards, daughterboards or blades
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multi Processors (AREA)
Abstract
本发明公开了一种板上集成分布式高性能运算系统装置,包括网络通信系统和运算子系统,运算子系统设有至少一个,网络通信系统分别与每一个运算子系统连接,每一个运算子系统采用集成ARM与GPU核心的计算芯片,这种板上集成分布式高性能运算系统装置,引入移动芯片到高性能计算领域,尝试ARM+GPU方式替代X86或者X86+GPU方式,这种ARM芯片采用更好的低功耗架构设计,具有功耗低、单位运算能力强的特点,适合做大规模的深度学习运算、图像视频处理、气象模拟等各种科学运算。
Description
技术领域
本发明涉及一种板上集成分布式高性能运算系统装置。
背景技术
IT领域的摩尔定律认为,计算机性能每18个月就将提升一倍。中国“天河二号”超级计算机在世界超级计算机排行榜上连续3次夺得冠军,但另一方面也显示,超级计算机的技术陷入瓶颈状态。
以往超级计算机通过增加处理器数量和主频就能不断提高性能。但美国劳伦斯·伯克利国家实验室的豪斯·费姆尼教授认为,最近几年超级计算技术上的发展,都不足以突破艾级超算的障碍。原来认为2018年就能实现1000P级别的超算,现在推迟到2022年都无法实现。首先是功耗控制难。目前的集成水平和此前相比并没有根本性改善,以现有技术,艾级超级计算机的功耗会达到50~100兆瓦,这将带来一系列技术和运营问题。甚至需要有一个专门的核电站来给它供电,也会带来无法解决的散热问题,这样的高性能计算显然没有实用价值。
发明内容
基于此,有必要提供一种功耗低、单位运算能力强的板上集成分布式高性能运算系统装置。
根据本发明的一方面,提供了一种板上集成分布式高性能运算系统装置,包括网络通信系统和运算子系统,运算子系统设有至少一个,网络通信系统分别与每一个运算子系统连接,每一个运算子系统采用集成ARM与GPU核心的计算芯片。
在其中一个实施例中,运算子系统分别与网络通信系统通过可插拔接口连接。
在其中一个实施例中,还包括监控子系统,监控子系统与网络通信系统连接。
在其中一个实施例中,还包括制冷子系统,制冷子系统用于疏导网络通信系统及每一个运算子系统的热量。
在其中一个实施例中,还包括冗余电源子系统,冗余电源子系统分别与网络通信系统、每一个运算子系统连接。
这种板上集成分布式高性能运算系统装置,引入移动芯片到高性能计算领域,尝试ARM+GPU方式替代X86或者X86+GPU方式,这种ARM芯片采用更好的低功耗架构设计,具有功耗低、单位运算能力强的特点,适合做大规模的深度学习运算、图像视频处理、气象模拟等各种科学运算。
附图说明
图1为本发明一实施例的一种板上集成分布式高性能运算系统装置的系统架构示意图;
图2为图1的运算子系统的系统架构示意图。
具体实施方式
为了便于理解本发明,下面将用具体实施例对本发明进行更全面的描述。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这实施例的目的是使对本发明的公开内容的理解更加透彻全面。
如图1所示,为本发明一实施例的一种板上集成分布式高性能运算系统装置,包括网络通信系统10、运算子系统20、监控子系统30、制冷子系统40和冗余电源子系统50。
网络通信系统10与系统内所有的计算模块相连,并与外界建立网络通信,功能类似于一个快速网络交换机。
具体地,在本实施例中,设有一个监控子系统30。监控子系统30与网络通信系统10连接。监控子系统30用于提供整个系统的核心温度监控,以及运算节点调度。
具体地,在本实施例中,设有一个制冷子系统40。制冷子系统40用于为网络通信系统10及每一个运算子系统20提供热量疏导。
具体地,在本实施例中,设有一个冗余电源子系统50。冗余电源子系统50分别与网络通信系统10、每一个运算子系统20、监控子系统30和制冷子系统40连接。冗余电源子系统50负责向本实施例的所有系统装置供电。
本系统中,运算子系统20设有至少一个。运算子系统20还包括一核心板,核心板提供小型接口插座或者管脚,用于运算子系统20与网络通信系统10之间形成可插拔连接,方便运算子系统20换代升级。
如图2所示为本实施例的运算子系统20的系统架构示意图。运算子系统20采用低功耗的移动芯片(比如:nVidiaTegraX1,集成有ARM核心和GPU的Cuda核心),第一次在高性能计算系统中,放弃IntelX86或者RISC芯片,而使用低功耗移动ARM芯片+GPU的架构。这种架构采用GPU加速,符合高性能发展方向,另一方面,ARM核心获得更高效的能耗利用率。每瓦特性能可以达到25.6gflops/w。
其次,在系统架构上,每个运算子系统20都是一个独立的计算系统,整个系统形成一个板上的大规模分布式网络计算系统。验证系统中,在一个1U的环境中,可以形成一个24个节点的分布式系统。这种分布式系统适合学术上的研究,比如测量一个算法的加速比,独立节点的数量比单个的节点计算能力更加重要。
本发明的核心思想,在于在一块带有高速计算机网络的母板上,集成大量的低功耗的嵌入式芯片,这些芯片配置有独立的计算芯片(ARM+GPU)、内存、flash、网络,形成独立的最小运算子系统20。这些运算子系统20通过网络通信系统10相连,构建成一个高性能的分布式网络计算系统。利用这些运行在低功耗并且廉价的运算子系统20的分布式网络系统,最终可以实现低功耗的高性价比计算。此外,选择不同运算子系统20的不同特征的CPU核心及相应的应用软件,可以通过每个独立的运算子系统20实现各种高性能计算应用。
因此,基于此种重新设计的板上集成分布式高性能运算系统装置,具有功耗低,单位运算能力强的特点,运算子系统20采用低功耗芯片,同时辅以GPU芯片,使运算子系统20的单位能耗获得的计算能力获得大幅度提升,适合做大规模的深度学习运算、图像视频处理、气象模拟等各种科学运算。
以上实施例仅表达了本发明的个别实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种板上集成分布式高性能运算系统装置,其特征在于,包括网络通信系统和运算子系统,所述运算子系统设有至少一个,所述网络通信系统分别与每一个所述运算子系统连接,每一个所述运算子系统采用集成ARM与GPU核心的计算芯片。
2.根据权利要求1所述的一种板上集成分布式高性能运算系统装置,其特征在于,所述运算子系统分别与所述网络通信系统通过可插拔接口连接。
3.根据权利要求1所述的一种板上集成分布式高性能运算系统装置,其特征在于,还包括监控子系统,所述监控子系统与所述网络通信系统连接。
4.根据权利要求1所述的一种板上集成分布式高性能运算系统装置,其特征在于,还包括制冷子系统,所述制冷子系统用于疏导所述网络通信系统及每一个所述运算子系统的热量。
5.根据权利要求1所述的一种板上集成分布式高性能运算系统装置,其特征在于,还包括冗余电源子系统,所述冗余电源子系统分别与所述网络通信系统、每一个所述运算子系统连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610105220.XA CN105786757A (zh) | 2016-02-26 | 2016-02-26 | 一种板上集成分布式高性能运算系统装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610105220.XA CN105786757A (zh) | 2016-02-26 | 2016-02-26 | 一种板上集成分布式高性能运算系统装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105786757A true CN105786757A (zh) | 2016-07-20 |
Family
ID=56403701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610105220.XA Pending CN105786757A (zh) | 2016-02-26 | 2016-02-26 | 一种板上集成分布式高性能运算系统装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105786757A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067365A (zh) * | 2017-04-25 | 2017-08-18 | 中国石油大学(华东) | 基于深度学习的分布嵌入式实时视频流处理系统及方法 |
CN108021982A (zh) * | 2016-10-28 | 2018-05-11 | 北京市商汤科技开发有限公司 | 数据传输方法和系统、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1779600A (zh) * | 2004-11-23 | 2006-05-31 | 国际商业机器公司 | 在计算机中心动态重新安排应用及其它服务器资源的方法 |
CN103064769A (zh) * | 2012-12-30 | 2013-04-24 | 长沙湘计海盾科技有限公司 | 双热备服务器系统 |
CN103336756A (zh) * | 2013-07-19 | 2013-10-02 | 中国人民解放军信息工程大学 | 一种数据计算节点的生成装置 |
CN204496394U (zh) * | 2015-03-21 | 2015-07-22 | 北京典赞科技有限公司 | 基于arm和arm-gpu的箱式微集群装置 |
CN204883709U (zh) * | 2015-08-11 | 2015-12-16 | 北京立华莱康平台科技有限公司 | 处理器系统和背板 |
-
2016
- 2016-02-26 CN CN201610105220.XA patent/CN105786757A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1779600A (zh) * | 2004-11-23 | 2006-05-31 | 国际商业机器公司 | 在计算机中心动态重新安排应用及其它服务器资源的方法 |
CN103064769A (zh) * | 2012-12-30 | 2013-04-24 | 长沙湘计海盾科技有限公司 | 双热备服务器系统 |
CN103336756A (zh) * | 2013-07-19 | 2013-10-02 | 中国人民解放军信息工程大学 | 一种数据计算节点的生成装置 |
CN204496394U (zh) * | 2015-03-21 | 2015-07-22 | 北京典赞科技有限公司 | 基于arm和arm-gpu的箱式微集群装置 |
CN204883709U (zh) * | 2015-08-11 | 2015-12-16 | 北京立华莱康平台科技有限公司 | 处理器系统和背板 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021982A (zh) * | 2016-10-28 | 2018-05-11 | 北京市商汤科技开发有限公司 | 数据传输方法和系统、电子设备 |
CN107067365A (zh) * | 2017-04-25 | 2017-08-18 | 中国石油大学(华东) | 基于深度学习的分布嵌入式实时视频流处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7379779B2 (ja) | 行列処理装置 | |
US10922380B2 (en) | Distributed matrix multiplication for neural networks | |
CN108268933B (zh) | 矩阵处理架构中的最大池化 | |
Shalf et al. | Exascale computing technology challenges | |
Fagas et al. | Energy challenges for ICT | |
CN104798008B (zh) | 控制处理器的可配置的峰值性能极限 | |
CN104081315A (zh) | 包括线程合并的用于能效和节能的方法、装置和系统 | |
Al Faruque et al. | Runtime thermal management using software agents for multi-and many-core architectures | |
Gao et al. | Sunway supercomputer architecture towards exascale computing: analysis and practice | |
Saini et al. | Performance evaluation of the intel sandy bridge based nasa pleiades using scientific and engineering applications | |
Bogdan et al. | Making the Internet-of-Things a reality: From smart models, sensing and actuation to energy-efficient architectures | |
CN104025066A (zh) | 用于能量高效计算的异构存储器晶片堆叠 | |
Desai et al. | A power-aware heterogeneous architecture scaling model for energy-harvesting computers | |
CN103902322A (zh) | 系统切换方法和电子设备 | |
CN105786757A (zh) | 一种板上集成分布式高性能运算系统装置 | |
Schulz et al. | On the inevitability of integrated hpc systems and how they will change hpc system operations | |
Schmit et al. | Dissecting Xeon+ FPGA: Why the integration of CPUs and FPGAs makes a power difference for the datacenter | |
US11989596B2 (en) | Carbon footprint climate impact scores for datacenter workloads | |
Khatri et al. | Heterogeneous computing systems | |
Na et al. | Scalable Smartphone Cluster for Deep Learning | |
Krishnamoorthy et al. | Integrated analysis of power and performance for cutting edge Internet of Things microprocessor architectures | |
Mbarek et al. | Power domain management interface: flexible protocol interface for transaction‐level power domain management | |
Sun et al. | Performance-aware hybrid algorithm for mapping ips onto mesh-based network on chip | |
Ljung | Opportunities for energy savings in mobile devices | |
Kapre et al. | A case for embedded fpga-based socs in energy-efficient acceleration of graph problems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160720 |
|
WD01 | Invention patent application deemed withdrawn after publication |