CN102298567A - 一种集成中央运算和图形加速的移动处理器架构 - Google Patents
一种集成中央运算和图形加速的移动处理器架构 Download PDFInfo
- Publication number
- CN102298567A CN102298567A CN2010102132609A CN201010213260A CN102298567A CN 102298567 A CN102298567 A CN 102298567A CN 2010102132609 A CN2010102132609 A CN 2010102132609A CN 201010213260 A CN201010213260 A CN 201010213260A CN 102298567 A CN102298567 A CN 102298567A
- Authority
- CN
- China
- Prior art keywords
- gpu
- cpu
- tcm
- level cache
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Memory System Of A Hierarchy Structure (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种集成中央运算和图形加速的移动处理器架构,包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM,还包括中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM,CPU和GPU分别通过独立的高速读写总线与TCM相连;中央处理器CPU首先对一级缓存中的数据进行预处理,然后通过共享的一级缓存TCM送给图形处理加速器GPU,图形处理加速器GPU处理完图像像素数据后,将数据输出到一级缓存TCM中,再由中央处理器CPU进行后续处理。与现有技术相比,本发明提出的处理器架构减少了一级缓存的数量,降低了成本,但同时提升了普通应用计算和游戏计算的性能,加快了运算速度。
Description
技术领域
本发明涉及一种移动处理器构架,具体涉及一种集成中央处理器和图形处理加速器的移动处理器架构。
背景技术
随着移动终端对通用计算能力和游戏计算能力的需求日益提高,工业界逐渐把个人计算机的解决方案移植到了移动终端芯片上:即使用独立的中央处理器(CPU)和图形处理加速器(GPU),如图1所示。图中,CPU指的是所有中央处理单元逻辑,为了提高性能,一个周期需要完成多个操作,因此一级缓存通常分成多个子块,可以独立并行访问,以提高带宽。一级缓存占了大部分硬件资源。图中,GPU指的是所有图形处理单元逻辑,同样为了提高性能,一个周期需要同时完成多个操作,因此GPU的一级缓存同样被分成多个子块,以提高带宽。一级缓存占了大部分硬件资源。我们很容易看到,经典处理器架构存在如下问题:
1.中央处理器和图形加速器分别使用自己的一级缓存,很难配置这两块一级缓存的大小来达到应用软件性能的最优。例如,在普通计算应用时,仅中央处理器在工作,图形加速器的一级缓存不能提高芯片的性能,导致了硬件资源的浪费。
2.图形游戏运算时算法存在数据流水线流程问题,即经过中央处理器应用计算生成的大量中间结果的图形数据,经过CPU的一级缓存,被存储到SDRAM(主内存)中,然后再读取到GPU的一级缓存中,供GPU计算使用。相比一级缓冲的高速访问速度,较慢的SDRAM访问速度很容易成为此类应用计算的瓶颈,进一步影响了性能。
3.用同样的中央处理性能和图形加速性能来分析上述1、2,则很容易看到重复使用一级缓存的硬件性价比最坏情况下只有最优性价比的一半。
发明内容
本发明的目的在于提供一种集成中央处理器和图形处理加速器的移动处理器架构,可以在减少一级缓存数量的同时提升普通应用计算和游戏计算的性能。
上述发明目的可通过如下的技术方案实现:包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM,其特征在于:还包括中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM,CPU和GPU分别通过独立的高速读写总线与TCM相连;中央处理器CPU首先对一级缓存中的数据进行预处理,然后通过共享的一级缓存TCM送给图形处理加速器GPU,图形处理加速器GPU处理完图像像素数据后,将数据输出到一级缓存TCM中,再由中央处理器CPU进行后续处理。
本发明所述共享的一级缓存TCM中存储部分常用数据,以加快对这部分数据的访问速度。
本发明根据应用场景配置调节CPU或GPU所使用的共享一级缓存的容量大小。
本发明所述图形处理加速器GPU采用多级SIMD流水线结构。
在普通计算应用时,仅中央处理单元工作,但可以利用共享的紧密连接缓存TCM,提升芯片的性能;在游戏运算流水线工作时,中央处理单元提供中间结果直接给共享的紧密连接缓存TCM,然后启动图形加速器GPU作后续处理,处理后的结果保存于TCM,由中央处理单元把最终结果反馈到主内存SDRAM。
与现有技术相比,本发明提出一个集成中央运算CPU和图形处理单元GPU的移动处理器架构,CPU和GPU共享一个一级缓冲的使用;可根据应用场景配置调节CPU或GPU所使用的一级缓冲的大小;CPU和GPU的数据交换在这个一级缓冲中进行,减少了对外部SDRAM的访问;整个处理器架构减少了一级缓存的数量,降低了成本,但同时提升了普通应用计算和游戏计算的性能,加快了运算速度。
附图说明
图1为现有通用处理器的构架框图;
图2为本发明处理器的构架框图;
图3为本发明图形加速器处理流程框图。
具体实施方式
下面结合附图,对本发明做进一步的详细说明。
如图2所示为本发明处理器的构架框图,包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM、中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM。中央处理器CPU在运行时首先从一级缓存读取数据,然后从内存SDRAM读取数据。紧密连接缓存TCM(TightlyCoupled Memory)是中央处理器CPU可以和外部加速硬件GPU共享的一级缓存,CPU和GPU分别通过独立的高速读写总线与TCM相连。中央处理器CPU可以对TCM进行单周期读写,同时图形处理加速器GPU也可以并行对TCM进行单周期多字节读写操作。
普通计算应用时,仅中央处理单元在工作,CPU可以将一部分常用数据存储到TCM中,加快程序对这部分数据的访问速度(TCM读写速度要大于内存的读写速度),从而提升中央处理器CPU的性能。
进行游戏运算流水线工作时,中央处理器CPU和图形处理加速器GPU共享紧密连接缓存TCM的空间,中央处理器CPU和图形处理加速器GPU的数据交换在紧密连接缓存TCM这个一级缓存中进行,减少了对外部SDRAM(内存)的访问,提高了GPU的处理速度:中央处理器CPU首先对一级缓存中的数据进行预处理,然后通过共享的一级缓冲TCM送给图形处理加速器GPU,图形处理加速器GPU处理完图像像素数据后,将数据输出到一级缓冲TCM中,再由中央处理器CPU进行后续处理。
图3所示为本发明图形处理加速器GPU处理流程框图,一个GPU处理级采用了SIMD指令架构,可对一级缓冲TCM中的多个图像像素数据进行处理;GPU包含了微指令的译码和执行单元,可对图形处理指令进行译码和执行操作;整个GPU采用了多级SIMD(single instruction multiple data)流水线结构,使GPU具有功能可编程性。
图形处理加速器GPU采用可配置SIMD(single instruction multiple data)单元架构,每个宏指令处理M个输出像素。每个SIMD单元对应于OpenGL像素处理的一个级别,处理的具体算法有CPU编成在该SIMD的局部内存内。OpenGL像素处理的整个算法有N个SIMD单元组成的流水线完成,流水线之间的接口有输出-输入像素的时序自动完成,一旦一个SIMD单元的输入来到,该单元自动启动计算像素内容给下一级。上述架构满足OpenGL2.0的编程性要求,且平均达到每个周期处理M个像素,具有较高的使用价值。
在具体应用中,应用软件发出一个图形的需求命令及其参数;CPU接到该命令后产生图形定点的光照参数,并转换为定点格式;CPU配置图形加速器GPU的各个参数和/或SIMD指令序列以及纹理数据;CPU启动图形加速器GPU完成各个像素的计算。
本发明的实施方式不限于此,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更,均落在本发明权利保护范围之内。
Claims (4)
1.一种集成中央运算和图形加速的移动处理器架构,包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM,其特征在于:还包括中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM,CPU和GPU分别通过独立的高速读写总线与TCM相连;中央处理器CPU首先对一级缓存中的数据进行预处理,然后通过共享的一级缓存TCM送给图形处理加速器GPU,图形处理加速器GPU处理完图像像素数据后,将数据输出到一级缓存TCM中,再由中央处理器CPU进行后续处理。
2.根据权利要求1所述的集成中央运算和图形加速的移动处理器架构,其特征在于:所述共享的一级缓存TCM中存储部分常用数据,以加快对这部分数据的访问速度。
3.根据权利要求1或2所述的集成中央运算和图形加速的移动处理器架构,其特征在于:根据应用场景配置调节CPU或GPU所使用的共享一级缓存的容量大小。
4.根据权利要求3所述的集成中央运算和图形加速的移动处理器架构,其特征在于:所述图形处理加速器GPU采用多级SIMD流水线结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102132609A CN102298567A (zh) | 2010-06-28 | 2010-06-28 | 一种集成中央运算和图形加速的移动处理器架构 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010102132609A CN102298567A (zh) | 2010-06-28 | 2010-06-28 | 一种集成中央运算和图形加速的移动处理器架构 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102298567A true CN102298567A (zh) | 2011-12-28 |
Family
ID=45358992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010102132609A Pending CN102298567A (zh) | 2010-06-28 | 2010-06-28 | 一种集成中央运算和图形加速的移动处理器架构 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102298567A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103019973A (zh) * | 2012-11-23 | 2013-04-03 | 华为技术有限公司 | 交互数据的系统和方法 |
CN104142907A (zh) * | 2013-05-10 | 2014-11-12 | 联想(北京)有限公司 | 增强型处理器、处理方法和电子设备 |
WO2015018237A1 (zh) * | 2013-08-07 | 2015-02-12 | 格科微电子(上海)有限公司 | 基于超宽总线的芯片架构及其数据访问方法 |
CN105469352A (zh) * | 2014-08-23 | 2016-04-06 | 北京纳米维景科技有限公司 | 一种基于移动gpu的便携式图像处理系统及其方法 |
CN106358003A (zh) * | 2016-08-31 | 2017-01-25 | 华中科技大学 | 一种基于线程级流水线的视频分析加速方法 |
CN106708747A (zh) * | 2015-11-17 | 2017-05-24 | 深圳市中兴微电子技术有限公司 | 一种存储器切换方法及装置 |
CN106776373A (zh) * | 2017-01-12 | 2017-05-31 | 合肥杰美电子科技有限公司 | 一种面向移动设备的基于闪存的高速缓存系统及方法 |
CN107861890A (zh) * | 2016-09-22 | 2018-03-30 | 龙芯中科技术有限公司 | 访存处理方法、装置及电子设备 |
CN110163790A (zh) * | 2018-06-11 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、系统、存储介质和计算机设备 |
CN111090393A (zh) * | 2019-11-22 | 2020-05-01 | Oppo广东移动通信有限公司 | 存储数据处理方法、存储数据处理装置及电子装置 |
CN115934768A (zh) * | 2022-12-01 | 2023-04-07 | 摩尔线程智能科技(北京)有限责任公司 | 数据的处理方法、显示适配器、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080276064A1 (en) * | 2007-04-11 | 2008-11-06 | Aaftab Munshi | Shared stream memory on multiple processors |
CN101526934A (zh) * | 2009-04-21 | 2009-09-09 | 浪潮电子信息产业股份有限公司 | 一种gpu与cpu复合处理器的组建方法 |
CN101667284A (zh) * | 2008-08-22 | 2010-03-10 | Arm有限公司 | 用于中央处理单元和图形处理单元之间通信的设备和方法 |
US20100118041A1 (en) * | 2008-11-13 | 2010-05-13 | Hu Chen | Shared virtual memory |
US20100149199A1 (en) * | 2008-12-11 | 2010-06-17 | Nvidia Corporation | System and method for video memory usage for general system application |
-
2010
- 2010-06-28 CN CN2010102132609A patent/CN102298567A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080276064A1 (en) * | 2007-04-11 | 2008-11-06 | Aaftab Munshi | Shared stream memory on multiple processors |
CN101667284A (zh) * | 2008-08-22 | 2010-03-10 | Arm有限公司 | 用于中央处理单元和图形处理单元之间通信的设备和方法 |
US20100118041A1 (en) * | 2008-11-13 | 2010-05-13 | Hu Chen | Shared virtual memory |
US20100149199A1 (en) * | 2008-12-11 | 2010-06-17 | Nvidia Corporation | System and method for video memory usage for general system application |
CN101526934A (zh) * | 2009-04-21 | 2009-09-09 | 浪潮电子信息产业股份有限公司 | 一种gpu与cpu复合处理器的组建方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103019973A (zh) * | 2012-11-23 | 2013-04-03 | 华为技术有限公司 | 交互数据的系统和方法 |
CN103019973B (zh) * | 2012-11-23 | 2015-08-26 | 华为技术有限公司 | 交互数据的系统和方法 |
CN104142907A (zh) * | 2013-05-10 | 2014-11-12 | 联想(北京)有限公司 | 增强型处理器、处理方法和电子设备 |
WO2015018237A1 (zh) * | 2013-08-07 | 2015-02-12 | 格科微电子(上海)有限公司 | 基于超宽总线的芯片架构及其数据访问方法 |
CN105469352A (zh) * | 2014-08-23 | 2016-04-06 | 北京纳米维景科技有限公司 | 一种基于移动gpu的便携式图像处理系统及其方法 |
CN106708747A (zh) * | 2015-11-17 | 2017-05-24 | 深圳市中兴微电子技术有限公司 | 一种存储器切换方法及装置 |
CN106358003A (zh) * | 2016-08-31 | 2017-01-25 | 华中科技大学 | 一种基于线程级流水线的视频分析加速方法 |
CN106358003B (zh) * | 2016-08-31 | 2019-02-19 | 华中科技大学 | 一种基于线程级流水线的视频分析加速方法 |
CN107861890A (zh) * | 2016-09-22 | 2018-03-30 | 龙芯中科技术有限公司 | 访存处理方法、装置及电子设备 |
CN107861890B (zh) * | 2016-09-22 | 2020-04-14 | 龙芯中科技术有限公司 | 访存处理方法、装置及电子设备 |
CN106776373A (zh) * | 2017-01-12 | 2017-05-31 | 合肥杰美电子科技有限公司 | 一种面向移动设备的基于闪存的高速缓存系统及方法 |
CN110163790A (zh) * | 2018-06-11 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、系统、存储介质和计算机设备 |
CN111090393A (zh) * | 2019-11-22 | 2020-05-01 | Oppo广东移动通信有限公司 | 存储数据处理方法、存储数据处理装置及电子装置 |
CN115934768A (zh) * | 2022-12-01 | 2023-04-07 | 摩尔线程智能科技(北京)有限责任公司 | 数据的处理方法、显示适配器、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102298567A (zh) | 一种集成中央运算和图形加速的移动处理器架构 | |
US20120256922A1 (en) | Multithreaded Processor and Method for Realizing Functions of Central Processing Unit and Graphics Processing Unit | |
US11869140B2 (en) | Combined world-space pipeline shader stages | |
CN105487838A (zh) | 一种动态可重构处理器的任务级并行调度方法与系统 | |
Kästner et al. | Hardware/software codesign for convolutional neural networks exploiting dynamic partial reconfiguration on PYNQ | |
CN112799726B (zh) | 数据处理装置、方法及相关产品 | |
CN101398753A (zh) | 用于执行扫描运算的系统、方法及计算机程序产品 | |
CN102253919A (zh) | 基于gpu和cpu协同运算的并行数值模拟方法和系统 | |
CN105550974A (zh) | 基于gpu的图像特征提取算法的加速方法 | |
CN106951322A (zh) | 一种cpu/gpu异构环境的图像协同处理程序获取方法及系统 | |
Zong-ling et al. | The design of lightweight and multi parallel CNN accelerator based on FPGA | |
Wang et al. | A scalable FPGA engine for parallel acceleration of singular value decomposition | |
Wang et al. | Energy and performance characterization of mobile heterogeneous computing | |
CN109298923A (zh) | 深度流水线任务处理方法及装置 | |
Marwa et al. | Image processing application on graphics processors | |
CN104360979A (zh) | 基于图形处理器的计算机系统 | |
CN109919962A (zh) | 一种基于Zynq实现边缘检测算法加速的方法 | |
Qin et al. | A CNN hardware accelerator designed for YOLO algorithm based on RISC-V SoC | |
CN101539849B (zh) | 一种处理器以及一种寄存器选通方法 | |
US20230195511A1 (en) | Energy-efficient cryptocurrency mining hardware accelerator with spatially shared message scheduler | |
Ghorbel et al. | Towards a parallelization and performance optimization of Viola and Jones algorithm in heterogeneous CPU-GPU mobile system | |
Huang et al. | AIOC: An All-in-One-Card Hardware Design for Financial Market Trading System | |
US20240223492A1 (en) | Offloading connection management for network resources | |
US20240028555A1 (en) | Multi-dimensional network sorted array intersection | |
US20220148122A1 (en) | Shader accessible configurable binning subsystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20111228 |
|
WD01 | Invention patent application deemed withdrawn after publication |