CN102298567A

CN102298567A - 一种集成中央运算和图形加速的移动处理器架构

Info

Publication number: CN102298567A
Application number: CN2010102132609A
Authority: CN
Inventors: 李小明; 王彦飞; 胡胜发
Original assignee: Anyka Guangzhou Microelectronics Technology Co Ltd
Current assignee: Anyka Guangzhou Microelectronics Technology Co Ltd
Priority date: 2010-06-28
Filing date: 2010-06-28
Publication date: 2011-12-28

Abstract

本发明公开了一种集成中央运算和图形加速的移动处理器架构，包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM，还包括中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM，CPU和GPU分别通过独立的高速读写总线与TCM相连；中央处理器CPU首先对一级缓存中的数据进行预处理，然后通过共享的一级缓存TCM送给图形处理加速器GPU，图形处理加速器GPU处理完图像像素数据后，将数据输出到一级缓存TCM中，再由中央处理器CPU进行后续处理。与现有技术相比，本发明提出的处理器架构减少了一级缓存的数量，降低了成本，但同时提升了普通应用计算和游戏计算的性能，加快了运算速度。

Description

一种集成中央运算和图形加速的移动处理器架构

技术领域

本发明涉及一种移动处理器构架，具体涉及一种集成中央处理器和图形处理加速器的移动处理器架构。

背景技术

随着移动终端对通用计算能力和游戏计算能力的需求日益提高，工业界逐渐把个人计算机的解决方案移植到了移动终端芯片上：即使用独立的中央处理器(CPU)和图形处理加速器(GPU)，如图1所示。图中，CPU指的是所有中央处理单元逻辑，为了提高性能，一个周期需要完成多个操作，因此一级缓存通常分成多个子块，可以独立并行访问，以提高带宽。一级缓存占了大部分硬件资源。图中，GPU指的是所有图形处理单元逻辑，同样为了提高性能，一个周期需要同时完成多个操作，因此GPU的一级缓存同样被分成多个子块，以提高带宽。一级缓存占了大部分硬件资源。我们很容易看到，经典处理器架构存在如下问题：

1.中央处理器和图形加速器分别使用自己的一级缓存，很难配置这两块一级缓存的大小来达到应用软件性能的最优。例如，在普通计算应用时，仅中央处理器在工作，图形加速器的一级缓存不能提高芯片的性能，导致了硬件资源的浪费。

2.图形游戏运算时算法存在数据流水线流程问题，即经过中央处理器应用计算生成的大量中间结果的图形数据，经过CPU的一级缓存，被存储到SDRAM(主内存)中，然后再读取到GPU的一级缓存中，供GPU计算使用。相比一级缓冲的高速访问速度，较慢的SDRAM访问速度很容易成为此类应用计算的瓶颈，进一步影响了性能。

3.用同样的中央处理性能和图形加速性能来分析上述1、2，则很容易看到重复使用一级缓存的硬件性价比最坏情况下只有最优性价比的一半。

发明内容

本发明的目的在于提供一种集成中央处理器和图形处理加速器的移动处理器架构，可以在减少一级缓存数量的同时提升普通应用计算和游戏计算的性能。

上述发明目的可通过如下的技术方案实现：包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM，其特征在于：还包括中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM，CPU和GPU分别通过独立的高速读写总线与TCM相连；中央处理器CPU首先对一级缓存中的数据进行预处理，然后通过共享的一级缓存TCM送给图形处理加速器GPU，图形处理加速器GPU处理完图像像素数据后，将数据输出到一级缓存TCM中，再由中央处理器CPU进行后续处理。

本发明所述共享的一级缓存TCM中存储部分常用数据，以加快对这部分数据的访问速度。

本发明根据应用场景配置调节CPU或GPU所使用的共享一级缓存的容量大小。

本发明所述图形处理加速器GPU采用多级SIMD流水线结构。

在普通计算应用时，仅中央处理单元工作，但可以利用共享的紧密连接缓存TCM，提升芯片的性能；在游戏运算流水线工作时，中央处理单元提供中间结果直接给共享的紧密连接缓存TCM，然后启动图形加速器GPU作后续处理，处理后的结果保存于TCM，由中央处理单元把最终结果反馈到主内存SDRAM。

与现有技术相比，本发明提出一个集成中央运算CPU和图形处理单元GPU的移动处理器架构，CPU和GPU共享一个一级缓冲的使用；可根据应用场景配置调节CPU或GPU所使用的一级缓冲的大小；CPU和GPU的数据交换在这个一级缓冲中进行，减少了对外部SDRAM的访问；整个处理器架构减少了一级缓存的数量，降低了成本，但同时提升了普通应用计算和游戏计算的性能，加快了运算速度。

附图说明

图1为现有通用处理器的构架框图；

图2为本发明处理器的构架框图；

图3为本发明图形加速器处理流程框图。

具体实施方式

下面结合附图，对本发明做进一步的详细说明。

如图2所示为本发明处理器的构架框图，包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM、中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM。中央处理器CPU在运行时首先从一级缓存读取数据，然后从内存SDRAM读取数据。紧密连接缓存TCM(TightlyCoupled Memory)是中央处理器CPU可以和外部加速硬件GPU共享的一级缓存，CPU和GPU分别通过独立的高速读写总线与TCM相连。中央处理器CPU可以对TCM进行单周期读写，同时图形处理加速器GPU也可以并行对TCM进行单周期多字节读写操作。

普通计算应用时，仅中央处理单元在工作，CPU可以将一部分常用数据存储到TCM中，加快程序对这部分数据的访问速度(TCM读写速度要大于内存的读写速度)，从而提升中央处理器CPU的性能。

进行游戏运算流水线工作时，中央处理器CPU和图形处理加速器GPU共享紧密连接缓存TCM的空间，中央处理器CPU和图形处理加速器GPU的数据交换在紧密连接缓存TCM这个一级缓存中进行，减少了对外部SDRAM(内存)的访问，提高了GPU的处理速度：中央处理器CPU首先对一级缓存中的数据进行预处理，然后通过共享的一级缓冲TCM送给图形处理加速器GPU，图形处理加速器GPU处理完图像像素数据后，将数据输出到一级缓冲TCM中，再由中央处理器CPU进行后续处理。

图3所示为本发明图形处理加速器GPU处理流程框图，一个GPU处理级采用了SIMD指令架构，可对一级缓冲TCM中的多个图像像素数据进行处理；GPU包含了微指令的译码和执行单元，可对图形处理指令进行译码和执行操作；整个GPU采用了多级SIMD(single instruction multiple data)流水线结构，使GPU具有功能可编程性。

图形处理加速器GPU采用可配置SIMD(single instruction multiple data)单元架构，每个宏指令处理M个输出像素。每个SIMD单元对应于OpenGL像素处理的一个级别，处理的具体算法有CPU编成在该SIMD的局部内存内。OpenGL像素处理的整个算法有N个SIMD单元组成的流水线完成，流水线之间的接口有输出-输入像素的时序自动完成，一旦一个SIMD单元的输入来到，该单元自动启动计算像素内容给下一级。上述架构满足OpenGL2.0的编程性要求，且平均达到每个周期处理M个像素，具有较高的使用价值。

在具体应用中，应用软件发出一个图形的需求命令及其参数；CPU接到该命令后产生图形定点的光照参数，并转换为定点格式；CPU配置图形加速器GPU的各个参数和/或SIMD指令序列以及纹理数据；CPU启动图形加速器GPU完成各个像素的计算。

本发明的实施方式不限于此，根据本发明的上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，还可以做出其它多种形式的修改、替换或变更，均落在本发明权利保护范围之内。

Claims

1.一种集成中央运算和图形加速的移动处理器架构，包括中央处理器CPU、供中央处理器访问的一级缓存、图形处理加速器GPU、内存SDRAM，其特征在于：还包括中央处理器CPU和图形处理加速器GPU共享的紧密连接缓存TCM，CPU和GPU分别通过独立的高速读写总线与TCM相连；中央处理器CPU首先对一级缓存中的数据进行预处理，然后通过共享的一级缓存TCM送给图形处理加速器GPU，图形处理加速器GPU处理完图像像素数据后，将数据输出到一级缓存TCM中，再由中央处理器CPU进行后续处理。

2.根据权利要求1所述的集成中央运算和图形加速的移动处理器架构，其特征在于：所述共享的一级缓存TCM中存储部分常用数据，以加快对这部分数据的访问速度。

3.根据权利要求1或2所述的集成中央运算和图形加速的移动处理器架构，其特征在于：根据应用场景配置调节CPU或GPU所使用的共享一级缓存的容量大小。

4.根据权利要求3所述的集成中央运算和图形加速的移动处理器架构，其特征在于：所述图形处理加速器GPU采用多级SIMD流水线结构。