CN103221938B

CN103221938B - 移动数据的方法和装置

Info

Publication number: CN103221938B
Application number: CN201180055810.1A
Authority: CN
Inventors: W·约翰森; J·W·戈楼茨巴茨; H·谢赫; A·甲雅拉; S·布什; M·琴纳坤达; J·L·奈; T·纳加塔; S·古普塔; R·J·尼茨卡; D·H·巴特莱; G·孙达拉拉彦
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 2010-11-18
Filing date: 2011-11-18
Publication date: 2016-01-13
Anticipated expiration: 2031-11-18
Also published as: CN103221936A; JP5859017B2; CN103221935A; WO2012068449A3; CN103221939A; US20120131309A1; JP2016129039A; WO2012068478A3; JP6243935B2; JP2014501008A; WO2012068486A2; CN103221934B; CN103221936B; WO2012068475A2; JP2014503876A; CN103221937B; CN103221918A; JP5989656B2; WO2012068504A3; WO2012068498A3

Abstract

提供了一种用于将数据从计算单元（808i）中的第一寄存器文件移动至处理器（1410）中的第二寄存器文件的方法。改变数据移动引线（risc？is？mtwr）上的信号状态以指示从计算单元中的第一寄存器文件到处理器（1410）中的第二寄存器文件的数据移动指令。经由第一地址引线（risc？is？ua）提供从处理器到计算单元的通道地址。经由第二地址引线（risc？is？ra）提供从处理器到计算单元的读取地址，并且经由数据接口引线（node？regf？rd）将数据从计算单元中的第一寄存器文件传递至处理器中的第二寄存器文件。

Description

移动数据的方法和装置

技术领域

本公开总体涉及处理器，并更具体地涉及处理集群。

背景技术

图1是描绘多内核系统(范围从2个到16个内核)的执行速率的加速比与并行开销的关系的图示，其中加速比是单个处理器执行时间除以并行处理器执行时间。可以看出，并行开销必须接近于零，以从大量内核获得显著益处。但是，由于如果并行程序之间存在任何交互，则开销往往非常高，因此通常难以高效使用多于一个或两个处理器来进行任何事情，除了完全分离的程序。因此，有必要改进处理集群。

发明内容

因此，本发明的实施例提供了一种方法。该方法的特征在于：改变数据移动引线(risc_is_mtvvr)上的信号状态，以指示从计算单元(4308-1到4308-M，7607-1到7607-P)中的第一寄存器文件(4358-1到4358-8，7902)到处理器(4322，7614)中的第二寄存器文件(5206)的数据移动指令；经由第一地址引线(risc_is_ua)将通道地址从处理器(4322，7614)提供到计算单元(4308-1到4308-M，7607-1到7607-P)；经由第二地址引线(risc_is_ra)将读取地址从处理器(4322，7614)提供到计算单元(4308-1到4308-M，7607-1到7607-P)；和经由数据接口引线(node_regf_rd)将数据从计算单元(4308-1到4308-M，7607-1到7607-P)中的第一寄存器文件(4358-1到4358-8，7902)传递到处理器(4322，7614)中的第二寄存器文件(5206)。

附图说明

图1示出了多内核加速比参数的图示；

图2示出了根据本公开实施例的系统的图示；

图3示出了根据本公开实施例的SOC的图示；

图4示出了根据本公开实施例的并行处理集群的图示；

图5和图6示出了该处理集群中节点或计算元件的一部分的图示；

图7示出了共享功能存储器的方框图；

图8示出了该共享功能存储器的SIMD数据路径的图示；

图9示出了一个SIMD数据路径的一部分的图示；

图10示出了节点处理器或RISC处理器更详细的图示；和

图11和图12示出了节点处理器或RISC处理器的流水线的一部分的示例的图示。

具体实施方式

图2中示出了执行并行处理的SOC的应用的示例。在该示例中，示出了成像设备1250，并且该成像器件1250(其可以例如是移动电话或摄像机)一般包括图像传感器1252、SOC1300、动态随机存取存储器(DRAM)1315、闪存1314、显示器1254以及电源管理集成电路(PMIC)1256。在操作中，图像传感器1252能够捕获图像信息(其可以是静止图像或视频)，该图像信息可以由SOC1300和DRAM1315处理，并且存储在非易失性存储器中(即闪存1314)。此外，存储在闪存1314中的图像信息也可以通过使用SOC1300和DRAM1315显示在显示器1254上给用户。同样，成像设备1250常常是便携式的，并且包括电池作为电源；PMIC1256(其可以由SOC1300控制)可以帮助调节电源使用，从而延长电池寿命。

在图3中，根据本公开实施例描绘了片上系统或SOC1300的示例。该SOC1300(其通常是集成电路或IC，例如OMAP^TM)一般包括处理集群1400(其一般执行上述并行处理)和提供宿主环境(在上面描述和引用)的主处理器1316。主处理器1316可以是宽的(即32位，64位等)RISC处理器(例如ARMCortex-A9)，并且与总线仲裁器1310、缓冲器1306、总线桥1320(其允许主处理器1316经由接口总线或Ibus1330访问外围接口1324)、硬件应用编程接口(API)1308以及中断控制器1322经由主处理器总线或HP总线1328进行通信。处理集群1400通常与功能电路1302(其可以例如是电荷耦合器件或CCD接口，并且可以与片外设备进行通信)、缓冲器1306、总线仲裁器1310以及外围接口1324经由处理集群总线或PC总线1326进行通信。借助该配置，主处理器1316能够通过API1308提供信息(即将处理集群1400配置为符合期望的并行实现)，同时处理集群1400和主处理器1316两者都可以直接访问闪存1256(通过闪存接口1312)和DRAM1254(通过存储器控制器1304)。此外，通过联合测试行动组(JTAG)接口1318可以执行测试和边界扫描。

转到图4，根据本公开实施例描绘了并行处理集群1400的示例。处理集群1400一般包括分区1402-1至1402-R，它们可以包括节点808-1至808-N、节点包装器(nodewrapper)810-1至810-N、指令存储器(IMEM)1404-1至1404-R以及总线接口单元或(BIU)4710-1至4710-R(其在下面详细讨论)。节点808-1至808-N各自耦合到数据互连814(分别通过BIU4710-1至4710-R以及数据总线1422)，并且分区1402-1至1402-R的控制或消息可以通过消息1420从控制节点1406提供。全局加载/存储(GLS)单元1408和共享功能存储器1410也提供用于数据移动的额外功能(如下描述)。此外，三级或L3高速缓存1412、外围设备1414(其一般不包括在IC内)、存储器1416(其通常是闪存1256和/或DRAM1254以及不包括在SOC1300内的其它存储器)以及硬件加速器(HWA)单元1418与处理集群1400一起使用。还可以提供接口1405，以便将数据和地址传递到控制节点1406。

处理集群1400一般使用“推”模型(“push”model)用于数据传递。传递一般表现为缓冲写入(postedwrite)，而不是请求-响应型的访问。与请求-响应的访问相比，这有利于将全局互连(即数据互连814)的占用减小一半，因为数据传递是单向的。一般不期望将请求路由通过互连814，接着将响应路由到请求器，这导致在互连814上有两个转换。推模型产生单个传递。这对于可扩展性是很重要的，因为随着网络大小增加，网络延迟增加，这必然降低请求-响应事务处理的性能。

推模型以及数据流协议(即812-1至812-N)一般将全局数据流量最小化到用于正确性的全局数据流量，同时也一般最小化全局数据流对本地节点利用的影响。通常对节点(即808-i)性能影响很少或没有影响，即使在大量全局流量的情况下。源将数据写入到全局输出缓冲器(下面讨论)，并且继续而不需要确认传递成功。数据流协议(即812-1至812-N)一般确保在第一次尝试将数据移动到目的地时传递成功，从而在互连814进行单个传递。全局输出缓冲器(其在下面讨论)可以容纳高达16个输出(例如)，从而使节点(即808-i)不太可能由于用于输出的瞬时全局带宽不足而拖延/停止(stall)。此外，瞬时带宽不被请求-响应事务处理或失败传递的重试影响。

最后，推模型更紧密地匹配编程模型，即程序不“摄取”它们自己的数据。相反，它们的输入变量和/或参数在被调用之前被写入。在编程环境中，输入变量的初始化表现为由源程序对存储器进行写入。在处理集群1400中，这些写入被转换成缓冲写入，其将变量值填充(populate)在节点上下文中。

全局输入缓冲器(其在下面讨论)用于接收来自源节点的数据。由于用于各节点808-1至808-N的数据存储器(DMEM)是单端口的，因此输入数据的写入可能与本地单输入多数据(SIMD)的读取相冲突。通过将输入数据接受到全局输入缓冲器中来避免这个竞争，其中全局输入缓冲器可以等待开放的数据存储器周期(即，与SIMD访问没有存储体(bank)冲突)。数据存储器可以具有32个存储体(例如)，所以缓冲器很可能被快速释放。然而，节点(即808-i)应该具有空闲缓冲器条目，因为没有握手来确认传递。如果期望，全局输入缓冲器可以停止本地节点(即808-i)并且对数据存储器进行强制写入，从而释放缓冲器位置，但该事件应该极其罕见。通常，全局输入缓冲器被实现为两个独立的随机存取存储器(RAM)，使得一个存储器可以处于对全局数据进行写入的状态，而另一个存储器处于被读取到数据存储器中的状态。消息传送互连与全局数据互连分开，但也采用了推模型。

在系统级，节点808-1至808-N在处理集群1400中是复制的，类似于SMP或对称多处理，其中节点数量被缩放到期望的吞吐量。处理集群1400可以缩放到很大数量的节点。节点808-1至808-N可以被分组到分区1402-1至1402-R，其中每个分区具有一个或多个节点。分区1402-1至1402-R通过增加节点之间的本地通信并且允许较大的程序计算较大量的输出数据来帮助可扩展性，从而使其更可能满足期望的吞吐量要求。在分区(即1402-i)内，节点使用本地互连进行通信，并且不需要全局资源。分区(即1404-i)内的节点也可以以任何粒度共享指令存储器(即1404-i)：从每个节点使用专用指令存储器到所有节点使用公共指令存储器。例如，三个节点可以共享指令存储器中的三个存储体，第四个节点具有指令存储器中的专用存储体。当节点共享指令存储器(即1404-i)时，节点一般同步执行相同的程序。

处理集群1400也可以支持很大数量的节点(即808-i)和分区(即1402-i)。然而，每个分区的节点数量通常限制在4个，因为每个分区具有4个以上节点一般类似于非均匀存储器访问(NUMA)架构。在该情形中，通过具有大致恒定的截面带宽的一个(或多个)交叉互连(crossbar)(其在下面针对互连814进行描述)连接分区。处理集群1400目前被构建为每个周期传递一个节点宽度的数据(例如，64个16位像素)，被分割成在4个周期上每个周期16像素的4个传递。处理集群1400一般容许延迟，并且节点缓冲一般防止了即使在互连814接近饱和时的节点停止(应该注意，除了合成程序之外，该条件难以实现)。

通常，处理集群1400包括在分区之间共享的全局资源：

(1)控制节点1406，其实现整个系统的消息传送互连(经由消息总线1420)、事件处理和调度以及到主处理器和调试器的接口(所有这些都在下面详细描述)。

(2)GLS单元1408，其包含可编程精简指令集(RISC)处理器，从而使系统数据移动可以由C++程序来描述，C++程序可以被直接编译为GLS数据移动线程。这使得系统代码能够在交叉宿主环境中执行，而不需要修改源代码，并且比直接存储器访问更加通用，因为它可以从系统或SIMD数据存储器(下面描述)中的任何一组地址(变量)移动到任何另一组地址(变量)。它是多线程的，在(例如)0周期上下文切换的情况下，支持例如多达16个线程。

(3)共享功能存储器1410，其是大的共享存储器，所述共享存储器提供了通用的查找表(LUT)和统计收集设施(直方图)。它也可以支持使用大的共享存储器进行的像素处理，例如重采样和失真校正，这种像素处理不被节点SIMD很好地支持(出于成本原因)。该处理使用(例如)六发射(six-issue)RISC处理器(即SFM处理器7614，其在下面详细描述)，从而实现标量、向量以及2D阵列作为原生类型。

(4)硬件加速器1418，其可以被包括而用于不需要可编程性的功能，或者用于优化电力和/或面积。加速器表现为子系统，作为系统中的其它节点，参与控制和数据流，可以创建事件和被调度，并且对调试器可见。(在适用情况下，硬件加速器可以具有专用的LUT和统计收集)。

(5)数据互连814和系统开放内核协议(OCP)L3连接1412。这些管理节点分区、硬件加速器以及系统存储器和外围设备之间在数据总线1422上的数据移动(硬件加速器还可以具有到L3的专用连接)。

(6)调试接口。这些在示意图上未示出，但在本文件中有描述。

转到图5，可以更详细地看出节点808-i的示例。节点808-i是处理集群1400中的计算元件，而用于寻址和程序流控制的基本元件是RISC处理器或节点处理器4322。通常，该节点处理器4322可以具有32位的数据路径，其中具有20位指令(在40位指令中可能有20位立即字段)。像素操作例如以如下方式执行：在一组32像素功能单元中，在SIMD组织中，与从SIMD数据存储器到SIMD寄存器的四个加载(例如)和从SIMD寄存器到SIMD数据存储器的两个存储(例如)并行(节点处理器4322的指令集架构在下面的第7节中描述)。指令包描述(例如)一个RISC处理器内核指令、四个SIMD加载和两个SIMD存储，与由所有SIMD功能单元4308-1至4308-M执行的3发射SIMD指令并行。

通常，加载和存储(从加载存储单元4318-i)在SIMD数据存储器位置和SIMD本地寄存器之间移动数据，这些数据可以例如代表多达64个16位像素。虽然SIMD加载和存储使用共享的寄存器4320-i来进行间接寻址(也支持直接寻址)，但是SIMD寻址操作读取这些寄存器：寻址上下文由内核或节点处理器4322管理。内核或节点处理器4322具有用于寄存器溢出/填充、寻址上下文以及输入参数的本地存储器4328。为每个节点提供分区指令存储器1404-i，其中多个节点可以共享分区指令存储器1404-i，从而对跨越多个节点的数据集执行较大程序。

节点808-i也包括支持并行的若干特征。全局输入缓冲器4316-i和全局输出缓冲器4310-i(其结合Lf缓冲器4314-i和Rt缓冲器4312-i，一般包括用于节点808-i的输入/输出(IO)电路)将节点808-i输入和输出与指令执行去耦合，从而使节点不太可能由于系统IO而停止。输入通常在处理之前很好地被接收(通过SIMD数据存储器4306-1至4306-M，和功能单元4308-1至4308-M)，并且使用备用周期(sparecycle)存储在SIMD数据存储器4306-1至4306-M中(这很常见)。SIMD输出数据被写入全局输出缓冲器4210-i，并且从那里被路由通过处理集群1400，从而使节点(即808-i)即使在系统带宽接近其极限(这也是不可能的)时也不太可能停止。SIMD数据存储器4306-1至4306-M和对应的SIMD功能单元4308-1至4308-M的各自统称为“SIMD单元”。

SIMD数据存储器4306-1至4306-M被组织成具有可变大小的、被分配到相关或不相关任务的互不重叠的上下文。上下文在水平和垂直两个方向上都是完全共享的。在水平方向上进行共享使用只读存储器4330-i，它们对于程序是只读的，但可通过写入缓冲器4302-i和4304-i、加载/存储(LS)单元4318-i或其它硬件进行写入。这些存储器4330-i也可以是约512x2位大小。一般地，这些存储器4330-i对应于相对于被操作的中央像素位置而言在左边和右边的像素位置。这些存储器4330-i使用写缓冲机制(即写入缓冲器4302-i和4304-i)来调度写入，其中侧上下文写入通常不与本地访问同步。缓冲器4302-i一般与当前操作的邻近像素(例如)上下文保持一致性。在垂直方向上进行共享使用SIMD数据存储器4306-1至4306-M内的循环缓冲器；循环寻址是LS单元4318-i所施加的加载和存储指令支持的一种模式。通常使用上面描述的系统级依赖性协议保持共享数据一致性。

上下文分配和共享由SIMD数据存储器4306-1至4306-M上下文描述符在与节点处理器4322相关联的上下文状态存储器4326中指定。该存储器4326可以例如是16x16x32位或2x16x256位的RAM。这些描述符也指定了数据如何在上下文之间以完全通用的方式共享，并且保留信息以处理上下文之间的数据依赖性。上下文保存/恢复存储器4324通过允许寄存器4320-i并行保存和恢复，以此用于支持0周期任务切换(如上描述)。针对每个任务使用独立的上下文区域来保持SIMD数据存储器4306-1至4306-M和处理器数据存储器4328上下文。

SIMD数据存储器4306-1至4306-M和处理器数据存储器4328被划分成具有可变大小的可变数量的上下文。垂直帧方向的数据被保留并且在上下文本身内再使用。通过将上下文链接在一起成为水平组来共享水平帧方向的数据。重要的是要注意，上下文组织方式与计算中所涉及的节点数量以及它们如何彼此交互是基本上无关的。上下文的主要目的是保留、共享以及再使用图像数据，而不管操作该数据的节点的组织方式。

通常，SIMD数据存储器4306-1至4306-M包含(例如)由功能单元4308-1至4308-M操作的像素和中间上下文。SIMD数据存储器4306-1至4306-M一般划分成(例如)多达16个不相交的上下文区域，其各自具有可编程的基地址，其中从所有的上下文可访问公共区域，公共区域由编译器用于寄存器溢出/填充。处理器数据存储器4328包含输入参数、寻址上下文以及用于寄存器4320-i的溢出/填充区域。处理器数据存储器4328可以具有(例如)高达16个不相交的本地上下文区域，它们对应于SIMD数据存储器4306-1至4306-M上下文，并且各自具有可编程的基地址。

通常，节点(即节点808-i)例如具有三种配置：8个SIMD寄存器(第一配置)；32个SIMD寄存器(第二配置)；以及32个SIMD寄存器加上在每个较小的功能单元中有三个额外的执行单元(第三配置)。

作为示例，图6更详细地示出了SIMD单元(即，SIMD数据存储器4306-1和SIMD功能单元4308-1)、节点处理器4322和LS单元4318-i的示例。如该示例中所示，SIMD功能单元4308通常由八个较小的功能单元 4308-1到 4308-8组成。

首先看处理器内核，节点处理器4322通常执行所有控制相关的指令并且保持在寄存器文件4340和4342(分别)示出的所有地址寄存器值和SIMD单元的专用寄存器值。至多六个(例如)存储器指令可以在一个周期中计算。对于地址寄存器值，地址源操作数从所示的SIMD单元发送至节点处理器4322，并且节点处理器4322发送回寄存器值，其接着由SIMD单元使用于地址计算。类似地，对于专用寄存器值，专用寄存器源操作数从所示的SIMD单元发送至节点处理器4322，并且节点处理器4322发送回寄存器值。

节点处理器4322可以具有(例如)用于SIMD的15个读取端口和6个写入端口。通常，15个读取端口包括(例如)容纳用于6个存储器指令中的每一个存储器指令的两个操作数(即lssrc和lssrc2)的12个读取端口，和用于专用寄存器文件4312的3个端口。通常，专用寄存器文件4342包括两个名为RCLIPMIN和RCLIPMAX的寄存器，其应该被提供在一起并且通常限制于16条目寄存器文件4342中的低四个寄存器。接着，在指令中直接指定RCLIPMAX和RCLIPMIN寄存器。其他专用寄存器RND和SCL由4位寄存器标识符指定并且可以位于16条目寄存器文件4342中的任意位置。此外，节点处理器4322包括程序计数器执行单元(PCEXE)4344，其可以更新指令存储器1404-i。

现在转到LS单元4318-i和SIMD单元，图6示出了各自的通用结构。如所示，LS单元4318-i通常包括LS解码器4334、LS执行单元4336、逻辑单元4346、乘法单元4348、右执行单元4350和LS数据存储器4339；然而，下面提供关于LS单元4318-i的数据路径的细节。较小的功能单元4338-1至4338-8中的每一个通常(且分别)包括SIMD寄存器文件4358-1到4358-8(例如，其可以分别包括32个寄存器)、左逻辑单元(LU)4352-1到4352-8、乘法单元(MU)4354-1到4354-8和右逻辑单元(RU)4356-1到4356-8。这些左逻辑单元4352-1到4352-8、乘法单元4354-1到4354-8和右逻辑单元4356-1到4356-8通常分别是是左单元4346、中单元4348和右单元4350的复制。此外，类似于LS单元4318-i，下面说明每个功能单元4338-1到4338-8的数据路径。

此外，对于节点(即节点808-i)的三种示例配置，某些部件(即逻辑单元4352-1)的大小或对应的指令可以变化，而其他部件可以保持相同。LS数据存储器4339、查找表和直方图相对地保持相同。优选地，LS数据存储器4339可以是约512*32位，其中前16个位置保持上下文基地址，其余的位置可以由上下文访问。查找表或LUT(其通常在PC执行单元4344内)可以具有多达12个存储大小为16Kb的表，其中四个位可以用于选择表，十四个位可以用于寻址。直方图(其通常也位于PC执行单元4344中)可以具有4个表，其中直方图与LUT共享4位ID以选择表，并且使用8位用于寻址。下面的表1中，可以看出三种示例配置中的每一种的指令大小，其可以对应各种部件的大小。

转到图7，可以看到共享功能存储器1410。共享功能存储器1410一般是大的集中存储器，其支持节点不能很好地支持(即出于成本原因)的操作。共享功能存储器1410的主要部件是两个大的存储器：功能存储器(FMEM)7602和向量存储器(VMEM)7603(其各自具有在例如48至1024千字节之间的可配置大小和组织)。该功能存储器7602实现了高带宽的基于向量的查找表(LUT)和直方图的同步的指令驱动的实现。向量存储器7603可以支持暗示(imply)向量指令(在上面第8部分中详细描述)的6发射处理器(即SFM处理器7614)进行的操作，向量指令例如可以用于基于块的(block-based)像素处理。通常，可以使用消息传送接口1420和数据总线1422访问该SFM处理器7614。SFM处理器7614例如可以对宽像素上下文(64像素)操作，宽像素上下文可以具有比节点中的SIMD数据存储器更通用的组织和总存储器大小，其中更通用的处理被应用到数据。其支持对标准C++整数数据类型进行标量、向量和数组操作，以及对与各种数据类型可兼容的包装的像素进行标量、向量和数组操作。例如并如图示出，与向量存储器7603和功能存储器7602相关联的SIMD数据路径一般包括端口7605-1至7605-Q以及功能单元7607-1至7607-P。

所有处理节点(即808-i)可以访问功能存储器7602和向量存储器7603，在这个意义上，功能存储器7602和向量存储器7603一般是“共享”的。可以通过SFM包装器访问提供给功能存储器7602的数据(通常以只写的方式)。该共享一般也与上述针对处理节点(即808-i)描述的上下文管理一致。处理节点和共享功能存储器1410之间的数据I/O也使用数据流协议，并且且处理节点通常不能直接访问向量存储器7603。共享功能存储器1410也可以对功能存储器7602进行写入，但当其正在被处理节点访问时不可以写入。处理节点(即808-i)可以对功能存储器7602中的公共位置进行读取和写入，但(通常)作为只读LUT操作或只写直方图操作。处理节点也可能对功能存储器7602区域进行读写访问，但这对于给定程序的访问应该是专有的。

转到图8，示出了共享功能存储器1410的SIMD数据通路示例。例如，可以使用八个SIMD数据路径(其可以分成两个16位半部分，因为其可以对16位包装数据操作)。如所示，这些SIMD数据路径通常包括多组存储体7802-1到7802-L、关联的寄存器7804-1到7804-L和关联的多组功能单元7806-1到7806-L。

在图9中，可以看到一个SIMD数据路径的一部分的示例(即且例如，寄存器7804-1到7804-L中的一个的一部分和功能单元7806-1到7806-L中的一个的一部分)。如所示且例如，该SIMD数据路径可以包括16条目32位寄存器文件7902、两个16位乘法器7904和7906以及可以在一个周期内执行两个16位包装操作的单个32位算法/逻辑单元7908。同样，作为示例，每个SIMD数据路径可以执行两个独立的16位操作，或组合的32位操作。例如，这可以使用16位乘法器结合32位加法形成32位乘法。此外，算法/逻辑单元7908能够执行加法、减法、逻辑操作(即AND)、比较和条件移动。

返回图8，SIMD数据路径寄存器7804-1到7804-L可以使用至向量存储器7603的加载/存储接口。这些加载和存储可以使用向量存储器7603中提供用于节点(即808-i)的并行LUT和直方图访问的特征：对于节点，每个SIMD数据通路的一半可以提供对功能存储器7602的索引；并且，类似地，SFM处理器7614中的每个SIMD数据通路的一半可以提供独立的向量存储器7603地址。寻址通常被组织为使得相邻数据路径可以对多个数据类型实例，例如8-、16-或32-位(例如)数据的标量、向量和数组执行相同操作：这些被称为向量隐含寻址模式(向量由SIMD通过线性向量存储器7603寻址隐含)。替换地，每个数据路径可以对存储体7802-1到7802-L内的帧区域的包装像素操作：这些称作向量包装寻址模式(包装像素的向量由SIMD通过二维向量存储器7603寻址隐含)。在这两种情况下，与节点处理器4322一样，编程模型可以隐藏SIMD的宽度，并且程序可以被写入，如同它们对其他数据类型的单个像素或元素操作那样。

隐含向量的数据类型一般是8位字符、16位半字或32位整字的SIMD实现的向量，其通过每个SIMD数据路径单独地操作(即图9)。这些向量在程序中一般不是显式的，而是由硬件操作暗含。这些数据类型还可以构成显式程序向量或数组内的元素：SIMD有效地将隐藏的第二或第三维加入这些程序向量或数组。实际上，编程视图(programmingview)可以是具有专用32位数据存储器的单个SIMD数据路径，并且该存储器可以利用常规的寻址模式访问。在硬件中，以32个SIMD数据路径中的每一个具有私有数据存储器的表现的方式映射该视图，但是该实现方式利用向量存储器7603的宽的存储体组织在共享功能存储器1410中实现该功能。

SFM处理器7614的SIMD一般在与节点处理器上下文相似的向量存储器7603上下文内操作，其中描述符具有与多组存储体7802-1对准的基址，并且充分大以至于能寻址整个向量存储器7603(即对于1024k字节的大小，为13位)。SIMD数据路径的每二分之一用6位标识符(POSN)进行编号，最左边的数据路径以0开始。对于向量隐含寻址，该值的LSB一般被省略，并且其余的五位用于使数据路径产生的向量存储器7603地址与向量存储器7603中的相应字对准。

在处理集群1400内，通用目的的RISC处理器用于各种目的。例如，节点处理器4322(其可以是RISC处理器)可以用于程序流控制。下面描述了RISC架构的示例。

转到图10，可以看到RISC处理器5200(即节点处理器4322)的更详细的示例。处理器5200使用的流水线一般提供在处理集群1400中通用高层次语言(即C/C++)执行的支持。在操作中，处理器5200采用摄取、解码和执行三级流水线。通常，上下文接口5214和LS端口5212提供指令给程序高速缓存5208，并且指令摄取5204可以从程序高速缓存5208中摄取指令。指令摄取5204和程序高速缓存5208之间的总线可以例如是40位宽，从而允许处理器5200支持双发射指令(即指令可以是40位或20位宽)。一般地，“A侧”和“B侧”功能单元(在处理单元5202内)执行较小的指令(即20位指令)，而“B侧”功能单元执行较大的指令(即40位指令)。为了执行提供的指令，处理单元可以使用寄存器文件5206作为暂存器(scratchpad)；该寄存器文件5206可以(例如)是在“A侧”和“B侧”之间共享的16条目32位寄存器文件。此外，处理器5200包括控制寄存器文件5216和程序计数器5218。也可以通过边界引脚或引线访问处理器5200；在表2中描述了每一种的示例(“z”表示活动低引脚)。

表格2

转到图11，可以更详细地看到处理器5200。这里，指令摄取5204(其对应于摄取级5306)被分成A侧和B侧，其中A侧接收“摄取分组”(其可以是40位宽的指令字符，其具有一个40位的指令或两个20位的指令)的前20位(即[19：0])，而B侧接收摄取分组的后20位(即[39：20])。通常，指令取出5204确定摄取分组中的指令的结构和大小，并且相应地分发指令(其在下面的7.3节讨论)。

解码器5221(其是解码级5308和处理单元5202的一部分)将来自指令摄取5204的指令进行解码。解码器5221一般包括运算符格式电路5223-1和5221-2(以生成中间体)以及解码电路5225-1和5225-2，分别用于B侧和A侧。接着由解码-执行单元5220(其也是解码级5308和处理单元5202的一部分)接收来自解码器5221的输出。解码-执行单元5220生成用于执行单元5227的命令，其对应于通过摄取分组接收的指令。

执行单元5227的A侧和B侧也细分。执行单元5227的B侧和A侧中的每一个分别包括乘法单元5222-1/5222-2、布尔单元5226-1/5226-2、加/减单元5228-1/5228-2以及移动单元5330-1/5330-2。执行单元5227的B侧还包括加载/存储单元5224和分支单元5232。接着，乘法单元5222-1/5222-2、布尔单元5226-1/5226-2、加/减单元5228-1/5228-2以及移动单元5330-1/5330-2可以分别执行乘法操作、逻辑布尔操作、加/减操作以及对加载到通用寄存器文件5206中的数据的数据移动操作(其也可以包括读取用于A侧和B侧中的每一个的地址)。也可以在控制寄存器文件5216中执行移动操作。

具有向量处理模块的RISC处理器一般与共享功能存储器1410一起使用。RISC处理器与用于处理器5200的RISC处理器大致相同，但是其包括向量处理模块，从而扩展计算和加载/存储带宽。该模块可以包含16个向量单元，每个向量单元能够执行每周期4操作执行分组。通常的执行分组一般包括来自向量存储器阵列的数据加载、两个寄存器到寄存器的操作以及到向量存储器阵列的结果存储。该类型的RISC处理器一般使用80位宽或120位宽的指令字符，其一般构成“摄取分组”，并且可以包括未对齐的指令。摄取分组可以包含40位和20位指令的混合，其可以包括向量单元指令和标量指令，类似于处理器5200使用的那些。通常，向量单元指令可以是20位宽，而其它指令可以是20位宽或40位宽(类似于处理器5200)。向量指令也可以被呈现在指令摄取总线的所有通道上，但是，如果摄取分组包括标量和向量单元指令两者，则向量指令被呈现(例如)在指令摄取总线位[39：0]上，而标量指令被呈现(例如)在指令摄取总线位[79：40]上。此外，未使用的指令摄取总线通道用NOP填充(pad)。

接着可以从一个或多个摄取分组中形成“执行分组”。部分的执行分组被保持在指令队列中，直至完成。通常，完整的执行分组被提交到执行级(即5227)。四个向量单元指令(例如)、两个标量指令(例如)或20位和40位指令的组合(例如)可以在单个周期内执行。连续的20位指令也可以串行执行。如果当前20位指令的位19被设置，则这表明，当前指令和随后的20位指令形成执行分组。位19一般可以称为P位或并行位。如果P位未被设置，则这指示执行分组的末端。P位未被设置的连续20位指令导致20位指令的串行执行。也应该注意，该RISC处理器(具有向量处理模块)可以包括下面约束中的任何一项：

(1)P位在40位指令中(例如)被设置成1是非法的；

(2)加载或存储指令应该显示在指令摄取总线的B侧(即用于40位加载和存储的位79:40，或用于20位加载或存储的摄取总线的位79:60上)；

(3)单个标量加载或存储是非法的；

(4)对于向量单元，单个加载和单个存储都可以存在于摄取分组中；

(5)P位等于1的20位指令在40位指令之前是非法的；以及

(6)没有硬件就位来检测这些非法条件。这些限制被期望通过系统编程工具718强加。

转到图12，可以看到向量模块的示例。向量模块包括检测器解码器5246、解码-执行单元5250以及执行单元5251。向量解码器包括时隙解码器(slotdecoder)5248-1至5248-4，其从指令摄取5204接收指令。通常，时隙解码器5248-1和5248-2以彼此类似的方式操作，而时隙解码器5248-3和5248-4包括加载/存储解码电路。接着，解码-执行单元5250可以基于向量解码器5246的解码输出来生成用于执行单元5251的指令。每个时隙解码器可以生成乘法单元5252、加/减单元5254、移动单元5256以及布尔单元5258(其各自使用通用寄存器5206中的数据和地址)可以使用的指令。此外，时隙解码器5248-3和5248-4可以生成用于加载/存储单元5260和5262的加载和存储指令。

通用寄存器文件5206可以是16条目32位通用寄存器文件。通用寄存器(GPR)的宽度可以被参数化。通常来说，当处理器5200用于节点(即808-i)时，有4+15个(15个由边界引脚控制)读取端口和4+6个(6个由边界引脚控制)写入端口，而用于GLS单元1408的处理器5200具有4个读取端口和4个写入端口。

下面的表3指示可以在节点处理器4322和SIMD(即，包括SIMD数据存储器4306-1和功能单元4308-1的SIMD单元)之间移动数据的指令。

表格3

下面的表2示出了用于处理器5200的指令集架构的示例，其中：

(1)单元名称.SA和.SB用于区分20位指令在哪个发射时隙中执行；

(2)40位指令在B侧(.SB)上按照惯例执行；

(3)基本形式是<助记符号(mnemonic)><单元(unit)><逗号分隔的操作数列表(commaseparatedoperandlist)>；以及

(4)伪代码具有C++语法，合适的库可以被直接包括在模拟器或其它黄金模型中。

表格4

本发明涉及的本领域技术人员应该理解，在不偏离本发明的范围的情况下，可以对描述的实施例和实现的其他实施例进行修改。

Claims

1.一种集成电路(1300)SIMD单元(808-i)，其包括：

A、SIMD数据存储器(4306-1)，其具有全局数据输入和输出引线；

B、第一SIMD功能单元(4308-1)，其包括耦合到所述SIMD数据存储器(4306-1)的第一SIMD寄存器文件(4358-1)、第一左逻辑单元(4352-1)、第一乘法单元(4354-1)以及第一右逻辑单元(4356-1)，其中所述第一左逻辑单元(4352-1)、第一乘法单元(4354-1)以及第一右逻辑单元(4356-1)的全部均耦合到所述第一SIMD寄存器文件(4358-1)；

C、第二SIMD功能单元(4308-2)，其包括耦合到所述SIMD数据存储器(4306-1)的第二SIMD寄存器文件(4358-2)、第二左逻辑单元(4352-2)、第二乘法单元(4354-2)以及第二右逻辑单元(4356-2)，其中所述第二左逻辑单元(4352-2)、第二乘法单元(4354-2)以及第二右逻辑单元(4356-2)的全部均耦合到所述第二SIMD寄存器文件(4358-2)；以及

D、加载存储电路(4318-i)，其包括加载存储左逻辑单元(4346)、加载存储乘法单元(4348)以及加载存储右逻辑单元(4350)，其中所述加载存储左逻辑单元(4346)、加载存储乘法单元(4348)以及加载存储右逻辑单元(4350)的全部均具有耦合到指令存储器(1404-i)的输入端，均耦合到所述第一左逻辑单元(4352-1)、第一乘法单元(4354-1)以及第一右逻辑单元(4356-1)并且均耦合到所述第二左逻辑单元(4352-2)、第二乘法单元(4354-2)以及第二右逻辑单元(4356-2)。

2.根据权利要求1所述的集成电路(1300)SIMD单元(808-i)，其中所述加载存储电路(4318-i)包括耦合到所述指令存储器(1404-i)的加载存储解码器电路(4334)以及耦合到所述加载存储解码器电路(4334)的加载存储执行电路(4336)。

3.根据权利要求1所述的集成电路(1300)SIMD单元(808-i)，其中存在八个SIMD功能单元(4338-1至4338-8)，每个功能单元包括耦合到所述SIMD数据存储器(4306-1)的SIMD寄存器文件(4358-1至4358-8)、左逻辑单元(4352-1至4352-8)、乘法单元(4354-1至4354-8)以及右逻辑单元(4356-1至4356-8)，所述左逻辑单元(4352-1至4352-8)、乘法单元(4354-1至4354-8)以及右逻辑单元(4356-1至4356-8)的全部均耦合到所述SIMD功能单元的所述SIMD寄存器文件(4358-1至4358-8)。