CN1531689A

CN1531689A - 信号处理装置

Info

Publication number: CN1531689A
Application number: CNA018217052A
Authority: CN
Inventors: H; H·福尔斯贝里
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-11-02
Filing date: 2001-10-30
Publication date: 2004-09-22
Anticipated expiration: 2021-10-30
Also published as: DE60144531D1; AU2002212891A1; WO2002037695A8; ATE507532T1; SE0004015L; WO2002037695A2; US20020158792A1; EP1340162B1; SE522520C2; SE0004015D0; WO2002037695A3; CN1303550C; US6873287B2; EP1340162A2

Abstract

本发明涉及适用于嵌入式信号处理的方法和设备，它包含多个计算单元(100)，每个计算单元包含多个能够独立工作并同时传送数据的处理元件(20)。所述计算单元被安置在簇中，独立工作并且同时传送数据，以及所述处理元件(20)在超立方体拓扑中被按全局且有规则地光学互连并被转换成平面波导。

Description

信号处理装置

技术领域

本发明涉及适合用于嵌入式信号处理的方法和装置，其中多个能够独立工作并同时传送数据的计算单元按照超立方体拓扑(hypercubetopology)在所述的装置中构成一个互连网络。

发明的背景

最近提出的许多应用在嵌入式信号处理(ESP)系统(例如雷达和声纳系统)中的算法要求在1GFLOPS到50TFLOPS的范围内具有持续稳定的性能。因此必须有许多的处理元件一起工作，从而提高互连带宽。ESP系统还需要得到满足的其它典型要求是实时处理、小尺寸设备以及多模式操作。为了能够同时解决以上的约束，需要新的并行计算机结构。

已经提出了一些此类并行和分布式计算机系统，用于嵌入式实时处理应用。它们包括那些在互连网络中使用光纤达到更高带宽的系统。参见例如瑞典哥德堡查尔姆斯技术学院(Chalmers University ofTechnology)计算机工程系M.Jonsson的博士论文《用于实时计算系统的高性能光纤互连网络》1999年11月，ISBN 91-7197-852-6。

实际上通过在ESP系统中引入光学技术，可以满足许多相互矛盾的要求。例如可以减小物理尺寸并提高把网络分成两半的截面部分的带宽(通常被称为平分点带宽)。参见K.Teitelbaum的《用于嵌入式信号处理应用的纵横树网络》，使用光纤互连实现大量并行处理论文集，MPPOI’98，Las Vegas，NV，USA，June 15-17，1998，PP.200-207。本文还公开了使用高平分点带宽以减少在不同维度处理信息的计算单元之间重新分配数据的时间，并且这一特性在ESP系统中具有重要作用。

然而，为了在交互处理(inter-processing)计算系统中更好的利用光学器件，所有的光学和光电子学特性必须被统一考虑。这些特性包括在所有的空间维度传输、光的相干以及高扇出等。

实际上，已经显示平面排列的具有完全而有规则的互连节点的光学自由空间互连3D系统(使用所有的三个空间维度进行通信)最适于使用光学器件的并行计算机结构，参考例如H.M.Ozaktas在使用光学互连的大量并行处理学报MPPOI’96，Maui，HI，USA，Oct.27-29，1996，pp.8-15发表的“用于光电计算的最优基本结构”(Towards anoptimal foundation architecture for optoelectroniccomputing)。把光学连接的3D系统折叠成平面也将以相对比较低的花费提供精确的对准、坚固的机械性能以及稳定的温度特性。J.Jahns，“自由空间光学互联的平面封装”(Planar packaging of thefree-space optical interconnections)，Proceedings of IEEE，vol.82，No.11，Nov，1994，pp.1623-1631。

超立方体是一种已经被大量研究地拓扑结构。它被广泛使用的一个原因就是能够把许多知名的拓扑结构例如低维度网格、蝶形单元和混和交换网络嵌进超立方体结构。另一理由是本拓扑结构可以用来实现需要全体对全体(all-to-all)通信的算法，例如矩阵转换、向量简化和排序。例如在I.Foster，Designing and building ParallelPrograms：Concepts and Tools for Parallel Software Engineering，(设计和构建并行程序：并行软件工程的概念和工具)，AddisonWesley Publishing Company，Inc，Reading，MA，USA，1995所述的那样。

从几何学上看，超立方体可以被递归定义如下：零维超立方体是单个的处理器。具有N＝2ⁿ个处理元件(PE)的n维超立方体是由两个具有N＝2^n-1个PE的超立方体组成，其中一半的所有PE都和另一半的所有相应的PE连接。在图1中表示了一个6维超立方体。它是由两个5维超立方体组成，依此类推这些5维超立方体由两个4维超立方体组成，图1b。这些4维超立方体被进一步分成3维超立方体，图1c。在图1c中的粗线对应8个互连的每一个。

超立方体的缺点是它的复杂性。与网格相比，它需要更多更长的连线，因为当维数大于3，即维数比物理空间更大时不但最近的相邻节点而且远距离的相邻节点也都要互相连接。实际情形是即便在相对比较小的超立方体中，所需要的(不同长度的)电线的数量也是巨大的。例如考虑在电路板上实现6维超立方体的情况，其中两个处理元件之间的单向连接的传输率必须为10Gbit/s的量级。它的实现需要12288条不同长度的电线，每条连线的时钟频率为312.5MHz(假设连线宽度是32位)。由于这些线不允许在物理上相互交叉，因此需要许多层。

在前文，我们陈述了在例如ESP系统中的互连网络必须能够在不同维上处理信息的计算单元之间有效地重新分发数据。在图2中表示了这种重新组织数据的过程。其中，第一簇处理元件(左立方体)在一维中(用一个箭头标识)计算数据。下一个工作单元(右立方体)在另外一维中计算数据，从而必须进行重新分配。

数据的重新分配(被称为角转向(corner turning))引起了ESP系统中几乎所有的处理器间通信。也应指出的是角转向需要全体对全体的通信。

从数学的观点来看，在超立方体中角转向实际就是矩阵转置。因而如上所述已有关于这种互连拓扑结构的算法。同样，由于BB对超立方体中的处理器数目是按线性定标的，更高的维数需要极高的BB。

一个完全的角度翻转需要：

\frac{\frac{1}{2} D_{size} \log_{2} (P)}{{PR}_{link, eff}} - - - - (1)

秒。D_size是要被重新分配的数据块的总的大小，P是超立方体中处理器的数目，以及R_link，eff是去掉如消息建立时间的开销后在一个方向上单个连接的有效传输率。上述等式时根据超立方体转置算法得到的，该算法的叙述见I.Foster，Designing and building ParallelPrograms：Concepts and Tools for Parallel SoftwareEngineering，(设计和构建并行程序：并行软件工程的概念和工具)，Addison Wesley Publishing Company，Inc.，Reading，MA，USA，1995。在该算法中，数据每次只在一个维度上交换。使用这种每次一个维度(one-dimension-at-a-time)处理是节省花费的“单端口”特性的直接结果。与单端口通信的节点同时只能在它的各个端口之一上接收和发送数据相比，这是它的额外的特点。此外，每个节点都能够同时从不同的相邻节点接收不同的数据，即类似于多端口的特性。不过此处选用的算法与S.L.Johnsson和C-T.Ho所叙述的SBT路由方案是相同的，见“Optimum broadcasting and personalizedcommunication in hypercubes”(超立方体中最优广播和个人化通信)，IEEE Transactions on Computers，vol.38，no 9.Sept.1989，pp.1249-1268。SBT路由是单端口全体对全体个性化通信的两个比较低的限制因素之一。

在广播中，如果每次只对一维定路由，即如前文所述原则，并且所有的节点使用相同的调度规则，那么单端口通信的数据传送时间可被降至最小。使用这一原则，每个节点把它自身的数据总量M复制给它的第一个相邻节点(沿第一维)，并且同时接收来自同一相邻节点总量为M的数据。下一时刻，每个节点把它本身的数据和从第一相邻节点接收的数据复制给第二相邻节点(沿第二维)，并同时接收总量为2M的数据。这一过程在超立方体中所有维上被反复执行。因而每个节点必须发送和接收：

Σ_{i = 0}^{\log_{2} (P) - 1} 2^{i} M = (P - 1) M - - - - - - - - (2)

总量的数据。M是每个节点中的必须被复制到超立方体的所有其它节点的数据大小，P是处理器(节点)数目。由于每个节点都有R_link，eff的有效传输率，所以广播将需要：

\frac{(P - 1) M}{R_{link, eff}} - - - - - (3)

秒，然而这个等式只有在考虑到节点是单端口节点时才有效。事实上，如上所述，来自一个节点的数据拷贝可以同时被分发给所有的log₂(P)个相邻节点，并且每个节点可以同时接收来自它的所有相邻节点的数据。上式因此只是能够达到其目的，而不能被认为是本结构的最理想情况。

发明概要

本发明的主要目的是提供一个方法和装置，它可以解决与在多个处理元件之间使用光学互连的已知技术中有关的问题。此外，本发明的另一目的是使用光学特性，例如：在所有空间维度的传播、光的相干性、高带宽和高扇出特性等。

因而，开始提到的计算单元以成簇的形式被安排而且它们独立工作并同时传输数据，而且所述处理元件以超立方体拓扑而被完全且有规则地光学互连并被转换成平面波导。优选地，所述光学互连是自由空间连接。

计算单元至少包含一个具有第一和第二表面的透明衬底，至少一个所述衬底安置着所述处理元件。处理元件彼此互连并且通过光学连接和至少一个相邻计算单元的处理元件互连。在一个实施例中至少一个所述表面是可以反射的并且所述每个衬底内的光学互连通过所述反射表面的反射来完成。每个衬底中的光学互连也可以通过能提供高扇出能力的光束分离设备完成。

每个衬底都配有光学元件，用于在衬底之间的所述光学互连。为了获得高流量该装置包含用于分时通道的装置，该装置用于传输在同一时刻传送到所有相邻节点的不同数据。

优选地，计算单元是完全相同的以允许被叠加起来。然而计算单元也可以通过光纤被安置成并排互连。

同样计算单元可以被安置在超立方体拓扑中，在该装置中形成一个互连网络。

处理元件可以按照平面封装技术安置。

本发明也涉及提供用于嵌入式信号处理的装置的方法，该装置包括若干计算单元，每个计算单元包括若干能够独立工作并同时传输数据的处理元件。该方法包含的步骤为：把所述计算单元以成簇的形式被安排以独立运作并同时传输数据，按全局而有规则地在超立方体拓扑中以光学方式连接所述处理元件，并把所述超立方体转换成平面波导。

进而，本发明涉及包含用于空时自适应处理(STAP)的数据处理元件的机载雷达系统，数据处理单元包含若干计算单元，每个计算单元包含若干能够独立工作并同时传送数据的处理元件。计算单元以成簇的形式被安排并独立工作和同时传送数据，而且所述处理元件在超立方体拓扑中被按全局而有规则地以光学方式互连并且被转换成平面波导。处理元件的功能被设置成具有视频-I/Q转换单元、阵列校正单元、脉冲压缩单元、多普勒处理级、权重计算单元以及权重处理元件并被安排成流水线级联。视频-I/Q转换单元、阵列校正单元、脉冲压缩单元和多普勒处理级被安排成6维超立方体。权重计算单元和权重处理元件被安置成若干5维超立方体。

本发明还涉及包含一个数据处理单元的陆基雷达系统，该数据处理单元包含若干计算单元，每个计算单元包含若干能够独立工作并同时传送数据的处理元件。这些计算单元以成簇的形式被安排并且可以独立工作和同时传送数据，并且所述处理元件被按全局而有规则地以光学方式互连并且被转换成平面波导。

这些处理元件被安排成诸如数字波束形成单元、脉冲压缩单元、多普勒处理级、包络检测单元、恒定虚警比例(Constant False AlarmRatio)单元和提取器单元。数字波束形成单元、脉冲压缩单元、多普勒处理级、包络检测单元被安置在两个7维超立方体中。恒定虚警比例单元和提取器单元被安置在若干5维超立方体中。

根据在上述机载雷达系统中处理数据的方法，所需执行的步骤包括：

i.在同一6维超立方体上执行预处理、多普勒处理和两次角转向，

ii.如果数据立方体的标号为奇数，把它折叠并将数据分发到8个5维超立方体的上面的簇中，

iii.如果数据立方体的标号为偶数，把它折叠并将数据分发到5维超立方体的另外的簇中，

iv.在8个5维超立方体的同一工作簇和同一时间段内，执行权重计算和处理。

根据在上述陆基雷达系统中处理数据的方法，所需执行的步骤包括：

1.在第一个相干脉冲期间在所述的7维超立方体上执行数字波束成形、脉冲压缩、多普勒处理、包络检测并进行两次角转向，

1.把超立方体从7维折叠两次成为5维，

2.根据前一级中数据立方体的形状准备在脉冲维或者范围维中分割数据，以及当数据立方体标号为奇数时把部分数据分发到4个5维超立方体的上层簇，

3.如果数据立方体标号为偶数，把数据分发到5维超立方体的另一个簇，以及

4.在剩余时间内在同一簇上计算CFAR和提取级。

附图简介

下面将参照下列附图，更加详细的描述本发明：

图1超立方体的理论结构，其中：a)是一个3D超立方体，b)使用两个3D超立方体构造的4D超立方体，c)使用两个5D超立方体构造的6D超立方体，同样该5D超立方体是用2个4D超立方体构造的，

图2表示数据在超立方体的不同维上进行计算的处理元件之间的重新分配，

图3原理性地表示依照本发明第一种模式安排的4个处理实体的拓扑和物理横截面视图，

图4原理性地表示依照本发明第二种模式安排的4个处理实体的拓扑和物理横截面视图，

图5a)表示使用因数为3的光束分隔以减少水平发送器的本发明的一个实施例，

b)表示用于增加网络中的灵活性和多广播能力的光束分离器，其代价为使用了更多的接收器而不用增加额外的发送器，

图6所有的发送器和接收器都被安排在一个水平行中而形成3D超立方体的实施例，

图7表示在垂直方向上对两个3D超立方体的第一次扩展而构成4D超立方体，

图8表示整个计算单元-一个6D超立方体的实施例，

图9硬件结构的实例，一个光学封装超立方体流水线系统包含3个被转换成平面并大量连接的6D超立方体，

图10原理性地表示在实施例中用于连接不同的计算单元的透镜(或者孔)，其中a)表示用来把发送器的光传送到下一单元的底部透镜，b)表示用来把来自前一单元的光准直到衬底的顶层透镜，c)是顶视图，

图11 7D超立方体的拓扑和物理示意图，

图12表示4D超立方体的4条独立工作链，其中每个链都为它自身标记从1到4的数字，

图13表示依照本发明的光学平面封装超立方体的流水线系统的备选实施方式，

图14流水线超立方体的另一个等价系统，

图15表示机载STAP雷达系统中的算法流水线分级的框图，

图16原理性地表示在数据立方体中QR分解的分配方法，

图17表示权重计算级中两个备选工作链扩展工作时间和压缩处理负载，

图18表示最终的机载雷达系统的框图，包括一个6D超立方体和16个5D超立方体，即576个处理器，

图19表示陆基雷达系统中的计算流水线级的框图，

图20分成3个部分的数据立方体的原理图，

图21表示在脉冲维度或者在范围维度上分割数据的框图，

图22表示在脉冲维度或者在范围维度上分割数据的框图，

图23表示嵌入一个超立方体中的不同拓扑的例子。

实施例详述

以下，结合对对优选实施例的描述将有助于了解本发明的其它的优点和好处。

依照本发明的计算装置的体系结构包含一些独立工作并同时发送数据的计算模块以便达到高吞吐量。每个计算模块由多个按照超立方体拓扑连接的处理器构成以满足可量测性(scalability)和高的平分带宽要求。自由空间光学互连和平面封装技术使得把超立方体转换成平面成为可能。光学扇出减少了光学发送器的数目进而减少了硬件花费。

通常认为超立方体对于诸如ESP之类的系统是特别适合的拓扑结构。唯一的缺点是它的互连复杂性。然而通过使用在自由空间中的光学特性光学上互连的3D系统被折叠成平面，使互连复杂性可以被大大减少。

有几种理由促使我们把光学互连3D系统折叠成平面，一些已经在前面提到。一个原因是可以使用简单的方式来冷却、测试以及修复电路的能力。

在光学平面技术中，波导是使用玻璃或者透明的半导体衬底做成的。这些衬底被用作光传播介质和表面安装的光学电子装置以及电子芯片的载体。同样诸如光束分离器和微透镜的微光学元件，被附着在衬底的上表面或者下表面皆可。为了能够把光束包围在光传播媒介中，衬底被覆盖一层反射结构。因而光束将在表面“反弹”。

在下面的6个步骤以及图3-8中描述了把一个6D超立方体合并成平面波导的过程。由于6D超立方体合并成平面，因此自然会想到要把三个拓扑的维度转换成衬底上的一个物理方向，在此我们称为水平方向。进而由于超立方体是对称的，在一个方向上有效的任何东西在另一方向上自动有效。在整个描述中，使用参考标记10表示衬底，20表示PE，30表示光束，40表示光束分离器，50是透镜以及100表示包含衬底和PE的计算单元。

步骤1：水平方向上的发送器。

在图3a和6b的6D超立方体中，每个处理元件20都有6个相邻处理元件。物理上，这相当于三个水平的和三个垂直的相邻单元。在图3中，表示了拓扑(3a)和物理(3b)结构。黑色的PE 20a把数据发送到它的三个相邻处理元件20。

步骤2：水平方向的接收器。

以同样的方式，PE必须能够从3个水平的相邻处理元件接收数据；如图4a和4b所示。

使用衍射元件，很容易产生光束分离器，即利用光学的扇出特性。如果使用光束分离器，平行发送器的数目以3为因数减少，因而可以降低硬件花费而不会破坏超立方体拓扑结构，如图5a所示。然而当不同数据需要同时被发送到所有的三个相邻处理元件时，因为只有一个发送器可以使用，必须使用一些分时(time-sharing)通道。

更重要的是由于不仅仅只在一个方向上分束，因而可以以6为因数减少发送器数目(设使用的是6D超立方体)。但是更为重要的是，如果超立方体转换算法如Foster所述，(I.Foster Designing andBuilding Parallel Programs：Conceps and Tools for ParallelSoftware Engineering(设计和构建并行程序：并行软件工程的概念和工具)，Addison Wesley Publishing Company，Inc.，Reading，MA，USA，1995)执行角转向，即使发送器的数目以6为因数减少，与不使用光束分离器的系统相比也不会有任何性能损失。因而每次只交换一个维度上的数据。但是要注意，总的来说超立方体转换算法和Foster所述的简单转换算法相比多了(logP)/2次数据发送，而少了P/logP条消息(其中P是处理元件的数目)。因而，在转换代价很低且消息起动成本比较昂贵的情况下，超立方体转换算法是更好的选择。因此，与纯粹的电线相比具有比较高的启动成本和带宽的光学互连典型地能更好地匹配转换算法特性。

步骤3：减少发送器

由于即使发送器的数目以6为因数降低也不会发生性能损失，在对超立方体转换算法执行角转向时，优选使用如图5a所示的光束分离器。然而光束是在水平和垂直两个方向上都被分割的，因而发送器的数目可以被最大限度地减少。

例如在图3中，很可能对所有的光束使用同一个接收器。在这种情况下，所有的处理元件必须在超立方体中同步；以便能够使用某种时分复用进而可以避免数据冲突。使用平面封装技术，比较容易实现同步时钟通道。例如J.Jahns，“Planar packaging of free-spaceoptical interconnections(自由空间光学互连的平面封装)”。Proceedings of the IEEE vol.82，no.11，Nov.1994，pp1623-1631，描述了利用平面技术的适合于例如时钟共享的1到6 4信号(1-to-64-signal)分配。

步骤4：3D超立方体

在图6b，加入了在一列中的所有的发送器和接收器。这与3D超立方体的拓扑相对应。

步骤5：4D超立方体

为了实现比三维更高的超立方体，使用垂直方向。在图7a和7b中，表示了一个4D超立方体的拓扑结构和物理结构。第四维使用垂直空间。

步骤6：6D超立方体

如图8a和图8b所示，6D超立方体充分利用水平和垂直空间。这种物理布置对应完整的计算单元。

如果一个计算单元不能获得需要的性能，必须使用几个计算单元协同操作。同样，由于在ESP系统中几乎所有的应用都可以被划分给各计算部分，它们只需要把数据发送到链中的下一级，所以可以用流水线的方式连接计算单元，如图9所示。

在图9中例如最左层中的所有的PE 20能够把数据发送到中间层。但是最左层中的单个PE只能把数据发送到中间层中对等的PE。中间层同样可以发送数据但只能发送到最右层。

为了使内部模块的通信可以工作，衬底配有开口，即光束可以从前一单元通过透镜50传播，并且发送到下一单元，如图10所示。另外，可以添加衍射元件以操纵输入光束30进入到衬底并到达正确的PE。

在图10中，表示用来连接不同的计算单元20所需的透镜50a和50b。特别是，图10a表示下表面透镜，而图10b表示上表面透镜。图10c表示顶视图。注意图中表示的下表面透镜50b位于衬底下面。

通过允许在两个方向上进行通信，即允许一个模块在前向和后向上都能够发送和接收数据，7D超立方体实际由两个平面阵列形成，如图11a和11b所示。如果多于两个的层组成扩展计算单元，由于只有相邻的层可以相互通信将不能维持纯粹的超立方体拓扑。然而因为数据流的流水线特性这在许多的信号处理系统中并不构成限制。

如果在该系统中只需要一个操作模式，有可能为此目的创建流的体系结构。然而在包括例如机载雷达在内的许多ESP应用中，在应用时根据需要改变工作模式是非常重要的，因而能够多模式操作的体系才是最佳的。因而不同的计算单元簇必须可以以不同的方式一起工作。

此处所述的流水线系统具有很好的以各种方式被映射成不同算法的潜力。实际上该系统整个可以被分为所有3个空间维度。图12中表示了一个此类例子，其中在同一时刻不同的算法被映射到4个比较小的流水线4D超立方体系统。也可能通过连接不同层的4D超立方体在这些4个比较小的系统中的每一个中产生5D超立方体。

为了能够增加系统性能，硬件的可量测性具有重要作用。在所建议的系统中，可通过以下方式获得更高的性能：

a)在链中增加更多的平面阵列，

b)扩大各层的物理尺寸，或者

c)在一层中增加更多的PE，即通过b)或者更密的封装以增加超立方体维度。

在优选实施例中，内部模块的连接是自由空间光学互连并且所有模块都完全相同；这有利于添加更多的层。然而，必须特别注意模块相互堆叠的方式；例如，热量的移出等必须予以考虑。

如果需要的性能超出了一个单元(即衬底)的计算负载，必须使用几个单元协同工作。同样的，为了使这些单元可以有效的一起工作，需要大量的互连。一种连接方式是把它们分层放置，如图9所示。这种安排的缺点是每个层只能把数据向前发送到下一个层或者向后发送到前一层。然而这种安排方式适合大多数雷达系统中的流水线计算特性，因而是此类应用的一个合适选择。而且，这种超立方体流水线系统实际上能够在所有三个维的空间被切分。例如，两个相邻的6D超立方体组成了一个7D超立方体，被分成4块相等的正方形的一层构成了4个4D超立方体并且最终两层4个4D超立方体可分别构成4个5D超立方体。结果，在这个系统上可以执行许多种操作模式，这在例如雷达系统的应用中十分重要。

图13中表示了图9的一个替换实施方式。在这种情况下，平面封装超立方体流水线系统被合并成一个比较大的矩形。衬底10被并排放置并且利用连接器、透镜、光纤等连在一起。由图13中可知，最大的光跳动(light bounce)距离只是最远的相邻距离，而不是衬底的整个长度。

大的计算单元有许多优点，例如，与经过两种介质(另一种是空气)相比光束只在一种材料中传播，并且不会产生与温度有关的在不同的衬底之间的位移问题，并且不需要衬底的开口以允许光束在计算单元之间进出等。另一方面，光束必须在衬底中传播两倍的距离，并且与位移问题相反，必须考虑挠曲。另外，与图9所示的其它实施相比，系统的可扩展性也受到限制，前者在系统性能不够的情况下可以添加更多的层。

图14中表示了流水线超立方体的第三个等价系统。然而在较低的部分所示的正方形系统可被认为是单板系统，即图9中的单个层。所有当然也有可能在该系统中增加更多的转移通道。

下面，将介绍基于本系统所教导的一些示例应用以阐明通过本发明可获得的优点。我们选择机载STAP雷达和陆基雷达应用作为例子。机载雷达需要特别大的计算负载以及中等的处理器间通信要求。另一方面陆基雷达对处理器间通信有特别严格的要求而对计算负载的要求适中。因此，新的体系结构必须能够满足高系统负载和高处理器间数据传送要求。

空时自适应处理(STAP)是一项应用在雷达系统中以消除雷达系统内的杂乱回波和干扰的技术。然而由于过高的计算负载和弱的收敛特性，使得完全的STAP算法在大多数的应用中没有使用价值。因而需要使用一些减少负载和快速收敛算法。例如第n阶的多普勒因数分解STAP。除了中等(1阶)和严格(3阶)实时STAP以外，这种STAP算法被用作第一个例子。因而，与上面提到的3阶STAP基准相比计算负载被提高了许多倍。有多种原因促成了这种提高，例如使用64个处理通道代替原来的22个，更高阶的多普勒因数分解STAP(5阶代替了3阶)以及更高的抽样率。

假设以下系统参数被用于机载雷达系统：

·64个处理通道(L)

·5阶多普勒因数分解STAP(Q)

·32.25ms相干脉冲间隔(CPI)(τ)

·在以4为系数抽取后，每个脉冲960个抽样(范围仓(rangebin))(N_d)

·每个CPI和通道64个脉冲(C_p)

·单一连接在一个方向上具有的8Gbit/s的有效数据传输率。

因为系统的实时特性，解决方案必须对小的延时敏感。因而延时要求为100ms，即STAP链中从输入级到最后一级进行所有计算的最大延时确定为3τ。

在图15表示了用于被选中的STAP算法的流水线分级。链150包含6个流水线分级，即，视频到I/O转换151、阵列校准152、脉冲压缩153、多普勒处理154、权重计算155以及最终的权重处理156。

下面的表1表示在每一级的计算负载。负载测量的是每个相干脉冲间隔内(而不是每秒)的浮点运算。注意所有的浮点计算公式取自K.C.Cain、J.A.Torres和R.T.Williams的“RT_STAP：Real-timespace-time adaptive processing benchmark(实时空时自适应处理基准)”，MITRE Technical Report，The MITRE Corporation，Center for Air Force C3 System，Beford，Massachusetts，USA，1997(Cain)中的等式。也要注意在表1中阵列校准和脉冲压缩级被结合在一起。

流水线分级	每个CPI的FLOPS
流水线分级	每个CPI的FLOPS	视频到I/Q转换	4.56*10⁸
阵列校准和脉冲压缩	4.51*10⁸	视频到I/Q转换	4.56*10⁸
阵列校准和脉冲压缩	4.51*10⁸	多普勒处理	1.28*10⁸
权重计算	5.05*10¹⁰	多普勒处理	1.28*10⁸
权重计算	5.05*10¹⁰	权重处理	1.57*10⁸

表1

很明显最难以解决的分级是权重计算的处理(是其它分级计算量的100倍)

假设在第一级使用一个处理器及其存储器。如果所有的运算使用一个处理器完成，必须在一个CPI期间执行5.17*10¹⁰次浮点运算。这相当于高于1.6TFLOPS(万亿次浮点运算每秒)的稳定性能，但这对于单个处理器来说过高。因而每个处理器的负载必须被降低，其手段包括通过使用多个处理器和使用最大允许操作时间，即最大延时(3个CPI)。通过把一些在链中的计算部分进行流水线处理可以获得扩展的工作时间。在使用多个处理器时，处理器之间的通信所花费的时间是显著的并且必须计算在内。

由于权重计算级155最为关键，首选对其进行分析。在这一级，QR分解决定了计算的复杂性。QR分解是使矩阵三角化(triangularise)的数值上稳定的方法。在整个数据立方体中QR分解需要计算的总数目依赖于所选取的算法。在本例中对矩阵实施一次QR分解覆盖一个脉冲中整个范围抽样的1/4以及所有相关通道(叶)，如图16所示。然而这一分解需要对数据立方体进行重新划分，由面向多普勒分析(Doppler oriented view)的转为面向范围分析(rangeoriented view)的，即必须在多普勒处理级或者权重计算级执行一次角转向。由于在权重计算级的计算负载要高接近两个数量级，因此在这里应避免角转向。同样为了避免过多的处理器间通信，应避免在多个处理器上计算同一个QR分解。这意味着计算权重所要使用的处理器的最大数目是256。为了进一步减少每个处理器的负载，可以利用系统可量测性并把计算工作分成两个计算链，参见图18。在图中每隔一个需要处理的数据立方体(奇数标号的)跟随上面的箭头即箭头(a)的顺序走向涂黑的处理器组。相似的，偶数标号的数据立方体按照下面的箭头即箭头(b)指示由浅色的处理器分组处理。图17中的每个处理器分组包含8个5D超立方体，即每个含256个处理器。通过把计算工作分到两个工作链，可以把单个数据立方体的计算时间扩展一倍，成为2个CPI因而使每个处理器的工作减半。通过把权重处理负载包含在权重计算级，必须在2τ的时间内在256个处理器上执行5.07*10¹⁰Flops，即每个处理器3.07GFLOPS的持续的浮点性能，这是完全可以接受的。

在其余的计算级中，即视频到I/O转换151、阵列校准152、脉冲压缩153以及多普勒处理级154，在一个CPI(最大延时的保持时间)减去执行两次角转向的时间(如图15所示)并且减去把数据分配到权重计算级的所有处理器中的时间这一期间内必须执行总共1.03*10⁹次浮点运算/每秒。

为了能够计算角转向时间，数据立方体的大小必须是已知的。在算法中的每个相干脉冲间隔内使用的总的抽样数目是LN_dC_p。由于每个抽样都是复数并且其实数部分和虚数部分分别用32位表示，立方体的总的数据大小(D_size)为≈252Mbit。因此，根据等式1和给出的系统参数在有64个处理器的(P＝64)超立方体上执行一次角转向需要花费t_CT＝1.47ms，以及在有128个处理器的7D超立方体上需要0.86ms。

接下来，计算在权重计算级把数据沿图17的途径a)或b)分配到正确的5D超立方体簇中的时间。首先，数据立方体被折叠以匹配5D超立方体的大小。这个时间计算等价于等式1，除了它的数据只是沿着一维的方向移动，即log(P)被1替代，P被P/2替代。从6D超立方体开始，数据都要折叠一次，但是由于开始自7D超立方体，因此首先加上数据从7D超立方体折叠到6D超立方体的时间。接下来，所有的数据被转移到第一个5D超立方体，它又按顺序把7/8的数据转移到链中的下一个5D超立方体等等依此类推。但是这种数据移动可以被流水线化，即一旦第一超立方体接收到它的第一数据，它开始把这一数据发送到下一个立方体，等待依此类推。因而把数据从6D超立方体分发到5D超立方体的时间t_D＝1.47ms以及从7D超立方体分发到6D超立方体的时间为t_D＝1.72ms。因而剩下的在6D超立方体计算每秒1.03*10⁹次浮点运算的时间为27.84ms(τ-2t_CT-t_D)，即每个处理器持续性能为578MFLOPS。这充分低于在权重计算级中每个处理器的负载。因而在剩余的链中不需要使用7D超立方体。(使用7D超立方体的每个处理器负载是279MFLOPS。)

因而，根据图18最终的机载系统包括9个流水线光学衬底，即576个处理器。操作过程如下：

1.在同一个6D超立方体中执行预处理、多普勒处理以及两次角转向。

2.如果数据立方体的标号为奇数，对数据立方体进行折叠并把它分发到图18中上面的簇的8个5D超立方体(箭头a)。如果数据立方体标号是偶数，对数据立方体进行折叠并把它分发到图18中另外簇的8个5D超立方体(箭头b)。这种分发的时间在步骤1的相同时间间隔内执行。

3.接下来，在等于2CPI的时间间隔内，在同一5D超立方体的工作簇中执行权重计算和处理。

如前面已经提到的在陆基雷达系统中，特别是在陆基128通道雷达系统；需要的浮点运算少于机载雷达。然而，处理器间通信的需要更高。存在个人化的或者广播的全体对全体通信。假设在陆基雷达系统中使用以下系统参数：

·128个处理通道(L)

·400kHz的最大脉冲rep频率(fPRF)

·10ms的相关脉冲间隔(CPI)(τ)

·每秒以及每个信道上6.25M的抽样

·单个连接在一个方向上8Gbit/s的有效数据传输率(R_link，eff)

在图19表示了用于所选算法的算法流水线分级。链190包括6个流水线分级，即数字光束成形191、脉冲压缩192、多普勒处理193、包络检测194、恒定虚警率(CFAR)195以及提取器196。提取级以外的各级计算负载如表2所示。

流水线分级	每个CPI的浮点运算次数
流水线分级	每个CPI的浮点运算次数	数字光束成形	2.80*10⁸
脉冲压缩	1.02*10⁹	数字光束成形	2.80*10⁸
脉冲压缩	1.02*10⁹	多普勒处理	4.72*10⁸
包络检测	3.20*10⁷	多普勒处理	4.72*10⁸
包络检测	3.20*10⁷	CFAR	2.75*10⁹

CFAR级大大的减少了数据，因而与其它分级相比，提取级既不需要许多的计算性能也不需要大量的通信时间。因而此处不需要特殊的计算，并且我们实际上可以假定提取器级可以在CFAR级中计算。当用于机载时，以每个CPI的Flops数目测量负载。然而，需要注意和机载情形下32.25ms的CPI不同，此处的CPI只有10ms，这意味着花费在互连通信上的时间将更加重要。最大时延是3τ，即30ms。

CFAR处理的目的是减少每个CPI中可能的目标数目，它通过在给定的时间内只允许恒定数目的虚警项来实现。可以用不同的方式实现此处理。以通信的观点来看，最简单的CFAR方法只在一维上工作，通常是距离，而最复杂的方法使用多维工作并把相邻关系定义为一个体积。另外，许多不同的CFAR技术能被用于每一种通信情况并且其计算负载通常不成问题。因此，许多的设计者只能根据处理器间互连网络的速度而不是根据处理器性能来选择CFAR方法。然而由于我们的网络是用来进行快速通信的，所以此处CFAR方法的选择并不重要。因而选择基于有序统计CFAR的方法，其中在整个三维(脉冲、距离和通道)内的环绕相邻项以幅度排序。如果测试单元(CUT)的值乘以某一常量后大于k个相邻单元，就认为该单元是可能的目标。在这种情形下，相邻关系是一个7×7×7的体积，即k为342。这也意味着每个单元必须被分发到所有与该单元相邻的单元的其它节点，这些节点用于计算CUT上有序的统计量。

根据机载系统，即如果只使用一个处理器计算该系统的总负载，所得的结果是4.55*10⁹Flops/CPI。这相当于455GFLOPS而对单处理器方案来说是过高的。因而计算被分配到多个处理器上并使用最大允许时延。

如在图19中所看到的，在CFAR级之前必须进行两次角转向。首先，对每个通道(即每个从一个或者多个通道接收数据的节点)的数据进行抽样。然而数字光束成形在通道维上工作。因而数据被如此重新分配以使每个节点在一个或者多个脉冲期间处理来自所有范围和通道的所有数据。同样的，由于在多普勒处理中数据在脉冲维上处理，因此在多普勒级之前执行第二次角转向。

要进行角转向的数据立方体大小为LN_sτ个抽样。每个抽样都是64位表示的复数。因而D_size为512Mbit。因此根据等式1和上面给出的系统参数，使用64处理器(P＝64)的6D超立方体进行角转向需要t_CT＝3ms，使用具有128处理器的7D超立方体需要1.75ms。

如果在同一时刻执行数字光束成形、脉冲压缩、多普勒处理以及包络检测，必须在τ-2t_CT的时间间隔内执行1.80*10⁹Flops。这使得6D超立方体中每个处理器的持续性能达到7.05GFLOPS而7D超立方体达到2.17GFLOPS。因而选择7D超立方体。

如上所述，在CFAR级每个单元必须必须被分配到所有与该单元相邻的单元的其它节点上，这些节点计算CUT排列好的统计量。这个问题十分重要并且这种分配不是全体广播。然而即便它不是必须执行的全体对全体的数据传输，但至少能够保证我们使用全体广播，即所有节点把数据复制到所有其它节点，计算的时间限制是合适的。

如果不把节点存储能力作为限制因素，根据式3在一个6D超立方体上进行M＝D_size/P的完全广播的时间需要31.5ms。这样的要求过高(甚至比允许的最大时延更高)。注意这时D_size只有256Mbit，由于包络检测级已经把复数抽样转换成实数的32位值。因而我们需要通过把数据立方体划分到多个计算的超立方体中，以减少每个处理器的数据传输大小M。同样，在CFAR级使用多个工作链的操作时间被增加(和机载系统的权重计算级相同，见图17)。当然需要更多的时间才能把数据分发到多个平面中。然而由于使用多个平面的广播时间可大大地减少，整个的通信时间也被缩短。

开始，层间数据分配似乎只是个小问题；只是把每个节点的数据分成相等的部分并向前传输它们和需要的交叠部分，见图20。但是，由于数据立方体以不同形式形成(依赖于脉冲重复频率)，因此可以把数据立方体划分为脉冲维或者范围维，见图21。这种划分在能够使数据重叠部分最小的维上进行。这样也可以减少广播时间。因而我们的策略是：

1.如果#范围仓(vange bins)(B_R)＜#脉冲仓(pulse bins)(B_P)，则在脉冲维分解，即根据图21a。

2.如果B_R≥B_P，在范围维分解，即根据图21b。

如果范围仓的数目和脉冲仓的数目相等，则需要最大分配和广播时间。在一个CPI期间每个通道的抽样数目是N_sτ＝6.25*10⁴。它对应于B_R＝B_P＝250。如果相邻关系为7×7×7，则图9中的重叠部分为6档。因而需要向前发送的重叠部分(δ)为3档。因而在整个数据立方体中一个重叠的大小为：

O_size＝δmin(B_R，B_P)L (4)

由此我们得出最大值O_size＝3*250*128＝96000个抽样或者3.072Mbit。

当仅使用两个超立方体单元时，要被分发的数据总量是1/2D_size+O_size。如果使用3个超立方体单元，2/3D_size+O_size被首先传送到中间单元，然后把1/3D_size+O_size传送到最后的单元。但最后的传送是与第一个构成流水线的。数据分配到x簇的时间因而是：

t_{dist} (x) = \frac{\frac{x - 1}{x} D_{size} + O_{size}}{R_{link} + P_{cluster}}; x > 1 - - - - - - (5),

其中P_cluster是一个超立方体中的处理器数目。然而需要注意：当超立方体由两个相邻层(例如两个被划分成5D超立方体的层被汇合成两个层间的6D超立方体)中的分组产生时，上述的等式是无效的。其原因是两个层间的超立方体的带宽受限。另外，如果使用层间超立方体，由于必须在额外的(不需要的)维上进行广播也会增加传输时间。因此在簇内的广播时间(根据等式3)是：

t_{broadcast} (x) = \frac{(P_{cluster} - 1) (\frac{D_{size}}{x} + {2 O}_{size})}{R_{link, eff} P_{cluster}} - - - (6)

注意x必须大于1。并且注意中间的广播单元必须和前一个以及后一个单元共享O_size的数据，因而上式使用了双倍的O_size。那么剩下的用于计算CFAR的时间是：

t_left(x)＝t_period-t_dist(x)-t_broadcast(x)；x＞1 (7)其中tperiod是在CFAR级可使用的最大时间间隔。如上所述，可以使用多个计算链来扩展工作时间。然而，注意由于当最大时延是3τ并且其它存储在1τ内工作时，t_period通常小于2τ，所以此处不期望使用多于两个的工作链，因而只使用两个工作链将同时都是忙。然而，如果最大延时更长，例如为5τ，将有更多的工作链同时是忙的。除此以外，最大延时3τ意味着在CFAR处理中唯一适合的配置是使用两个都是5D超立方体的工作链。t_period的值是2τ减去把数据从7D超立方体折叠成5D超立方体的时间。根据在机载系统中讨论的修改的公式，把256Mbit的数据立方体从7D超立方体折叠成5D超立方体的时间是0.75ms。

使用所有以上给出的表达式计算每个处理器的负载：

{CPU}_{load} (x) = \frac{\frac{2.75 * 10^{9}}{{xP}_{cluster}}}{t_{left}}; x > 1 - - - - - (8)

在表3中表示了2到6个5D超立方体工作单元每个处理器的负载。由于期望每个处理器的负载不超过3GFLOPS，选择了具有4个5D超立方体的系统。这样得到的每个处理器持续负载小于2.15GFLOPS，这远小于限定值。因此，有希望同时计算提取级。

工作链中的5D超立方体数目(x)	每个处理器的负载(GFLOPS)
工作链中的5D超立方体数目(x)	每个处理器的负载(GFLOPS)	2	17.22
3	3.82	2	17.22
3	3.82	4	2.15
5	1.50	4	2.15
5	1.50	6	1.15

表3

因而，最终的陆基雷达系统包含6个流水线光学衬底，即384个处理器，如图22所示。操作如下：

1.在第一CPI期间，在一个7D超立方体上执行数字光束成形、多普勒处理、包络检测以及两次角转向。

2.对数据立方体折叠两次(从7D变成5D)。根据前一级中数据立方体的形状，准备在脉冲维或者范围维对数据立方体进行分割，并且最终，如果数据立方体标号为奇数，把分割的部分分发到图22上面的4个5D超立方体簇(箭头a)中。如果数据立方体编号为偶数，把数据分发到图22中的其它5D超立方体簇(箭头b)中。

3.在剩余可用的时间中，在如上所述的同一簇中计算CFAR级以及提取级。

图23a-23c表示超立方体的灵活性。在此图中，一个4D超立方体具有其它4种拓扑：a跨越树、b网格、c蝶形图和d环状。蝶形图在雷达或者路由器应用中都很有用。本发明特别适用于需要解决大量数据通信的路由器应用。

本发明不局限于已经表示和描述的实施例而是可以在不背离权利要求范围的情况下进行各种方式的改变，并且根据应用、功能单元、需要以及要求的不同可以以各种方式实现本发明的装置和方法。

Claims

1.一种用于嵌入式信号处理的装置，它包括多个计算单元(100)，每个计算单元包括多个能够独立工作并同时传送数据的处理元件(20)，其特征在于：所述计算单元以成簇的形式被安排、独立地工作并且同时传送数据，以及所述处理元件(20)以超立方体拓扑被全局而有规则地光学互连并被转换成平面波导。

2.权利要求1的装置，其特征在于：所述光学互连是自由空间连接。

3.权利要求1或2的装置，其特征在于：每个计算单元至少包含一个具有第一和第二表面的透明衬底(10)，至少一个所述衬底安置着所述处理元件(20)，以及所述处理元件(20)彼此互连并且通过光学连接和至少一个相邻计算单元的处理元件互连。

4.权利要求1或2的装置，其特征在于：至少一个所述表面是反射的并且所述每个衬底内的光学互连通过所述反射表面的反射而完成。

5.依照上述任何权利要求的装置，其特征在于：所述每个衬底中的光学互连通过提供高扇出能力的光束分离设备(40)完成。

6.依照前面的任何一个权利要求的装置，其特征在于：每个衬底配有用于在该衬底之间建立所述光学互连的光学元件。

7.依照权利要求5的装置，其特征在于该装置包含用于信道分时装置，该装置用于在同一时刻传输被发送到所有相邻节点的不同数据。

8.依照前述任何一个权利要求的装置，其特征在于所述计算单元是相同的。

9.依照权利要求8的装置，其特征在于所述计算单元是堆叠的。

10.依照前述任何一个权利要求的装置，其特征在于所述计算单元被并排安置。

11.依照权利要求10的装置，其特征在于所述计算单元通过光纤互连。

12.依照前述的任何一个权利要求的装置，其特征在于所述超立方体被流水线处理并按几个空间维度划分。

13.依照前述的任何一个权利要求的装置，其特征在于所述的计算单元被安置成超立方体拓扑从而在所述装置中构成一个互连网络。

14.依照前述的任何一个权利要求的装置，其特征在于所述的处理元件根据平面封装技术安置。

15.用于提供嵌入式信号处理装置的方法，该装置包括多个计算单元(100)，每个计算单元包括多个能够独立工作并同时传送数据的处理元件(20)，其特征在于把所述计算单元以成簇的形式被安排以便独立操作并同时传送数据，在超立方体拓扑中全局并有规则地以光学方式把所述处理元件(20)互连以及把所述超立方体转换成平面波导。

16.机载雷达系统，包括一个用于空时自适应处理(STAP)的数据处理元件，所述处理元件包括多个计算单元(100)，每个计算单元包括多个能够独立工作并同时传送数据的处理元件(20)，其特征在于所述计算单元以成簇的形式被安排而且独立工作并同时传送数据，以及所述处理元件(20)在超立方体拓扑中被按全局而有规则地光学互连并被转换成平面波导。

17.权利要求16所述的机载雷达系统，其特征在于所述处理元件按功能而被安置成视频到I/Q转换单元(151)、阵列校准单元(152)、脉冲压缩单元(153)、多普勒处理级(154)、权重计算单元(155)以及权重处理元件(156)，并被安置在流水线各分级中。

18.权利要求17所述的机载雷达系统，其特征在于所述视频到I/Q转换单元、阵列校准单元、脉冲压缩单元以及多普勒处理级被安置成一个六维超立方体。

19.权利要求17所述的机载雷达系统，其特征在于所述权重计算单元和权重处理元件被安置成若干个五维超立方体。

20.陆基雷达系统，包括一个包括若干计算单元(100)的数据处理元件，每个计算单元包括若干能够独立工作并同时传送数据的处理元件(20)，其特征在于所述计算单元以成簇的形式被安排而且独立工作并同时传送数据，以及所述处理元件(20)在超立方体拓扑中被按全局而有规则地光学互连并被转换成平面波导。

21.权利要求20中的陆基雷达系统，其特征在于所述处理元件按功能而被安置成数字光束成形单元(191)、脉冲压缩单元(192)、多普勒处理级(193)、包络检测单元(194)、恒定虚警率单元(CFAR)(195)以及提取器单元(196)。

22.权利要求21的陆基雷达系统，其特征在于所述数字成形单元、脉冲压缩单元、多普勒处理级、包络检测单元被安置成两个七维超立方体。

23.权利要求21的陆基雷达系统，其特征在于所述恒定虚警率单元以及提取器单元被安置成多个五维超立方体。

24.在依照权利要求16-19中任何一个所要求的机载雷达系统中处理数据的方法，该方法包括下列步骤：

a.在同一六维超立方体中进行预处理、多普勒处理并进行两次角转向，

b.如果数据立方体编号是奇数，把它进行折叠并把数据分发到8个五维超立方体的上面的簇中，

c.如果数据立方体编号是偶数，把它进行折叠并把数据分发到五维超立方体的其它簇中，

d.在一个时间间隔内在相同的8个五维超立方体工作簇上执行权重计算和处理。

25.依照权利要求24的该方法，其特征在于所述分发步骤b与步骤a在同一时间间隔中执行。

26.在依照权利要求20到23中任何一个所要求的陆基雷达系统中处理数据的方法，该方法包括以下步骤：

a.在第一个相关脉冲间隔内在所述7维超立方体上执行数字光束成形、脉冲压缩、多普勒处理、包络检测以及两次角转向，

b.对数据立方体折叠两次，从7维变成5维，

c.根据在前一级中数据立方体的形状准备在脉冲维或者范围维上对数据进行分割，如果数据立方体标号为奇数，把分割的各部分分发到4个5维超立方体的上面的簇中，

d.如果数据立方体标号是偶数，把数据分发到其它的5维超立方体的簇中，

e.在剩余时间，在同一簇中计算CFAR和提取级。