CN101124538A

CN101124538A - 算术或逻辑运算树的计算

Info

Publication number: CN101124538A
Application number: CNA2005800483720A
Authority: CN
Inventors: 布鲁诺·巴拉林
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-12-17
Filing date: 2005-12-13
Publication date: 2008-02-13
Also published as: EP1853994B1; DE602005016844D1; US8326909B2; WO2006064461A1; EP1853994A1; ATE443885T1; JP2008524691A; US20090271464A1

Abstract

一种用于在包括至少n个并行处理元件的微处理器上计算算术或逻辑运算的至少第一和第二树的方法。该方法包括：a)使用n个处理元件来并行地执行第一树的第一迭代的n个算术或逻辑运算(在48中)，然后b)使用从用于计算第一迭代的n个处理元件中选出的m个处理元件，在第一迭代的结果之间并行地执行m个算术或逻辑运算(在66中)，其他的n－m个处理元件不用于第二迭代的计算。与第一树的第二迭代的计算并行的是，该方法包括：使用从不用于计算第一树的第二迭代的n－m个处理元件中选出的k个处理元件，并行地执行第二树的k个算术或逻辑运算(在66中)。

Description

算术或逻辑运算树的计算

技术领域

本发明涉及一种算术或逻辑运算树的计算。

背景技术

算术或逻辑运算树包括根据树结构而组织的算术或逻辑运算。该树结构包括多个节点，每个节点具有至少两个输入端和一个输出端。每个节点与其输入端所接收到的数据之间的算术或逻辑运算相对应，并在其输出端提供该算术或逻辑运算的结果。

可以将该树结构分成连续的等级：

-包括叶节点的第一等级，

-若干中间等级，每个中间等级包括具有输入端的节点，该输入端直接连接到相同在前等级的节点的输出端，以及

-具有根节点的根等级。

这种运算树的计算需要多次迭代。在迭代期间，执行与相同等级的节点相对应的所有运算。

典型地，用于在包括至少n个并行处理元件的微处理器上计算算术或逻辑运算的至少第一树和第二树的方法包括：

a)使用n个处理元件来并行地执行第一树的第一迭代的n个算术或逻辑运算，然后

b)使用从用于计算第一迭代的n个处理元件中选出的m个处理元件，在第一迭代的结果之间并行地执行m个算术或逻辑运算，其他n-m个处理元件不用于第二迭代的计算，其中m是严格小于n的整数。

一旦计算出第一运算树，则以相似的方式来配置处理元件，以便处理第二运算树。

这是使用具有并行处理元件的微处理器的低效方式，因为在第一运算树的第二迭代的计算期间，一些处理元件没有得到使用。

在Andrew Paul Wallace的US 2003/0088603中，描述了包括n个并行处理元件的微处理器的示例。

发明内容

因此，本发明的目的是提供一种用于计算至少第一和第二运算树的方法，该方法以更有效的方式来使用具有多个并行处理元件的微处理器。

本发明提供了一种用于在这种微处理器上计算至少第一和第二运算树的方法，其中与第一树的第二迭代计算并行的是，该方法包括使用从不用于计算第一树的第二迭代的n-m个处理元件中选出的k个处理元件，并行地执行第二树的k个算术或逻辑运算，其中k是小于或等于n-m的整数。

在上述方法中，将n-m个不用于第一运算树的迭代的处理元件用于并行地计算第二运算树的算术或逻辑运算。因此，并行使用的处理元件的数量和并行执行的运算数量增加。因此，包括多个并行处理元件的微处理器的使用更加有效。

权利要求2所述的特征减少了处理时间量，因为在m个处理元件之间转移数据的所需时间内，还并行地转移k个处理元件之间的数据。

权利要求3所述的特征减少了处理元件之间的数据转移时间。

本发明还涉及具有用于执行上述方法的指令的存储器和微处理器程序。

本发明还涉及电信设备中的解扩方法，该电信设备使用上述方法来计算相同的算术或逻辑运算的至少第一树和第二树。

附图说明

图1是典型运算树的示意图；

图2是用于计算图1的运算树的SIMD(单指令多数据)微处理器的示意图；

图3是使用图2的微处理器来并行地计算诸如图1中的运算树的8个运算树的方法的流程图；

图4A-4B，5A-5B以及图6是图3中的方法的步骤的例证。

具体实施方式

图1示出了运算树2的示例。例如，在图1中，以并行的垂直行来组织节点，每一行与运算树的等级相对应。在图1的最左边的行包括所有叶节点LFi，并且图1的最右边的行仅包括根节点RN。

每个叶节点LFi具有两个输入端，旨在用于接收待处理的数据。两个叶节点LFi的输出端连接到下一行的节点的输入端。所述下一行的节点的输出端以类似的方式连接到再下一行的输入端。重复将一行的节点连接到下一行节点的这种方式，直到达到具有根节点RN的根行。

这里，运算树2是二叉树的和，并且每个节点对应于两个输入数据之间的相加。例如，将运算树2用于计算大量数据的相加，例如CDMA(码分多址)电信系统中的扩频信号的每个码片的码片值。

运算树2的计算需要多次迭代ITi。在第一迭代IT1期间，执行叶节点LFi的算术或逻辑运算。然后，在下一迭代IT2期间，执行与左边第二行的节点相对应的运算。重复这个过程，直到执行与根节点RN相对应的运算。

例如，如果运算树2中输入数据的数量n等于256，则对运算数2进行8次迭代计算。在迭代IT1到IT8期间执行的相加次数分别是128、64、32、16、8、4、2和1。

图2示出了用于计算运算树2的SIMD(单指令多数据)微处理器20。SIMD微处理器尤其适于在相同时刻对大量数据执行相同处理。

为了简单起见，图1只示出了理解本发明所需的细节。

微处理器20包括数量为p的并行处理元件PEi。例如，p等于4086，索引i是从1到4086范围内的整数。将所有处理元件PEi都设计为对不同数据集并行地执行相同的程序。因此，每个处理元件都具有：ALU(算术和逻辑单元)，用于执行算术或逻辑运算；以及数据寄存器DRi，用于存储由ALU所处理的数据以及该处理的结果。例如，数据寄存器DRi可以存储高达192比特。

图2中只示出了五个处理元件PE1、PE2、PEi、PEp-1以及PEp。

微处理器20的处理元件通过互连网络24相互连接，因此可以将存储在一个数据寄存器DRi中的数据转移到另一个处理元件PEj的另一个数据寄存器DRj。每个数据寄存器DRi都具有数据转移期间在网络24上的地址。

在相同的硅管芯或衬底上制造处理元件PEi。

微处理器20易于使用，因为相同的应用程序应用于所有的处理元件，并且所有处理元件在在相同时刻执行相同的指令。将程序存储在连接到微处理器20的存储器26中。

存储器26包括如下用途的指令：当微处理器20执行这些指令时，执行图2中的方法。

现在，参考图3到图6，具体是在并行地处理8个相同的二叉树和A、B、C、D、E、F、G、H的情况下，对用于在微处理器上计算至少两个诸如运算树2的运算树的方法进行描述。例如，下面所描述的方法是在电信设备中所实现的解扩方法的一部分。

每个二叉树和A至H具有256个数据输入，每个数据是表示逻辑0或逻辑1的比特。

此外，在仅使用微处理器20的前256个处理元件PEi计算8个二叉树和A至H的具体情况下，对图3中的方法进行描述。

最初，在步骤40中，将每个二叉树和的每个输入数据存储在微处理器20的数据寄存器DRi之一中。例如，将二叉树和A、B、C、D、E、F、G和H的输入数据Ai、Bi、Ci、Di、Ei、Fi、Gi和Hi分别存储在数据寄存器DRi中。由此，将数据A1、B1、C1、D1、E1、F1、G1和H1存储在第一处理元件PE1的数据寄存器DR1中，并且将数据A256、B256、...和H256存储在用于计算二叉树和A至H的最后一个处理元件PE256的数据寄存器DR256中。

随后，在阶段42期间，计算每个二叉树和的第一迭代。

更具体地，在步骤44中，处理器20使用处理元件PE1到PE256来并行地计算二叉树和A和B的第一迭代。

在步骤44期间，微处理器20将数据A2j转移给数据寄存器DR2(j-1)+1，以及将数据B2(j-1)+1转移到数据寄存器DR2j中，其中索引j是1到128范围内的整数。只使用两个指令来执行这些转移运算：一个用于移动所有数据A2j，一个用于移动所有数据B2(j-1)+1。

只需要两条转移指令，因为数据Ai和Bi都被记录在数据寄存器DRi中。

图4A示出了在数据寄存器DR1至DR8之间发生的数据转移。在图4A以及图4B-4D和图5A-5B以及图6中，微处理器20的元件具有与图2中相同的附图标记。

在每个符号ALUi内表示待执行的算术或逻辑运算，即相加。在ALUi的左边和右边，表示存储在与ALUi相对应的数据寄存器DRi中的相关数据。从数据寄存器DRi中的数据到ALUk的具有垂直部分的箭头，指示出在使用ALUk执行算术或逻辑运算之前必须如何移动该数据。例如，在图4A中，通过具有垂直部分的箭头将数据B 1连接到ALU2。这意味着，在使用ALU2来执行相加之前，必须将数据B1转移到数据寄存器DR2。在图4A中，从数据A1到ALU1的水平箭头指示数据A1已经存储在数据寄存器DR1中。

一旦在运算48期间完成对数据的转移，则处理元件PE2(j-1)+1执行数据A2(j-1)+1和A2j的相加，并将结果AA2(j-1)+1存储在数据寄存器DR2(j-1)+1中。

并行地，在运算48期间，处理元件PE2j执行对数据B2j和B2(j-1)+1的相加，并将结果BB2j存储在数据寄存器DR2j中。

因此，在运算48期间，同时使用所有256个处理元件PEi。

接下来，分别在步骤50、52和54中计算二叉树和C和D、E和F、G和H的第一迭代。每个步骤50、52和54与步骤44相似，除了字母A和B分别由以下字母替换：

-步骤50中的C和D，

-步骤52中的E和F，以及

-步骤54中的G和H。

其后，在阶段60中，计算每个二叉树和A至H的第二迭代。

在步骤62中，并行地计算二叉树和A至D的第二迭代。更具体地，在运算64中，对以下数据进行转移：

-将结果AA2j+1转移到数据寄存器DR2(j-1)+1，

-将结果BB2(j+1)转移到数据寄存器DR2j，

-将结果CC2(j-1)+1转移到数据寄存器DR2j+1，以及

-将结果DD2j转移到数据寄存器DR2(j+1)。

图5A中指向下方的箭头示出了这些数据转移。

然后，在运算66期间，并行地在每个处理元件PEi中执行以下相加：

-处理元件PE2(j-1)+1将结果AA2(j-1)+1与结果AA2j+1相加，并将结果AAA2(j-1)+1存储在数据寄存器DR2(j-1)+1中，

-处理元件PE2将结果BB2(j+1)与结果BB2j相加，并将结果BBB2j存储在数据寄存器DR2j中，

-处理元件PE2j+1将结果CC2(j-1)+1与结果CC2j+1相加，并将结果CCC2j+1存储在数据寄存器DR2(j+1)中，以及

-处理元件PE2(j+1)将结果DD2j与结果DD2(j+1)相加，并将结果DDD2(j+1)存储在数据寄存器DR2(j+1)中。

其后在步骤68中，并行地计算二叉树和E、F、G和H的第二迭代。步骤68与步骤62类似，除了字母A、B、C、D分别由字母E、F、G、H代替。在图5B中，通过指向下方的箭头示出了步骤68中所发生的数据转移。

在步骤62和68中，并行地使用256个处理元件PEi。

接下来，在步骤70中，并行地计算二叉树和A至H的第三迭代。首先，在运算72期间，第二迭代的结果发生数据转移，然后在运算74期间，执行对每个二叉树和的第三迭代的相加。

在运算72期间，对第二迭代的结果进行以下转移：

-将结果AAA2(j+1)+1转移到数据寄存器DR2(j-1)+1，

-将结果BBB2(j+2)转移到数据寄存器DR2j，

-将结果CCC2(j+2)+1转移到数据寄存器DR2j+1，

-将结果DDD2(j+3)转移到数据寄存器DR2(j+1)，

-将结果EEE2(j-1)+1转移到数据寄存器DR2(j+1)+1，

-将结果FFF2j转移到数据寄存器DR2(j+2)，

-将结果GGG2j+1转移到数据寄存器DR2(j+2)+1，以及

-将结果HHH2(j+1)转移到数据寄存器DR2(j+3)。

在运算74期间，并行地执行以下相加：

-处理元件PE2(j-1)+1将结果AAA2(j+1)+1与结果AAA2(j-1)+1相加，并将结果AAAA2(j-1)+1存储在数据寄存器DR2(j-1)+1中，

-处理元件PE2j将结果BBB2(j+2)与结果BBB2j相加，并将结果BBBB2j存储在数据寄存器DR2j中，

-处理元件PE2j+1将结果CCC2(j+2)与结果CCC2j+1相加，并将结果CCCC2j+1存储在数据寄存器DR2j+1中，

-处理元件PE2(j+1)将结果DDD2(j+3)与结果DDD2(j+1)相加，并将结果DDDD2(j+1)存储在数据寄存器DR2(j+1)中，

-处理元件PE2(j+1)+1将结果EEE2(j-1)+1与结果EEE2(j+1)+1相加，并将结果EEEE2(j+1)+1存储在数据寄存器DR2(j+1)+1中，

-处理元件PE2(j+2)将结果FFF2j与结果FFF2(j+2)相加，并将结果FFFF2(j+2)存储在数据寄存器DR2(j+2)中，

-处理元件PE2(j+2)+1将结果GGG2j+1与结果GGG2(j+2)+1相加，并将结果GGGG2(j+2)+1存储在数据寄存器DR2(j+2)+1中，以及

-处理元件PE2(j+3)将结果HH2(j+1)与结果HHH2(j+3)相加，并将结果HHHH2(j+3)存储在数据寄存器DR2(j+3)中。

因此，在运算24期间，同时使用所有256个处理元件PEi。

在图6中通过指向下方的箭头示出了在运算72期间所发生的数据转移。

在步骤80中，并行地计算每个二叉树和A至H的下一迭代。在这个阶段，处理元件的数量256比待执行的并行相加的数量大。因此，不需要详细描述每个二叉树和的第四到第八迭代的计算。实际上，为了并行地计算8个二叉树和A至H的第四迭代，只需要128个处理元件PEi，这少于在计算8个二叉树和开始时所分配的256个处理元件。

在图3的方法中，在计算二叉树和A的第二和第三迭代期间，将首先分配给二叉树和A的第一迭代的计算的一些处理元件PEi用于并行地计算另一个二叉树和的迭代。例如，处理元件PE3用于计算二叉树和A的第一迭代，并在二叉树和A的第二迭代的计算期间计算二叉树和C的第二迭代。处理元件PE3还用于在计算二叉树和A的第三迭代期间计算二叉树和C的第三迭代。

因此，在这里所描述的具体实施例中，在阶段42和60以及步骤70期间，所有处理元件PE₁至PE₂₅₆得以完全使用。因此，由于来自不同运算树的运算的混合或交织，8个二叉树和的计算更快。

将用于计算例如二叉树和A和B的第一和第二运算树的处理元件进行交织。这意味着，用于计算第一树的、除了第一和最后一个处理元件PE1和PE256的每一个处理元件都位于用于计算第二树的两个处理元件之间。这个特征减小了数据转移的幅度，并导致更快的处理。

许多附加实施例是可能的。例如，该方法并不局限于多个二叉树和的并行计算，而是更普遍地应用于如下的运算树：该运算树的每个节点是能够响应一个指令而通过ALU来执行的算术或逻辑运算。例如，可以将每一个节点设计用于计算异或运算或减法。

仅将SIMD微处理器设计用于对多个数据并行地执行一个指令。因此，只能将上述方法用于：当SIMD微处理器上执行时，并行地计算多个相同的运算树。然而，如果所述方法在MIMD(多指令多数据)微处理器上实现，则不存在这种限制。因此，如果在MIMD微处理器上实现，则可以将所述方法用于并行地计算不同的运算树。例如，可以同时计算二叉树和以及二叉树减法。

上述方法不局限于包括具有两个输入端的节点的二叉树。例如，上述方法还可以应用于包括具有两个以上输入端的节点的运算树。

Claims

1.一种用于在微处理器上计算算术或逻辑运算的至少第一和第二树的方法，所述微处理器包括至少n个并行处理元件，用于并行地执行n个算术或逻辑运算，每一个树的计算都需要多个逐次迭代，在计算下一迭代期间使用每一个迭代的结果，其中n是大于4的正整数，所述方法包括：

a)使用n个处理元件并行地执行第一树的第一迭代的n个算术或逻辑运算(在48中)，然后

b)使用从用于计算第一迭代的n个处理元件中选出m个处理元件，在第一迭代的结果之间并行地执行m个算术或逻辑运算(在66中)，其他的n-m个处理元件不用于第二迭代的计算，其中m是严格小于n的整数，

其中，与第一树的第二迭代的计算并行的是，所述方法包括使用从n-m个不用于计算第一树的第二迭代的处理元件中选出的k个处理元件来并行地执行第二树的k个算术或逻辑运算(在66中)，其中k是小于或等于n-m的整数。

2.如权利要求1所述的方法，其中，并行地执行：在第一树的第二迭代的计算之前，处理元件之间的数据转移(在64中)；以及在执行第二树的k个算术或逻辑运算之前的数据转移(在64中)。

3.如前面任何一项权利要求所述的方法，其中，在用于计算第一树的第二迭代的两个处理元件之间，对用于计算第二树的每一个处理元件进行交织。

4.如前面任何一项权利要求所述的方法，其中，所述微处理器是包括p个相同的处理元件以并行地执行p个相同的算术或逻辑运算的SIMD(单指令多数据)微处理器，所述处理元件是在公共管芯上制造的，并且p大于或等于n。

5.一种电信设备中的解扩方法，包括计算至少第一和第二二叉树和的步骤，其中，使用根据前面任何一项权利要求所述的计算方法，在包括至少n个并行处理元件以并行地计算n个算术或逻辑运算的微处理器上计算至少是所述第一和第二二叉树和。

6.一种包括指令的存储器，当这些指令在包括至少n个并行处理元件的微处理器上执行时，所述指令用于执行根据权利要求1到4中任意一项所述的、用于计算算术或逻辑运算的第一和第二树的方法，其中n是大于4的正整数。

7.一种包括指令的微处理器，当这些指令在包括至少n个并行处理元件的微处理器上执行时，所述指令用于执行根据权利要求1到4中任意一项所述的、用于计算算术或逻辑运算的至少第一和第二树的方法，其中n是大于4的正整数。