CN1365049A

CN1365049A - 用于计算机算术运算的部分匹配部分输出高速缓冲存储器

Info

Publication number: CN1365049A
Application number: CN01111986A
Authority: CN
Inventors: 李会镇
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-01-10
Filing date: 2001-02-09
Publication date: 2002-08-21
Anticipated expiration: 2021-02-09
Also published as: JP4574030B2; KR20020060547A; EP1223505A3; CN1194301C; EP1223505B1; DE60127524D1; JP2002229775A; KR100423893B1; US20020120814A1; EP1223505A2; US6542963B2; TW501026B; DE60127524T2

Abstract

本发明提供一种具有用于执行算术运算的高速缓冲存储器的算术装置。高速缓冲存储器预先存储执行的结果数据和算术运算操作数,并且一旦接收到要执行运算的相同的操作数,就输出相应地存储的结果数据,避免处理器进行算术处理和运算。具有高速缓冲存储器的该装置也可用于输出一个部分结果输出,用于部分匹配的操作数。

Description

用于计算机算术运算的部分匹配部分输出高速缓冲存储器

本发明涉及一种用高速缓冲存储器执行算术运算的装置和方法，特别涉及一种具有能够部分输出的高速缓冲存储器的装置和方法。

计算机用通过反复移位、相加和相减的处理数据来执行例如倍增、相除的算术运算。需要数据的多次存取和运算循环达到结果。对于更复杂的运算如“平方根”以及执行三角函数，传统的计算方法非常费时，并且，在一些应用中，不易于实施。

通过查询表能实施一些更复杂的算术功能，但查询表必须足够大以容纳很多不同的操作数。如果要运算的操作数不相同，即使仅一位不相同，也不能完成查询表工作。来自查询表的数据将出现错误。为了得到正确的结果，必须对操作数的每一位进行整体计算。

其他实施包括专用电路的使用。可参见例如Sutcliffe的美国专利No.4,734,878，题为“CIRCUIT FOR PERFORMING SQUARE ROOT FUNCTION”。尽管花费较少的时间，但是专用电路需要额外的硬件并仅用于特定的功能。也就是说，Sutcliffe装置仅能执行平方根，乘法器仅能用于乘法等。

高速缓冲存储器是高速随机存取存贮器(RAM)，CPU访问该存储器能比访问常规存贮器更快。高速缓冲存储器通常用于存储被CPU频繁存取的数据。与对从常规存贮器存取的数据的运算相比，CPU对高速缓冲存储器的数据执行的运算越多，执行速度越快。

高速缓冲存储器由CPU直接存取(而不是通过例如一个外部存贮器管理单元来存取)，并实际位于CPU附近，一些高速缓冲存储器在CPU芯片上以减少CPU和高速缓冲存储器之间的信号传播时间。对例如AlphaAXP 21064微处理器这样的数据高速缓冲存储器的运算的描述参见DavidA.Patterson和Jonh L.Hennessy的“Computer Architecture AQuantitative Approach”(1996年Morgan Kaufmann出版社出版，第380-383页)。当CPU执行读或取出运算时，其首先检查需要的数据或指令是否在高速缓冲存储器中。如果在高速缓冲存储器中，则迅速存取该数据或指令。否则，必须从常规存贮器(DRAM或ROM)取出该数据或指令，从而花费更多时间。

图1示出了常规的高速缓冲存储器。高速缓冲存储器10包括高速缓冲存储器标记11，它包括多个用于存储由处理器频繁或最新存取的数据、地址、或文件的缓冲器。高速缓冲存储器10包括用于比较最新输入的数据和存储在标记中的数据的电路。如图1所示，专用“或”门与高速缓冲存储器标记11中的每个缓冲器的每个位相关。当确定最新输入的数据与高速缓冲存储器标记11的一个缓冲器中存储的数据匹配时，在门15、16、...19输出一个准确的比较。高速缓冲存储器数据12是存储对应于高速缓冲存储器标记11中的每个缓冲器的数据的文件。一旦从对应的门15、16、...19接收到准确的比较信号，高速缓冲存储器数据12对应位置处的数据作为q4、q3、q2、...q0输出。图1所示的高速缓冲存储器为5位宽度。

可以看出：高速缓冲存储器的特征是可用作执行高速计算的算术装置的数据存储装置。例如，例图1所示这样的高速缓冲存储器存储高速缓冲存储器标记11中的操作数和高速缓冲存储器数据12中的对应计算结果。如果在高速缓冲存储器标记11中发现要执行相同算术运算的操作数，则绕过该算术运算。在这种情况下，高速缓冲存储器用作一个查询表，与查询表ROM相比，其存取时间短。然而，由于在查询表ROM的情况下，如果该方法仅在操作数与存储的高速缓冲存储器标记数据严格匹配时有效，则查询表模式中的高速缓冲存储器的使用将导致总的处理量下降。

相应地，需要一种具有代替算术单元使用的高速缓冲存储器的装置，其能够用于部分输出部分匹配的操作数的计算结果。

本发明提供一种使用具有TAG寄存器和高速缓冲数据存储器的高速缓冲存储器结构来执行算术运算的方法，该方法包括步骤：在TAG寄存器中有多个已知操作数，每个操作数有一个由算术运算获得的对应结果，该结果存储在高速缓冲数据存储器的对应位置中；将执行了算术运算的一个新的操作数输入到TAG寄存器中；将新的操作数与多个已知操作数相比较；以及确定新的操作数是否与已知操作数中的任一个匹配，如果匹配，则从高速缓冲数据存储器输出相应于被匹配新的操作数的已知操作数的已知结果。

该方法最好还包括步骤：如果在确定步骤中不存在匹配，则确定在已知操作数和新的操作数之间是否存在部分匹配；选择具有与新操作数的MSB相匹配的MSB的已知操作数；从高速缓冲数据存储器存取相应于具有最匹配的MSB的已知操作数的结果；确定从已知操作数的匹配MSB获得的存取结果的第一部分；屏蔽除第一部分之外的存取结果的第二部分；以及提供屏蔽的结果作为第一部分结果。

该方法最好进一步包括步骤：对新操作数的位，而不是对匹配的MSB，执行算术运算以得到第二部分结果；以及通过将第一部分结果和第二部分结果结合来输出完整的结果。

优点是，本发明所描述的方法适用于例如平方根、除法、或乘法这样的算术运算。

本发明还提供一种用于执行算术运算的高速缓冲存储器装置，包括：用于存储多个已知操作数的标记寄存器，每个操作数具有由一种算术运算获得的对应结果；用于存储相应于已知操作数的结果的高速缓冲数据存储器；在标记寄存器中用于比较要执行算术运算的新操作数和多个已知操作数的比较逻辑电路，其中，如果新操作数与任一个已知操作数匹配，则高速缓冲数据存储器输出相应于匹配新操作数的已知操作数的已知结果。

高速缓冲存储器装置最好还包括：用于检测具有通用逻辑电平的一组数据的逻辑组检测器，该逻辑组检测器用于检测具有最高数量的与新操作数的MSB相匹配的MSB的已知操作数；用于部分屏蔽相应于具有最匹配MSB的已知操作数的结果的屏蔽逻辑电路，该屏蔽逻辑电路用于通过由已知操作数的匹配MSB获得的相应结果的第一部分，并用于屏蔽除该第一部分之外的相应结果的第二部分；以及用于将相应结果的第一部分多路复用到一个算术单元中的多路复用器。

根据本发明高速缓冲存储器装置最好进一步包括一个第二多路复用器，其中，该算术单元对新操作数的位执行算术运算，而不是对匹配的MSB执行算术运算，以得到第二部分结果，该第二多路复用器用于将第二部分结果多路复用到该算术单元中，其中，该第二部分结果被结合到第一部分结果中以形成一个完整的结果。

图1示出了常规的高速缓冲存储器；

图2示出了根据本发明一个实施例的具有高速缓冲存储器的一个算术装置；

图3是应用图2装置的平方根运算的示意性流程图；

图4是根据本发明的图2的高速缓冲存储器中的检测逻辑电路和屏蔽操作的输入和输出数据的表；

图5是根据本发明一个乘法实施例的检测和屏蔽操作的输入和输出数据的示意性表；以及

图6是本发明另一个实施例的一个算术装置。

根据本发明的运算高速缓冲存储器存储先前的算术计算结果的结果数据，如果当前操作数与执行相同算术运算的先前操作数相同，则输出结果数据。如果当前操作数与先前存储在运算高速缓冲存储器中的操作数部分匹配，则本发明也从运算高速缓冲存储器输出部分结果数据。下面将示出并描述应用根据本发明的运算高速缓冲存储器的算术单元的结构和操作。

图2示出用于执行平方根运算的一个算术单元。根据本发明的一个实施例，所示的算术单元包括部分匹配部分输出(PMPO)高速缓冲存储器。根据该实施例的示意性算术装置包括一个具有PMPO高速缓冲存储器标记21和PMPO高速缓冲存储器数据22的PMPO高速缓冲存储器100。平方根模块27是一种用于计算给定数X(被开方数)的结果平方根的软件或硬件模块。该平方根模块最好包括编程步骤或用于执行已知平方根运算的算法，例如，用于平方根开方的“完全平方”方法，该方法原理上与还原除法方案类似，参见Israel Korean所著的“Computer ArithmeticAlgoritbms”的第7章，ISBN D-13-151952-2，1993。平方根模块27还包括电路或编程步骤，用于通过传统除法和余数方法计算被开方数输入的平方根。作为一个示例，对一个8位操作数执行“除和余数”平方根运算的处理器通常需要8次循环以获得结果平方根数据。该结果数据被安置到Q′缓冲器29中。一旦完成平方根运算，结果平方根数据从Q′缓冲器29转送到用于存储的PMPO高速缓冲存储器数据22中的D1、D2、...Dn中的一个。被开方数X也被存储在PMPO高速缓冲存储器标记21中的对应缓冲器T1、T2、...Tn中。在这样的结构中，当确定要进行平方根运算的新输入的被开方数X′与PMPO高速缓冲存储器标记21的对应缓冲器中的被开方数X匹配时，图2的算术单元将从PMPO高速缓冲存储器数据22输出一个平方根Q′。由高速缓冲存储器标记21中的专用“或非”门执行新被开方数的匹配，该“或非”门将输出全部为1，用于与新输入的被开方数X′精确匹配的X的每一位的缓冲器。存储在高速缓冲存储器数据22中的位置中的数据作为结果平方根Q′被输出，所述高速缓冲存储器数据22中的位置对应于与被开方数X′精确匹配的缓冲器T1、T2、...Tn中的X。在这种情况下，将Q′直接通过多路复用器63从高速缓冲存储器数据22输出到Q′缓冲器29。这种直接匹配和将结果平方根数据输出到Q′缓冲器29绕过了在平方根模块27中的处理。

具有图2中示出的根据本发明的PMPO高速缓冲存储器的算术单元同时被构造为：当新输入的操作数X′和存储在高速缓冲存储器标记21的缓冲器T1、T2、...Tn中多个操作数X之间部分匹配时，则输出部分平方根输出。参考附图2至5描述部分输出部分匹配(PMPO)实施例的操作。当接收到一个要进行平方根运算的新操作数X′时(步骤410)，将该操作数X′和存储在PMPO高速缓冲存储器标记21的缓冲器T1、T2、...Tn中的Xs相比较(步骤412)。为了说明目的，将该操作数和平方根数据设为8位，如，X′[7：0]和Q′[7：0]。本领域普通技术人员明显理解，图2的PMPO高速缓冲存储器可用于任何宽度的操作数。高速缓冲存储器标记21的专用的“或非”门被连接到检测逻辑电路42上，该逻辑电路最好用8位缓冲器来实现，每个缓冲器Tx一位，以用于存储来自相应的专用“或非”缓冲器组的8位输出。从而，如果操作数X′与高速缓冲存储器标记21的任何一个缓冲器中的X精确匹配，则检测逻辑电路42中的对应电路将所有位都寄存到各自的8位缓冲器中。本领域普通技术人员同样明显理解，如果在高速缓冲存储器标记21中使用专用“或”门，则检测逻辑电路将寄存精确匹配的所有零值。如果仅部分匹配，检测逻辑电路42将在高速缓冲存储器标记21的Xn的位中显示逻辑“1”，Xn与操作数X′的位匹配。在步骤414中，判定新输入操作数X′和存储在高速缓冲存储器标记21的缓冲器中的多个操作数X是否完全或部分匹配。选择和屏蔽逻辑电路43包括用于解码Det_1、Det_2、Det_n并判定是否存在精确或部分匹配的逻辑电路。如果有部分匹配，还要确定匹配的内容。选择和屏蔽逻辑电路43向高速缓冲存储器数据22和屏蔽寄存器45输出合适的启动信号，当来自检测逻辑电路42的Det_1、Det_2、Det_n信号中的任何信号包括全部为1时，存在操作数X′的精确匹配。如果不存在精确匹配或部分匹配，则PMPO高速缓冲存储器100输出一个表示没有来自高速缓冲存储器100的平方根数据的信号。一个不匹配信号被送到MUX 62和63，其中新输入的被开方数X′被输入到平方根模块27中并通过平方根模块27对操作数X′执行普通的平方根运算(步骤416)。在模块27上处理而获得的结果数据将被转送到高速缓冲存储器数据22，存储在对应于高速缓冲存储器标记21中Tx缓冲器的位置，其用于一旦被运算则存储操作数X′(步骤418)。

如果部分匹配或精确匹配，则来自检测逻辑电路42的Det_1、Det_2、Det_n信号被检查以确定是否存在等同的匹配(步骤420)。如果存在等同匹配，则选择和屏蔽逻辑电路43将输出一个信号到对应于高速缓冲存储器标记21中具有精确匹配的缓冲器的高速缓冲存储器数据22中的位置。在这种情况下，屏蔽寄存器45将从高速缓冲存储器数据22输出的数据传送到平方根缓冲器48中，该数据进而通过MUX 63转送到Q′缓冲器29中以作为平方根运算的结果(步骤422)。

如果操作数X′部分匹配，则选择和屏蔽逻辑电路43选择具有最连续最高有效位(MSB)匹配的Det_1、Det_2、Det_n信号(步骤424)。检测逻辑电路42“不关心”在M1至Mn的数据中第一最有效零值后的任何数据。图4示出了M1至Mn输入和来自检测逻辑电路的相应Det_1至Det_n输出。选择和屏蔽逻辑电路43接收所述Det_1至Det_n信号并执行屏蔽操作，对Det_1至Det_n信号中的每两个连续逻辑1产生一个通过信号。在Det_n是全部为1时，不执行屏蔽。一个Det_1至Det_n输入的屏蔽表和来自选择和屏蔽逻辑电路43的对应Mask输入。在图4中，示出了一个8位Mask数据[7：0]。选择和屏蔽逻辑电路43输出启动信号En以访问对应于最相似模型Det_max的高速缓冲存储器数据22中的位置。对应于Det_Max的Mask数据Mask[7：0]被输入到部分输出单元45，其中，对相应于Det_max的该屏蔽数据和从高速缓冲存储器数据22读取的数据输出Qi执行一个“与”运算(步骤426)。

通过一个例子说明上述处理。操作数10000000₂，10001111₂，和10101111₂存储在高速缓冲存储器标记21的T1到Tn内，对应于操作数的结果平方根数据存储在高速缓冲数据存储器22的对应位置上。要执行平方根运算的10000001₂的被开方数X′被输入到算术装置。检测逻辑电路42接收分别对应于操作数如11111110，11110xxx和1110xxxx的信号，并输出分别对应于比较结果如11111110，11110000和11000000的Det_1至Det_n。这里，逻辑‘1’表示存储在T1至Tn中的操作数的相应位与被开方数X′匹配，‘0’表示相应位不匹配。此外，‘x’表示不关心。

检测逻辑电路42产生的Det_1＝11111110，Det_2＝11110000，Det_3＝11000000被输入到选择和屏蔽逻辑电路43，Det_1模型11111110被选择作为最相似Det_max，其具有最连续MSB位，与被开方数X′的对应位相同。根据图4所示的真值表，选择和屏蔽逻辑电路43产生对应于11111110的Det_max的11100000的一个屏蔽Mask。一个输出启动信号En被发送到数据高速缓冲存储器22，以输出对应于Det_max的结果数据Qi，Det_max是Det_1，具有数据11111110。

部分输出单元45对Qi和Mask数据11100000执行一个“与”运算，并把q[x：0]存储在缓冲器48内。如前述，如果来自检测逻辑电路42的所有检测信号Det_1至Det_n都是0xxxxxxx₂，则所有的零值都被输入到Q′缓冲器29作为初始值并且操作数X′被输入到平方根模块27。在算术模块27(在该例中，是平方根模块)内对操作数X′的所有数字进行算术运算，在该例中，是平方根计算。并且如果存储在高速缓冲存储器标记21内的操作数T1到Tn其中之一与被开方数X′相同，换句话说，如果来自检测逻辑电路42的检测信号Det_1到Det_n其中之一是11111111，则对应于检测信号11111111的Qi数据从高速缓冲存储器数据22输出作为结果数据Q′，无须模块27的任何计算或处理。

中间电路包括运算符分割单元61、第一多路复用器62和第二多路复用器63，中间电路由选择和屏蔽逻辑电路43控制，用于向模块27和Q′缓冲器29传输数据。运算符分割单元61用于提取部分操作数X″，部分操作数X″主要是操作数X′的非匹配部分。在平方根计算中，部分结果平方根数据q[x：0]被平方，然后从输入操作数X′减去，获得一个部分操作数X″(X″＝X′-q²)。部分操作数X″被输入到模块27以执行平方根运算。部分结果输出q[x：0]被输入到Q′缓冲器29，作为结果数据(步骤428)。在选择和屏蔽逻辑电路43的控制下，X″和q[x：0]分别通过mux(复用器)62和63被选择。一旦模块27完成对部分X″输入的平方根处理，该结果数据与存储在Q′缓冲器29内的部分结果数据结合，形成一个完整的结果平方根数据。

优点是，在频繁执行算术运算时，根据本发明的部分输出、部分匹配方法能够大大地减小系统的处理量。

虽然上述例子示出了一个平方根运算，显然对本领域的普通技术人员而言，在本领域技术人员的知识范围内进行很小的改动，图2所述和描述的装置就可以应用到其他算术运算如平方根、除法、乘法、三角函数等等。一个平方根计算可以描述为：

r_i＝2r_i-1-q_i(2Q_i-1+q_i2^-1)

除法为

r_i＝2r_i-1-q_iD

如果X＝11101001、Y＝K，并且如果新操作数X′＝11111011和Y′＝K(与Y相同)，则除了除法运算有两个操作数X和Y之外，除法运算类似于平方根运算。如果新操作数Y′与先前操作数Y相同，则该除法运算可以被认为是一元运算，可以通过PMPO高速缓冲存储器100执行该除法。

对于乘法，Q＝XχY，如果X＝11101001，Y＝K，并且如果X′＝11111011，Y′＝K(与Y相同)，则根据本发明，可以通过PMPO高速缓冲存储器执行部分乘法。图5示出了仅在(X xor X′)AND X＝0000_0000时屏蔽操作有效。参考图6，图6是图2的装置的变型，相同的标号表示具有图2中所示相同标号的组件的相同操作，逆向功能61被修改以执行X″＝X′-X，用于提取部分操作数。

虽然这里已经参考附图描述了本发明的说明性实施例，可以理解，本发明不局限于这里明确的实施例，在不脱离本发明的范围或精神的前提下，本领域技术人员可以进行各种其他修改或改进。

Claims

1.使用高速缓冲存储器结构执行算术运算的方法，所述高速缓冲存储器结构具有一个TAG寄存器和一个高速缓冲数据存储器，该方法包括步骤：

在TAG寄存器中多个已知操作数，每个操作数有一个由算术运算获得的对应结果，该结果存储在高速缓冲数据存储器的对应位置中；

输入一个新的操作数，将对到TAG寄存器中的该操作数执行算术运算；

将新的操作数与多个已知操作数相比较；以及

确定新的操作数是否与已知操作数中的任一个匹配，如果匹配，则从高速缓冲数据存储器输出相应于与新的操作数匹配的已知操作数的已知结果。

2.根据权利要求1的方法，进一步包括步骤：

如果在确定步骤中没有匹配，则确定在已知操作数和新的操作数之间是否存在部分匹配；

选择具有与新操作数的MSB相匹配的MSB的已知操作数；

从高速缓冲数据存储器存取相应于具有最匹配的MSB的已知操作数的结果；

确定从已知操作数的匹配MBS获得的存取结果的第一部分；

屏蔽除第一部分之外的存取结果的第二部分；以及

提供屏蔽的结果作为第一部分结果。

3.根据权利要求2的方法，进一步包括步骤：对新操作数的位，而不是对匹配的MSB，执行算术运算以得到第二部分结果；以及通过将第一部分结果和第二部分结果结合来输出一个完整的结果。

4.根据权利要求1的方法，其中算术运算是新操作数的平方根运算。

5.根据权利要求1的方法，其中算术运算是新操作数的除法运算。

6.根据权利要求1的方法，其中算术运算是新操作数的乘法运算。

7.一种用于执行算术运算的装置，包括：

用于存储多个已知操作数的标记寄存器，每个操作数具有由一种算术运算获得的对应结果；

用于存储相应于已知操作数的结果的高速缓冲数据存储器；

在标记寄存器中用于比较要执行算术运算的新操作数和多个已知操作数的比较逻辑电路，其中，如果新操作数与任一个已知操作数匹配，则高速缓冲数据存储器输出相应于匹配新操作数的已知操作数的已知结果。

8.根据权利要求7的高速缓冲存储器装置，进一步包括：

用于检测具有通用逻辑电平的一组数据的逻辑组检测器，该逻辑组检测器用于检测具有最高数量的与新操作数的MSB相匹配的MSB的已知操作数；

用于部分屏蔽相应于具有最匹配MSB的已知操作数的结果的屏蔽逻辑电路，该屏蔽电路用于通过由已知操作数的匹配MSB获得的相应结果的第一部分，并屏蔽该第一部分之外的相应结果的第二部分；以及

用于将相应结果的第一部分多路复用到一个算术单元中的多路复用器。

9.根据权利要求8的高速缓冲存储器装置，进一步包括一个第二多路复用器，其中，该算术单元对新操作数的位执行算术运算，而不是对匹配的MSB执行算术运算，以得到第二部分结果，该第二多路复用器用于将第二部分结果多路复用到该算术单元中，其中，该第二部分结果被结合到第一部分结果中以形成一个完整的结果。