CN111814093A

CN111814093A - 一种乘累加指令的处理方法和处理装置

Info

Publication number: CN111814093A
Application number: CN201910292663.8A
Authority: CN
Inventors: 罗嘉蕙; 陈志坚; 郭宇波; 张文蒙
Original assignee: Hangzhou C Sky Microsystems Co Ltd
Current assignee: Hangzhou C Sky Microsystems Co Ltd
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2020-10-23
Also published as: WO2020210620A1; US11237833B2; EP3953806A4; US20200326946A1; EP3953806A1

Abstract

本发明公开了一种指令处理装置，包括适于存储第一源数据的第一寄存器；适于存储第二源数据的第二寄存器；适于存储累加数据的第三寄存器、适于接收乘累加指令并进行解码的解码器和执行单元。乘累加指令指示第一寄存器作为第一操作数、第二寄存器作为第二操作数、第三寄存器作为第三操作数和移位标识。执行单元耦接到第一、第二和第三寄存器和解码器，并执行解码后的乘累加指令，以便从第一寄存器中获取第一源数据，从第二寄存器中获取第二源数据，对第一源数据和第二源数据执行乘法运算以获得乘法结果，根据移位标识对乘法结果进行移位，并将移位后的乘法结果与第三寄存器中的累加数据相加以获得乘累加结果。本发明还公开了一种相应的指令处理方法、计算系统和片上系统。

Description

一种乘累加指令的处理方法和处理装置

技术领域

本发明涉及处理器领域，尤其涉及具有乘累加指令的指令集的处理器核心和处理器。

背景技术

在数字信号处理中，乘累加运算是一种常见的操作，被大量地使用于例如快速傅里叶变换(FFT)、FIR/FIR等滤波器运算、卷积运算以及矩阵运算中。大量的乘法结果不断进行累加会导致累加结果的数值不断增大，甚至超出存放累加结果的比特位数所能表达的最大范围，即溢出。

针对乘累加结果溢出这个问题，现有的解决方案包括：

1.将结果进行饱和操作，从而在结果溢出时，能够在不扩展位宽的条件下，尽可能用最接近溢出值的数值来表示结果。这一方案的缺点在于，饱和操作仅能将结果保存为其所能表达的最接近范围，若实际结果大大超出这一范围，或者大量运算结果都出现了溢出，则可能会导致整体结果出现偏差，无法用于后续操作。

2.将表达结果的位数扩展，即使用更宽的位数来表示精确的运算结果。这一方案的缺点在于，为了避免溢出发生导致数据信息丢失，往往需要额外增加大量的位数来保存累加结果，整体的运算位宽变大，用于存储的资源也会增加。此外，这一成本增加所带来的收益可能会是有限的。因为在后续的操作中，往往需要对这一位宽扩展后的结果进行一定的缩减处理，仅保留部分的信息，以满足后续处理的位宽标准。

另外，随着可以对多组数据并行地执行相同操作的SIMD指令在矢量数字信号处理指令集的VDSP指令中的广泛使用，乘累加运算的溢出问题变得日益严重。

为此，期望有一种新的方案来解决乘累加运算所导致的溢出问题。

发明内容

为此，本发明提供了一种新的指令处理装置和指令处理方法，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种指令处理装置，包括适于存储第一源数据的第一寄存器；适于存储第二源数据的第二寄存器；适于存储累加数据的第三寄存器、适于接收乘累加指令并进行解码的解码器和执行单元。乘累加指令指示第一寄存器作为第一操作数、第二寄存器作为第二操作数、第三寄存器作为第三操作数和移位标识。执行单元耦接到第一、第二和第三寄存器和解码器，并执行解码后的乘累加指令，以便从第一寄存器中获取第一源数据，从第二寄存器中获取第二源数据，对第一源数据和第二源数据执行乘法运算以获得乘法结果，根据移位标识对乘法结果进行移位，并将移位后的乘法结果与第三寄存器中的累加数据相加以获得乘累加结果。

可选地，在根据本发明的指令处理装置中，移位标识指示移位数量，执行单元适于将乘法结果从高位向低位移位，移位的位数为移位标识所指示的移位数量。

可选地，在根据本发明的指令处理装置中，乘法结果的最高位为符号位，执行单元适于在对乘法结果进行移位时，每移动一位，在乘法结果的最高位添加符号位的值。

可选地，在根据本发明的指令处理装置中，乘法结果为无符号数，执行单元适于在对乘法结果进行移位时，每移动一位，在所述乘法结果的最高位添加值0。

可选地，在根据本发明的指令处理装置中，执行单元适于将乘累加结果存储到第三寄存器中以替换所述累加数据。

可选地，根据本发明的指令处理装置还包括第四寄存器，适于存储乘累加结果，以及乘累加指令还指示第四寄存器为第四操作数，以及执行单元适于将乘累加结果存储到第四寄存器中。

可选地，在根据本发明的指令处理装置中，乘累加指令还指示取反标识，以及执行单元适于在对乘法结果进行移位之前，根据取反标识的值，对乘法结果执行取反处理。

可选地，在根据本发明的指令处理装置中，乘累加指令还指示选择标识，以及执行单元将移位后的乘法结果与第三寄存器中的累加数据相加以获得乘累加结果包括：执行单元根据选择标识的值，直接将移位后的乘法结果用作乘累加结果。

可选地，在根据本发明的指令处理装置中，第一源数据、第二源数据、累加数据和乘累加结果为矢量数据。

可选地，在根据本发明的指令处理装置中，执行单元还适于在乘累加结果溢出时，将乘累加结果设置为饱和值。

可选地，在根据本发明的指令处理装置中，乘累加结果和累加数据的长度为第一源数据的长度和第二源数据的长度之和。

根据本发明的另一个方面，提供了一种指令处理方法，包括：接收乘累加指令并进行解码，该乘累加指令指示第一寄存器为第一操作数、第二寄存器为第二操作数、第三寄存器为第三操作数和移位标识；以及执行解码后的乘累加指令，以便从第一寄存器中获取第一源数据，从第二寄存器中获取第二源数据，对第一源数据和第二源数据执行乘法运算以获得乘法结果，根据移位标识对乘法结果进行移位，并将移位后的乘法结果与第三寄存器中的累加数据相加以获得乘累加结果。

根据本发明的还有一个方面，提供了一种计算系统，包括：存储器；以及耦接到存储的处理器。处理器包括寄存器组、解码器和执行单元。其中寄存器组包括适于存储第一源数据的第一寄存器、适于存储第二源数据的第二寄存器和适于存储累加数据的第三寄存器。解码器适于接收乘累加指令并进行解码，乘累加指令指示所述第一寄存器为第一操作数、第二寄存器为第二操作数、第三寄存器为第三操作数和移位标识；以及执行单元，耦接到第一、第二和第三寄存器和解码器，并执行解码后的乘累加指令，以便从第一寄存器中获取第一源数据，从第二寄存器中获取第二源数据，对第一源数据和第二源数据执行乘法运算以获得乘法结果，根据移位标识对乘法结果进行移位，并将移位后的乘法结果与第三寄存器中的累加数据相加以获得乘累加结果。

根据本发明的还有一个方面，提供了一种机器可读存储介质，该机器可读存储介质包括代码，而该代码在被执行时使机器执行根据本发明的指令执行方法。

根据本发明的另一个方面，提供了一种片上系统，包括根据本发明的指令处理装置。

根据本发明的方案，在乘累加指令中引入移位标识，可以在对乘法结果进行累加操作之前，先将乘法结果右移一定位数，在一定程度上降低了结果的精度，但是却大大降低了溢出的可能性。这样可以更好地保存结果的高位有效信息，并且无需额外的存储成本和更大的运算位宽。从而提供了一种以适度减低结果精度来减少溢出可能性的可靠方案。

另外，根据本发明的方案，通过在乘累加指令中引入取反标识，可以将乘累加指令扩展到可以同时用于乘累加和乘累减操作，增加了指令的应用范围。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的指令处理装置的示意图；

图2示出了根据本发明一个实施例的寄存器架构的示意图；

图3示出了根据本发明一个实施例的指令处理装置的示意图；

图4示出了根据本发明一个实施例的指令处理过程的示意图；

图5示出了根据本发明一个实施例的指令处理方法的示意图；

图6A示出了根据本发明实施例的指令处理流水线的示意图；

图6B示出了根据本发明实施例的处理器核架构的示意图；

图7示出了根据本发明一个实施例的处理器1100的示意图；

图8示出了根据本发明一个实施例的计算机系统1200的示意图；以及

图9示出了根据本发明的一个实施例的片上系统(SoC)1500的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是根据本发明一个实施例的指令处理装置100的示意图。指令处理装置100具有执行单元140，该执行单元包括可操作用于执行指令(包括根据本发明所述的乘累加指令) 的电路。在一些实施例中，指令处理装置100可以是处理器、多核处理器的处理器核、或者电子系统中的处理元件。

解码器130接收高级机器指令或宏指令形式的传入指令，并且解码这些指令以生成低级微操作、微代码进入点、微指令或其他低级指令或控制信号。低级指令或控制信号可通过低级(例如，电路级或硬件级)操作来实现高级指令的操作。可使用各种不同的机制来实现解码器130。合适机制的示例包括但不限于，微代码、查找表、硬件实现、可编程逻辑阵列(PLA)。本发明不受限于实现解码器130的各种机制，任何可以实现解码器130的机制都在本发明的保护范围之内。

解码器130可接收来自高速缓存110、存储器120或其他源的传入指令。经解码的指令包括一个或多个微操作、微代码进入点、微指令、其它指令或其它控制信号，它们反映了所接收的指令或者从所接收的指令导出。这些经解码的指令被发送到执行单元140，并由执行单元140执行。执行单元140在执行这些指令时，从寄存器组170、高速缓存110 和/或存储器120接收数据输入并向它们生成数据输出。

在一个实施例中，寄存器组170包括架构寄存器，架构寄存器也被称为寄存器。除非另外予以规定或清楚明显可知，在本文中，短语架构寄存器、寄存器组、以及寄存器用于表示对软件和/或编程器可见(例如，软件可见的)和/或由宏指令指定来标识操作数的寄存器。这些寄存器不同于给定微架构中的其他非架构式寄存器(例如，临时寄存器、重排序缓冲器、引退寄存器等)。

为了避免混淆描述，已示出和描述了相对简单的指令处理装置100。应当理解，其他实施例可具有超过一个执行单元。例如，装置100可包括多个不同类型的执行单元，诸如例如算术单元、算术逻辑单元(ALU)、整数单元、浮点单元等。指令处理装置或处理器的其他实施例可具有多个核、逻辑处理器或执行引擎。稍后将参考图6A-9提供指令处理装置100的多个实施例。

根据一个实施例，寄存器组170包括矢量寄存器组175。矢量寄存器组175包括多个矢量寄存器175A。这些矢量寄存器175A可以存储乘累加指令的操作数。每个矢量寄存器175A可以是512位、256位、或128位宽，或者可以使用不同的矢量宽度。寄存器组170 还可以包括通用寄存器组176。通用寄存器组176包括多个通用寄存器176A。这些通用寄存器176A也可以存储乘累加指令的操作数。乘累加指令不仅可以用作SIMD指令而对矢量进行操作，也可以用作一般的指令而对单个数据进行操作。

图2示出了根据本发明一个实施例的底层寄存器架构200的示意图。寄存器架构200 基于中天微处理器，该处理器实现了矢量信号处理指令集。然而，应理解，也可使用支持不同寄存器长度、不同寄存器类型和/或不同数量的寄存器的不同寄存器架构，而没有超出本发明的保护范围。

如图2所示，在寄存器架构200中定义了16个128位的矢量寄存器VR0[127:0]～VR15[127:0]，以及针对这16个矢量寄存器进行的一系列数据处理SIMD指令。根据具体指令的定义，每个矢量寄存器可以看做是若干个8-bit、16-bit、32-bit甚至是64-bit的元素。另外，在寄存器架构200中还定义了32个32位的通用寄存器GR0[31:0]～GR31[31:0]。通用寄存器GR0–GR31可以存储SIMD指令处理期间的一些控制状态值，也可以存储一般指令处理期间的操作数。根据一种实施方式，参考图1描述的矢量寄存器组175可以采用图2所示的矢量寄存器VR0-VR15中的一个或者多个，而参考图1描述的通用寄存器组176同样可以采用图2所示的通用寄存器GR0–GR31中的一个或者多个。

本发明的替代实施例可以使用较宽的或较窄的寄存器。另外，本发明的替代实施例可以使用更多、更少或不同的寄存器组和寄存器。

图3示出了根据本发明一个实施例的指令处理装置300的示意图。图3所示的指令处理装置300为图1所示的指令处理装置100的进一步扩展，并且为了便于描述而略去一些部件。因此，使用和图1中相同的标记来指示相同和/或相似的部件。

指令处理装置300适于执行乘累加指令。根据本发明的一个实施方式，乘累加指令包括指定了第一寄存器A0的第一操作数、指定了第二寄存器A1的第二操作数、指定了第三寄存器A2的第三操作数和移位标识k。移位标识k为立即数，指定了要移位的位数。第一寄存器A0和第二寄存器A1中分别存储了要用于乘法运算的第一和第二源数据src0 和src1，第三寄存器A2中存储了用于累加计算的累加数据src2。在一种实施方式中，乘累加指令将乘累加结果result存储到第三寄存器A2中以更新原先存储的累加数据src2，所以，乘累加指令可以不指定用于保存乘累加结果result的目的地。在另一个实施例中，乘累加指令还指定用于保存乘累加结果result的目的地。目的地也可以是一个寄存器D0。

根据本发明的一种实施例，乘累加指令可以作为SIMD指令的一种，即作用于矢量数据上，此时，第一、第二和第三寄存器均为矢量寄存器。根据另一种实施例，乘累加指令可以是常规的指令，并且对单个数据进行操作。本发明不受限于操作数的类型，所有可以执行乘累加操作的数据都在本发明的保护范围之内。下面以矢量寄存器为例来对乘累加指令进行描述，但是后续描述的各个方面同样可以应用于其它类型的数据。

如图3所示，解码器130包括解码逻辑132。解码逻辑132对乘累加指令进行解码，以确定矢量寄存器组175中与A0对应的第一矢量寄存器、与A1对应的第二矢量寄存器、与A2对应的第三矢量寄存器以及做为立即数的移位标识k的值。

可选地，根据本发明的一种实施方式，在累加结果result存储在不同于第三矢量寄存器的第四矢量寄存器中的情况下，解码逻辑132还确定与D0相对应的第四矢量寄存器。

执行单元140包括乘法器142、移位逻辑144和加法器146。乘法器142读取矢量寄存器组175中的第一矢量寄存器A0中存储的第一源数据src0和第二矢量寄存器A1中存储的第二源数据src1，并对第一源数据src0和第二源数据src1执行乘法运算以获得乘法结果，并将乘法结果发送给移位逻辑144。

可选地，根据本发明的一个实施例，乘累加指令还包括取反标识neg。解码逻辑132在对乘累加指令进行解码时，还确定取反标识neg的值，并将neg的值发送给乘法器142。乘法器142在将乘法结果发送给移位逻辑144之前，可以根据neg的值来确定是否对乘法结果执行取反操作。例如在neg值为1时，此时指示要对乘法结果取反，则乘法器142 可以先在乘法结果上执行取反操作，并将取反之后的乘法结果发送给移位逻辑144。通过引入取反标识neg，可以让乘累加指令扩展到用于乘累减操作。

移位逻辑144根据移位标识k的值对所接收的乘法结果进行移位操作，并且将移位后的乘法结果发送给加法器146。移位标识k的值指示对乘法结果执行移位的位数。移位操作可以让乘法结果中的每个位上值都向更低的位移动，即，较高位上的值移动到较低的位上，而较低位上的值被舍弃。这种移位操作也称为向右移位。每移动一位，每个位的值都移动到相邻的低位上，而最低位上的值被舍弃。由于高位上的值更为重要，利用这种移位方式可以保留重要的数据而舍弃相对不重要的数据。根据本发明的一个实施例，移位标识 k的值指示移位的位数，即乘法结果向右移动k位。

在乘法结果向右移位时，需要在高位补入相应的数据。根据本发明的一个实施例，当第一源数据src0和第二源数据src1为有符号数时，乘法结果为有符号数，此时采用带符号右移。具体而言，乘法结果的最高位为符号位，则在乘法结果上执行移位操作时，将移位时在最高位补入的值都设置为符号位。例如如果右移3位，则将最高的3位都设置为符号位。

根据另一个实施例，当第一源数据src0和第二源数据src1为无符号数时，乘法结果为无符号数，此时采用无符号右移操作。具体而言，在乘法结果上执行移位操作时，将移位时在最高位补入的值都设置为0。例如如果右移3位，则将最高的3位都设置为0。

加法器146从移位逻辑144接收移位后的乘法结果，并读取矢量寄存器组175中的第三矢量寄存器A2中存储的累加数据src2，对二者执行加法操作以获得乘累加结果result。

可选地，根据本发明的一个实施例，乘累加指令还包括选择标识acc。解码逻辑132在对乘累加指令进行解码时，还确定选择标识acc的值，并将acc的值发送给加法器146。加法器146根据选择标识acc的值来确定如何进行加法操作。例如如果存在选择标识acc 或者选择标识acc的值为1，则加法器146不使用累加数据src2，而是直接将乘法结果设置为乘累加结果result。相反，如果不存在选择标识acc或者选择标识acc的值为0，则加法器146将乘法结果与累加数据src2相加，并将相加的结果设置为乘累加结果result。

可选地，根据本发明的还有一个实施例，加法器146在对乘法结果和src2进行加法操作时，有可能出现乘累加结果result溢出的情况，此时，加法器146可以对该加法操作的结果是否超出目的元素能表示的范围进行监测，如果超出表示访问，则加法器146可以将乘累加结果result饱和成能表示范围内的最接近真实结果的值，即加法器146可以将乘累加结果result设置为饱和值。例如，如果加法在两个值分别为127的8比特的有符号数上执行，由于结果为127+127＝254超出了目的元素能表示的最大值(127)，则将结果设置为饱和值127。

在加法器146计算得到乘累加结果result之后，如果乘累加指令没有指定专门的目的地，则将目的地D0和第三寄存器A2设置为相同的寄存器，因此，可以将result写入到第三寄存器A2中以替换累加数src2。这样，通过循环调用乘累加指令而不改变第三寄存器A2，最终在第三寄存器A2中就存储了多次乘累加的结果。根据另一个实施例，如果乘累加指令中指定了专门的目的地，即目的地寄存器D0，则可以将乘累加结果result写入到目的地寄存器D0中。

本发明不受限于各个寄存器中存储的数据的长度，例如假定src0为N位数据，用src0[N-1:0]来表示；src1为M位数据，用src1[M-1:0]来表示；则src0和src1的乘法结果为M+N位。移位标识k的值满足0<K<(M+N)，则对乘法结果进行移位后的结果仍为M+N 位。如果src2为G位数据，用src2[G-1:0]来表示。如果M+N＝G，则可以选择移位后的乘法结果中的所有M+N位与src2的G位一起进行加法操作。如果M+N>G，则也可以截取移位后的乘法结果的M+N位中的G位结果与src2的G位一起进行加法操作。

根据参考图3所示的指令处理装置300，通过在乘累加指令中引入移位标识k，并且在进行加法操作之前，先对乘法结果进行右移操作，从而显著减低了乘累加结果溢出的风险。

图4示出了根据本发明另一个实施例的指令处理过程400的示意图。图4所示的指令处理过程为图3所示的指令处理装置300的指令处理过程的描述。图4中示出了4个矢量寄存器VR0、VR1、VR2和VR3。每个矢量寄存器中存储有128位的矢量数据。在指令处理装置300的执行期间，将第一源数据src0存储在VR0中，将第二源数据src1存储在 VR1中，并且将累加数据src2存储到矢量寄存器VR2和VR3，因此累加数据具有256 位，另外，指令处理产生的乘累加结果同样存储到VR2和VR3中，以覆盖累加数据src2。

如图4所示，在VR0和VR1上逐个字节地执行乘累加操作。VR0中的矢量数据划分为16个字节，即从VR0[7:0]，VR0[15:8]，…，VR0[127:120]。同样地，VR1中的矢量数据划分为16个字节，即从VR1[7:0]，VR1[15:8]，…，VR1[127:120]。在VR0和VR1中每个划分出来的相应字节元素上执行乘法操作X以得到乘法结果E，例如对VR0[7:0]和 VR1[7:0]执行乘法，此时得到乘法结果为E[15:0]，以此类推。

如上所述，src2为256位的矢量数据，因此相应地，可以划分为16个元素，每个元素2个字节长，即前8个元素占据矢量寄存器VR2，分别为VR2[15:0]，VR2[31:16]，…， VR2[127:112]，后8个元素占据矢量寄存器VR3，分别为VR3[15:0]，VR3[31:16]，…， VR3[127:112]。

乘法结果E移位K位，并和来着VR2和VR3的累加数据src2相加，以得到最终的乘累加结果并同样存储到VR2和VR3中。例如，可以将E[15:0]移位K位之后，和 VR2[15:0]相加，并将最终的乘累加结果同样存储到VR2[15:0]中；类似地，E[255:240]在移位K位之后，和VR3[127:112]相加，并将最终的乘累加结果同样存储到VR3[127:112]中

图5示出了根据本发明还有一个实施例的指令处理方法500的示意图。图5所述的指令处理方法适于在参考图1、图3、图4和图6A-图9描述的指令处理装置、处理器核心、处理器计算机系统和片上系统等中执行，并适于执行上面描述的乘累加指令。

如图5所示，方法500始于步骤S510。在步骤S510中，接收乘累加指令并进行解码。如上参考图3所述，乘累加指令包括指定了第一寄存器A0的第一操作数、指定了第二寄存器A1的第二操作数、指定了第三寄存器A2的第三操作数和移位标识k。移位标识k 为立即数，指定了要移位的位数。第一寄存器A0和第二寄存器A1中分别存储了要用于乘法运算的第一和第二源数据src0和src1，第三寄存器A2中存储了用于累加计算的累加数据src2。在一种实施方式中，乘累加指令将乘累加结果result存储到第三寄存器A2中以更新原先存储的累加数据src2，所以，乘累加指令可以不指定用于保存乘累加结果result 的目的地。在另一个实施例中，乘累加指令还指定用于保存乘累加结果result的目的地。目的地也可以是一个寄存器D0。在步骤S510中，对乘累加指令进行解码以确定矢量寄存器组175中与A0对应的第一矢量寄存器、与A1对应的第二矢量寄存器、与A2对应的第三矢量寄存器以及做为立即数的移位标识k的值。可选地，根据本发明的一种实施方式，在累加结果result存储在不同于第三矢量寄存器的第四矢量寄存器中的情况下，在步骤S510中，还确定与D0相对应的第四矢量寄存器。

随后，在步骤S520中，读取矢量寄存器组175中的第一矢量寄存器A0中存储的第一源数据src0和第二矢量寄存器A1中存储的第二源数据src1，并对第一源数据src0和第二源数据src1执行乘法运算以获得乘法结果。

可选地，根据本发明的一个实施例，乘累加指令还包括取反标识neg。在步骤S510中在对乘累加指令进行解码时，还确定取反标识neg的值。在步骤S520中，在获得了乘法结果之后，可以根据neg的值来确定是否对乘法结果执行取反操作。例如在neg值为 1时，此时指示要对乘法结果取反，则在步骤S520中可以在乘法结果上执行取反操作，并将取反之后的乘法结果做为步骤S520输出的结果。通过引入取反标识neg，可以让乘累加指令扩展到用于乘累减操作。

随后在步骤S530中，根据移位标识k的值对步骤S520产生的乘法结果进行移位操作。移位标识k的值指示对乘法结果执行移位的位数。如上参考图3所述，移位操作也称为向右移位。每移动一位，每个位的值都移动到相邻的低位上，而最低位上的值被舍弃。由于高位上的值更为重要，利用这种移位方式可以保留重要的数据而舍弃相对不重要的数据。根据本发明的一个实施例，移位标识k的值指示移位的位数，即乘法结果向右移动k 位。

在乘法结果向右移位时，需要在高位补入相应的数据。根据本发明的一个实施例，当第一源数据src0和第二源数据src1为有符号数时，乘法结果为有符号数，此时采用带符号右移。具体而言，乘法结果的最高位为符号位，将移位时在最高位补入的值都设置为符号位。

根据另一个实施例，当第一源数据src0和第二源数据src1为无符号数时，乘法结果为无符号数，此时采用无符号右移操作。在乘法结果上执行移位操作时，将移位时在最高位补入的值都设置为0。

随后，在步骤S540中，接收步骤S530输出的移位后的乘法结果，并读取矢量寄存器组175中的第三矢量寄存器A2中存储的累加数据src2，对二者执行加法操作以获得乘累加结果result。

可选地，根据本发明的一个实施例，乘累加指令还包括选择标识acc。在步骤S510在对乘累加指令进行解码时，还确定选择标识acc的值。在步骤S540中，根据选择标识acc的值来确定如何进行加法操作。例如如果存在选择标识acc或者选择标识acc的值为1，则不使用累加数据src2，而是直接将乘法结果设置为乘累加结果result。相反，如果不存在选择标识acc或者选择标识acc的值为0，则将乘法结果与累加数据src2相加，并将相加的结果设置为乘累加结果result。

可选地，根据本发明的还有一个实施例，在步骤S540中，在对乘法结果和src2进行加法操作时，有可能出现乘累加结果result溢出的情况，此时，可以对该加法操作的结果是否超出目的元素能表示的范围进行监测，如果超出表示访问，则在步骤S540中，可以将乘累加结果result饱和成能表示范围内的最接近真实结果的值，即可以将乘累加结果result设置为饱和值。

在步骤S540计算得到乘累加结果result之后，如果乘累加指令没有指定专门的目的地，则将目的地D0和第三寄存器A2设置为相同的寄存器，因此，可以将result写入到第三寄存器A2中以替换累加数src2。这样，通过循环调用乘累加指令而不改变第三寄存器A2，最终在第三寄存器A2中就存储了多次乘累加的结果。根据另一个实施例，如果乘累加指令中指定了专门的目的地，即目的地寄存器D0，则可以将乘累加结果result写入到目的地寄存器D0中。

如上所述，根据本发明的指令处理装置可以实现为处理器核，且指令处理方法可以在处理器核中执行。处理器核可以不同的方式在不同的处理器中实现。例如，处理器核可以实现为用于通用计算的通用有序核、用于通用计算的高性能通用无序核、以及用于图形和 /或科学(吞吐量)计算的专用核。而处理器可以实现为CPU(中央处理器)和/或协处理器，其中CPU可以包括一个或多个通用有序核和/或一个或多个通用无序核，而协处理器可以包括一个或多个专用核。这样的不同处理器的组合可以导致不同的计算机系统架构。在一种计算机系统架构中，协处理器在与CPU分开的芯片上。在另一种计算机系统架构中，协处理器在与CPU相同的封装中但处于分开的管芯上。在还有一种计算机系统架构中，协处理器与CPU在相同管芯上(在该情况下，这样的协处理器有时被称为诸如集成图形和/或科学(吞吐量)逻辑等专用逻辑，或被称为专用核)。在还有一种称为片上系统的计算机系统架构中，可以将所描述的CPU(有时被称为应用核或应用处理器)、以上描述的协处理器和附加功能包括在同一管芯上。后续将参考图6A-9来描述示例性的核架构、处理器和计算机架构。

图6A为示出根据本发明实施例的指令处理流水线的示意图，其中流水线包括有序流水线以及无序发布/执行流水线。图6B为示出根据本发明实施例的处理器核架构的示意图，其中包括有序架构核以及与寄存器重命名相关的无序发布/执行架构核。在图6A和6B中，用实线框示出了有序流水线和有序核，而在虚线框中的可选附加项示出了无序发布/执行流水线和核。

如图6A所示，处理器流水线900包括取出级902、长度解码级904、解码级906、分配级908、重命名级910、调度(也称为分派或发布)级912、寄存器读取/存储器读取级914、执行级916、写回/存储器写入级918、异常处理级922和提交级924。

如图6B所示，处理器核900包括执行引擎单元950和耦合到执行引擎单元950的前端单元930。执行引擎单元950和前端单元930两者都耦合到存储器单元970。核990可以是精简指令集计算(RISC)核、复杂指令集计算(CISC)核、超长指令字(VLIW)核或混合或替代核类型。作为又一选项，核990可以是专用核，诸如例如网络或通信核、压缩引擎、协处理器核、通用计算图形处理器单元(GPGPU)核、或图形核(GPU)等等。

前端单元930包括分支预测单元934、耦接到分预测单元934的指令高速缓存单元932、耦接到指令高速缓存单元936的指令转换后备缓冲器(TLB)938、耦接到指令转换后备缓冲器940的指令取出单元938、和耦接到指令取出单元938的解码单元940。解码单元(或解码器)940可解码指令，并生成从原始指令解码出的、或以其他方式反映原始指令的、或从原始指令导出的一个或多个微操作、微代码进入点、微指令、其他指令、或其他控制信号作为输出。解码单元940可使用各种不同的机制来实现，包括但不限于查找表、硬件实现、可编程逻辑阵列(PLA)、微代码只读存储器(ROM)等。在一个实施例中，核990 包括存储(例如，在解码单元940中或否则在前端单元930内的)某些宏指令的微代码的微代码ROM或其他介质。解码单元940耦接到至执行引擎单元950中的重命名/分配器单元952。

执行引擎单元950包括重命名/分配器单元952。重命名/分配器单元952耦接到引退单元954和一个或多个调度器单元956。调度器单元956表示任何数目的不同调度器，包括预留站、中央指令窗等。调度器单元956耦接到各个物理寄存器组单元958。每个物理寄存器组单元958表示一个或多个物理寄存器组。不同的物理寄存器组存储一种或多种不同的数据类型，诸如标量整数、标量浮点、打包整数、打包浮点、向量整数、向量浮点、状态(例如，作为要执行的下一指令的地址的指令指针)等。在一个实施例中，物理寄存器组单元958包括向量寄存器单元、写掩码寄存器单元和标量寄存器单元。这些寄存器单元可以提供架构向量寄存器、向量掩码寄存器、和通用寄存器。物理寄存器组单元958被引退单元954覆盖以示出可以用来实现寄存器重命名和无序执行的各种方式(例如，使用重新排序缓冲器和引退寄存器组；使用将来的文件、历史缓冲器和引退寄存器组；使用寄存器图和寄存器池等等)。引退单元954和物理寄存器组单元958耦接到执行群集960。执行群集960包括一个或多个执行单元962和一个或多个存储器访问单元964。执行单元962可以执行各种操作(例如，移位、加法、减法、乘法)，以及对各种类型的数据(例如，标量浮点、打包整数、打包浮点、向量整型、向量浮点)执行操作。尽管某些实施例可以包括专用于特定功能或功能集合的多个执行单元，但其他实施例可包括全部执行所有功能的仅一个执行单元或多个执行单元。在一些实施例中，由于会为某些类型的数据/操作创建单独的流水线(例如，标量整型流水线、标量浮点/打包整型/打包浮点/向量整型/向量浮点流水线，和 /或各自具有其自己的调度器单元、物理寄存器组单元和/或执行群集的存储器访问流水线)，所以调度器单元956、物理寄存器组单元958和执行群集960可能有多个。还应当理解，在使用单独的流水线的情况下，这些流水线中的一个或多个可以是无序发布/执行，并且其余流水线可以是有序发布/执行。

存储器访问单元964耦接到存储器单元970，该存储器单元970包括数据TLB单元972、耦接到数据TLB单元972的数据高速缓存单元974、以及耦接到数据高速缓存单元974的二级(L2)高速缓存单元976。在一个示例性实施例中，存储器访问单元964可包括加载单元、存储地址单元和存储数据单元，其中的每一个均耦接到存储器单元970中的数据TLB 单元972。指令高速缓存单元934还可以耦接到存储器单元970中的二级(L2)高速缓存单元976。L2高速缓存单元976耦接到一个或多个其他级的高速缓存，并最终耦接到主存储器。

作为示例，上面参考图6B描述的核架构可以如下方式来实现上面参考图6A描述的流水线900：1)指令取出单元938执行取出和长度解码级902和904；2)解码单元940执行解码级906；3)重命名/分配器单元952执行分配级908和重命名级910；4)调度器单元956 执行调度级912；5)物理寄存器组单元958和存储器单元970执行寄存器读取/存储器读取级914；执行群集960执行执行级916；6)存储器单元970和物理寄存器组单元958执行写回/存储器写入级918；7)各单元可牵涉到异常处理级922；以及8)引退单元954和物理寄存器组单元958执行提交级924。

核990可支持一个或多个指令集(例如，x86指令集(具有与较新版本一起添加的某些扩展)；MIPS技术公司的MIPS指令集；ARM控股的ARM指令集(具有诸如NEON等可选附加扩展))，其中包括本文中描述的各指令。应当理解，核可支持多线程化(执行两个或更多个并行的操作或线程的集合)，并且可以按各种方式来完成该多线程化，此各种方式包括时分多线程化、同步多线程化(其中单个物理核为物理核正同步多线程化的各线程中的每一个线程提供逻辑核)、或其组合(例如，时分取出和解码以及此后诸如用超线程化技术来同步多线程化)。

图7示出了根据本发明一个实施例的处理器1100的示意图。如图7中的实线框所示，根据一种实施方式，处理器1110包括单个核1102A、系统代理单元1110、总线控制器单元1116。如图7中的虚线框所示，根据本发明的另一个实施方式，处理器1100还可以包括多个核1102A-N、处于系统代理单元1110中的集成存储器控制器单元1114以及专用逻辑1108。

根据一种实施方式，处理器1100可以实现为中央处理器(CPU)，其中专用逻辑1108是集成图形和/或科学(吞吐量)逻辑(其可包括一个或多个核)，且核1102A-N是一个或多个通用核(例如，通用有序核、通用无序核、这两者的组合)。根据另一种实施方式，处理器1100可以实现为协处理器，其中核1102A-N是用于图形和/或科学(吞吐量)的多个专用核。根据还有一种实施方式，处理器1100可以实现为协处理器，其中核1102A-N是多个通用有序核。因此，处理器1100可以是通用处理器、协处理器或专用处理器，诸如例如网络或通信处理器、压缩引擎、图形处理器、GPGPU(通用图形处理单元)、高吞吐量的集成众核(MIC)协处理器(包括30个或更多核)、或嵌入式处理器等。该处理器可以被实现在一个或多个芯片上。处理器1100可以是一个或多个衬底的一部分，和/或可以使用诸如例如 BiCMOS、CMOS或NMOS等的多个加工技术中的任何一个技术将其实现在一个或多个衬底上。

存储器层次结构包括在各核内的一个或多个级别的高速缓存、一个或多个共享高速缓存单元1106、以及耦接到集成存储器控制器单元1114的外部存储器(未示出)。该共享高速缓存单元1106可以包括一个或多个中间级高速缓存，诸如二级(L2)、三级(L3)、四级(L4) 或其他级别的高速缓存、末级高速缓存(LLC)、和/或其组合。尽管在一个实施例中，基于环的互连单元1112将集成图形逻辑1108、共享高速缓存单元1106以及系统代理单元1110/ 集成存储器控制器单元1114互连，本发明不受限于此，并且可使用任何数量的公知技术来将这些单元互连。

系统代理1110包括协调和操作核1102A-N的那些组件。系统代理单元1110可包括例如功率控制单元(PCU)和显示单元。PCU可以包括调整核1102A-N和集成图形逻辑1108的功率状态所需的逻辑和组件。显示单元用于驱动一个或多个外部连接的显示器。

核1102A-N可以具有上面参考图6A和6B描述的核架构，并且在架构指令集方面可以是同构的或异构的。即，这些核1102A-N中的两个或更多个核可能能够执行相同的指令集，而其他核可能能够执行该指令集的仅仅子集或不同的指令集。

图8示出了根据本发明一个实施例的计算机系统1200的示意图。图8所示的计算机系统1200可以应用于膝上型设备、台式机、手持PC、个人数字助理、工程工作站、服务器、网络设备、网络集线器、交换机、嵌入式处理器、数字信号处理器(DSP)、图形设备、视频游戏设备、机顶盒、微控制器、蜂窝电话、便携式媒体播放器、手持设备以及各种其他电子设备。本发明不受限于此，所有可以纳入本说明书中所公开的处理器和/或其它执行逻辑的系统都在本发明的保护范围之内。

如图8所示，系统1200可以包括一个或多个处理器1210、1215。这些处理器耦接到控制器中枢1220。在一个实施例中，控制器中枢1220包括图形存储器控制器中枢 (GMCH)1290和输入/输出中枢(IOH)1250(其可以在分开的芯片上)。GMCH 1290包括与存储器1240和协处理器1245相耦接的存储器控制器和图形控制器。IOH 1250将输入/输出 (I/O)设备1260耦接到GMCH 1290。做为选择，存储器控制器和图形控制器集成在处理器中，这样存储器1240和协处理器1245就直接耦接到处理器1210，此时控制器中枢1220 仅仅包括IOH1250。

附加处理器1215的任选性质用虚线表示在图8中。每一处理器1210、1215可包括本文中描述的处理核中的一个或多个，并且可以是处理器1100的某一版本。

存储器1240可以是例如动态随机访问存储器(DRAM)、相变存储器(PCM)或这两者的组合。对于至少一个实施例，控制器中枢1220经由诸如前侧总线(FSB)之类的多分支总线 (multi-drop bus)、诸如快速通道互连(QPI)之类的点对点接口、或者类似的连接1295与处理器1210、1215进行通信。

在一个实施例中，协处理器1245是专用处理器，诸如例如高吞吐量MIC处理器、网络或通信处理器、压缩引擎、图形处理器、GPGPU、或嵌入式处理器等等。在一个实施例中，控制器中枢1220可以包括集成图形加速器。

在一个实施例中，处理器1210执行控制一般类型的数据处理操作的指令。嵌入在这些指令中的可以是协处理器指令。处理器1210识别如具有应当由附连的协处理器1245执行的类型的这些协处理器指令。因此，处理器1210在协处理器总线或者其他互连上将这些协处理器指令(或者表示协处理器指令的控制信号)发布到协处理器1245。协处理器1245接受并执行所接收的协处理器指令。

图9示出了根据本发明的一个实施例的片上系统(SoC)1500的示意图。图9所示的片上系统包含了图7所示的处理器1100，因此与图7中相似的部件具有同样的附图标记。如图9所示，互连单元1502耦接到应用处理器1510、系统代理单元1110、总线控制器单元1116、集成存储器控制器单元1114、一个或多个协处理器1520、静态随机存取存储器(SRAM)单元1530、直接存储器存取(DMA)单元1532以及用于耦合至一个或多个外部显示器的显示单元1540。应用处理器1510包括一个或多个核1102A-N的集合以及共享高速缓存单元110。协处理器1520包括集成图形逻辑、图像处理器、音频处理器和视频处理器。在一个实施例中，协处理器1520包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本文公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本发明的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种指令处理装置，包括：

第一寄存器，适于存储第一源数据；

第二寄存器，适于存储第二源数据；

第三寄存器，适于存储累加数据；

解码器，适于接收乘累加指令并进行解码，所述乘累加指令指示：

所述第一寄存器，作为第一操作数、

所述第二寄存器，作为第二操作数、

所述第三寄存器，作为第三操作数、

移位标识；以及

执行单元，耦接到所述第一、第二和第三寄存器和解码器，并执行所述解码后的乘累加指令，以便从所述第一寄存器中获取第一源数据，从所述第二寄存器中获取第二源数据，对所述第一源数据和第二源数据执行乘法运算以获得乘法结果，根据所述移位标识对所述乘法结果进行移位，并将移位后的乘法结果与所述第三寄存器中的累加数据相加以获得乘累加结果。

2.如权利要求1所述的指令处理装置，其中所述移位标识指示移位数量，所述执行单元适于将所述乘法结果从高位向低位移位，移位的位数为所述移位标识所指示的移位数量。

3.如权利要求2所述的指令处理装置，其中所述乘法结果的最高位为符号位，所述执行单元适于在对所述乘法结果进行移位时，每移动一位，在所述乘法结果的最高位添加所述符号位的值。

4.如权利要求2所述的指令处理装置，其中所述乘法结果为无符号数，所述执行单元适于在对所述乘法结果进行移位时，每移动一位，在所述乘法结果的最高位添加值0。

5.如权利要求1-4中任一个所述的指令处理装置，其中所述执行单元适于将所述乘累加结果存储到所述第三寄存器中以替换所述累加数据。

6.如权利要求1-4中任一个所述的指令处理装置，还包括第四寄存器，适于存储所述乘累加结果，以及

其中所述乘累加指令还指示所述第四寄存器为第四操作数，以及所述执行单元适于将所述乘累加结果存储到所述第四寄存器中。

7.如权利要求1-6中任一个所述的指令处理装置，其中所述乘累加指令还指示取反标识，以及所述执行单元适于在对所述乘法结果进行移位之前，根据所述取反标识的值，对所述乘法结果执行取反处理。

8.如权利要求1-7中任一个所述的指令处理装置，其中所述乘累加指令还指示选择标识，以及所述执行单元将移位后的乘法结果与所述第三寄存器中的累加数据相加以获得乘累加结果包括：所述执行单元根据所述选择标识的值，直接将所述移位后的乘法结果用作所述乘累加结果。

9.如权利要求1-8中任一个所述的指令处理装置，其中所述第一源数据、第二源数据、所述累加数据和所述乘累加结果为矢量数据。

10.如权利要求1-9中任一个所述的指令处理装置，其中所述执行单元还适于在所述乘累加结果溢出时，将所述乘累加结果设置为饱和值。

11.如权利要求1-10中任一个所述的指令处理装置，其中所述乘累加结果和所述累加数据的长度为所述第一源数据的长度和所述第二源数据的长度之和。

12.一种指令处理方法，包括：

接收乘累加指令并进行解码，所述乘累加指令指示第一寄存器为第一操作数、第二寄存器为第二操作数、第三寄存器为第三操作数和移位标识；以及

执行所述解码后的乘累加指令，以便从所述第一寄存器中获取第一源数据，从所述第二寄存器中获取第二源数据，对所述第一源数据和第二源数据执行乘法运算以获得乘法结果，根据所述移位标识对所述乘法结果进行移位，并将移位后的乘法结果与所述第三寄存器中的累加数据相加以获得乘累加结果。

13.如权利要求12所述的指令处理方法，其中所述移位标识指示移位数量，所述移位操作包括将所述乘法结果从高位向低位移位，移位的位数为所述移位标识所指示的移位数量。

14.如权利要求13所述的指令处理方法，其中所述乘法结果的最高位为符号位，所述移位操作包括在对所述乘法结果进行移位时，每移动一位，在所述乘法结果的最高位添加所述符号位的值。

15.如权利要求14所述的指令处理方法，其中所述乘法结果为无符号数，所述移位操作包括对所述乘法结果进行移位时，每移动一位，在所述乘法结果的最高位添加值0。

16.如权利要求12-15中任一个所述的指令处理方法，其中所述执行解码后的乘累加指令包括将所述乘累加结果存储到所述第三寄存器中以替换所述累加数据。

17.如权利要求12-15中任一个所述的指令处理方法，其中所述乘累加指令还指示所述第四寄存器为第四操作数，以及所述执行解码后的乘累加指令包括将所述乘累加结果存储到所述第四寄存器中。

18.如权利要求12-17中任一个所述的指令处理方法，其中所述乘累加指令还指示取反标识，以及所述执行解码后的乘累加指令包括：

在对所述乘法结果进行移位之前，根据所述取反标识的值，对所述乘法结果执行取反处理。

19.如权利要求12-18中任一个所述的指令处理方法，其中所述乘累加指令还指示选择标识，以及所述将移位后的乘法结果与所述第三寄存器中的累加数据相加以获得乘累加结果包括：所述执行单元根据所述选择标识的值，直接将所述移位后的乘法结果用作所述乘累加结果。

20.如权利要求12-19中任一个所述的指令处理方法，其中所述第一源数据、第二源数据、所述累加数据和所述乘累加结果为矢量数据。

21.如权利要求12-20中任一个所述的指令处理方法，其中所述执行解码后的乘累加指令包括在所述乘累加结果溢出时，将所述乘累加结果设置为饱和值。

22.一种计算系统，包括：

存储器；以及

处理器，耦接到所述存储器，并包括：

寄存器组，包括适于存储第一源数据的第一寄存器、适于存储第二源数据的第二寄存器和适于存储累加数据的第三寄存器；

解码器，适于接收乘累加指令并进行解码，所述乘累加指令指示所述第一寄存器为第一操作数、所述第二寄存器为第二操作数、所述第三寄存器为第三操作数和移位标识；以及

23.一种机器可读存储介质，所述机器可读存储介质包括代码，所述代码在被执行时使机器执行如权利要求12-21中的任一项所述的方法。

24.一种片上系统，包括如权利要求1-11中任一个所述的指令处理装置。