CN116225366A

CN116225366A - 应用于嵌入式流水cpu内核的乘法指令扩展方法及装置

Info

Publication number: CN116225366A
Application number: CN202310208145.XA
Authority: CN
Inventors: 万振华; 王丹琛; 张海春
Original assignee: Open Source Network Security Internet Of Things Technology Wuhan Co ltd
Current assignee: Open Source Network Security Internet Of Things Technology Wuhan Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-06-06
Anticipated expiration: 2043-03-06
Also published as: CN116225366B

Abstract

本申请公开一种应用于嵌入式流水CPU内核的乘法指令扩展方法及装置，方法包括：对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，每个第二位宽的乘法运算步骤对应一个机器周期；分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算；按照乘法分配律的规则分别对各个第三位宽的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加以得到每个机器周期的乘法运算的结果；将每个机器周期的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加得到所述乘法指令的最终结果。本申请能够对嵌入式CPU进行乘法指令扩展，且有利于减少资源的消耗。

Description

应用于嵌入式流水CPU内核的乘法指令扩展方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种应用于嵌入式流水CPU内核的乘法指令扩展方法及装置。

背景技术

嵌入式CPU作为嵌入式处理器核心，其在国防、军事、医疗、交通、通信、家电等领域被广泛应用。作为CPU的“灵魂”，指令集架构(ISA)决定了CPU的功能强弱。指令集架构越丰富，则CPU的功能越强大。因而对CPU指令集架构进行扩展可以在某种程度上增强CPU的性能。

目前，一般的嵌入式CPU的指令集架构中不具有乘法等复杂运算指令，其原因是加入乘法指令会增加更多的逻辑资源消耗。本申请旨在对嵌入式CPU进行乘法指令扩展，同时减少资源的消耗。

发明内容

本申请的目的在于提供一种应用于嵌入式流水CPU内核的乘法指令扩展方法、装置、电子设备及计算机可读存储介质，能够对嵌入式CPU进行乘法指令扩展，且有利于减少资源的消耗。

为实现上述目的，本申请提供了一种应用于嵌入式流水CPU内核的乘法指令扩展方法，包括：

对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，每个第二位宽的乘法运算步骤对应一个机器周期；

分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算；

按照乘法分配律的规则分别对每个第二位宽的乘法运算分解得到的各个第三位宽的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加以得到每个机器周期的乘法运算的结果；

将每个机器周期的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加得到所述乘法指令的最终结果。

可选地，所述对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，包括：

将所述乘法指令中长位宽的乘数拆解为短位宽的多个子乘数，各子乘数具有相等的位宽；

将第一位宽的乘法运算分解成每个子乘数与所述乘法指令中的被乘数的乘法运算。

可选地，所述分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，包括：

将所述乘法指令中长位宽的被乘数拆解为短位宽的多个子被乘数，各子被乘数具有相等的位宽；

将每个子乘数与所述乘法指令中的被乘数的乘法运算分解为每个子乘数与各子被乘数的乘法运算。

可选地，每一第二位宽的乘法运算通过第一查找表乘法器执行，每一第三位宽的乘法运算通过第二查找表乘法器执行。

可选地，在所述乘法指令中的被乘数为a[x-1:0]，乘数为b[y-1:0]，第二查找表乘法器为4bit*4bit乘法器时，所述乘法指令的最终结果Qout＝Σ{a[4*i+3:4*i]*b[4*j+3:4*j]}(i＝{0,…,m}，j＝{0,…,n})，其中m＝x/4+(x％4！＝0)、n＝y/4+(y％4！＝0)；总周期数为m*n。

为实现上述目的，本申请还提供了一种应用于嵌入式流水CPU内核的乘法指令扩展装置，包括：

划分模块，用于对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，每个第二位宽的乘法运算步骤对应一个机器周期；

第一运算模块，用于分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，以及按照乘法分配律的规则分别对每个第二位宽的乘法运算分解得到的各个第三位宽的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加以得到每个机器周期的乘法运算的结果；

第二运算模块，用于将每个机器周期的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加得到所述乘法指令的最终结果。

可选地，所述划分模块用于：

为实现上述目的，本申请还提供了一种电子设备，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行如前所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。

为实现上述目的，本申请还提供了一种计算机可读存储介质，其上存储有程序，所述程序被处理器执行时实现如前所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。

本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行如上所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。

本申请能够将CPU指令集架构中的乘法指令进行多周期划分，即将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，并分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，每组第三位宽的乘法运算的结果进行移位(含补零)后进行累加以得到对应机器周期的乘法运算的结果，各机器周期的乘法运算的结果都得到后分别进行移位(含补零)后进行累加以得到乘法指令的最终结果。通过上述设置，本申请能够对嵌入式CPU进行乘法指令扩展，且有利于减少资源的消耗。

附图说明

图1是本申请实施例应用于嵌入式流水CPU内核的乘法指令扩展方法的流程图。

图2是本申请实施例对CPU指令集架构中的乘法指令进行多周期划分的示意框图。

图3是本申请实施例将第一查找表乘法器进行分解的示意框图。

图4是本申请实施例将第二查找表乘法器进行分解的示意框图。

图5是本申请实施例应用于嵌入式流水CPU内核的乘法指令扩展装置的示意框图。

图6是本申请实施例电子设备的示例框图。

具体实施方式

为了详细说明本申请的技术内容、构造特征、所实现目的及效果，以下结合实施方式并配合附图详予说明。

实施例一

请参阅图1至图4，本申请公开了一种应用于嵌入式流水CPU内核的乘法指令扩展方法，包括：

101、对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，每个第二位宽的乘法运算步骤对应一个机器周期。通过将较长的第一位宽的乘法运算分解成较短的多个第二位宽的乘法运算步骤，有利于减少逻辑资源的消耗。

具体地，对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，包括：

将乘法指令中的长位宽的乘数拆解为短位宽的多个子乘数，各子乘数具有相等的位宽；

将第一位宽的乘法运算分解成每个子乘数与乘法指令中的被乘数的乘法运算。

具体地，每一第二位宽的乘法运算通过第一查找表乘法器执行，通过第一查找表乘法器的使用有利于减少逻辑资源的消耗。

为了便于理解本申请，以16位的乘法指令进行举例说明。假设乘法指令中的被乘数为a[15:0]，乘数为b[15:0]。

如图2所示，将16位乘法指令划分为四个机器周期，即每一机器周期执行a[15:0]与b[(4*j+3]:4*j](子乘数)的乘法运算，其中j表示当前的周期数且从第0周期开始。第0周期执行a[15:0]与b[3:0]的乘法运算，第1周期执行a[15:0]与b[7:4]的乘法运算，第2周期执行a[15:0]与b[11:8]的乘法运算，第3周期执行a[15:0]与b[15:12]的乘法运算。

在该示例中，使用的第一查找表乘法器为4bit*16bit的查找表乘法器，以满足每个机器周期的乘法运算需要。

102、分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，以及按照乘法分配律的规则分别对每个第二位宽的乘法运算分解得到的各个第三位宽的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加以得到每个机器周期的乘法运算的结果。通过将每一第二位宽的乘法运算进一步分解成更短的多个第三位宽的乘法运算步骤，有利于进一步减少逻辑资源的消耗。本申请所指“乘法分配律”为现有技术，为本领域技术人员所知悉，在此不再详述。

具体地，分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，包括：

将乘法指令中长位宽的被乘数拆解为短位宽的多个子被乘数，各子被乘数具有相等的位宽；

将每个子乘数与乘法指令中的被乘数的乘法运算分解为每个子乘数与各子被乘数的乘法运算。

具体地，每一第三位宽的乘法运算通过第二查找表乘法器执行，通过第二查找表乘法器的使用有利于减少逻辑资源的消耗。

如图3所示，继续以上述示例进行举例说明。

为了节省第一查找表乘法器资源的消耗，设计将4bit*16bit的第一查找表乘法器分解成如图3所示的结构，即将4bit*16bit的乘法运算分解为4bit*4bit的乘法运算、移位运算以及加法运算等。

其中，乘法指令中的被乘数a[15:0]被拆解为4个子被乘数，分别为a[15:12]、a[11:8]、a[7:4]、a[3:0]，每个子乘数分别与4个子被乘数利用4bit*4bit的第二查找表乘法器进行乘法运算。图3显示的是子乘数b[3:0]分别与4个子被乘数a[15:12]、a[11:8]、a[7:4]、a[3:0]利用4bit*4bit的第二查找表乘法器进行乘法运算，在该示例中，子乘数b[3:0]与子被乘数a[15:12]进行乘法运算的结果左移12位且0扩展为20位，子乘数b[3:0]与子被乘数a[11:8]进行乘法运算的结果左移8位且0扩展为20位，子乘数b[3:0]与子被乘数a[7:4]进行乘法运算的结果左移4位且0扩展为20位，子乘数b[3:0]与子被乘数a[3:0]进行乘法运算的结果左移0位且0扩展为20位。这里的左移具体位数由乘数b[(4*j+3]:4*j]中j的值决定且左移位数为4*j。关于移位和补零操作为本领域技术人员知悉，本申请对此不作详述。

为了进一步节省资源的消耗，可以设计将4bit*4bit的第二查找表乘法器分解成如图4所示的结构，即将4bit*4bit的乘法运算进一步分解为2bit*2bit的乘法运算、移位运算以及加法运算等部分。这里不再进行详述。

具体地，在乘法指令中的被乘数为a[x-1:0]，乘数为b[y-1:0]，第二查找表乘法器为4bit*4bit乘法器时，乘法指令的最终结果Qout＝Σ{a[4*i+3:4*i]*b[4*j+3:4*j]}(i＝{0,…,m}，j＝{0,…,n})，其中m＝x/4+(x％4！＝0)、n＝y/4+(y％4！＝0)；总周期数为m*n。这里的左移具体位数由乘数b[(4*j+3]:4*j]中j的值决定且左移位数为4*j。

103、将每个机器周期的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加得到乘法指令的最终结果。关于移位和补零操作为本领域技术人员知悉，本申请对此不作详述。

实施例二

请结合图5，本申请公开了一种应用于嵌入式流水CPU内核的乘法指令扩展装置，包括：

划分模块201，用于对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，每个第二位宽的乘法运算步骤对应一个机器周期。通过将较长的第一位宽的乘法运算分解成较短的多个第二位宽的乘法运算步骤，有利于减少逻辑资源的消耗。

具体地，划分模块201用于：

第一运算模块202，用于分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，以及按照乘法分配律的规则分别对每个第二位宽的乘法运算分解得到的各个第三位宽的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加以得到每个机器周期的乘法运算的结果。通过将每一第二位宽的乘法运算进一步分解成更短的多个第三位宽的乘法运算步骤，有利于进一步减少逻辑资源的消耗。

第二运算模块203，用于将每个机器周期的乘法运算的结果左移相应位数及低位补零，并将移位后的结果进行累加得到乘法指令的最终结果。关于移位和补零操作为本领域技术人员知悉，本申请对此不作详述。

实施例三

请结合图6，本申请公开了一种电子设备，包括：

处理器30；

存储器40，其中存储有处理器30的可执行指令；

其中，处理器30配置为经由执行可执行指令来执行如实施例一所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。

实施例四

本申请公开了一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现如实施例一所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。

实施例五

本申请实施例公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述应用于嵌入式流水CPU内核的乘法指令扩展方法。

应当理解，在本申请实施例中，所称处理器可以是中央处理模块(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application SpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上所揭露的仅为本申请的较佳实例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，均属于本申请所涵盖的范围。

Claims

1.一种应用于嵌入式流水CPU内核的乘法指令扩展方法，其特征在于，包括：

2.如权利要求1所述的应用于嵌入式流水CPU内核的乘法指令扩展方法，其特征在于，所述对CPU指令集架构中的乘法指令进行多周期划分，将第一位宽的乘法运算分解成多个第二位宽的乘法运算步骤，包括：

3.如权利要求2所述的应用于嵌入式流水CPU内核的乘法指令扩展方法，其特征在于，所述分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，包括：

4.如权利要求1所述的应用于嵌入式流水CPU内核的乘法指令扩展方法，其特征在于，每一第二位宽的乘法运算通过第一查找表乘法器执行，每一第三位宽的乘法运算通过第二查找表乘法器执行。

5.如权利要求4所述的应用于嵌入式流水CPU内核的乘法指令扩展方法，其特征在于，在所述乘法指令中的被乘数为a[x-1:0]，乘数为b[y-1:0]，第二查找表乘法器为4bit*4bit乘法器时，所述乘法指令的最终结果Qout＝Σ{a[4*i+3:4*i]*b[4*j+3:4*j]}(i＝{0,…,m}，j＝{0,…,n})，其中m＝x/4+(x％4！＝0)、n＝y/4+(y％4！＝0)；总周期数为m*n。

6.一种应用于嵌入式流水CPU内核的乘法指令扩展装置，其特征在于，包括：

7.如权利要求6所述的应用于嵌入式流水CPU内核的乘法指令扩展装置，其特征在于，所述划分模块用于：

8.如权利要求7所述的应用于嵌入式流水CPU内核的乘法指令扩展装置，其特征在于，所述分别对各个第二位宽的乘法运算利用乘法分配律进行分解，形成多个第三位宽的乘法运算，包括：

9.一种电子设备，其特征在于，包括：

处理器；

存储器，其中存储有所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至7任一项所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7任一项所述的应用于嵌入式流水CPU内核的乘法指令扩展方法。