CN114327643B

CN114327643B - 机器指令预处理方法、电子设备及计算机可读存储介质

Info

Publication number: CN114327643B
Application number: CN202210234826.9A
Authority: CN
Inventors: 王大岁; 孙伟
Original assignee: Shanghai Conglian Information Technology Co ltd
Current assignee: Shanghai Conglian Information Technology Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-06-21
Anticipated expiration: 2042-03-11
Also published as: CN114327643A

Abstract

本发明提供一种机器指令预处理方法、电子设备及计算机可读存储介质，本发明从软件层面实现机器指令的乱序，不需要添加硬件乱序模块，降低了处理器的研发时间和人力成本，指令乱序完成后再根据处理器的执行周期，依次将乱序后每一行的指令发送给处理器，可以大大提高处理器执行机器指令的效率，并且同样适用于小型、低成本的处理器。

Description

机器指令预处理方法、电子设备及计算机可读存储介质

技术领域

本发明属于机器指令预处理技术领域，尤其涉及一种机器指令预处理方法、电子设备及计算机可读存储介质。

背景技术

处理器在执行机器指令时，如果按照指令先后顺序执行，则碰到从内存读取数据的加载指令、除法运算指令等延迟较长的指令时，后面紧跟着使用该指令结果的指令，就会陷入长时间的等待，大大降低了处理器执行效率，因此，为了提高指令执行效率，通常由处理器通过硬件添加乱序模块的方式，实现以指令乱序的方式执行机器指令，即打乱机器指令的顺序，就算指令位于后面，如果满足条件可以执行，就先执行。

但是，设计及优化乱序模块大大延长了处理器的研发时间，并且需要大量资深芯片研发人员，大大增加了处理器研发的成本，同时，乱序模块将大大影响处理器的处理能力，并且为了适配现有处理器庞大的指令集，又大大增加了乱序模块的设计难度。

此外，对于小型、低成本的处理器，出于成本的考虑，只能让处理器按照顺序执行机器指令，由此带来了低效率的问题。

发明内容

基于此，针对上述技术问题，提供一种可提高处理器执行效率的机器指令预处理方法、电子设备及计算机可读存储介质。

本发明采用的技术方案如下：

一方面，提供一种机器指令预处理方法，其特征在于，包括：

S110、根据指令被执行的先后顺序，将待发送给目标处理器执行的编译好的每一条机器指令依次分别设置于不同的指令行中，所述指令行代表供所述目标处理器在一个执行周期内同时执行的指令集合；

S120、从第二个指令行开始，依次对每一行进行指令乱序：

S121）从所有已完成指令乱序的指令行中，寻找同时满足以下条件的候选行作为目标行：

当前行的机器指令与候选行的机器指令不存在依赖关系；

加入当前行的机器指令后，候选行的机器指令数量不超过所述目标处理器在一个执行周期内同时执行的指令数量最大值，且同类型机器指令数量不超过所述目标处理器在一个执行周期内同时执行该类型机器指令的数量最大值；

加入当前行的机器指令后，不会与候选行的机器指令产生新的依赖关系；

S122）若找到所述目标行，则将所述当前行的机器指令加入所述目标行中，反之，将所述当前行的机器指令加入所述所有已完成指令乱序的指令行中的最后一个指令行的下一行；

其中，第一个指令行视为已完成指令乱序；

S130、根据所述目标处理器的执行周期，由上至下依次将所有已完成指令乱序的指令行中的每一行指令发送给所述目标处理器。

另一方面，提供一种电子设备，其特征在于，包括存储模块，所述存储模块包括由处理器加载并执行的指令，所述指令在被执行时使所述处理器执行上述一种机器指令预处理方法。

再一方面，提供一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，其特征在于，所述一个或多个程序当被处理器执行时，实现上述一种机器指令预处理方法。

本发明预处理方法从软件层面实现机器指令的乱序，不需要添加硬件乱序模块，降低了处理器的研发时间和人力成本，指令乱序完成后再根据处理器的执行周期，依次将乱序后每一行的指令发送给处理器，可以大大提高处理器执行机器指令的效率，并且同样适用于小型、低成本的处理器。

附图说明

下面结合附图和具体实施方式对本发明进行详细说明：

图1为本发明的流程图。

具体实施方式

如图1所示，本说明书实施例提供一种机器指令预处理方法，包括：

S110、根据指令被执行的先后顺序，将待发送给目标处理器执行的编译好的每一条机器指令依次分别设置于不同的指令行中。

其中，指令行代表供目标处理器在一个执行周期内同时执行的指令集合。

这里，我们对指令乱序前的每一个指令行分别依次设置由小至大的第一行号（1-N），对已完成指令乱序的每一个指令行分别依次设置由小至大的第二行号（1-T）。

同时，可以从每个指令中解析出指令的输入和输出需求，输入和输出需求分为寄存器需求(x0-x31通用寄存器,v0-v31浮点寄存器)、浮点操作需求（frm）以及内存需求(mem)，例如将15条编译好的机器指令依次分别设置于不同的指令行中，并设置第一行号（1-15），为了便于说明，下面将每个指令的输入和输出需求分别列出：

1: addi x14, x8 ；输入：x14, x8 输出：x14

2: st x10, x14 ；输入：x10, x14 输出：mem

3: mul x5, x12 ；输入：x5, x12 输出：x5

4: addi x15, x9 ；输入：x15, x9 输出：x15

5: vld_w v30, x15 ；输入：v30，x15, mem, frm 输出：v30

6: vsub_d v17, v30 ；输入：v17, v30, frm 输出：v17

7: rxsfrm x6 ; 输入：x6 输出：frm

8: rxb x7, x17 ；输入：x7, x17 输出：x7

9: mul x5, x6 ；输入：x5, x6 输出：x5

10: ld x16, x0 ；输入：x16, x0, mem 输出：x16

11: mul x12, x16 ；输入：x12, x16 输出：x12

12: ror x9, x12 ；输入：x9, x12 输出：x9

13: addsl x9, x12 ；输入：x9, x12 输出：x9

14: vmul_d v23, v24 ；输入：v23, v24, frm 输出：v23

15: vxor v18, v28 ；输入：v18, v28 输出：v18

S120、从第二个指令行开始，依次对每一行进行指令乱序（第一个指令行视为已完成指令乱序）：

a、当前行的机器指令与候选行的机器指令不存在依赖关系，具体判断方式如下：

若当前行的机器指令的输入需求与候选行的机器指令的输出需求存在重叠，则两者存在依赖关系，反之，不存在依赖关系。

如行号1的指令（addi x14, x8）中，其输出需求为x14通用寄存器，而行号2的指令（st x10, x14）中，其输入需求中同样需要x14通用寄存器，可见，行号1的指令的输出需要输入给行号2的指令作为输入，两者存在依赖关系，行号1的指令必须在行号2的指令前，不允许两者在同一行中由目标处理器同时执行。

如行号7的指令（rxsfrm x6）中，其输出需求为frm，而行号14的指令（vmul_d v23,v24）中，其输入需求中同样存在frm，可见，两者存在依赖关系。

如行号2的指令（st x10, x14）中，其输出需求为mem，而行号5的指令（vld_w v30,x15）中，其输入需求中同样存在mem，可见，两者存在依赖关系。

b、加入当前行的机器指令后，候选行的机器指令数量不超过目标处理器在一个执行周期内同时执行的指令数量最大值，且同类型机器指令数量不超过目标处理器在一个执行周期内同时执行该类型机器指令的数量最大值。

目标处理器中具有执行不同类型机器指令的不同的执行单元：LSU(访存单元)个数为L，ALU(算术逻辑单元)个数为A，IMU(乘法单元)个数为M，VBU(向量比特单元)个数为B，VAU(向量算术单元)个数为Va，VMU(向量乘法单元)个数为Vm,VDV(向量除法单元)个数为D，VSQ(向量开方单元)个数为S，VCV(向量格式转换单元)个数为C，RXU（特殊指令单元）个数为R等等，每个指令都需要1个或多个执行单元来执行，因而某类型的执行单元的个数即代表目标处理器在一个周期内同时能执行该类型指令的数量最大值。

c、加入当前行的机器指令后，不会与候选行的机器指令产生新的依赖关系，具体判断方式如下：

若当前行的机器指令的输出参数的类型与候选行的机器指令的输入参数的类型存在重叠，则两者会产生新的依赖关系，反之，不会产生新的依赖关系。

如行号3的指令（mul x5, x12）中，其输入需求存在x5通用寄存器，而行号9的指令（mul x5, x6）中，其输出需求同样为x5通用寄存器，可见，若将行号9的指令加入行号3中，会产生新的依赖关系，从而影响指令（mul x5, x12）的执行。

在一种实施方式中，步骤S121可以从所有已完成指令乱序的指令行中的最后一个指令行开始，由下至上逐行匹配上述条件，寻找目标行，当然，进一步地，可以将满足上述条件且位于最上方的行，作为目标行，即当有多个行满足条件时，将行号最小的行作为目标行，这样可以使乱序最优化。

在已完成指令乱序的指令行较多的情况下，如果在步骤S121中让所有已完成指令乱序的指令行均参与条件的匹配，这样一方面有助于后续提高目标处理器执行机器指令的效率，另一方面也将消耗更多的系统资源，故为了权衡效率和系统资源的消耗，步骤S121中的条件还包括：

d、当前所有已完成指令乱序的最后一个指令行的第二行号与候选行的第二行号之差小于等于预设乱序程度I，I的值大于等于1，具体取值需考虑具体的系统资源情况。

S122）若找到目标行，则将当前行的机器指令加入目标行中，反之，将当前行的机器指令加入所有已完成指令乱序的指令行中的最后一个指令行的下一行。

假设目标处理器一个执行周期内同时执行的指令数量最大值为4，ALU(算术逻辑单元)数量为4，其它执行单元的数量均为1，乱序程度I取值为8，上述15条编译好的机器指令经过乱序后，得到6行指令：

1： addi x14, x8 mul x5, x12 addi x15, x9 rxb x7, x17

2： st x10, x14 mul x5, x6 vxor v18, v28

3： vld_w v30, x15 ld x16, x0

4： vsub_d v17, v30 mul x12, x16

5： rxsfrm x6 ror x9, x12

6： addsl x9, x12 vmul_d v23, v24

下面对步骤S120的优选实施过程进行说明：

1、按先后顺序取出第一行号为Nn的机器指令Cn，如果机器指令已经取完，则跳转到步骤7。

2、假设当前已乱序完成的最后一个指令行的第二行号为Tm，候选行为Tn，候选行Tn初始为最后一个指令行即Tm，定义最小乱序行号为R，R初始化为Tm+1，即最小乱序行号代表所有已完成指令乱序的指令行中的最后一个指令行的下一行的行号。

3、比较Tn行，判断Tm-Tn是否大于I，如果大于I，则代表不满足条件d，没有找到目标行，则把指令Cn放在R行，即最后一个指令行的下一行，并跳转到步骤1，此时，已完成指令乱序的指令行增加了一行（Tm更新了），R重新初始化；如果小于等于I，则执行下一步。

4、判断Tn行是否满足条件b。假设Tn行不满足条件b，代表没有找到目标行，那么，如果此时Tn等于1，不存在上一行，则把指令Cn放在R行，并跳转到步骤1，此时，已完成指令乱序的指令行增加了一行，R重新初始化；如果存在上一行，设置Tn=Tn-1，然后跳转到步骤3，这样可以由下至上逐行判断是否满足条件；假设Tn行满足条件b，代表找到目标行，则执行下一步。

5、将Tn行中各个指令的输出需求，与当前机器指令Cn的输入需求进行比较，如果有重叠，代表Tn行不满足条件a，则把指令Cn放在R行，并跳转到步骤1，此时，已完成指令乱序的指令行增加了一行，R重新初始化；否则执行下一步。

6、将Tn行中各个指令的输入需求，与当前机器指令Cn的输出需求进行比较，如果有重叠，代表Tn行不满足条件c，则把指令Cn放在R行，并跳转到步骤1，此时，已完成指令乱序的指令行增加了一行，R重新初始化；否则判断此Tn行可以用来放置指令Cn，则设置R=Tn，如果此时Tn等于1，不存在上一行，则把指令Cn放在R行，并跳转到步骤1，此时，已完成指令乱序的指令行增加了一行，R重新初始化；否则设置Tn=Tn-1，跳转到步骤3，继续执行，以寻找可能的第二行号最小且满足条件的目标行。

7、指令乱序完成。

S130、根据目标处理器的执行周期，由上至下依次将所有已完成指令乱序的指令行中的每一行指令发送给目标处理器，从而提高目标处理器的执行效率。

基于同一发明构思，本说明书实施例还提供一种电子设备，包括存储模块，存储模块包括由处理器加载并执行的指令，指令在被执行时使处理器执行本说明书上述一种机器指令预处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

其中，存储模块可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

基于同一发明构思，本说明书实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现本说明书上述一种机器指令预处理方法部分中描述的根据本发明各种示例性实施方式的步骤。

计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机可读存储介质的更具体示例包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

但是，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种机器指令预处理方法，其特征在于，包括：

S120、从第二个指令行开始，依次对每一行进行指令乱序：

S121）从所有已完成指令乱序的指令行中，寻找同时满足以下条件的一个候选行作为目标行：

当前行的机器指令与候选行的机器指令不存在依赖关系；

其中，第一个指令行视为已完成指令乱序；

2.根据权利要求1所述的一种机器指令预处理方法，其特征在于，所述S121进一步包括：

从所述所有已完成指令乱序的指令行中的最后一个指令行开始，由下至上逐行匹配所述条件，寻找目标行。

3.根据权利要求2所述的一种机器指令预处理方法，其特征在于，所述S121进一步包括：

将满足所述条件且位于最上方的行，作为目标行。

4.根据权利要求3所述的一种机器指令预处理方法，其特征在于，对指令乱序前的每一个指令行分别依次设置由小至大的第一行号，对已完成指令乱序的每一个指令行分别依次设置由小至大的第二行号。

5.根据权利要求4所述的一种机器指令预处理方法，其特征在于，所述条件还包括：

当前所有已完成指令乱序的最后一个指令行的第二行号与候选行的第二行号之差小于等于预设乱序程度I，I的值大于等于1。

6.根据权利要求1所述的一种机器指令预处理方法，其特征在于，通过以下步骤判断当前行的机器指令与候选行的机器指令是否存在依赖关系：

7.根据权利要求1所述的一种机器指令预处理方法，其特征在于，通过以下步骤判断加入当前行的机器指令后，是否会与候选行的机器指令产生新的依赖关系：

若当前行的机器指令的输出需求与候选行的机器指令的输入需求存在重叠，则两者会产生新的依赖关系，反之，不会产生新的依赖关系。

8.一种电子设备，其特征在于，包括存储模块，所述存储模块包括由处理器加载并执行的指令，所述指令在被执行时使所述处理器执行根据权利要求1-7任一项所述的一种机器指令预处理方法。

9.一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，其特征在于，所述一个或多个程序当被处理器执行时，实现权利要求1-7任一项所述的一种机器指令预处理方法。