CN117389572A

CN117389572A - 一种基于指令分层的dsp汇编代码自动优化方法

Info

Publication number: CN117389572A
Application number: CN202311701213.2A
Authority: CN
Inventors: 刘忠新; 杜凯; 温研; 邓强
Original assignee: Beijing Linzhuo Information Technology Co Ltd
Current assignee: Beijing Linzhuo Information Technology Co Ltd
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-01-12
Anticipated expiration: 2043-12-12
Also published as: CN117389572B

Abstract

本发明公开了一种基于指令分层的DSP汇编代码自动优化方法，依据数据依赖关系及指令执行周期将DSP汇编代码中的指令分层为指令层后，再按照对应于不同执行部件的指令并行执行、对应于相同执行部件的指令在不同指令执行周期执行的方式将各指令层内的指令并行分层得到指令子层，最后将指令子层作为指令层后再对指令层重新排序，按照最终的指令层排序以层间顺序执行、层内并行执行的方式完成DSP汇编代码的优化执行，大幅降低了用户操作的复杂度，减少了用户的操作时间，有效改善了用户的操作体验。

Description

一种基于指令分层的DSP汇编代码自动优化方法

技术领域

本发明属于DSP软件开发技术领域，具体涉及一种基于指令分层的DSP汇编代码自动优化方法。

背景技术

数字信号处理器DSP（Digital Signal Processing）通常作为实时信号处理的核心器件，被广泛应用于工业控制、通信、航空航天、武器精确制导等领域。DSP支持超长指令，可以利用多个执行部件同时处理多条无数据依赖的指令，如何有效利用DSP硬件特性提高汇编代码算法的性能是当前DSP软件开发面临的挑战。

对于汇编代码来说某些循环的运算开销通常比较大，因此循环相关代码是优化的重点。现有优化方法主要包括分裂求和与多路取样，其主要思路是根据循环体内代码的独立性，将其由一条单线变成多条线同步并进，由此实现利用DSP中的多个数据算术逻辑单元和地址产生单元同时进行多个独立的算术运算和地址运算，以充分利用DSP资源提高运行速度。除此之外，多字节对齐、循环拆解等也是优化的常用方法。然而随着运算处理方法复杂性的不断提高，由现有基本操作方法数量有限所导致的多操作指令关联的操作方法存在的过于繁琐、复杂、耗时或过于依赖物理或感应按键的技术问题更加突出，难以达到理想的优化效果。

发明内容

有鉴于此，本发明提供了一种基于指令分层的DSP汇编代码自动优化方法，依据数据依赖关系、指令执行周期及指令与执行部件间映射关系等对指令分层，实现了基于指令层的汇编代码执行优化。

本发明提供的一种基于指令分层的DSP汇编代码自动优化方法，包括以下步骤：

步骤1、分析DSP汇编代码中各指令间的数据依赖关系，根据数据依赖关系及指令执行周期将指令分层，使位于相同指令层的指令间不存在数据依赖关系，位于不同指令层的指令间存在数据依赖关系且位于下层的指令依赖于位于上层的指令；

步骤2、在同一指令层中确定每条指令对应的执行部件，按照对应于不同执行部件的指令并行执行、对应于相同执行部件的指令在不同指令执行周期执行的方式，对各指令层内的指令并行分层得到各指令层的指令子层；

步骤3、将各指令层的指令子层均作为独立的指令层后，再对指令层的层序号进行重新排序更新指令层的层序号；

步骤4、按照更新后的指令层的层序号由小到大的顺序逐层执行各指令层中的指令，对于位于同一指令层的指令则以并行方式执行，完成DSP汇编代码的优化。

进一步地，所述步骤2中所述在同一指令层中确定每条指令对应的执行部件的方式为：根据DSP的指令文档确定每条指令对应的执行部件。

进一步地，所述步骤1中所述分析DSP汇编代码中各指令间的数据依赖关系，根据数据依赖关系及指令执行周期将指令分层，包括：

步骤1.1、构建指令信息表保存指令名、指令执行周期和执行部件，构建指令表保存指令序号、指令名、数据输入寄存器或内存、数据输出寄存器或内存和指令，构建指令层表保存层序号和指令序号集，所述指令序号集保存属于当前指令层的所有指令的指令序号；

步骤1.2、从DSP汇编代码中读取指令作为当前指令，获取其指令序号、指令名、数据输入寄存器或内存、数据输出寄存器或内存，将当前指令存储在指令表中，指令序号为当前指令在DSP汇编代码中的序号；

步骤1.3、根据层序号以逆序方式查找指令层表，令当前查找的指令层为第Ti层，对比当前指令与第Ti层中所有指令，若当前指令的数据输入寄存器或内存与第Ti层中任意指令Ti_Ai的数据输出寄存器或内存相同，则从指令信息表中获取指令Ti_Ai的指令执行周期Ci，再将当前指令的指令序号添加到第Ti+Ci-1层的指令序号集中；反之则将当前指令的指令序号添加到指令层表中第1层的指令序号集中；

步骤1.4、若DSP汇编代码中仍存在未读取的指令，则执行步骤1.3；否则结束本流程。

进一步地，所述步骤2中所述对各指令层内的指令并行分层得到各指令层的指令子层，包括：

步骤2.1、根据DSP的指令文档获取可并行的执行部件以及指令与执行部件间的映射关系，根据可并行的执行部件形成并行执行部件列表；

步骤2.2、根据映射关系获取各指令层所包含指令的执行部件，将该执行部件与并行执行部件列表进行对比，实现对各指令层内指令的递归分组。

进一步地，所述步骤2.2中所述对各指令层内指令的递归分组的方式为：

S1、将并行执行部件列表中所有执行部件均标记为未使用；

S2、遍历当前指令层内的指令得到其对应的执行部件，若并行执行部件列表中与该执行部件对应的执行部件的标记为未使用，则将该指令加入第一组且将并行执行部件列表中对应的执行部件标记为已使用；若并行执行部件列表中与该执行部件对应的执行部件标记为已使用，则将该指令加入第二组；

S3、将第一组作为当前指令层的指令子层，再将并行执行部件列表中的所有执行部件重新标记为未使用，然后将第二组作为新的当前指令层后执行S2，直至第二组为空，结束本流程。

进一步地，所述步骤3中所述对指令层的层序号进行重新排序更新指令层的层序号的方式为：

遍历指令层表，将各指令层的指令子层均作为独立的指令层，统计指令层总数，记为N；逆序遍历指令层表，将第i次遍历的指令层的序号改为N-i。

有益效果

本发明依据数据依赖关系及指令执行周期将DSP汇编代码中的指令分层为指令层后，再按照对应于不同执行部件的指令并行执行、对应于相同执行部件的指令在不同指令执行周期执行的方式将各指令层内的指令并行分层得到指令子层，最后将指令子层作为指令层后再对指令层重新排序，按照最终的指令层排序以层间顺序执行、层内并行执行的方式完成DSP汇编代码的优化执行，大幅降低了用户操作的复杂度，减少了用户的操作时间，有效改善了用户的操作体验。

附图说明

图1为本发明提供的一种基于指令分层的DSP汇编代码自动优化方法的流程图。

图2为本发明提供的一种基于指令分层的DSP汇编代码自动优化方法的指令分层实例示意图。

图3为本发明提供的一种基于指令分层的DSP汇编代码自动优化方法的同指令层内指令并行分层示意图。

具体实施方式

下面列举实施例，对本发明进行详细描述。

本发明提供的一种基于指令分层的DSP汇编代码自动优化方法，其核心思想是：依据数据依赖关系及指令执行周期将DSP汇编代码中的指令分层为指令层后，再按照对应于不同执行部件的指令并行执行、对应于相同执行部件的指令在不同指令执行周期执行的方式将各指令层内的指令并行分层得到指令子层，最后将指令子层作为指令层后再对指令层重新排序，按照最终的指令层排序以层间顺序执行、层内并行执行的方式完成DSP汇编代码的优化执行。

本发明提供的一种基于指令分层的DSP汇编代码自动优化方法，具体包括以下步骤：

步骤1、分析DSP汇编代码中各指令间的数据依赖关系，根据数据依赖关系及指令执行周期将指令分层，使位于相同指令层的指令间不存在数据依赖关系，位于不同指令层的指令间存在数据依赖关系且位于下层（即具有较大层序号的指令层）的指令依赖于位于上层（即具有较小层序号的指令层）的指令。

由于DSP具有支持超长指令的功能，因此，本发明通过对指令分层以获取可并行执行的指令，再利用DSP的超长指令功能即可达到同时执行多条指令的效果，进而提高程序的计算性能。

每条指令都需要经过一定的时钟周期才能完成执行，这也就是指令执行周期的概念，指令执行周期可以从DSP的指令文档中直接获取。当指令A与指令B之间存在数据依赖关系时，如指令A的输出是指令B的输入，则需要考虑指令A的指令执行周期，那么指令B只能在指令A开始执行后等待指令A的指令执行周期后才能开始执行。

例如，对于图2所示的由顺序执行的16条指令所构成的指令片段，依据16条指令之间的数据依赖关系将其分成7层，即，第一层包含三条指令，分别对寄存器AR0、R41和R40进行赋值；第二层包含两条指令，分别修正R41和R40的值，这两条依赖于第一层中对寄存器R41和R40进行赋值指令的执行结果；第三层包含三条指令，分别对AR1、R31和R30进行赋值，这三条指令依赖于第二层中对寄存器R41和R40修正指令以及第一层中对寄存器AR0进行赋值指令的执行结果。

具体来说，分析DSP汇编代码中各指令间的数据依赖关系，根据数据依赖关系及指令执行周期将指令分层的过程包括：

步骤1.1、根据DSP的指令集构建用于保存指令集中每条指令的指令信息表，记为infos，指令信息表中包含指令名、指令执行周期和执行部件等信息，此外，构建指令表记为cmds及指令层表记为ucmds，指令表包含指令序号、指令名、数据输入寄存器或内存、数据输出寄存器或内存和指令，指令层表包含层序号和指令序号集，指令序号集用于保存属于当前指令层的所有指令的指令序号。

步骤1.2、从DSP汇编代码中按序读取一条指令记为ccmd，解析该指令，获取指令序号、指令名、数据输入寄存器或内存、数据输出寄存器或内存，将该指令存储在指令表cmds中。其中，指令序号为该指令在DSP汇编代码中的序号。

步骤1.3、在指令层表ucmds中，按照层序号以逆序的方式查找指令层表ucmds，令当前查找的层为第Ti层，将步骤1.2读取的指令ccmd与第Ti层中所有指令进行对比，若指令ccmd的数据输入寄存器或内存与第Ti层中任意一条指令Ti_Ai的数据输出寄存器或内存相同，则表示指令ccmd与指令Ti_Ai存在数据依赖关系，并从指令信息表中获取指令Ti_Ai的指令执行周期Ci，再将指令ccmd的指令序号加入到第Ti+Ci-1层的指令序号集中；若对比到指令层表的第一层仍未找到与指令ccmd存在数据依赖关系的层，则将指令ccmd的指令序号加入指令层表ucmds中第1层指令层的指令序号集中。

步骤1.4、若DSP汇编代码中还存在未读取的指令，则执行步骤1.3；否则结束本流程。

由此即可实现指令的分层操作，并将分层结果保存在指令层表中。

步骤2、在同一指令层中，根据DSP的指令文档确定每条指令对应的执行部件，按照对应于不同执行部件的指令并行执行、对应于相同执行部件的指令在不同指令执行周期执行的方式，对各指令层内的指令并行分层得到各指令层的指令子层。

经步骤1分层处理后，相同指令层内的指令间不存在数据依赖关系，因此可以利用DSP的超长指令功能对同一指令层内的指令进行并行分层。其中，DSP的超长指令功能是指在一个指令执行周期内可执行多条指令的功能，但这些并行执行的指令必须运行在不同的执行部件上。并行分层即可实现同时调用不同的执行部件并行执行无数据依赖关系的指令，但由于DSP中各种执行部件的数量是有限的，因此分配了相同执行部件的多条指令需要分批执行，即在不同的指令执行周期中执行。

DSP处理器中运算单元是执行部件，是实现各种DSP算法的核心部分，所有算法的实现都是由运算单元的基本功能组合而成。

例如，如图3所示，对位于第1层的三条指令SMVAGA36.M1、SMOVIL和SMOVIL，采用不同执行部件运行，其中，两条SMOVIL指令使用同一执行部件运行，故一条SMOVIL指令可与SMVAGA36.M1指令并行执行，而另一条SMOVIL则需要在另一个指令执行周期内运行，因此第1层指令层被分为两个并行分层。

其中，完成基于指令可并行性的指令层内的指令并行分层的过程为：

步骤2.1、根据DSP的指令文档获取可并行的执行部件及指令与执行部件间的映射关系，根据可并行的执行部件形成并行执行部件列表ps。

步骤2.2、对指令层表ucmds中的每一层，获取层序号cic和指令序号集ccis；根据映射关系获取指令序号集ccis中各条指令的执行部件，将该执行部件与并行执行部件列表ps进行对比，实现对指令序号集ccis中指令的递归分组。

对指令序号集ccis中指令的递归分组，实现过程如下：

步骤2.2.1、将并行执行部件列表ps中所有执行部件均标记为未使用；

步骤2.2.2、遍历指令序号集ccis中的指令，根据指令的执行部件对指令进行分组，即：若ps中与该执行部件对应的执行部件的标记为未使用，则将该指令序号加入组A且将ps中对应的执行部件标记为已使用；若ps中与该执行部件对应的执行部件标记为已使用，则将该指令序号加入组B；

步骤2.2.3、将组A记为当前指令层的指令子层，再将ps中的所有执行部件重新标记为未使用，然后将组B作为新的指令序号集ccis后执行步骤2.2.2，进行再次分组，直至组B为空，此时说明当前层的并行分层已完成，结束本流程。

步骤3、将指令层表ucmds中各指令层的指令子层均作为独立的指令层后，再对指令层的层序号进行重新排序，更新指令层表ucmds。

对指令层的层序号进行重新排序的实施过程如下：

步骤3.1、顺序遍历指令层表ucmds，各指令层的指令子层均作为独立的指令层，统计指令层总数，记为N；

步骤3.2、逆序遍历指令层表ucmds，将第i次遍历的指令层的序号改为N-i，各指令层的指令子层均作为独立的指令层。

例如，假设原指令层表中包含三层指令层，即第1指令层、第2指令层及第3指令层，其中，第2指令层中包含第2-1指令子层及第2-2指令子层两个指令子层，那么重新编排后的指令层表中应当包含四个指令层，且编号为第4-1指令层、第4-2指令层、第4-3指令层及第4-4指令层，第4-2指令层及第4-3指令层即为原第2指令层中的第2-1指令子层及第2-2指令子层。

步骤4、按照指令层表ucmds中各指令层的层序号，由小到大逐层执行各指令层中的指令，对于位于同一指令层的指令则以并行方式执行，完成DSP汇编代码的自动优化。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于指令分层的DSP汇编代码自动优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的DSP汇编代码自动优化方法，其特征在于，所述步骤2中所述在同一指令层中确定每条指令对应的执行部件的方式为：根据DSP的指令文档确定每条指令对应的执行部件。

3.根据权利要求1所述的DSP汇编代码自动优化方法，其特征在于，所述步骤1中所述分析DSP汇编代码中各指令间的数据依赖关系，根据数据依赖关系及指令执行周期将指令分层，包括：

4.根据权利要求1所述的DSP汇编代码自动优化方法，其特征在于，所述步骤2中所述对各指令层内的指令并行分层得到各指令层的指令子层，包括：

5.根据权利要求4所述的DSP汇编代码自动优化方法，其特征在于，所述步骤2.2中所述对各指令层内指令的递归分组的方式为：

S1、将并行执行部件列表中所有执行部件均标记为未使用；

6.根据权利要求1所述的DSP汇编代码自动优化方法，其特征在于，所述步骤3中所述对指令层的层序号进行重新排序更新指令层的层序号的方式为：