CN112433847B

CN112433847B - 一种OpenCL内核提交的方法及装置

Info

Publication number: CN112433847B
Application number: CN202011238830.XA
Authority: CN
Inventors: 许世文; 樊宇; 解文华; 张坤
Original assignee: Wuhan Lingjiu Microelectronics Co ltd; China State Shipbuilding Corp Ltd
Current assignee: Wuhan Lingjiu Microelectronics Co ltd; China State Shipbuilding Corp Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2024-04-02
Anticipated expiration: 2040-11-09
Also published as: CN112433847A

Abstract

本发明公开了一种OpenCL内核提交的方法，步骤如下：1、将内核信息传递给OpenCL的内核；2、工作项维度从一维转二维；3、检查OpenCL内核是否使用了局部内存，若使用了则申请空间保存；4、检查局部工作组的大小；5、将包含OpenCL内核信息的命令缓冲提交到硬件设备。本发明还公开了一种OpenCL内核提交的装置，包括：内核信息创建提交模块；工作项维度转换模块；局部内存变量模块；局部工作组模块；OpenCL工作线程模块。本发明在保证满足OpenCL标准框架的前提下，给硬件合理的分配工作任务，将OpenCL内核提交到硬件进行执行，提高并行运算的效率，可以广泛应用于高性能并行计算领域。

Description

一种OpenCL内核提交的方法及装置

技术领域

本发明涉及计算机高性能并行计算领域，特别是涉及一种OpenCL内核提交的方法及装置。

背景技术

近年来，高性能并行计算技术快速发展，OpenCL作为并行计算的通用标准被各大芯片厂商广泛采用。

OpenCL是为了解决不同架构的硬件间的并行计算问题而产生的，OpenCL标准能够让开发人员专注于算法的设计和优化，而不需要关注各个平台的编程语言以及底层硬件的细节等问题，极大的提高了开发效率。

OpenCL内核通俗来讲就是在硬件中执行的一个函数，计算设备中的每个计算单元都会执行相同的函数，但是使用的数据却不同，从而达到并行运算高效处理大量数据的目的。OpenCL标准只规定了通用的编程框架，具体的计算方法仍需要各大厂商自行设计。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种OpenCL内核提交的方法及装置，使其在保证满足OpenCL标准框架的前提下，给硬件合理的分配工作任务，将OpenCL内核提交到硬件进行执行，提高并行运算的效率。

本发明提供的一种OpenCL内核提交的方法，包括如下步骤：S1、在主机程序中创建内核后，将内核信息传递给OpenCL的内核提交模块；S2、检查工作项维度是否满足从一维转二维的条件，若满足则进行转换；S3、检查OpenCL内核是否使用了局部内存，若使用了该类型的变量，则在特定存储区域申请相应大小的空间保存该变量；S4、检查OpenCL内核中是否设置了局部工作组的大小，若已设置则需要判断设置的数据是否合法，若不合法或未设置则自适应分配一个合适的局部工作组项数；S5、启动OpenCL的工作线程，将包含OpenCL内核信息的命令缓冲提交到硬件设备。

在上述技术方案中，所述步骤S2包括如下子步骤：S21、判断工作项维度的大小和全局工作项数量的值，若同时满足维度为1且全局工作项数量的值大于最大全局工作项数量这两个条件，则执行子步骤S22，若不满足条件，则跳转执行步骤S3；S22、首先取一个值base作为一个基数，用来将工作项的维度由1维变为2维，若在步骤S1中传递的参数中设置了局部工作组项数的值，则将其值作为base的初始值，否则令base为一个合适的初始常数值，这个值取决于设备所能支持的最大并行工作项数量和工作组数量；S23、用全局工作项数量的值除以base，设得到的商为result，得到的余数为mod；S24、判断result的大小，若小于或等于最大全局工作项数量,则继续判断mod的值，若不为0，则转化后的2维工作项大小为GlobalWorkSize[result+1,base]；若为0，则转化后的2维工作项大小GlobalWorkSize[result,base]；若result的值大于MaxGlobalWorkSize，则将base变为原来的2倍并跳转到子步骤S23；S25、检查OpenCL内核中是否设置了参数全局偏移量的值，若设置了全局偏移量的值且不为0，则将全局偏移量的值去除以子步骤S21到子步骤S24中得到的base值，得到的新的商为result_offset和余数mod_offset，得到转化后的2维数组偏移量大小为GlobalWorkOffset[result_offset，result_mod]。

在上述技术方案中，所述步骤S3包括如下子步骤：S31、从OpenCL内核中依次读取所有设置为OpenCL局部内存类型的变量，计算它们各自的大小，得到需要的空间大小之和；S32、从设备上动态分配一块所需空间之和容量的非主机内存；S33、将所有的OpenCL局部内存类型变量的值写入到所述非主机内存区域中，并返回相对应的指针以供后续访问。

在上述技术方案中，所述步骤S4包括如下子步骤：S41、检查OpenCL内核中是否设置了局部工作组的大小，若已设置则检查全局工作项大小是否与局部工作组大小成倍数关系且局部工作组的值小于最大局部工作组大小，若满足关系则执行子步骤S51，若不满足关系则执行子步骤S42；S42、给局部工作组预设一个值Size，对每一个维度的工作项，比较最大全局工作项数量除以Size的商和最大工作组数量的大小关系，若前者小于或等于后者，则取Size为最终的局部工作组在对应维度上的值；否则执行子步骤S43；S43、将Size变为原来的两倍，并比较此时的Size是否大于最大局部工作组大小，若是则取Size的一半为局部工作组在对应维度上的值，否则跳转到子步骤S42。

在上述技术方案中，所述步骤S5包括如下子步骤：S51、刷新相关着色器状态以及指令这些相关数据，根据工作项的分配情况计算执行OpenCL内核所要分配的线程数；S52、将OpenCL内核的信息传递给计算设备系统的命令队列中，修改命令队列的状态，使得包含OpenCL内核信息的命令进入硬件设备中，以指定的线程数并行执行，最终完成OpenCL内核的提交。

本发明还提供了一种OpenCL内核提交的装置，包括如下部分：内核信息创建提交模块：在主机程序中创建内核后，将内核信息传递给OpenCL的内核提交模块；工作项维度转换模块：检查工作项维度是否满足从一维转二维的条件，若满足则进行转换；局部内存变量模块：检查OpenCL内核是否使用了局部内存，若使用了该类型的变量，则在特定存储区域申请相应大小的空间保存该变量；局部工作组模块：检查OpenCL内核中是否设置了局部工作组的大小，若已设置则需要判断设置的数据是否合法，若不合法或未设置则自适应分配一个合适的局部工作组项数；OpenCL工作线程模块：启动OpenCL的工作线程，将包含OpenCL内核信息的命令缓冲提交到硬件设备。

在上述技术方案中，所述工作项维度转换模块包括如下单元：工作项维度判断单元：判断工作项维度的大小和全局工作项数量的值，若同时满足维度为1且全局工作项数量的值大于最大全局工作项数量这两个条件，则执行base值设定单元，若不满足条件，则跳转执行局部内存变量模块；base值设定单元：首先取一个值base作为一个基数，用来将工作项的维度由1维变为2维，若在内核信息创建提交模块中传递的参数中设置了局部工作组项数的值，则将其值作为base的初始值，否则令base为一个合适的初始常数值，这个值取决于设备所能支持的最大并行工作项数量和工作组数量；全局工作项数量除法单元：用全局工作项数量的值除以base，设得到的商为result，得到的余数为mod；result大小判断单元：判断result的大小，若小于或等于最大全局工作项数量,则继续判断mod的值，若不为0，则转化后的2维工作项大小为GlobalWorkSize[result+1,base]；若为0，则转化后的2维工作项大小GlobalWorkSize[result,base]；若result的值大于MaxGlobalWorkSize，则将base变为原来的2倍并跳转到子步骤S23；全局偏移量单元：检查OpenCL内核中是否设置了参数全局偏移量的值，若设置了全局偏移量的值且不为0，则将全局偏移量的值去分别除以工作项维度判断单元、base值设定单元、全局工作项数量除法单元和result大小判断单元中得到的base值，得到的新的商为result_offset和余数mod_offset，得到转化后的2维数组偏移量大小为GlobalWorkOffset[result_offset，result_mod]。

在上述技术方案中，所述局部内存变量模块包括如下单元：OpenCL局部内存变量单元：从OpenCL内核中依次读取所有设置为OpenCL局部内存类型的变量，计算它们各自的大小，得到需要的空间大小之和；动态分配单元：从设备上动态分配一块所需空间之和容量的非主机内存；OpenCL局部内存变量写入单元：将所有的OpenCL局部内存类型变量的值写入到所述非主机内存区域中，并返回相对应的指针以供后续访问。

在上述技术方案中，所述局部工作组模块包括如下单元：局部工作组判断单元：检查OpenCL内核中是否设置了局部工作组的大小，若已设置则检查全局工作项大小是否与局部工作组大小成倍数关系且局部工作组的值小于最大局部工作组大小，若满足关系则执行OpenCL内核线程分配单元，若不满足关系则执行局部工作组值Size预设单元；局部工作组值Size预设单元：给局部工作组预设一个值Size，对每一个维度的工作项，比较最大全局工作项数量除以Size的商和最大工作组数量的大小关系，若前者小于或等于后者，则取Size为最终的局部工作组在对应维度上的值；否则执行局部工作组值Size比较单元；局部工作组值Size比较单元：将Size变为原来的两倍，并比较此时的Size是否大于最大局部工作组大小，若是则取Size的一半为局部工作组在对应维度上的值，否则跳转到局部工作组值Size预设单元。

在上述技术方案中，所述OpenCL工作线程模块包括如下单元：OpenCL内核线程分配单元：刷新相关着色器状态以及指令这些相关数据，根据工作项的分配情况计算执行OpenCL内核所要分配的线程数；OpenCL内核信息提交单元：将OpenCL内核的信息传递给计算设备系统的命令队列中，修改命令队列的状态，使得包含OpenCL内核信息的命令进入硬件设备中，以指定的线程数并行执行，最终完成OpenCL内核的提交。

本发明OpenCL内核提交的方法及装置，具有以下有益效果：

在满足OpenCL标准框架的前提下，通过给硬件合理的分配工作任务，将OpenCL内核提交到硬件进行执行，提高了并行运算的效率。

附图说明

图1为本发明OpenCL内核提交的方法的整体流程示意图；

图2为本发明OpenCL内核提交的方法中步骤S2的流程示意图；

图3为本发明OpenCL内核提交的方法中步骤S3的流程示意图；

图4为本发明OpenCL内核提交的方法中步骤S4的流程示意图；

图5为本发明OpenCL内核提交的方法中步骤S5的流程示意图；

图6为本发明OpenCL内核提交的装置的整体结构示意图；

图7为本发明OpenCL内核提交的装置中工作项维度转换模块的结构示意图；

图8为本发明OpenCL内核提交的装置中局部内存变量模块的结构示意图；

图9为本发明OpenCL内核提交的装置中局部工作组模块的结构示意图；

图10为本发明OpenCL内核提交的装置中OpenCL工作线程模块的结构示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细描述，但该实施例不应理解为对本发明的限制。

如图1所示，本发明提供了一种OpenCL内核提交的方法，其包括如下步骤：

S1、在主机程序中创建内核后，将内核信息传递给OpenCL的内核提交模块。

S2、检查工作项维度是否满足从一维转二维的条件，若满足则进行转换。

可选地，如图2所示，所述步骤S2包括如下子步骤：

S21、判断工作项维度的大小和GlobalWorkSize(全局工作项数量)的值，若同时满足维度为1且GlobalWorkSize的值大于MaxGlobalWorkSize(最大全局工作项数量)这两个条件，则执行步骤S22，若不满足条件，则跳转执行步骤S3。

S22、首先取一个值base作为一个基数，用来将工作项的维度由1维变为2维，若在S1中传递的参数中设置了LocalWorkSize(局部工作组项数)的值，则将其值作为base的初始值，否则令base为一个合适的初始常数值，这个值取决于设备所能支持的最大并行工作项数量和工作组数量。

S23、用GlobalWorkSize的值除以base，设得到的商为result，得到的余数为mod。

S24、判断result的大小，若小于或等于MaxGlobalWorkSize,则继续判断mod的值，若不为0，则转化后的2维工作项大小为GlobalWorkSize[result+1,base]；若为0，则转化后的2维工作项大小GlobalWorkSize[result,base]。若result的值大于MaxGlobalWorkSize，则将base变为原来的2倍并跳转到步骤S23。

S25、检查OpenCL内核中是否设置了参数GlobalWorkOffset(全局偏移量)的值，若设置了GlobalWorkOffset的值且不为0，则将GlobalWorkOffset的值去除以步骤S21到S24中得到的base值，得到的新的商为result_offset和余数mod_offset，得到转化后的2维数组偏移量大小为GlobalWorkOffset[result_offset，result_mod]。

S3、检查OpenCL内核是否使用了局部内存，若使用了该类型的变量，则在特定存储区域申请相应大小的空间保存该变量。

可选地，如图3所示，所述步骤S3包括如下子步骤

S31、从OpenCL内核中依次读取所有设置为OpenCL局部内存类型的变量，计算它们各自的大小，得到需要的空间大小之和。

S32、从设备上动态分配一块所需空间之和容量的非主机内存。

S33、将所有的OpenCL局部内存类型变量的值写入到这块内存区域中，并返回相对应的指针以供后续访问。

S4、检查OpenCL内核中是否设置了局部工作组的大小，若已设置则需要判断设置的数据是否合法，若不合法或未设置则自适应分配一个合适的局部工作组大小。

可选地，如图4所示，所述步骤S4包括如下子步骤：

S41、检查OpenCL内核中是否设置了局部工作组的大小，若已设置则检查全局工作项大小是否与局部工作组大小成倍数关系且局部工作组的值小于MaxLocalWorkSize(最大局部工作组大小)，若满足关系则执行步骤S51，若不满足关系则执行步骤S42。

S42、给LocalWorkSize(局部工作组)预设一个值Size，这个值的大小取决于计算设备的着色器核心的数量。对每一个维度的工作项，比较MaxGlobalWorkSize(最大工作项数量)除以Size的商和MaxWorkGroupCount(最大工作组数量)的大小关系，若前者小于或等于后者，则取Size为最终的LocalWorkSize在对应维度上的值；否则执行步骤S43。

S43、将Size变为原来的两倍，并比较此时的Size是否大于MaxLocalWorkSize(最大局部工作组大小)，若是则取Size的一半为LocalWorkSize在对应维度上的值，否则跳转到步骤S42。

S5、启动OpenCL的工作线程，将包含OpenCL内核信息的命令缓冲提交到硬件设备。

可选地，如图5所示，所述步骤S5包括如下子步骤：

S51、刷新相关着色器状态以及指令等相关数据，根据工作项的分配情况计算执行OpenCL内核所要分配的线程数。

S52、将OpenCL内核的信息传递给计算设备系统的命令队列中，修改命令队列的状态，使得包含有OpenCL内核信息的命令进入硬件设备中，以指定的线程数并行执行，最终完成OpenCL内核的提交。

如图6所示，本发明还提供了一种OpenCL内核提交的装置，包括如下部分：

内核信息创建提交模块：在主机程序中创建内核后，将内核信息传递给OpenCL的内核提交模块；

工作项维度转换模块：检查工作项维度是否满足从一维转二维的条件，若满足则进行转换；

可选地，如图7所示，所述工作项维度转换模块包括如下单元：

工作项维度判断单元：判断工作项维度的大小和全局工作项数量的值，若同时满足维度为1且全局工作项数量的值大于最大全局工作项数量这两个条件，则执行base值设定单元，若不满足条件，则跳转执行局部内存变量模块；

base值设定单元：首先取一个值base作为一个基数，用来将工作项的维度由1维变为2维，若在内核信息创建提交模块中传递的参数中设置了局部工作组项数的值，则将其值作为base的初始值，否则令base为一个合适的初始常数值，这个值取决于设备所能支持的最大并行工作项数量和工作组数量；

全局工作项数量除法单元：用全局工作项数量的值除以base，设得到的商为result，得到的余数为mod；

result大小判断单元：判断result的大小，若小于或等于最大全局工作项数量,则继续判断mod的值，若不为0，则转化后的2维工作项大小为GlobalWorkSize[result+1,base]；若为0，则转化后的2维工作项大小GlobalWorkSize[result,base]；若result的值大于MaxGlobalWorkSize，则将base变为原来的2倍并跳转到子步骤S23；

全局偏移量单元：检查OpenCL内核中是否设置了参数全局偏移量的值，若设置了全局偏移量的值且不为0，则将全局偏移量的值去分别除以工作项维度判断单元、base值设定单元、全局工作项数量除法单元和result大小判断单元中得到的base值，得到的新的商为result_offset和余数mod_offset，得到转化后的2维数组偏移量大小为GlobalWorkOffset[result_offset，result_mod]；

局部内存变量模块：检查OpenCL内核是否使用了局部内存，若使用了该类型的变量，则在特定存储区域申请相应大小的空间保存该变量；

可选地，如图8所示，所述局部内存变量模块包括如下单元：

OpenCL局部内存变量单元：从OpenCL内核中依次读取所有设置为OpenCL局部内存类型的变量，计算它们各自的大小，得到需要的空间大小之和；

动态分配单元：从设备上动态分配一块所需空间之和容量的非主机内存；

OpenCL局部内存变量写入单元：将所有的OpenCL局部内存类型变量的值写入到所述非主机内存区域中，并返回相对应的指针以供后续访问；

局部工作组模块：检查OpenCL内核中是否设置了局部工作组的大小，若已设置则需要判断设置的数据是否合法，若不合法或未设置则自适应分配一个合适的局部工作组项数；

可选地，如图9所示，所述局部工作组模块包括如下单元：

局部工作组判断单元：检查OpenCL内核中是否设置了局部工作组的大小，若已设置则检查全局工作项大小是否与局部工作组大小成倍数关系且局部工作组的值小于最大局部工作组大小，若满足关系则执行OpenCL内核线程分配单元，若不满足关系则执行局部工作组值Size预设单元；

局部工作组值Size预设单元：给局部工作组预设一个值Size，对每一个维度的工作项，比较最大全局工作项数量除以Size的商和最大工作组数量的大小关系，若前者小于或等于后者，则取Size为最终的局部工作组在对应维度上的值；否则执行局部工作组值Size比较单元；

局部工作组值Size比较单元：将Size变为原来的两倍，并比较此时的Size是否大于最大局部工作组大小，若是则取Size的一半为局部工作组在对应维度上的值，否则跳转到局部工作组值Size预设单元；

OpenCL工作线程模块：启动OpenCL的工作线程，将包含OpenCL内核信息的命令缓冲提交到硬件设备；

可选地，如图10所示，所述OpenCL工作线程模块包括如下单元：

OpenCL内核线程分配单元：刷新相关着色器状态以及指令这些相关数据，根据工作项的分配情况计算执行OpenCL内核所要分配的线程数；

OpenCL内核信息提交单元：将OpenCL内核的信息传递给计算设备系统的命令队列中，修改命令队列的状态，使得包含OpenCL内核信息的命令进入硬件设备中，以指定的线程数并行执行，最终完成OpenCL内核的提交。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种OpenCL内核提交的方法，其特征在于：包括如下步骤：

S1、在主机程序中创建内核后，将内核信息传递给OpenCL的内核提交模块；

S2、检查工作项维度是否满足从一维转二维的条件，若满足则进行转换；

S3、检查OpenCL内核是否使用了局部内存，若使用了局部内存类型的变量，则在特定存储区域申请相应大小的空间保存该变量；

S4、检查OpenCL内核中是否设置了局部工作组的大小，若已设置则需要判断设置的数据是否合法，若不合法或未设置则自适应分配一个合适的局部工作组项数；

S5、启动OpenCL的工作线程，将包含OpenCL内核信息的命令缓冲提交到硬件设备；其中所述步骤S2包括如下子步骤：

S21、判断工作项维度的大小和全局工作项数量的值，若同时满足维度为1且全局工作项数量的值大于最大全局工作项数量这两个条件，则执行子步骤S22，若不满足条件，则跳转执行步骤S3；

S22、首先取一个值base作为一个基数，用来将工作项的维度由1维变为2维，若在步骤S1中传递的参数中设置了局部工作组项数的值，则将其值作为base的初始值，否则令base为一个合适的初始常数值，这个值取决于设备所能支持的最大并行工作项数量和工作组数量；

S23、用全局工作项数量的值除以base，设得到的商为result，得到的余数为mod；

S24、判断result的大小，若小于或等于最大全局工作项数量,则继续判断mod的值，若不为0，则转化后的2维工作项大小为GlobalWorkSize[result+1,base]；

若为0，则转化后的2维工作项大小GlobalWorkSize[result,base]；若result的值大于最大全局工作项数量MaxGlobalWorkSize，则将base变为原来的2倍并跳转到子步骤S23；

S25、检查OpenCL内核中是否设置了参数全局偏移量的值，若设置了全局偏移量的值且不为0，则将全局偏移量的值去除以子步骤S21到子步骤S24中得到的base值，得到的新的商为result_offset和余数mod_offset，得到转化后的2维数组偏移量大小为GlobalWorkOffset[result_offset，mod_offset]；

所述步骤S3包括如下子步骤：

S31、从OpenCL内核中依次读取所有设置为OpenCL局部内存类型的变量，计算它们各自的大小，得到需要的空间大小之和；

S32、从设备上动态分配一块所需空间大小之和容量的非主机内存；

S33、将所有的OpenCL局部内存类型变量的值写入到所述非主机内存区域中，并返回相对应的指针以供后续访问；

所述步骤S4包括如下子步骤：

S41、检查OpenCL内核中是否设置了局部工作组的大小，若已设置则检查全局工作项大小是否与局部工作组大小成倍数关系且局部工作组的值小于最大局部工作组大小，若满足关系则执行子步骤S51，若不满足关系则执行子步骤S42；

S42、给局部工作组预设一个值Size，对每一个维度的工作项，比较最大全局工作项数量除以Size的商和最大工作组数量的大小关系，若前者小于或等于后者，则取Size为最终的局部工作组在对应维度上的值；否则执行子步骤S43；

S43、将Size变为原来的两倍，并比较此时的Size是否大于最大局部工作组大小，若是则取Size的一半为局部工作组在对应维度上的值，否则跳转到子步骤S42；

所述步骤S5包括如下子步骤：

S51、刷新相关着色器状态以及指令，根据工作项的分配情况计算执行OpenCL内核所要分配的线程数；

S52、将OpenCL内核的信息传递给计算设备系统的命令队列中，修改命令队列的状态，使得包含OpenCL内核信息的命令进入硬件设备中，以指定的线程数并行执行，最终完成OpenCL内核的提交。

2.一种OpenCL内核提交的装置，其特征在于：包括如下部分：

其中所述工作项维度转换模块包括如下单元：

result大小判断单元：判断result的大小，若小于或等于最大全局工作项数量,则继续判断mod的值，若不为0，则转化后的2维工作项大小为GlobalWorkSize[result+1,base]；若为0，则转化后的2维工作项大小GlobalWorkSize[result,base]；若result的值大于最大全局工作项数量MaxGlobalWorkSize，则将base变为原来的2倍并执行全局工作项数量除法单元；全局偏移量单元：检查OpenCL内核中是否设置了参数全局偏移量的值，若设置了全局偏移量的值且不为0，则将全局偏移量的值去分别除以工作项维度判断单元、base值设定单元、全局工作项数量除法单元和result大小判断单元中得到的base值，得到的新的商为result_offset和余数mod_offset，得到转化后的2维数组偏移量大小为GlobalWorkOffset[result_offset，mod_offset]；

所述局部内存变量模块包括如下单元：

动态分配单元：从设备上动态分配一块所需空间大小之和容量的非主机内存；OpenCL局部内存变量写入单元：将所有的OpenCL局部内存类型变量的值写入到所述非主机内存区域中，并返回相对应的指针以供后续访问；所述局部工作组模块包括如下单元：

所述OpenCL工作线程模块包括如下单元：

OpenCL内核线程分配单元：刷新相关着色器状态以及指令，根据工作项的分配情况计算执行OpenCL内核所要分配的线程数；