CN111124506A

CN111124506A - 基于应用层的运算卡驱动实现方法

Info

Publication number: CN111124506A
Application number: CN201911100057.8A
Authority: CN
Inventors: 单金良; 阳春; 朱红宏; 胡炜; 李国涛; 李文; 张涛
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-05-08

Abstract

本发明公开了一种基于应用层的运算卡驱动实现方法，包括如下步骤：步骤一、在内核空间完成初始化操作；步骤二、在应用层空间完成全部的业务流程。与现有技术相比，本发明的积极效果是：本发明将硬件可DMA的内存和运算卡的控制寄存器映射到用户空间，提供接口允许应用程序直接将数据放入DMA区域，并允许控制运算卡硬件。在运算完成之后异步调用应用程序事先提供的完成函数，避免了大量数据的拷贝操作。并使用异步完成的方式，允许在一个线程里面实现多个复杂运算，避免过多的CPU任务切换导致的CPU消耗。本发明方法充分利用了CPU的运算能力，提高了复杂运算的整体性能。

Description

基于应用层的运算卡驱动实现方法

技术领域

本发明涉及一种基于应用层的运算卡驱动实现方法。

背景技术

随着传输层设备、应用层设备的研发，越来越多的设备需要在应用层来高速调用硬件设备以实现复杂的运算服务。传统的应用调用内核服务的工作模式逐渐无法满足性能需求。

现有的应用层使用运算卡的典型流程如图1所示，包括如下步骤：

(1)应用程序准备好原始数据。发起系统调用，调用驱动程序提供的接口，将原始数据的地址传递给驱动。

(2)驱动程序将应用程序的原始数据拷贝到运算卡可以访问的DMA区域，操作运算卡硬件，发起运算操作。

(3)运算卡硬件从DMA区域获取原始数据，完成复杂运算。并将运算结果回写到DMA区域。并通过CPU中断通知驱动程序。

(4)驱动程序得到运算完成通知。将对应的DMA区域的数据拷贝到对应的应用程序的空间，并唤醒等待的应用程序。

(5)应用程序被驱动程序唤醒，从中断调用返回。一次复杂运算过程完成。

典型的使用流程中，应用程序在完成一次复杂运算操作时，CPU需要将用户的数据拷贝到DMA区域，并需要在运算完成之后将DMA区域的数据回写到用户空间。并且在多任务处理的时候，应用程序频繁调用系统调用，操作系统需要频繁进行任务切换。这些操作大量地消耗CPU的计算，无法充分利用硬件运算卡的运算能力。

发明内容

为了克服现有技术的上述缺点，本发明提供了一种基于应用层的运算卡驱动实现方法，在应用层实现对DMA内存的管理，运算卡硬件的驱动，能避免应用层与内核驱动的数据拷贝和大量的CPU任务切换，充分利用硬件的特性，提高了复杂运算的整体处理性能。

本发明解决其技术问题所采用的技术方案是：一种基于应用层的运算卡驱动实现方法，包括如下步骤：

步骤一、在内核空间完成初始化操作；

步骤二、在应用层空间完成全部的业务流程。

与现有技术相比，本发明的积极效果是：

本发明将硬件可DMA的内存和运算卡的控制寄存器映射到用户空间，提供接口允许应用程序直接将数据放入DMA区域，并允许控制运算卡硬件。在运算完成之后异步调用应用程序事先提供的完成函数，避免了大量数据的拷贝操作。并使用异步完成的方式，允许在一个线程里面实现多个复杂运算，避免过多的CPU任务切换导致的CPU消耗。本发明方法充分利用了CPU的运算能力，提高了复杂运算的整体性能。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为典型运算卡使用流程；

图2为本发明的运算卡使用流程。

具体实施方式

本发明采用了在内核空间完成必要的初始化操作。在用户空间完成运算的业务逻辑。如图2所示，其功能流程如下:

(1)申请大块可用于DMA传输的内存区域。并提供应用层接口直接访问。

a)在操作系统启动之时保留一整块内存(具体保留的内存数量根据业务的处理能力计算)

b)在Linux操作系统上运行内存需求量较大的应用程序时，由于其采用的默认页面大小为4KB，因而将会产生较多TLB Miss和缺页中断，从而大大影响应用程序的性能。当操作系统以2MB甚至更大作为分页的单位时，将会大大减少TLB Miss和缺页中断的数量。

本发明使用了Hugetlb技术，使用2M作为分页单位，显著提高程序的性能。

(2)将运算卡的控制寄存器映射到用户空间。允许运算卡应用层驱动来进行访问控制。

a)在内核层使用UIO驱动。对外提供控制寄存器的映射。

b)在应用层使用mmap接口映射控制寄存器到应用空间。

(3)应用程序通过运算卡应用层驱动提供的接口分配可用于DMA传输的内存。并将原始数据写入。

a)根据运算卡DMA内存块尺寸的特点。本发明实现了一种固定尺寸的内存块分配的方法。避免了通用内存分配方法导致内外内存碎片的形成。

因为通用的的内存分配方法无法避免内存的碎片形成。基于运算卡内存使用的特点。本发明采用固定尺寸大小的内存块分配。并结合多核cpu将内存分配与cpu任务对应绑定。运算卡任务采用轮询方式处理，避免cpu之间的同步操作。提高了内存分配的效率。

(4)应用程序调用运算卡应用层驱动提供的接口(并提供运算完成的回调函数)。启动运算。

a)充分结合多核cpu的优势。本发明创建与cpu数量相同的任务，并利用操作系统任务绑定功能(操作系统提供的标准接口)将任务和cpu一一对应绑定。为充分利用多核cpu的优势。运算卡设计了多组独立的控制寄存器。多个任务可以独立互不干扰的操作。有效避免了多个cpu任务之间的同步操作。

(5)运算卡完成运算之后通知应用程序(调用应用程序提供的“回调函数”)

a)本发明改变传统通过硬件中断通知运算完成的方法。运算卡完成运算操作之后回写运算任务的完成标记。驱动程序提供了运算任务是否运算完成的接口(下称“轮询接口”)。用户程序在业务主循环中调用驱动程序的“轮询接口”来主动查询任务的完成情况。在有计算任务完成时，“轮询接口”会调用此前应用程序设置的“回调函数”，完成整个计算任务。这些操作全部在一个任务中完成。避免了硬件中断，任务切换导致的cpu开销和cache失效的消耗。

(6)应用程序收到运算完成通知(回调函数被调用)。一次运算完成。

Claims

1.一种基于应用层的运算卡驱动实现方法，其特征在于：包括如下步骤：

步骤一、在内核空间完成初始化操作；

步骤二、在应用层空间完成全部的业务流程。

2.根据权利要求1所述的基于应用层的运算卡驱动实现方法，其特征在于：步骤一所述初始化操作包括：申请可用于DMA的大块内存映射到应用层空间，以及将运算卡的控制寄存器映射到应用层空间。

3.根据权利要求2所述的基于应用层的运算卡驱动实现方法，其特征在于：采用Hugetlb技术，使操作系统以2MB作为分页的单位，以减少TLB Miss和缺页中断的数量。

4.根据权利要求2所述的基于应用层的运算卡驱动实现方法，其特征在于：所述将运算卡的控制寄存器映射到应用层空间的实现方法为：

a)在内核层使用UIO驱动，对外提供控制寄存器的映射。

b)在应用层使用mmap接口映射控制寄存器到应用空间。

5.根据权利要求1所述的基于应用层的运算卡驱动实现方法，其特征在于：步骤二所述在应用层空间完成的全部业务流程包括：

(1)应用程序通过运算卡应用层驱动提供的接口分配可用于DMA传输的内存，并将原始数据写入；

(2)应用程序调用运算卡应用层驱动提供的接口，并提供运算完成的回调函数，启动运算；

(3)运算卡完成运算之后通知应用程序；

(4)应用程序收到运算完成通知，一次运算完成。

6.根据权利要求5所述的基于应用层的运算卡驱动实现方法，其特征在于：所述内存的分配方法为：采用固定尺寸大小的内存块分配方法。

7.根据权利要求5所述的基于应用层的运算卡驱动实现方法，其特征在于：在进行运算时，创建与cpu数量相同的任务，并利用操作系统任务绑定功能将任务和cpu一一对应绑定；并通过独立的控制寄存器使得多个任务能独立互不干扰地操作。

8.根据权利要求5所述的基于应用层的运算卡驱动实现方法，其特征在于：所述运算卡完成运算之后通知应用程序的方法为：在运算卡完成运算之后回写运算任务的完成标记；用户程序在业务主循环中调用驱动程序提供的轮询接口来主动查询任务的完成情况，在有计算任务完成时，轮询接口会调用回调函数，完成整个计算任务。