CN109388495A

CN109388495A - 一种基于单gpu卡的图像并发处理方法、装置及系统

Info

Publication number: CN109388495A
Application number: CN201811296753.6A
Authority: CN
Inventors: 安玉山
Original assignee: Beijing Shizhen Intelligent Technology Co Ltd
Current assignee: Beijing Shizhen Intelligent Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2019-02-26

Abstract

本发明实施例公开了一种基于单GPU卡的图像并发处理方法、装置及系统，该方法包括：接收用户提交的任务；将任务加入到任务队列，并为任务配置与之对应的任务线程；将配置好的任务线程按序加入到线程池中；根据图形处理器GPU卡的内存和线程池中每一个任务线程执行时占用的内存，合理的从线程池中选取一个或多个任务线程提交至GPU卡，以便GPU卡对一个或多个任务线程并行处理。通过上述方式，可以保证GPU的资源能够充分利用，避免资源浪费，使其空闲、空余占比大大减少，有效增加了系统的吞吐能力。此外，多个任务线程同时处理，可以具备更好的加速比，进一步提升处理效率。

Description

一种基于单GPU卡的图像并发处理方法、装置及系统

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于单GPU卡的图像并发处理方法、装置及系统。

背景技术

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

目前，深度学习应用最主要的计算方式是前向传播。在现如今大量应用场景需求下，对于深度学习计算性能的要求越来越高。而其中最常用的提高计算性能的方法是使用图形处理器(Graphics Processing Unit，简称GPU)加速计算，以达到更高的系统吞吐量。经典的GPU加速计算注重于发挥GPU加速硬件的性能潜力，将深度学习前向传播过程中计算密集部分使用GPU进行计算，并进行深入优化来达到更高的加速效果。

即便如此，GPU硬件的实际利用率仍然没有达到理想的效果，造成了GPU资源的浪费。

发明内容

本发明实施例的目的在于提供一种基于单GPU卡的图像并发处理方法、装置及系统，用以解决在进行深度学习应用时，CPU硬件的实际利用率不高，造成资源浪费的问题。

为实现上述目的，本发明实施例提供一种基于单GPU卡的图像并发处理方法，该方法包括：

接收用户提交的任务，其中任务为用户根据待处理的对象和处理需求建立的任务；

将任务加入到任务队列，并为任务配置与之对应的任务线程；

将配置好的任务线程按序加入到线程池中，线程池中包含至少两个任务线程；

根据图形处理器GPU卡的内存和线程池中每一个任务线程执行时占用的内存，合理的从线程池中选取一个或多个任务线程提交至GPU卡，以便GPU卡对一个或多个任务线程并行处理。

本发明实施例具有如下优点：接收用户提交的任务后，将任务加入队列后配置与之对应的任务线程。然后根据GPU内存和每一个任务线程占用的内存，确定GPU可以同时处理的任务线程。通过上述方式，可以保证GPU的资源能够充分利用，避免资源浪费，使其空闲、空余占比大大减少，有效增加了系统的吞吐能力。此外，多个任务线程同时处理，可以具备更好的加速比，进一步提升处理效率。

为实现上述目的，本发明实施例提供一种基于单GPU卡的图像并发处理装置，该装置包括：

接收单元，用于接收用户提交的任务，其中任务为用户根据待处理的对象和处理需求建立的任务；

配置单元，用于将任务加入到任务队列，并为任务配置与之对应的任务线程；

处理单元，用于将配置好的任务线程按序加入到线程池中，线程池中包含至少两个任务线程；

为实现上述目的，本发明实施例提供一种基于单GPU卡的图像并发处理系统，该系统包括：

任务管理器和GPU卡；

任务管理器用于执行如上所介绍的一种基于单GPU卡的图像并发处理的方法，GPU卡用于在接收到任务管理器提交的一个或多个任务线程后，反馈与一个或多个任务线程对应的响应信息至任务管理器；对任务管理器提交的一个或多个任务线程并行；以及，当确定一个或多个任务线程中部分任务线程无法执行时，向任务管理器发送通知消息。

为实现上述目的，本发明实施例提供一种计算机存储介质，该计算机存储介质包括：计算机程序指令。计算机程序指令用于如上的基于单GPU卡的图像并发处理系统中任务管理器和GPU卡分别执行与自身对应的方法步骤。

附图说明

图1为本发明实施例1提供的基于单GPU卡的图像并发处理方法流程示意图。

图2为本发明实施例2提供的基于单GPU卡的图像并发处理装置结构示意图；

图3为本发明实施例3提供的基于单GPU卡的图像并发处理系统结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例1

本发明实施例1提供了一种基于单GPU卡的图像并发处理方法流程示意图，具体如图1所示。该方法由任务管理器执行，该方法包括：

步骤110，接收用户提交的任务。

具体的，用户提交的任务是根据自身的处理需求和待处理的对象建立的。例如，用户需要对人脸图像进行识别，那么提交的任务可以包括检测人脸对象、提取人脸特征，以及判断活体检测等3个任务。处理需求实际可以理解为任务类型，待处理的对象则是任务数据。此外，用户还可以在提交任务时，定义前向依赖任务。比如，检测人脸对象就是提取人脸特征的前向依赖任务，提取人脸特征就是判断活体检测的前向依赖任务。而在后的任务只有在前向依赖任务完成后才能够被调度执行。

步骤120，将任务加入到任务队列，并为任务配置与之对应的任务线程。

具体的，将包含任务类型和任务数据的任务加入到任务队列中。任务的调度执行策略上可以使用先进先服务(First In First Serve，简称FIFS)原则。在执行任务之前，需要为其配置与之对应的任务线程。而任务线程是在系统初始化时就创建出所有线程，也即是方便后续根据具体调度分配线程去执行相应任务。

步骤130，将配置好的任务线程按序加入到线程池中，线程池中包含至少两个任务线程。

具体的，由于用户可能不止一个，那么系统会将每个用户提交的任务都按照步骤110-步骤130的方式加入到线程池中，因此线程池中包含了至少两个任务线程。

步骤140，根据GPU卡的内存和线程池中每一个任务线程执行时占用的内存，合理的从线程池中选取一个或多个任务线程提交至GPU卡，以便GPU卡对一个或多个任务线程并行处理。

具体的，为了保证GPU卡能够将自己的资源充分利用，但是不超过其所能够处理的负荷状态，就需要事先确定GPU卡的内存和线程池中每一个任务线程执行时所占用的内存，GPU卡的内存可以通过系统自动查询获取。而每一个任务线程所占用的内存可以是通过用户自己提交任务后填写大约占用的内存。又或者，由系统自身查询获知。该方式主要是在GPU执行任务之后，可以获知某一个任务类型所需要占用的内存，然后记录。后续如果仍然有该类型任务时，可以就匹配到该类型任务所占用的内存。在实际应用过程中，一般以用户输入的为准，只有用户不清楚的情况下，可以采用后一种方式大约确定用户提交任务所占用的内存。具体的方式可根据实际情况设定，这里不做过多限定。具体的方式可根据实际情况设定，这里不做过多限定。

在获知后，可以计算出GPU卡可以同时处理多少个任务线程。那么，则将已经计算好数量的任务线程提交到GPU卡中。这里需要注意的是，选取任务线程时，优选的方案是依顺序选取。也即是上文所说的先进先服务原则。比如，显卡内存为100M，前3个任务线程所占用内存为98M，第二个任务线程为4M，那么，则可以优先处理前3个任务线程。则将前3个任务线程提交到GPU卡中。不过将任务线程提交至GPU卡中时需要串行提交。GPU等待任务管理器告知所有待提交的线程都提交完成后，再执行并行处理。当然，也可以在依序执行任务线程的前提下，适应体征任务线程执行顺序，尽量保证GPU卡的资源能够得到充分利用。例如，如果GPU卡内存有100M，而前3个任务线程占用内存总和为98M，第4个任务线程占用内存4M，第5个任务线程占用内存为2M。此时，就可以将前3个任务线程和第5个任务线程串行提交到GPU卡中，便于GPU卡能够同时处理这4个任务线程。

可选的，在执行步骤130之后，也即是已经将任务线程提交到GPU卡之后，GPU卡在接收到任务线程后，会自动为每一个任务线程分配一个序列号。通过这个序列号可以查询到该任务线程在GPU卡中的处理进程。而这个序列号将会通过GPU卡响应信息的形式反馈给用户。以便于用户可以根据该响应信息中的序列号在后续查询任务线程的进度。

因此，该方法还包括：接收GPU卡反馈的分别与一个或多个任务线程中每一个任务线程对应的响应信息，以便根据响应信息查询GPU卡处理一个或多个任务线程的进度。

进一步可选的，当根据响应信息确定GPU卡对一个或多个任务线程中的第一任务线程处理完成时，从GPU卡中读取处理结果，并删除与第一任务线程对应的任务，其中，第一任务线程为一个或多个任务线程中的任一个任务线程。

也即是，如果用户根据响应信息确定自身提交的任务已经在GPU卡中执行完成，会通过任务管理器从GPU卡中读取结果，在读取结果后，如果不再使用该任务，则可以通过任务管理器将其删除。不过，由于提交任务是异步的，所以任务管理器需要在使用任务结果数据之前，进行同步等待操作，等当前GPU卡执行的所有任务线程均完成后才可以去除结果数据。

可选的，在执行步骤140之前，该方法还可以包括：

分别确定一个或多个任务线程中第一任务线程是否存在前向依赖任务线程。如果存在前向依赖任务线程，则还需要判断前向依赖任务线程是否已经执行完毕，如果没有执行完毕，则需要将第一任务线程加入到线程池中任务线程队尾。然后从线程池中按序提取与GPU卡对应的任务线程，提交至GPU卡。而后续当按序又需要将第一任务线程提交至GPU卡之前，再次判断与之对应的前向依赖任务线程是否执行完毕。如果已经执行完毕，则将第一任务线程提交至GPU卡中。

而第一任务线程是否存在前向依赖任务线程，是在用户提交任务时就已经确定了的。已在上文中做了说明。并且，第一任务线程对应的任务会绑定前向依赖任务指针，如此，后续就可以在提交第一任务线程至GPU卡之前时，通过前向依赖任务指针查询到前向依赖任务，进而确定前向依赖任务是否执行完毕。如果完毕，则可以将第一任务线程提交至GPU卡。。

本发明实施例提供的一种基于单GPU卡的图像并发处理方法，接收用户提交的任务后，将任务加入队列后配置与之对应的任务线程。然后根据GPU内存和每一个任务线程占用的内存，确定GPU可以同时处理的任务线程。通过上述方式，可以保证GPU的资源能够充分利用，避免资源浪费，使其空闲、空余占比大大减少，有效增加了系统的吞吐能力。此外，多个任务线程同时处理，可以具备更好的加速比，进一步提升处理效率。

实施例2

与上述实施例相对应的，本发明实施例2提供了一种基于单GPU卡的图像并发处理装置结构示意图，具体如图2所示。该装置包括：接收单元201、配置单元202和处理单元203。

接收单元201，用于接收用户提交的任务，其中任务为用户根据待处理的对象和处理需求建立的任务；

配置单元202，用于将任务加入到任务队列，并为任务配置与之对应的任务线程；

处理单元203，用于将配置好的任务线程按序加入到线程池中，线程池中包含至少两个任务线程；

可选的，用户提交的任务包括至少一个。

可选的，接收单元201还用于，接收GPU卡反馈的分别与一个或多个任务线程中每一个任务线程对应的响应信息，以便根据响应信息查询GPU卡处理一个或多个任务线程的进度；

处理单元203还用于，当根据响应信息确定GPU卡对一个或多个任务线程中的第一任务线程处理完成时，从GPU卡中读取处理结果，并删除与第一任务线程对应的任务，其中，第一任务线程为一个或多个任务线程中的任一个任务线程。

可选的，处理单元203还用于，当确定所述一个或多个任务线程中第一任务线程存在前向依赖任务线程时，检测所述前向依赖线程是否执行完毕；

若所述前向依赖线程未执行完毕时，将所述第一任务线程加入到所述线程池的尾部排队，直至确定所述前向依赖任务线程执行完毕后，再按序将所述第一任务线程提交至所述GPU卡；

并且，重新从所述线程池中按序再次选取一个任务线程提交至所述GPU卡，所述第一任务线程为所述一个或多个任务线程中任一个任务线程。

本发明实施例提供的一种基于单GPU卡的图像并发处理装置中各部件所执行的功能均已在实施例1中做了详细介绍，这里不再赘述。

本发明实施例提供的一种基于单GPU卡的图像并发处理装置，接收用户提交的任务后，将任务加入队列后配置与之对应的任务线程。然后根据GPU内存和每一个任务线程占用的内存，确定GPU可以同时处理的任务线程。通过上述方式，可以保证GPU的资源能够充分利用，避免资源浪费，使其空闲、空余占比大大减少，有效增加了系统的吞吐能力。此外，多个任务线程同时处理，可以具备更好的加速比，进一步提升处理效率。

实施例3

与上述实施例相对应的，本发明实施例还提供了一种基于单GPU卡的图像并发处理系统，具体如图3所示，该系统包括任务管理器301和GPU卡302。

任务管理器301用于执行如上述实施例1的方法步骤，GPU卡302用于在接收到任务管理器301提交的一个或多个任务线程后，反馈与一个或多个任务线程对应的响应信息至任务管理器301；对任务管理器301提交的一个或多个任务线程并行处理。此实施例中各部件所执行的方法步骤也已经在上述实施例1中做了详细介绍，这里不做过多赘述。

本发明实施例提供的一种基于单GPU卡的图像并发处理系统，接收用户提交的任务后，将任务加入队列后配置与之对应的任务线程。然后根据GPU内存和每一个任务线程占用的内存，确定GPU可以同时处理的任务线程。通过上述方式，可以保证GPU的资源能够充分利用，避免资源浪费，使其空闲、空余占比大大减少，有效增加了系统的吞吐能力。此外，多个任务线程同时处理，可以具备更好的加速比，进一步提升处理效率。

实施例4

本发明实施例4提供了一种计算机存储介质，该计算机存储介质包括计算机程序指令，该计算机程序指令用于被基于单GPU卡的图像并发处理装置执行如实施例1所介绍的一种基于单GPU卡的图像并发处理方法流程。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于单GPU卡的图像并发处理方法，其特征在于，所述方法包括：

接收用户提交的任务，其中所述任务为用户根据待处理的对象和处理需求建立的任务；

将所述任务加入到任务队列，并为所述任务配置与之对应的任务线程；

将配置好的任务线程按序加入到线程池中，所述线程池中包含至少两个任务线程；

根据图形处理器GPU卡的内存和所述线程池中每一个任务线程执行时占用的内存，合理的从所述线程池中选取一个或多个任务线程提交至所述GPU卡，以便所述GPU卡对所述一个或多个任务线程并行处理。

2.根据权利要求1所述的方法，其特征在于，所述用户提交的任务包括至少一个。

3.根据权利要求1所述的方法，其特征在于，所述根据所述GPU卡的内存和所述任务线程执行时占用的内存，合理的从所述线程池中选取一个或多个任务线程提交至所述GPU卡之后，所述方法还包括：

接收所述GPU卡反馈的分别与所述一个或多个任务线程中每一个任务线程对应的响应信息，以便根据所述响应信息查询所述GPU卡处理所述一个或多个任务线程的进度。

4.根据权利要求3所述的方法，其特征在于，当根据所述响应信息确定所述GPU卡对所述一个或多个任务线程中的第一任务线程处理完成时，从所述GPU卡中读取处理结果，并删除与所述第一任务线程对应的任务，其中，所述第一任务线程为所述一个或多个任务线程中的任一个任务线程。

5.根据权利要求1或2所述的方法，其特征在于，所述根据图形处理器GPU卡的内存和所述线程池中每一个任务线程执行时占用的内存，合理的从所述线程池中选取一个或多个任务线程提交至所述GPU卡之前，所述方法还包括：

当确定所述一个或多个任务线程中第一任务线程存在前向依赖任务线程时，检测所述前向依赖线程是否执行完毕；

6.一种基于单GPU卡的图像并发处理装置，其特征在于，所述装置包括：

接收单元，用于接收用户提交的任务，其中所述任务为用户根据待处理的对象和处理需求建立的任务；

配置单元，用于将所述任务加入到任务队列，并为所述任务配置与之对应的任务线程；

处理单元，用于将配置好的任务线程按序加入到线程池中，所述线程池中包含至少两个任务线程；

7.根据权利要求6所述的装置，其特征在于，所述接收单元还用于，接收所述GPU卡反馈的分别与所述一个或多个任务线程中每一个任务线程对应的响应信息，以便根据所述响应信息查询所述GPU卡处理所述一个或多个任务线程的进度；

所述处理单元还用于，当根据所述响应信息确定所述GPU卡对所述一个或多个任务线程中的第一任务线程处理完成时，从所述GPU卡中读取处理结果，并删除与所述第一任务线程对应的任务，其中，所述第一任务线程为所述一个或多个任务线程中的任一个任务线程。

8.根据权利要求6所述的装置，其特征在于，所述处理单元还用于，

9.一种基于单GPU卡的图像并发处理系统，其特征在于，所述系统包括：任务管理器和GPU卡；

所述任务管理器用于执行如权利要求1-5任一项所述的方法，所述GPU卡用于在接收到所述任务管理器提交的一个或多个任务线程后，反馈与所述一个或多个任务线程对应的响应信息至所述任务管理器；对所述任务管理器提交的一个或多个任务线程并行处理。

10.一种计算机存储介质，其特征在于，所述计算机存储介质包括计算机程序指令，所述计算机程序指令用于如权利要求9所述的基于单GPU卡的图像并发处理系统中任务管理器和GPU卡分别执行与自身对应的方法步骤。