CN110659119A

CN110659119A - 一种图片处理方法、装置及系统

Info

Publication number: CN110659119A
Application number: CN201910866485.5A
Authority: CN
Inventors: 高开; 郭振华; 曹芳
Original assignee: Langchao Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-07
Anticipated expiration: 2039-09-12
Also published as: US11614964B2; US20220326989A1; CN110659119B; WO2021047118A1

Abstract

本发明公开了一种图片处理方法，应用于深度学习模型，深度学习模型的每一层之前均设置有缓存队列，本申请中，预先为深度学习模型的每层预设了多个计算任务，用来并行的对各对应层中的多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中；此外，只要层之前的缓存队列中包括上一层保存的计算结果，该层便可从计算结果中获取待处理数据，便进行后续计算，层与层之间也形成了并行流水的计算方式。通过该种方式显著改善了图片处理时的吞吐率，提高了图片的处理并行度、速度及深度学习模型的计算性能。本发明还公开了一种图片处理装置及系统，具有与上述图片处理方法相同的有益效果。

Description

一种图片处理方法、装置及系统

技术领域

本发明涉及图片处理技术领域，特别是涉及一种图片处理方法、装置及系统。

背景技术

深度学习为人工智能领域带来了巨大的发展进步，但深度学习模型的训练阶段和推理阶段都需要进行大量的计算，主要原因在于现有的图片处理方法只支持深度学习模型在同一时间进行一次计算，从而使得深度学习模型的计算顺序为：第一层的第一通道、第一层的第二通道直至第一层的最后一个通道、第二层的第一通道、第二层的第二通道直至第二层的最后一个通道…最后一层的第一通道、第一层的第二通道直至第一层的最后一个通道。这也使得在一台现代GPU(Graphics Processing Unit，图形处理器)的单台机器上完成一次基于ImageNet等基准数据集的训练阶段可能要耗费多达一周的时间。在推理阶段，一次模型推理也可能需要十几秒甚至几十秒才能完成一幅图片的推理。也因此，在视频目标检测领域，我们可以把一个视频看成很多幅图片，由于每幅图片模型推理的速度很慢，因而完全达不到实时性的要求。可见，如何提高图片的处理速度成为本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种图片处理方法、装置及系统，显著改善了图片处理时的吞吐率，提高了图片的处理速度及深度学习模型的计算性能。

为解决上述技术问题，本发明提供了一种图片处理方法，应用于深度学习模型，所述深度学习模型的每一层之前均设置有缓存队列，所述图片处理方法包括：

全局调度器将接收的待处理图片划分为多个通道数据并将多个所述通道数据保存至所述深度学习模型的第一层之前的缓存队列中；

各层的局部调度器从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中。

优选地，所述计算任务的数量与对应层的通道的数量相等。

优选地，所述计算任务的数量N小于对应层的通道的数量M。

优选地，局部调度器从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，包括：

局部调度器从其对应层之前的缓存队列中先获取N个通道对应地待处理数据，并调用其对应层对应地N个计算任务一一对应地对N个通道中的权重参数及对应待处理数据进行计算；

当出现完成计算的计算任务时，从其对应层之前的缓存队列中获取未计算通道对应地待处理数据，并调用已完成计算的计算任务继续对未计算通道中的权重参数及对应待处理数据进行计算，直至其对应层中的所有通道都已计算。

优选地，所述计算任务为乘法计算。

优选地，所述局部调度器在从其对应层之前的缓存队列中获取多个通道对应地待处理数据后，还包括：

所述局部调度器通过所述全局调度器向所述局部调度器的上一层对应地局部调度器发送待处理数据已读取信息，以便所述局部调度器的上一层对应地局部调度器开始对下一待处理图片进行处理，并将计算结果保存至所述待处理数据已读取信息对应地待处理数据的存储位置。

为解决上述技术问题，本发明还提供了一种图片处理装置，应用于深度学习模型，所述深度学习模型的每一层之前均设置有缓存队列，所述图片处理装置包括：

全局调度器，用于将接收的待处理图片划分为多个通道数据并将多个所述通道数据保存至所述深度学习模型的第一层之前的缓存队列中；

各层的局部调度器，用于从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中。

优选地，所述计算任务的数量N小于对应层的通道的数量M。

为解决上述技术问题，本发明还提供了一种图片处理系统，应用于深度学习模型，所述深度学习模型的每一层之前均设置有缓存队列，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述图片处理方法的步骤。

本发明提供了一种图片处理方法，应用于深度学习模型，深度学习模型的每一层之前均设置有缓存队列，本申请中，预先为深度学习模型的每层预设了多个计算任务，用来并行的对各对应层中的多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中；此外，只要层之前的缓存队列中包括上一层保存的计算结果，该层便可从计算结果中获取待处理数据，便进行后续计算，层与层之间也形成了并行流水的计算方式。通过该种方式显著改善了图片处理时的吞吐率，提高了图片的处理并行度、速度及深度学习模型的计算性能。

本发明还提供了一种图片处理装置及系统，具有与上述图片处理方法相同的有益效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种图片处理方法的流程图；

图2为本发明提供的一种图片处理装置的结构示意图；

图3为本发明提供的一种Ray分布式框架的原理图；

图4为本发明提供的一种基于深度学习模型的Ray调度原理图；

图5为本发明提供的一种图片处理系统的结构示意图。

具体实施方式

本发明的核心是提供一种图片处理方法、装置及系统，显著改善了图片处理时的吞吐率，提高了图片的处理速度及深度学习模型的计算性能。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1和图2，图1为本发明提供的一种图片处理方法的流程图，图2为本发明提供的一种图片处理装置的结构示意图。

该图片处理方法应用于深度学习模型，深度学习模型的每一层之前均设置有缓存队列，图片处理方法包括：

S11：全局调度器将接收的待处理图片划分为多个通道数据并将多个通道数据保存至深度学习模型的第一层之前的缓存队列中；

S12：各层的局部调度器从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中。

具体地，本申请首先在深度学习模型的每一层之前均设置一个缓存队列，例如图2所示，在层1前面设置一个缓存队列，在层2前面设置一个缓存队列…直至在层L前面设置一个缓存队列，L为不小于2的整数，缓存队列用于存放其后的层的待处理的数据，对于层1对应地缓存队列来说，其存放待处理图片划分后的多个通道数据，对于层2对应地缓存队列来说，其存放层1的计算结果，以此类推，对于层L对应地缓存队列来说，其存放层L-1的计算结果。

本申请还为深度学习模型中的每一层均设置了多个计算任务(具体可以为乘法运算)，这里的计算任务可以理解为线程。同一时刻，一个计算任务对一个通道进行计算。每一层的计算任务的数量与该层的通道数有关，通常情况下，该层的通道数越多，设置的计算任务也越多。如果计算机的性能较高的话，可以使得计算任务的数量与该层的通道数相同，这样可以最大化地提高各通道的并行处理效果，也即该层的所有通道同时并行计算；如果计算机的性能不太高的话，可以使得计算任务的数量少于该层的通道数，该种方式下会使得该层的部分通道进行并行计算。

此外，还需要说明的是，本申请采用的是深度学习模型与Ray分布式框架相结合的方式，对深度学习模型中的每一层以及每一层中的每个通道进行划分。请参照图3，图3为本发明提供的一种Ray分布式框架的原理图。Ray分布式框架的原理为：把每台服务器看成是一个节点(Node)，每个节点可以开启多个worker,每个worker为计算单元，可以执行任务(task)的计算，全局调度器可以把多个任务分配到局部调度器上，局部调度器再根据不同的策略把任务分配给不同的worker。全局调度器还可以实时的去查询相关任务的完成情况。而对于每个任务来说，可以非常简单的实现计算。通过ray.put()，ray.remote()，ray.get()三个函数就可实现一个任务的输入，计算和获取返回值，而且每个任务间相互独立的。若一个任务的计算需要另一个任务的输出，通过ray.get()获取相应的值即可。

本申请中，深度学习模型的每一层一一对应一个局部调度器，整体对应一个全局调度器，局部调度器对每一层的通道进行调度处理，全局对所有层进行调度处理；通道与通道之间的计算是独立的。

具体地，请参照图4，图4为本发明提供的一种基于深度学习模型的Ray调度原理图。全局调度器在接收到待处理图片后，将其划分为多个通道数据，例如划分为3个颜色通道R、G、B，并将多个通道数据保存至深度学习模型的第一层(也即层1)之前的缓存队列中，运算过程中，由于每一层对应地预设的计算任务为多个，因此，同一时刻可以对每一层中的多个通道进行计算，具体地，每一层的局部调度器根据该层的计算任务的个数从该层之前的缓存队列里获取多个通道对应地待处理数据，调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，如果计算任务的个数与通道的个数是一样的，则调用一次多个计算任务便可完成该层的计算；如果计算任务的个数小于通道的数量，则可以先调用多个计算任务对多个通道计算，等有的通道计算完成后再调用计算完成的计算任务对剩下的通道进行计算。此外，通过该种方式，每当一个计算任务计算完成之后，便把计算结果写入缓存队列。下一层中的某个计算任务只要通过ray.get()获取到其所需的值就可以开始计算。因此，当输入图片很多时，层与层之间的计算可以达到流水的效果，层内每个通道的计算可以达到并行计算的效果。

综上，本发明提供的一种图片处理方法，应用于深度学习模型，深度学习模型的每一层之前均设置有缓存队列，本申请中，预先为深度学习模型的每层预设了多个计算任务，用来并行的对各对应层中的多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中；此外，只要层之前的缓存队列中包括上一层保存的计算结果，该层便可从计算结果中获取待处理数据，便进行后续计算，层与层之间也形成了并行流水的计算方式。通过该种方式显著改善了图片处理时的吞吐率，提高了图片的处理并行度、速度及深度学习模型的计算性能。

在上述实施例的基础上：

作为一种优选地实施例，计算任务的数量与对应层的通道的数量相等。

上述实施例提到，当计算机的性能允许时，可以设置在每一层中，计算任务的数量与通道的数量相同，后续在调用多个计算任务对这些通道进行计算时，则调用一次多个计算任务便可完成该层的计算。该层中的所有通道实现了完全的并行计算，进一步提高了计算的处理速度及深度学习模型的计算性能。

作为一种优选地实施例，计算任务的数量N小于对应层的通道的数量M。

在计算机的性能较低时，此时每层对应地计算任务的数量N小于对应层的通道的数量M，这样，一层的全部通道可能不是完全并行，而是部分并行，部分串行，也即串并行结合。例如先计算的N个通道便是并行，后面的M-N个可以是并行(待先计算的N个通道全部计算完成后再调用N个已计算完上一批通道的计算任务继续计算后一批未计算的通道)，也可以是串行(只要存在先计算的通道计算完成，便可调用该计算完成的计算任务继续计算该通道)。但与现有技术中的全部串行相比，也提高了计算的处理速度及深度学习模型的计算性能。

作为一种优选地实施例，局部调度器从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，包括：

为了尽可能地提高了计算的处理速度及深度学习模型的计算性能，本实施例中，在计算任务的数量N小于对应层的通道的数量M时，局部调度器会从其对应层之前的缓存队列中先获取N个通道对应地待处理数据，并调用其对应层对应地N个计算任务一一对应地对N个通道中的权重参数及对应待处理数据进行计算，后续过程中，不会等到这一批N个通道全部计算完成再去调用N个计算任务计算下一批，而是一旦存在完成计算的计算任务时，便调用该以完成计算上一个通道的计算任务继续计算下一个未计算的通道，直至其对应层中的所有通道都已计算。

具体地，假设某层共有A、B、C、D、F四个通道，该层对应3个计算任务，则局部调度器可以先调用3个计算任务分别一一对应地对A、B、C进行计算，其中，计算A需要3s，计算B需要2s，计算C需要1s，计算D需要1.5s，计算F需要1s，由于A、B、C是并行处理的，则C会先计算完，B其次，A最后计算完；在C计算完后，此时局部调度器会继续调用已经完成C通道计算的计算任务继续对D通道进行计算，此外，在B通道计算完后，局部调度器会继续调用已完成B通道计算的计算任务继续对F通道进行计算，可见，该层计算完仅需3s，与传统技术中的需要3+2+1+1.5+1＝7.5s相比，以及与A、B、C全部计算完后再并行对D、F计算所需的3+1.5＝4.5s相比，本实施例可以提高计算的处理速度及深度学习模型的计算性能。

作为一种优选地实施例，计算任务为乘法计算。

具体地，本实施例中，调用计算任务对通道中的权重参数及对应待处理数据进行计算具体为权重参数与待处理数据的乘法运算。

作为一种优选地实施例，局部调度器在从其对应层之前的缓存队列中获取多个通道对应地待处理数据后，还包括：

局部调度器通过全局调度器向局部调度器的上一层对应地局部调度器发送待处理数据已读取信息，以便局部调度器的上一层对应地局部调度器开始对下一待处理图片进行处理，并将计算结果保存至待处理数据已读取信息对应地待处理数据的存储位置。

本实施例中，考虑到有一些缓存队列的存储空间是有限的，由于每张图片的计算结果都会存在缓存队列中，当图片较多时，则需要对缓存队列中已经被下一层读取过的待处理数据进行删除再存储或者直接覆盖保存。

因此，本实施例中，当层与层之间进行流程处理的过程中，当一层的局部调度器已经读取了上一层的待处理数据后，生成该待处理数据已读取信息，并将待处理数据已读取信息发送至全局调度器，全局调度器在接收到待处理数据已读取信息后，将待处理数据已读取信息发送至该层局部调度器的上一层对应地局部调度器，该层局部调度器的上一层对应地局部调度器在接收到待处理数据已读取信息再开始进行下一待处理图片的处理，得到计算结果后，可以直接覆盖保存或者先删除待处理数据已读取信息对应地待处理数据，然后再存储。还需要说明的是，通常情况下，在实际应用中，缓存队列中可以同时存储成千上百张图片的计算结果，是能够保证层与层之间的流水作业的，只是图片太多时(例如上万张)需要对已读取后的待处理数据进行更替。

请参照图2，该图片处理装置应用于深度学习模型，深度学习模型的每一层之前均设置有缓存队列，图片处理装置包括：

全局调度器11，用于将接收的待处理图片划分为多个通道数据并将多个通道数据保存至深度学习模型的第一层之前的缓存队列中；

各层的局部调度器12，用于从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，并将计算结果保存至其对应层之后的缓存队列中。

作为一种优选地实施例，局部调度器12从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，包括：

局部调度器12从其对应层之前的缓存队列中先获取N个通道对应地待处理数据，并调用其对应层对应地N个计算任务一一对应地对N个通道中的权重参数及对应待处理数据进行计算；

对于本发明提供的图片处理装置的介绍请参照上述方法实施例，本发明在此不再赘述。

请参照图5，图5为本发明提供的一种图片处理系统的结构示意图，该图片处理系统应用于深度学习模型，深度学习模型的每一层之前均设置有缓存队列，包括：

存储器21，用于存储计算机程序；

处理器22，用于执行计算机程序时实现如上述图片处理方法的步骤。

对于本发明提供的图片处理系统的介绍请参照上述方法实施例，本发明在此不再赘述。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种图片处理方法，应用于深度学习模型，其特征在于，所述深度学习模型的每一层之前均设置有缓存队列，所述图片处理方法包括：

2.如权利要求1所述的图片处理方法，其特征在于，所述计算任务的数量与对应层的通道的数量相等。

3.如权利要求1所述的图片处理方法，其特征在于，所述计算任务的数量N小于对应层的通道的数量M。

4.如权利要求3所述的图片处理方法，其特征在于，局部调度器从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，包括：

5.如权利要求1所述的图片处理方法，其特征在于，所述计算任务为乘法计算。

6.如权利要求1至5任一项所述的图片处理方法，其特征在于，所述局部调度器在从其对应层之前的缓存队列中获取多个通道对应地待处理数据后，还包括：

7.一种图片处理装置，应用于深度学习模型，其特征在于，所述深度学习模型的每一层之前均设置有缓存队列，所述图片处理装置包括：

8.如权利要求7所述的图片处理装置，其特征在于，所述计算任务的数量N小于对应层的通道的数量M。

9.如权利要求8所述的图片处理装置，其特征在于，局部调度器从其对应层之前的缓存队列中获取多个通道对应地待处理数据，并调用其对应层对应地多个计算任务对多个通道中的权重参数及对应待处理数据进行计算，包括：

10.一种图片处理系统，应用于深度学习模型，其特征在于，所述深度学习模型的每一层之前均设置有缓存队列，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述图片处理方法的步骤。