CN111736463B

CN111736463B - 一种基于运算平台的自适应深度学习控制方法

Info

Publication number: CN111736463B
Application number: CN202010388782.6A
Authority: CN
Inventors: 赵镛范; 刘炜
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-03-03
Anticipated expiration: 2040-05-09
Also published as: CN111736463A

Abstract

本发明涉及人工智能技术领域，且公开了一种基于运算平台的自适应深度学习控制方法，包括以下步骤：1)首先将运算模板库和深度学习模型载入到调度优化器中，所述调度优化器具有两个重要的主要组件包括：调度器和强化学习模型，所述调度器主要运行深度学习的新配置，所述强化学习模型用于预测并推荐新的配置方法；2)然后通过调度优化器使目标设备进行正常工作；3)在目标设备进行正常工作时，通过对其性能进行检测并得出数据。该基于运算平台的自适应深度学习控制方法，能够使为各种硬件的深度学习提供最优化的配置指导，充分利用跨线程内存的重用，达到了基于硬件的自我特征进一步减少延迟，使用起来更加方便。

Description

一种基于运算平台的自适应深度学习控制方法

技术领域

本发明涉及人工智能制造技术领域，具体为一种基于运算平台的自适应深度学习控制方法。

背景技术

现今的人工智能的开发与应用大部分赖以使用Tensorflow、Pytorch、Caffe和Mxnet等人工智能框架，但是使用这些框架得选择在哪种处理单元中进行处理，也就是得选择CPU或在GPU，使是选择了哪种处理单元这些框架没有根据具体的处理单元进行自适应的算法调整，也就是如果开发者选择了某个型号的GPU，框架不会根据这款GPU的处理能力，内存带宽等等特征调整具体的深度学习算法，虽然Nvidia的TensorRT和Intel的OpenVINO可以一定程度的根据处理单元进行优化，但是还是需要开发者进行大量的工作，而且这些优化库也不能进行CPU和GPU的协同工作。

现今的深度学习推理大部分在图形处理器(GPU)或着中央处理器(CPU)中进行处理，虽然明显使用CPU+GPU的异构架构处理会得到更好的处理性能，但是因为在深度学习中大部分的函数具有并行处理的数据特性，使得大部分深度学习应用开发都会在GPU进行，但是有一些函数(如ROI等)逻辑运算对CPU具有更友好，但是开发CPU+GPU的深度学习的推理软件，需要进行大量的繁琐的开发，而且阻碍深度学习推理中使用CPU+GPU最重要的原因是，不同的平台(嵌入式，桌面级)的(CPU和GPU)内存结构的不同需要不同的处理结构，比如在桌面级平台中Intel的CPU+GPU使用同一个内存，这使得频繁的把运算任务在CPU和GPU中进行交换不会有太大的开销，但是如果使用独立GPU，如Nvidia的GPU，频繁的数据，运算任务的转移会有使得整个运输的开销太大，如果是在嵌入式或者移动平台中，因为CPU与GPU都使用同一个内存，数据的转移不会有太多开销，但是在CPU多线程运算中，因为使用大小核(Big.Little)多线程结构，运算选择的哪种线程，选择多少线程非常重要，基于以上原因在本发明中，我们阐述了一种基于运算平台的自适应深度学习任务分配起，使把各个深度学习的运算分配给最适合的运算单元。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于运算平台的自适应深度学习控制方法，具备提供最优化的配置指导和减少延迟等优点，解决了现今的深度学习推理大部分在图形处理器(GPU)或着中央处理器(CPU)中进行处理，虽然明显使用CPU+GPU的异构架构处理会得到更好的处理性能，但是因为在深度学习中大部分的函数具有并行处理的数据特性，使得大部分深度学习应用开发都会在GPU进行，但是有一些函数(如ROI等)逻辑运算对CPU具有更友好，但是开发CPU+GPU的深度学习的推理软件，需要进行大量的繁琐的开发，而且阻碍深度学习推理中使用CPU+GPU最重要的原因是，不同的平台(嵌入式，桌面级)的(CPU和GPU)内存结构的不同需要不同的处理结构，比如在桌面级平台中Intel的CPU+GPU使用同一个内存，这使得频繁的把运算任务在CPU和GPU中进行交换不会有太大的开销，但是如果使用独立GPU，如Nvidia的GPU，频繁的数据，运算任务的转移会有使得整个运输的开销太大的问题。

(二)技术方案

为实现上述提供最优化的配置指导和减少延迟的目的，本发明提供如下技术方案：一种基于运算平台的自适应深度学习控制方法，包括以下步骤：

1)首先将运算模板库和深度学习模型载入到调度优化器中，所述调度优化器具有两个重要的主要组件包括：调度器和强化学习模型，所述调度器主要运行深度学习的新配置，所述强化学习模型用于预测并推荐新的配置方法；

2)然后通过调度优化器使目标设备进行正常工作；

3)在目标设备进行正常工作时，通过对其性能进行检测并得出数据；

4)然后在根据检测数据调整多个具体的深度学习的算法，并且从深度学习的算法中找出最优的算法；

5)最后调度优化器更新最优的学习算法，并对目标设备的处理单元进行优化，可以在服务器中进行多次的试验，从而可以为配置空间中找到最佳的计划方法，并用于调整高性能计算库，而且强化学习指导对待定后端的搜索，运行所有可能性并评估其性能，基于强化学习可以在探索期间收集的运行时的数据，并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息，在优化过程中探索更多配置时，强化学习可以自动更新模型，可以在服务器中进行多次的试验，能够以自动搜索方法找到各个函数适合在哪种处理单元中运行，并且构件了一个端到端的编译和优化堆栈，能够将高级框架中指定的深度学习工作负载部署到各种硬件后端。

优选的，所述目标设备为移动端CPU+GPU或者服务端CPU+GPU。

优选的，所述检测数据为目标设备的处理能力和内存使用情况，以及整体的运行情况。

(三)有益效果

与现有技术相比，本发明提供了一种基于运算平台的自适应深度学习控制方法，具备以下有益效果：

1、该基于运算平台的自适应深度学习控制方法，通过设置自动化调度优化器，在进行使用时，首先将运算模板库和深度学习模型载入到调度优化器中，通过调度优化器使目标设备进行正常工作，在目标设备进行正常工作时，通过对其性能进行检测并得出数据，然后在根据检测数据调整多个具体的深度学习的算法，并且从深度学习的算法中找出最优的算法，最后调度优化器更新最优的学习算法，并对目标设备的处理单元进行优化，可以在服务器中进行多次的试验，从而可以为配置空间中找到最佳的计划方法，并用于调整高性能计算库，而且强化学习指导对待定后端的搜索，运行所有可能性并评估其性能，同时强化学习会提出在待定硬件上提高深度学习推理的配置，对于每个调度配置，该模型以深度学习的各网络层作为输入，并预测其在给定硬件后端上的运行时间，基于强化学习可以在探索期间收集的运行时的数据，并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息，在优化过程中探索更多配置时，强化学习可以自动更新模型，而不需要我们在后端定期更新(做标识)，从而能够使为各种硬件的深度学习提供最优化的配置指导。

2、该基于运算平台的自适应深度学习控制方法，通过设置自动化调度优化器，在进行使用时，首先将运算模板库和深度学习模型载入到调度优化器中，通过调度优化器使目标设备进行正常工作，在目标设备进行正常工作时，通过对其性能进行检测并得出数据，然后在根据检测数据调整多个具体的深度学习的算法，并且从深度学习的算法中找出最优的算法，最后调度优化器更新最优的学习算法，并对目标设备的处理单元进行优化，可以在服务器中进行多次的试验，从而可以为配置空间中找到最佳的计划方法，并用于调整高性能计算库，从而充分利用跨线程内存的重用，达到了基于硬件的自我特征进一步减少延迟，从而减少所需的时间，而且实施基于机器学习的优化系统，能够以自动搜索方法找到各个函数适合在哪种处理单元中运行，并且构件了一个端到端的编译和优化堆栈，能够将高级框架中指定的深度学习工作负载部署到各种硬件后端，使用起来更加方便。

附图说明

图1为本发明提出的一种基于运算平台的自适应深度学习控制方法示意图。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，一种基于运算平台的自适应深度学习控制方法，包括以下步骤：

1)首先将运算模板库和深度学习模型载入到调度优化器中，调度优化器具有两个重要的主要组件包括：调度器和强化学习模型，调度器主要运行深度学习的新配置，强化学习模型用于预测并推荐新的配置方法；

2)然后通过调度优化器使目标设备进行正常工作，目标设备为移动端CPU+GPU或者服务端CPU+GPU；

3)在目标设备进行正常工作时，通过对其性能进行检测并得出数据，检测数据为目标设备的处理能力和内存使用情况，以及整体的运行情况；

本发明的有益效果是：通过设置自动化调度优化器，在进行使用时，首先将运算模板库和深度学习模型载入到调度优化器中，通过调度优化器使目标设备进行正常工作，在目标设备进行正常工作时，通过对其性能进行检测并得出数据，然后在根据检测数据调整多个具体的深度学习的算法，并且从深度学习的算法中找出最优的算法，最后调度优化器更新最优的学习算法，并对目标设备的处理单元进行优化，可以在服务器中进行多次的试验，从而可以为配置空间中找到最佳的计划方法，并用于调整高性能计算库，而且强化学习指导对待定后端的搜索，运行所有可能性并评估其性能，同时强化学习会提出在待定硬件上提高深度学习推理的配置，对于每个调度配置，该模型以深度学习的各网络层作为输入，并预测其在给定硬件后端上的运行时间，基于强化学习可以在探索期间收集的运行时的数据，并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息，在优化过程中探索更多配置时，强化学习可以自动更新模型，而不需要我们在后端定期更新(做标识)，从而能够使为各种硬件的深度学习提供最优化的配置指导，可以在服务器中进行多次的试验，从而可以为配置空间中找到最佳的计划方法，并用于调整高性能计算库，从而充分利用跨线程内存的重用，达到了基于硬件的自我特征进一步减少延迟，从而减少所需的时间，而且实施基于机器学习的优化系统，能够以自动搜索方法找到各个函数适合在哪种处理单元中运行，并且构件了一个端到端的编译和优化堆栈，能够将高级框架中指定的深度学习工作负载部署到各种硬件后端，使用起来更加方便。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于运算平台的自适应深度学习控制方法，其特征在于，包括以下步骤：

2)然后通过调度优化器使目标设备进行正常工作；

2.根据权利要求1所述的一种基于运算平台的自适应深度学习控制方法，其特征在于，所述目标设备为移动端CPU+GPU或者服务端CPU+GPU。

3.根据权利要求1所述的一种基于运算平台的自适应深度学习控制方法，其特征在于，所述检测数据为目标设备的处理能力和内存使用情况，以及整体的运行情况。