CN111736463B - 一种基于运算平台的自适应深度学习控制方法 - Google Patents
一种基于运算平台的自适应深度学习控制方法 Download PDFInfo
- Publication number
- CN111736463B CN111736463B CN202010388782.6A CN202010388782A CN111736463B CN 111736463 B CN111736463 B CN 111736463B CN 202010388782 A CN202010388782 A CN 202010388782A CN 111736463 B CN111736463 B CN 111736463B
- Authority
- CN
- China
- Prior art keywords
- deep learning
- control method
- optimizer
- method based
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
Abstract
本发明涉及人工智能技术领域,且公开了一种基于运算平台的自适应深度学习控制方法,包括以下步骤:1)首先将运算模板库和深度学习模型载入到调度优化器中,所述调度优化器具有两个重要的主要组件包括:调度器和强化学习模型,所述调度器主要运行深度学习的新配置,所述强化学习模型用于预测并推荐新的配置方法;2)然后通过调度优化器使目标设备进行正常工作;3)在目标设备进行正常工作时,通过对其性能进行检测并得出数据。该基于运算平台的自适应深度学习控制方法,能够使为各种硬件的深度学习提供最优化的配置指导,充分利用跨线程内存的重用,达到了基于硬件的自我特征进一步减少延迟,使用起来更加方便。
Description
技术领域
本发明涉及人工智能制造技术领域,具体为一种基于运算平台的自适应深度学习控制方法。
背景技术
现今的人工智能的开发与应用大部分赖以使用Tensorflow、Pytorch、Caffe和Mxnet等人工智能框架,但是使用这些框架得选择在哪种处理单元中进行处理,也就是得选择CPU或在GPU,使是选择了哪种处理单元这些框架没有根据具体的处理单元进行自适应的算法调整,也就是如果开发者选择了某个型号的GPU,框架不会根据这款GPU的处理能力,内存带宽等等特征调整具体的深度学习算法,虽然Nvidia的TensorRT和Intel的OpenVINO可以一定程度的根据处理单元进行优化,但是还是需要开发者进行大量的工作,而且这些优化库也不能进行CPU和GPU的协同工作。
现今的深度学习推理大部分在图形处理器(GPU)或着中央处理器(CPU)中进行处理,虽然明显使用CPU+GPU的异构架构处理会得到更好的处理性能,但是因为在深度学习中大部分的函数具有并行处理的数据特性,使得大部分深度学习应用开发都会在GPU进行,但是有一些函数(如ROI等)逻辑运算对CPU具有更友好,但是开发CPU+GPU的深度学习的推理软件,需要进行大量的繁琐的开发,而且阻碍深度学习推理中使用CPU+GPU最重要的原因是,不同的平台(嵌入式,桌面级)的(CPU和GPU)内存结构的不同需要不同的处理结构,比如在桌面级平台中Intel的CPU+GPU使用同一个内存,这使得频繁的把运算任务在CPU和GPU中进行交换不会有太大的开销,但是如果使用独立GPU,如Nvidia的GPU,频繁的数据,运算任务的转移会有使得整个运输的开销太大,如果是在嵌入式或者移动平台中,因为CPU与GPU都使用同一个内存,数据的转移不会有太多开销,但是在CPU多线程运算中,因为使用大小核(Big.Little)多线程结构,运算选择的哪种线程,选择多少线程非常重要,基于以上原因在本发明中,我们阐述了一种基于运算平台的自适应深度学习任务分配起,使把各个深度学习的运算分配给最适合的运算单元。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于运算平台的自适应深度学习控制方法,具备提供最优化的配置指导和减少延迟等优点,解决了现今的深度学习推理大部分在图形处理器(GPU)或着中央处理器(CPU)中进行处理,虽然明显使用CPU+GPU的异构架构处理会得到更好的处理性能,但是因为在深度学习中大部分的函数具有并行处理的数据特性,使得大部分深度学习应用开发都会在GPU进行,但是有一些函数(如ROI等)逻辑运算对CPU具有更友好,但是开发CPU+GPU的深度学习的推理软件,需要进行大量的繁琐的开发,而且阻碍深度学习推理中使用CPU+GPU最重要的原因是,不同的平台(嵌入式,桌面级)的(CPU和GPU)内存结构的不同需要不同的处理结构,比如在桌面级平台中Intel的CPU+GPU使用同一个内存,这使得频繁的把运算任务在CPU和GPU中进行交换不会有太大的开销,但是如果使用独立GPU,如Nvidia的GPU,频繁的数据,运算任务的转移会有使得整个运输的开销太大的问题。
(二)技术方案
为实现上述提供最优化的配置指导和减少延迟的目的,本发明提供如下技术方案:一种基于运算平台的自适应深度学习控制方法,包括以下步骤:
1)首先将运算模板库和深度学习模型载入到调度优化器中,所述调度优化器具有两个重要的主要组件包括:调度器和强化学习模型,所述调度器主要运行深度学习的新配置,所述强化学习模型用于预测并推荐新的配置方法;
2)然后通过调度优化器使目标设备进行正常工作;
3)在目标设备进行正常工作时,通过对其性能进行检测并得出数据;
4)然后在根据检测数据调整多个具体的深度学习的算法,并且从深度学习的算法中找出最优的算法;
5)最后调度优化器更新最优的学习算法,并对目标设备的处理单元进行优化,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,而且强化学习指导对待定后端的搜索,运行所有可能性并评估其性能,基于强化学习可以在探索期间收集的运行时的数据,并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息,在优化过程中探索更多配置时,强化学习可以自动更新模型,可以在服务器中进行多次的试验,能够以自动搜索方法找到各个函数适合在哪种处理单元中运行,并且构件了一个端到端的编译和优化堆栈,能够将高级框架中指定的深度学习工作负载部署到各种硬件后端。
优选的,所述目标设备为移动端CPU+GPU或者服务端CPU+GPU。
优选的,所述检测数据为目标设备的处理能力和内存使用情况,以及整体的运行情况。
(三)有益效果
与现有技术相比,本发明提供了一种基于运算平台的自适应深度学习控制方法,具备以下有益效果:
1、该基于运算平台的自适应深度学习控制方法,通过设置自动化调度优化器,在进行使用时,首先将运算模板库和深度学习模型载入到调度优化器中,通过调度优化器使目标设备进行正常工作,在目标设备进行正常工作时,通过对其性能进行检测并得出数据,然后在根据检测数据调整多个具体的深度学习的算法,并且从深度学习的算法中找出最优的算法,最后调度优化器更新最优的学习算法,并对目标设备的处理单元进行优化,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,而且强化学习指导对待定后端的搜索,运行所有可能性并评估其性能,同时强化学习会提出在待定硬件上提高深度学习推理的配置,对于每个调度配置,该模型以深度学习的各网络层作为输入,并预测其在给定硬件后端上的运行时间,基于强化学习可以在探索期间收集的运行时的数据,并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息,在优化过程中探索更多配置时,强化学习可以自动更新模型,而不需要我们在后端定期更新(做标识),从而能够使为各种硬件的深度学习提供最优化的配置指导。
2、该基于运算平台的自适应深度学习控制方法,通过设置自动化调度优化器,在进行使用时,首先将运算模板库和深度学习模型载入到调度优化器中,通过调度优化器使目标设备进行正常工作,在目标设备进行正常工作时,通过对其性能进行检测并得出数据,然后在根据检测数据调整多个具体的深度学习的算法,并且从深度学习的算法中找出最优的算法,最后调度优化器更新最优的学习算法,并对目标设备的处理单元进行优化,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,从而充分利用跨线程内存的重用,达到了基于硬件的自我特征进一步减少延迟,从而减少所需的时间,而且实施基于机器学习的优化系统,能够以自动搜索方法找到各个函数适合在哪种处理单元中运行,并且构件了一个端到端的编译和优化堆栈,能够将高级框架中指定的深度学习工作负载部署到各种硬件后端,使用起来更加方便。
附图说明
图1为本发明提出的一种基于运算平台的自适应深度学习控制方法示意图。
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于运算平台的自适应深度学习控制方法,包括以下步骤:
1)首先将运算模板库和深度学习模型载入到调度优化器中,调度优化器具有两个重要的主要组件包括:调度器和强化学习模型,调度器主要运行深度学习的新配置,强化学习模型用于预测并推荐新的配置方法;
2)然后通过调度优化器使目标设备进行正常工作,目标设备为移动端CPU+GPU或者服务端CPU+GPU;
3)在目标设备进行正常工作时,通过对其性能进行检测并得出数据,检测数据为目标设备的处理能力和内存使用情况,以及整体的运行情况;
4)然后在根据检测数据调整多个具体的深度学习的算法,并且从深度学习的算法中找出最优的算法;
5)最后调度优化器更新最优的学习算法,并对目标设备的处理单元进行优化,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,而且强化学习指导对待定后端的搜索,运行所有可能性并评估其性能,基于强化学习可以在探索期间收集的运行时的数据,并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息,在优化过程中探索更多配置时,强化学习可以自动更新模型,可以在服务器中进行多次的试验,能够以自动搜索方法找到各个函数适合在哪种处理单元中运行,并且构件了一个端到端的编译和优化堆栈,能够将高级框架中指定的深度学习工作负载部署到各种硬件后端。
本发明的有益效果是:通过设置自动化调度优化器,在进行使用时,首先将运算模板库和深度学习模型载入到调度优化器中,通过调度优化器使目标设备进行正常工作,在目标设备进行正常工作时,通过对其性能进行检测并得出数据,然后在根据检测数据调整多个具体的深度学习的算法,并且从深度学习的算法中找出最优的算法,最后调度优化器更新最优的学习算法,并对目标设备的处理单元进行优化,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,而且强化学习指导对待定后端的搜索,运行所有可能性并评估其性能,同时强化学习会提出在待定硬件上提高深度学习推理的配置,对于每个调度配置,该模型以深度学习的各网络层作为输入,并预测其在给定硬件后端上的运行时间,基于强化学习可以在探索期间收集的运行时的数据,并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息,在优化过程中探索更多配置时,强化学习可以自动更新模型,而不需要我们在后端定期更新(做标识),从而能够使为各种硬件的深度学习提供最优化的配置指导,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,从而充分利用跨线程内存的重用,达到了基于硬件的自我特征进一步减少延迟,从而减少所需的时间,而且实施基于机器学习的优化系统,能够以自动搜索方法找到各个函数适合在哪种处理单元中运行,并且构件了一个端到端的编译和优化堆栈,能够将高级框架中指定的深度学习工作负载部署到各种硬件后端,使用起来更加方便。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于运算平台的自适应深度学习控制方法,其特征在于,包括以下步骤:
1)首先将运算模板库和深度学习模型载入到调度优化器中,所述调度优化器具有两个重要的主要组件包括:调度器和强化学习模型,所述调度器主要运行深度学习的新配置,所述强化学习模型用于预测并推荐新的配置方法;
2)然后通过调度优化器使目标设备进行正常工作;
3)在目标设备进行正常工作时,通过对其性能进行检测并得出数据;
4)然后在根据检测数据调整多个具体的深度学习的算法,并且从深度学习的算法中找出最优的算法;
5)最后调度优化器更新最优的学习算法,并对目标设备的处理单元进行优化,可以在服务器中进行多次的试验,从而可以为配置空间中找到最佳的计划方法,并用于调整高性能计算库,而且强化学习指导对待定后端的搜索,运行所有可能性并评估其性能,基于强化学习可以在探索期间收集的运行时的数据,并使用该数据重新调整预测模型而不需要用户输入详细的硬件信息,在优化过程中探索更多配置时,强化学习可以自动更新模型,可以在服务器中进行多次的试验,能够以自动搜索方法找到各个函数适合在哪种处理单元中运行,并且构件了一个端到端的编译和优化堆栈,能够将高级框架中指定的深度学习工作负载部署到各种硬件后端。
2.根据权利要求1所述的一种基于运算平台的自适应深度学习控制方法,其特征在于,所述目标设备为移动端CPU+GPU或者服务端CPU+GPU。
3.根据权利要求1所述的一种基于运算平台的自适应深度学习控制方法,其特征在于,所述检测数据为目标设备的处理能力和内存使用情况,以及整体的运行情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388782.6A CN111736463B (zh) | 2020-05-09 | 2020-05-09 | 一种基于运算平台的自适应深度学习控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388782.6A CN111736463B (zh) | 2020-05-09 | 2020-05-09 | 一种基于运算平台的自适应深度学习控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111736463A CN111736463A (zh) | 2020-10-02 |
CN111736463B true CN111736463B (zh) | 2023-03-03 |
Family
ID=72646794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010388782.6A Active CN111736463B (zh) | 2020-05-09 | 2020-05-09 | 一种基于运算平台的自适应深度学习控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111736463B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112346866B (zh) * | 2020-11-05 | 2023-09-01 | 中国科学院计算技术研究所 | 一种基于异步数据传输的gpu调度方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108881446A (zh) * | 2018-06-22 | 2018-11-23 | 深源恒际科技有限公司 | 一种基于深度学习的人工智能平台系统 |
CN109062692A (zh) * | 2018-07-24 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种人脸识别深度学习训练平台的优化方法及系统 |
CN110032449A (zh) * | 2019-04-16 | 2019-07-19 | 苏州浪潮智能科技有限公司 | 一种优化gpu服务器的性能的方法及装置 |
CN110866610A (zh) * | 2019-11-20 | 2020-03-06 | 苏州浪潮智能科技有限公司 | 一种深度学习模型分布式运算的方法及装置 |
-
2020
- 2020-05-09 CN CN202010388782.6A patent/CN111736463B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108881446A (zh) * | 2018-06-22 | 2018-11-23 | 深源恒际科技有限公司 | 一种基于深度学习的人工智能平台系统 |
CN109062692A (zh) * | 2018-07-24 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种人脸识别深度学习训练平台的优化方法及系统 |
CN110032449A (zh) * | 2019-04-16 | 2019-07-19 | 苏州浪潮智能科技有限公司 | 一种优化gpu服务器的性能的方法及装置 |
CN110866610A (zh) * | 2019-11-20 | 2020-03-06 | 苏州浪潮智能科技有限公司 | 一种深度学习模型分布式运算的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111736463A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dastgeer et al. | Auto-tuning SkePU: a multi-backend skeleton programming framework for multi-GPU systems | |
CN108958916B (zh) | 一种移动边缘环境下工作流卸载优化方法 | |
US10713073B2 (en) | Systems and methods for identifying cloud configurations | |
US9384053B2 (en) | Task allocation optimization system, task allocation optimization method, and non-transitory computer readable medium storing task allocation optimization program | |
US9971570B2 (en) | Automated generation of memory consumption aware code | |
CN111274036B (zh) | 一种基于速度预测的深度学习任务的调度方法 | |
EP4088232A1 (en) | Resource usage prediction for deep learning model | |
CN110889497B (zh) | 一种人工智能处理器的学习任务编译方法及相关产品 | |
US9891958B2 (en) | System and method for parallelizing grid search method facilitating determination of PK-PD parameters | |
CN102081544B (zh) | 应用程序生成系统和方法 | |
CN111178517A (zh) | 模型部署方法、系统、芯片、电子设备及介质 | |
CN110766145A (zh) | 一种人工智能处理器的学习任务编译方法及相关产品 | |
CN112764893B (zh) | 数据处理方法和数据处理系统 | |
Huang et al. | Novel heuristic speculative execution strategies in heterogeneous distributed environments | |
Nadeem et al. | Optimizing execution time predictions of scientific workflow applications in the grid through evolutionary programming | |
CN114154641A (zh) | Ai模型的训练方法、装置、计算设备和存储介质 | |
US10310877B2 (en) | Category based execution scheduling | |
CN111736463B (zh) | 一种基于运算平台的自适应深度学习控制方法 | |
CN108139929B (zh) | 用于调度多个任务的任务调度装置和方法 | |
Feljan et al. | Task allocation optimization for multicore embedded systems | |
CN110766146B (zh) | 一种人工智能处理器的学习任务编译方法及相关产品 | |
CN112990461B (zh) | 构建神经网络模型的方法、装置、计算机设备和存储介质 | |
US11567774B2 (en) | Optimized branching using safe static keys | |
Kumar et al. | Overflowing emerging neural network inference tasks from the GPU to the CPU on heterogeneous servers | |
CN116980423B (zh) | 模型调度方法、装置、计算系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |