CN113760380A - 网络模型的运行代码的确定方法、装置、设备及存储介质 - Google Patents
网络模型的运行代码的确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113760380A CN113760380A CN202010460979.6A CN202010460979A CN113760380A CN 113760380 A CN113760380 A CN 113760380A CN 202010460979 A CN202010460979 A CN 202010460979A CN 113760380 A CN113760380 A CN 113760380A
- Authority
- CN
- China
- Prior art keywords
- configuration sequence
- determining
- operator nodes
- operator
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012549 training Methods 0.000 claims description 113
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 abstract description 25
- 238000010586 diagram Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44568—Immediately runnable code
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/71—Version control; Configuration management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种网络模型的运行代码的确定方法、装置、设备及存储介质,属于数据处理技术领域。该方法包括:确定网络模型的第一网络拓扑图,网络模型包括至少一个网络子模型,第一网络拓扑图用于表示至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系;根据第一网络拓扑图中的算子节点的节点配置信息,对第一网络拓扑图进行调整,得到第二网络拓扑图;根据第二网络拓扑图和搜索空间包括的备选配置序列,确定网络模型的目标运行代码。如此,解决了采用人工方式确定网络模型的目标运行代码较为单一的问题,进而提高了网络模型的目标运行代码的运行效率。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种网络模型的运行代码的确定方法、装置、设备及存储介质。
背景技术
随着数据处理技术的快速发展,网络模型广泛应用于人脸识别、语音识别等领域中。其中,网络模型中可以包括一个或多个网络子模型,每个网络子模型中包括多个算子,算子又可以理解为具有运算功能的计算节点。通常来说,基于多个算子可以确定多个运行代码,进而根据多个运行代码以及多个运行代码的执行顺序可以确定网络模型的运行代码。
当网络模型应用于异构平台时,由于异构平台包括多种处理器,所以通常可以确定多个算子和多个处理器之间的任务分配关系,从而确定每个算子对应的运行代码在哪个处理器上运行。当同一算子分配至不同的处理器时,运行代码的运行效率会有所不同。为了提高运行代码的运行效率,往往需要通过人工方式确定算子和处理器之间的任务分配关系。
然而,由于网络模型中网络拓扑结构多变且包括的算子种类较多,而且异构平台中处理器的种类也较多,所以人工方式一般是基于固定的规律来确定算子和处理器之间的任务分配关系,如此,确定的网络模型的运行代码较为单一,进而可能导致网络模型的运行代码的运行效率较低。
发明内容
本申请实施例提供了一种网络模型的运行代码的确定方法、装置、设备及存储介质,可以解决相关技术中网络模型的运行代码的确定结果不准确的问题。
所述技术方案如下:
一方面,提供了一种网络模型的运行代码的确定方法,所述方法包括:
确定网络模型的第一网络拓扑图,所述网络模型包括至少一个网络子模型,所述第一网络拓扑图用于表示所述至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系;
根据所述第一网络拓扑图中的算子节点的节点配置信息,对所述第一网络拓扑图进行调整,得到第二网络拓扑图;
根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,所述搜索空间包括的备选配置序列用于指示所述至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系。
在本申请一种可能的实现方式中,所述根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,包括:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
将所述第一配置序列对应的运行代码发送至所述异构平台上运行;
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标满足参考指标条件,则将所述第一配置序列对应的运行代码确定为所述目标运行代码,其中,所述运行指标用于指示所述第一配置序列对应的运行代码的运行性能。
在本申请一种可能的实现方式中,所述从所述搜索空间中确定一个备选配置序列,得到第一配置序列,包括:
若当前是针对所述网络模型首次进行备选配置序列选择,则从所述搜索空间中随机确定一个备选配置序列,得到所述第一配置序列;
若当前不是针对所述网络模型首次进行备选配置序列选择,通过指定优化器,从所述搜索空间中确定一个备选配置序列,得到所述第一配置序列,所述指定优化器是基于历史训练数据集合确定得到,所述历史训练数据集合中包括多组历史训练数据,每组历史训练数据包括历史选择的配置序列和对应的运行指标。
在本申请一种可能的实现方式中,所述根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码,包括:
根据所述第二网络拓扑图,确定多个算子节点的执行顺序,所述多个算子节点为所述至少一个网络子模型中的算子节点;
根据所述第一配置序列,将所述多个算子节点对应的中间代码转换为对应处理器能够执行的运行代码;
基于所述多个算子节点的执行顺序与转换后得到的运行代码,生成所述第一配置序列对应的运行代码。
在本申请一种可能的实现方式中,所述根据所述第二网络拓扑图,确定多个算子节点的执行顺序,包括:
根据所述第二网络拓扑图,确定所述多个算子节点的距离,每个算子节点的距离是指每个算子节点与输入算子节点之间包括的算子节点个数,所述输入算子节点用于外部输入数据;
根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号;
当所述多个算子节点中不存在距离相同的算子节点时,将所述多个算子节点的编号确定为所述多个算子节点的执行顺序。
在本申请一种可能的实现方式中,所述根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号之后,还包括:
当所述多个算子节点中存在距离相同的算子节点时,根据所述第一配置序列,确定距离相同的算子节点中是否存在分配至相同处理器的算子节点;
当距离相同的算子节点中存在分配至相同处理器的算子节点时,确定距离相同且分配至相同处理器的算子节点的编号对应的先后执行顺序,将确定后的多个算子节点的编号确定为所述多个算子节点的执行顺序。
在本申请一种可能的实现方式中,所述根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码之前,还包括:
当所述异构平台中存在指定处理器时,如果所述多个算子节点中存在相连的多个指定算子节点与所述指定处理器对应,则将所述多个指定算子节点进行合并处理;
相应地,所述根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码,包括:
根据合并处理后的第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码。
在本申请一种可能的实现方式中,所述将所述第一配置序列对应的运行代码发送至所述异构平台上运行之后,还包括:
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合对指定优化器进行更新;
通过更新后的指定优化器,从所述搜索空间中重新确定一个备选配置序列,得到第二配置序列;
基于所述第二网络拓扑图和所述第二配置序列,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应的运行代码在所述异构平台上的运行指标;
若所述第二配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回至所述基于所述历史训练数据集合对指定优化器进行更新的操作,直到存在第二配置序列对应的运行代码在所述异构平台上的运行指标满足所述参考指标条件时,将当前确定的第二配置序列对应的运行代码确定为所述目标运行代码。
在本申请一种可能的实现方式中,所述通过更新后的指定优化器,从搜索空间中选择一个备选配置序列作为所述第二配置序列之前,还包括:
获取用户配置约束信息,所述用户配置约束信息指示所述多个算子节点中部分算子节点与所述多个处理器中至少一个处理器之间的任务分配关系;
确定所述多个算子节点中除所述部分算子节点之外的其他算子节点与所述多个处理器之间的任务分配关系;
基于所述用户配置约束信息指示的所述多个算子节点中部分算子节点与所述至少一个处理器之间的任务分配关系、以及所确定的任务分配关系,构建所述搜索空间。
在本申请一种可能的实现方式中,所述根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,包括:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
获取所述第一配置序列对应的运行代码在所述异构平台上的运行指标;
将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合,确定第二配置序列;
根据所述第二配置序列,确定所述网络模型的目标运行代码。
在本申请一种可能的实现方式中,所述根据所述第二配置序列,确定所述网络模型的目标运行代码,包括:
确定所述第二配置序列与所述第一配置序列是否相同;
当所述第二配置序列与所述第一配置序列相同时,将所述第一配置序列对应的运行代码确定为所述目标运行代码。
在本申请一种可能的实现方式中,所述确定所述第二配置序列与所述第一配置序列是否相同之后,还包括:
当所述第二配置序列与所述第一配置序列不相同时,根据所述第二配置序列和所述第二网络拓扑图,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应运行代码在所述异构平台中的运行指标;
将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回所述基于所述历史训练数据集合,确定第二配置序列的操作,直到存在第二配置序列与上一次确定的第二配置序列相同时,将所述上一次确定的第二配置序列对应的运行代码确定为所述目标运行代码。
另一方面,提供了一种网络模型的运行代码的确定装置,所述装置包括:
第一确定模块,确定网络模型的第一网络拓扑图,所述网络模型包括至少一个网络子模型,所述第一网络拓扑图用于表示所述至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系;
调整模块,用于根据所述第一网络拓扑图中的算子节点的节点配置信息,对所述第一网络拓扑图进行调整,得到第二网络拓扑图;
第二确定模块,用于根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,所述搜索空间包括的备选配置序列用于指示所述至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系。
在本申请一种可能的实现方式中,所述第二确定模块用于:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
将所述第一配置序列对应的运行代码发送至所述异构平台上运行;
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标满足参考指标条件,则将所述第一配置序列对应的运行代码确定为所述目标运行代码,其中,所述运行指标用于指示所述第一配置序列对应的运行代码的运行性能。
在本申请一种可能的实现方式中,所述第二确定模块用于:
若当前是针对所述网络模型首次进行备选配置序列选择,则从所述搜索空间中随机确定一个备选配置序列,得到所述第一配置序列;
若当前不是针对所述网络模型首次进行备选配置序列选择,通过指定优化器,从所述搜索空间中确定一个备选配置序列,得到所述第一配置序列,所述指定优化器是基于历史训练数据集合确定得到,所述历史训练数据集合中包括多组历史训练数据,每组历史训练数据包括历史选择的配置序列和对应的运行指标。
在本申请一种可能的实现方式中,所述第二确定模块用于:
根据所述第二网络拓扑图,确定所述多个算子节点的执行顺序,所述多个算子节点为所述至少一个网络子模型中的算子节点;
根据所述第一配置序列,将所述多个算子节点对应的中间代码转换为对应处理器能够执行的运行代码;
基于所述多个算子节点的执行顺序与转换后得到的运行代码,生成所述第一配置序列对应的运行代码。
在本申请一种可能的实现方式中,所述第二确定模块用于:
根据所述第二网络拓扑图,确定所述多个算子节点的距离,每个算子节点的距离是指每个算子节点与输入算子节点之间包括的算子节点个数,所述输入算子节点用于外部输入数据;
根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号;
当所述多个算子节点中不存在距离相同的算子节点时,将所述多个算子节点的编号确定为所述多个算子节点的执行顺序。
在本申请一种可能的实现方式中,所述第二确定模块用于:
当所述多个算子节点中存在距离相同的算子节点时,根据所述第一配置序列,确定距离相同的算子节点中是否存在分配至相同处理器的算子节点;
当距离相同的算子节点中存在分配至相同处理器的算子节点时,确定距离相同且分配至相同处理器的算子节点的编号对应的先后执行顺序,将确定后的多个算子节点的编号确定为所述多个算子节点的执行顺序。
在本申请一种可能的实现方式中,所述第二确定模块还用于:
当所述异构平台中存在指定处理器时,如果所述多个算子节点中存在相连的多个指定算子节点与所述指定处理器对应,则将所述多个指定算子节点进行合并处理;
根据合并处理后的第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码。
在本申请一种可能的实现方式中,所述第二确定模块还用于:
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合对指定优化器进行更新;
通过更新后的指定优化器,从所述搜索空间中重新确定一个备选配置序列,得到第二配置序列;
基于所述第二网络拓扑图和所述第二配置序列,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应的运行代码在所述异构平台上的运行指标;
若所述第二配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回至所述基于所述历史训练数据集合对指定优化器进行更新的操作,直到存在第二配置序列对应的运行代码在所述异构平台上的运行指标满足所述参考指标条件时,将当前确定的第二配置序列对应的运行代码确定为所述目标运行代码。
在本申请一种可能的实现方式中,所述第二确定模块还用于:
获取用户配置约束信息,所述用户配置约束信息指示所述多个算子节点中部分算子节点与所述多个处理器中至少一个处理器之间的任务分配关系;
确定所述多个算子节点中除所述部分算子节点之外的其他算子节点与所述多个处理器之间的任务分配关系;
基于所述用户配置约束信息指示的所述多个算子节点中部分算子节点与所述至少一个处理器之间的任务分配关系、以及所确定的任务分配关系,构建所述搜索空间。
在本申请一种可能的实现方式中,所述第二确定模块用于:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
获取所述第一配置序列对应的运行代码在所述异构平台上的运行指标;
将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合,确定第二配置序列;
根据所述第二配置序列,确定所述网络模型的目标运行代码。
在本申请一种可能的实现方式中,所述第二确定模块用于:
确定所述第二配置序列与所述第一配置序列是否相同;
当所述第二配置序列与所述第一配置序列相同时,将所述第一配置序列对应的运行代码确定为所述目标运行代码。
在本申请一种可能的实现方式中,所述第二确定模块还用于:
当所述第二配置序列与所述第一配置序列不相同时,根据所述第二配置序列和所述第二网络拓扑图,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应运行代码在所述异构平台中的运行指标;
将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回所述基于所述历史训练数据集合,确定第二配置序列的操作,直到存在第二配置序列与上一次确定的第二配置序列相同时,将所述上一次确定的第二配置序列对应的运行代码确定为所述目标运行代码。
另一方面,提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现上述一方面所述的网络模型的运行代码的确定方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述一方面所述的网络模型的运行代码的确定方法。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述一方面所述的网络模型的运行代码的确定方法。
本申请实施例提供的技术方案带来的有益效果是:
确定网络模型的第一网络拓扑图,该第一网络拓扑图表示了该网络模型包括的至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系。根据该第一网络拓扑图中的算子节点的配置信息,对该第一网络拓扑图进行调整,以对该第一网络拓扑图进行优化,从而得到第二网络拓扑图,之后,根据该第二网络拓扑图和搜索空间包括的备选配置序列,确定网络模型的目标运行代码,由于该搜索空间包括的备选配置序列用于指示至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系,所以所确定的目标运行代码可以有效地运行在包括该多个处理器的异构平台上。如此,解决了采用人工方式确定网络模型的目标运行代码较为单一的问题,进而提高了网络模型的目标运行代码的运行效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电子设备的示意图;
图2是本申请实施例提供的一种网络模型的运行代码的确定方法的流程图;
图3是本申请实施例提供的一种网络拓扑图的示意图;
图4是本申请实施例提供的另一种网络拓扑图的示意图;
图5是本申请实施例提供的一种网络模型的运行代码的确定方法的流程图;
图6是本申请实施例提供的一种确定配置序列的流程图;
图7是本申请实施例提供的一种确定运行代码的流程图;
图8是本申请实施例提供的一种网络拓扑图的示意图;
图9是本申请实施例提供的另一种网络拓扑图的示意图;
图10是本申请实施例提供的另一种网络拓扑图的示意图;
图11是本申请实施例提供的一种确定运行指标的流程图;
图12是本申请实施例提供的一种网络模型的运行代码的确定装置的结构示意图;
图13是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在对本申请实施例提供的网络模型的运行代码的确定方法进行详细介绍之前,对本申请实施例涉及的名词和实施环境进行简单介绍。
首先,对本申请实施例涉及的名词进行简单介绍。
异构平台:异构平台是指包括有多种不同类型的处理器的处理平台。通常异构平台中包括有通用处理器和专用处理器。其中通用处理器一般为CPU(Central ProcessingUnit,中央处理器),专用处理器一般为DSP(Digital Signal Processing,数字信号处理器)、GPU(Graphics Processing Unit,图形处理器)、ASIC(Application SpecificIntegrated Circuit,专用集成电路)等。
中间代码:或称IR(Intermediate Representation,中间表示)、也可以被称为中间表达式或中间语言,是一个在计算机行业中广泛使用的术语,它指的是易于被转换为运行代码,可以等效替代源代码的内部表示代码。
深度学习编译器:可以用于对深度学习模型的源代码进行转换等处理,以得到能够应用于具体硬件平台的运行代码。
接下来,对本申请实施例涉及的执行主体进行简单介绍。
本申请实施例提供的网络模型的运行代码的确定方法可以由电子设备来执行,该电子设备具备数据处理能力,而且可以与异构平台建立通信连接,或者,可以用于部署该异构平台。作为一种示例,该电子设备可以为PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(Pocket PC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱等,本申请实施例对此不做限定。
进一步地,如图1所示,该电子设备中可以包括图生成单元110、节点分配单元120、图优化单元130和编译执行单元140。其中,图生成单元110可以对输入的网络模型进行处理,输出该网络模型的第一网络拓扑图。节点分配单元120可以为算子节点分配处理器。图优化单元130可以对第一网络拓扑图进行调整和优化。编译执行单元140可以将算子节点对应的中间代码转换为相应处理器的运行代码,并完成对运行代码的编译、执行工作。
在介绍完本申请实施例涉及的名词和执行主体后,接下来将结合附图对本申请实施例提供的网络模型的运行代码的确定方法进行详细介绍。
图2是本申请实施例提供的一种网络模型的运行代码的确定方法的流程图,该方法可以由上述执行主体来实现。请参考图2,该方法可以包括如下几个实现步骤。
步骤201:确定网络模型的第一网络拓扑图,该网络模型包括至少一个网络子模型,该第一网络拓扑图用于表示该至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系。
其中,网络模型指的是可以用于处理指定任务的模型,网络模型可以为用户提供的,也可以为从网络中获取得到的,还可以是本地保存的。需要说明的是,网络模型中可以包括一个网络子模型,也可以包括多个网络子模型,示例性地,该网络模型为AI(Artificial Intelligence,人工智能)模型,该AI模型中包括多个网络子模型。通常,AI模型可以用于处理较为复杂的任务,譬如,可以利用AI模型进行人脸识别、车牌识别等。
一般来说,每个网络子模型中包括多个算子,通常,算子又可以称为算子节点,即每个网络子模型中包括多个算子节点。每个算子节点都可以用于在网络子模型中执行计算功能,在一些实施例中,一个算子节点还可以理解为网络子模型中的一个计算单元,譬如,卷积算子节点可以理解为网络子模型中的卷积层单元。在多个算子节点中往往存在部分算子节点之间有数据依赖关系,通常当一个算子节点的输出数据为另一个算子节点的输入数据时,可以说明这两个算子节点之间有数据依赖关系。譬如,假设网络模型中包括算子节点1、算子节点2、算子节点3和算子节点4,当算子节点1和算子节点2的输出数据为算子节点3的输入数据,而算子节点3的输出数据是算子节点4的输入数据时,可以说明算子节点3依赖于算子节点1和算子节点2,算子节点4依赖于算子节点3。
通常情况下,根据数据依赖关系,可以确定网络模型的第一网络拓扑图,即该网络模型可以用第一网络拓扑图来表示,在实施中,可以对网络模型进行解析,从而根据解析结果生成其对应的第一网络拓扑图。第一网络拓扑图中的节点也就可以表示网络模型中的算子节点,第一网络拓扑图中的边可以表示算子节点之间的数据依赖关系。进一步地,该第一网络拓扑图中还可以包括参数节点,参数节点可以指示网络模型中计算节点需要的参数。
作为一种示例,该第一网络拓扑图可以为一级网络拓扑图。譬如,如图3所示,图3中圆形图标用来表示算子节点。当网络模型中包括第一网络子模型、第二网络子模型和第三网络子模型,第一网络子模型和第二网络子模型的输出数据为第三网络子模型的输入数据时,可以通过一级网络拓扑图对该网络模型进行表示。
需要说明的是,当网络模型中包括多个网络子模型时,该第一网络拓扑图还可以为两级网络拓扑图,也就是,可以先通过一级网络拓扑图对多个网络子模型之间的拓扑关系进行表示,再通过二级网络拓扑图对多个网络子模型包括的多个算子节点之间的结构关系进行表示。譬如,如图4所示,图4中方形图标用来表示网络子模型,圆形图标用来表示算子节点。当网络模型中包括第一网络子模型、第二网络子模型和第三网络子模型,第一网络子模型和第二网络子模型的输出数据为第三网络子模型的输入数据时,可以通过图4(a)表示三个网络子模型之间的拓扑关系,进而可以通过图4(b)表示多个网络子模型包括的多个算子节点之间的结构关系。
需要说明的是,两个有数据依赖关系的网络子模型间可以有连接节点,也就是其中一个网络子模型输出数据后,可以通过该连接节点对输出数据做进一步处理,进而将处理后的数据输入至另一个网络子模型中。当网络模型中存在连接节点时,第一网络拓扑图中的节点还可以包括用于指示该连接节点的节点。
步骤202:根据该第一网络拓扑图中的算子节点的节点配置信息,对该第一网络拓扑图进行调整,得到第二网络拓扑图。
如图5所示流程,当确定了网络模型的第一网络拓扑图后,还可以对该第一网络拓扑图中的算子节点进行信息配置,所配置的节点配置信息可以包括各个算子节点的数据类型、排布方式与参数等。其中,数据类型指的是在算子节点中进行运算的数据的类型,如可以配置算子节点的数据类型为浮点型。排布方式可以用于确定与算子节点相关的多维数据的组织形式,譬如,确定与算子节点相关的输入数据、输出数据等的组织形式。参数指的是算子节点的计算参数,譬如参数可以用于指示卷积算子节点的计算核宽高、是否padding(填充)等。
进一步地,根据第一网络拓扑图中的算子节点的节点配置信息,可以对该第一网络拓扑图进行简化处理,也就是检测第一网络拓扑图中是否有相邻的参考算子节点,如果存在,可以将这些相邻的参考算子节点进行融合,也就是合并为同一个算子节点。如此,可以减少两个算子节点之间的数据传输,进而可以提高网络模型的运行效率。其中,该参考算子节点可以根据实际需求进行设置。示例性的,当相邻的两个算子节点分别是卷积算子节点和激活算子节点时,那么这两个算子节点可以合并为同一个算子节点。如此,可以对该第一网络拓扑进行简化等处理,得到该网络模型的第二网络拓扑图。
步骤203:根据该第二网络拓扑图和搜索空间包括的备选配置序列,确定该网络模型的目标运行代码,该搜索空间包括的备选配置序列用于指示该至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系。
其中,异构平台中包括有多种不同类型的处理器,譬如,异构平台中可以包括CPU、DSP、GPU等处理器。
作为一种示例,该步骤203的具体实现可以包括如下几个步骤:
2031:从该搜索空间中确定一个备选配置序列,得到第一配置序列。
通常,当网络模型应用于异构平台时,往往可以通过备选配置序列确定网络模型中的算子节点与异构平台的多个处理器之间的任务分配关系,即确定每个算子节点被分配至哪个处理器执行,所以,从搜索空间中确定一个备选配置序列。
作为一种示例,从搜索空间中确定一个备选配置序列,得到第一配置序列的具体实现可以包括:若当前是针对该网络模型首次进行备选配置序列选择,则从该搜索空间中随机确定一个备选配置序列,得到该第一配置序列。
当网络模型初次应用到异构平台时,电子设备通常会随机在搜索空间中选择一个备选配置序列作为第一配置序列,其中,搜索空间中包括了所有可能的多个算子节点与多个处理器之间的任务分配关系,每一种任务分配关系可以用一个备选配置序列指示。
具体地,搜索空间的构建方式可以为:获取用户配置约束信息,用户配置约束信息指示多个算子节点中部分算子节点与多个处理器中至少一个处理器之间的任务分配关系。确定多个算子节点中除部分算子节点之外的其他算子节点与多个处理器之间的任务分配关系。基于用户配置约束信息指示的多个算子节点中部分算子节点与至少一个处理器之间的任务分配关系、以及所确定的任务分配关系,构建搜索空间。
也就是说,第二网络拓扑图包括的多个算子节点中,可能存在部分算子节点已经被用户分配至确定的处理器了,如此,便只需要确定剩下的没有被用户分配的算子节点与多个处理器之间的任务分配关系,进而确定搜索空间。需要说明的是,用户可以不指定算子节点的任务分配关系,也可以指定多个算子节点的任务分配关系,且当用户指定多个算子节点的任务分配关系时,该多个算子节点可以被用户分配至同一个处理器,也可以被用户分配至不同的处理器,本实施例对此不做限定。
通常来说,在多个算子节点中,用户配置的算子节点的数量越多,可以构建的搜索空间越小,用户配置的算子节点的数量越少,可以构建的搜索空间越大。示例性地,当网络模型中有k个网络子模型,异构平台中有m个不同类型的处理器时,可以设置ni为第i个网络子模型中包括的算子节点的数量,其中pi为第i个网络子模型中用户已经配置好的算子节点的数量,qi为第i个网络子模型中未被用户配置的算子节点的数量。如此,搜索空间中也就包括有q1 m×q2 m×q3 m…×qk m个备选配置序列,其中每个备选配置序列也就是一个长度为数值范围为[1,m]的序列。
譬如,当网络模型中有1个网络子模型,异构平台中包括处理器1和处理器2,该网络子模型中包括4个算子节点,其中算子节点1和算子节点2已经被用户分配至处理器1,算子节点3和算子节点4还未被用户配置。如此,搜索空间中也就有4个备选配置序列,分别为[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器1)]、[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器2)]、[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器2),(算子节点4,处理器1)]、[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器2),(算子节点4,处理器2)]。
如此,可以确定相应的搜索空间,电子设备可以在该搜索空间中随机选取一个备选配置序列作为第一配置序列。
作为另一种示例,从搜索空间中确定一个备选配置序列,得到第一配置序列的具体实现可以包括:若当前不是针对该网络模型首次进行备选配置序列选择,通过指定优化器,从该搜索空间中确定一个备选配置序列,得到该第一配置序列,该指定优化器是基于历史训练数据集合确定得到,该历史训练数据集合中包括多组历史训练数据,每组历史训练数据包括历史选择的配置序列和对应的运行指标。
其中,指定优化器可以理解为基于历史训练数据集合训练得出的一个模型,该指定优化器可以在搜索空间中选取一个备选配置序列作为第二配置序列。通常情况下,随着用于训练的历史训练数据集合不断更新,指定优化器也会不断更新,进而该指定优化器选取的第二配置序列对应的运行代码满足参考指标条件的可能性会更高。
2032:根据第二网络拓扑图和第一配置序列,生成第一配置序列对应的运行代码。
也就是基于第二网络拓扑图和第一配置序列,生成第一配置序列对应的可以在异构平台中执行的运行代码。具体地,如图7所示流程,根据第二网络拓扑图和第一配置序列,生成第一配置序列对应的运行代码的实现可以包括:
(1)根据第二网络拓扑图,确定多个算子节点的执行顺序,该多个算子节点为该至少一个网络子模型中的算子节点。
一般来说,通过第二网络拓扑图可以确定多个算子节点之间的数据依赖关系,如此可以进一步确定多个算子节点的先后执行顺序。譬如,当算子节点3依赖于算子节点1和算子节点2时,可以确定算子节点3是在算子节点1和算子节点2执行之后再执行。
具体地,根据第二网络拓扑图,确定多个算子节点的执行顺序的实现方式可以为:根据第二网络拓扑图,确定多个算子节点的距离,每个算子节点的距离是指每个算子节点与输入算子节点之间包括的算子节点个数,输入算子节点用于外部输入数据。根据多个算子节点的距离的大小,对多个算子节点进行编号。当多个算子节点中不存在距离相同的算子节点时,将多个算子节点的编号确定为多个算子节点的执行顺序。
通常来说,距离输入算子节点距离越大的算子节点的执行顺序越靠后,距离输入算子节点距离越小的算子节点的执行顺序越靠前。当多个算子节点中不存在距离相同的算子节点,也就是不存在执行顺序可能相同的算子节点时,可以根据多个算子节点与输入算子节点之间的距离确定执行顺序。示例性地,当两个算子节点编号相邻时,可以确定两个算子节点中编号小的算子节点先执行,两个算子节点中编号大的算子节点后执行,以此类推,可以确定多个算子节点的先后执行顺序。
譬如,如图8所示,图8中方形图标用于表示输入节点,圆形图标用于表示算子节点,根据算子节点与输入算子节点的距离,将三个算子节点分别编号为算子节点1、算子节点2和算子节点3,由于这三个算子节点中没有编号相同的算子节点,所以可以根据编号确定执行顺序,也就是先执行算子节点1、再执行算子节点2、最后执行算子节点3。
然而,当多个算子节点中存在距离相同的算子节点,也就是存在执行顺序可能相同的算子节点时,确定多个算子节点的执行顺序的方法又有所不同。
具体地,在根据多个算子节点的距离的大小,对多个算子节点进行编号之后,当多个算子节点中存在距离相同的算子节点时,可以根据第一配置序列,确定距离相同的算子节点是否存在分配至相同处理器的算子节点。当距离相同的算子节点中存在分配至相同处理器的算子节点时,确定距离相同且分配至相同处理器的算子节点的编号对应的先后执行顺序,将确定后的多个算子节点的编号确定为多个算子节点的执行顺序。
也就是,当多个算子节点中存在编号相同的算子节点时,可以通过确定编号相同的算子节点中是否存在分配至相同处理器的算子节点,进一步确定编号相同的算子节点的执行顺序。
当距离相同的算子节点中存在分配至相同处理器的算子节点时,由于一个处理器同一时间只能对一个算子节点进行处理,所以当有多个算子节点分配至同一处理器时,通常可以随机确定该多个算子节点的先后执行顺序。
譬如,如图9所示,图9中方形图标用于表示输入算子节点,圆形图标用于表示算子节点,当第二网络拓扑图中两个编号为1的算子节点都被分配至同一个处理器时,可以对这两个编号为1的算子节点进一步编号,如可以将这两个算子节点编号为1A和1B。当第二网络拓扑图中三个编号为2的算子节点都被分配至同一个处理器时,可以对这三个编号为2的算子节点进一步编号,如可以将这三个算子节点编号为2A、2B和2C。当第二网络拓扑图中三个编号为3的算子节点都被分配至同一个处理器时,可以对这三个编号为3的算子节点进一步编号,如可以将这三个算子节点编号为3A、3B和3C。当第二网络拓扑图中两个编号为4的算子节点都被分配至同一个处理器时,可以对这两个编号为4的算子节点进一步编号,如可以将这两个算子节点编号为4A和4B。如此,便可以确定该多个算子节点的先后执行顺序,如可以确定先后执行顺序为算子节点1A、算子节点1B、算子节点2A、算子节点2B、算子节点2C、算子节点3A、算子节点3B、算子节点3C、算子节点3、算子节点4A、算子节点4B、算子节点5、算子节点6和算子节点7。
需要说明的是,当距离相同的算子节点中不存在分配至相同处理器的算子节点时,那么距离相同的算子节点可以在不同的处理器中并行处理,也就是该距离相同的算子节点的执行顺序相同。
譬如,如图10所示,图10中方形图标用于表示输入算子节点,圆形图标用于表示算子节点,当第二网络拓扑图中两个编号为1的算子节点被分配至不同处理器时,这两个算子节点的执行顺序可以相同。
(2)根据第一配置序列,将多个算子节点对应的中间代码转换为对应处理器能够执行的运行代码。
可以理解的是,网络模型应用于异构平台实际上就是网络模型的目标运行代码运行于异构平台中。其中,网络模型包括的每个算子节点都有相应的中间代码,而每个算子节点对应的中间代码又可以根据第一配置序列,也就是根据每个算子节点分配至哪个处理器,将每个算子节点的中间代码转换为可以在分配的处理器中执行的运行代码。
其中,将算子节点的中间代码转换为可以在分配的处理器中执行的运行代码的方法有很多种,譬如,可以利用深度学习编译器自动生成算子节点对应的运行代码,还可以人工编写算子节点对应的运行代码,本实施例对此不做限定。
(3)基于多个算子节点的执行顺序与转换后得到的运行代码,生成第一配置序列对应的运行代码。
也就是说,基于多个算子节点对应的多个运行代码以及该多个运行代码间的执行顺序,可以生成第一配置序列对应的运行代码。
需要说明的是,在根据第二网络拓扑图和第一配置序列,生成第一配置序列对应的运行代码之前,还可以对第二网络拓扑图进行进一步的简化操作,如当异构平台中存在指定处理器时,如果多个算子节点中存在相连的多个指定算子节点与指定处理器对应,则将多个指定算子节点进行合并处理。相应地,根据第二网络拓扑图和第一配置序列,生成第一配置序列对应的运行代码的实现方式也就可以为:根据合并处理后的第二网络拓扑图和第一配置序列,生成第一配置序列对应的运行代码。
也就是说,当异构平台中存在指定处理器时,在一些情况下,还可以对第二网络拓扑图进一步地进行简化处理。示例性地,可以确定卷积处理器为指定处理器,确定卷积算子节点与池化算子节点为指定算子节点,当异构平台中包括卷积处理器,且该卷积处理器既可以进行卷积处理,又可以进行池化处理时,可以在第二网络拓扑图中检测是否存在卷积算子节点与池化算子节点相连接,且相连接的卷积算子节点和池化算子节点都被分配至卷积处理器的情况,如果存在,那么可以将该相连接且都被分配至卷积处理器的卷积算子节点和池化算子节点合并为一个算子节点。如此,可以减少两个算子节点之间的数据传输,进而可以提高网络模型的运行效率。
当然,除了在异构平台中存在指定处理器时,可以对第二网络拓扑图进行简化处理之外,还可以对第二网络拓扑图进行一些通用的处理,譬如,可以对第二网络拓扑图进行系数内存排布转换处理、节点融合处理和内存复用优化处理等等。其中,系数内存排布转换也就是根据算子节点分配的处理器信息,对算子节点的数据类型进行转换,节点融合处理也就是可以在不存在指定处理器时,对一些指定算子节点进行合并处理,内存复用处理也就是可以对算子节点输入数据和输出数据的存储位置进行合理的分配。
2033:将第一配置序列对应的运行代码发送至异构平台上运行。
2034:若第一配置序列对应的运行代码在异构平台上的运行指标满足参考指标条件,则将第一配置序列对应的运行代码确定为目标运行代码,其中,该运行指标用于指示该第一配置序列对应的运行代码的运行性能。
如图11所示流程,通过在异构平台中运行第一配置序列对应的运行代码,可以获取该第一配置序列对应的运行代码的运行指标。
其中,运行指标可以根据实际情况进行设置,譬如,可以设置运行指标为运行代码在异构平台上的运行时间,还可以设置运行指标为运行代码在异构平台上的运行内存等,本实施例对此不做限定。
其中,参考指标条件可以根据实际情况进行设置。譬如,当运行指标为运行时间时,可以设置参考指标条件为2分钟,当第一配置序列对应的运行代码在异构平台上的运行时间小于2分钟时,可以确定第一配置序列对应的运行代码为目标运行代码。
然而,当第一配置序列对应的运行代码不满足参考指标条件时,确定目标运行代码的方式又有所不同。具体地,将第一配置序列对应的运行代码发送至异构平台上运行之后,若第一配置序列对应的运行代码在异构平台上的运行指标不满足参考指标条件时,可以将第一配置序列和第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据。基于历史训练数据集合对指定优化器进行更新,通过更新后的指定优化器,从搜索空间中重新确定一个备选配置序列,得到第二配置序列。基于第二网络拓扑图和第二配置序列,生成第二配置序列对应的运行代码。获取第二配置序列对应的运行代码在异构平台上的运行指标。若第二配置序列对应的运行代码在异构平台上的运行指标不满足参考指标条件,则将第二配置序列和第二配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据。返回至基于历史训练数据集合对指定优化器进行更新的操作,直到存在第二配置序列对应的运行代码在异构平台上的运行指标满足参考指标条件时,将当前确定的第二配置序列对应的运行代码确定为目标运行代码。
当第一配置序列对应的运行代码在异构平台上的运行指标不满足参考指标条件时,可以说明当前的运行代码不能够作为网络模型的目标运行代码。如此,便可以将第一配置序列和第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据,基于重新得到的历史训练数据集合对指定优化器进行更新,通过更新后的指定优化器从搜索空间中重新确定一个备选配置序列,得到第二配置序列,进而基于第二配置序列和第二网络拓扑图,生成第二配置序列对应的运行代码。
当第二配置序列对应的运行代码不满足参考指标条件时,可以说明第二配置序列对应的运行代码也不能作为目标运行代码,如此,便可以将第二配置序列和对应的运行指标作为一组历史训练数据,更新历史训练数据集合,如此基于更新的历史训练数据集合,再对指定优化器进行更新,并通过更新后的指定优化器从搜索空间中重新确定第二配置序列,直至生成的第二配置序列对应的运行代码在异构平台上的运行指标满足参考指标条件时,将该第二配置序列对应的运行代码确定为目标运行代码。
需要说明的是,当搜索空间较小时,也可以将搜索空间中所有的备选配置序列对应的运行代码都在异构平台中运行一遍,优化器选取其中运行指标符合需求的一个备选配置序列对应的运行代码作为目标运行代码。
如此,便可以确定出网络模型的目标运行代码。
接下来介绍根据第二网络拓扑图和第一配置序列确定网络模型的目标运行代码的另一种实现方式。
作为另一种示例,根据第二网络拓扑图和第一配置序列,确定网络模型的目标运行代码的实现方式可以为:从搜索空间中确定一个备选配置序列,得到第一配置序列。根据第二网络拓扑图和第一配置序列,生成第一配置序列对应的运行代码。获取第一配置序列对应的运行代码在异构平台上的运行指标。将第一配置序列和第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据。基于历史训练数据集合,确定第二配置序列。根据第二配置序列,确定网络模型的目标运行代码。
也就是说,当获取到第一配置序列对应的运行代码在异构平台上的运行指标时,将第一配置序列与第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据,也就是将历史训练数据集合作为指定优化器的训练数据,对指定优化器进行更新,进而更新后的指定优化器可以在搜索空间中确定一个备选配置序列,作为第二配置序列。
在确定第二配置序列之后,便可以进一步基于第二配置序列确定网络模型的目标运行代码。具体地,根据第二配置序列,确定网络模型的目标运行代码的实现方式可以为:确定第二配置序列与第一配置序列是否相同。当第二配置序列与第一配置序列相同时,将第一配置序列对应的运行代码确定为目标运行代码。
也就是对第二配置序列和第一配置序列进行比对,当第二配置序列与第一配置序列相同时,说明该指定优化器确定第一配置序列即为符合需求的配置序列,如此,将第一配置序列对应的运行代码确定为目标运行代码。
譬如,当第一配置序列为[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器1)],第二配置序列也为[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器1)]时,确定第一配置序列对应的运行代码为目标运行代码。
然而,当第二配置序列与第一配置序列不同时,可以根据第二配置序列和第二网络拓扑图,生成第二配置序列对应的运行代码。获取第二配置序列对应运行代码在异构平台中的运行指标。将第二配置序列和第二配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据。返回基于历史训练数据集合,确定第二配置序列的操作,直到存在第二配置序列与上一次确定的第二配置序列相同时,将上一次的第二配置序列对应的运行代码确定为目标运行代码。
当第二配置序列与第一配置序列不同时,也就说明指定优化器确定第一配置序列不是符合需求的配置序列,如此,将第二配置序列与第二配置序列对应的运行代码的运行指标作为一组历史训练数据,更新历史训练数据集合,基于更新的历史训练数据集合,对指定优化器进行更新,进而指定优化器重新在搜索空间中选择一个备选配置序列作为第二配置序列,如此,直至指定优化器确定的第二配置序列与上一次确定的第二配置序列相同,也就说明指定优化器确定上一次确定的第二配置序列为符合需求的配置序列,可以将上一次确定的第二配置序列对应的运行代码确定为目标运行代码。
譬如,当第一配置序列为[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器1)],第二配置序列为[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器2)]时,将该第二配置序列及第二配置序列对应的运行指标作为一组历史训练数据,指定优化器重新在搜索空间中选择一个备选配置序列作为第二配置序列,当重新选择的第二配置序列为[(算子节点1,处理器1),(算子节点2,处理器1),(算子节点3,处理器1),(算子节点4,处理器2)],也就是和上一次确定的第二配置序列相同时,将上一次确定的第二配置序列对应的运行代码确定为目标运行代码。
需要说明的是,当网络模型中存在连接节点时,电子设备可以不为该连接节点分配处理器,也可以根据实际情况为该连接节点分配处理器,本申请实施例对此不做限定。
在本申请实施例中,确定网络模型的第一网络拓扑图,该第一网络拓扑图表示了该网络模型包括的至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系。根据该第一网络拓扑图中的算子节点的配置信息,对该第一网络拓扑图进行调整,以对该第一网络拓扑图进行优化,从而得到第二网络拓扑图,之后,根据该第二网络拓扑图和搜索空间包括的备选配置序列,确定网络模型的目标运行代码,由于该搜索空间包括的备选配置序列用于指示至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系,所以所确定的目标运行代码可以有效地运行在包括该多个处理器的异构平台上。如此,解决了采用人工方式确定网络模型的目标运行代码较为单一的问题,进而提高了网络模型的目标运行代码的运行效率。
图12是本申请实施例提供的一种网络模型的运行代码的确定装置的结构示意图,该网络模型的运行代码的确定装置可以由软件、硬件或者两者的结合实现。该网络模型的运行代码的确定装置可以包括:
第一确定模块1210,确定网络模型的第一网络拓扑图,所述网络模型包括至少一个网络子模型,所述第一网络拓扑图用于表示所述至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系;
调整模块1220,用于根据所述第一网络拓扑图中的算子节点的节点配置信息,对所述第一网络拓扑图进行调整,得到第二网络拓扑图;
第二确定模块1230,用于根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,所述搜索空间包括的备选配置序列用于指示所述至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
将所述第一配置序列对应的运行代码发送至所述异构平台上运行;
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标满足参考指标条件,则将所述第一配置序列对应的运行代码确定为所述目标运行代码,其中,所述运行指标用于指示所述第一配置序列对应的运行代码的运行性能。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
若当前是针对所述网络模型首次进行备选配置序列选择,则从所述搜索空间中随机确定一个备选配置序列,得到所述第一配置序列;
若当前不是针对所述网络模型首次进行备选配置序列选择,通过指定优化器,从所述搜索空间中确定一个备选配置序列,得到所述第一配置序列,所述指定优化器是基于历史训练数据集合确定得到,所述历史训练数据集合中包括多组历史训练数据,每组历史训练数据包括历史选择的配置序列和对应的运行指标。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
根据所述第二网络拓扑图,确定所述多个算子节点的执行顺序,所述多个算子节点为所述至少一个网络子模型中的算子节点;
根据所述第一配置序列,将所述多个算子节点对应的中间代码转换为对应处理器能够执行的运行代码;
基于所述多个算子节点的执行顺序与转换后得到的运行代码,生成所述第一配置序列对应的运行代码。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
根据所述第二网络拓扑图,确定所述多个算子节点的距离,每个算子节点的距离是指每个算子节点与输入算子节点之间包括的算子节点个数,所述输入算子节点用于外部输入数据;
根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号;
当所述多个算子节点中不存在距离相同的算子节点时,将所述多个算子节点的编号确定为所述多个算子节点的执行顺序。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
当所述多个算子节点中存在距离相同的算子节点时,根据所述第一配置序列,确定距离相同的算子节点中是否存在分配至相同处理器的算子节点;
当距离相同的算子节点中存在分配至相同处理器的算子节点时,确定距离相同且分配至相同处理器的算子节点的编号对应的先后执行顺序,将确定后的多个算子节点的编号确定为所述多个算子节点的执行顺序。
在本申请一种可能的实现方式中,所述第二确定模块1230还用于:
当所述异构平台中存在指定处理器时,如果所述多个算子节点中存在相连的多个指定算子节点与所述指定处理器对应,则将所述多个指定算子节点进行合并处理;
根据合并处理后的第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码。
在本申请一种可能的实现方式中,所述第二确定模块1230还用于:
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合对指定优化器进行更新;
通过更新后的指定优化器,从所述搜索空间中重新确定一个备选配置序列,得到第二配置序列;
基于所述第二网络拓扑图和所述第二配置序列,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应的运行代码在所述异构平台上的运行指标;
若所述第二配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回至所述基于所述历史训练数据集合对指定优化器进行更新的操作,直到存在第二配置序列对应的运行代码在所述异构平台上的运行指标满足所述参考指标条件时,将当前确定的第二配置序列对应的运行代码确定为所述目标运行代码。
在本申请一种可能的实现方式中,所述第二确定模块1230还用于:
获取用户配置约束信息,所述用户配置约束信息指示所述多个算子节点中部分算子节点与所述多个处理器中至少一个处理器之间的任务分配关系;
确定所述多个算子节点中除所述部分算子节点之外的其他算子节点与所述多个处理器之间的任务分配关系;
基于所述用户配置约束信息指示的所述多个算子节点中部分算子节点与所述至少一个处理器之间的任务分配关系、以及所确定的任务分配关系,构建所述搜索空间。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
获取所述第一配置序列对应的运行代码在所述异构平台上的运行指标;
将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合,确定第二配置序列;
根据所述第二配置序列,确定所述网络模型的目标运行代码。
在本申请一种可能的实现方式中,所述第二确定模块1230用于:
确定所述第二配置序列与所述第一配置序列是否相同;
当所述第二配置序列与所述第一配置序列相同时,将所述第一配置序列对应的运行代码确定为所述目标运行代码。
在本申请一种可能的实现方式中,所述第二确定模块1230还用于:
当所述第二配置序列与所述第一配置序列不相同时,根据所述第二配置序列和所述第二网络拓扑图,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应运行代码在所述异构平台中的运行指标;
将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回所述基于所述历史训练数据集合,确定第二配置序列的操作,直到存在第二配置序列与上一次确定的第二配置序列相同时,将所述上一次确定的第二配置序列对应的运行代码确定为所述目标运行代码。
在本申请实施例中,确定网络模型的第一网络拓扑图,该第一网络拓扑图表示了该网络模型包括的至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系。根据该第一网络拓扑图中的算子节点的配置信息,对该第一网络拓扑图进行调整,以对该第一网络拓扑图进行优化,从而得到第二网络拓扑图,之后,根据该第二网络拓扑图和搜索空间包括的备选配置序列,确定网络模型的目标运行代码,由于该搜索空间包括的备选配置序列用于指示至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系,所以所确定的目标运行代码可以有效地运行在包括该多个处理器的异构平台上。如此,解决了采用人工方式确定网络模型的目标运行代码较为单一的问题,进而提高了网络模型的目标运行代码的运行效率。
需要说明的是:上述实施例提供的网络模型的运行代码的确定装置在进行网络模型的运行代码的确定时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网络模型的运行代码的确定装置与网络模型的运行代码的确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图13是本申请实施例提供的一种电子设备1300的结构框图。该电子设备1300可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,电子设备1300包括有:处理器1301和存储器1302。
处理器1301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1301所执行以实现本申请中方法实施例提供的网络模型的运行代码的确定方法。
本领域技术人员可以理解,图13中示出的结构并不构成对电子设备1300的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
在一些实施例中,还提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中网络模型的运行代码的确定方法的步骤。例如,所述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
值得注意的是,本申请提到的计算机可读存储介质可以为非易失性存储介质,换句话说,可以是非瞬时性存储介质。
应当理解的是,实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。所述计算机指令可以存储在上述计算机可读存储介质中。
也即是,在一些实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述所述的网络模型的运行代码的确定方法的步骤。
以上所述为本申请提供的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (26)
1.一种网络模型的运行代码的确定方法,其特征在于,所述方法包括:
确定网络模型的第一网络拓扑图,所述网络模型包括至少一个网络子模型,所述第一网络拓扑图用于表示所述至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系;
根据所述第一网络拓扑图中的算子节点的节点配置信息,对所述第一网络拓扑图进行调整,得到第二网络拓扑图;
根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,所述搜索空间包括的备选配置序列用于指示所述至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系。
2.如权利要求1所述的方法,其特征在于,所述根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,包括:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
将所述第一配置序列对应的运行代码发送至所述异构平台上运行;
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标满足参考指标条件,则将所述第一配置序列对应的运行代码确定为所述目标运行代码,其中,所述运行指标用于指示所述第一配置序列对应的运行代码的运行性能。
3.如权利要求2所述的方法,其特征在于,所述从所述搜索空间中确定一个备选配置序列,得到第一配置序列,包括:
若当前是针对所述网络模型首次进行备选配置序列选择,则从所述搜索空间中随机确定一个备选配置序列,得到所述第一配置序列;
若当前不是针对所述网络模型首次进行备选配置序列选择,通过指定优化器,从所述搜索空间中确定一个备选配置序列,得到所述第一配置序列,所述指定优化器是基于历史训练数据集合确定得到,所述历史训练数据集合中包括多组历史训练数据,每组历史训练数据包括历史选择的配置序列和对应的运行指标。
4.如权利要求2所述的方法,其特征在于,所述根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码,包括:
根据所述第二网络拓扑图,确定多个算子节点的执行顺序,所述多个算子节点为所述至少一个网络子模型中的算子节点;
根据所述第一配置序列,将所述多个算子节点对应的中间代码转换为对应处理器能够执行的运行代码;
基于所述多个算子节点的执行顺序与转换后得到的运行代码,生成所述第一配置序列对应的运行代码。
5.如权利要求4所述的方法,其特征在于,所述根据所述第二网络拓扑图,确定多个算子节点的执行顺序,包括:
根据所述第二网络拓扑图,确定所述多个算子节点的距离,每个算子节点的距离是指每个算子节点与输入算子节点之间包括的算子节点个数,所述输入算子节点用于外部输入数据;
根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号;
当所述多个算子节点中不存在距离相同的算子节点时,将所述多个算子节点的编号确定为所述多个算子节点的执行顺序。
6.如权利要求5所述的方法,其特征在于,所述根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号之后,还包括:
当所述多个算子节点中存在距离相同的算子节点时,根据所述第一配置序列,确定距离相同的算子节点中是否存在分配至相同处理器的算子节点;
当距离相同的算子节点中存在分配至相同处理器的算子节点时,确定距离相同且分配至相同处理器的算子节点的编号对应的先后执行顺序,将确定后的多个算子节点的编号确定为所述多个算子节点的执行顺序。
7.如权利要求2所述的方法,其特征在于,所述根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码之前,还包括:
当所述异构平台中存在指定处理器时,如果所述多个算子节点中存在相连的多个指定算子节点与所述指定处理器对应,则将所述多个指定算子节点进行合并处理;
相应地,所述根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码,包括:
根据合并处理后的第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码。
8.如权利要求2所述的方法,其特征在于,所述将所述第一配置序列对应的运行代码发送至所述异构平台上运行之后,还包括:
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合对指定优化器进行更新;
通过更新后的指定优化器,从所述搜索空间中重新确定一个备选配置序列,得到第二配置序列;
基于所述第二网络拓扑图和所述第二配置序列,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应的运行代码在所述异构平台上的运行指标;
若所述第二配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回至所述基于所述历史训练数据集合对指定优化器进行更新的操作,直到存在第二配置序列对应的运行代码在所述异构平台上的运行指标满足所述参考指标条件时,将当前确定的第二配置序列对应的运行代码确定为所述目标运行代码。
9.如权利要求8所述的方法,其特征在于,所述通过更新后的指定优化器,从搜索空间中选择一个备选配置序列作为所述第二配置序列之前,还包括:
获取用户配置约束信息,所述用户配置约束信息指示所述多个算子节点中部分算子节点与所述多个处理器中至少一个处理器之间的任务分配关系;
确定所述多个算子节点中除所述部分算子节点之外的其他算子节点与所述多个处理器之间的任务分配关系;
基于所述用户配置约束信息指示的所述多个算子节点中部分算子节点与所述至少一个处理器之间的任务分配关系、以及所确定的任务分配关系,构建所述搜索空间。
10.如权利要求1所述的方法,其特征在于,所述根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,包括:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
获取所述第一配置序列对应的运行代码在所述异构平台上的运行指标;
将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合,确定第二配置序列;
根据所述第二配置序列,确定所述网络模型的目标运行代码。
11.如权利要求10所述的方法,其特征在于,所述根据所述第二配置序列,确定所述网络模型的目标运行代码,包括:
确定所述第二配置序列与所述第一配置序列是否相同;
当所述第二配置序列与所述第一配置序列相同时,将所述第一配置序列对应的运行代码确定为所述目标运行代码。
12.如权利要求11所述的方法,其特征在于,所述确定所述第二配置序列与所述第一配置序列是否相同之后,还包括:
当所述第二配置序列与所述第一配置序列不相同时,根据所述第二配置序列和所述第二网络拓扑图,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应运行代码在所述异构平台中的运行指标;
将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回所述基于所述历史训练数据集合,确定第二配置序列的操作,直到存在第二配置序列与上一次确定的第二配置序列相同时,将所述上一次确定的第二配置序列对应的运行代码确定为所述目标运行代码。
13.一种网络模型的运行代码的确定装置,其特征在于,所述装置包括:
第一确定模块,确定网络模型的第一网络拓扑图,所述网络模型包括至少一个网络子模型,所述第一网络拓扑图用于表示所述至少一个网络子模型之间的拓扑关系,以及每个网络子模型包括的多个算子节点之间的结构关系;
调整模块,用于根据所述第一网络拓扑图中的算子节点的节点配置信息,对所述第一网络拓扑图进行调整,得到第二网络拓扑图;
第二确定模块,用于根据所述第二网络拓扑图和搜索空间包括的备选配置序列,确定所述网络模型的目标运行代码,所述搜索空间包括的备选配置序列用于指示所述至少一个网络子模型的算子节点与异构平台的多个处理器之间的任务分配关系。
14.如权利要求13所述的装置,其特征在于,所述第二确定模块用于:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
将所述第一配置序列对应的运行代码发送至所述异构平台上运行;
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标满足参考指标条件,则将所述第一配置序列对应的运行代码确定为所述目标运行代码,其中,所述运行指标用于指示所述第一配置序列对应的运行代码的运行性能。
15.如权利要求14所述的装置,其特征在于,所述第二确定模块用于:
若当前是针对所述网络模型首次进行备选配置序列选择,则从所述搜索空间中随机确定一个备选配置序列,得到所述第一配置序列;
若当前不是针对所述网络模型首次进行备选配置序列选择,通过指定优化器,从所述搜索空间中确定一个备选配置序列,得到所述第一配置序列,所述指定优化器是基于历史训练数据集合确定得到,所述历史训练数据集合中包括多组历史训练数据,每组历史训练数据包括历史选择的配置序列和对应的运行指标。
16.如权利要求14所述的装置,其特征在于,所述第二确定模块用于:
根据所述第二网络拓扑图,确定所述多个算子节点的执行顺序,所述多个算子节点为所述至少一个网络子模型中的算子节点;
根据所述第一配置序列,将所述多个算子节点对应的中间代码转换为对应处理器能够执行的运行代码;
基于所述多个算子节点的执行顺序与转换后得到的运行代码,生成所述第一配置序列对应的运行代码。
17.如权利要求16所述的装置,其特征在于,所述第二确定模块用于:
根据所述第二网络拓扑图,确定所述多个算子节点的距离,每个算子节点的距离是指每个算子节点与输入算子节点之间包括的算子节点个数,所述输入算子节点用于外部输入数据;
根据所述多个算子节点的距离的大小,对所述多个算子节点进行编号;
当所述多个算子节点中不存在距离相同的算子节点时,将所述多个算子节点的编号确定为所述多个算子节点的执行顺序。
18.如权利要求17所述的装置,其特征在于,所述第二确定模块用于:
当所述多个算子节点中存在距离相同的算子节点时,根据所述第一配置序列,确定距离相同的算子节点中是否存在分配至相同处理器的算子节点;
当距离相同的算子节点中存在分配至相同处理器的算子节点时,确定距离相同且分配至相同处理器的算子节点的编号对应的先后执行顺序,将确定后的多个算子节点的编号确定为所述多个算子节点的执行顺序。
19.如权利要求14所述的装置,其特征在于,所述第二确定模块还用于:
当所述异构平台中存在指定处理器时,如果所述多个算子节点中存在相连的多个指定算子节点与所述指定处理器对应,则将所述多个指定算子节点进行合并处理;
根据合并处理后的第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码。
20.如权利要求14所述的装置,其特征在于,所述第二确定模块还用于:
若所述第一配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合对指定优化器进行更新;
通过更新后的指定优化器,从所述搜索空间中重新确定一个备选配置序列,得到第二配置序列;
基于所述第二网络拓扑图和所述第二配置序列,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应的运行代码在所述异构平台上的运行指标;
若所述第二配置序列对应的运行代码在所述异构平台上的运行指标不满足所述参考指标条件,则将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回至所述基于所述历史训练数据集合对指定优化器进行更新的操作,直到存在第二配置序列对应的运行代码在所述异构平台上的运行指标满足所述参考指标条件时,将当前确定的第二配置序列对应的运行代码确定为所述目标运行代码。
21.如权利要求20所述的装置,其特征在于,所述第二确定模块还用于:
获取用户配置约束信息,所述用户配置约束信息指示所述多个算子节点中部分算子节点与所述多个处理器中至少一个处理器之间的任务分配关系;
确定所述多个算子节点中除所述部分算子节点之外的其他算子节点与所述多个处理器之间的任务分配关系;
基于所述用户配置约束信息指示的所述多个算子节点中部分算子节点与所述至少一个处理器之间的任务分配关系、以及所确定的任务分配关系,构建所述搜索空间。
22.如权利要求13所述的装置,其特征在于,所述第二确定模块用于:
从所述搜索空间中确定一个备选配置序列,得到第一配置序列;
根据所述第二网络拓扑图和所述第一配置序列,生成所述第一配置序列对应的运行代码;
获取所述第一配置序列对应的运行代码在所述异构平台上的运行指标;
将所述第一配置序列和所述第一配置序列对应的运行指标确定为历史训练数据集合中的一组历史训练数据;
基于所述历史训练数据集合,确定第二配置序列;
根据所述第二配置序列,确定所述网络模型的目标运行代码。
23.如权利要求22所述的装置,其特征在于,所述第二确定模块用于:
确定所述第二配置序列与所述第一配置序列是否相同;
当所述第二配置序列与所述第一配置序列相同时,将所述第一配置序列对应的运行代码确定为所述目标运行代码。
24.如权利要求23所述的装置,其特征在于,所述第二确定模块还用于:
当所述第二配置序列与所述第一配置序列不相同时,根据所述第二配置序列和所述第二网络拓扑图,生成所述第二配置序列对应的运行代码;
获取所述第二配置序列对应运行代码在所述异构平台中的运行指标;
将所述第二配置序列和所述第二配置序列对应的运行指标确定为所述历史训练数据集合中的一组历史训练数据;
返回所述基于所述历史训练数据集合,确定第二配置序列的操作,直到存在第二配置序列与上一次确定的第二配置序列相同时,将所述上一次确定的第二配置序列对应的运行代码确定为所述目标运行代码。
25.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现权利要求1-12所述的任一项方法的步骤。
26.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-12所述的任一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010460979.6A CN113760380A (zh) | 2020-05-27 | 2020-05-27 | 网络模型的运行代码的确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010460979.6A CN113760380A (zh) | 2020-05-27 | 2020-05-27 | 网络模型的运行代码的确定方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113760380A true CN113760380A (zh) | 2021-12-07 |
Family
ID=78782196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010460979.6A Pending CN113760380A (zh) | 2020-05-27 | 2020-05-27 | 网络模型的运行代码的确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113760380A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271098A (zh) * | 2023-11-21 | 2023-12-22 | 北京燧原智能科技有限公司 | 一种ai模型计算核调度方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140359563A1 (en) * | 2013-06-04 | 2014-12-04 | Qualcomm Incorporated | Efficient execution of graph-based programs |
US20150268992A1 (en) * | 2014-03-21 | 2015-09-24 | Oracle International Corporation | Runtime handling of task dependencies using dependence graphs |
WO2019000340A1 (zh) * | 2017-06-29 | 2019-01-03 | 华为技术有限公司 | 网络拓扑结构映射方法及装置、终端、存储介质 |
CN110378413A (zh) * | 2019-07-17 | 2019-10-25 | Oppo广东移动通信有限公司 | 神经网络模型处理方法、装置以及电子设备 |
CN110428046A (zh) * | 2019-08-28 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 神经网络结构的获取方法及装置、存储介质 |
-
2020
- 2020-05-27 CN CN202010460979.6A patent/CN113760380A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140359563A1 (en) * | 2013-06-04 | 2014-12-04 | Qualcomm Incorporated | Efficient execution of graph-based programs |
US20150268992A1 (en) * | 2014-03-21 | 2015-09-24 | Oracle International Corporation | Runtime handling of task dependencies using dependence graphs |
WO2019000340A1 (zh) * | 2017-06-29 | 2019-01-03 | 华为技术有限公司 | 网络拓扑结构映射方法及装置、终端、存储介质 |
CN110378413A (zh) * | 2019-07-17 | 2019-10-25 | Oppo广东移动通信有限公司 | 神经网络模型处理方法、装置以及电子设备 |
CN110428046A (zh) * | 2019-08-28 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 神经网络结构的获取方法及装置、存储介质 |
Non-Patent Citations (2)
Title |
---|
BIAO HU,ET AL: "Minimizing Resource Comsumption Cost of DAG Application With Reliability Requirement on Heterogeneous Processor Systems", IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS, vol. 16, no. 12, pages 7437 - 7447 * |
戴飞: "异构多核处理器微内核的负载均衡调度研究", 信息科技, no. 5 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117271098A (zh) * | 2023-11-21 | 2023-12-22 | 北京燧原智能科技有限公司 | 一种ai模型计算核调度方法、装置、设备及存储介质 |
CN117271098B (zh) * | 2023-11-21 | 2024-02-13 | 北京燧原智能科技有限公司 | 一种ai模型计算核调度方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112579063B (zh) | 一种用于深度学习编译器中探索优化空间的加速方法 | |
CN111880807A (zh) | 深度学习编译方法、装置、设备及存储介质 | |
CN110889439B (zh) | 一种图像特征提取方法、装置及电子设备和存储介质 | |
CN112463159B (zh) | 编译方法、装置、电子设备和存储介质 | |
US20210304066A1 (en) | Partitioning for an execution pipeline | |
CN116521380A (zh) | 一种资源自适应协同的模型训练加速方法、装置及设备 | |
CN111860841A (zh) | 量化模型的优化方法、装置、终端及存储介质 | |
CN115237920A (zh) | 面向负载的数据索引推荐方法及其装置、存储介质 | |
CN116011562A (zh) | 算子处理方法及算子处理装置、电子设备和可读存储介质 | |
CN110069284B (zh) | 一种基于opu指令集的编译方法及编译器 | |
CN110020333A (zh) | 数据分析方法及装置、电子设备、存储介质 | |
CN113672232A (zh) | 程序编译方法和装置 | |
CN113760380A (zh) | 网络模型的运行代码的确定方法、装置、设备及存储介质 | |
CN113885845A (zh) | 深度学习编译器的计算图的生成方法、系统、设备及介质 | |
CN111667060A (zh) | 深度学习算法的编译方法、装置及相关产品 | |
CN114579136A (zh) | 代码处理方法、装置、计算机设备和存储介质 | |
CN103678545A (zh) | 进行网络资源聚类的方法及装置 | |
CN113031952A (zh) | 深度学习模型的执行代码的确定方法、装置及存储介质 | |
CN111459584A (zh) | 页面渲染方法、装置和电子设备 | |
CN113836386B (zh) | 一种并行模式搜索空间构造系统和方法 | |
CN112015922B (zh) | 多媒体文件的检索方法、装置、设备及存储介质 | |
US20230138152A1 (en) | Apparatus and method for generating valid neural network architecture based on parsing | |
WO2023071509A1 (zh) | 模型编译方法、装置及模型运行系统 | |
CN114610328A (zh) | 处理方法及装置 | |
CN117270870A (zh) | 基于混和精度张量运算指令的编译优化方法,装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |