CN110908667A - 神经网络联合编译的方法、装置和电子设备 - Google Patents

神经网络联合编译的方法、装置和电子设备 Download PDF

Info

Publication number
CN110908667A
CN110908667A CN201911138469.0A CN201911138469A CN110908667A CN 110908667 A CN110908667 A CN 110908667A CN 201911138469 A CN201911138469 A CN 201911138469A CN 110908667 A CN110908667 A CN 110908667A
Authority
CN
China
Prior art keywords
compiled
neural network
graph
model
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911138469.0A
Other languages
English (en)
Other versions
CN110908667B (zh
Inventor
周舒畅
王田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201911138469.0A priority Critical patent/CN110908667B/zh
Publication of CN110908667A publication Critical patent/CN110908667A/zh
Priority to PCT/CN2020/126424 priority patent/WO2021098509A1/zh
Application granted granted Critical
Publication of CN110908667B publication Critical patent/CN110908667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Neurology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Devices For Executing Special Programs (AREA)

Abstract

本发明提供了一种神经网络联合编译的方法、装置和电子设备,该方法包括:获取多个待编译神经网络模型和多个待编译神经网络模型的计算图;确定多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;在优化计算图中确定目标优化计算图,并根据目标优化计算图生成目标指令,以使目标硬件载入目标指令执行图像处理任务。通过本发明方法编译得到的目标指令在目标硬件上运行时,既能保证充分利用硬件的性能,还能确保目标指令的高效运行。

Description

神经网络联合编译的方法、装置和电子设备
技术领域
本发明涉及人工智能的技术领域,尤其是涉及一种神经网络联合编译的方法、装置和电子设备。
背景技术
人工智能近年得到迅速发展,在图像分类、检测、视频和语音处理等领域取得了良好的应用效果,并且依然具备极大的发展前景。神经网络是人工智能应用的核心,为了将训练之后的神经网络模型进行部署,需要将神经网络模型编译成硬件所能执行的二进制指令码。而在多任务场景下,硬件往往需要加载多个神经网络模型。
相关技术中,在加载多个神经网络模型时,都是对每个神经网络模型进行单独编译,然后编译后的模型指令被硬件载入,进而硬件通过模型指令对输入的待处理对象进行处理,输出得到模型的推理结果。
发明内容
有鉴于此,本发明的目的在于提供一种神经网络联合编译的方法、装置和电子设备,以缓解现有技术对多个神经网络模型的编译不合理,编译得到的模型指令在硬件上运行时所导致的硬件内存溢出、耗时严重的技术问题。
第一方面,本发明实施例提供了一种神经网络联合编译的方法,包括:获取多个待编译神经网络模型和所述多个待编译神经网络模型的计算图;确定所述多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;所述模型组合方案包括所述多个待编译神经网络模型中的至少两个待编译神经网络模型;在所述优化计算图中确定目标优化计算图,并根据所述目标优化计算图生成目标指令,所述目标指令用于使目标硬件执行对应的图像处理任务。
进一步的,所述待编译神经网络模型至少包括所述待编译神经网络模型的拓扑结构,获取所述多个待编译神经网络模型的计算图的步骤包括:对每个待编译神经网络模型的拓扑结构进行解析,并根据解析结果构建每个所述待编译神经网络模型的计算图。
进一步的,每个所述待编译神经网络模型的计算图中包括多个顺序执行的计算节点,对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译的步骤包括:在每种模型组合方案中,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译,得到每种所述模型组合方案对应的优化计算图。
进一步的,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译的步骤包括:获取所述待编译神经网络模型的计算图的各计算节点的内存占用率;结合优化策略和所述内存占用率,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译;所述优化策略为使得所述模型组合方案对应的优化计算图中,各优化计算节点的内存占用率最大,且各优化计算节点的内存占用率不超过100%的策略。
进一步的,在所述优化计算图中确定目标优化计算图的步骤包括:根据所述目标硬件的内存可使用量,在所述优化计算图中确定目标优化计算图。
进一步的,根据所述目标硬件的内存可使用量,在所述优化计算图中确定目标优化计算图的步骤包括:获取所述目标硬件的内存可使用量;根据所述内存可使用量,在所述优化计算图中确定目标优化计算图;所述目标优化计算图中,优化计算节点的最大内存占用率不大于所述内存可使用量,且所述目标优化计算图中,优化计算节点的总数最少。
第二方面,本发明实施例还提供了一种神经网络联合编译的装置,包括:获取单元,用于获取多个待编译神经网络模型和所述多个待编译神经网络模型的计算图;联合编译单元,用于确定所述多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;所述模型组合方案包括所述多个待编译神经网络模型中的至少两个待编译神经网络模型;确定单元,用于在所述优化计算图中确定目标优化计算图,并根据所述目标优化计算图生成目标指令,所述目标指令用于使目标硬件执行对应的图像处理任务。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机存储介质,其上存储有计算机程序,所述计算机运行所述计算机程序时执行上述第一方面任一项所述的方法的步骤。
在本发明实施例中,获取多个待编译神经网络模型和多个待编译神经网络模型的计算图;进而,确定多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;在优化计算图中确定目标优化计算图,并根据目标优化计算图生成目标指令,以使目标硬件载入目标指令执行图像处理任务。通过上述描述可知,本发明实施例的方法在多个待编译神经网络模型中确定所有的模型组合方案,进而,对每种模型组合方案的待编译神经网络模型的计算图进行联合编译,联合编译得到的优化计算图更科学,在所有的科学的优化计算图中确定适用于目标硬件的目标优化计算图,这样,基于该目标优化计算图所生成的目标指令在目标硬件上运行时,既能保证充分利用硬件的性能,还能确保目标指令的高效运行,缓解了现有技术对多个神经网络模型的编译不合理,编译得到的指令在硬件上运行时所导致的硬件内存溢出、耗时严重的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的并发式编译多个神经网络模型的示意图;
图1b为本发明实施例提供的串行式编译多个神经网络模型的示意图;
图2为本发明实施例提供的一种电子设备的示意图;
图3为本发明实施例提供的一种神经网络联合编译的方法的流程图;
图4为本发明实施例提供的多神经网络联合编译的示意图;
图5为本发明实施例提供的对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译的方法流程图;
图6为本发明实施例提供的在优化计算图中确定目标优化计算图的方法流程图;
图7为本发明实施例提供的待编译神经网络模型的计算图的示意图;
图8为本发明实施例提供的并发式编译多个神经网络模型得到的指令在运行时的内存占用率与时间的关系图;
图9为本发明实施例提供的串行式编译多个神经网络模型得到的指令在运行时的内存占用率与时间的关系图;
图10为本发明实施例提供的优化计算图的示意图;
图11为本发明实施例提供的联合编译多个神经网络模型得到的指令在运行时的内存占用率与时间的关系图;
图12为本发明实施例提供的一种神经网络联合编译的装置的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一实施例中,在加载多个神经网络模型时,可以对每个神经网络模型进行单独编译。具体可分为并发式编译多个神经网络模型的方式(如图1a所示)和串行式编译多个神经网络模型的方式(如图1b所示)。在图1a中,先并发式单独编译多个神经网络模型,然后编译后的模型指令被硬件并发式载入,进而硬件通过并发式载入的模型指令对输入的待处理对象进行处理,输出得到模型的推理结果。在图1b中,先串行式单独编译多个神经网络模型,然后编译后的模型指令被硬件串行式载入,进而硬件通过串行式载入的模型指令对输入的待处理对象进行处理,输出得到模型的推理结果。
上述并发式编译多个神经网络模型后,并发式载入硬件的模型指令在运行时常常会带来硬件内存溢出的问题;而串行式编译多个神经网络模型后,串行式载入硬件的模型指令在运行时会增加耗时、硬件资源利用率低。
综上,上述对多个神经网络模型的编译方式不合理,无法确保编译得到的模型指令在硬件上运行时,硬件内存不溢出且高效运行。
而在本发明的另一些实施例中,在多个待编译神经网络模型中确定所有的模型组合方案,进而,对每种模型组合方案的待编译神经网络模型的计算图进行联合编译,联合编译得到的优化计算图更科学,在所有的科学的优化计算图中确定适用于目标硬件的目标优化计算图,这样,基于该目标优化计算图所生成的目标指令在目标硬件上运行时,既能保证充分利用硬件的性能,还能确保目标指令的高效运行,缓解了现有技术对多个神经网络模型的编译不合理,编译得到的指令在硬件上运行时所导致的硬件内存溢出、耗时严重的技术问题。
实施例1:
首先,参照图2来描述用于实现本发明实施例的电子设备100,该电子设备可以用于运行本发明各实施例的神经网络联合编译的方法。
如图2所示,电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及联合编译系统110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图2所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP,Digital Signal Processing)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、可编程逻辑阵列(PLA,Programmable Logic Array)和专用集成电路ASIC(Application Specific IntegratedCircuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU,Central Processing Unit)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述联合编译系统110用于获取多个待编译神经网络模型,其中,联合编译系统所获取的多个待编译神经网络模型经过所述神经网络联合编译的方法进行联合编译之后得到目标优化计算图,例如,联合编译系统可以获取用户期望的多个待编译神经网络模型,然后,将该多个待编译神经网络模型经过所述神经网络联合编译的方法进行联合编译之后得到目标优化计算图,联合编译系统还可以将所获取的多个待编译神经网络模型存储在所述存储器104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的神经网络联合编译的方法的电子设备可以被实现为诸如智能手机、平板电脑等智能移动终端,还可以被实现为其它任何具备计算能力的设备。
实施例2:
根据本发明实施例,提供了一种神经网络联合编译的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明实施例的一种神经网络联合编译的方法的流程图,如图3所示,该方法包括如下步骤:
步骤S302,获取多个待编译神经网络模型和多个待编译神经网络模型的计算图。
在本发明实施例中,该神经网络联合编译的方法可以应用于联合编译系统,该联合编译系统具体可以包括:编译器和仲裁器。
实现时,参考图4,编译器获取多个待编译神经网络模型,上述待编译神经网络模型具体可以为训练完成的神经网络模型,且上述待编译神经网络模型至少包括待编译神经网络模型的拓扑结构,还可以包括待编译神经网络模型的网络参数等。编译器在获取得到多个待编译神经网络模型后,对待编译神经网络模型的拓扑结构进行解析,进而构建得到与待编译神经网络模型的拓扑结构等效的计算图。该计算图用于表征其对应的待编译神经网络模型各层的计算操作。
步骤S304,确定多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图。
其中,模型组合方案中包括多个待编译神经网络模型中的至少两个待编译神经网络模型。
在获取到多个待编译神经网络模型后,参考图4,编译器在多个待编译神经网络模型中确定所有的模型组合方案,具体可以为编译器穷举该多个待编译神经网络模型的所有组合方式,每种组合方式即为一种模型组合方案。具体的组合方式可以按照各种已知或自主设计的排列组合算法得到,本发明实施例对此不作限定。
例如,获取得到的多个待编译神经网络模型分别为待编译模型A、待编译模型B和待编译模型C,穷举得到的模型组合方案包括:待编译模型A和待编译模型B的组合、待编译模型A和待编译模型C的组合、待编译模型B和待编译模型C的组合,以及待编译模型A、待编译模型B和待编译模型C三者的组合。
在得到所有的模型组合方案后,进一步对每种模型组合方案中所有的待编译神经网络模型的计算图进行联合编译。相关技术中,只能对每个神经网络模型进行单独编译,所谓的单独编译就是编译器每次获取一个待编译神经网络模型,只对获取到的一个待编译神经网络模型进行单独编译;而本发明采用的是联合编译的方式,所谓的联合编译就是编译器每次同时获取多个待编译神经网络模型,多个待编译神经网络模型的计算图的计算节点可以在不同待编译神经网络模型之间进行组合编译。
例如,对于待编译模型A和待编译模型B来讲,都对应有两个运算节点,分别称之为第一个运算节点和第二个运算节点。
在并发式单独编译待编译模型A和待编译模型B时,一个编译器对待编译模型A的第一个运算节点进行编译,然后再对待编译模型A的第二个运算节点进行编译;与此同时,另一个编译器对待编译模型B的第一个运算节点进行编译,然后再对待编译模型B的第二个运算节点进行编译。
在串行式单独编译待编译模型A和待编译模型B时,编译器先对待编译模型A的第一个运算节点进行编译,然后再对待编译模型A的第二个运算节点进行编译,之后再对待编译模型B的第一个运算节点进行编译,最后对待编译模型B的第二个运算节点进行编译。也就是在同一个编译器中,不同待编译模型之间的运算节点不会同时编译。
而在联合编译时,待编译模型A的两个运算节点和待编译模型B的两个运算节点之间可以混合编译。例如,编译时,待编译模型A的第一个运算节点和待编译模型A的第二运算节点之间顺序串行编译的同时,待编译模型B的第一个运算节点同时编译,最后再对待编译模型B的第二个运算节点进行编译。也就是在同一个编译器中,不同待编译模型之间的运算节点可以混合编译。
通过对比上述两种编译方式可知,联合编译的方式更加科学合理,能够使得到的优化计算图中,各优化计算节点的内存占用率(相对于目标硬件的内存来讲)最大,且各优化计算节点的内存占用率不超过100%,这样后续生成的指令在目标硬件上运行时,才不会造成内存溢出,也不会耗时严重。
需要说明的是,每种模型组合方案都对应有唯一的优化计算图。
步骤S306,在优化计算图中确定目标优化计算图,并根据目标优化计算图生成目标指令。
其中,目标指令用于使目标硬件执行对应的图像处理任务,另外,目标优化计算图对应的目标指令在目标硬件上运行时,不大于目标硬件的内存可使用量,且运行时间最短。
在得到优化计算图后,参考图4,仲裁器在优化计算图中确定目标优化计算图,该目标优化计算图适用于目标硬件,也就是说基于该目标优化计算图生成的目标指令能够在目标硬件上高效运行,且不会造成目标硬件的内存溢出,进而实现对图像的处理。
在本发明实施例中,获取多个待编译神经网络模型和多个待编译神经网络模型的计算图;进而,确定多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;在优化计算图中确定目标优化计算图,并根据目标优化计算图生成目标指令,以使目标硬件载入目标指令执行图像处理任务。通过上述描述可知,本发明实施例的方法在多个待编译神经网络模型中确定所有的模型组合方案,进而,对每种模型组合方案的待编译神经网络模型的计算图进行联合编译,联合编译得到的优化计算图更科学,在所有的科学的优化计算图中确定适用于目标硬件的目标优化计算图,这样,基于该目标优化计算图所生成的目标指令在目标硬件上运行时,既能保证充分利用硬件的性能,还能确保目标指令的高效运行,缓解了现有技术对多个神经网络模型的编译不合理,编译得到的指令在硬件上运行时所导致的硬件内存溢出、耗时严重的技术问题。
上述内容对本发明的神经网络联合编译的方法进行了简要介绍,下面对其中涉及到的具体内容进行详细描述。
在本实施例中,待编译神经网络模型至少包括待编译神经网络模型的拓扑结构,获取多个待编译神经网络模型的计算图的步骤包括:对每个待编译神经网络模型的拓扑结构进行解析,并根据解析结果构建每个待编译神经网络模型的计算图。
在本实施例中,每个待编译神经网络模型的计算图中包括多个顺序执行的计算节点,上述步骤S304,对每种模型组合方案的待编译神经网络模型的计算图进行联合编译的步骤包括:在每种模型组合方案中,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译,得到每种模型组合方案对应的优化计算图。
需要说明的是,联合编译除了能够对计算图的计算节点的执行顺序进行编译优化之外,还能够对计算图的计算节点进行融合、对计算图的计算节点进行拆分等,而在本发明实施例中,上述的联合编译具体是指对待编译神经网络模型的计算图的计算节点的执行顺序进行编译优化。
具体的,参考图5,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译的步骤包括如下过程:
步骤S501,获取待编译神经网络模型的计算图的各计算节点的内存占用率。
需要说明的是,上述内存占用率是计算节点在运行时消耗的内存在目标硬件的内存中占有的比例。
步骤S502,结合优化策略和内存占用率,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译。
其中,优化策略为使得模型组合方案对应的优化计算图中,各优化计算节点的内存占用率最大,且各优化计算节点的内存占用率不超过100%的策略。
这样,后续基于优化计算图生成的指令在目标硬件上运行时,才不会造成内存溢出,也不会耗时严重。
在本实施例中,在优化计算图中确定目标优化计算图的步骤包括:根据目标硬件的内存可使用量,在优化计算图中确定目标优化计算图。
具体的,参考图6,根据目标硬件的内存可使用量,在优化计算图中确定目标优化计算图的步骤包括如下过程:
步骤S601,获取目标硬件的内存可使用量。
步骤S602,根据内存可使用量,在优化计算图中确定目标优化计算图。
其中,目标优化计算图中,优化计算节点的最大内存占用率不大于内存可使用量,且目标优化计算图中,优化计算节点的总数最少。
下面通过一个具体的应用场景对现有技术的神经网络的单独编译和本发明的神经网络的联合编译进行对比介绍:
假设有两个待编译神经网络模型,分别是待编译神经网络模型1和待编译神经网络模型2,该两个待编译神经网络模型的计算图如图7所示,网络拓扑为直通型,由三个计算节点构成。
确定待编译神经网络模型1的三个计算节点的内存占用率,分别为50%、30%、20%;并确定待编译神经网络模型2的三个计算节点的内存占用率,分别为60%、50%、30%。
采用并发式编译待编译神经网络模型1和待编译神经网络模型2时,编译后得到的指令在目标硬件上运行时,会导致硬件内存溢出,如图8所示,其中的计算节点opr1_1对应的指令和计算节点opr1_2对应的指令运行时,总的内存占用率大于100%;
采用串行式编译待编译神经网络模型1和待编译神经网络模型2时,编译后得到的指令在目标硬件上运行时,耗时严重,如图9所示,其中计算节点opr1_1对应的指令、计算节点opr1_2对应的指令、计算节点opr1_3对应的指令、计算节点opr2_1对应的指令、计算节点opr2_2对应的指令以及计算节点opr2_3对应的指令顺序运行,增加了图像处理的耗时;
采用本发明中的方案时,同时载入待编译神经网络模型1和待编译神经网络模型2的计算图,对该两个计算图中的计算节点进行联合编译,最终将计算节点opr1_2、计算节点opr1_3和计算节点opr2_1联合编译,得到优化计算图(如图10所示),其中,计算节点opr1_2和计算节点opr1_3串行顺序执行的同时,并行执行计算节点opr2_1,进而根据优化计算图生成优化的指令,在目标硬件上运行优化的指令,运行时的内存占用率与运行时间如图11所示。
通过对比图8、图9和图11可知,通过本发明的方案得到的指令能够在目标硬件上高效运行,使用效率高,并且避免了硬件内存溢出。
实施例3:
本发明实施例还提供了一种神经网络联合编译的装置,该神经网络联合编译的装置主要用于执行本发明实施例上述内容所提供的神经网络联合编译的方法,以下对本发明实施例提供的神经网络联合编译的装置做具体介绍。
图12是根据本发明实施例的一种神经网络联合编译的装置的示意图,如图12所示,该神经网络联合编译的装置主要包括:获取单元10、联合编译单元20和确定单元30,其中:
获取单元,用于获取多个待编译神经网络模型和多个待编译神经网络模型的计算图;
联合编译单元,用于确定多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;模型组合方案包括多个待编译神经网络模型中的至少两个待编译神经网络模型;
确定单元,用于在优化计算图中确定目标优化计算图,并根据目标优化计算图生成目标指令,目标指令用于使目标硬件执行对应的图像处理任务。
在本发明实施例中,获取多个待编译神经网络模型和多个待编译神经网络模型的计算图;进而,确定多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;在优化计算图中确定目标优化计算图,并根据目标优化计算图生成目标指令,以使目标硬件载入目标指令执行图像处理任务。通过上述描述可知,本发明实施例的方法在多个待编译神经网络模型中确定所有的模型组合方案,进而,对每种模型组合方案的待编译神经网络模型的计算图进行联合编译,联合编译得到的优化计算图更科学,在所有的科学的优化计算图中确定适用于目标硬件的目标优化计算图,这样,基于该目标优化计算图所生成的目标指令在目标硬件上运行时,既能保证充分利用硬件的性能,还能确保目标指令的高效运行,缓解了现有技术对多个神经网络模型的编译不合理,编译得到的指令在硬件上运行时所导致的硬件内存溢出、耗时严重的技术问题。
可选地,待编译神经网络模型至少包括待编译神经网络模型的拓扑结构,上述获取单元还用于:对每个待编译神经网络模型的拓扑结构进行解析,并根据解析结果构建每个待编译神经网络模型的计算图。
可选地,每个待编译神经网络模型的计算图中包括多个顺序执行的计算节点,上述联合编译单元还用于:在每种模型组合方案中,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译,得到每种模型组合方案对应的优化计算图。
可选地,上述联合编译单元还用于:获取待编译神经网络模型的计算图的各计算节点的内存占用率;结合优化策略和内存占用率,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译;优化策略为使得模型组合方案对应的优化计算图中,各优化计算节点的内存占用率最大,且各优化计算节点的内存占用率不超过100%的策略。
可选地,上述确定单元还用于:根据目标硬件的内存可使用量,在优化计算图中确定目标优化计算图。
可选地,上述确定单元还用于:获取目标硬件的内存可使用量;根据内存可使用量,在优化计算图中确定目标优化计算图;目标优化计算图中,优化计算节点的最大内存占用率不大于内存可使用量,且目标优化计算图中,优化计算节点的总数最少。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
在本发明的另一个实施中,还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机运行所述计算机程序时执行上述方法实施例2中任一项所述的方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种神经网络联合编译的方法,其特征在于,包括:
获取多个待编译神经网络模型和所述多个待编译神经网络模型的计算图;
确定所述多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;所述模型组合方案包括所述多个待编译神经网络模型中的至少两个待编译神经网络模型;
在所述优化计算图中确定目标优化计算图,并根据所述目标优化计算图生成目标指令,所述目标指令用于使目标硬件执行对应的图像处理任务。
2.根据权利要求1所述的方法,其特征在于,所述待编译神经网络模型至少包括所述待编译神经网络模型的拓扑结构,获取所述多个待编译神经网络模型的计算图的步骤包括:
对每个待编译神经网络模型的拓扑结构进行解析,并根据解析结果构建每个所述待编译神经网络模型的计算图。
3.根据权利要求1所述的方法,其特征在于,每个所述待编译神经网络模型的计算图中包括多个顺序执行的计算节点,对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译的步骤包括:
在每种模型组合方案中,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译,得到每种所述模型组合方案对应的优化计算图。
4.根据权利要求3所述的方法,其特征在于,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译的步骤包括:
获取所述待编译神经网络模型的计算图的各计算节点的内存占用率;
结合优化策略和所述内存占用率,对待编译神经网络模型的计算图的计算节点的执行顺序进行联合编译;所述优化策略为使得所述模型组合方案对应的优化计算图中,各优化计算节点的内存占用率最大,且各优化计算节点的内存占用率不超过100%的策略。
5.根据权利要求1所述的方法,其特征在于,在所述优化计算图中确定目标优化计算图的步骤包括:
根据所述目标硬件的内存可使用量,在所述优化计算图中确定目标优化计算图。
6.根据权利要求5所述的方法,其特征在于,根据所述目标硬件的内存可使用量,在所述优化计算图中确定目标优化计算图的步骤包括:
获取所述目标硬件的内存可使用量;
根据所述内存可使用量,在所述优化计算图中确定目标优化计算图;所述目标优化计算图中,优化计算节点的最大内存占用率不大于所述内存可使用量,且所述目标优化计算图中,优化计算节点的总数最少。
7.一种神经网络联合编译的装置,其特征在于,包括:
获取单元,用于获取多个待编译神经网络模型和所述多个待编译神经网络模型的计算图;
联合编译单元,用于确定所述多个待编译神经网络模型的模型组合方案,并对每种模型组合方案中的待编译神经网络模型的计算图进行联合编译,得到每种模型组合方案对应的优化计算图;所述模型组合方案包括所述多个待编译神经网络模型中的至少两个待编译神经网络模型;
确定单元,用于在所述优化计算图中确定目标优化计算图,并根据所述目标优化计算图生成目标指令,所述目标指令用于使目标硬件执行对应的图像处理任务。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至6中任一项所述的方法。
9.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机运行所述计算机程序时执行上述权利要求1至6中任一项所述的方法的步骤。
CN201911138469.0A 2019-11-18 2019-11-18 神经网络联合编译的方法、装置和电子设备 Active CN110908667B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911138469.0A CN110908667B (zh) 2019-11-18 2019-11-18 神经网络联合编译的方法、装置和电子设备
PCT/CN2020/126424 WO2021098509A1 (zh) 2019-11-18 2020-11-04 神经网络联合编译的方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911138469.0A CN110908667B (zh) 2019-11-18 2019-11-18 神经网络联合编译的方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN110908667A true CN110908667A (zh) 2020-03-24
CN110908667B CN110908667B (zh) 2021-11-16

Family

ID=69818172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911138469.0A Active CN110908667B (zh) 2019-11-18 2019-11-18 神经网络联合编译的方法、装置和电子设备

Country Status (2)

Country Link
CN (1) CN110908667B (zh)
WO (1) WO2021098509A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111580828A (zh) * 2020-04-30 2020-08-25 腾讯科技(深圳)有限公司 机器学习模型的编译优化方法和装置
CN111651147A (zh) * 2020-05-31 2020-09-11 四川亨通网智科技有限公司 一种系统快速搭建组件
CN111783985A (zh) * 2020-06-30 2020-10-16 Oppo广东移动通信有限公司 信息处理、模型处理方法及装置、设备、介质
CN111814906A (zh) * 2020-07-23 2020-10-23 上海东普信息科技有限公司 快递面单识别模型移植方法、装置、设备及存储介质
CN111859904A (zh) * 2020-07-31 2020-10-30 南京三百云信息科技有限公司 Nlp模型优化方法、装置以及计算机设备
CN111880807A (zh) * 2020-07-31 2020-11-03 Oppo广东移动通信有限公司 深度学习编译方法、装置、设备及存储介质
CN112328227A (zh) * 2020-11-03 2021-02-05 清华大学 编译方法、装置、计算设备和介质
CN112783506A (zh) * 2021-01-29 2021-05-11 展讯通信(上海)有限公司 一种模型运行方法及相关装置
WO2021098509A1 (zh) * 2019-11-18 2021-05-27 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备
CN112947933A (zh) * 2021-02-24 2021-06-11 上海商汤智能科技有限公司 一种算子的执行方法、装置、计算机设备及存储介质
CN113703741A (zh) * 2021-10-29 2021-11-26 深圳思谋信息科技有限公司 神经网络编译器配置方法、装置、计算机设备和存储介质
CN114003306A (zh) * 2021-10-27 2022-02-01 上海商汤科技开发有限公司 一种显存优化方法、装置、设备及存储介质
WO2022063183A1 (zh) * 2020-09-28 2022-03-31 中科寒武纪科技股份有限公司 执行神经网络计算的装置、板卡、方法及可读存储介质
CN114265593A (zh) * 2021-12-09 2022-04-01 北京奕斯伟计算技术有限公司 指令调度方法、装置、设备及计算机可读存储介质
CN115576699A (zh) * 2022-11-25 2023-01-06 成都登临科技有限公司 数据处理方法、装置、ai芯片、电子设备及存储介质
CN116126346A (zh) * 2023-04-04 2023-05-16 上海燧原科技有限公司 Ai模型的代码编译方法、装置、计算机设备及存储介质
CN116541018A (zh) * 2023-06-19 2023-08-04 之江实验室 一种分布式模型编译系统、方法、装置、介质及设备
US11789710B2 (en) 2021-09-17 2023-10-17 Samsung Electronics Co., Ltd. Compilation method and apparatus with neural network

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722867A (zh) * 2021-08-30 2021-11-30 全球能源互联网研究院有限公司 一种电路解算方法、装置、电子设备及存储介质
CN115167833B (zh) * 2022-09-02 2022-12-02 浙江大华技术股份有限公司 编程方法、可执行程序的执行方法及装置

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5847952A (en) * 1996-06-28 1998-12-08 Honeywell Inc. Nonlinear-approximator-based automatic tuner
US20130139164A1 (en) * 2011-11-28 2013-05-30 Sap Ag Business Process Optimization
US8984496B2 (en) * 2004-09-20 2015-03-17 The Mathworks, Inc. Extensible internal representation of systems with parallel and sequential implementations
CN106133826A (zh) * 2014-03-27 2016-11-16 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
CN106650922A (zh) * 2016-09-29 2017-05-10 清华大学 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统
CN106648546A (zh) * 2016-09-07 2017-05-10 北京大学 用于gpu寄存器分配和并行度管理的协同优化编译方法
CN107168698A (zh) * 2017-04-24 2017-09-15 华南理工大学 图形化编程的自动编译方法
CN107239315A (zh) * 2017-04-11 2017-10-10 北京深鉴智能科技有限公司 面向神经网络异构计算平台的编程模型
US20180082172A1 (en) * 2015-03-12 2018-03-22 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
US20180144244A1 (en) * 2016-11-23 2018-05-24 Vital Images, Inc. Distributed clinical workflow training of deep learning neural networks
CN108363559A (zh) * 2018-02-13 2018-08-03 北京旷视科技有限公司 神经网络的乘法处理方法、设备和计算机可读介质
EP3413218A1 (en) * 2017-06-08 2018-12-12 Facebook, Inc. Key-value memory networks
CN109032925A (zh) * 2018-06-26 2018-12-18 昆山睿力得软件技术有限公司 一种车载设备驱动软件自动化测试方法
CN109272109A (zh) * 2018-10-30 2019-01-25 北京地平线机器人技术研发有限公司 神经网络模型的指令调度方法及装置
CN109284815A (zh) * 2018-11-30 2019-01-29 上海寒武纪信息科技有限公司 神经网络模型算法编译方法、装置及相关产品
US20190056885A1 (en) * 2018-10-15 2019-02-21 Amrita MATHURIYA Low synch dedicated accelerator with in-memory computation capability
CN109491784A (zh) * 2018-10-18 2019-03-19 北京旷视科技有限公司 降低内存占用量的方法、装置、电子设备、可读存储介质
CN109669772A (zh) * 2018-12-28 2019-04-23 第四范式(北京)技术有限公司 计算图的并行执行方法和设备
CN109710263A (zh) * 2018-12-18 2019-05-03 北京字节跳动网络技术有限公司 代码的编译方法、装置、存储介质及电子设备
CN109783157A (zh) * 2018-12-29 2019-05-21 深圳云天励飞技术有限公司 一种算法程序加载的方法及相关装置
CN110058883A (zh) * 2019-03-14 2019-07-26 成都恒创新星科技有限公司 一种基于opu的cnn加速方法及系统
US20190303762A1 (en) * 2018-03-30 2019-10-03 Xilinx, Inc. Methods of optimization of computational graphs of neural networks
CN110377288A (zh) * 2018-04-13 2019-10-25 赛灵思公司 神经网络压缩编译器及其编译压缩方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675189B2 (en) * 1998-05-28 2004-01-06 Hewlett-Packard Development Company, L.P. System for learning and applying integrated task and data parallel strategies in dynamic applications
WO2019136754A1 (zh) * 2018-01-15 2019-07-18 深圳鲲云信息科技有限公司 人工智能处理装置的编译方法及系统、存储介质及终端
CN110908667B (zh) * 2019-11-18 2021-11-16 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5847952A (en) * 1996-06-28 1998-12-08 Honeywell Inc. Nonlinear-approximator-based automatic tuner
US8984496B2 (en) * 2004-09-20 2015-03-17 The Mathworks, Inc. Extensible internal representation of systems with parallel and sequential implementations
US20130139164A1 (en) * 2011-11-28 2013-05-30 Sap Ag Business Process Optimization
CN106133826A (zh) * 2014-03-27 2016-11-16 微软技术许可有限责任公司 用于语言模型自定义的灵活模式
US20180082172A1 (en) * 2015-03-12 2018-03-22 William Marsh Rice University Automated Compilation of Probabilistic Task Description into Executable Neural Network Specification
CN106648546A (zh) * 2016-09-07 2017-05-10 北京大学 用于gpu寄存器分配和并行度管理的协同优化编译方法
CN106650922A (zh) * 2016-09-29 2017-05-10 清华大学 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统
US20180144244A1 (en) * 2016-11-23 2018-05-24 Vital Images, Inc. Distributed clinical workflow training of deep learning neural networks
US20180293057A1 (en) * 2017-04-11 2018-10-11 Beijing Deephi Technology Co., Ltd. Programming model of neural network-oriented heterogeneous computing platform
CN107239315A (zh) * 2017-04-11 2017-10-10 北京深鉴智能科技有限公司 面向神经网络异构计算平台的编程模型
CN107168698A (zh) * 2017-04-24 2017-09-15 华南理工大学 图形化编程的自动编译方法
EP3413218A1 (en) * 2017-06-08 2018-12-12 Facebook, Inc. Key-value memory networks
CN108363559A (zh) * 2018-02-13 2018-08-03 北京旷视科技有限公司 神经网络的乘法处理方法、设备和计算机可读介质
US20190303762A1 (en) * 2018-03-30 2019-10-03 Xilinx, Inc. Methods of optimization of computational graphs of neural networks
CN110321999A (zh) * 2018-03-30 2019-10-11 北京深鉴智能科技有限公司 神经网络计算图优化方法
CN110377288A (zh) * 2018-04-13 2019-10-25 赛灵思公司 神经网络压缩编译器及其编译压缩方法
CN109032925A (zh) * 2018-06-26 2018-12-18 昆山睿力得软件技术有限公司 一种车载设备驱动软件自动化测试方法
US20190056885A1 (en) * 2018-10-15 2019-02-21 Amrita MATHURIYA Low synch dedicated accelerator with in-memory computation capability
CN109491784A (zh) * 2018-10-18 2019-03-19 北京旷视科技有限公司 降低内存占用量的方法、装置、电子设备、可读存储介质
CN109272109A (zh) * 2018-10-30 2019-01-25 北京地平线机器人技术研发有限公司 神经网络模型的指令调度方法及装置
CN109284815A (zh) * 2018-11-30 2019-01-29 上海寒武纪信息科技有限公司 神经网络模型算法编译方法、装置及相关产品
CN109710263A (zh) * 2018-12-18 2019-05-03 北京字节跳动网络技术有限公司 代码的编译方法、装置、存储介质及电子设备
CN109669772A (zh) * 2018-12-28 2019-04-23 第四范式(北京)技术有限公司 计算图的并行执行方法和设备
CN109783157A (zh) * 2018-12-29 2019-05-21 深圳云天励飞技术有限公司 一种算法程序加载的方法及相关装置
CN110058883A (zh) * 2019-03-14 2019-07-26 成都恒创新星科技有限公司 一种基于opu的cnn加速方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SWAGATH VENKATARAMANI 等: "POSTER: Design Space Exploration for Performance Optimization of Deep Neural Networks on Shared Memory Accelerators", 《2017 26TH INTERNATIONAL CONFERENCE ON PARALLEL ARCHITECTURES AND COMPILATION TECHNIQUES》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098509A1 (zh) * 2019-11-18 2021-05-27 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备
CN111580828B (zh) * 2020-04-30 2021-08-27 腾讯科技(深圳)有限公司 机器学习模型的编译优化方法和装置
CN111580828A (zh) * 2020-04-30 2020-08-25 腾讯科技(深圳)有限公司 机器学习模型的编译优化方法和装置
CN111651147A (zh) * 2020-05-31 2020-09-11 四川亨通网智科技有限公司 一种系统快速搭建组件
CN111783985A (zh) * 2020-06-30 2020-10-16 Oppo广东移动通信有限公司 信息处理、模型处理方法及装置、设备、介质
CN111814906A (zh) * 2020-07-23 2020-10-23 上海东普信息科技有限公司 快递面单识别模型移植方法、装置、设备及存储介质
CN111814906B (zh) * 2020-07-23 2023-07-11 上海东普信息科技有限公司 快递面单识别模型移植方法、装置、设备及存储介质
CN111859904A (zh) * 2020-07-31 2020-10-30 南京三百云信息科技有限公司 Nlp模型优化方法、装置以及计算机设备
CN111880807A (zh) * 2020-07-31 2020-11-03 Oppo广东移动通信有限公司 深度学习编译方法、装置、设备及存储介质
WO2022063183A1 (zh) * 2020-09-28 2022-03-31 中科寒武纪科技股份有限公司 执行神经网络计算的装置、板卡、方法及可读存储介质
CN112328227A (zh) * 2020-11-03 2021-02-05 清华大学 编译方法、装置、计算设备和介质
CN112328227B (zh) * 2020-11-03 2022-02-25 清华大学 编译方法、装置、计算设备和介质
CN112783506A (zh) * 2021-01-29 2021-05-11 展讯通信(上海)有限公司 一种模型运行方法及相关装置
CN112947933A (zh) * 2021-02-24 2021-06-11 上海商汤智能科技有限公司 一种算子的执行方法、装置、计算机设备及存储介质
US11789710B2 (en) 2021-09-17 2023-10-17 Samsung Electronics Co., Ltd. Compilation method and apparatus with neural network
CN114003306A (zh) * 2021-10-27 2022-02-01 上海商汤科技开发有限公司 一种显存优化方法、装置、设备及存储介质
CN114003306B (zh) * 2021-10-27 2024-03-15 上海商汤科技开发有限公司 一种显存优化方法、装置、设备及存储介质
CN113703741A (zh) * 2021-10-29 2021-11-26 深圳思谋信息科技有限公司 神经网络编译器配置方法、装置、计算机设备和存储介质
CN114265593B (zh) * 2021-12-09 2022-11-22 北京奕斯伟计算技术股份有限公司 指令调度方法、装置、设备及计算机可读存储介质
CN114265593A (zh) * 2021-12-09 2022-04-01 北京奕斯伟计算技术有限公司 指令调度方法、装置、设备及计算机可读存储介质
CN115576699A (zh) * 2022-11-25 2023-01-06 成都登临科技有限公司 数据处理方法、装置、ai芯片、电子设备及存储介质
CN115576699B (zh) * 2022-11-25 2024-03-12 成都登临科技有限公司 数据处理方法、装置、ai芯片、电子设备及存储介质
CN116126346A (zh) * 2023-04-04 2023-05-16 上海燧原科技有限公司 Ai模型的代码编译方法、装置、计算机设备及存储介质
CN116126346B (zh) * 2023-04-04 2023-06-16 上海燧原科技有限公司 Ai模型的代码编译方法、装置、计算机设备及存储介质
CN116541018A (zh) * 2023-06-19 2023-08-04 之江实验室 一种分布式模型编译系统、方法、装置、介质及设备
CN116541018B (zh) * 2023-06-19 2023-09-15 之江实验室 一种分布式模型编译系统、方法、装置、介质及设备
US11934887B1 (en) 2023-06-19 2024-03-19 Zhejiang Lab Distributed model compilation

Also Published As

Publication number Publication date
WO2021098509A1 (zh) 2021-05-27
CN110908667B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN110908667B (zh) 神经网络联合编译的方法、装置和电子设备
CN110390387B (zh) 对深度学习应用所用资源进行评估
Weber et al. Distributed differential evolution with explorative–exploitative population families
Clark et al. A multiobjective memetic algorithm for PPI network alignment
CN113168569A (zh) 去中心化分布式深度学习
US20220129325A1 (en) Parallelization method and apparatus with processing of neural network model for manycore system
Li et al. An intelligent collaborative inference approach of service partitioning and task offloading for deep learning based service in mobile edge computing networks
CN114327399A (zh) 分布式训练方法、装置、计算机设备、存储介质和产品
CN114118403A (zh) 神经网络架构搜索方法、装置、存储介质及电子设备
Bhuiyan et al. Fast parallel algorithms for edge-switching to achieve a target visit rate in heterogeneous graphs
Qiu et al. Mammoth data in the cloud: clustering social images
Folino et al. Automatic offloading of mobile applications into the cloud by means of genetic programming
Niu et al. User-aware partitioning algorithm for mobile cloud computing based on maximum graph cuts
CN116151384B (zh) 量子电路处理方法、装置及电子设备
CN115879543A (zh) 一种模型训练方法、装置、设备、介质及系统
Yu et al. Hypergef: A framework enabling efficient fusion for hypergraph neural network on gpus
Abdellah et al. RAP-G: Reliability-aware service placement using genetic algorithm for deep edge computing
CN111178529B (zh) 数据处理方法、装置、电子设备及可读存储介质
Unold et al. A parallel framework for multi-population cultural algorithm and its applications in TSP
US11657293B2 (en) Asynchronous architecture for evolutionary computation techniques
CN116579435B (zh) 量子电路的分类方法、装置、电子设备、介质和产品
Vigueras et al. On the use of GPU for accelerating communication-aware mapping techniques
WO2022135599A1 (zh) 融合分支结构的装置、板卡、方法及可读存储介质
CN118228762A (zh) 深度神经网络推理的图替代和并行化联合优化方法及装置
CN111435938B (zh) 一种数据请求的处理方法、装置及其设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant