CN114385181A - 一种数据处理方法、装置、设备及计算机存储介质 - Google Patents
一种数据处理方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN114385181A CN114385181A CN202111554530.7A CN202111554530A CN114385181A CN 114385181 A CN114385181 A CN 114385181A CN 202111554530 A CN202111554530 A CN 202111554530A CN 114385181 A CN114385181 A CN 114385181A
- Authority
- CN
- China
- Prior art keywords
- subgraph
- computational
- intermediate representation
- computation
- optimized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/44—Encoding
- G06F8/447—Target code generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/44—Encoding
- G06F8/443—Optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种数据处理方法、装置、设备及计算机存储介质,所述方法包括:获取深度学习模型的第一动态中间表示,第一动态中间表示包括至少一个计算子图,计算子图包括N个节点和连接不同节点的有向边,有向边上承载有动态张量数据;根据至少一个计算子图各自对应的运行时长对至少一个计算子图进行筛选,获得至少一个待优化计算子图;对至少一个待优化计算子图进行优化,得到第二动态中间表示;对第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使后端硬件设备执行目标代码,实现目标代码的功能。本发明通过对动态中间表示进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
Description
技术领域
本发明涉及计算机软件技术领域,尤其涉及一种数据处理方法、装置、设备及计算机存储介质。
背景技术
以机器学习、深度学习为代表的新一波人工智能热潮已经持续升温数年,深度学习是近年来人工智能领域的研究热点,在诸多领域获得了突破性的进展,现今有很多种深度学习框架以及支持多种深度学习框架的多种硬件平台。深度学习框架和硬件多样性给用户带来很大的好处,对于维持人工智能生态系统的健康发展至关重要,但支持多个框架和硬件需要巨大的工作量,这也给人工智能开发者带来了不小的挑战。
随着深度学习的应用越来越广,大家越来越关心深度学习算法在不同硬件架构上训练和推理的实现效率,由于深度学习有众多不同的前端和后端,因此需要一个桥梁来有效实现它们之间的优化和映射。IR(Intermediate Representation,中间表示)是程序编译过程中,源代码与目标代码之间翻译的中介,IR的设计对编译器来说非常关键,IR要考虑从源代码到目标代码编译的完备性、编译优化的易用性和性能。因此中间表示的竞争,将是未来框架之争的重要一环。参考传统编译器设计的经验,NNVM(Neural Network VirtualMachine)、TVM(Tensor Virtual Machine)和XLA(Accelerated Linear Algebra)都开始了很好的尝试,它们都是围绕特定中间表示构建的优化和编译工具。但是它们没有在多个硬件平台和人工智能开发框架上进行适配型测试和优化,导致中间表示的可移植性较低,对于不同的硬件平台都需要重新进行优化。并且,在实际应用过程中,中间表示的种类千变万化,对中间表示进行优化处理的难度会随着中间表示中表达项规模的增长呈指数级上升。基于此,如何对中间表示进行优化是亟需解决的问题。
发明内容
本发明实施例所要解决的技术问题在于,提供一种数据处理方法、装置、设备及计算机存储介质,通过对动态中间表示进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
第一方面,本发明实施例提供了一种数据处理方法,包括:
获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据,N>1;
根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;
对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;
对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
本实施例通过对动态中间表示中的计算子图进行筛选,以获取待优化计算子图,并对待优化计算子图进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
可选的,本发明实施例中根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图可以采用如下几种可能的实现方式:
第一种可能的实现方式中,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
本实施例通过在运行过程中对运行时长较长的计算子图进行优化,以获取最优的计算子图,进而得到优化后的动态中间表示。第二种可能的实现方式中,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
本实施例通过在运行过程中对运行时长较长的某几个计算子图进行优化,进而得到优化后的动态中间表示。在这一实现方式中,可以提高设备执行目标代码的性能。
第三种可能的实现方式中,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
本实施例通过在运行过程中对变化前后运行时长差值较大的计算子图进行优化以获取最优的计算子图,进而得到优化后的动态中间表示。在这一实现方式中,可以提高设备执行目标代码的性能。
第二方面,本发明实施例还提供了一种数据处理方法,包括:
获取目标代码和待处理图像;
根据所述目标代码对所述待处理图像进行处理,得到图像处理结果;其中,所述目标代码为通过上述第一方面任一项所述的数据处理方法得到的。
本实施例通过对动态中间表示进行优化后再编译获得目标代码,能够提高目标代码的运行效率,从而提高图像处理效率。
第三方面,本发明实施例还提供了一种数据处理装置,包括接收单元和处理单元:
所述接收单元,用于获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据,N>1;
所述处理单元,用于根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
可选的,本发明实施例中所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图可以采用如下几种可能的实现方式:
第一种可能的实现方式中,所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
第二种可能的实现方式中,所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
第三种可能的实现方式中,所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
需要说明的是,本发明实施例第三方面提供的一种数据处理装置的各实施例的相关具体实现方案和有益效果,与本发明实施例第一方面提供的一种数据处理方法的各实施例的具体实现方案和有益效果对应相同,在此不作赘述。
第四方面,本发明实施例还提供了一种数据处理装置,包括接收单元和处理单元:
所述接收单元,用于获取目标代码和待处理图像;
所述处理单元,用于根据所述目标代码对所述待处理图像进行处理,得到图像处理结果;其中,所述目标代码为通过上述第一方面任一项所述的数据处理方法得到的。
第五方面,本发明实施例还提供了一种数据处理设备,包括:存储器和处理器,所述存储器用于存储程序,所述处理器执行所述存储器存储的程序,当存储器存储的程序被执行时,所述处理器用于执行上述第一方面任一项所述的数据处理方法,或者,上述第二方面所述的数据处理方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述第一方面任一项所述的数据处理方法,或者,上述第二方面所述的数据处理方法。
相对于现有技术,本发明实施例提供的一种数据处理方法、装置、设备及计算机存储介质的有益效果在于:通过获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据;根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。本发明实施例通过对动态中间表示进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
附图说明
图1是本发明提供的一种数据处理方法的一个实施例的流程示意图;
图2是本发明提供的一种数据处理方法的另一个实施例的流程示意图;
图3是本发明提供的一种数据处理方法的又一个实施例的流程示意图;
图4是本发明提供的一种数据处理方法应用于图像处理的流程示意图;
图5是本发明提供的一种数据处理装置的一个实施例的结构示意图;
图6是本发明提供的一种数据处理装置的另一个实施例的结构示意图;
图7是本发明提供的一种数据处理设备的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1是本发明提供的一种数据处理方法的一个实施例的流程示意图。所述数据处理方法,包括:
S101,获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据,N>1。
具体的,在深度学习初始阶段,每个深度学习研究者都需要写大量的重复代码。为了提高工作效率,这些研究者就将这些代码写成了一个框架放到网上让所有研究者一起使用。接着,网上就出现了不同的框架。随着时间的推移,最为好用的几个框架被大量使用从而流行了起来。目前,全世界最为流行的深度学习框架有PaddlePaddle、Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch。深度学习框架是一种界面、库或工具,它使我们在无需深入了解底层算法的细节的情况下,能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型,为深度学习模型的构建提供了一种清晰而简洁的方法。由于深度学习有众多不同的前端和后端,IR(IntermediateRepresentation,中间表示)作为源代码与目标代码之间翻译的中介,可以表达源程序的数据结构以及相关算法。
示例性的,本实施例中获取的深度学习模型的第一动态中间表示包括至少一个计算子图,其中,每个计算子图均包括N个节点和连接不同节点的有向边,有向边上承载有动态张量数据,N为大于1的正整数。
需要说明的是,可以通过训练好的神经网络对深度学习模型的数据进行分类,相应获得静态数据流和动态数据流,则根据获得的动态数据流即可获得第一动态中间表示。
S102,根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图。
具体的,将每一个计算子图在后端硬件设备上进行执行,可以得到各自在后端硬件设备上执行的对应的运行时长,根据运行时长对对应的所有计算子图进行筛选,可以获得至少一个待优化计算子图。
S103,对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图。
具体的,中间表示作为源代码与目标代码之间翻译的中介,可以表达源程序的数据结构以及相关算法,对中间表示进行编译,可以得到后端硬件设备可执行的目标代码。一个好的中间表示,既要拥有准确无误地表达源程序信息的能力,同时也要方便进行变换。在变换的过程中,中间表示会进行多次操作,从而变得非常复杂。因此,为了提高编译得到的目标代码的运行性能,需要对获取的第一动态中间表示中的待优化计算子图进行优化处理。
需要说明的是,从深度学习模型获取的第一动态中间表示中包括至少一个计算子图,因此,在对计算子图进行筛选以获取待优化计算子图时,会有可能出现一些不需要优化的计算子图,进而使得优化后得到的第二动态中间表示中既可能只包括优化后的计算子图,也可能包括优化后的计算子图以及不需要优化的计算子图。
S104,对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
具体的,对优化后的第二静态中间表示进行编译,能够得到后端硬件设备可执行的目标代码。后端硬件设备执行该目标代码,即可实现该目标代码的功能。
本实施例通过对动态中间表示中的计算子图进行筛选,以获取待优化计算子图,并对待优化计算子图进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
作为其中一种可选的实施例,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
示例性的,第一动态中间表示中包括至少一个计算子图,且该计算子图是动态变化的,针对发生变化的每一个计算子图,获取变化后的计算子图在后端硬件设备上执行的运行时长。将该运行时长与预设的第一时间阈值进行比较,筛选运行时长大于预设的第一时间阈值的情况,在运行时长大于预设的第一时间阈值的情况下,将运行时长对应的计算子图作为待优化计算子图。
本实施例通过在运行过程中对运行时长较长的计算子图进行优化,以获取最优的计算子图,进而得到优化后的动态中间表示。在这一实现方式中,可以提高设备执行目标代码的性能。
作为其中一种可选的实施例,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
示例性的,第一动态中间表示中包括至少一个计算子图,且该计算子图是动态变化的,针对发生变化的每一个计算子图,获取变化后的计算子图在后端硬件设备上执行的运行时长。将获取的所有运行时长按照时长从大到小的顺序进行排序,得到排序结果。将排序结果中排名前L位的运行时长对应的计算子图作为待优化计算子图。其中,L为大于0的正整数。
本实施例通过在运行过程中对运行时长较长的某几个计算子图进行优化,进而得到优化后的动态中间表示。在这一实现方式中,可以提高设备执行目标代码的性能。
作为其中一种可选的实施例,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
示例性的,第一动态中间表示中包括至少一个计算子图,且该计算子图是动态变化的,针对发生变化的同一个计算子图,获取变化后的计算子图在后端硬件设备上执行的第一运行时长,以及变化前的计算子图在后端硬件设备上执行的第二运行时长。计算第一运行时长与第二运行时长之间的差值,将该差值与预设的第二时间阈值进行比较,筛选差值大于预设的第二时间阈值的情况,在差值大于第二阈值的情况下,将第一运行时长对应的计算子图作为待优化计算子图。
本实施例通过在运行过程中对变化前后运行时长差值较大的计算子图进行优化以获取最优的计算子图,进而得到优化后的动态中间表示。
本发明还提供一种数据处理方法,对静态中间表示进行优化,请参阅图2,图2是本发明提供的一种数据处理方法的另一个实施例的流程示意图。所述数据处理方法,包括:
S201,获取深度学习模型的第一静态中间表示;其中,所述深度学习模型为基于前端模型框架构建的模型,所述第一静态中间表示具有图结构,所述图结构包括M个节点和连接不同节点的有向边,所述有向边上承载有静态张量数据,M>1。
具体的,在深度学习初始阶段,每个深度学习研究者都需要写大量的重复代码。为了提高工作效率,这些研究者就将这些代码写成了一个框架放到网上让所有研究者一起使用。接着,网上就出现了不同的框架。随着时间的推移,最为好用的几个框架被大量使用从而流行了起来。目前,全世界最为流行的深度学习框架有PaddlePaddle、Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch。深度学习框架是一种界面、库或工具,它使我们在无需深入了解底层算法的细节的情况下,能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型,为深度学习模型的构建提供了一种清晰而简洁的方法。由于深度学习有众多不同的前端和后端,IR(IntermediateRepresentation,中间表示)作为源代码与目标代码之间翻译的中介,可以表达源程序的数据结构以及相关算法。
示例性的,本实施例中获取的深度学习模型的第一静态中间表示具有图结构,该图结构包括M个节点和连接不同节点的有向边,有向边上承载有静态张量数据,M为大于1的正整数。其中,图结构即计算图,通过计算图形式的中间表示来表示来自前端模型框架的深度学习模型的工作负载。
需要说明的是,可以通过训练好的神经网络对深度学习模型的数据进行分类,相应获得静态数据流和动态数据流,则根据获得的静态数据流即可获得第一静态中间表示。
S202,将所述第一静态中间表示转化为与所述前端模型框架无关的第二静态中间表示。
具体的,S201中获取的深度学习模型的第一静态中间表示是与前端模型框架相关的,为了使优化后的静态中间表示能够适用于多种后端硬件设备,需要将与前端模型框架相关的第一静态中间表示转化为与前端模型框架无关的第二静态中间表示。
需要说明的是,可以将第一静态中间表示转化为解耦框架的形式,解耦框架的形式具体是指转化后的中间表示与上层的模型框架没有关系,从而获得与前端模型框架无关的第二静态中间表示。
S203,对所述第二静态中间表示进行优化,得到第三静态中间表示。
具体的,中间表示作为源代码与目标代码之间翻译的中介,可以表达源程序的数据结构以及相关算法,对中间表示进行编译,可以得到后端硬件设备可执行的目标代码。一个好的中间表示,既要拥有准确无误地表达源程序信息的能力,同时也要方便进行变换。在变换的过程中,中间表示会进行多次操作,从而变得非常复杂。因此,为了提高编译得到的目标代码的运行性能,需要对第二静态中间表示进行优化处理。
由于静态中间表示为包含了各种属性映射信息的计算图,在解耦框架的形式上进行优化,即对第二静态中间表示进行优化时,可以使得该计算图拥有更多的属性(例如,增加一些新的运算符,针对具体的运算符调整属性)或者变为另一个新的计算图。
S204,对所述第三静态中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
具体的,对优化后的第三静态中间表示进行编译,能够得到后端硬件设备可执行的目标代码。后端硬件设备执行该目标代码,即可实现该目标代码的功能。
本实施例通过将静态中间表示转化为与前端模型框架无关的静态中间表示,并对转化后的静态中间表示进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
作为其中一种可选的实施例,所述S202,将所述第一静态中间表示转化为与所述前端模型框架无关的第二静态中间表示,包括:
对所述第一静态中间表示进行解耦,去除所述第一静态中间表示中与所述前端模型框架相关的节点和静态张量数据,得到与所述前端模型框架无关的所述第二静态中间表示。
示例性的,第一静态中间表示具有图结构,该图结构包括M个节点和连接不同节点的有向边,有向边上承载有静态张量数据。可以采用NNVM编译器对第一静态中间表示进行解耦,去除第一静态中间表示中与前端模型框架相关的节点和静态张量数据,得到与前端模型框架无关的第二静态中间表示。其中,在对第一静态中间表示进行解耦时,采用的编译器不仅限于上述NNVM编译器,还可以是TVM编译器、XLA编译器等等,只要能实现对静态中间表示解耦的编译器都可以。
本实施例通过将与前端模型框架相关的第一静态中间表示转化为与前端模型框架无关的第二静态中间表示,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
作为其中一种可选的实施例,所述对所述第二静态中间表示进行优化,包括:
对所述第二静态中间表示中包含的节点进行融合,以将所述第二静态中间表示中具有同一属性的多个节点融合到同一个内核函数中。
具体的,对第二静态中间表示进行算子融合,根据节点属性对第二静态中间表示中包含的所有节点进行分组,获得至少一组节点,每一组节点中的所有节点具有同一属性,将第二静态中间表示中具有同一属性的每一组节点对应融合到同一个内核函数中,这样可以不将中间结果保存回全局内存,减少中间数据的迁移,避免频繁的来回读写。
作为其中一种可选的实施例,所述对所述第二静态中间表示进行优化,包括:
获取所述第二静态中间表示中每一节点的张量操作所对应的布局要求;
根据所述布局要求对所述第二静态中间表示的静态张量数据进行数据布局转换。
具体的,对第二静态中间表示进行数据布局转换,张量操作是计算图的基本算子,在不同的算子中张量可能有不同的布局要求,获取第二静态中间表示中每一个节点的张量操作所对应的布局要求,根据该布局要求对第二静态中间表示的静态张量数据进行数据布局转换,以优化局部访存效率。例如,第二静态中间表示中的某一个节点可能会使用4x4的张量操作,所以需要将原始2x2的静态张量数据转换成4x4的块来存储,以优化局部访存效率。
作为其中一种可选的实施例,所述对所述第二静态中间表示进行优化,包括:
对所述第二静态中间表示中包含的节点进行融合,以将所述第二静态中间表示中具有同一属性的多个节点融合到同一个内核函数中,得到至少一个融合节点;
获取每一所述融合节点的张量操作所对应的布局要求;
根据所述布局要求对融合后的第二静态中间表示的静态张量数据进行数据布局转换。
具体的,对第二静态中间表示进行算子融合和数据布局转换,根据节点属性对第二静态中间表示中包含的所有节点进行分组,获得至少一组节点,每一组节点中的所有节点具有同一属性,将第二静态中间表示中具有同一属性的每一组节点对应融合到同一个内核函数中,得到至少一个融合节点。获取每一个融合节点的张量操作所对应的布局要求,根据该布局要求对融合后的第二静态中间表示的静态张量数据进行数据布局转换。例如,第二静态中间表示中的某一个融合节点可能会使用4x4的张量操作,所以需要将原始2x2的静态张量数据转换成4x4的块来存储,以优化局部访存效率。
本实施例通过对第二静态中间表示进行算子融合和数据布局转换的优化,可以不将中间结果保存回全局内存,减少中间数据的迁移,避免频繁的来回读写,优化局部访存效率。
本发明还提供一种数据处理方法,同时对静态中间表示和动态中间表示进行优化,请参阅图3,图3是本发明提供的一种数据处理方法的又一个实施例的流程示意图。所述数据处理方法,包括:
S301,获取深度学习模型的静态中间表示和动态中间表示;其中,所述深度学习模型为基于前端模型框架构建的模型;在所述静态中间表示对应的计算子图中,各有向边上承载有静态张量数据;在所述动态中间表示对应的计算子图中,各有向边上承载有动态张量数据。
具体的,在深度学习初始阶段,每个深度学习研究者都需要写大量的重复代码。为了提高工作效率,这些研究者就将这些代码写成了一个框架放到网上让所有研究者一起使用。接着,网上就出现了不同的框架。随着时间的推移,最为好用的几个框架被大量使用从而流行了起来。目前,全世界最为流行的深度学习框架有PaddlePaddle、Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch。深度学习框架是一种界面、库或工具,它使我们在无需深入了解底层算法的细节的情况下,能够更容易、更快速地构建深度学习模型。深度学习框架利用预先构建和优化好的组件集合定义模型,为深度学习模型的构建提供了一种清晰而简洁的方法。由于深度学习有众多不同的前端和后端,IR(IntermediateRepresentation,中间表示)作为源代码与目标代码之间翻译的中介,可以表达源程序的数据结构以及相关算法。
示例性的,本实施例中获取的深度学习模型的静态中间表示和动态中间表示均包括至少一个计算子图,其中,每个计算子图均包括N个节点和连接不同节点的有向边。在静态中间表示对应的计算子图中,各有向边上承载有静态张量数据;在动态中间表示对应的计算子图中,各有向边上承载有动态张量数据。
需要说明的是,可以通过训练好的神经网络对深度学习模型的数据进行分类,相应获得静态数据流和动态数据流,则根据获得的静态数据流即可获得静态中间表示,根据获得的动态数据流即可获得动态中间表示。
S302,将所述静态中间表示转化为与所述前端模型框架无关的静态中间表示,并对转化后的静态中间表示进行优化,得到优化后的静态中间表示。
具体的,S301中获取的深度学习模型的静态中间表示是与前端模型框架相关的,为了使优化后的静态中间表示能够适用于多种后端硬件设备,需要将与前端模型框架相关的静态中间表示先转化为与前端模型框架无关的静态中间表示,可以采用NNVM编译器对静态中间表示进行解耦,去除静态中间表示中与前端模型框架相关的节点和静态张量数据,得到与前端模型框架无关的静态中间表示,即转化后的静态中间表示。在对静态中间表示进行解耦时,采用的编译器不仅限于上述NNVM编译器,还可以是TVM编译器、XLA编译器等等,只要能实现对静态中间表示解耦的编译器都可以。然后再对转化后的与前端模型框架无关的静态中间表示进行优化,以提高编译得到的目标代码的运行性能。
需要说明的是,可以将静态中间表示转化为解耦框架的形式,解耦框架的形式具体是指转化后的中间表示与上层的模型框架没有关系,从而获得与前端模型框架无关的静态中间表示。由于静态中间表示为包含了各种属性映射信息的计算图,在解耦框架的形式上进行优化,即对与前端模型框架无关的静态中间表示进行优化时,可以使得该计算图拥有更多的属性(例如,增加一些新的运算符,针对具体的运算符调整属性)或者变为另一个新的计算图。
S303,在所述动态中间表示对应的计算子图中,根据至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图。
具体的,针对动态中间表示所对应的计算子图,将每一个计算子图在后端硬件设备上进行执行,可以得到各自在后端硬件设备上执行的对应的运行时长,根据运行时长对对应的所有计算子图进行筛选,可以获得至少一个待优化计算子图。
S304,对所述至少一个待优化计算子图进行优化,得到优化后的动态中间表示;其中,所述优化后的动态中间表示至少包括优化后的计算子图。
具体的,中间表示作为源代码与目标代码之间翻译的中介,可以表达源程序的数据结构以及相关算法,对中间表示进行编译,可以得到后端硬件设备可执行的目标代码。一个好的中间表示,既要拥有准确无误地表达源程序信息的能力,同时也要方便进行变换。在变换的过程中,中间表示会进行多次操作,从而变得非常复杂。因此,为了提高编译得到的目标代码的运行性能,需要对获取的第一动态中间表示中的待优化计算子图进行优化处理。
需要说明的是,从深度学习模型获取的动态中间表示中包括至少一个计算子图,因此,在对计算子图进行筛选以获取待优化计算子图时,会有可能出现一些不需要优化的计算子图,进而使得优化后的动态中间表示中既可能只包括优化后的计算子图,也可能包括优化后的计算子图以及不需要优化的计算子图。
S305,对所述优化后的静态中间表示和所述优化后的动态中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
具体的,对优化后的静态中间表示和优化后的动态中间表示进行编译,能够得到后端硬件设备可执行的目标代码。后端硬件设备执行该目标代码,即可实现该目标代码的功能。
本实施例通过对静态中间表示和动态中间表示同时进行优化处理,优化效果更好,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
作为其中一种可选的实施例,所述对转化后的静态中间表示进行优化,包括:
对转化后的静态中间表示中包含的节点进行融合,以将所述转化后的静态中间表示中具有同一属性的多个节点融合到同一个内核函数中;
或者,
获取转化后的静态中间表示中每一节点的张量操作所对应的布局要求;
根据所述布局要求对所述转化后的静态中间表示的静态张量数据进行数据布局转换。
具体的,对转化后的静态中间表示进行算子融合,根据节点属性对转化后的静态中间表示中包含的所有节点进行分组,获得至少一组节点,每一组节点中的所有节点具有同一属性,将转化后的静态中间表示中具有同一属性的每一组节点对应融合到同一个内核函数中,这样可以不将中间结果保存回全局内存,减少中间数据的迁移,避免频繁的来回读写。或者,还可以对转化后的静态中间表示进行数据布局转换,张量操作是计算图的基本算子,在不同的算子中张量可能有不同的布局要求,获取转化后的静态中间表示中每一节点的张量操作所对应的布局要求,根据该布局要求对转化后的静态中间表示的静态张量数据进行数据布局转换,以优化局部访存效率。例如,转化后的静态中间表示中的某一个节点可能会使用4x4的张量操作,所以需要将原始2x2的静态张量数据转换成4x4的块来存储,以优化局部访存效率。
作为其中一种可选的实施例,所述对转化后的静态中间表示进行优化,包括:
对转化后的静态中间表示中包含的节点进行融合,以将所述转化后的静态中间表示中具有同一属性的多个节点融合到同一个内核函数中,得到至少一个融合节点;
获取每一所述融合节点的张量操作所对应的布局要求;
根据所述布局要求对融合后的静态中间表示的静态张量数据进行数据布局转换。
具体的,对转化后的静态中间表示进行算子融合和数据布局转换,根据节点属性对转化后的静态中间表示中包含的所有节点进行分组,获得至少一组节点,每一组节点中的所有节点具有同一属性,将转化后的静态中间表示中具有同一属性的每一组节点对应融合到同一个内核函数中,得到至少一个融合节点。获取每一融合节点的张量操作所对应的布局要求,根据该布局要求对融合后的转化后的静态中间表示的静态张量数据进行数据布局转换。例如,转化后的静态中间表示中的某一个融合节点可能会使用4x4的张量操作,所以需要将原始2x2的静态张量数据转换成4x4的块来存储,以优化局部访存效率。
本实施例通过对转化后的静态中间表示进行算子融合和数据布局转换的优化,可以不将中间结果保存回全局内存,减少中间数据的迁移,避免频繁的来回读写,优化局部访存效率。
作为其中一种可选的实施例,所述根据至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
示例性的,动态中间表示中包括至少一个计算子图,且该计算子图是动态变化的,针对发生变化的每一个计算子图,获取变化后的计算子图在后端硬件设备上执行的运行时长。将该运行时长与预设的第一时间阈值进行比较,筛选运行时长大于预设的第一时间阈值的情况,在运行时长大于预设的第一时间阈值的情况下,将运行时长对应的计算子图作为待优化计算子图。
本实施例通过在运行过程中对运行时长较长的计算子图进行优化以获取最优的计算子图,进而得到优化后的动态中间表示。
作为其中一种可选的实施例,所述根据至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
示例性的,第一动态中间表示中包括至少一个计算子图,且该计算子图是动态变化的,针对发生变化的每一个计算子图,获取变化后的计算子图在后端硬件设备上执行的运行时长。将获取的所有运行时长按照时长从大到小的顺序进行排序,得到排序结果。将排序结果中排名前L位的运行时长对应的计算子图作为待优化计算子图。其中,L为大于0的正整数。
本实施例通过在运行过程中对运行时长较长的某几个计算子图进行优化,进而得到优化后的动态中间表示。
作为其中一种可选的实施例,所述根据至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
示例性的,第一动态中间表示中包括至少一个计算子图,且该计算子图是动态变化的,针对发生变化的同一个计算子图,获取变化后的计算子图在后端硬件设备上执行的第一运行时长,以及变化前的计算子图在后端硬件设备上执行的第二运行时长。计算第一运行时长与第二运行时长之间的差值,将该差值与预设的第二时间阈值进行比较,筛选差值大于预设的第二时间阈值的情况,在差值大于第二阈值的情况下,将第一运行时长对应的计算子图作为待优化计算子图。
本实施例通过在运行过程中对变化前后运行时长差值较大的计算子图进行优化以获取最优的计算子图,进而得到优化后的动态中间表示。
本发明在实际应用时,可以根据实际需求选择仅对静态中间表示进行优化,或者仅对动态中间表示进行优化,或者同时对静态中间表示和动态中间表示进行优化,以实现不同的优化目的。
在具体应用时,本实施例以图像处理为例,请参阅图4,图4是本发明提供的一种数据处理方法应用于图像处理的流程示意图。所述数据处理方法,包括:
S401,获取目标代码和待处理图像;
S402,根据所述目标代码对所述待处理图像进行处理,得到图像处理结果;其中,所述目标代码为通过本发明上述任一实施例所述的数据处理方法得到的。
具体的,本实施例可由图像处理器(graphics processing unit,GPU)执行,在获得目标代码和待处理图像之后,图像处理器根据目标代码对待处理图像进行处理,相应获得图像处理结果。其中,目标代码可以通过采用上述任一实施例所述的数据处理方法优化获得,图像处理可以包括但不限于卷积处理、分类处理和灰度处理中的任意一个。通过对中间表示进行优化后再编译获得目标代码,能够提高目标代码的运行效率,从而提高图像处理效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本披露并不受所描述的动作顺序的限制,因为依据本披露,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本披露所必须的。
进一步需要说明的是,以图1为例,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
相应地,本发明还提供一种数据处理装置,能够实现上述实施例中的数据处理方法的所有流程。
请参阅图5,图5是本发明提供的一种数据处理装置的一个实施例的结构示意图。所述数据处理装置,包括接收单元501和处理单元502;
所述接收单元501,用于获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据,N>1;
所述处理单元502,用于根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
作为其中一种可选的实施例,所述处理单元502根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
作为其中一种可选的实施例,所述处理单元502根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
作为其中一种可选的实施例,所述处理单元502根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
在具体应用时,本实施例以图像处理为例,请参阅图6,图6是本发明提供的一种数据处理装置的另一个实施例的结构示意图。所述数据处理装置,包括接收单元601和处理单元602;
所述接收单元601,用于获取目标代码和待处理图像;
所述处理单元602,用于根据所述目标代码对所述待处理图像进行处理,得到图像处理结果;其中,所述目标代码为通过上述任一项所述的数据处理方法得到的。
在具体实施当中,本发明实施例提供的数据处理装置的工作原理、控制流程及实现的技术效果,与上述实施例中的数据处理方法对应相同,在此不再赘述。
请参阅图7,图7是本发明提供的一种数据处理设备的一个实施例的结构示意图。所述数据处理设备包括存储器701和处理器702,所述存储器701用于存储程序,所述处理器702执行所述存储器701存储的程序,当存储器701存储的程序被执行时,所述处理器702用于执行上述任一实施例所述的数据处理方法。
作为其中一种可选的实施例,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、……),所述一个或者多个模块/单元被存储在所述存储器701中,并由所述处理器702执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述数据处理设备中的执行过程。
所述处理器702可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器702也可以是任何常规的处理器,所述处理器702是所述数据处理设备的控制中心,利用各种接口和线路连接所述数据处理设备的各个部分。
所述存储器701主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器701可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器701也可以是其他易失性固态存储器件。
需要说明的是,上述数据处理设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图7的结构示意图仅仅是上述数据处理设备的示例,并不构成对上述数据处理设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一实施例所述的数据处理方法。
上述装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中,基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机产品存储在计算机可读存储介质中。
上述计算机可读存储介质可以是前述实施例的设备的内部存储单元,例如硬盘或内存。上述计算机可读存储介质也可以是上述设备的外部存储设备,例如配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可通过计算机程序来指令相关的硬件来完成,该计算机的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上,本发明实施例提供了一种数据处理方法、装置、设备及计算机存储介质,通过获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据;根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。本发明实施例通过对动态中间表示进行优化处理,能够实现前端框架无关以及后端平台无关,提高了中间表示的可移植性,以适用于多种硬件平台。
以上所述是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (12)
1.一种数据处理方法,其特征在于,包括:
获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据,N>1;
根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;
对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;
对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
2.如权利要求1所述的数据处理方法,其特征在于,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
3.如权利要求1所述的数据处理方法,其特征在于,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
4.如权利要求1所述的数据处理方法,其特征在于,所述根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
5.一种数据处理方法,其特征在于,包括:
获取目标代码和待处理图像;
根据所述目标代码对所述待处理图像进行处理,得到图像处理结果;其中,所述目标代码为通过如权利要求1-4中任一项所述的数据处理方法得到的。
6.一种数据处理装置,其特征在于,包括接收单元和处理单元:
所述接收单元,用于获取深度学习模型的第一动态中间表示;其中,所述第一动态中间表示中包括至少一个计算子图,所述计算子图包括N个节点和连接不同节点的有向边,所述有向边上承载有动态张量数据,N>1;
所述处理单元,用于根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图;对所述至少一个待优化计算子图进行优化,得到第二动态中间表示;其中,所述第二动态中间表示至少包括优化后的计算子图;对所述第二中间表示进行编译,得到后端硬件设备可执行的目标代码,以使所述后端硬件设备执行所述目标代码,实现所述目标代码的功能。
7.如权利要求6所述的数据处理装置,其特征在于,所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长;
在所述运行时长大于第一阈值的情况下,将所述运行时长对应的计算子图作为所述待优化计算子图。
8.如权利要求6所述的数据处理装置,其特征在于,所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的计算子图,获取变化后的计算子图在所述后端硬件设备上执行的运行时长,得到排序结果;其中,在所述排序结果中,运行时长越长,排名越靠前;
将所述排序结果中排名前L位的运行时长对应的计算子图作为所述待优化计算子图,L>0。
9.如权利要求6所述的数据处理装置,其特征在于,所述处理单元根据所述至少一个计算子图各自对应的运行时长对所述至少一个计算子图进行筛选,获得至少一个待优化计算子图,具体包括:
针对发生变化的同一个计算子图,获取变化后的计算子图在所述后端硬件设备上执行的第一运行时长,以及变化前的计算子图在所述后端硬件设备上执行的第二运行时长;
在所述第一运行时长与所述第二运行时长之间的差值大于第二阈值的情况下,将所述第一运行时长对应的计算子图作为所述待优化计算子图。
10.一种数据处理装置,其特征在于,包括接收单元和处理单元:
所述接收单元,用于获取目标代码和待处理图像;
所述处理单元,用于根据所述目标代码对所述待处理图像进行处理,得到图像处理结果;其中,所述目标代码为通过如权利要求1-4中任一项所述的数据处理方法得到的。
11.一种数据处理设备,其特征在于,包括:存储器和处理器,所述存储器用于存储程序,所述处理器执行所述存储器存储的程序,当存储器存储的程序被执行时,所述处理器用于执行如权利要求1-4中任一项所述的数据处理方法或如权利要求5所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-4中任一项所述的数据处理方法或如权利要求5所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554530.7A CN114385181A (zh) | 2021-12-17 | 2021-12-17 | 一种数据处理方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111554530.7A CN114385181A (zh) | 2021-12-17 | 2021-12-17 | 一种数据处理方法、装置、设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114385181A true CN114385181A (zh) | 2022-04-22 |
Family
ID=81197544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111554530.7A Pending CN114385181A (zh) | 2021-12-17 | 2021-12-17 | 一种数据处理方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385181A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115495095A (zh) * | 2022-11-18 | 2022-12-20 | 上海燧原科技有限公司 | 张量程序的整程序编译方法、装置、设备、介质及集群 |
CN117170685A (zh) * | 2023-11-02 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及介质 |
WO2024082679A1 (zh) * | 2022-10-19 | 2024-04-25 | 华为技术有限公司 | 计算图的处理方法和装置 |
-
2021
- 2021-12-17 CN CN202111554530.7A patent/CN114385181A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024082679A1 (zh) * | 2022-10-19 | 2024-04-25 | 华为技术有限公司 | 计算图的处理方法和装置 |
CN115495095A (zh) * | 2022-11-18 | 2022-12-20 | 上海燧原科技有限公司 | 张量程序的整程序编译方法、装置、设备、介质及集群 |
CN117170685A (zh) * | 2023-11-02 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及介质 |
CN117170685B (zh) * | 2023-11-02 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zheng et al. | Flextensor: An automatic schedule exploration and optimization framework for tensor computation on heterogeneous system | |
CN114385181A (zh) | 一种数据处理方法、装置、设备及计算机存储介质 | |
CN111242321B (zh) | 一种数据处理方法及相关产品 | |
Hwu et al. | The concurrency challenge | |
CN113703775B (zh) | 一种编译方法、装置、设备及存储介质 | |
Lugowski et al. | A flexible open-source toolbox for scalable complex graph analysis | |
US9009690B1 (en) | Code generation | |
Piscitelli et al. | Design space pruning through hybrid analysis in system-level design space exploration | |
CN114398080A (zh) | 一种数据处理方法、装置、设备及计算机存储介质 | |
AU2014203218B2 (en) | Memory configuration for inter-processor communication in an MPSoC | |
CN111160551A (zh) | 计算图执行方法、计算机设备及存储介质 | |
CN110689116B (zh) | 一种神经网络剪枝方法、装置、计算机设备及存储介质 | |
CN109791492B (zh) | 流水线相关树查询优化器和调度器 | |
JP2008033941A (ja) | 三次元キャラクタ・アニメーションを表すオペレータ・グラフの効率的処理 | |
Del Sozzo et al. | A common backend for hardware acceleration on FPGA | |
Jovanovic et al. | Fixed set search application for minimizing the makespan on unrelated parallel machines with sequence-dependent setup times | |
US9594863B2 (en) | Method for determining by optimization a multi-core architecture | |
CN114385182A (zh) | 一种数据处理方法、装置、设备及计算机存储介质 | |
Bo et al. | Automata processing in reconfigurable architectures: In-the-cloud deployment, cross-platform evaluation, and fast symbol-only reconfiguration | |
Kao et al. | Demystifying map space exploration for NPUs | |
Matai et al. | Enabling fpgas for the masses | |
Noronha et al. | Leflow: Automatic compilation of tensorflow machine learning applications to fpgas | |
Xiao et al. | Towards agile dnn accelerator design using incremental synthesis on FPGAs | |
JP2012014526A (ja) | プログラムコードの構造変換装置、並びにコード構造変換プログラム | |
CN112860534B (zh) | 硬件架构性能评估和性能优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |