CN117785492B - 一种算子的切分方式确定方法、装置、设备及介质 - Google Patents

一种算子的切分方式确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN117785492B
CN117785492B CN202410217894.3A CN202410217894A CN117785492B CN 117785492 B CN117785492 B CN 117785492B CN 202410217894 A CN202410217894 A CN 202410217894A CN 117785492 B CN117785492 B CN 117785492B
Authority
CN
China
Prior art keywords
segmentation
determining
segmentation mode
target
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410217894.3A
Other languages
English (en)
Other versions
CN117785492A (zh
Inventor
于召韦
谢宝磊
刘志丹
邓辉
陈松涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Suiyuan Intelligent Technology Co ltd
Original Assignee
Shanghai Suiyuan Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Suiyuan Intelligent Technology Co ltd filed Critical Shanghai Suiyuan Intelligent Technology Co ltd
Priority to CN202410217894.3A priority Critical patent/CN117785492B/zh
Publication of CN117785492A publication Critical patent/CN117785492A/zh
Application granted granted Critical
Publication of CN117785492B publication Critical patent/CN117785492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Complex Calculations (AREA)

Abstract

本发明公开了一种算子的切分方式确定方法、装置、设备及介质。包括获取加载目标算子的处理器的运行时参数;根据运行时参数构建屋顶线性能模型;根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,并根据切分参数集合构建针对目标算子的切分方式集合;基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,并根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式。通过处理器的运行时参数实时确定出切分方式集合,并根据屋顶线性能模型从切分方式集合中准确筛选出与目标算子匹配的目标切分方式,从而在按照所确定的目标切分方式进行算子切分时,能够保证计算资源得到充分地应用,避免了计算资源的浪费。

Description

一种算子的切分方式确定方法、装置、设备及介质
技术领域
本发明实施例涉及神经网络技术,尤其涉及一种算子的切分方式确定方法、装置、设备及介质。
背景技术
AI神经网络处理器内部通常会有很多独立的计算线程,这些线程间可以并行承担各种计算任务,因而在实现算子,例如通用矩阵乘GEMM算子时,通常需要将原始的大尺寸的GEMM算子切分成若干小尺寸子GEMM算子,并将这些切分后的子任务分别发送给不同的计算线程,以实现GEMM算子的并行加速。
目前切分方式的生成通常是针对一款AI处理器,根据先验知识,事先将GEMM算子尺寸分为几个大类,然后在AI编译器里预置若干种切分方式,每种切分方式去适配一种排布。
但是目前切分方式的确定方式通常比较粗略,不能保证某个预置的切分方式对于这类排布中的任一特定的GEMM算子总是最优的,并且当AI处理器的运行时参数发生变化时,预置的切分方式通常就不再是最优,从而在按照上述方式所确定的切分方式进行算子切分时会造成计算资源的浪费。
发明内容
本发明实施例提供一种算子的切分方式确定方法、装置、设备及介质,以实现确定出与算子所匹配的切分方式。
第一方面,本发明实施例提供了一种算子的切分方式确定方法,包括:获取加载目标算子的处理器的运行时参数,其中,所述处理器包括多级存储空间;
根据所述运行时参数构建屋顶线性能模型,其中,所述屋顶线性能模型中包括计算强度和可用算力的对应关系;
根据所述运行时参数所构建的切分约束条件确定出所述目标算子的切分参数集合,并根据所述切分参数集合构建针对所述目标算子的切分方式集合;
基于所述屋顶线性能模型获取所述切分方式中各切分方式的静态切分特征,并根据所述静态切分特征从所述切分方式集合中筛选出与所述目标算子匹配的目标切分方式。
第二方面,本发明实施例提供了一种算子的切分方式确定装置,包括:
运行时参数获取模块,用于获取加载目标算子的处理器的运行时参数,其中,所述处理器包括多级存储空间;
屋顶线性能模型构建模块,用于根据所述运行时参数构建屋顶线性能模型,其中,所述屋顶线性能模型中包括计算强度和可用算力的对应关系;
切分方式集合构建模块,用于根据所述运行时参数所构建的切分约束条件确定出所述目标算子的切分参数集合,并根据所述切分参数集合构建针对所述目标算子的切分方式集合;
切分方式确定模块,用于基于所述屋顶线性能模型获取所述切分方式中各切分方式的静态切分特征,并根据所述静态切分特征从所述切分方式集合中筛选出与所述目标算子匹配的目标切分方式。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
第四方面,本发明实施例提供了一种计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的方法。
本申请通过处理器的运行时参数实时确定出切分方式集合,并根据屋顶线性能模型从切分方式集合中准确筛选出与目标算子匹配的目标切分方式,从而在按照所确定的目标切分方式进行算子切分时,能够保证计算资源得到充分地应用,避免了计算资源的浪费。
附图说明
图1是本发明实施例一提供的一种算子的切分方式确定方法的流程图;
图2是本发明实施例一提供的一种处理器的存储结构示意图;
图3是本发明实施例一提供的所构建的屋顶线性能模型的示意图;
图4是本发明实施例一提供的对算子的输出矩阵进行切分的示意图;
图5是本发明实施例一提供的确定有效区域占比的示意图;
图6是本发明实施例一提供的算子的运算过程示意图;
图7是本发明实施例二提供的一种算子的切分方式确定方法的流程图;
图8是本发明实施例三提供的一种算子的切分方式确定装置的结构示意图;
图9是本发明实施例四中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种算子的切分方式确定方法的流程图,本实施例可适用于对算子所匹配的切分方式进行确定的情况,该方法可以由一种算子的切分方式确定装置来执行,该算子的切分方式确定装置可以采用硬件和/或软件的形式实现,该切分方式确定装置可集成配置于电子设备中。如图1所示,该方法包括:
步骤S101,获取加载目标算子的处理器的运行时参数。
具体的说,本实施方式的处理器包括多级存储空间,本实施方式中以三级存储空间为例进行说明,如图2所示为处理器的存储结构示意图。越靠近计算线程Thread的存储空间带宽越高但容量越小,每个Thread有独立的存储空间L1,多个Thread共享上一层的存储空间L2,这样GEMM算子可以获得两个层面的内存复用:(1)单个Thread承担的子任务间分时复用L1中已有的数据;(2)多个Thread同时或分时复用L2中已有的数据,因此通过这些内存复用,可以有效减少L2/L3之间的访存带宽需求。例如,输入矩阵分别为M*K和K*N,将输入矩阵进行切分后通过L2层加载到L1层,并在L1层进行点乘运算,而通过数据复用则可以显著减少L2和L3之间的数据加载量,并且在L1层计算完成后则可以通过L2层将切分计算的结果回写到L3层,从而获取M*N矩阵,因此切分方式是显著影响计算资源的消耗的。
其中,本实施方式中的运行时参数包括:a物理线程数目、b线程内乘加单元数目、c线程运行频率、d线程内寄存器容量、e最内层存储器的容量、f中间层存储器容量和g最外层存储器实际带宽,当然,本实施方式中仅是举例说明,而并不对运行时参数的具体内容进行限定。
步骤S102,根据运行时参数构建屋顶线性能模型。
可选的,根据运行时参数构建屋顶线性能模型,包括:根据物理线程数目、线程内乘加单元数目和线程运行频率的乘积结果获取处理器的总算力;根据处理器的总算力和最外层存储器实际带宽的比值获取处理器的最大计算强度;根据最外层存储器实际带宽确定曲线斜率,根据最大计算强度确定曲线拐点,根据处理器的总算力确定平台最大算力;根据曲线斜率、曲线拐点和平台最大算力构建出表征计算强度和可用算力对应关系的曲线,并将曲线作为屋顶线性能模型。
具体的说,本实施方式中会首先根据运行时参数构建出屋顶线性能模型,如图3所示为所构建的屋顶线性能模型的示意图,其中,在屋顶线性能模型中包括计算强度和可用算力的对应关系。而具体构建方式为根据参数{a物理线程数目,b线程内乘加单元数目,c线程运行频率}计算出AI处理器的总算力FLOPS_total,关于具体的计算原理并不是本申请的重点,因此本实施方式中不再进行赘述。根据AI处理器的总算力FLOPS_total和g最外层存储器实际带宽,例如,本实例中L3存储器实际带宽进行计算,可以获取到最大计算密度Imax,并将所获取的最大计算密度Imax作为处理器的最大计算强度,如最大计算强度=FLOPS_total/L3存储器实际带宽。当然,本实施方式中仅是举例说明,而并不对最大计算强度的具体计算方式进行限定。本实施方式中会将L3存储器实际带宽作为曲线斜率,如图3中的从原点作为起点的斜线的斜率;根据最大计算强度确定曲线拐点,如图3中的斜线转变成水平线的拐点的横坐标即为最大计算强度,根据处理器的总算力FLOPS_total确定平台最大算力,如图3中的水平线的纵坐标值即为平台最大算力,通过图3所构建的屋顶线性能模型即可确定出计算强度I和可用算力P的对应关系。
步骤S103,根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,并根据切分参数集合构建针对目标算子的切分方式集合。
可选的,根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,包括:根据物理线程数目构建计算单元二维排布约束条件,并根据计算单元二维排布约束条件确定计算单元二维排布参数集合;根据线程内寄存器容量构建线程内子线程二维排布约束条件,并根据线程内子线程二维排布约束条件确定线程内子线程二维排布参数集合;根据最内层存储器的容量构建子线程的单次运算数据大小约束条件,并根据子线程的单次运算数据大小约束条件确定子线程的单次运算数据大小参数集合;根据中间层存储器容量构建计算单元的单次运算数据大小约束条件,并根据计算单元的单次运算数据大小约束条件确定计算单元的单次运算数据大小参数集合。
可选的,根据切分参数集合构建针对目标算子的切分方式集合,包括:将计算单元二维排布参数集合、线程内子线程二维排布参数集合、子线程的单次运算数据大小参数集合和计算单元的单次运算数据大小参数集合中的参数进行组合获取多种切分方式;根据所获取的多种切分方式构建针对目标算子的切分方式集合。
具体的说,如图4是对算子的输出矩阵进行切分的示意图,并且具体采用的是三级棋盘式切分方式。本实施方式中根据物理线程数目构建计算单元二维排布约束条件:Block_X * Block_Y ≤ 物理线程数目,其中,Block_X 和 Block_Y 分别是计算单元的横向数量和纵向数量,即限定在一次计算过程中,计算单元所使用的计算资源不能超过处理器所拥有的全部物理线程数目,采用上述约束条件可以确定出计算单元二维排布参数集合A={Block_X,Block_Y};本实施方式中根据线程内寄存器容量构建线程内子线程二维排布约束条件:Thread_X * Thread_Y * sub_thread中寄存器占用量≤线程内寄存器容量,其中,Thread_X 和 Thread_Y 分别是线程内的子线程横向数量和纵向数量,即限定在一个线程计算内所使用的计算资源不能超过线程内寄存器的总数量,采用上述约束条件可以确定出线程内子线程二维排布参数集合B={Thread_X, Thread_Y};本实施方式中根据最内层存储器的容量,例如,L1存储器容量构建子线程的单次运算数据大小约束条件:sub_thread的L1切片大小≤L1存储器容量,即限定子线程的单次运算数据大小不能超过最内层L1的存储器的容量,采用上述约束条件可以确定出子线程的单次运算数据大小参数集合C={L1切片大小};本实施方式中根据中间层存储器容量,例如,L2的存储器容量构建计算单元的单次运算数据大小约束条件:Block的L2 切片大小 ≤ L2 存储器容量,即限定计算单元的单次运算数据大小不能超过中间层l2的存储器的容量,采用上述约束条件可以确定出计算单元的单次运算数据大小参数集合D={L2切片大小}。
需要说明的是,本实施方式中在获取到上述各切分参数集合A、B、C和D之后,可以对各切分参数集合中的参数进行组合,以获取多种切分方式,例如,A={a1 a2},B={b1 b2}、C={c1 c2}和D={d1 d2},则将上述切分参数集合中的参数进行组合可以获取切分方式1:a1b1 c1 d1,切分方式2:a1b2 c1d1,切分方式3:a1 b2 c1 d2.....切分方式n:a2 b2 c2 d2等多种切分方式,并且每个切方方式中分别包含了不同的计算单元二维排布参数、线程内子线程二维排布参数、子线程的单次运算数据大小参数以及计算单元的单次运算数据大小参数等,当然,本实施方式中仅是举例说明,而并不对每种切分方式中所包含的切分参数的具体内容进行限定。
步骤S104,基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,并根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式。
可选的,基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,包括:获取目标算子所对应的输入矩阵的张量参数,并根据张量参数确定目标算子的总浮点运算数;获取各切分方式所对应的最外层存储器访存量和中间层存储器访存量,并根据总浮点运算数和最外层存储器访存量的比值确定各切分方式的计算强度,将计算强度代入屋顶线性能模型获取各切分方式所对应的最大可用算力;获取各切分方式所对应的实际运算矩阵区域以及目标运算矩阵区域,将目标运算矩阵区域与实际运算矩阵区域的比值作为有效区域占比;获取各切分方式第一次加载数据所对应的加载量,并根据加载量确定首笔数据的加载开销,获取各切分方式最后一次回写数据所对应的回写量,并根据回写量确定末笔数据的回写开销;将各切分方式所对应的最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销和末笔数据的回写开销作为静态切分特征。
具体的说,本实施方式中在获取到切分方式集合之后,还会获取各切分方式的静态切分特征,并根据静态切分特征从切分方式集合中筛选出与所加载的目标算子匹配的目标切分方式,并将所获取的目标切分方式作为最优的切分方式。其中,所获取的各切分方式所对应的静态切分特征分别包括:最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销和末笔数据的回写开销等,当然,本实施方式中仅是举例说明,而并不对各切分方式所对应的静态切分特征的具体类型进行限定,下面则对每种静态切分特征的具体获取方式进行具体说明:
一、中间层存储器访存量,即L2访存量,指的是图2中L2与所有L1之间的连线上所有的数据搬运量。
二、最外层存储器访存量,即L3访存量,指图2中L3与L2之间的连线上所有的数据搬运量,因此根据L2访存量和L3访存量可知,切分方式的确定就是需要确定出要搬取两个输入矩阵上的哪一小块,而且计算过程会涉及到数据复用,例如先算x1 * y1, 再算x1 *y2时x1就不需要再搬运了,用上次已经搬进来的就好,从而实现数据的复用,减少了数据的访存量。
三、最大可用算力,用符号Attainable FLOPS表示,具体是通过获取目标算子所对应的输入矩阵的张量参数,例如算子所对应的两个输入矩阵分别为M*K和K*N,则将M、K和N作为输入矩阵的张量参数,则GEMM算子的总浮点运算数=M * N * K * 2。将总浮点运算数与最外层存储器访存量的比值,即M * N* K * 2/L3访存量作为该切分方式下的计算强度I,然后将I代入屋顶线性能模型,将计算强度I所所对应的纵坐标值作为最大可用算力Attainable FLOPS。
四、有效区域占比,指的是该切分方式下的目标运算矩阵区域与实际运算区域的比值。GEMM的M/N/K可能会很大,而计算单元和线程的数目一般都有限,所以计算单元每次只能算总的矩阵中的一块区域,算完之后再算下一块,这样循环好多次。由于M和N并不能总是可以与Block的宽高进行整除,所以到达矩阵的边界时就会出现这个Block里有1部分thread没有实际的计算任务,从而空闲下来造成计算资源的浪费。
例如,图5是确定有效区域占比的示意图,Thread按照2* 3排布时,有效区域即目标运算矩阵区域就是output输出矩阵的面积,即图5中的5*3=15,总区域就是实际运算矩阵区域就是block多次循环所实际覆盖的区域,包括灰色区域,即图5中的6*3=18,从而可以获取上图中的有效区域占比=15/18。当然,本实施方式中仅是举例说明,而并不对有效区域占比的具体计算方式进行限定。
五、首笔数据的加载开销和末笔数据的回写开销:图6是算子的运算过程示意图,因此算子的计算过程包括加载、计算和回写结果三个步骤,并且上述三个步骤可以并行执行,加载步骤中的加载1作为首笔数据的加载开销,必须等它完成后才能进行步骤二计算中的计算1。回写结果步骤中的回写结果5作为末笔数据的回写开销,它必须等计算5结束后才能开始,因此加载1 +所有的计算+回写5,可以构成完整的GEMM算子运算过程,因此加载1+回写5越小越好。
可选的,根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式,包括:确定各静态切分特征所对应的等级;按照各静态切分特征的等级对各切分方式进行多级排序获取切分方式序列;将切分方式序列中的首个切分方式作为与目标算子匹配的目标切分方式。
本实施方式中通过处理器的运行时参数实时确定出切分方式集合,并根据屋顶线性能模型从切分方式集合中准确筛选出与目标算子匹配的目标切分方式,从而在按照所确定的目标切分方式进行算子切分时,能够保证计算资源得到充分地应用,避免了计算资源的浪费。
实施例二
图7是本发明实施例二提供的一种算子的切分方式确定方法的流程图,本实施例以上述实施例为基础,对根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式进行具体说明。如图7所示,该方法包括:
步骤S201,获取加载目标算子的处理器的运行时参数。
其中,本实施方式中的运行时参数包括:a物理线程数目、b线程内乘加单元数目、c线程运行频率、d线程内寄存器容量、e最内层存储器的容量、f中间层存储器容量和g最外层存储器实际带宽,当然,本实施方式中仅是举例说明,而并不对运行时参数的具体内容进行限定。
步骤S202,根据运行时参数构建屋顶线性能模型。
可选的,根据运行时参数构建屋顶线性能模型,包括:根据物理线程数目、线程内乘加单元数目和线程运行频率的乘积结果获取处理器的总算力;根据处理器的总算力和最外层存储器实际带宽的比值获取处理器的最大计算强度;根据最外层存储器实际带宽确定曲线斜率,根据最大计算强度确定曲线拐点,根据处理器的总算力确定平台最大算力;根据曲线斜率、曲线拐点和平台最大算力构建出表征计算强度和可用算力对应关系的曲线,并将曲线作为屋顶线性能模型。
步骤S203,根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,并根据切分参数集合构建针对目标算子的切分方式集合。
可选的,根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,包括:根据物理线程数目构建计算单元二维排布约束条件,并根据计算单元二维排布约束条件确定计算单元二维排布参数集合;根据线程内寄存器容量构建线程内子线程二维排布约束条件,并根据线程内子线程二维排布约束条件确定线程内子线程二维排布参数集合;根据最内层存储器的容量构建子线程的单次运算数据大小约束条件,并根据子线程的单次运算数据大小约束条件确定子线程的单次运算数据大小参数集合;根据中间层存储器容量构建计算单元的单次运算数据大小约束条件,并根据计算单元的单次运算数据大小约束条件确定计算单元的单次运算数据大小参数集合。
可选的,根据切分参数集合构建针对目标算子的切分方式集合,包括:将计算单元二维排布参数集合、线程内子线程二维排布参数集合、子线程的单次运算数据大小参数集合和计算单元的单次运算数据大小参数集合中的参数进行组合获取多种切分方式;根据所获取的多种切分方式构建针对目标算子的切分方式集合。
步骤S204,基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征。
可选的,基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,包括:获取目标算子所对应的输入矩阵的张量参数,并根据张量参数确定目标算子的总浮点运算数;获取各切分方式所对应的最外层存储器访存量和中间层存储器访存量,并根据总浮点运算数和最外层存储器访存量的比值确定各切分方式的计算强度,将计算强度代入屋顶线性能模型获取各切分方式所对应的最大可用算力;获取各切分方式所对应的实际运算矩阵区域以及目标运算矩阵区域,将目标运算矩阵区域与实际运算矩阵区域的比值作为有效区域占比;获取各切分方式第一次加载数据所对应的加载量,并根据加载量确定首笔数据的加载开销,获取各切分方式最后一次回写数据所对应的回写量,并根据回写量确定末笔数据的回写开销;将各切分方式所对应的最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销和末笔数据的回写开销作为静态切分特征。
步骤S205,确定各静态切分特征所对应的等级。
具体的说,本实施方式中在获取到各切分方式所对应的静态切分特征:最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销和末笔数据的回写开销之后,会确定各静态切分特征的等级,例如上述各静态切分特征按照等级由高到低的顺序进行排列分别是:最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销、末笔数据的回写开销,当然,本实施方式中并不对各静态切分特征的具体等级大小进行限定。
步骤S206,按照各静态切分特征的等级对各切分方式进行多级排序获取切分方式序列。
其中,当切分方式集合中包括切分方式1、切分方式2、切分方式3、切分方式4和切分方式5,并且各切分方式的静态切分特征都已经的情况下,则按照上述所确定的各静态切分特征所对应的等级对上述各切分方式进行排序,例如,各静态切分特征按照等级由高到低的顺序进行排列分别是:最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销、末笔数据的回写开销时,则首先按照最大可用算力又大到小的顺序对上述切分方式进行排序,获取到切分方式序列:切分方式1、切分方式3、{切分方式2、切分方式4和切分方式5},其中,{切分方式2、切分方式4和切分方式5}的最大可用算力是相同的,此时则按照下一等级的静态切分特征,即最外层存储器访存量对上述切分方式序列进行二次排序,获取切分方式序列:切分方式1、切分方式3、切分方式4、{切分方式2和切分方式5},当切分方式2和切分方式5在最外层存储器访存量也相同的情况下,则继续按照后续等级的静态切分特征中间层存储器访存量有效区域占比、首笔数据的加载开销、末笔数据的回写开销分别进行排序,所获取的最终切分方式序列为:切分方式1、切分方式3、切分方式4、切分方式5、切分方式2,当然,本实施方式中仅是举例说明,而并不对所获取的切分方式序列的具体内容进行限定。
步骤S207,将切分方式序列中的首个切分方式作为与目标算子匹配的目标切分方式。
其中,在获取到切分方式序列:切分方式1、切分方式3、切分方式4、切分方式5、切分方式2之后,由于上述各切分方式序列是按照各切分方式的静态切分特征等级所确定出来的,因此位于首位的切分方式是与目标算子最匹配的切分方式,因此将切分方式序列中的首个切分方式,即切分方式1作为与目标算子匹配的目标切分方式,当然,本实施方式中仅是举例说明,而并不对目标切分方式的具体确定方式进行限定。
本实施方式中通过处理器的运行时参数实时确定出切分方式集合,并根据屋顶线性能模型从切分方式集合中准确筛选出与目标算子匹配的目标切分方式,从而在按照所确定的目标切分方式进行算子切分时,能够保证计算资源得到充分地应用,避免了计算资源的浪费。
实施例三
图8为本发明实施例三提供的一种算子的切分方式确定装置的结构示意图。如图3所示,该装置包括:运行时参数获取模块310、屋顶线性能模型构建模块320、切分方式集合构建模块330和切分方式确定模块340。
运行时参数获取模块310,用于获取加载目标算子的处理器的运行时参数,其中,处理器包括多级存储空间;
屋顶线性能模型构建模块320,用于根据运行时参数构建屋顶线性能模型,其中,屋顶线性能模型中包括计算强度和可用算力的对应关系;
切分方式集合构建模块330,用于根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,并根据切分参数集合构建针对目标算子的切分方式集合;
切分方式确定模块340,用于基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,并根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式。
可选的,运行时参数包括:物理线程数目、线程内乘加单元数目、线程运行频率、线程内寄存器容量、最内层存储器的容量、中间层存储器容量和最外层存储器实际带宽。
可选的,屋顶线性能模型构建模块,用于根据物理线程数目、线程内乘加单元数目和线程运行频率的乘积结果获取处理器的总算力;
根据处理器的总算力和最外层存储器实际带宽的比值获取处理器的最大计算强度;
根据最外层存储器实际带宽确定曲线斜率,根据最大计算强度确定曲线拐点,根据处理器的总算力确定平台最大算力;
根据曲线斜率、曲线拐点和平台最大算力构建出表征计算强度和可用算力对应关系的曲线,并将曲线作为屋顶线性能模型。
可选的,切分方式集合构建模块包括切分参数集合确定单元,用于根据物理线程数目构建计算单元二维排布约束条件,并根据计算单元二维排布约束条件确定计算单元二维排布参数集合;
根据线程内寄存器容量构建线程内子线程二维排布约束条件,并根据线程内子线程二维排布约束条件确定线程内子线程二维排布参数集合;
根据最内层存储器的容量构建子线程的单次运算数据大小约束条件,并根据子线程的单次运算数据大小约束条件确定子线程的单次运算数据大小参数集合;
根据中间层存储器容量构建计算单元的单次运算数据大小约束条件,并根据计算单元的单次运算数据大小约束条件确定计算单元的单次运算数据大小参数集合。
可选的,切分方式集合构建模块包括切分方式集合构建单元,用于将计算单元二维排布参数集合、线程内子线程二维排布参数集合、子线程的单次运算数据大小参数集合和计算单元的单次运算数据大小参数集合中的参数进行组合获取多种切分方式;
根据所获取的多种切分方式构建针对目标算子的切分方式集合。
可选的,切分方式确定模块包括静态切分特征确定单元,用于获取目标算子所对应的输入矩阵的张量参数,并根据张量参数确定目标算子的总浮点运算数;
获取各切分方式所对应的最外层存储器访存量和中间层存储器访存量,并根据总浮点运算数和最外层存储器访存量的比值确定各切分方式的计算强度,将计算强度代入屋顶线性能模型获取各切分方式所对应的最大可用算力;
获取各切分方式所对应的实际运算矩阵区域以及目标运算矩阵区域,将目标运算矩阵区域与实际运算矩阵区域的比值作为有效区域占比;
获取各切分方式第一次加载数据所对应的加载量,并根据加载量确定首笔数据的加载开销,获取各切分方式最后一次回写数据所对应的回写量,并根据回写量确定末笔数据的回写开销;
将各切分方式所对应的最大可用算力、最外层存储器访存量、中间层存储器访存量、有效区域占比、首笔数据的加载开销和末笔数据的回写开销作为静态切分特征。
可选的,切分方式确定模块包括切分方式确定单元,用于确定各静态切分特征所对应的等级;
按照各静态切分特征的等级对各切分方式进行多级排序获取切分方式序列;
将切分方式序列中的首个切分方式作为与目标算子匹配的目标切分方式。
本发明实施例所提供的一种算子的切分方式确定装置可执行本发明任意实施例所提供的一种算子的切分方式确定方法,具备执行方法相应的功能模块和有益效果。
实施例四
图9为本发明实施例六提供的一种计算机设备的结构示意图,如图9所示,该计算机设备包括处理器610、存储器620、输入装置630和输出装置640;计算机设备中处理器610的数量可以是一个或多个,图6中以一个处理器610为例;计算机设备中的处理器610、存储器620、输入装置630和输出装置640可以通过总线或其他方式连接,图9中以通过总线连接为例。
存储器620作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的算子的切分方式确定方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的算子的切分方式确定方法。
算子的切分方式确定方法,包括:
获取加载目标算子的处理器的运行时参数,其中,处理器包括多级存储空间;
根据运行时参数构建屋顶线性能模型,其中,屋顶线性能模型中包括计算强度和可用算力的对应关系;
根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,并根据切分参数集合构建针对目标算子的切分方式集合;
基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,并根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式。
存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器620可进一步包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置640可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种算子的切分方式确定方法;
算子的切分方式确定方法,包括:
获取加载目标算子的处理器的运行时参数,其中,处理器包括多级存储空间;
根据运行时参数构建屋顶线性能模型,其中,屋顶线性能模型中包括计算强度和可用算力的对应关系;
根据运行时参数所构建的切分约束条件确定出目标算子的切分参数集合,并根据切分参数集合构建针对目标算子的切分方式集合;
基于屋顶线性能模型获取切分方式中各切分方式的静态切分特征,并根据静态切分特征从切分方式集合中筛选出与目标算子匹配的目标切分方式。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的循环神经网络的参数量化方法或者量化网络中的推断方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
值得注意的是,上述算子的切分方式确定方法装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种算子的切分方式确定方法,其特征在于,包括:
获取加载目标算子的处理器的运行时参数,其中,所述处理器包括多级存储空间;
根据所述运行时参数构建屋顶线性能模型,其中,所述屋顶线性能模型中包括计算强度和可用算力的对应关系;
根据所述运行时参数所构建的切分约束条件确定出所述目标算子的切分参数集合,并根据所述切分参数集合构建针对所述目标算子的切分方式集合;
基于所述屋顶线性能模型获取所述切分方式集合中各切分方式的静态切分特征,并根据所述静态切分特征从所述切分方式集合中筛选出与所述目标算子匹配的目标切分方式。
2.根据权利要求1所述的方法,其特征在于,所述运行时参数包括:物理线程数目、线程内乘加单元数目、线程运行频率、线程内寄存器容量、最内层存储器的容量、中间层存储器容量和最外层存储器实际带宽。
3.根据权利要求2所述的方法,其特征在于,所述根据所述运行时参数构建屋顶线性能模型,包括:
根据所述物理线程数目、所述线程内乘加单元数目和所述线程运行频率的乘积结果获取所述处理器的总算力;
根据所述处理器的总算力和所述最外层存储器实际带宽的比值获取所述处理器的最大计算强度;
根据所述最外层存储器实际带宽确定曲线斜率,根据所述最大计算强度确定曲线拐点,根据所述处理器的总算力确定平台最大算力;
根据所述曲线斜率、所述曲线拐点和所述平台最大算力构建出表征计算强度和可用算力对应关系的曲线,并将所述曲线作为所述屋顶线性能模型。
4.根据权利要求2所述的方法,其特征在于,所述根据所述运行时参数所构建的切分约束条件确定出所述目标算子的切分参数集合,包括:
根据所述物理线程数目构建计算单元二维排布约束条件,并根据所述计算单元二维排布约束条件确定计算单元二维排布参数集合;
根据所述线程内寄存器容量构建线程内子线程二维排布约束条件,并根据所述线程内子线程二维排布约束条件确定线程内子线程二维排布参数集合;
根据所述最内层存储器的容量构建子线程的单次运算数据大小约束条件,并根据所述子线程的单次运算数据大小约束条件确定子线程的单次运算数据大小参数集合;
根据所述中间层存储器容量构建计算单元的单次运算数据大小约束条件,并根据所述计算单元的单次运算数据大小约束条件确定计算单元的单次运算数据大小参数集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述切分参数集合构建针对所述目标算子的切分方式集合,包括:
将所述计算单元二维排布参数集合、所述线程内子线程二维排布参数集合、所述子线程的单次运算数据大小参数集合和所述计算单元的单次运算数据大小参数集合中的参数进行组合获取多种切分方式;
根据所获取的多种所述切分方式构建针对所述目标算子的所述切分方式集合。
6.根据权利要求1所述的方法,其特征在于,所述基于所述屋顶线性能模型获取所述切分方式集合中各切分方式的静态切分特征,包括:
获取所述目标算子所对应的输入矩阵的张量参数,并根据所述张量参数确定所述目标算子的总浮点运算数;
获取各切分方式所对应的最外层存储器访存量和中间层存储器访存量,并根据所述总浮点运算数和所述最外层存储器访存量的比值确定各切分方式的计算强度,将所述计算强度代入所述屋顶线性能模型获取各切分方式所对应的最大可用算力;
获取各切分方式所对应的实际运算矩阵区域以及目标运算矩阵区域,将所述目标运算矩阵区域与所述实际运算矩阵区域的比值作为有效区域占比;
获取各切分方式第一次加载数据所对应的加载量,并根据所述加载量确定首笔数据的加载开销,获取各切分方式最后一次回写数据所对应的回写量,并根据所述回写量确定末笔数据的回写开销;
将各所述切分方式所对应的所述最大可用算力、所述最外层存储器访存量、所述中间层存储器访存量、所述有效区域占比、所述首笔数据的加载开销和所述末笔数据的回写开销作为所述静态切分特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述静态切分特征从所述切分方式集合中筛选出与所述目标算子匹配的目标切分方式,包括:
确定各所述静态切分特征所对应的等级;
按照各所述静态切分特征的等级对各所述切分方式进行多级排序获取切分方式序列;
将所述切分方式序列中的首个切分方式作为与所述目标算子匹配的目标切分方式。
8.一种算子的切分方式确定装置,其特征在于,包括:
运行时参数获取模块,用于获取加载目标算子的处理器的运行时参数,其中,所述处理器包括多级存储空间;
屋顶线性能模型构建模块,用于根据所述运行时参数构建屋顶线性能模型,其中,所述屋顶线性能模型中包括计算强度和可用算力的对应关系;
切分方式集合构建模块,用于根据所述运行时参数所构建的切分约束条件确定出所述目标算子的切分参数集合,并根据所述切分参数集合构建针对所述目标算子的切分方式集合;
切分方式确定模块,用于基于所述屋顶线性能模型获取所述切分方式中各切分方式的静态切分特征,并根据所述静态切分特征从所述切分方式集合中筛选出与所述目标算子匹配的目标切分方式。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可执行指令的存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述方法。
CN202410217894.3A 2024-02-28 2024-02-28 一种算子的切分方式确定方法、装置、设备及介质 Active CN117785492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410217894.3A CN117785492B (zh) 2024-02-28 2024-02-28 一种算子的切分方式确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410217894.3A CN117785492B (zh) 2024-02-28 2024-02-28 一种算子的切分方式确定方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117785492A CN117785492A (zh) 2024-03-29
CN117785492B true CN117785492B (zh) 2024-05-17

Family

ID=90383760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410217894.3A Active CN117785492B (zh) 2024-02-28 2024-02-28 一种算子的切分方式确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117785492B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796917A (zh) * 2019-04-09 2020-10-20 华为技术有限公司 算子运算调度方法和装置
CN113495980A (zh) * 2021-05-20 2021-10-12 清华大学 一种静态子图切分方法及系统
WO2021244045A1 (zh) * 2020-05-30 2021-12-09 华为技术有限公司 一种神经网络的数据处理方法及装置
CN114841327A (zh) * 2022-05-27 2022-08-02 北京字节跳动网络技术有限公司 计算图的处理方法、装置、可读介质及电子设备
CN115759241A (zh) * 2022-11-08 2023-03-07 瀚博半导体(上海)有限公司 一种基于遗传算法的神经网络切分方法及系统
CN115904539A (zh) * 2022-11-29 2023-04-04 上海燧原科技有限公司 一种切分策略的在线生成方法、装置、设备及存储介质
CN116662509A (zh) * 2023-06-09 2023-08-29 太初(无锡)电子科技有限公司 大规模语言模型的开放域问答实现方法、装置及设备
CN116701143A (zh) * 2023-06-07 2023-09-05 摩尔线程智能科技(北京)有限责任公司 性能分析方法、装置、系统、计算设备及存储介质
CN116842307A (zh) * 2023-08-28 2023-10-03 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、芯片及存储介质
CN117032938A (zh) * 2023-10-08 2023-11-10 北京燧原智能科技有限公司 一种算子的并行调度方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689121A (zh) * 2019-09-24 2020-01-14 上海寒武纪信息科技有限公司 一种用多核处理器实现神经网络模型拆分方法及相关产品

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111796917A (zh) * 2019-04-09 2020-10-20 华为技术有限公司 算子运算调度方法和装置
WO2021244045A1 (zh) * 2020-05-30 2021-12-09 华为技术有限公司 一种神经网络的数据处理方法及装置
CN113495980A (zh) * 2021-05-20 2021-10-12 清华大学 一种静态子图切分方法及系统
CN114841327A (zh) * 2022-05-27 2022-08-02 北京字节跳动网络技术有限公司 计算图的处理方法、装置、可读介质及电子设备
CN115759241A (zh) * 2022-11-08 2023-03-07 瀚博半导体(上海)有限公司 一种基于遗传算法的神经网络切分方法及系统
CN115904539A (zh) * 2022-11-29 2023-04-04 上海燧原科技有限公司 一种切分策略的在线生成方法、装置、设备及存储介质
CN116701143A (zh) * 2023-06-07 2023-09-05 摩尔线程智能科技(北京)有限责任公司 性能分析方法、装置、系统、计算设备及存储介质
CN116662509A (zh) * 2023-06-09 2023-08-29 太初(无锡)电子科技有限公司 大规模语言模型的开放域问答实现方法、装置及设备
CN116842307A (zh) * 2023-08-28 2023-10-03 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、芯片及存储介质
CN117032938A (zh) * 2023-10-08 2023-11-10 北京燧原智能科技有限公司 一种算子的并行调度方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Spaghetti:Streaming accelerators for highly sparse gemm on fpgas;R Hojabr 等;IEEE;20211231;第84-96页 *
基于多源数据的拼接型房屋三维重建方法研究;刘亚文 等;武汉大学学报(信息科学版);20110705(第07期);第780-784页 *

Also Published As

Publication number Publication date
CN117785492A (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN108205701B (zh) 一种执行卷积计算的系统及方法
CN107451659B (zh) 用于位宽分区的神经网络加速器及其实现方法
US20200257968A1 (en) Self-learning scheduler for application orchestration on shared compute cluster
US11847553B2 (en) Parallel computational architecture with reconfigurable core-level and vector-level parallelism
CN115880132B (zh) 图形处理器、矩阵乘法任务处理方法、装置及存储介质
CN109657794B (zh) 一种基于指令队列的分布式深度神经网络性能建模方法
CN113886080A (zh) 高性能集群任务调度方法、装置、电子设备及存储介质
CN115860066A (zh) 一种基于批处理的神经网络推理流水线复用的方法
CN113163004B (zh) 一种工业互联网边缘任务卸载决策方法、装置及存储介质
CN111767023A (zh) 数据排序方法和数据排序系统
CN116501505B (zh) 负载任务的数据流生成方法、装置、设备及介质
CN117785492B (zh) 一种算子的切分方式确定方法、装置、设备及介质
CN113205128A (zh) 基于无服务器计算的分布式深度学习性能保证方法
CN116991560A (zh) 针对语言模型的并行调度方法、装置、设备及存储介质
CN111027669A (zh) 在现场可编程门阵列上实现深度神经网络的方法及装置
CN104933110A (zh) 一种基于MapReduce的数据预取方法
CN113553031B (zh) 软件定义变结构计算架构及利用其实现的左右脑一体化资源联合分配方法
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN114490002A (zh) 数据处理系统、任务调度方法、装置、芯片、及电子设备
CN115130672A (zh) 一种软硬件协同优化卷积神经网络计算的方法及装置
CN109901931B (zh) 一种归约函数数量确定方法、装置及系统
CN112463377B (zh) 异构计算系统执行计算任务的方法及装置
KR102330171B1 (ko) 주성분분석제어장치 및 그 동작 방법
CN117217310A (zh) 数据处理方法、装置、计算机可读存储介质及计算机设备
CN116542313A (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant