CN116451174A

CN116451174A - 任务执行装置、方法、电子设备和存储介质

Info

Publication number: CN116451174A
Application number: CN202310409429.5A
Authority: CN
Inventors: 薄孟宇
Original assignee: Kunlun Core Beijing Technology Co ltd
Current assignee: Kunlun Core Beijing Technology Co ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-18

Abstract

本公开提供了一种任务执行装置，涉及人工智能技术领域，尤其涉及芯片技术领域和集成电路技术领域。该装置包括：缓存单元；以及处理器，配置为：获取用于目标任务的算子信息集合，其中，算子信息集合包括多个算子信息，多个算子信息分别表征了要顺序执行的多个算子；从多个算子中确定至少一个连续算子组，其中，连续算子组包括至少两个连续算子，连续算子组中任一算子的输出张量的规模大于或等于预设规模阈值；将至少一个连续算子组分别融合，得到至少一个融合算子；响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据；以及利用待处理数据，执行目标任务。本公开还提供了一种任务执行方法、设备和介质。

Description

任务执行装置、方法、电子设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及芯片技术领域和集成电路技术领域。更具体地，本公开提供了一种任务执行装置、方法、电子设备和存储介质。

背景技术

随着人工智能技术的发展，深度学习模型的一些算子涉及的数据量越来越大。

发明内容

本公开提供了一种数据处理装置、方法、设备以及存储介质。

根据本公开的一方面，提供了一种任务执行装置，该装置包括：缓存单元；以及处理器，配置为：获取用于目标任务的算子信息集合，其中，算子信息集合包括多个算子信息，多个算子信息分别表征了要顺序执行的多个算子；从多个算子中确定至少一个连续算子组，其中，连续算子组包括至少两个连续算子，连续算子组中任一算子的输出张量的规模大于或等于预设规模阈值；将至少一个连续算子组分别融合，得到至少一个融合算子；响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据；以及利用待处理数据，执行目标任务。

根据本公开的另一方面，提供了一种任务执行方法，该方法包括：获取用于目标任务的算子信息集合，其中，算子信息集合包括多个算子信息，多个算子信息分别表征了要顺序执行的多个算子；从多个算子中确定至少一个连续算子组，其中，连续算子组包括至少两个连续算子，连续算子组中任一算子的输出张量的规模大于或等于预设规模阈值；将至少一个连续算子组分别融合，得到至少一个融合算子；响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据；以及利用待处理数据，执行目标任务。

根据本公开的另一方面，提供了一种集成电路芯片，包括本公开提供的任务执行装置。

根据本公开的另一方面，提供了一种电子设备，包括本公开提供的集成电路芯片。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的任务执行装置的示意框图；

图2A是根据本公开的一个实施例的多个算子的示意图；

图2B是根据本公开的一个实施例的融合算子的示意图；

图3是根据本公开的一个实施例的集成电路芯片的示意框图；

图4是根据本公开的一个实施例的集成电路芯片的示意框图；

图5是根据本公开的一个实施例的任务执行方法的流程图；以及

图6是根据本公开的一个实施例的可以应用任务执行方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

人工智能(Artificial Intelligence，AI)芯片可以具有多级存储架构，可以将数据从全局存储(Global Memory，GM)单元搬运到本地存储(Local Memory，LM)单元，以在本地存储单元中处理数据。

在一些实施例中，深度学习模型可以包括多个算子。算子的输入张量的规模可以表示为[n，c，h，w]。以输入张量与图像对应为例，n可以为批处理数目(batchsize)，c可以为通道数目，h可以为图像的高度，w可以为图像的宽度。例如，若图像为RGB图像，n的值可以为1、2、4、6、8、24、32等，c的值可以为3。

在模型推理过程中，算子的输入张量的规模(shape)可以较大。该输入张量的批处理数目较大。输入张量的数据量可能大于人工智能芯片的三级高速缓存(Level 3cache，L3cache)的容量。由此，该输入张量难以全部存储于三级高速缓存中。可以将该输入张量划分为K个输入子张量，K为大于1且小于或等于n的整数。可以将第k个输入子张量存储在三级高速缓存中。该算子利用第k个输入子张量进行数据处理，得到第k个第一输出子张量。第k个第一输出子张量可以存储于三级高速缓存中。接下来，可以将第k个输入子张量和第k个第一输出子张量写入全局存储单元，并从全局存储单元加载第k+1个输入子张量至三级高速缓存。k可以为大于或等于1且小于K的整数。在该算子利用K个输入子张量进行了多次数据处理之后，该算子的运行完成，得到了存储于全局存储单元的K个第一输出子张量。接下来，可以运行该算子的在后算子。在后算子可以将该算子的K个第一输出子张量作为输入。由此，在后算子可以从全局存储单元将K个第一输出子张量多次加载至三级高速缓存。

由此，在算子处理K个输入子张量的过程中，全局存储单元和三级高速缓存之间进行了多次数据加载和存储。大量的数据加载和存储可以增加模型运行的时间成本，导致芯片的性能下降。

为了提高人工智能芯片的性能，本公开提供了一种任务执行装置，下面将进行说明。

图1是根据本公开的一个实施例的任务执行装置的示意框图。

如图1所示，装置100可以包括缓存单元110和处理器120。

缓存单元110，可以为上述的三级高速缓存。

处理器120，可以配置为：获取用于目标任务的算子信息集合。

在本公开实施例中，目标任务可以是图像处理任务。在该图像处理任务中，多个卷积算子可以对图像进行多次卷积。

在本公开实施例中，算子信息集合可以包括多个算子信息。多个算子信息分别表征了要顺序执行的多个算子。例如，多个算子可以包括要顺序执行的多个卷积算子。

处理器120，还可以配置为：从多个算子中确定至少一个连续算子组。例如，连续算子组可以包括至少两个连续算子。连续算子组中任一算子的输出张量的规模可以大于预设规模阈值。不同连续算子组中算子数量可以不同。

处理器120，还可以配置为：将至少一个连续算子组分别融合，得到至少一个融合算子。例如，在至少一个连续算子组中，以第1个连续算子组包括3个连续算子且第2个连续算子组包括4个连续算子为例。可以将第1个连续算子组的3个连续算子融合，得到第1个融合算子。也可以将第2个连续算子组的4个连续算子融合，得到第2个融合算子。

处理器120，还可以配置为：响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据。例如，响应于确定与第1个融合算子相对应的待处理数据被存储至三级缓存单元，可以从三级缓存单元加载该待处理数据。

处理器120，还可以配置为：利用待处理数据，执行目标任务。例如，可以将待处理数据输入融合算子，得到相应的处理结果。待处理数据可以是输入张量的一部分。融合算子可以被多次运行，每次处理输入张量的一部分，得到多个处理结果。多个处理结果可以作为与输入张量对应的输出张量。

通过本公开实施例，将至少两个连续算子融合，可以在融合算子中在前的算子运行结束后，中间结果可以存储于缓存单元，直接被在后的算子使用。节约了该中间结果被写入全局存储的时间和资源消耗，也节约了中间结果从全局存储单元加载到三级缓存单元所需的时间和资源消耗，有助于大幅提高人工智能芯片的数据处理效率和性能。

可以理解，上文对本公开的处理装置进行了说明，下面将结合图2A至图2B对本公开的处理器进行进一步说明。

图2A是根据本公开的一个实施例的多个算子的示意图。

在一些实施例中，处理器可以配置为：获取用于目标任务的算子信息集合。例如，算子信息集合可以包括多个算子信息。多个算子信息中三个算子信息分别表征了如图2A所示的要顺序执行的算子OP210、算子OP220和算子OP230。

在本公开实施例中，算子信息可以包括算子网络图。算子网络图可以指示算子的多个模块。例如，算子OP210可以包括卷积模块211、批归一化(Batch Normalization)模块212和线性整流(Rectified Linear Unit，ReLU)模块213。算子OP220可以包括卷积转置(convtranspose)模块221、相加(Add)模块222、批归一化模块223和线性整流模块224。算子OP230可以包括卷积转置模块231、相加模块232和逻辑回归模块233。可以理解，算子OP210、算子OP220和算子OP230可以作为3个连续算子。

在本公开实施例中，算子网络图还可以指示多个模块之间的关联关系。例如，卷积模块211的输出可以作为批归一化模块212的输入。批归一化模块212的输出可以作为线性整流模块213的输入。

在本公开实施例中，多个算子可以包括卷积算子和卷积转置算子。例如，算子OP210包括卷积模块211，可以作为卷积算子。算子OP220包括卷积转置模块221，可以作为卷积转置算子。算子OP230包括卷积转置模块231，也可以作为卷积转置算子。

在一些实施例中，处理器可以配置为：从多个算子中确定至少一个连续算子组。下面将结合图2A进行进一步说明。

在本公开实施例中，处理器可以配置为：响应于确定当前算子的输出张量的规模大于或等于预设规模阈值，在当前算子的多个在后连续算子中确定输出张量的规模大于或等于预设规模阈值的在后连续算子的第一数目。例如，若算子OP210的输出张量的规模大于预设规模阈值，可以确定算子OP220和算子OP230各自的输出张量的规模是否大于或等于预设规模阈值。若算子OP220和算子OP230的输出张量的规模均大于预设规模阈值且算子OP230的在后算子的规模小于预设规模阈值，可以确定第一数目为2。

在本公开实施例中，处理器可以配置为：根据第一数目和当前算子，确定第二数目。响应于确定第二数目大于或等于预设数目阈值，将当前算子和第一数目个在后连续算子作为连续算子组。例如，预设数目阈值可以为3。如上述，第一数目为2，当前算子的数目是1。由此，第二数目可以为3，与预设数目阈值相等。算子OP210、算子OP220和算子OP230可以作为一个连续算子组。通过本公开实施例，在规模较大的连续算子的数目大于预设数目阈值的情况下，将多个规模较大的连续算子作为连续算子组，可以高效地确定连续算子组。由此，连续算子组中的多个算子融合后可以有效提高模型运行过程中的访存效率。

在一些实施例中，处理器还可以配置为：将至少一个连续算子组分别融合，得到至少一个融合算子。下面将结合图2B进行说明。

图2B是根据本公开的一个实施例的融合算子的示意图。

如图2B所示，可以将如图2A所示的算子OP210、算子OP220和算子OP230融合，得到融合算子OP2123。

在本公开实施例中，处理器还可以配置为：确定至少两个连续算子中输出张量最大的最大张量算子。在本公开实施例中，根据原始批处理数目，对算子的输出张量进行拆分，得到算子的原始批处理数目个第二输出子张量。确定至少两个连续算子中第二输出子张量最大的算子，作为最大张量算子。例如，第二输出子张量对应的批处理数目可以为1。若算子OP210的第二输出子张量的数据量为30兆字节(MByte，MB)，且算子OP220和算子OP230各自的第二输出子张量的数据量均小于30兆字节，算子OP210可以作为最大张量算子。

在本公开实施例中，处理器还可以配置为：根据最大张量算子的输出张量和缓存单元的存储容量，确定目标批处理数目。

例如，处理器还可以配置为：将缓存单元的存储容量相对于最大张量算子的输出张量取模，得到模数。将模数作为目标批处理数目。缓存单元的存储容量可以为64兆字节。将缓存单元的存储容量(64兆字节)相对于最大张量算子的第二输出子张量的数据量(30兆字节)取模，可以得到模数为2。由此，目标批处理数目可以为2。通过本公开实施例，根据最大张量算子的输出张量的数据量和缓存单元的容量确定了目批处理数目，可以提高任务执行装置的稳定性，进而提高相关芯片的性能。

例如，处理器还可以配置为：根据目标批处理数目和融合算子的原始批处理数目，确定融合算子的目标执行次数。原始批处理数目可以为24。将原始批处理数目作为被除数，目标批处理数目作为除数，进行除法运算，可以得到运算结果为12。该运算结果可以作为目标执行次数。

在一些实施例中，处理器还可以配置：响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据。待处理数据可以包括目标批处理数目个融合算子数据。

在本公开实施例中，响应于确定与融合算子相对应的目标批处理数目个融合算子数据被存储至缓存单元，从缓存单元加载目标批处理数目个融合算子数据。例如，目标执行次数可以为M，目标批处理数目可以为I。I可以为大于或等于1的整数。在融合算子的M次执行的第m次执行过程中，在与该融合算子的第m次执行对应的I个融合算子数据被存储入缓存单元之后，可以从缓存单元加载与融合算子的第M次执行对应的I个融合算子数据。m可以为大于或等于1且小于或等于M的整数，M为大于1的整数。在M＝12且I＝2的情况下，以m＝1为示例，在与融合算子OP2123的第1次执行相关的2个融合算子数据被存储入三级高速缓存之后，可以从三级高速缓存加载这2个融合算子数据。

在一些实施例中，处理器还可以配置为：利用待处理数据，执行目标任务。

在本公开实施例中，处理器还可以配置为：按照目标批处理数目，利用融合算子数据，执行目标任务。例如，利用I个融合算子数据，执行目标任务。在m＝1的情况下，可以利用2个融合算子数据，执行目标任务。在完成了目标执行次数(例如12次)之后，可以得到M个执行结果，M个执行结果可以拼接为融合算子OP2123的输出张量。接下来，可以执行融合算子OP2123的在后算子。

可以理解，在将至少一个连续算子组融合之后，可以得到至少一个融合算子。由此，深度学习模型可以包括至少一个融合算子和至少一个原始算子。在融合算子和原始算子均执行完毕之后，可以得到深度学习模型的输出张量。接下来，可以使用另一输入张量，执行相应的目标任务。

在本公开另一些实施例中，响应于确定第二数目小于预设数目阈值，当前算子和第一数目个在后连续算子不作为连续算子组。例如，以预设数目阈值是4为例，在当前算子为算子OP210的情况下，第二数目为3，小于预设数目阈值。在此情况下，算子OP210至算子OP230可以不作为连续算子组。可以确定算子OP230的在后算子的输出张量的规模是否大于或等于预设规模阈值。

在本公开另一些实施例中，若最大张量算子的输出张量的数据量大于缓存单元的存储容量，可以根据最大张量算子的输出张量和全局存储单元的存储容量，确定目标批处理数目。

可以理解，上文对本公开的任务执行装置进行了说明，下面将对包括任务执行装置的集成电路芯片进行说明。

图3是根据本公开的一个实施例的集成电路芯片的示意框图。

如图3所示，集成电路芯片30可以包括任务执行装置300。任务执行装置300可以为上述的装置100。

可以理解，上文对本公开的集成电路芯片进行了说明，下面将对包括集成电路芯片的电子设备进行说明。

图4是根据本公开的一个实施例的集成电路芯片的示意框图。

如图4所示，电子设备4000可以包括集成电路芯片40。集成电路芯片40可以为上述的集成电路芯片30。

可以理解，上文对本公开的包括集成电路芯片的电子设备进行了说明，下面将对本公开的任务执行方法进行说明。

图5是根据本公开的一个实施例的任务执行方法的流程图。

如图5所示，该方法500可以包括操作S510至操作S550。

在操作S510，获取用于目标任务的算子信息集合。

在本公开实施例中，K为大于1的整数。

在操作S520，从多个算子中确定至少一个连续算子组。

在本公开实施例中，连续算子组包括至少两个连续算子，连续算子组中任一算子的输出张量的规模大于或等于预设规模阈值。

在操作S530，将至少一个连续算子组分别融合，得到至少一个融合算子。

在操作S540，响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据。

在操作S550，利用待处理数据，执行目标任务。

可以理解，可以利用上述的处理器120执行方法500。

在一些实施例中，将至少一个连续算子组分别融合，得到至少一个融合算子可以包括：确定至少两个连续算子中输出张量最大的最大张量算子。根据最大张量算子的输出张量和缓存单元的存储容量，确定目标批处理数目。根据目标批处理数目和融合算子的原始批处理数目，确定融合算子的目标执行次数。

在一些实施例中，待处理数据包括目标批处理数目个融合算子数据。响应于确定与融合算子相对应的待处理数据被存储至缓存单元，从缓存单元加载待处理数据可以包括：响应于确定与融合算子相对应的目标批处理数目个融合算子数据被存储至缓存单元，从缓存单元加载目标批处理数目个融合算子数据。

在一些实施例中，利用待处理数据，执行目标任务可以包括：按照目标批处理数目，利用融合算子数据，执行目标任务。

在一些实施例中，根据最大张量算子的输出张量和缓存单元的存储容量，确定目标批处理数目可以包括：将缓存单元的存储容量相对于最大张量算子的输出张量取模，得到模数。将模数作为目标批处理数目。

在一些实施例中，目标执行次数为M，目标批处理数目为I。按照目标批处理数目，利用融合算子数据，执行目标任务可以包括：从缓存单元加载与融合算子的第m次执行对应的I个融合算子数据。例如，m为大于或等于1且小于或等于M的整数，M为大于1的整数。利用I个融合算子数据，执行目标任务，其中，I为大于或等于1的整数。

在一些实施例中，算子信息包括算子网络图。

在一些实施例中，多个算子包括卷积算子和卷积转置算子。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如任务执行方法。例如，在一些实施例中，任务执行方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的任务执行方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行任务执行方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)显示器或者LCD(液晶显示器))；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种任务执行装置，包括：

缓存单元；以及

处理器，配置为：

获取用于目标任务的算子信息集合，其中，所述算子信息集合包括多个算子信息，所述多个算子信息分别表征了要顺序执行的多个算子；

从所述多个算子中确定至少一个连续算子组，其中，所述连续算子组包括至少两个连续算子，所述连续算子组中任一算子的输出张量的规模大于或等于预设规模阈值；

将所述至少一个连续算子组分别融合，得到至少一个融合算子；

响应于确定与所述融合算子相对应的待处理数据被存储至所述缓存单元，从所述缓存单元加载所述待处理数据；以及

利用所述待处理数据，执行所述目标任务。

2.根据权利要求1所述的装置，其中，所述处理器还配置为：

确定所述至少两个连续算子中输出张量最大的最大张量算子；

根据所述最大张量算子的输出张量和所述缓存单元的存储容量，确定目标批处理数目；以及

根据所述目标批处理数目和所述融合算子的原始批处理数目，确定所述融合算子的目标执行次数。

3.根据权利要求2所述的装置，其中，所述待处理数据包括目标批处理数目个融合算子数据，

所述处理器还配置为：

响应于确定与所述融合算子相对应的目标批处理数目个融合算子数据被存储至所述缓存单元，从所述缓存单元加载所述目标批处理数目个融合算子数据；以及

按照所述目标批处理数目，利用所述融合算子数据，执行所述目标任务。

4.根据权利要求2或3所述的装置，其中，所述处理器还被配置为：

将所述缓存单元的存储容量相对于所述最大张量算子的输出张量取模，得到模数；以及

将所述模数作为所述目标批处理数目。

5.根据权利要求4所述的装置，其中，所述目标执行次数为M，所述目标批处理数目为I，所述处理器还配置为：

从所述缓存单元加载与所述融合算子的第m次执行对应的I个融合算子数据，其中，m为大于或等于1且小于或等于M的整数，M为大于1的整数；以及

利用所述I个融合算子数据，执行所述目标任务，其中，I为大于或等于1的整数。

6.根据权利要求1所述的装置，其中，所述算子信息包括算子网络图。

7.根据权利要求1所述的装置，其中，所述多个算子包括卷积算子和卷积转置算子。

8.一种集成电路芯片，包括根据权利要求1至7中任一项所述的任务执行装置。

9.一种电子设备，包括根据权利要求8所述的集成电路芯片。

10.一种任务执行方法，包括：

响应于确定与所述融合算子相对应的待处理数据被存储至缓存单元，从所述缓存单元加载所述待处理数据；以及

利用所述待处理数据，执行所述目标任务。

11.根据权利要求10所述的方法，其中，所述将所述至少一个连续算子组分别融合，得到至少一个融合算子包括：

12.根据权利要求11所述的方法，其中，所述待处理数据包括目标批处理数目个融合算子数据，

所述响应于确定与所述融合算子相对应的待处理数据被存储至缓存单元，从所述缓存单元加载所述待处理数据包括：

响应于确定与融合算子相对应的所述目标批处理数目个融合算子数据被存储至所述缓存单元，从所述缓存单元加载所述目标批处理数目个融合算子数据；

其中，所述利用所述待处理数据，执行目标任务包括：

13.根据权利要求11或12所述的方法，其中，所述根据所述最大张量算子的输出张量和所述缓存单元的存储容量，确定目标批处理数目包括：

将所述模数作为所述目标批处理数目。

14.根据权利要求12所述的方法，其中，所述目标执行次数为M，所述目标批处理数目为I；

所述按照所述目标批处理数目，利用所述融合算子数据，执行所述目标任务包括：

15.根据权利要求10所述的方法，其中，所述算子信息包括算子网络图。

16.根据权利要求10所述的方法，其中，所述多个算子包括卷积算子和卷积转置算子。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求10至16中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求10至16中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求10至16中任一项所述的方法。