CN115858178B - 一种卷积计算中资源共享的方法、装置、介质及设备 - Google Patents

一种卷积计算中资源共享的方法、装置、介质及设备 Download PDF

Info

Publication number
CN115858178B
CN115858178B CN202310139977.0A CN202310139977A CN115858178B CN 115858178 B CN115858178 B CN 115858178B CN 202310139977 A CN202310139977 A CN 202310139977A CN 115858178 B CN115858178 B CN 115858178B
Authority
CN
China
Prior art keywords
subtasks
task
input data
data
dimensions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310139977.0A
Other languages
English (en)
Other versions
CN115858178A (zh
Inventor
赖斯龑
张迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinli Intelligent Technology (Jiangsu) Co.,Ltd.
Original Assignee
Xinli Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinli Intelligent Technology Shanghai Co ltd filed Critical Xinli Intelligent Technology Shanghai Co ltd
Priority to CN202310139977.0A priority Critical patent/CN115858178B/zh
Publication of CN115858178A publication Critical patent/CN115858178A/zh
Application granted granted Critical
Publication of CN115858178B publication Critical patent/CN115858178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开实施例提供的一种基于卷积计算中资源共享的方法、装置、存储介质及电子设备,将任务拆分到不同的处理核中进行卷积计算,降低了对芯片的片内存储空间的消耗,同时,针对不同场景下存在Input Tensor和Weight共享的情况,进一步进行优化,根据不同的共享维度采用对应的拆分方式对输入数据进行拆分,节省处理核的存储空间,提高了数据传输效率,提高了计算单元的并发度,进而提高计算性能。

Description

一种卷积计算中资源共享的方法、装置、介质及设备
技术领域
本公开实施例涉及数据处理领域,具体地涉及一种卷积计算中资源共享的方法、装置、介质及设备。
背景技术
随着人工智能与深度学习技术的不断发展和普及,应用场景的不断增多,输入数据如图像、雷达、音频等,所占用的内存空间越来越大。但是芯片的片内存储空间有限,一个处理核中的缓存体量已难以存放所有数据。由此,如何优化内存的使用已成为亟待解决的问题。
发明内容
针对现有技术存在的上述问题,本发明的目的在于提供一种卷积计算中资源共享的方法、装置、介质及设备,以便于至少部分地解决上述问题。
根据本公开的一个方面,提出一种卷积计算中资源共享的方法,包括:
步骤S1,计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Taskid(X,Y,Z)方式表示计算的切分,
步骤S2:基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
步骤S3:神经网络加速器根据子任务加载所述子数据及权重,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
步骤S4:输出对应的输出子数据。
在一些实施例中,所述多个可执行子任务以轮询的方式发送至多个所述神经网络加速器,每个所述神经网络加速器可处理多组所述子任务。
在一些实施例中,所述神经网络加速器具体为张量处理器。
在一些实施例中,所述子任务具有编号,神经网络加速器基于所述子任务的编号加载对应的输入数据和卷积核,并基于所述子任务的编号输出对应的输出子数据。
在一些实施例中,所述基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,具体为,
对每个输入数据设置对应所述子任务3个维度的Flag(ShardX,SharedY,SharedZ),
当SharedX使能且SharedY,SharedZ不使能时,表示输入数据基于Task的Y,Z维度进行拆分,子任务在X维度上共享,
当SharedY使能且SharedX,SharedZ不使能时,表示输入数据基于Task的X,Z维度进行划分,子任务在Y维度上共享,
当SharedZ使能且SharedX,SharedY不使能时,表示输入数据基于Task的X,Y维度进行划分,子任务在Z维度上共享。
在一些实施例中,SharedX、SharedY或SharedZ任意两个可组合同时使能,或三者同时使能。
在一些实施例中,基于任务的大小对任务的不同维度分配对应的存储资源。
根据本公开的另一个方面,提出一种卷积计算中资源共享的装置,包括:
任务拆分模块,用于将计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Task(X,Y,Z)方式表示计算的切分,
数据拆分模块,用于基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
计算模块,用于神经网络加速器根据子任务加载所述子数据及卷积核,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
输出模块,用于输出对应的输出子数据。
本申请实施例还提供一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的所述计算机程序,执行如上任一实施例所述的卷积计算中资源共享的方法中的步骤。
本公开实施例提供的一种基于卷积计算中资源共享的方法、装置、存储介质及电子设备,将任务拆分到不同的处理核中进行卷积计算,降低了对芯片的片内存储空间的消耗,同时,针对不同场景下存在Input Tensor和Weight共享的情况,进一步进行优化,根据不同的共享维度采用对应的拆分方式对输入数据进行拆分,节省处理核的存储空间,提高了数据传输效率,提高了计算单元的并发度,进而提高计算性能。
附图说明
图1为本申请实施例提供的卷积计算中资源共享的方法示意图。
图2为本申请实施例提供的计算任务切分示意图。
图3为本申请实施例提供的计算任务表达计算的切分示意图。
图4为本申请实施例提供的基于不同共享维度数据拆分示意图。
图5为本申请实施例提供的卷积计算中资源共享的装置示意图。
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示对本发明结构的说明,仅是为了便于描述本发明的简便,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
对于本技术方案中的“第一”和“第二”,仅为对相同或相似结构,或者起相似功能的对应结构的称谓区分,不是对这些结构重要性的排列,也没有排序、或比较大小、或其他含义。
另外,除非另有明确的规定和限定,术语“安装”、“连接”应做广义理解,例如,连接可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个结构内部的连通。对于本领域的普通技术人员而言,可以根据本发明的总体思路,联系本方案上下文具体情况理解上述术语在本发明中的具体含义。
实施例一
具体地,请参阅图1,为本公开提供的一种卷积计算中资源共享的方法,本公开实施例中的所述卷积计算中资源共享的方法,可以用于包括多个神经网络加速器的芯片中,下面方法以多个神经网络加速器中的一个为例进行描述。具体步骤如下:
步骤S1,计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Taskid(X,Y,Z)方式表示计算的切分。
在一些实施例中,神经网络加速器对应于多核处理中的处理核,所述神经网络加速器可以是TPU(tensor processing unit,张量处理器)、NPU(Neural networkProcessing Unit,神经网络处理器)等,如图2所示,为了高效计算,命令处理器(CommandProcessor)将整个计算过程切分(subdivision)成更细粒度的子任务Task,以轮询(Round Robin)的方式下发到神经网络加速器(Neural Network Accelerator)中并行计算,加快计算过程;每个NeuralNetwork Accelerator可处理多组Task。
在一些实施例中,如图3所示,计算任务(Task)以三维坐标Taskid(X,Y,Z)的方式表达计算的切分,Neural Network Accelerator依据Taskid加载输入张量数据(inputtensor)及权重(weight)进行计算,所述计算任务根据不同应用场景设定,所述inputtensor是卷积计算的输入数据,是可以运行在神经网络加速器上的多维数据,所述权重数据为所述卷积运算的权重数据,通常用卷积核表示;表示计算的切分的三维坐标,可以理解为在宽度或高度或深度三个维度(X,Y,Z)方向对计算数据进行切分,并在不同维度进行计算。
计算后依据Taskid将对应的输出子数据(output tensor)输出;根据Task的具体大小TaskSize(w_s, h_s, c_s),示例性的Taskid(0,0,0)资源范围为(0,0,0) ~ (w_s, h_s, c_s);Taskid(1,2,0) 资源范围为 (w_s, 2*h_s,0) ~ (2*w_s, 3*h_s, 0),其中w_s,h_s, c_s均为大于0的自然数。
步骤S2:基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据。
在一些实施例中,所述输入数据可以是不同应用场景的具体数据,输入数据可以是图像、雷达、音频等。
步骤S3:神经网络加速器根据子任务加载所述子数据及权重,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分。
在一些实施例中,在加载过程中,如图4所示,Task之间在不同场景下存在InputTensor和Weight共享的情况。根据共享的具体情况,本公开设置共享掩模(ShareMask),具体地,对于每个输入数据定义了3个Flag(SharedX,SharedY,SharedZ),分别表示输入数据在三个维度(X,Y,Z)上是否为Task之间共享。
示例性的,当SharedX使能且SharedY,SharedZ不使能时,表示数据依据Task的Y,Z维度进行划分,在X维度上共享。每个Task在X维度共享,X维度资源范围为0~w,
当SharedY使能且SharedX,SharedZ不使能时,表示数据依据Task的X,Z维度进行划分,在Y维度上共享。每个Task在Y维度共享,Y维度资源范围为0~h,
当SharedZ使能且SharedX,SharedY不使能时,表示数据依据Task的X,Y维度进行划分,在Z维度上共享。每个Task在Z维度共享,Z维度资源范围为0~c。其中,w、h、c均为大于0的自然数。
可以理解的是,SharedX,SharedY,SharedZ之间可以任意进行使能组合,例如SharedX和SharedY同时使能或SharedX、SharedY和SharedZ三者同时使能。
在不同维度共享时,不同task所需要的对应资源是共享的,共享维度对应的资源是同一份,节约了NPU或TPU等处理器的存储空间。同时提高了数据传输效率与执行单元的并发度。
示例性地,例如Tensor A size: h=8, w=16, c=32;Weight B size: r=1, s=1,c=32,n(ocl)=64,;卷积计算后,计算结果C size: h=8, w=16, c=64;以共享Z维度(c方向)为例,可以理解的是,若不使用本公开的共享: Task size:h=8, w=8, c=8;计算一次卷积需要load A与B中的全部c方向数据,那需要load 4(32/8)个task才可以获取c方向数据;每次只load 8*8*8bit数据,传输效率低;若使用本公开的共享,在c方向share,Task size: h=8, w=8, c共享为32;计算一次卷积只需要load一个task就可以获取c方向数据。每次卷积都用到c方向数据,每一个task在卷积计算时对c方向数据是共享的,只需一份即可。降低了npu存储空间,同时每次load 8*8*32bit,提高数据传输效率;同时ShareMask的应用可以使task切分更细粒度,提高执行单元并发度。通过基于计算任务对不同维度的共享,基于不同的共享维度,采用不同的数据拆分方式,对内存资源进一步进行优化,提高计算性能。
步骤S4:输出对应的输出子数据。
在一些实施例中,可以理解的是,对于每个神经网络加速器,多个任务的顺序并不影响本公开的实施,TPU根据所述输入子数据及权重数据执行卷积计算子任务得到输出子数据,并输出所述输出子数据;将所述输出子数据合并后可得到最终的输出数据。卷积计算的具体过程,在此不再赘述。
实施例二
为实现上述目的,本实施例提出了一种卷积计算中资源共享的装置,请参阅图5,为本公开提供的一种卷积计算中资源共享的装置结构示意图。装置500包括:任务拆分模块501、数据拆分模块502、计算模块503、输出模块504;
任务拆分模块501,用于将计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Task(X,Y,Z)方式表示计算的切分,
数据拆分模块502,用于基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
计算模块503,用于神经网络加速器根据子任务加载所述子数据及卷积核,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
输出模块504,用于输出对应的输出子数据。
实施例三
相应的,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器。如图6所示,图6为本申请实施例提供的电子设备的结构示意图。
该电子设备600包括有一个或者一个以上处理核心的处理器601、有一个或一个以上计算机可读存储介质的存储器602及存储在存储器602上并可在处理器上运行的计算机程序。其中,处理器601与存储器602电性连接。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器601是电子设备600的控制中心,利用各种接口和线路连接整个电子设备600的各个部分,通过运行或加载存储在存储器602内的软件程序(计算机程序)和/或单元,以及调用存储在存储器602内的数据,执行电子设备600的各种功能和处理数据,从而对电子设备600进行整体监控。
在本申请实施例中,电子设备600中的处理器601会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能:
步骤S1,计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Taskid(X,Y,Z)方式表示计算的切分,
步骤S2:基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
步骤S3:神经网络加速器根据子任务加载所述子数据及权重,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
步骤S4:输出对应的输出子数据。
以上各个操作的具体实施可参见前述的实施例,在此不再赘述。
可选的,如图6所示,电子设备600还包括:资源共享模块603、通讯模块604、输入单元605以及电源606。其中,处理器601分别与资源共享模块603、通讯模块604、输入单元605以及电源606电性连接。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
资源共享模块603可用于实现生成行情数据的模拟。
通讯模块604可用于与其他设备通信。
输入单元605可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
电源606用于给电子设备600的各个部件供电。可选的,电源606可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源606还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
实施例四
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的一种卷积计算中资源共享的方法的步骤。例如,该计算机程序可以执行如下步骤:
步骤S1,计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Taskid(X,Y,Z)方式表示计算的切分,
步骤S2:基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
步骤S3:神经网络加速器根据子任务加载所述子数据及权重,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
步骤S4:输出对应的输出子数据。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种卷积计算中资源共享方法中的步骤,因此,可以实现本申请实施例所提供的任一种卷积计算中资源共享方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (9)

1.一种卷积计算中资源共享的方法,其特征在于,包括:
步骤S1,计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Taskid(X,Y,Z)方式表示计算的切分,
步骤S2:基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
步骤S3:神经网络加速器根据子任务加载所述子数据及权重,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
步骤S4:输出对应的输出子数据,
所述基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,具体为,
对每个输入数据设置对应所述子任务3个维度的Flag(ShardX,SharedY,SharedZ),
当SharedX使能且SharedY,SharedZ不使能时,表示输入数据基于Task的Y,Z维度进行拆分,子任务在X维度上共享,
当SharedY使能且SharedX,SharedZ不使能时,表示输入数据基于Task的X,Z维度进行划分,子任务在Y维度上共享,
当SharedZ使能且SharedX,SharedY不使能时,表示输入数据基于Task的X,Y维度进行划分,子任务在Z维度上共享。
2.根据权利要求1所述的方法,其特征在于:
所述多个可执行子任务以轮询的方式发送至多个所述神经网络加速器,每个所述神经网络加速器可处理多组所述子任务。
3.根据权利要求1所述的方法,其特征在于:
所述神经网络加速器具体为张量处理器。
4.根据权利要求1所述的方法,其特征在于:
所述子任务具有编号,神经网络加速器基于所述子任务的编号加载对应的输入数据和卷积核,并基于所述子任务的编号输出对应的输出子数据。
5.根据权利要求1所述的方法,其特征在于:
SharedX、SharedY或SharedZ任意两个可组合同时使能,或三者同时使能。
6.根据权利要求1所述的方法,其特征在于:
基于任务的大小对任务的不同维度分配对应的存储资源。
7.一种卷积计算中资源共享的装置,其特征在于,包括:
任务拆分模块,用于将计算任务拆分成多个可执行的子任务,其中所述子任务以三维坐标Task(X,Y,Z)方式表示计算的切分,
数据拆分模块,用于基于计算任务将输入数据按照预设维度拆分成对应的多个输入子数据,
计算模块,用于神经网络加速器根据子任务加载所述子数据及卷积核,并计算得到输出子数据,
其中,基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,
输出模块,用于输出对应的输出子数据,
所述基于子任务之间对输入数据和权重在所述子任务不同维度的共享情况,对所述输入数据拆分,具体为,
对每个输入数据设置对应所述子任务3个维度的Flag(ShardX,SharedY,SharedZ),
当SharedX使能且SharedY,SharedZ不使能时,表示输入数据基于Task的Y,Z维度进行拆分,子任务在X维度上共享,
当SharedY使能且SharedX,SharedZ不使能时,表示输入数据基于Task的X,Z维度进行划分,子任务在Y维度上共享,
当SharedZ使能且SharedX,SharedY不使能时,表示输入数据基于Task的X,Y维度进行划分,子任务在Z维度上共享。
8.一种电子设备,其特征在于:包括存储有可执行程序代码的存储器以及与所述存储器耦合的处理器;其中,所述处理器调用所述存储器中存储的可执行程序代码,执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器运行时执行如权利要求1-6任一项所述的方法。
CN202310139977.0A 2023-02-21 2023-02-21 一种卷积计算中资源共享的方法、装置、介质及设备 Active CN115858178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310139977.0A CN115858178B (zh) 2023-02-21 2023-02-21 一种卷积计算中资源共享的方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310139977.0A CN115858178B (zh) 2023-02-21 2023-02-21 一种卷积计算中资源共享的方法、装置、介质及设备

Publications (2)

Publication Number Publication Date
CN115858178A CN115858178A (zh) 2023-03-28
CN115858178B true CN115858178B (zh) 2023-06-06

Family

ID=85658514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310139977.0A Active CN115858178B (zh) 2023-02-21 2023-02-21 一种卷积计算中资源共享的方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN115858178B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674936A (zh) * 2019-09-24 2020-01-10 上海寒武纪信息科技有限公司 一种神经网络处理方法、装置、计算机设备及存储介质
CN113222136A (zh) * 2020-01-21 2021-08-06 北京希姆计算科技有限公司 卷积运算方法及芯片
CN114201727A (zh) * 2021-12-16 2022-03-18 清华大学 数据的处理方法、处理器、人工智能芯片及电子设备
CN115221102A (zh) * 2021-04-16 2022-10-21 中科寒武纪科技股份有限公司 用于优化片上系统的卷积运算操作的方法和相关产品

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10261903B2 (en) * 2017-04-17 2019-04-16 Intel Corporation Extend GPU/CPU coherency to multi-GPU cores
US11669585B2 (en) * 2019-06-25 2023-06-06 Apple Inc. Optimizing binary convolutional neural networks
US20220383082A1 (en) * 2019-09-24 2022-12-01 Anhui Cambricon Information Technology Co., Ltd. Neural network processing method and apparatus, computer device and storage medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674936A (zh) * 2019-09-24 2020-01-10 上海寒武纪信息科技有限公司 一种神经网络处理方法、装置、计算机设备及存储介质
CN113222136A (zh) * 2020-01-21 2021-08-06 北京希姆计算科技有限公司 卷积运算方法及芯片
CN115221102A (zh) * 2021-04-16 2022-10-21 中科寒武纪科技股份有限公司 用于优化片上系统的卷积运算操作的方法和相关产品
CN114201727A (zh) * 2021-12-16 2022-03-18 清华大学 数据的处理方法、处理器、人工智能芯片及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张迪.基于单目视觉的自动驾驶视觉感知算法设计.《中国优秀硕士学位论文全文数据库(电子期刊)》.2020,1-23. *

Also Published As

Publication number Publication date
CN115858178A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110633153A (zh) 一种用多核处理器实现神经网络模型拆分方法及相关产品
CN111488205B (zh) 面向异构硬件架构的调度方法和调度系统
CN110826708B (zh) 一种用多核处理器实现神经网络模型拆分方法及相关产品
CN112035238A (zh) 任务调度处理方法、装置、集群系统及可读存储介质
KR20210080292A (ko) 딥 러닝 추론 엔진의 스케줄링 방법, 장치, 기기 및 매체
CN110347504B (zh) 众核计算资源调度方法及装置
WO2022048557A1 (zh) Ai模型的训练方法、装置、计算设备和存储介质
CN114730275A (zh) 使用张量在分布式计算系统中进行矢量化资源调度的方法和装置
CN114237869B (zh) 基于强化学习的Ray双层调度方法、装置和电子设备
US9898061B2 (en) Resource capacity management in a cluster of host computers using power management analysis
CN111966361A (zh) 用于确定待部署模型的方法、装置、设备及其存储介质
CN111506434A (zh) 一种任务处理方法、装置及计算机可读存储介质
CN110826706A (zh) 用于神经网络的数据处理方法和装置
CN115858178B (zh) 一种卷积计算中资源共享的方法、装置、介质及设备
CN111984392A (zh) 任务调度方法、装置、电子设备及存储介质
CN110837419B (zh) 基于弹性批处理的推理引擎系统、方法及电子设备
CN117519934A (zh) 一种任务调度方法、装置、电子设备、芯片及介质
CN116795524A (zh) 任务处理方法、装置、计算机设备、存储介质及程序产品
CN111291893B (zh) 调度方法、调度系统、存储介质和电子装置
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN115658269B (zh) 一种用于任务调度的异构计算终端
CN117632520B (zh) 基于申威众核处理器的主从核监测交互的计算量调度方法
CN117057411B (zh) 一种大语言模型训练方法、装置、设备及存储介质
US20240070445A1 (en) Data processing circuit, data processing method, and related products
Omidsajedi et al. Latency optimized Deep Neural Networks (DNNs): An Artificial Intelligence approach at the Edge using Multiprocessor System on Chip (MPSoC)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 28, Room 415, 4th Floor, Building A, Zhongchuang Service Center, No. 1 Xihu Road, Wujin National High tech Industrial Development Zone, Changzhou City, Jiangsu Province, 213164

Patentee after: Xinli Intelligent Technology (Jiangsu) Co.,Ltd.

Address before: 201306 building C, No. 888, Huanhu West 2nd Road, Lingang New District, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee before: Xinli Intelligent Technology (Shanghai) Co.,Ltd.

CP03 Change of name, title or address