CN112396170A - 运算方法、装置、计算机设备和存储介质 - Google Patents

运算方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112396170A
CN112396170A CN201910747898.1A CN201910747898A CN112396170A CN 112396170 A CN112396170 A CN 112396170A CN 201910747898 A CN201910747898 A CN 201910747898A CN 112396170 A CN112396170 A CN 112396170A
Authority
CN
China
Prior art keywords
pooling
data
instruction
machine learning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910747898.1A
Other languages
English (en)
Other versions
CN112396170B (zh
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Cambricon Information Technology Co Ltd
Original Assignee
Shanghai Cambricon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Cambricon Information Technology Co Ltd filed Critical Shanghai Cambricon Information Technology Co Ltd
Priority to CN201910747898.1A priority Critical patent/CN112396170B/zh
Publication of CN112396170A publication Critical patent/CN112396170A/zh
Application granted granted Critical
Publication of CN112396170B publication Critical patent/CN112396170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本公开涉及一种运算方法、装置、计算机设备和存储介质。其中的组合处理装置包括:机器学习运算装置、通用互联接口和其他处理装置;机器学习运算装置与其他处理装置进行交互,共同完成用户指定的计算操作,其中,组合处理装置还包括:存储装置,该存储装置分别与机器学习运算装置和其他处理装置连接,用于保存机器学习运算装置和其他处理装置的数据。本公开实施例所提供的运算方法、装置、计算机设备和存储介质的适用范围广,进行运算的处理效率高、处理速度快。

Description

运算方法、装置、计算机设备和存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种反池化指令处理方法、装置、计算机设备和存储介质。
背景技术
随着科技的不断发展,机器学习,尤其是神经网络算法的使用越来越广泛。其在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。但由于神经网络算法的复杂度越来越高,所涉及的数据运算种类和数量不断增大。相关技术中,在对数据进行反池化运算的效率低、速度慢。
发明内容
有鉴于此,本公开提出了一种反池化指令处理方法、装置、计算机设备和存储介质,以提高对数据进行反池化运算的效率和速度。
根据本公开的第一方面,提供了一种反池化指令处理装置,所述装置包括:
编译模块,用于对获取到的反池化指令进行编译,得到编译后的反池化指令;
控制模块,对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据所述操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;
运算模块,用于根据所述池化核、所述输入索引对所述待运算数据进行反池化运算,获取运算结果,并将所述运算结果存入所述目标地址中。
根据本公开的第二方面,提供了一种机器学习运算装置,所述装置包括:
一个或多个上述第一方面所述的反池化指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;
当所述机器学习运算装置包含多个所述反池化指令处理装置时,所述多个所述反池化指令处理装置间可以通过特定的结构进行连接并传输数据;
其中,多个所述反池化指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述反池化指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述反池化指令处理装置共享内存或者拥有各自的内存;多个所述反池化指令处理装置的互联方式是任意互联拓扑。
根据本公开的第三方面,提供了一种组合处理装置,所述装置包括:
上述第二方面所述的机器学习运算装置、通用互联接口和其他处理装置;
所述机器学习运算装置与所述其他处理装置进行交互,共同完成用户指定的计算操作。
根据本公开的第四方面,提供了一种机器学习芯片,所述机器学习芯片包括上述第二方面所述的机器学习络运算装置或上述第三方面所述的组合处理装置。
根据本公开的第五方面,提供了一种机器学习芯片封装结构,该机器学习芯片封装结构包括上述第四方面所述的机器学习芯片。
根据本公开的第六方面,提供了一种板卡,该板卡包括上述第五方面所述的机器学习芯片封装结构。
根据本公开的第七方面,提供了一种电子设备,所述电子设备包括上述第四方面所述的机器学习芯片或上述第六方面所述的板卡。
根据本公开的第八方面,提供了一种反池化指令处理方法,所述方法应用于反池化指令处理装置,所述方法包括:
对获取到的反池化指令进行编译,得到编译后的反池化指令;
对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据所述操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;
根据所述池化核、所述输入索引对所述待运算数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中。
根据本公开的第九方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述反池化指令处理方法。
在一些实施例中,所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
在一些实施例中,所述交通工具包括飞机、轮船和/或车辆;所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机;所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。
本公开实施例所提供的反池化指令处理方法、装置、计算机设备和存储介质,该装置包括编译模块、控制模块和运算模块,编译模块用于对获取到的反池化指令进行编译,得到编译后的反池化指令;控制模块用于对编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;运算模块,用于根据所述池化核、所述输入索引对所述待运算数据进行反池化运算,获取运算结果,并将所述运算结果存入所述目标地址中。本公开实施例所提供的反池化指令处理方法、装置、计算机设备和存储介质的适用范围广,对反池化指令的处理效率高、处理速度快,进行反池化运算的处理效率高、速度快。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例的反池化指令处理装置的框图。
图2a-图2c示出了本公开一实施例的反池化运算的示意图
图2d-图2f示出了本公开一实施例的池化核的索引方式的示意图。
图3a-图3f示出根据本公开一实施例的反池化指令处理装置的框图。
图4a为示出的一实施例的池化核重叠移动的示意图。
图4b为示出的一实施例的池化核有间距移动的示意图。
图5示出根据本公开一实施例的反池化指令处理装置的应用场景的示意图。
图6a、图6b示出根据本公开一实施例的组合处理装置的框图。
图7示出根据本公开一实施例的板卡的结构示意图。
图8示出根据本公开一实施例的反池化指令处理方法的流程图。
具体实施方式
下面将结合本披露实施例中的附图,对本披露实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本披露一部分实施例,而不是全部的实施例。基于本披露中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本披露保护的范围。
应当理解,本披露的权利要求、说明书及附图中的术语“第零”、“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
由于神经网络算法的广泛使用,计算机硬件运算能力的不断提升,实际应用中所涉及到的数据运算的种类和数量不断提高。反池化运算(unpool)是一种根据索引对待处理数据进行上采样的运算。由于编程语言的种类多样,在不同的语言环境下,为实现反池化运算的运算过程,相关技术中,由于现阶段没有能广泛适用于各类编程语言的反池化指令,技术人员需要自定义对应其编程语言环境的多条指令来实现反池化运算,导致进行反池化运算效率低、速度慢。本公开提供一种反池化指令处理方法、装置、计算机设备和存储介质,仅用一个指令即可以实现反池化运算,能够显著提高进行反池化运算的效率和速度。
图1示出根据本公开一实施例的反池化指令处理装置的框图。如图1所示,该装置包括编译模块10、控制模块11和运算模块12。
编译模块10,用于对获取到的反池化指令进行编译,得到编译后的反池化指令。
控制模块11,用于对编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址。
运算模块12,用于根据所述池化核、所述输入索引对所述待运算数据进行反池化运算,获取运算结果,并将所述运算结果存入所述目标地址中。
在本实施例中,编译模块所获取到的反池化指令为未编译的、不能直接供硬件执行的软件指令,控制模块需先对反池化指令(未编译的)进行编译。在得到编译后的反池化指令之后,才能对编译后的反池化指令进行解析。编译后的反池化指令为能够直接供硬件执行的硬件指令。控制模块可以从待运算数据地址和池化核地址中,分别获得待运算数据和池化核。控制模块可以通过数据输入输出单元获得指令和数据,该数据输入输出单元可以为一个或多个数据I/O接口或I/O引脚。
在本实施例中,操作码可以是计算机程序中所规定的要执行操作的那一部分指令或字段(通常用代码表示),是指令序列号,用来告知执行指令的装置具体需要执行哪一条指令。操作域可以是执行对应的指令所需的所有数据的来源,执行对应的指令所需的所有数据包括待运算数据、池化核等参数以及对应的运算方法等等。对于一个反池化指令其必须包括操作码和操作域,其中,操作域至少包括待运算数据地址、输入索引、池化核和目标地址。
应当理解的是,本领域技术人员可以根据需要对反池化指令的指令格式以及所包含的操作码和操作域进行设置,本公开对此不作限制。
在本实施例中,该装置可以包括一个或多个编译模块、一个或多个控制模块,以及一个或多个运算模块,可以根据实际需要对编译模块、控制模块和运算模块的数量进行设置,本公开对此不作限制。在装置包括一个编译模块时,该编译模块可以接收反池化指令,并得到编译后的反池化指令。在装置包括多个编译模块时,多个编译模块可以分别接收反池化指令,并得到多条编译后的反池化指令。在装置包括一个控制模块时,该控制模块可以接收编译后的反池化指令,并控制一个或多个运算模块进行反池化运算。在装置包括多个控制模块时,多个控制模块可以分别接收编译后的反池化指令,并控制对应的一个或多个运算模块进行反池化运算。
本公开实施例所提供的反池化指令处理装置,该装置包括编译模块、控制模块和运算模块,编译模块用于对获取到的反池化指令进行编译,得到编译后的反池化指令;控制模块用于对编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;运算模块用于根据所述池化核、所述输入索引对所述待运算数据进行反池化运算,获取运算结果,并将所述运算结果存入所述目标地址中。本公开实施例所提供的反池化指令处理装置的适用范围广,对反池化指令的处理效率高、处理速度快,进行反池化运算的处理效率高、速度快。
图2a-图2c示出了本公开一实施例的反池化运算的示意图。根据池化核、输入索引对待处理数据进行反池化运算。池化核具有指定的索引方式。根据池化核所在的区域中待处理数据所对应的索引与输入索引进行比较,如果相等,则将该待处理数据作为该位置的运算结果,否则该位置的运算结果为预设的默认值。该预设的默认值可以为零。
在一种可能的实现方式中,输入索引为一个数据,即待处理数据对应一个输入索引。如图2a所示,假定池化核的尺寸为2×2,其索引以0开始,并且按行依次递增,那么对于该2×2的池化核的索引如图2a左上处所示。第一步幅和第二步幅值均为2,输入索引为1。运算结果的尺寸为4×4,预设的默认值为0。那么池化核首先位于输出数据的左上角的位置,该位置所对应的池化核索引为0,与输入索引进行比较,比较结果为不同。根据该比较结果,即对应的池化核索引与输入索引不同,得到该处的运算结果为预设的默认值,即0。该池化核所在的区域的第二个值,索引为1,与输入索引进行比较,比较结果为相同,则将待处理数据写入该位置。类似的,比较池化核所在区域的第三个数、第四个数据等。待池化核对应的数据都比较完毕后,以第一步幅以宽度方向移动池化核,即按照宽度方向移动2个单位,重复前述操作,由于输入索引为1个数值,即1,因此对于该区域而言,待处理数据写入到池化核索引为1的位置,其他位置写入默认值,即0。运算完毕后,将池化核跟着第二步幅沿着高度方向进行移动,而后从该高度位置的起始点重新重复前述操作,类似的,将池化核的索引与输入索引,即1,进行比较,通过比较结果得到最终结果。直到全部执行完反向池化运算。
在一种可能的实现方式中,输入索引为一组数据,其数量与待处理数据相同,即待处理数据与输入索引一一对应。如图2c所示,假定池化核的尺寸为2×2,其索引以0开始,并且按行依次递增,那么对于该2×2的池化核的索引如图2c左上所示。第一步幅和第二步幅值均为2,待处理数据的尺寸为2×2,则输入索引也为2×2,与输入索引一一对应。运算结果的尺寸为4×4,预设的默认值为0。那么池化核首先位于输出数据的左上角的位置,该位置的索引值为0,与输入索引进行比较,此时输入索引为2,比较结果为不同,根据该比较结果,即不同,得到该处的运算结果为预设的默认值,即0。该池化核所在的区域的第二个值,索引为1,与输入索引进行比较,比较结果依然不同,则该处的运算结果为0。继续比较第三个值,即索引为2,与输入索引相同,则该处的运算结果为待处理数据。依次类推,待池化核全部运算完毕,以第一步幅以宽度方向移动池化核,即按照宽度方向移动2个单位,重复前述操作,由于输入索引与待处理数据一一对应,则该出的输入索引为1,因此对于该区域而言,待处理数据写入到池化核索引为1的位置,其他位置写入默认值,即0。运算完毕后,将池化核跟着第二步幅沿着高度方向进行移动,而后从该高度位置的起始点重复前述操作,类似的,将池化核的索引与输入索引,即0,进行比较,通过比较结果得到最终结果。再沿着宽度方向移动,将池化核区域与输入索引,即2进行比较,重复执行反向池化运算,直到全部执行完毕。
在一种可能的实现方式中,输入索引为一组数据,待处理数据中的部分数据与输入索引对应。例如,待处理数据中同一维度的数据对应一个相同的输入索引。如图2b所示,同一宽度上的待处理数据对应同一个输入索引。由于输入高度为2,这里有2个输入索引。其执行过程与上文类似,其区别在于在同一维度的输入索引相同,不同维度的输入索引不同。这里部分数据还可以包括其他方式,例如输入数据为三维,包括输入高度、输入宽度和输入通道,还可以同一输入通道的待处理数据采用同一个输入索引等;例如输入数据被预先处理为多个组,每个组采用同一个输入索引等。
图2d-图2f示出了本公开一实施例的池化核的索引方式的示意图。根据池化核、输入索引对待处理数据进行反池化运算。其中池化核具有指定的索引方式。
在一种可能的实现方式中,池化核的索引方式可以采用行优先的依次递增的方式进行索引,即以一个固定的数据作为起始,而后以行优先的方式依次递增。如图2d所示,其中,以0为起始,一种求(iw,ih)位置的索引值index的方式可以为index=ih*kw+iw。
在一种可能的实现方式中,池化核的索引方式可以采用列优先的依次递增的方式进行索引。如图2e所示,以0为起始,采用列优先的依次递增的方式进行索引;那么,一种求(iw,ih)位置的索引值index的方式可以为index=iw*kh+ih。
在一种可能的实现方式中,池化核的索引方式可以采用根据查找表查找的方式索引,如图2f所示,设置一个查找表,对池化核进行索引。譬如对于c的位置,通过查表得到其索引为10。
应当理解的是,本领域技术人员可以根据需要对反池化指令的中的池化核的索引方式进行设置,本公开对此不作限制。
图3a示出根据本公开一实施例的反池化指令处理装置的框图。在一种可能的实现方式中,如图3a所示,运算模块12可以包括一个或多个比较器120。比较器120用于对池化核所对应的区域中的待处理数据进行比较运算获得比较结果,根据比较结果获得运算结果。
在该实现方式中,可以根据所需进行的比较运算的数据量的大小、对比较运算的处理速度、效率等要求对比较器的数量进行设置,本公开对此不作限制。
图3b示出根据本公开多个实施例的反池化指令处理装置的框图。在一种可能的实现方式中,如图3b所示,运算模块12可以包括主运算子模块121和多个从运算子模块122。主运算子模块121包括一个或多个比较器。
在一种可能的实现方式中,主运算子模块121,,用于利用所述比较器对所述池化核所对应的区域中的索引与多对应的所述输入索引进行比较运算获得比较结果,根据比较结果获得运算结果,并将所述运算结果存入所述目标地址中。
在一种可能的实现方式中,编译模块10用于对获取到的计算指令进行编译,得到编译后的计算指令。控制模块11,还用于对获取到的编译后的计算指令进行解析,得到计算指令的操作域和操作码,并根据操作域获取执行计算指令所需的待运算数据。运算模块12,还用于根据计算指令对待运算数据进行运算,得到计算指令的计算结果。其中,运算模块可以包括多个运算器,用于执行与计算指令的运算类型相对应的运算。
在该实现方式中,计算指令可以是其他对标量、向量、矩阵、张量等数据进行算术运算、逻辑运算等运算的指令,本领域技术人员可以根据实际需要对计算指令进行设置,本公开对此不作限制。
该实现方式中,运算器可以包括加法器、除法器、乘法器、比较器等能够对数据进行算术运算、逻辑运算等运算的运算器。可以根据所需进行的运算的数据量的大小、运算类型、对数据进行运算的处理速度、效率等要求对运算器的种类及数量进行设置,本公开对此不作限制。
在一种可能的实现方式中,如图3b所示,运算模块12可以包括主运算子模块121和多个从运算子模块122。从运算子模块122包括一个或多个比较器。
在一种可能的实现方式中,控制模块11,还用于解析编译后的反池化指令得到多个运算指令,并将待运算数据和多个运算指令发送至主运算子模块121。
主运算子模块121,用于接收控制模块获取的执行所述编译后的反池化指令所需的待运算数据、输入索引、池化核和目标地址,并向从运算子模块分配和传输各自执行所述编译后的反池化指令对应的所需的待运算数据、输入索引、池化核和目标地址。
从运算子模块122,用于接收主运算子模块分配和传输的执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址,利用所述比较器对所述池化核所对应的区域中的索引与所对应的所述输入索引进行比较运算获得比较结果,根据比较结果得到运算结果,并将所述运算结果存入所述目标地址中。
在该实现方式中,在计算指令为针对标量、向量数据所进行的运算时,装置可以控制主运算子模块利用其中的运算器进行与计算指令相对应的运算。在计算指令为针对矩阵、张量等维度大于或等于2的数据进行运算时,装置可以控制从运算子模块利用其中的运算器进行与计算指令相对应的运算。
需要说明的是,本领域技术人员可以根据实际需要对主运算子模块和多个从运算子模块之间的连接方式进行设置,以实现对运算模块的架构设置,例如,运算模块的架构可以是“H”型架构、阵列型架构、树型架构等,本公开对此不作限制。
图3c示出根据本公开一实施例的反池化指令处理装置的框图。在一种可能的实现方式中,如图3c所示,运算模块12还可以包括一个或多个分支运算子模块123,该分支运算子模块123用于转发主运算子模块121和从运算子模块122之间的数据和/或运算指令。其中,主运算子模块121与一个或多个分支运算子模块123连接。这样,运算模块中的主运算子模块、分支运算子模块和从运算子模块之间采用“H”型架构连接,通过分支运算子模块转发数据和/或运算指令,节省了对主运算子模块的资源占用,进而提高指令的处理速度。
图3d示出根据本公开一实施例的反池化指令处理装置的框图。在一种可能的实现方式中,如图3d所示,多个从运算子模块122呈阵列分布。
每个从运算子模块122与相邻的其他从运算子模块122连接,主运算子模块121连接多个从运算子模块122中的k个从运算子模块122,k个从运算子模块122为:第1行的n个从运算子模块122、第m行的n个从运算子模块122以及第1列的m个从运算子模块122。
其中,如图3d所示,k个从运算子模块仅包括第1行的n个从运算子模块、第m行的n个从运算子模块以及第1列的m个从运算子模块,即该k个从运算子模块为多个从运算子模块中直接与主运算子模块连接的从运算子模块。其中,k个从运算子模块,用于在主运算子模块以及多个从运算子模块之间的数据以及指令的转发。这样,多个从运算子模块呈阵列分布,可以提高主运算子模块向从运算子模块发送数据和/或运算指令速度,进而提高指令的处理速度。
图3e示出根据本公开一实施例的反池化指令处理装置的框图。在一种可能的实现方式中,如图3e所示,运算模块还可以包括树型子模块124。该树型子模块124包括一个根端口401和多个支端口402。根端口401与主运算子模块121连接,多个支端口402与多个从运算子模块122分别连接。其中,树型子模块124具有收发功能,用于转发主运算子模块121和从运算子模块122之间的数据和/或运算指令。这样,通过树型子模块的作用使得运算模块呈树型架构连接,并利用树型子模块的转发功能,可以提高主运算子模块向从运算子模块发送数据和/或运算指令速度,进而提高指令的处理速度。
在一种可能的实现方式中,树型子模块124可以为该装置的可选结果,其可以包括至少一层节点。节点为具有转发功能的线结构,节点本身不具备运算功能。最下层的节点与从运算子模块连接,以转发主运算子模块121和从运算子模块122之间的数据和/或运算指令。特殊地,如树型子模块具有零层节点,该装置则无需树型子模块。
在一种可能的实现方式中,树型子模块124可以包括n叉树结构的多个节点,n叉树结构的多个节点可以具有多个层。
举例来说,图3f示出根据本公开一实施例的反池化指令处理装置的框图。如图3f所示,n叉树结构可以是二叉树结构,树型子模块包括2层节点01。最下层节点01与从运算子模块122连接,以转发主运算子模块121和从运算子模块122之间的数据和/或运算指令。
在该实现方式中,n叉树结构还可以是三叉树结构等,n为大于或等于2的正整数。本领域技术人员可以根据需要对n叉树结构中的n以及n叉树结构中节点的层数进行设置,本公开对此不作限制。
在一种可能的实现方式中,操作域还可以包括输出高度和输出宽度。
其中,控制模块,还用于向所述目的地址写入所述运算结果,且所述运算结果的高度为所述输出高度,宽度为所述输出宽度。
在该实现方式中,输出宽度和输出高度可以限定所获得的运算结果的数据量和尺寸。操作域所包括的输出宽度和输出高度可以是具体的数值,还可以是存储输出宽度和输出高度的存储地址。在操作域中直接包括输出宽度和输出高度的具体数值时,将该具体数值分别确定为对应的输出宽度和输出高度。在操作域中包括输出宽度和输出高度的存储地址时,可以分别从输出宽度和输出高度的存储地址中获得输出高度和输出宽度。
在一种可能的实现方式中,在操作域中不包括输出宽度和输出高度时,可以根据预先设置的默认输出高度和默认输出宽度获取待处理数据,也可以根据输入高度、输入宽度等其他操作域求得。
通过上述方式,可以对运算结果的数据量和尺寸进行限制,保证运算结果的准确性,并保证装置可以执行该反池化指令。
在一种可能的实现方式中,操作域还可以包括输出高度和输出宽度。
其中,控制模块,还用于根据输出高度得到输入高度,根据输出宽度输入宽度,从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
在该实现方式中,输入高度可以根据输出高度获得,一种可能的实现方式为输入高度和输出高度的关系为:
输出高度=(输入高度-1)*第二步幅+池化核高度
输出宽度=(输入宽度-1)*第一步幅+池化核宽度
在一种可能的实现方式中,在操作域中不包括输出宽度和输出高度时,可以根据预先设置的默认输出高度和默认输出宽度获取待处理数据,也可以根据输入高度、输入宽度等其他操作域求得。
通过上述方式,可以对待处理数据的数据量和尺寸进行限制,保证运算结果的准确性,并保证装置可以执行该反池化指令。
在一种可能的实现方式中,操作域还可以包括输入高度和输入宽度。
其中,控制模块,还用于从待处理数据地址中,获取对应输入宽度和输入高度的待处理数据。
在该实现方式中,输入高度和输入宽度可以限定所获得的待处理数据的数据量和尺寸。操作域所包括的输入高度和输入宽度可以是具体的数值,还可以是存储输入高度和输入宽度的存储地址。在操作域中直接包括输入高度和输入宽度的具体数值时,将该具体数值分别确定为对应的输入高度和输入宽度。在操作域中包括输入高度和输入宽度的存储地址时,可以分别从输入高度和输入宽度的存储地址中获得输入高度和输入宽度。
在一种可能的实现方式中,在操作域中不包括输入高度和输入宽度时,可以根据预先设置的默认输入高度和默认输入宽度获取待处理数据,也可以根据输出高度、输出宽度等其他操作域求得。
通过上述方式,可以对待处理数据的数据量和尺寸进行限制,保证运算结果的准确性,并保证装置可以执行该反池化指令。
在一种可能的实现方式中,操作域还可以包括输入通道数。
其中,控制模块,还用于从待处理数据地址中,获取对应输入通道数的待处理数据。
在该实现方式中,输入通道数可以限定所获得的待处理数据的通道数量,输出通道数与输入通道数相同。操作域所包括的输入通道数可以是具体的数值,还可以是存储输入通道数的存储地址。在操作域中直接包括输入通道数的具体数值时,将该具体数值确定为对应的输入通道数。在操作域中包括输入通道数的存储地址时,可以从输入通道数的存储地址中获得输入通道数度。
在一种可能的实现方式中,在操作域中不包括输入通道数时,可以根据预先设置的默认输入通道数来获取待处理数据。
通过上述方式,可以对待处理数据的输入通道数进行限制,保证运算结果的准确性,并保证装置可以执行该反池化指令。
在一种可能的实现方式中,操作域还可以包括池化核高度和池化核宽度。
其中,运算模块12,还用于根据池化核高度和池化核宽度来执行反池化运算。
在一种可能的实现方式中,在操作域中不包括池化核高度、池化核宽度时,可以获取预先设置的默认池化核高度、默认池化核宽度,使得控制模块和运算模块可以执行反池化指令。
在一种可能的实现方式中,操作域还可以包括第一步幅。其中,运算模块12,还可以用于按照第一步幅在宽度方向上移动池化核。
在一种可能的实现方式中,操作域还可以包括第二步幅。其中,运算模块12,还可以用于按照第二步幅在高度方向上移动池化核。
在一种可能的实现方式中,操作域还可以包括第一步幅和第二步幅。其中,运算模块12,还可以用于按照第一步幅在宽度方向上移动池化核,按照第二步幅在高度方向上移动池化核。
在该实现方式中,反池化运算的步幅是在进行反池化运算中每一次移动池化核的幅度。第一步幅可以是在宽度方向上移动池化核的幅度,第二步幅可以是在高度方向上移动池化核的幅度。
需要说明的是,在本公开中仅以池化核为二维为例,描述了进行反池化运算所需的池化核的高度、宽度、第一步幅和第二步幅等参数,若池化核为多维,在相应地池化核的参数则包括其每个维度的尺寸和步幅。
在一种可能的实现方式中,在反池化指令的操作域中并未给出第一步幅和第二步幅时,运算模块可以以池化核的高度和宽度分别为其对应维度的步幅,保证反池化运算的正常进行。
在一种可能的实现方式中,运算模块12还用于在所述池化核重叠移动时,所述运算结果在重叠处进行累加,其中,所述池化核重叠移动,包括以下至少一项:当所述操作域包含所述第一步幅时,所述第一步幅小于所述池化核宽度;当所述操作域包含所述第二步幅时,所述第二步幅小于所述池化核高度。具体来说,当操作域中只包含第一步幅而不包含第二步幅时,池化核重叠移动指第一步幅小于池化核宽度;当操作域中只包含第二步幅而不包含第一步幅时,池化核重叠移动指第二步幅小于池化核高度;当操作域中同时第一步幅和第二步幅时,且当第一步幅小于池化核宽度和第二步幅小于池化核高度中至少满足一项时,即为池化核重叠移动。
如图4a为示出的一种池化核重叠移动的情况,其中池化核尺寸为3×3。第一步幅和第二步幅均为2,那么如图所示的阴影部分即为重叠区域。对于该重叠区域的运算结果,进行累加。例如当池化核的所在区域为左上角的时候,在重叠区域a处的运算结果为1;当池化核移动后,其在重叠区域的运算结果应为2,则此时a处的运算结果将进行累加,即1+2=3。
在一种可能的实现方式中,运算模块12还用于在所述池化核有间距移动时,所述运算结果在间距处写入默认值,其中,所述池化核有间距移动,包括以下至少一项:当所述操作域包含所述第一步幅时,所述第一步幅大于所述池化核宽度;当所述操作域包含所述第二步幅时,所述第二步幅大于所述池化核高度。具体来说,当操作域中只包含第一步幅而不包含第二步幅时,池化核有间距移动指第一步幅大于池化核宽度;当操作域中只包含第二步幅而不包含第一步幅时,池化核有间距移动指第二步幅大于池化核高度;当操作域中同时第一步幅和第二步幅时,且当第一步幅大于池化核宽度和第二步幅大于池化核高度中至少满足一项时,即为池化核有间距移动。
在一种可能的实现中,默认值为0。
如图4b为示出的一种池化核有间距移动的情况,其中池化核尺寸为2×2。第一步幅和第二步幅均为3,那么如图所示的阴影部分即为间距区域。
在一种实现方式中,对于间距区域的数据可以不进行处理。
在一种实现方式中,可以间距区域的运算结果可以视为默认值,默认值可以为零。
在一种可能的实现方式中,如图3a-图3f所示,该装置还可以包括存储模块13。存储模块13用于存储待运算数据和运算结果。
在该实现方式中,存储模块可以包括缓存和寄存器中的一种或多种,缓存可以包括高速暂存缓存,还可以包括至少一个NRAM(Neuron Random Access Memory,神经元随机存取存储器)。缓存可以用于存储待运算数据和运算结果,寄存器可以用于存储待运算数据中的标量数据。
在一种可能的实现方式中,缓存可以包括神经元缓存。神经元缓存也即上述神经元随机存取存储器,可以用于存储待运算数据中的神经元数据,神经元数据可以包括神经元向量数据。
在一种可能的实现方式中,该装置还可以包括直接内存访问模块,用于从存储模块中读取或者存储数据。
在一种可能的实现方式中,如图3a-图3f所示,控制模块11可以包括指令存储子模块111、指令处理子模块112和队列存储子模块113。
指令存储子模块111用于存储编译后的反池化指令。
指令处理子模块112用于对编译后的反池化指令进行解析,得到反池化指令的操作码和操作域。
队列存储子模块113用于存储指令队列,指令队列包括按照执行顺序依次排列的多个待执行指令,多个待执行指令可以包括编译后的反池化指令。
在该实现方式中,可以根据待执行指令的接收时间、优先级别等对多个待执行指令的执行顺序进行排列获得指令队列,以便于根据指令队列依次执行多个待执行指令。
在一种可能的实现方式中,如图3a-图3f所示,控制模块11还可以包括依赖关系处理子模块114。
依赖关系处理子模块114,用于在确定多个待执行命令中的第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系时,将第一待执行指令缓存在指令存储子模块111中,在第零待执行指令执行完毕后,从指令存储子模块111中提取第一待执行指令发送至运算模块12。
其中,第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系包括:存储第一待执行指令所需数据的第一存储地址区间与存储第零待执行指令所需数据的第零存储地址区间具有重叠的区域。
其中,第一待执行指令可以包括编译后的反池化指令。
通过这种方式,可以根据第一待执行指令与第一待执行指令之前的第零待执行指令之间的依赖关系,使得在先的第零待执行指令执行完毕之后,再执行在后的第一待执行指令,保证运算结果的准确性。
在一种可能的实现方式中,编译模块10还可以用于根据反池化指令生成汇编文件,并将汇编文件翻译成二进制文件,其中,二进制文件为编译后的反池化指令。
在一种可能的实现方式中,反池化指令的指令格式可以是:
unpool dstsrc0srcChannelsrcHeighsrcWidth dstHeighdstWidthkernelHeightkernelWidth
其中,unpool为反池化指令的操作码,dst、src0、srcChannel、srcHeigh、srcWidth为反池化指令的操作域。其中,dst为目标地址,src0为待处理数据地址,srcChannel为输入通道数,srcHeigh为输入高度,srcWidth为输入宽度,dstHeigh为输出高度,dstWidth为输出宽度,kernelHeight为池化核高度,kernelWidth为池化核宽度。即从src0处获取的待处理数据,待处理数据的尺寸如下,输入通道数是srcChannel、输入高度是srcHeigh、输入宽度是srcWidth。池化核的尺寸如下,池化核高度为kernelHeight,池化核宽度为kernelWidth。每次池化核的移动步长为默认值,如宽度方向上每次移动的步长为kernelWidth,高度方向上每次移动的步长为kernelHeight。输出尺寸如下,输出通道数是srcChannel、输出高度是dstHeigh、输出宽度是dstWidth。反池化后的运算结果存入地址为dst处。
在一种可能的实现方式中,反池化指令的指令格式可以是:
unpool dstsrc0srcChanneldstHeighdstWidthkernelHeightkernelWidthstrideXstrideY index
其中,unpool为反池化指令的操作码,dst、src0、srcChannel、dstHeight、dstWidth、kernelHeight、kernelWidth、strideX、strideY、index为反池化指令的操作域。其中,dst为目标地址,src0为待处理数据地址,srcChannel为输入通道数,dstHeight为输出高度,dstWidth为输出宽度,kernelHeight为池化核高度,kernelWidth为池化核宽度,strideX为池化核在宽度方向上进行移动的第一步幅,strideY为池化核在高度方向上进行移动的第二步幅。即从src0处获取的待处理数据,待处理数据的尺寸根据输出尺寸获得,即如下,输入通道数是srcChannel、输入高度是srcHeight(srcHeight=(dstHeight-kernelHeight)/strideY+1)、输入宽度是srcWidth(srcWidth=(dstWidth-kernelWidth)/strideX+1)。池化核的尺寸如下,池化核高度为kernelHeight,池化核宽度为kernelWidth。每次池化核在宽度方向上每次移动的步长为strideX,高度方向上每次移动的步长为strideY。输出尺寸如下,输出通道数是srcChannel、输出高度是dstHeigh、输出宽度是dstWidth。反池化后的运算结果存入地址为dst处。
应当理解的是,本领域技术人员可以根据需要对反池化指令的操作码、指令格式中操作码和操作域的位置进行设置,本公开对此不作限制。
在一种可能的实现方式中,该装置可以设置于图形处理器(Graphics ProcessingUnit,简称GPU)、中央处理器(Central Processing Unit,简称CPU)和嵌入式神经网络处理器(Neural-network Processing Unit,简称NPU)的一种或多种之中。
需要说明的是,尽管以上述实施例作为示例介绍了反池化指令处理装置如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各模块,只要符合本公开的技术方案即可。
应用示例
以下结合“利用反池化指令处理装置进行反池化运算”作为一个示例性应用场景,给出根据本公开实施例的应用示例,以便于理解反池化指令处理装置的流程。本领域技术人员应理解,以下应用示例仅仅是出于便于理解本公开实施例的目的,不应视为对本公开实施例的限制
图5示出根据本公开一实施例的反池化指令处理装置的应用场景的示意图。如图3所示,反池化指令处理装置对反池化指令进行处理的过程如下:
编译模块10对获取到的反池化指令1进行编译,得到编译后的反池化指令1(如反池化指令1为unpool 500100564322112)。控制模块11对编译后的反池化指令进行解析,得到反池化指令1的操作码和操作域。反池化指令1的操作码为unpool,目标地址为500,待处理数据地址为100,输入通道数为5,输出高度为64,输出宽度为32,池化核高度为2,池化核宽度为1,第一步幅为1,第二步幅为2。控制模块11根据操作码获取待处理数据规模,一种方式是通过下式计算得到:
输出高度=(输入高度–1)*第二步幅+池化核高度,输出宽度=(输入宽度–1)*第一步幅+卷积核宽度
则输入高度为32,输入宽度为32,于是控制模块11从待处理数据地址100中获取32×32×5的待处理数据。
运算模块12利用池化核分别在5个输入通道上对32×32规模的待处理数据进行反池化运算,得到运算结果,并将运算结果存入目标地址500中。
以上各模块的工作过程可参考上文的相关描述。
这样,可以高效、快速地对反池化指令进行处理,且进行反池化运算的效率和速度也有显著提高。
本公开提供一种机器学习运算装置,该机器学习运算装置可以包括一个或多个上述反池化指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,执行指定的机器学习运算。该机器学习运算装置可以从其他机器学习运算装置或非机器学习运算装置中获得反池化指令,并将执行结果通过I/O接口传递给外围设备(也可称其他处理装置)。外围设备譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口,服务器。当包含一个以上反池化指令处理装置时,反池化指令处理装置间可以通过特定的结构进行链接并传输数据,譬如,通过PCIE总线进行互联并传输数据,以支持更大规模的神经网络的运算。此时,可以共享同一控制系统,也可以有各自独立的控制系统;可以共享内存,也可以每个加速器有各自的内存。此外,其互联方式可以是任意互联拓扑。
该机器学习运算装置具有较高的兼容性,可通过PCIE接口与各种类型的服务器相连接。
图6a示出根据本公开一实施例的组合处理装置的框图。如图6a所示,该组合处理装置包括上述机器学习运算装置、通用互联接口和其他处理装置。机器学习运算装置与其他处理装置进行交互,共同完成用户指定的操作。
其他处理装置,包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为机器学习运算装置与外部数据和控制的接口,包括数据搬运,完成对本机器学习运算装置的开启、停止等基本控制;其他处理装置也可以和机器学习运算装置协作共同完成运算任务。
通用互联接口,用于在机器学习运算装置与其他处理装置间传输数据和控制指令。该机器学习运算装置从其他处理装置中获取所需的输入数据,写入机器学习运算装置片上的存储装置;可以从其他处理装置中获取控制指令,写入机器学习运算装置片上的控制缓存;也可以读取机器学习运算装置的存储模块中的数据并传输给其他处理装置。
图6b示出根据本公开一实施例的组合处理装置的框图。在一种可能的实现方式中,如图6b所示,该组合处理装置还可以包括存储装置,存储装置分别与机器学习运算装置和所述其他处理装置连接。存储装置用于保存在机器学习运算装置和所述其他处理装置的数据,尤其适用于所需要运算的数据在本机器学习运算装置或其他处理装置的内部存储中无法全部保存的数据。
该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统,有效降低控制部分的核心面积,提高处理速度,降低整体功耗。此情况时,该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头,显示器,鼠标,键盘,网卡,wifi接口。
本公开提供一种机器学习芯片,该芯片包括上述机器学习运算装置或组合处理装置。
本公开提供一种机器学习芯片封装结构,该机器学习芯片封装结构包括上述机器学习芯片。
本公开提供一种板卡,图7示出根据本公开一实施例的板卡的结构示意图。如图7所示,该板卡包括上述机器学习芯片封装结构或者上述机器学习芯片。板卡除了包括机器学习芯片389以外,还可以包括其他的配套部件,该配套部件包括但不限于:存储器件390、接口装置391和控制器件392。
存储器件390与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)通过总线连接,用于存储数据。存储器件390可以包括多组存储单元393。每一组存储单元393与机器学习芯片389通过总线连接。可以理解,每一组存储单元393可以是DDR SDRAM(英文:Double Data Rate SDRAM,双倍速率同步动态随机存储器)。
DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。
在一个实施例中,存储器件390可以包括4组存储单元393。每一组存储单元393可以包括多个DDR4颗粒(芯片)。在一个实施例中,机器学习芯片389内部可以包括4个72位DDR4控制器,上述72位DDR4控制器中64bit用于传输数据,8bit用于ECC校验。
在一个实施例中,每一组存储单元393包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在机器学习芯片389中设置控制DDR的控制器,用于对每个存储单元393的数据传输与数据存储的控制。
接口装置391与机器学习芯片389(或者机器学习芯片封装结构内的机器学习芯片)电连接。接口装置391用于实现机器学习芯片389与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中,接口装置391可以为标准PCIE接口。比如,待处理的数据由服务器通过标准PCIE接口传递至机器学习芯片289,实现数据转移。在另一个实施例中,接口装置391还可以是其他的接口,本公开并不限制上述其他的接口的具体表现形式,接口装置能够实现转接功能即可。另外,机器学习芯片的计算结果仍由接口装置传送回外部设备(例如服务器)。
控制器件392与机器学习芯片389电连接。控制器件392用于对机器学习芯片389的状态进行监控。具体的,机器学习芯片389与控制器件392可以通过SPI接口电连接。控制器件392可以包括单片机(Micro Controller Unit,MCU)。如机器学习芯片389可以包括多个处理芯片、多个处理核或多个处理电路,可以带动多个负载。因此,机器学习芯片389可以处于多负载和轻负载等不同的工作状态。通过控制器件可以实现对机器学习芯片中多个处理芯片、多个处理和/或多个处理电路的工作状态的调控。
本公开提供一种电子设备,该电子设备包括上述机器学习芯片或板卡。
电子设备可以包括数据处理装置、计算机设备、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。
交通工具可以包括飞机、轮船和/或车辆。家用电器可以包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机。医疗设备可以包括核磁共振仪、B超仪和/或心电图仪。
图8示出根据本公开一实施例的反池化指令处理方法的流程图。该方法可以应用于包含存储器和处理器的如计算机设备等,其中,存储器用于存储执行方法过程中所使用的数据;处理器用于执行相关的处理、运算步骤,如执行下述步骤S50、步骤S51和步骤S52。如图8所示,该方法应用于上述反池化指令处理装置,该方法包括步骤S50、步骤S51和步骤S52。
在步骤S50中,对获取到的反池化指令进行编译,得到编译后的反池化指令。
在步骤S51中,对编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址。
在步骤S52中,根据池化核、输入索引对待处理数据进行反池化运算,获得运算结果,并将运算结果存入目标地址中。
在一种可能的实现方式中,包括:所述待处理数据对应一个所述输入索引。
在一种可能的实现方式中,包括:所述待处理数据与所述输入索引一一对应。
在一种可能的实现方式中,包括:所述待处理数据的部分数据对应一个所述输入索引。
在一种可能的实现方式中,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,包括:利用所述比较器对所述池化核所对应的区域中的索引与多对应的所述输入索引进行比较运算获得比较结果,根据比较结果获得运算结果。
在一种可能的实现方式中,包括:所述池化核所对应的区域中的索引按行依次递增、按列依次递增或者根据查找表查找。
在一种可能的实现方式中,运算模块包括主运算子模块和多个从运算子模块,所述主运算子模块包括所述比较器,
其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中,包括:
利用所述比较器对所述池化核所对应的区域中的索引与多对应的所述输入索引进行比较运算获得比较结果,根据比较结果获得运算结果,并将所述运算结果存入所述目标地址中。
在一种可能的实现方式中,运算模块包括主运算子模块和多个从运算子模块,所述从运算子模块包括所述比较器,
其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得比较结果的索引作为运算结果,并将所述运算结果存入所述目标地址中,包括:
利用所述多个比较器对所述池化核所对应的区域中的多个待处理数据进行比较运算获得比较结果,得到运算结果,并将所述运算结果存入所述目标地址中。
接收控制模块获取的执行所述反池化指令所需的所述待处理数据、所述输入索引、所述池化核和所述目标地址,并向从运算子模块分配和传输各自执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址;
接收主运算子模块分配和传输的执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址,利用所述比较器对所述池化核所对应的区域中的索引与所对应的所述输入索引进行比较运算获得比较结果,根据比较结果得到运算结果,并将所述运算结果存入所述目标地址中。
在一种可能的实现方式中,操作域还包括输入高度和输入宽度,其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
在一种可能的实现方式中,操作域还包括输出高度和输出宽度,其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:向所述目的地址写入所述运算结果,且所述运算结果的高度为所述输出高度,宽度为所述输出宽度。
在一种可能的实现方式中,操作域还包括输出高度和输出宽度,其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:根据输出高度和输出宽度,分别得到输入高度和输入宽度,从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
在一种可能的实现方式中,操作域还包括输入通道数,其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:从所述待处理数据地址中,获取对应所述输入通道数的待处理数据。
在一种可能的实现方式中,操作域还包括池化核高度和池化核宽度,其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,包括:根据所述池化核高度和所述池化核宽度对所述待处理数据进行反池化运算。
在一种可能的实现方式中,操作域还可以包括第一步幅。其中,根据池化核、输入索引对待处理数据进行反池化运算,可以包括:按照第一步幅在宽度方向上移动池化核。
在一种可能的实现方式中,操作域还可以包括第二步幅。其中,根据池化核、输入索引对待处理数据进行反池化运算,可以包括:按照第二步幅在高度方向上移动池化核。
在一种可能的实现方式中,操作域还可以包括第一步幅和第二步幅。其中,根据池化核、输入索引对待处理数据进行反池化运算,可以包括:按照第一步幅在宽度方向上移动池化核和按照第二步幅在高度方向上移动池化核。
在一种可能的实现方式中,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
在所述池化核重叠移动时,所述运算结果在重叠处进行累加,
其中,所述池化核重叠移动,包括以下至少一项:
当所述操作域包含所述第一步幅时,所述第一步幅小于所述池化核宽度;
当所述操作域包含所述第二步幅时,所述第二步幅小于所述池化核高度。
在一种可能的实现方式中,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
在所述池化核重叠移动时,所述运算结果在重叠处进行累加,
其中,所述池化核重叠移动,可以为当所述操作域包含所述第一步幅和第二步幅时,所述第一步幅小于所述池化核宽度,或者第二步幅小于所述池化核高度,或者所述第一步幅小于所述池化核宽度并且第二步幅小于所述池化核高度。
在一种可能的实现方式中,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
在所述池化核有间距移动时,所述运算结果在间距处写入默认值,
其中,所述池化核有间距移动,包括以下至少一项:
当所述操作域包含所述第一步幅时,所述第一步幅大于所述池化核宽度;
当所述操作域包含所述第二步幅时,所述第二步幅大于所述池化核高度。
在一种可能的实现方式中,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
在所述池化核有间距移动时,所述运算结果在间距处写入默认值,
其中,所述池化核有间距移动,可以为当所述操作域包含所述第一步幅和第二步幅时,所述第一步幅大于所述池化核宽度,或者所述第二步幅大于所述池化核高度,或者所述第一步幅大于所述池化核宽度并且所述第二步幅大于所述池化核高度。
在一种可能的实现方式中,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
所述默认值为零。
在一种可能的实现方式中,该方法还可以包括:利用装置的存储模块存储待运算数据和运算结果。其中,存储模块可以包括寄存器和缓存中的至少一种,缓存用于存储待运算数据和运算结果,缓存可以包括至少一个神经元缓存NRAM;寄存器用于存储待运算数据中的标量数据;神经元缓存用于存储待运算数据中的神经元数据,神经元数据可以包括神经元向量数据。
在一种可能的实现方式中,对获取到的编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,可以包括:
存储编译后的反池化指令;
对编译后的反池化指令进行解析,得到反池化指令的操作码和操作域;
存储指令队列,指令队列包括按照执行顺序依次排列的多个待执行指令,多个待执行指令可以包括编译后的反池化指令。
在一种可能的实现方式中,该方法还可以包括:在确定多个待执行指令中的第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系时,缓存第一待执行指令,在第零待执行指令执行完毕后,执行第一待执行指令,
其中,第一待执行指令与第一待执行指令之前的第零待执行指令存在关联关系包括:
存储第一待执行指令所需数据的第一存储地址区间与存储第零待执行指令所需数据的第零存储地址区间具有重叠的区域;
第一待执行指令包括编译后的反池化指令。
在一种可能的实现方式中,对获取到的反池化指令进行编译,得到编译后的反池化指令,可以包括:
根据反池化指令生成汇编文件,并将汇编文件翻译成二进制文件。其中,二进制文件为编译后的反池化指令。
需要说明的是,尽管以上述实施例作为示例介绍了反池化指令处理方法如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据个人喜好和/或实际应用场景灵活设定各步骤,只要符合本公开的技术方案即可。
本公开实施例所提供的反池化指令处理方法的适用范围广,对反池化指令的处理效率高、处理速度快,进行反池化运算的效率高、速度快。
本公开还提供一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现上述反池化指令处理方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本披露并不受所描述的动作顺序的限制,因为依据本披露,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本披露所必须的。
进一步需要说明的是,虽然图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
应该理解,上述的装置实施例仅是示意性的,本披露的装置还可通过其它的方式实现。例如,上述实施例中所述单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
另外,若无特别说明,在本披露各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一起。上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元/模块如果以硬件的形式实现时,该硬件可以是数字电路,模拟电路等等。硬件结构的物理实现包括但不局限于晶体管,忆阻器等等。若无特别说明,若无特别说明,上述存储模块可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(Resistive Random Access Memory)、动态随机存取存储器DRAM(Dynamic RandomAccess Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(Enhanced Dynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等。
所述集成的单元/模块如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本披露的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本披露各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
依据以下条款可以更好的理解前述内容:
条款A1、一种反池化指令处理装置,所述装置包括:
编译模块,用于对获取到的反池化指令进行编译,得到编译后的反池化指令;
控制模块,用于对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据所述操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;
运算模块,用于根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中。
条款A2、根据条款A1所述的装置,包括:
所述待处理数据对应一个所述输入索引。
条款A3、根据条款A1所述的装置,包括:
所述待处理数据与所述输入索引一一对应。
条款A4、根据条款A1所述的装置,包括:
所述待处理数据的部分数据对应一个所述输入索引。
条款A5、根据条款A1至条款A4中任一项所述的装置,所述运算模块,包括:
比较器,用于对所述池化核所对应的区域中的索引与所对应的所述输入索引进行比较运算获得比较结果,根据比较结果得到运算结果。
条款A6,根据条款A5所述的装置,所述运算模块包括:
所述池化核所对应的区域中的索引按行依次递增、按列依次递增或者根据查找表查找。
条款A7、根据条款A5或条款A6所述的装置,所述运算模块包括主运算子模块和多个从运算子模块,所述主运算子模块包括所述比较器,
所述主运算子模块,用于利用所述比较器对所述池化核所对应的区域中的索引与多对应的所述输入索引进行比较运算获得比较结果,根据比较结果获得运算结果,并将所述运算结果存入所述目标地址中。
条款A8、根据条款A5或条款A6所述的装置,所述运算模块包括主运算子模块和多个从运算子模块,所述从运算子模块包括所述比较器,
所述主运算子模块,用于接收控制模块获取的执行所述反池化指令所需的所述待处理数据、所述输入索引、所述池化核和所述目标地址,并向从运算子模块分配和传输各自执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址;
所述从运算子模块,用于接收主运算子模块分配和传输的执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址,利用所述比较器对所述池化核所对应的区域中的索引与所对应的所述输入索引进行比较运算获得比较结果,根据比较结果得到运算结果,并将所述运算结果存入所述目标地址中。
条款A9、根据条款A1至条款A8中任一项所述的装置,所述操作域还包括输入高度和输入宽度,
其中,所述控制模块,还用于从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
条款A10、根据条款A1至条款A8中任一项所述的装置,所述操作域还包括输出高度和输出宽度,
其中,所述控制模块,还用于向所述目的地址写入所述运算结果,且所述运算结果的高度为所述输出高度,宽度为所述输出宽度。
条款A11、根据条款A10所述的装置,所述操作域还包括输出高度和输出宽度,
其中,所述控制模块,还用于根据输出高度得到输入高度,根据输出宽度输入宽度,从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
条款A12、根据条款A1至条款A8中任一项所述的装置,所述操作域还包括输入通道数,
其中,所述控制模块,还用于从所述待处理数据地址中,获取对应所述输入通道数的待处理数据。
条款A13、根据条款A1至条款A8中任一项所述的装置,所述操作域还包括池化核高度和池化核宽度,
其中,所述运算模块,还用于根据所述池化核高度和所述池化核宽度对所述待处理数据进行反池化运算。
条款A14、根据条款A1至条款A8中任一项所述的装置,所述操作域还包括第一步幅和/或第二步幅,
其中,所述运算模块,还用于按照所述第一步幅在宽度方向上移动所述池化核和/或按照所述第二步幅在高度方向上移动所述池化核。
条款A15、根据条款A14所述的装置,所述运算模块,还用于在所述池化核重叠移动时,所述运算结果在重叠处进行累加,
其中,所述池化核重叠移动,包括以下至少一项:
当所述操作域包含所述第一步幅时,所述第一步幅小于所述池化核宽度;
当所述操作域包含所述第二步幅时,所述第二步幅小于所述池化核高度。
条款A16、根据条款A14所述的装置,所述运算模块,还用于在所述池化核有间距移动时,所述运算结果在间距处写入默认值,
其中,所述池化核有间距移动,包括以下至少一项:
当所述操作域包含所述第一步幅时,所述第一步幅大于所述池化核宽度;
当所述操作域包含所述第二步幅时,所述第二步幅大于所述池化核高度。
条款A17、根据条款A16所述的装置,所述运算模块,包括:
所述默认值为零。
条款A18、根据条款A1所述的装置,所述装置还包括:
存储模块,用于存储所述待运算数据和所述运算结果。
条款A19、根据条款A1所述的装置,所述控制模块,包括:
指令存储子模块,用于存储所述编译后的反池化指令;
指令处理子模块,用于对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域;
队列存储子模块,用于存储指令队列,所述指令队列包括按照执行顺序依次排列的多个待执行指令,所述多个待执行指令包括所述编译后的反池化指令。
条款A20、根据条款A18所述的装置,所述控制模块,还包括:
依赖关系处理子模块,用于在确定所述多个待执行指令中的第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系时,将所述第一待执行指令缓存在所述指令存储子模块中,在所述第零待执行指令执行完毕后,从所述指令存储子模块中提取所述第一待执行指令发送至所述运算模块,
其中,所述第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系包括:
存储所述第一待执行指令所需数据的第一存储地址区间与存储所述第零待执行指令所需数据的第零存储地址区间具有重叠的区域;
所述第一待执行指令包括编译后的反池化指令。
条款A21、根据条款A1所述的装置,
所述控制模块,还用于根据所述反池化指令生成汇编文件,并将所述汇编文件翻译成二进制文件,
其中,所述二进制文件为所述编译后的反池化指令。
条款A22、一种机器学习运算装置,所述装置包括:
一个或多个如条款A1至条款A21任一项所述的反池化指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;
当所述机器学习运算装置包含多个所述反池化指令处理装置时,所述多个所述反池化指令处理装置间可以通过特定的结构进行连接并传输数据;
其中,多个所述反池化指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述反池化指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述反池化指令处理装置共享内存或者拥有各自的内存;多个所述反池化指令处理装置的互联方式是任意互联拓扑。
条款A23、一种组合处理装置,所述组合处理装置包括:
如条款A22所述的机器学习运算装置、通用互联接口和其他处理装置;
所述机器学习运算装置与所述其他处理装置进行交互,共同完成用户指定的计算操作,
其中,所述组合处理装置还包括:存储装置,该存储装置分别与所述机器学习运算装置和所述其他处理装置连接,用于保存所述机器学习运算装置和所述其他处理装置的数据。
条款A24、一种机器学习芯片,所述机器学习芯片包括:
如条款A22所述的机器学习运算装置或如条款A23所述的组合处理装置。
条款A25、一种电子设备,所述电子设备包括:
如条款A24所述的机器学习芯片。
条款A26、一种板卡,所述板卡包括:存储器件、接口装置和控制器件以及如条款A24所述的机器学习芯片;
其中,所述机器学习芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;
所述存储器件,用于存储数据;
所述接口装置,用于实现所述机器学习芯片与外部设备之间的数据传输;
所述控制器件,用于对所述机器学习芯片的状态进行监控。
条款A27、一种反池化指令处理方法,所述方法应用于反池化指令处理装置,所述方法包括:
对获取到的反池化指令进行编译,得到编译后的反池化指令;
对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据所述操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;
根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中。
条款A28、根据条款A27所述的方法,包括:
所述待处理数据对应一个所述输入索引。
条款A29、根据条款A27所述的方法,包括:
所述待处理数据与所述输入索引一一对应。
条款A30、根据条款A27所述的方法,包括:
所述待处理数据的部分数据对应一个所述输入索引。
条款A31、根据条款A27至条款A30中任一项所述的方法,根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,包括:
利用所述比较器对所述池化核所对应的区域中的索引与多对应的所述输入索引进行比较运算获得比较结果,根据比较结果获得运算结果。
条款A32、根据条款A31所述的方法,包括:
所述池化核所对应的区域中的索引按行依次递增、按列依次递增或者根据查找表查找。
条款A33、根据条款A31或条款A32所述的方法,所述运算模块包括主运算子模块和多个从运算子模块,所述主运算子模块包括所述比较器,
其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中,包括:
利用所述比较器对所述池化核所对应的区域中的索引与多对应的所述输入索引进行比较运算获得比较结果,根据比较结果获得运算结果,并将所述运算结果存入所述目标地址中。
条款A34、根据条款A31或条款A32所述的方法,所述运算模块包括主运算子模块和多个从运算子模块,所述从运算子模块包括所述比较器,
其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得比较结果的索引作为运算结果,并将所述运算结果存入所述目标地址中,包括:
利用所述多个比较器对所述池化核所对应的区域中的多个待处理数据进行比较运算获得比较结果,得到运算结果,并将所述运算结果存入所述目标地址中。
接收控制模块获取的执行所述反池化指令所需的所述待处理数据、所述输入索引、所述池化核和所述目标地址,并向从运算子模块分配和传输各自执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址;
接收主运算子模块分配和传输的执行所述反池化指令对应的所需的述待处理数据、所述输入索引、所述池化核和所述目标地址,利用所述比较器对所述池化核所对应的区域中的索引与所对应的所述输入索引进行比较运算获得比较结果,根据比较结果得到运算结果,并将所述运算结果存入所述目标地址中。
条款A35、根据条款A27至条款A34中任一项所述的方法,所述操作域还包括输入高度和输入宽度,
其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:
从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
条款A36、根据条款A27至条款A34中任一项所述的方法,所述操作域还包括输出高度和输出宽度,
其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:
向所述目的地址写入所述运算结果,且所述运算结果的高度为所述输出高度,宽度为所述输出宽度。
条款A37、根据条款A36所述的方法,所述操作域还包括输出高度和输出宽度,
其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:
根据输出高度和输出宽度,分别得到输入高度和输入宽度,从所述待处理数据地址中,获取对应所述输入宽度和所述输入高度的待处理数据。
条款A38、根据条款A27至条款A34中任一项所述的方法,所述操作域还包括输入通道数,
其中,所述根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址,包括:
从所述待处理数据地址中,获取对应所述输入通道数的待处理数据。
条款A39、根据条款A27至条款A34中任一项所述的方法,所述操作域还包括池化核高度和池化核宽度,
其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,包括:
根据所述池化核高度和所述池化核宽度对所述待处理数据进行反池化运算。
条款A40、根据条款A27至条款A34中任一项所述的方法,所述操作域还包括第一步幅和/或第二步幅,
其中,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,包括:
按照所述第一步幅在宽度方向上移动所述池化核和/或按照所述第二步幅在高度方向上移动所述池化核。
条款A41、根据条款A40所述的方法,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
在所述池化核重叠移动时,所述运算结果在重叠处进行累加,
其中,所述池化核重叠移动,包括以下至少一项:
当所述操作域包含所述第一步幅时,所述第一步幅小于所述池化核宽度;
当所述操作域包含所述第二步幅时,所述第二步幅小于所述池化核高度。
条款A42、根据条款A40所述的方法,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
在所述池化核有间距移动时,所述运算结果在间距处写入默认值,
其中,所述池化核有间距移动,包括以下至少一项:
当所述操作域包含所述第一步幅时,所述第一步幅大于所述池化核宽度;
当所述操作域包含所述第二步幅时,所述第二步幅大于所述池化核高度。
条款A43、根据条款A40所述的方法,所述根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,还包括:
所述默认值为零。
条款A44、根据条款A27所述的方法,所述方法还包括:
利用所述装置的存储模块存储所述待运算数据和所述运算结果。
条款A45、根据条款A27所述的方法,所述对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,包括:
存储所述编译后的反池化指令;
对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域;
存储指令队列,所述指令队列包括按照执行顺序依次排列的多个待执行指令,所述多个待执行指令包括所述编译后的反池化指令。
条款A46、根据条款A45所述的方法,所述方法还包括:
在确定所述多个待执行指令中的第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系时,缓存所述第一待执行指令,并在确定所述第零待执行指令执行完毕后,控制进行所述第一待执行指令的执行,
其中,所述第一待执行指令与所述第一待执行指令之前的第零待执行指令存在关联关系包括:
存储所述第一待执行指令所需数据的第一存储地址区间与存储所述第零待执行指令所需数据的第零存储地址区间具有重叠的区域;
所述第一待执行指令包括编译后的反池化指令。
条款A47、根据条款A27所述的方法,所述对获取到的反池化指令进行编译,得到编译后的反池化指令,包括:
根据所述反池化指令生成汇编文件,并将所述汇编文件翻译成二进制文件,
其中,所述二进制文件为所述编译后的反池化指令。
条款A48、一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现条款A27至条款A47任一项所述的方法。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种反池化指令处理装置,其特征在于,所述装置包括:
编译模块,用于对获取到的反池化指令进行编译,得到编译后的反池化指令;
控制模块,用于对所述编译后的反池化指令进行解析,得到反池化指令的操作码和操作域,并根据所述操作域获取执行反池化指令所需的待运算数据、输入索引、池化核和目标地址;
运算模块,用于根据所述输入索引、所述池化核对所述待处理数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中。
2.根据权利要求1所述的装置,其特征在于,所述运算模块,包括:
比较器,用于对所述池化核所对应的区域中的索引与所述输入索引进行比较运算获得比较结果,根据所述比较结果获得所述运算结果。
3.根据权利要求2所述的装置,其特征在于,所述运算模块包括主运算子模块和多个从运算子模块,所述主运算子模块包括所述比较器,
所述主运算子模块,用于利用所述比较器对所述池化核所对应的区域中的索引与所述输入索引进行比较运算获得所述比较结果,根据所述比较结果获得所述运算结果,并将所述运算结果的存入所述目标地址中。
4.一种机器学习运算装置,其特征在于,所述装置包括:
一个或多个如权利要求1-3任一项所述的反池化指令处理装置,用于从其他处理装置中获取待运算数据和控制信息,并执行指定的机器学习运算,将执行结果通过I/O接口传递给其他处理装置;
当所述机器学习运算装置包含多个所述反池化指令处理装置时,所述多个所述反池化指令处理装置间可以通过特定的结构进行连接并传输数据;
其中,多个所述反池化指令处理装置通过快速外部设备互连总线PCIE总线进行互联并传输数据,以支持更大规模的机器学习的运算;多个所述反池化指令处理装置共享同一控制系统或拥有各自的控制系统;多个所述反池化指令处理装置共享内存或者拥有各自的内存;多个所述反池化指令处理装置的互联方式是任意互联拓扑。
5.一种组合处理装置,其特征在于,所述组合处理装置包括:
如权利要求4所述的机器学习运算装置、通用互联接口和其他处理装置;
所述机器学习运算装置与所述其他处理装置进行交互,共同完成用户指定的计算操作,
其中,所述组合处理装置还包括:存储装置,该存储装置分别与所述机器学习运算装置和所述其他处理装置连接,用于保存所述机器学习运算装置和所述其他处理装置的数据。
6.一种机器学习芯片,其特征在于,所述机器学习芯片包括:
如权利要求4所述的机器学习运算装置或如权利要求5所述的组合处理装置。
7.一种电子设备,其特征在于,所述电子设备包括:
如权利要求6述的机器学习芯片。
8.一种板卡,其特征在于,所述板卡包括:存储器件、接口装置和控制器件以及如权利要求6所述的机器学习芯片;
其中,所述机器学习芯片与所述存储器件、所述控制器件以及所述接口装置分别连接;
所述存储器件,用于存储数据;
所述接口装置,用于实现所述机器学习芯片与外部设备之间的数据传输;
所述控制器件,用于对所述机器学习芯片的状态进行监控。
9.一种反池化指令处理方法,其特征在于,所述方法应用于反池化指令处理装置,所述方法包括:
对获取到的反池化指令进行编译,得到编译后的反池化指令;
对所述编译后的反池化指令进行解析,得到所述反池化指令的操作码和操作域,并根据所述操作域获取执行所述反池化指令所需的待处理数据、输入索引、池化核和目标地址;
根据所述池化核、所述输入索引对所述待处理数据进行反池化运算,获得运算结果,并将所述运算结果存入所述目标地址中。
10.一种非易失性计算机可读存储介质,其特征在于,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求9所述的方法。
CN201910747898.1A 2019-08-14 2019-08-14 运算方法、装置、计算机设备和存储介质 Active CN112396170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910747898.1A CN112396170B (zh) 2019-08-14 2019-08-14 运算方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910747898.1A CN112396170B (zh) 2019-08-14 2019-08-14 运算方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112396170A true CN112396170A (zh) 2021-02-23
CN112396170B CN112396170B (zh) 2024-04-02

Family

ID=74601333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910747898.1A Active CN112396170B (zh) 2019-08-14 2019-08-14 运算方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112396170B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262735A1 (en) * 2016-03-11 2017-09-14 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
JP2018088151A (ja) * 2016-11-29 2018-06-07 株式会社Soken 境界線推定装置
WO2018126073A1 (en) * 2016-12-30 2018-07-05 Lau Horace H Deep learning hardware
CN110096309A (zh) * 2018-11-14 2019-08-06 上海寒武纪信息科技有限公司 运算方法、装置、计算机设备和存储介质
CN110096310A (zh) * 2018-11-14 2019-08-06 上海寒武纪信息科技有限公司 运算方法、装置、计算机设备和存储介质
CN110119807A (zh) * 2018-10-12 2019-08-13 上海寒武纪信息科技有限公司 运算方法、装置、计算机设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262735A1 (en) * 2016-03-11 2017-09-14 Kabushiki Kaisha Toshiba Training constrained deconvolutional networks for road scene semantic segmentation
JP2018088151A (ja) * 2016-11-29 2018-06-07 株式会社Soken 境界線推定装置
WO2018126073A1 (en) * 2016-12-30 2018-07-05 Lau Horace H Deep learning hardware
US20190392297A1 (en) * 2016-12-30 2019-12-26 Intel Corporation Deep learning hardware
CN110119807A (zh) * 2018-10-12 2019-08-13 上海寒武纪信息科技有限公司 运算方法、装置、计算机设备和存储介质
CN110096309A (zh) * 2018-11-14 2019-08-06 上海寒武纪信息科技有限公司 运算方法、装置、计算机设备和存储介质
CN110096310A (zh) * 2018-11-14 2019-08-06 上海寒武纪信息科技有限公司 运算方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱振文 等: "基于卷积神经网络的道路检测方法", 计算机工程与设计 *

Also Published As

Publication number Publication date
CN112396170B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN110096309B (zh) 运算方法、装置、计算机设备和存储介质
CN110096310B (zh) 运算方法、装置、计算机设备和存储介质
CN110119807B (zh) 运算方法、装置、计算机设备和存储介质
CN111047005A (zh) 运算方法、装置、计算机设备和存储介质
CN112395009A (zh) 运算方法、装置、计算机设备和存储介质
CN112395002B (zh) 运算方法、装置、计算机设备和存储介质
CN112395008A (zh) 运算方法、装置、计算机设备和存储介质
CN112396170B (zh) 运算方法、装置、计算机设备和存储介质
WO2022001500A1 (zh) 计算装置、集成电路芯片、板卡、电子设备和计算方法
CN109558565B (zh) 运算方法、装置及相关产品
CN109542837B (zh) 运算方法、装置及相关产品
CN111047030A (zh) 运算方法、装置、计算机设备和存储介质
CN111061507A (zh) 运算方法、装置、计算机设备和存储介质
CN112396169B (zh) 运算方法、装置、计算机设备和存储介质
CN112395001A (zh) 运算方法、装置、计算机设备和存储介质
CN111338694B (zh) 运算方法、装置、计算机设备和存储介质
CN112395006A (zh) 运算方法、装置、计算机设备和存储介质
CN112395007A (zh) 运算方法、装置、计算机设备和存储介质
CN111339060B (zh) 运算方法、装置、计算机设备和存储介质
CN111124497B (zh) 运算方法、装置、计算机设备和存储介质
CN111353125B (zh) 运算方法、装置、计算机设备和存储介质
CN111290788B (zh) 运算方法、装置、计算机设备和存储介质
CN111290789B (zh) 运算方法、装置、计算机设备和存储介质
CN109543836B (zh) 运算方法、装置及相关产品
CN109558564B (zh) 运算方法、装置及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant