CN111382094A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN111382094A CN111382094A CN201811654890.2A CN201811654890A CN111382094A CN 111382094 A CN111382094 A CN 111382094A CN 201811654890 A CN201811654890 A CN 201811654890A CN 111382094 A CN111382094 A CN 111382094A
- Authority
- CN
- China
- Prior art keywords
- image data
- fifo memory
- storage space
- memory
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
- G06F13/1673—Details of memory controller using buffers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
- G06F13/1678—Details of memory controller using bus width
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F5/00—Methods or arrangements for data conversion without changing the order or content of the data handled
- G06F5/06—Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor
- G06F5/10—Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations each being individually accessible for both enqueue and dequeue operations, e.g. using random access memory
- G06F5/12—Means for monitoring the fill level; Means for resolving contention, i.e. conflicts between simultaneous enqueue and dequeue operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/60—Memory management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种数据处理方法及装置,该方法适用于ISS仿真,该方法包括:当待转存图像数据个数大于零且第一FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将N个输入图像数据转存至第一FIFO存储器,当待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将M个权重数据转存至该第二FIFO存储器,当第一FIFO存储器的输入图像数据个数以及第二FIFO存储器的权重数据个数均大于或等于1时,将读取到的输入图像数据i与读取到的权重数据w进行卷积运算,得到输出图像数据。采用本申请实施例,可以提高数据处理速度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
指令集仿真器(instruction set simulator,ISS)是处理器工具链中的重要组成部分。传统ISS除了需要模拟处理器的硬件行为(硬件功能)外,还需要精确预测这个处理器跑完一个程序所用的时间,因此传统ISS的数据处理必须受时钟以及硬件总线带宽的限制。假设1个待处理的图像数据有4096比特(bit),而处理器的硬件总线带宽为256bit,那么在ISS仿真过程中,一次最多只能对256bit大小的图像数据做处理,这个4096bit的图像数据就需要经过16次处理才能处理完成。因此,在设计某些计算量大的处理器时,如用于执行卷积神经网络计算任务的神经网络处理器等,由于这类处理器的计算量大、带宽需求也大,所以在用传统ISS对这类处理器的硬件功能进行仿真时的数据处理速度就慢,不利于对处理器的硬件功能进行快速检验。
发明内容
本申请实施例提供一种数据处理方法及装置,可以提高ISS的数据处理速度,便于对处理器的硬件功能进行快速检验。
第一方面,本申请实施例提供了一种数据处理方法,该方法包括:
若检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间,则将第一存储器中的N个输入图像数据转存至该第一FIFO存储器;
若检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间,则将第二存储器中的M个权重数据转存至该第二FIFO存储器,其中每个权重数据中包括输入图像数据的输入索引以及输出图像数据的输出索引;
当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据,该权重数据w的输入索引对应输入图像数据i。
结合第一方面,在一种可能的实施方式中,该方法还包括:若检测到该待转存图像数据个数大于零且该第一可用存储空间小于该N个输入图像数据所占的存储空间,则将从该第一存储器中读取到的与该第一可用存储空间的大小相等的输入图像数据转存至该第一FIFO存储器。
结合第一方面,在一种可能的实施方式中,该方法还包括:若检测到该待转存权重数据个数大于零且该第二可用存储空间小于该M个权重数据所占的存储空间,则将从该第二存储器中读取到的与该第二可用存储空间的大小相等的权重数据转存至该第二FIFO存储器。
结合第一方面,在一种可能的实施方式中,该方法还包括:若检测到该待转存图像数据个数大于零且该第一FIFO存储器中不存在可用存储空间,则将所有待转存图像数据信息记录在该第一存储器中,以等待该第一FIFO存储器中存在可用存储空间。
结合第一方面,在一种可能的实施方式中,在得到该权重数据w的输出索引对应的输出图像数据之后,该方法还包括:
将该权重数据w的输出索引对应的输出图像数据顺序存储在第三FIFO存储器中;检测该第三FIFO存储器中存储的输出图像数据个数是否大于或等于K;若该第三FIFO存储器中存储的输出图像数据个数大于或等于K,则从该第三FIFO存储器中读取K个输出图像数据转存至第三存储器中;读取该第三存储器中存储的输出图像数据并输出。
第二方面,本申请实施例提供了一种数据处理装置,该装置包括:
第一转存模块,用于当检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将第一存储器中的N个输入图像数据转存至该第一FIFO存储器;
第二转存模块,用于当检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将第二存储器中的M个权重数据转存至该第二FIFO存储器,其中每个权重数据中包括输入图像数据的输入索引以及输出图像数据的输出索引;
卷积模块,用于当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据,该权重数据w的输入索引对应输入图像数据i。
结合第二方面,在一种可能的实施方式中,上述第一转存模块还用于:当检测到该待转存图像数据个数大于零且该第一可用存储空间小于该N个输入图像数据所占的存储空间时,将从该第一存储器中读取到的与该第一可用存储空间的大小相等的输入图像数据转存至该第一FIFO存储器。
结合第二方面,在一种可能的实施方式中,上述第二转存模块还用于:当检测到该待转存权重数据个数大于零且该第二可用存储空间小于该M个权重数据所占的存储空间时,将从该第二存储器中读取到的与该第二可用存储空间的大小相等的权重数据转存至该第二FIFO存储器。
结合第二方面,在一种可能的实施方式中,该装置还包括:记录模块,用于当检测到该待转存图像数据个数大于零且该第一FIFO存储器中不存在可用存储空间时,将所有待转存图像数据信息记录在该第一存储器中,以等待该第一FIFO存储器中存在可用存储空间。
结合第二方面,在一种可能的实施方式中,该装置还包括:存储模块,用于将该权重数据w的输出索引对应的输出图像数据顺序存储在第三FIFO存储器中;检测模块,用于检测该第三FIFO存储器中存储的输出图像数据个数是否大于或等于K;第三转存模块,用于当该第三FIFO存储器中存储的输出图像数据个数大于或等于K时,从该第三FIFO存储器中读取K个输出图像数据转存至第三存储器中;输出模块用于读取该第三存储器中存储的输出图像数据并输出。
结合第二方面,在一种可能的实施方式中,该装置还包括:第一存储器用于顺序存储输入图像数据,第一FIFO存储器用于缓存从该第一存储器转存的输入图像数据;第二存储器用于顺序存储输入的权重数据,第二FIFO存储器用于缓存从该第二存储器转存的权重数据;第三FIFO存储器用于顺序缓存输出图像数据,第三存储器用于存储从该第三FIFO存储器转存的输出图像数据。
第三方面,本申请实施例提供了一种终端,包括处理器和存储器,该处理器和存储器相互连接,其中,该存储器用于存储支持终端执行上述方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用该程序指令,执行上述第一方面的数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面的数据处理方法。
本申请实施例在检测到待转存图像数据个数大于零且第一FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将第一存储器中的N个输入图像数据转存至该第一FIFO存储器,在检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将第二存储器中的M个权重数据转存至该第二FIFO存储器,当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据。由于传统ISS主要是对处理器的硬件功能(如神经网络处理器的硬件功能为卷积功能)和硬件周期(即一个处理器跑完一个程序所用的时间)进行仿真。如果ISS既对硬件功能仿真又对硬件周期仿真,那么ISS仿真过程的数据处理必须按照硬件的要求来实现,即必须受硬件总线的带宽限制。然而在很多情况下,需要快速检验处理器的硬件功能,若此时仍采用传统ISS来检验,势必会因为受硬件带宽限制而达不到快速检验的目的。故本申请实施例提供一种可以应用在ISS仿真过程的数据处理方法,只对硬件功能进行仿真,采用大粒度数据处理方式来提高ISS的数据处理速度,从而实现对处理器硬件功能的快速检验。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的数据处理方法的一示意流程图;
图2a是本申请实施例提供的一次输入图像数据转存的示意图;
图2b是本申请实施例提供的一次权重数据转存的示意图;
图2c是本申请实施例提供的卷积运算的示意图;
图3是本申请实施例提供的数据处理方法的另一示意流程图;
图4a是本申请实施例提供的连续2次输入图像数据转存的示意图;
图4b是本申请实施例提供的连续2次权重数据转存的示意图;
图5是本申请实施例提供的数据处理装置的一示意性框图;
图6是本申请实施例提供的终端的一示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
还应当理解,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例可以应用在神经网络处理器(neural network processor,NNP)的ISS仿真过程中,因为NNP主要是用来执行卷积神经网络(convolutional neural network,CNN)计算任务的处理器,那么NNP的ISS数据处理的计算量就非常大(因为CNN的计算量大)。故本申请实施例通过一次将多个输入图像数据或多个权重数据转存至FIFO存储器中,并且一次从FIFO存储器中取一个输入图像数据与一个权重数据进行卷积运算,得到输出图像数据,使得数据转存时不受硬件总线带宽的限制,进而提高了ISS的数据处理速度,便于对NNP的硬件功能进行快速检验。
下面将结合图1至图6,对本申请实施例提供的数据处理方法及装置进行说明。
参见图1,是本申请实施例提供的数据处理方法的一示意流程图。如图1所示,该数据处理方法可包括步骤:
S101,若检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间大小,则将第一存储器中的N个输入图像数据转存至第一FIFO存储器。
在一些可行的实施方式中,终端可以接收输入的输入图像数据,并可以将接收到的输入图像数据顺序存储在第一存储器中。终端可以预设待转存图像数据总个数,该待转存图像数据总个数可以为输入图像数据个数与输出图像数据个数的乘积。其中,由于本申请实施例可以适用于ISS仿真,并且ISS仿真过程为:将预设的输入图像数据输入ISS中进行数据处理,获取ISS数据处理后的输出图像数据,并将ISS数据处理后的输出图像数据与预设的输出图像数据作比较,以此来评估ISS所仿真的处理器的硬件功能。故本申请实施例中的输入图像数据个数以及输出图像数据个数是预设的。终端可以检测待转存图像数据的个数是否大于零,当该待转存图像数据的个数大于零时,终端可以检测第一先进先出(firstinput first output,FIFO)存储器中是否存在可用存储空间,即检测该第一FIFO存储器的存储空间是否满了。当检测到该第一FIFO存储器中存在可用存储空间时,说明第一FIFO存储器的存储空间未满,终端可以检测该第一FIFO存储器的第一可用存储空间是否大于或等于N个输入图像数据所占的存储空间。当该第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,终端可以从第一存储器中读取N个输入图像数据,并可以将读取到的N个输入图像数据通过直接存储器访问(direct memory access,DMA)转存至该第一FIFO存储器中。终端在将该N个输入图像数据转存至该第一FIFO存储器之后,可以将上述待转存图像数据的个数减去N个已转存图像数据,得到新的待转存图像数据个数。其中,第一存储器可以为双倍速率同步动态随机存储器(Double Data Rate Synchronous Dynamic RandomAccess Memory,简称DDR SDRAM)。第一存储器可以用于存储终端接收到的输入图像数据,且第一存储器中的每个输入图像数据的大小相等,即每个输入图像数据所占的存储空间大小相等,一个输入图像数据可以表示一张输入图像的全部数据。从第一存储器中读取数据之后,第一存储器中存储的数据不发生改变。第一FIFO存储器可以用于缓存转存的输入图像数据。第一FIFO存储器的宽度固定,即第一FIFO存储器中每行可缓存的数据量相等。N可以为大于或等于1的整数。
例如,如图2a所示,是本申请实施例提供的一次输入图像数据转存的示意图。以4个输入图像数据以及4个输出图像数据为例,那么待转存图像数据个数为4*4=16。IFM0、IFM1、IFM2以及IFM3分别表示4个输入图像数据。假设N=3,1个输入图像数据所占的存储空间为128bit(比特),第一FIFO存储器的第一可用存储空间为512bit。由于此时的待转存图像数据个数16大于0,且第一可用存储空间512bit大于3个输入图像数据所占的存储空间3*128=384bit,故终端从第一存储器中读取3个输入图像数据(IFM0、IFM1、IFM2)通过DMA顺序转存至第一FIFO存储器中,那么转存后第一FIFO存储器的可用存储空间为512-384=128bit,待转存图像数据个数为16-3=13个。
S102,若检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间大小,则将第二存储器中的M个权重数据转存至第二FIFO存储器。
在一些可行的实施方式中,终端可以接收输入的权重数据,并可以将接收到的权重数据顺序存储在第二存储器中。终端可以获取该第二存储器中权重数据的个数,并可以将该权重数据的个数确定为待转存权重数据总个数。其中,权重数据的个数可以为输入图像数据个数与输出图像数据个数的乘积。终端可以检测待转存权重数据的个数是否大于零,当该待转存权重数据的个数大于零时,终端可以检测第二FIFO存储器中是否存在可用存储空间,即检测该第二FIFO存储器的存储空间是否满了。当检测到该第二FIFO存储器中存在可用存储空间时,说明第二FIFO存储器的存储空间未满,终端可以检测该第二FIFO存储器的第二可用存储空间是否大于或等于M个权重数据所占的存储空间。当该第二可用存储空间大于或等于M个权重数据所占的存储空间时,终端可以从第二存储器中读取M个权重数据,并可以将读取到的M个权重数据通过DMA转存至该第二FIFO存储器中。终端在将该M个权重数据转存至该第二FIFO存储器之后,可以将上述待转存权重数据的个数减去M个已转存权重数据,得到新的待转存权重数据的个数。其中,每个权重数据中可以包括一个输入图像数据的输入索引以及一个输出图像数据的输出索引。第二存储器也可以为DDR SDRAM。第二存储器可以用于存储终端接收到的权重数据。从第二存储器中读取数据之后,第二存储器中存储的数据不发生改变。第二FIFO存储器可以用于缓存转存的权重数据。第二FIFO存储器的宽度固定,即第二FIFO存储器中每行可缓存的数据量相等。由于权重数据的数据量较小,为便于读取,在第二存储器以及第二FIFO存储器中每个权重数据可以单独对应一个行地址。M可以为大于或等于1的整数。
例如,如图2b所示,是本申请实施例提供的一次权重数据转存的示意图。以4个输入图像数据以及4个输出图像数据为例,那么权重数据的个数就为4*4=16个,待转存权重数据的总个数就为16个。其中,权重数据用Wxy表示,Wxy中的下标x表示输入图像数据的输入索引,Wxy中的下标y表示输出图像数据的输出索引。第一存储器中包括W00、W10、W20、W30、W01、W11、W21、W31、W02、W12、W22、W32、W03、W13、W23以及W33这16个权重数据。假设M=8,1个权重数据对应1个行地址,假设1个行地址对应的存储空间为64bit,那么1个权重数据所占的存储空间也为64bit。假设第二FIFO存储器的第二可用存储空间为512bit。由于此时的待转存权重数据个数16大于0,且第二可用存储空间512bit等于8个权重数据所占的存储空间8*64=512bit,故终端从第二存储器中读取8个权重数据(也即8行权重数据)通过DMA顺序转存至第二FIFO存储器中,那么转存后第二FIFO存储器中不存在可用存储空间(512-512=0bit),待转存图像数据个数为16-8=8个。
在一些可行的实施方式中,步骤S101与步骤S102可以并行执行,本申请实施例对此不做限定。
S103,当第一FIFO存储器中缓存的输入图像数据个数以及第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从第一FIFO存储器中读取到的输入图像数据i与从第二FIFO存储器中读取到的权重数据w进行卷积运算,得到权重数据w的输出索引对应的输出图像数据。
在一些可行的实施方式中,终端可以分别获取上述第一FIFO存储器中缓存的输入图像数据个数以及上述第二FIFO存储器中缓存的权重数据个数。当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,说明FIFO存储器中缓存的数据量满足一次卷积运算所需的数据量,则终端可以从该第一FIFO存储器中读取一个输入图像数据i,从该第二FIFO存储器中读取一个权重数据w。终端可以获取该输入图像数据i与该权重数据w进行乘累加运算之后所得的部分和(指输出图像数据的部分和),并可以将该部分和与该权重数据w的输出索引所对应的多个部分和进行累加运算,得到该权重数据w的输出索引对应的输出图像数据。在ISS的数据处理过程中,本申请实施例只仿真处理器的硬件功能(即卷积运算的功能),一次将多个输入图像数据或多个权重数据转存至FIFO存储器中,并且一次取一个输入图像数据与一个权重数据进行卷积运算,使得转存时不受硬件总线带宽的限制,进而提高了ISS的数据处理速度,便于对处理器的硬件功能进行快速检验。其中,第二FIFO存储器的宽度固定,即第二FIFO存储器中每行可存储的数据量相等。每个输出图像数据的大小相等,即每个输出图像数据所占的存储空间大小相等。一个输出图像数据可以表示一张输出图像的全部数据。
例如,如图2c所示,是本申请实施例提供的卷积运算的示意图。以得到一个输出图像数据OFM0为例。假设共有4个输入图像数据和4个输出图像数据,那么权重数据的个数就为4*4=16个。IFM0、IFM1、IFM2以及IFM3分别表示4个输入图像数据,OFM0、OFM1、OFM2以及OFM3分别表示4个输出图像数据。终端从第一FIFO存储器中读取1个输入图像数据IFM0,并从第二FIFO存储器中读取1个权重数据W00,将IFM0与W00做乘累加之后得到W00的输出索引0对应的OFM0的部分和0。将部分和0作为下一次累加的部分和。终端再从第一FIFO存储器中读取1个输入图像数据IFM1,并从第二FIFO存储器中读取1个权重数据W10,将IFM1与W10做乘累加之后得到输出索引0对应的OFM0的部分和1。将上一次的部分和(即部分和0)与这次OFM0的部分和1进行累加后作为下一次累加的部分和。终端从第一FIFO存储器中读取1个输入图像数据IFM2,并从第二FIFO存储器中读取1个权重数据W20,将IFM2与W20做乘累加之后得到输出索引0对应的OFM0的部分和2。将上一次的部分和(即部分和0与部分和1之和)与这次OFM0的部分和2进行累加后作为下一次累加的部分和。终端从第一FIFO存储器中读取1个输入图像数据IFM3,并从第二FIFO存储器中读取1个权重数据W30,将IFM3与W30做乘累加之后得到输出索引0对应的OFM0的部分和3。将上一次的部分和(即部分和0、部分和1以及部分和2之和)与这次OFM0的部分和3进行累加后得到完整的输出图像数据OFM0。
在本申请实施例中,终端在检测到待转存图像数据个数大于零且第一FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将第一存储器中的N个输入图像数据转存至该第一FIFO存储器,在检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将第二存储器中的M个权重数据转存至该第二FIFO存储器,当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据,可以提高ISS的数据处理速度,便于对处理器的硬件功能进行快速检验。
参见图3,是本申请实施例提供的数据处理方法的另一示意流程图。如图3所示,该数据处理方法可包括步骤:
S301,检测待转存图像数据个数是否大于零。
S302,若待转存图像数据个数大于零,则检测第一FIFO存储器中是否存在第一可用存储空间。
S303,若第一FIFO存储器中不存在第一可用存储空间,则将所有待转存图像数据信息记录在第一存储器中,以等待第一FIFO存储器中存在可用存储空间。
S304,若第一FIFO存储器中存在第一可用存储空间,检测第一可用存储空间是否大于或等于N个输入图像数据所占的存储空间。
S305,若第一可用存储空间大于或等于N个输入图像数据所占的存储空间,则将第一存储器中的N个输入图像数据转存至第一FIFO存储器。
S306,若第一可用存储空间小于N个输入图像数据所占的存储空间,则将从第一存储器中读取到的与第一可用存储空间的大小相等的输入图像数据转存至第一FIFO存储器。
在一些可行的实施方式中,终端可以接收输入的输入图像数据,并可以将接收到的输入图像数据顺序存储在第一存储器中。终端可以预设待转存图像数据总个数,该待转存图像数据总个数可以为输入图像数据个数与输出图像数据个数的乘积。其中,在ISS的仿真过程中,输入图像数据个数以及输出图像数据个数可以为预设。终端可以检测待转存图像数据的个数是否大于零,当该待转存图像数据的个数等于零时,则停止转存输入图像数据。当该待转存图像数据的个数大于零时,终端可以检测第一FIFO存储器中是否存在第一可用存储空间,即检测该第一FIFO存储器的存储空间是否满了。当该第一FIFO存储器中不存在第一可用存储空间时,说明第一FIFO存储器的存储空间已满,终端可以将所有待转存图像数据信息记录在该第一存储器中,以等待该第一FIFO存储器中存在可用存储空间。其中,待转存图像数据信息可以包括待转存图像数据个数(1到ni*no)、输入图像数据的输入索引(即写失败时正在进行转存的输入图像数据的输入索引,0到ni-1)、输出图像数据的输出索引(即写失败时正在进行转存的输入图像数据是用于计算哪个输出图像数据的输出索引,0到no-1),输入图像数据的行索引(即写失败时正在进行转存的输入图像数据的行索引,0到输入图像数据垂直方向像素数-1)、第一存储器的读地址等关键寄存器。ni表示输入图像数据的总个数,no表示输出图像数据的总个数。在下一次出现第一FIFO存储器中存在可用存储空间时,可以根据第一存储器中记录的待转存图像数据信息,转存输入图像数据。
当该第一FIFO存储器中存在第一可用存储空间时,说明第一FIFO存储器的存储空间未满,终端可以检测该第一FIFO存储器的第一可用存储空间是否大于或等于N个输入图像数据所占的存储空间。当该第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,终端可以从第一存储器中读取N个输入图像数据,并可以将读取到的N个输入图像数据通过DMA转存至该第一FIFO存储器中。当该第一可用存储空间小于N个输入图像数据所占的存储空间时,终端可以从第一存储器中读取与该第一可用存储空间的大小相等的输入图像数据,并将读取到的输入图像数据通过DMA转存至该第一FIFO存储器中。终端在将读取到的输入图像数据转存至该第一FIFO存储器之后,可以将上述待转存图像数据的个数减去已转存图像数据个数,得到新的待转存图像数据个数。其中,第一存储器中的每个输入图像数据的大小相等,即每个输入图像数据所占的存储空间大小相等,并且从第一存储器中读取数据之后,第一存储器中存储的数据不发生改变。第一FIFO存储器的宽度固定,即第一FIFO存储器中每行可缓存的数据量相等。N可以为大于或等于1的整数。
例如,如图4a所示,是本申请实施例提供的连续2次输入图像数据转存的示意图。以4个输入图像数据以及4个输出图像数据为例,那么待转存图像数据个数为4*4=16。IFM0、IFM1、IFM2以及IFM3分别表示4个输入图像数据。假设N=3,1个输入图像数据所占的存储空间为128bit(比特),第一FIFO存储器的第一可用存储空间为512bit。由于待转存图像数据个数16个大于0,且第一可用存储空间512bit大于3个输入图像数据所占的存储空间3*128=384bit,故终端从第一存储器中读取3个输入图像数据(IFM0、IFM1、IFM2)通过DMA顺序转存至第一FIFO存储器中,那么第一FIFO存储器的可用存储空间为512-384=128bit,待转存图像数据个数为16-3=13个。若在下一次转存时,第一FIFO存储器中的IFM0已经被读取出去,则此时第一FIFO存储器剩余的可用存储空间为128+128(IFM0释放的128bit)=256bit。由于此时的待转存图像数据个数为16-3=13大于0,且第一FIFO存储器剩余的可用存储空间256bit小于3个输入图像数据3*128=384bit,则从第一存储器中读取大小为256bit的输入图像数据(2个输入图像数据IFM3、IFM0),并将读取到的输入图像数据IFM3、IFM0通过DMA顺序转存至第一FIFO存储器中,那么第一FIFO存储器中不存在可用存储空间(256-256=0bit)了,待转存图像数据个数为16-3-2=11个。
S307,检测待转存权重数据个数是否大于零。
S308,若待转存权重数据个数大于零,则检测第二FIFO存储器中是否存在第二可用存储空间。
S309,若第二FIFO存储器中不存在第二可用存储空间,则将所有待转存权重数据信息记录在第二存储器中,以等待第二FIFO存储器中存在可用存储空间。
S310,若第二FIFO存储器中存在第二可用存储空间,检测第二可用存储空间是否大于或等于M个权重数据所占的存储空间。
S311,若第二可用存储空间大于或等于M个权重数据所占的存储空间,则将第二存储器中的M个权重数据转存至第二FIFO存储器。
S312,若第二可用存储空间小于M个权重数据所占的存储空间,则将从第二存储器中读取到的与第二可用存储空间的大小相等的权重数据转存至第二FIFO存储器。
在一些可行的实施方式中,终端可以接收输入的权重数据,并可以将接收到的权重数据顺序存储在第二存储器中。终端可以获取该第二存储器中权重数据的个数,并可以将该权重数据的个数确定为待转存权重数据总个数。其中,权重数据的个数可以为输入图像数据个数与输出图像数据个数的乘积。终端可以检测待转存权重数据的个数是否大于零,当该待转存权重数据的个数等于零时,则停止转存权重数据。当该待转存权重数据的个数大于零时,终端可以检测第二FIFO存储器中是否存在第二可用存储空间,即检测该第二FIFO存储器的存储空间是否满了。当检测到该第二FIFO存储器中不存在第二可用存储空间时,说明第二FIFO存储器的存储空间已满,终端可以将所有待转存权重数据信息记录在第二存储器中,以等待第二FIFO存储器中存在可用存储空间。其中,待转存权重数据信息与上述待转存图像数据信息类似,包括权重数据的一些关键寄存器。在下一次出现第二FIFO存储器中存在可用存储空间时,可以根据第二存储器中记录的待转存权重数据信息,转存权重数据。
当检测到该第二FIFO存储器中存在第二可用存储空间时,说明第二FIFO存储器的存储空间未满,终端可以检测该第二FIFO存储器的第二可用存储空间是否大于或等于M个权重数据所占的存储空间。当该第二可用存储空间大于或等于M个权重数据所占的存储空间时,终端可以从第二存储器中读取M个权重数据,并可以将读取到的M个权重数据通过DMA转存至该第二FIFO存储器中。当该第二可用存储空间小于M个权重数据所占的存储空间时,终端可以从第二存储器中读取与该第二可用存储空间大小相等的权重数据,并可以将读取到的权重数据通过DMA转存至该第二FIFO存储器中。终端在将读取到的权重数据转存至该第二FIFO存储器之后,可以将上述待转存权重数据的个数减去已转存权重数据,得到新的待转存权重数据的个数。其中,每个权重数据中可以包括一个输入图像数据的输入索引以及一个输出图像数据的输出索引。从第二存储器中读取数据之后,第二存储器中存储的数据不发生改变。第二FIFO存储器的宽度固定,即第二FIFO存储器中每行可缓存的数据量相等。由于权重数据的数据量较小,为便于读取,在第二存储器以及第二FIFO存储器中每个权重数据可以单独对应一个行地址。M可以为大于或等于1的整数。
例如,如图4b所示,是本申请实施例提供的连续2次权重数据转存的示意图。以4个输入图像数据以及4个输出图像数据为例,那么权重数据的个数就为4*4=16个,待转存权重数据的总个数就为16。其中,权重数据用Wxy表示,Wxy中的下标x表示输入图像数据的输入索引,Wxy中的下标y表示输出图像数据的输出索引。第一存储器中包括W00、W10、W20、W30、W01、W11、W21、W31、W02、W12、W22、W32、W03、W13、W23以及W33这16个权重数据。假设M=8,1个权重数据对应1个行地址,假设1个行地址对应的存储空间为64bit,那么1个权重数据所占的存储空间也为64bit。假设第二FIFO存储器的第二可用存储空间为512bit。由于此时的待转存权重数据个数16大于0,且第二可用存储空间512bit等于8个权重数据所占的存储空间8*64=512bit,故终端从第二存储器中读取8个权重数据(也即8行权重数据)通过DMA顺序转存至第二FIFO存储器中,那么此时第二FIFO存储器中不存在可用存储空间(512-512=0bit),待转存图像数据个数为16-8=8个。由于此时第二FIFO存储器中不存在可用存储空间了,那么等待第二FIFO存储器中的权重数据被释放,即等待第二FIFO存储器中出现可用存储空间。假设在下一次转存开始时,第二FIFO存储器中的W00已经被读取出去,则此时第二FIFO存储器剩余的可用存储空间为64bit(W00释放的64bit)。由于此时的待转存图像数据个数为16-8=8大于0,且第二FIFO存储器剩余的可用存储空间64bit小于8个权重数据8*64=256bit,则从第二存储器中读取大小为64bit的权重数据(1个权重数据W02),并将读取到的权重数据W02通过DMA顺序转存至第二FIFO存储器中,那么此时的第二FIFO存储器中不存在可用存储空间(64-64=0bit)了,待转存权重数据个数为16-8-1=7个。
在一些可行的实施方式中,步骤S301-步骤S306与步骤S307-步骤S312可以并行执行,本申请实施例对此不做限定。
S313,当第一FIFO存储器中缓存的输入图像数据个数以及第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从第一FIFO存储器中读取到的输入图像数据i与从第二FIFO存储器中读取到的权重数据w进行卷积运算,得到权重数据w的输出索引对应的输出图像数据。
在一些可行的实施方式中,本申请实施例的步骤S313的实现方式可参考图1所示的步骤S103的实现方式,在此不再赘述。
在一些可行的实施方式中,终端在得到上述权重数据w的输出索引对应的输出图像数据之后,可以将该权重数据w的输出索引对应的输出图像数据顺序缓存在第三FIFO存储器中,并可以检测该第三FIFO存储器中缓存的输出图像数据的个数是否大于或等于K。当检测到该第三FIFO存储器中缓存的输出图像数据的个数大于或等于K时,可以从该第三FIFO存储器中读取K个输出图像数据,并可以将读取到的K个输出图像数据通过DMA转存至第三存储器中。终端可以顺序读取该第三存储器中存储的输出图像数据并输出。终端还可以将读取到的输出图像数据与预设的输出图像数据进行比较,以此来评估ISS所仿真处理器的硬件功能。在ISS的数据处理过程中,本申请实施例只仿真处理器的硬件功能(即卷积运算的功能),一次将存储器中多个输入图像数据或多个权重数据转存至对应的FIFO存储器中,且一次取一个输入图像数据与一个权重数据进行卷积运算,且一次将FIFO存储器中的多个输出图像数据转存至对应的存储器中。从而使得数据转存时不受硬件总线带宽的限制,进一步提高了ISS的数据处理速度,便于对处理器的硬件功能进行快速检验。其中,第三FIFO存储器的宽度固定,即第三FIFO存储器中每行可缓存的数据量相等。每个输出图像数据的大小相等,即每个输出图像数据所占的存储空间大小相等。K可以为大于或等于1的整数。
在本申请实施例中,终端在FIFO存储器有可用存储空间以及待转存数据个数(待转存图像数据或待转存权重)不为0时,循环转存输入图像数据(一次可转存多个输入图像数据)以及循环转存权重数据(一次也可转存多个权重数据)。在待转存数据个数不为0且FIFO存储器没有可用存储空间时,则等待FIFO存储器中出现可用存储空间后再转存。在待转存数据个数为0时,则不再进行转存操作。终端最后将转存后的输入图像数据与权重数据做卷积运算,得到输出图像数据。将输出图像数据从FIFO存储器转存至输出存储器中长久存储。提供了一种更完备的数据处理方法,进一步提高了ISS的数据处理速度,便于对处理器的硬件功能进行快速检验。
参见图5,是本申请实施例提供的数据处理装置的一示意性框图。如图5所示,本申请实施例的数据处理装置包括:
第一转存模块100,用于当检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将第一存储器中的N个输入图像数据转存至该第一FIFO存储器;
第二转存模块110,用于当检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将第二存储器中的M个权重数据转存至该第二FIFO存储器,其中每个权重数据中包括输入图像数据的输入索引以及输出图像数据的输出索引;
卷积模块120,用于当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据,该权重数据w的输入索引对应输入图像数据i。
在一些可行的实施方式中,上述第一转存模块100还用于:当检测到该待转存图像数据个数大于零且该第一可用存储空间小于该N个输入图像数据所占的存储空间时,将从该第一存储器中读取到的与该第一可用存储空间的大小相等的输入图像数据转存至该第一FIFO存储器。
在一些可行的实施方式中,上述第二转存模块110还用于:当检测到该待转存权重数据个数大于零且该第二可用存储空间小于该M个权重数据所占的存储空间时,将从该第二存储器中读取到的与该第二可用存储空间的大小相等的权重数据转存至该第二FIFO存储器。
在一些可行的实施方式中,该装置还包括记录模块130。该记录模块130,用于当检测到该待转存图像数据个数大于零且该第一FIFO存储器中不存在可用存储空间时,将所有待转存图像数据信息记录在该第一存储器中,以等待该第一FIFO存储器中存在可用存储空间。
在一些可行的实施方式中,该装置还包括存储模块140、检测模块150、第三转存模块160以及输出模块170。该存储模块140,用于将该权重数据w的输出索引对应的输出图像数据顺序存储在第三FIFO存储器中;该检测模块150,用于检测该第三FIFO存储器中存储的输出图像数据个数是否大于或等于K;该第三转存模块160,用于当该第三FIFO存储器中存储的输出图像数据个数大于或等于K时,从该第三FIFO存储器中读取K个输出图像数据转存至第三存储器中;该输出模块170用于读取该第三存储器中存储的输出图像数据并输出。
在一些可行的实施方式中,该装置还包括第一存储器180、第一FIFO存储器190、第二存储器200、第二FIFO存储器210、第三存储器220以及第三FIFO存储器230。该第一存储器180用于顺序存储输入图像数据,该第一FIFO存储器190用于缓存从该第一存储器转存的输入图像数据;该第二存储器200用于顺序存储输入的权重数据,该第二FIFO存储器210用于缓存从该第二存储器转存的权重数据;该第三FIFO存储器220用于顺序缓存输出图像数据,该第三存储器230用于存储从该第三FIFO存储器转存的输出图像数据。
具体实现中,上述数据处理装置可通过上述各个模块执行上述图1或图3所提供的实现方式中各个步骤所提供的实现方式,实现上述各实施例中所实现的功能,具体可参见上述图1或图3所示的方法实施例中各个步骤提供的相应描述,在此不再赘述。
本申请实施例中,数据处理装置在检测到待转存图像数据个数大于零且第一FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将第一存储器中的N个输入图像数据转存至该第一FIFO存储器,在检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将第二存储器中的M个权重数据转存至该第二FIFO存储器,当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据,可以提高ISS的数据处理速度,便于对处理器的硬件功能进行快速检验。
参见图6,是本申请实施例提供的终端的一示意性框图。如图6所示,本申请实施例中的终端可以包括:一个或多个处理器6001和存储器6002。上述处理器6001和存储器6002通过总线6003连接。存储器6002用于存储计算机程序,所述计算机程序包括程序指令,处理器6001用于执行存储器6002存储的程序指令。其中,上述处理器6001被配置用于调用所述程序指令执行:
若检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间,则将第一存储器中的N个输入图像数据转存至该第一FIFO存储器;
若检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间,则将第二存储器中的M个权重数据转存至该第二FIFO存储器,其中每个权重数据中包括输入图像数据的输入索引以及输出图像数据的输出索引;
当该第一FIFO存储器中缓存的输入图像数据个数以及该第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从该第一FIFO存储器中读取到的输入图像数据i与从该第二FIFO存储器中读取到的权重数据w进行卷积运算,得到该权重数据w的输出索引对应的输出图像数据,该权重数据w的输入索引对应输入图像数据i。
应当理解,在本申请实施例中,所称处理器6001可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器6002可以包括只读存储器和随机存取存储器,并向处理器6001提供指令和数据。存储器6002的一部分还可以包括非易失性随机存取存储器。例如,存储器6002还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器6001可执行本申请实施例提供的数据处理方法中所描述的实现方式,也可执行本申请实施例所描述的数据处理装置的实现方式,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例所述的数据处理装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart mediacard,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请是参照本申请实施例的方法、装置和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程诊疗数据的处理设备的处理器以产生一个机器,使得通过计算机或其他可编程诊疗数据的处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程诊疗数据的处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程诊疗数据的处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
若检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间,则将第一存储器中的N个输入图像数据转存至所述第一FIFO存储器;
若检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间,则将第二存储器中的M个权重数据转存至所述第二FIFO存储器,其中每个权重数据中包括输入图像数据的输入索引以及输出图像数据的输出索引;
当所述第一FIFO存储器中缓存的输入图像数据个数以及所述第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从所述第一FIFO存储器中读取到的输入图像数据i与从所述第二FIFO存储器中读取到的权重数据w进行卷积运算,得到所述权重数据w的输出索引对应的输出图像数据,所述权重数据w的输入索引对应输入图像数据i。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若检测到所述待转存图像数据个数大于零且所述第一可用存储空间小于所述N个输入图像数据所占的存储空间,则将从所述第一存储器中读取到的与所述第一可用存储空间的大小相等的输入图像数据转存至所述第一FIFO存储器。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若检测到所述待转存权重数据个数大于零且所述第二可用存储空间小于所述M个权重数据所占的存储空间,则将从所述第二存储器中读取到的与所述第二可用存储空间的大小相等的权重数据转存至所述第二FIFO存储器。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
若检测到所述待转存图像数据个数大于零且所述第一FIFO存储器中不存在可用存储空间,则将所有待转存图像数据信息记录在所述第一存储器中,以等待所述第一FIFO存储器中存在可用存储空间。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述在得到所述权重数据w的输出索引对应的输出图像数据之后,所述方法还包括:
将所述权重数据w的输出索引对应的输出图像数据顺序存储在第三FIFO存储器中;
检测所述第三FIFO存储器中存储的输出图像数据个数是否大于或等于K;
若所述第三FIFO存储器中存储的输出图像数据个数大于或等于K,则从所述第三FIFO存储器中读取K个输出图像数据转存至第三存储器中;
读取所述第三存储器中存储的输出图像数据并输出。
6.一种数据处理装置,其特征在于,包括:
第一转存模块,用于当检测到待转存图像数据个数大于零且第一先进先出FIFO存储器的第一可用存储空间大于或等于N个输入图像数据所占的存储空间时,将第一存储器中的N个输入图像数据转存至所述第一FIFO存储器;
第二转存模块,用于当检测到待转存权重数据个数大于零且第二FIFO存储器的第二可用存储空间大于或等于M个权重数据所占的存储空间时,将第二存储器中的M个权重数据转存至所述第二FIFO存储器,其中每个权重数据中包括输入图像数据的输入索引以及输出图像数据的输出索引;
卷积模块,用于当所述第一FIFO存储器中缓存的输入图像数据个数以及所述第二FIFO存储器中缓存的权重数据个数均大于或等于1时,将从所述第一FIFO存储器中读取到的输入图像数据i与从所述第二FIFO存储器中读取到的权重数据w进行卷积运算,得到所述权重数据w的输出索引对应的输出图像数据,所述权重数据w的输入索引对应输入图像数据i。
7.根据权利要求6所述的装置,其特征在于,所述第一转存模块还用于:
当检测到所述待转存图像数据个数大于零且所述第一可用存储空间小于所述N个输入图像数据所占的存储空间时,将从所述第一存储器中读取到的与所述第一可用存储空间的大小相等的输入图像数据转存至所述第一FIFO存储器。
8.根据权利要求6或7所述的装置,其特征在于,所述第二转存模块还用于:
当检测到所述待转存权重数据个数大于零且所述第二可用存储空间小于所述M个权重数据所占的存储空间时,将从所述第二存储器中读取到的与所述第二可用存储空间的大小相等的权重数据转存至所述第二FIFO存储器。
9.一种终端,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-5任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811654890.2A CN111382094B (zh) | 2018-12-29 | 2018-12-29 | 一种数据处理方法及装置 |
US17/253,625 US11055240B2 (en) | 2018-12-29 | 2019-10-30 | Data processing method and device for performing a convolution operation |
PCT/CN2019/114332 WO2020134529A1 (zh) | 2018-12-29 | 2019-10-30 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811654890.2A CN111382094B (zh) | 2018-12-29 | 2018-12-29 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111382094A true CN111382094A (zh) | 2020-07-07 |
CN111382094B CN111382094B (zh) | 2021-11-30 |
Family
ID=71129648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811654890.2A Active CN111382094B (zh) | 2018-12-29 | 2018-12-29 | 一种数据处理方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11055240B2 (zh) |
CN (1) | CN111382094B (zh) |
WO (1) | WO2020134529A1 (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928877A (zh) * | 2006-08-17 | 2007-03-14 | 电子科技大学 | Soc软硬件一体化设计验证方法 |
US20110209005A1 (en) * | 2001-11-30 | 2011-08-25 | Adams Phillip M | Time-gap defect detection apparatus and method |
CN103310419A (zh) * | 2013-06-18 | 2013-09-18 | 深圳大学 | 一种小目标图像处理装置 |
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
CN108198125A (zh) * | 2017-12-29 | 2018-06-22 | 深圳云天励飞技术有限公司 | 一种图像处理方法及装置 |
CN108984148A (zh) * | 2018-06-13 | 2018-12-11 | 浙江大华技术股份有限公司 | 一种基于同步fifo存储器的数据存储的方法及存储器 |
CN109032781A (zh) * | 2018-07-13 | 2018-12-18 | 重庆邮电大学 | 一种卷积神经网络算法的fpga并行系统 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379109A1 (en) * | 2015-06-29 | 2016-12-29 | Microsoft Technology Licensing, Llc | Convolutional neural networks on hardware accelerators |
GB2554711B (en) * | 2016-10-06 | 2020-11-25 | Imagination Tech Ltd | Buffer addressing for a convolutional neural network |
US10726330B2 (en) * | 2016-10-11 | 2020-07-28 | The Research Foundation For The State University Of New York | System, method, and accelerator to process convolutional neural network layers |
CN106910168B (zh) * | 2017-01-09 | 2020-02-28 | 中国科学院自动化研究所 | 并行图像色彩增强方法 |
US10489199B2 (en) * | 2017-05-12 | 2019-11-26 | Google Llc | Program code transformations to improve image processor runtime efficiency |
KR102008287B1 (ko) * | 2017-05-23 | 2019-08-07 | 고려대학교 산학협력단 | 양방향 선입 선출 메모리와 이를 이용하는 컨볼루션 연산 처리 장치 |
US10460416B1 (en) * | 2017-10-17 | 2019-10-29 | Xilinx, Inc. | Inline image preprocessing for convolution operations using a matrix multiplier on an integrated circuit |
US11386644B2 (en) * | 2017-10-17 | 2022-07-12 | Xilinx, Inc. | Image preprocessing for generalized image processing |
EP3480748A1 (en) * | 2017-11-06 | 2019-05-08 | Imagination Technologies Limited | Neural network hardware |
CN108171317B (zh) * | 2017-11-27 | 2020-08-04 | 北京时代民芯科技有限公司 | 一种基于soc的数据复用卷积神经网络加速器 |
US11769040B2 (en) * | 2018-09-10 | 2023-09-26 | Nvidia Corp. | Scalable multi-die deep learning system |
US11501141B2 (en) * | 2018-10-12 | 2022-11-15 | Western Digital Technologies, Inc. | Shifting architecture for data reuse in a neural network |
JP7227769B2 (ja) * | 2019-01-10 | 2023-02-22 | キヤノン株式会社 | 情報処理装置及びメモリ制御方法 |
KR20200097396A (ko) * | 2019-02-08 | 2020-08-19 | 삼성전자주식회사 | 메모리 장치 및 이를 이용한 컴퓨팅 장치 |
US11270197B2 (en) * | 2019-03-12 | 2022-03-08 | Nvidia Corp. | Efficient neural network accelerator dataflows |
CN111767994B (zh) * | 2019-04-01 | 2024-06-11 | 中国科学院半导体研究所 | 一种神经元计算装置 |
CN110390384B (zh) * | 2019-06-25 | 2021-07-06 | 东南大学 | 一种可配置的通用卷积神经网络加速器 |
US11347477B2 (en) * | 2019-09-27 | 2022-05-31 | Intel Corporation | Compute in/near memory (CIM) circuit architecture for unified matrix-matrix and matrix-vector computations |
US11726950B2 (en) * | 2019-09-28 | 2023-08-15 | Intel Corporation | Compute near memory convolution accelerator |
-
2018
- 2018-12-29 CN CN201811654890.2A patent/CN111382094B/zh active Active
-
2019
- 2019-10-30 WO PCT/CN2019/114332 patent/WO2020134529A1/zh active Application Filing
- 2019-10-30 US US17/253,625 patent/US11055240B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110209005A1 (en) * | 2001-11-30 | 2011-08-25 | Adams Phillip M | Time-gap defect detection apparatus and method |
CN1928877A (zh) * | 2006-08-17 | 2007-03-14 | 电子科技大学 | Soc软硬件一体化设计验证方法 |
CN103310419A (zh) * | 2013-06-18 | 2013-09-18 | 深圳大学 | 一种小目标图像处理装置 |
CN107239824A (zh) * | 2016-12-05 | 2017-10-10 | 北京深鉴智能科技有限公司 | 用于实现稀疏卷积神经网络加速器的装置和方法 |
CN108198125A (zh) * | 2017-12-29 | 2018-06-22 | 深圳云天励飞技术有限公司 | 一种图像处理方法及装置 |
CN108984148A (zh) * | 2018-06-13 | 2018-12-11 | 浙江大华技术股份有限公司 | 一种基于同步fifo存储器的数据存储的方法及存储器 |
CN109032781A (zh) * | 2018-07-13 | 2018-12-18 | 重庆邮电大学 | 一种卷积神经网络算法的fpga并行系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2020134529A1 (zh) | 2020-07-02 |
US11055240B2 (en) | 2021-07-06 |
CN111382094B (zh) | 2021-11-30 |
US20210124698A1 (en) | 2021-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111580866B (zh) | 一种向量运算装置及运算方法 | |
CN109194960A (zh) | 一种图像帧渲染方法、装置及电子设备 | |
CN110073329A (zh) | 访存设备、计算设备和应用于卷积神经网络运算的设备 | |
EP2455854A1 (en) | System, device, and method for on-the-fly permutations of vector memories for executing intra-vector operations | |
EP2280341A1 (en) | Low power FIR filter in multi-mac architecture | |
KR20140073553A (ko) | Fifo 로드 명령 | |
CN110490308B (zh) | 加速库的设计方法、终端设备及存储介质 | |
CN107870780B (zh) | 数据处理装置和方法 | |
CN108198125B (zh) | 一种图像处理方法及装置 | |
US20120327260A1 (en) | Parallel operation histogramming device and microcomputer | |
Cadenas et al. | Parallel pipelined array architectures for real-time histogram computation in consumer devices | |
CN111382094B (zh) | 一种数据处理方法及装置 | |
JP7124608B2 (ja) | 計算機および計算方法 | |
WO2024045665A1 (zh) | 多点乘运算系统、方法、图形处理器、电子装置及设备 | |
CN113626080A (zh) | 数据处理装置以及相关产品 | |
CN110825439B (zh) | 信息处理方法和处理器 | |
EP3714370B1 (en) | Data bus with multi-input pipeline | |
EP3474224B1 (en) | Graphics processing method and device | |
US7024577B2 (en) | Program logic device for synchronous operation with multiple clock signals | |
CN111124358A (zh) | 一种序列累加器的运算方法和设备 | |
Eswar | Noise reduction and image smoothing using gaussian blur | |
CN118296084B (zh) | 数据处理设备、指令同步方法、电子设备和存储介质 | |
US8701061B2 (en) | Semiconductor design support apparatus | |
CN113434571B (zh) | 一种知识挖掘方法、平台、系统及存储介质 | |
JP5132612B2 (ja) | データ転送方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |