CN113610223B - 乘法电路、卷积运算方法、介质、片上系统和电子设备 - Google Patents
乘法电路、卷积运算方法、介质、片上系统和电子设备 Download PDFInfo
- Publication number
- CN113610223B CN113610223B CN202110886965.5A CN202110886965A CN113610223B CN 113610223 B CN113610223 B CN 113610223B CN 202110886965 A CN202110886965 A CN 202110886965A CN 113610223 B CN113610223 B CN 113610223B
- Authority
- CN
- China
- Prior art keywords
- data
- convolution
- input data
- convolution operation
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000015654 memory Effects 0.000 claims abstract description 57
- 230000010339 dilation Effects 0.000 claims description 20
- 230000003139 buffering effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005764 inhibitory process Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 101100328957 Caenorhabditis elegans clk-1 gene Proteins 0.000 description 2
- 101100113692 Caenorhabditis elegans clk-2 gene Proteins 0.000 description 2
- 101150085102 Clk3 gene Proteins 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- HJCCZIABCSDUPE-UHFFFAOYSA-N methyl 2-[4-[[4-methyl-6-(1-methylbenzimidazol-2-yl)-2-propylbenzimidazol-1-yl]methyl]phenyl]benzoate Chemical compound CCCC1=NC2=C(C)C=C(C=3N(C4=CC=CC=C4N=3)C)C=C2N1CC(C=C1)=CC=C1C1=CC=CC=C1C(=O)OC HJCCZIABCSDUPE-UHFFFAOYSA-N 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/483—Computations with numbers represented by a non-linear combination of denominational numbers, e.g. rational numbers, logarithmic number system or floating-point numbers
- G06F7/487—Multiplying; Dividing
- G06F7/4876—Multiplying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Neurology (AREA)
- Nonlinear Science (AREA)
- Complex Calculations (AREA)
Abstract
本申请涉及一种乘法电路、卷积运算方法、介质、片上系统和电子设备。乘法电路包括:PE阵列、用于存储输入数据的第一缓存、用于存储多个第一卷积核的第二缓存,以及连接于PE阵列和第一缓存之间的开关电路;其中,在乘法电路执行扩张卷积运算时:开关电路用于根据第二卷积核中的扩张数据的排布,对输入数据中的第一待卷积数据进行选择输出,以将第一待卷积数据中的有效数据输出至PE阵列,其中有效数据为第一待卷积数据中不与第二卷积核中的扩张数据进行运算的数据,第二卷积核是在第一卷积核中加入扩张数据生成的;PE阵列用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
Description
技术领域
本申请涉及神经网络领域,特别涉及一种乘法电路、卷积运算方法、介质、片上系统和电子设备。
背景技术
近年来,随着人工智能(Artificial Intelligence,AI)技术的快速发展,支持AI的无人驾驶汽车、无人机、智能终端等的应用越来越广泛。AI通过神经网络技术,对各种传感器输入的数据进行实时处理,实现对外界环境的感知。通常为了提升AI应用终端的处理性能,会采用专用的硬件平台来实现特定的运算,例如将原本移植有卷积神经网络模型的AI应用终端中涉及的卷积运算通过专用的硬件平台来实现。
然而现有的一些专用的硬件平台通常只能实现特定类型的卷积运算,或者这些专用的硬件平台在实现特定类型的卷积运算时对应的计算效率高,而当这些专用的硬件平台在实现非特定类型的卷积运算时对应的计算效率低,例如,这些专用的硬件平台在执行标准卷积运算时的计算效率高,而执行扩张卷积运算时的计算效率低。因此,现有的一些专用的硬件平台的应用范围较窄,不利于产品的推广应用。
发明内容
本申请实施例提供了一种乘法电路、卷积运算方法、介质、片上系统和电子设备。
本申请的技术方案通过在乘法电路中部署开关电路和输入数据缓存,使得在不同的运算模式下,在每个运算周期,开关电路从输入数据缓存中存储的输入数据中选择部分数据作为目标数据,送给乘法电路中的目标运算单元进行卷积运算。其中,开关电路从输入数据缓存中选择的目标数据是按照预设间隔从输入数据中选取的。如此,使得本申请提供的乘法电路能够在执行扩张卷积运算时,无需将卷积核中填充多个零,并且参与卷积运算的输入数据均为能够对卷积运算结果有影响的数据,避免了乘法电路计算资源的浪费。此外,本申请提供的乘法电路在不同的应用场景下,实现不同的卷积运算时,无需调整输入/输出数据的格式。可以满足产品开发/设计人员对于同一个乘法电路能够在不改变输入/输出数据格式的情况下,能够适配不同的应用场景的需求。
第一方面,本申请实施例提供了一种用于卷积运算的乘法电路,包括:PE阵列、用于存储输入数据的第一缓存、用于存储多个第一卷积核的第二缓存,以及连接于PE阵列和第一缓存之间的开关电路;其中,在乘法电路执行扩张卷积运算时:开关电路用于根据第二卷积核中的扩张数据的排布,对输入数据中的第一待卷积数据进行选择输出,以将第一待卷积数据中的有效数据输出至PE阵列,其中有效数据为第一待卷积数据中不与第二卷积核中的扩张数据进行运算的数据,第二卷积核是在第一卷积核中加入扩张数据生成的;PE阵列用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
其中,第一缓存还可以称作为输入数据缓存。第二缓存还可以称作为参数缓存。
在上述第一方面的一种可能的实现中,PE阵列包括多行PE,开关电路包括分别与PE阵列中每一行PE一一对应的多个子开关;
其中,在乘法电路执行扩张卷积运算时:
开关电路中的各个子开关分别用于根据第二卷积核中的扩张数据的排布,对输入数据中各个第一待卷积数据进行选择输出,以将第一待卷积数据中的有效数据输出至PE阵列中相应的一行PE,其中,输入数据中与不同子开关对应的第一待卷积数据不同;
PE阵列中的每一行PE用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
例如,假设第一卷积核大小为3*3*3,扩张卷积运算的扩张参数d=1,也即需要将第一卷积核的各个通道参数中,每两个相邻数据之间要填充一个零(也即扩张数据为零)。则得到扩张后的大小为5*5*3的第二卷积核。第二卷积核中的扩张数据则为两行两列的零,这两行两列的零中每一行或每一列具有5个零。
在上述第一方面的一种可能的实现中,第一缓存包括多个存储单元,用于存储输入数据,其中,每两个存储单元中存储的数据不同,并且将多个存储单元存储的数据进行汇总构成输入数据;
在乘法电路执行扩张卷积运算时:
开关电路中的各个子开关分别用于根据第二卷积核中的扩张数据的排布,从第一缓存的多个存储单元中选取出有效数据,以将有效数据输出至PE阵列中相应的一行PE,其中,开关电路的每个子开关在每个运算周期,从多个存储单元的每一个存储单元中选取出的有效数据不同;
PE阵列中的每一行PE用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
由于每两个存储单元中存储的数据不同,并且将多个存储单元存储的数据进行汇总构成输入数据;因此,避免了第一缓存中输入数据的读写冲突。
在上述第一方面的一种可能的实现中,第一待卷积数据为根据预设步长,采用和第二卷积核相同大小的滑动窗口在输入数据上滑动,得到的多个和第二卷积核相同大小的数据块。
在上述第一方面的一种可能的实现中,在乘法电路执行标准卷积运算时:
开关电路用于将第二待卷积数据作为有效数据输出至PE阵列;
PE阵列用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
在上述第一方面的一种可能的实现中,PE阵列包括多行PE,开关电路包括分别与PE阵列中每一行PE一一对应的多个子开关;
其中,在乘法电路执行标准卷积运算时:
开关电路中的各个子开关分别用于将输入数据中各个第二待卷积数据作为有效数据输出至PE阵列中相应的一行PE,其中,输入数据中与不同子开关对应的第二待卷积数据不同;
PE阵列中的每一行PE用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
在上述第一方面的一种可能的实现中,第一缓存包括多个存储单元,用于存储输入数据,其中,每两个存储单元中存储的数据不同,并且将多个存储单元存储的数据进行汇总构成输入数据;
在乘法电路执行标准卷积运算时:
开关电路中的各个子开关分别用于从第一缓存的多个存储单元中选取出第二待卷积数据,以将作为有效数据的第二待卷积数据输出至PE阵列中相应的一行PE,其中,开关电路的每个子开关在每个运算周期,从多个存储单元的每一个存储单元中选取出的有效数据不同;
PE阵列中的每一行PE用于从第二缓存获取多个第一卷积核,并采用第一卷积核对有效数据进行卷积运算。
在上述第一方面的一种可能的实现中,第二待卷积数据为根据预设步长,采用和第一卷积核相同大小的滑动窗口在输入数据上滑动,得到的多个和第一卷积核相同大小的数据块。
在上述第一方面的一种可能的实现中,上述乘法电路还包括第三缓存,用于缓存PE阵列的卷积运算结果。
在上述第一方面的一种可能的实现中,上述乘法电路还包括存储控制电路,用于将外部存储空间中存储的输入数据读取到第一缓存中,和/或将外部存储空间中存储的多个卷积核读取到第二缓存中。
在上述第一方面的一种可能的实现中,上述乘法电路还包括连接于存储控制电路和第一缓存之间的输入数据排列模块,用于将输入数据中的至少部分数据写入第一缓存的各个存储单元。
在上述第一方面的一种可能的实现中,上述扩张数据为按照预设间隔在第一卷积核中加入的多行和/或多列的多个零。
第二方面,本申请实施例提供了一种片上系统,包括如上述第一方面以及第一方面的各种可能实现中的任一项乘法电路。
第三方面,本申请实施例提供了一种电子设备,包括如上述第二方面的片上系统。
第四方面,本申请实施例提供了一种卷积运算方法,包括:
获取第一待卷积数据;
根据第二卷积核中的扩张数据的排布,从第一待卷积数据中选择出有效数据;
采用多个第一卷积核对有效数据进行卷积运算;
其中第二卷积核是在第一卷积核中加入扩张数据生成的,有效数据为第一待卷积数据中不与第二卷积核中的扩张数据进行运算的数据。
在上述第四方面的一种可能的实现中,第一待卷积数据为根据预设步长,采用和第二卷积核相同大小的滑动窗口在输入数据上滑动,得到的多个和第二卷积核相同大小的数据块。
在上述第四方面的一种可能的实现中,上述方法还包括:
获取第二待卷积数据;
将第二待卷积数据确定为有效数据;
采用多个第一卷积核对有效数据进行卷积运算。
在上述第四方面的一种可能的实现中,第二待卷积数据为根据预设步长,采用和第一卷积核相同大小的滑动窗口在输入数据上滑动,得到的多个和第一卷积核相同大小的数据块。
在上述第四方面的一种可能的实现中,扩张数据为按照预设间隔在第一卷积核中加入的多行和/或多列的多个零。
第五方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在电子设备上执行时使电子设备执行上述第四方面以及第四方面的各种可能实现中的任意一种卷积运算方法。
第六方面,本申请实施例提供了一种电子设备,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,当指令被一个或多个处理器执行时,处理器用于执行上述第四方面以及第四方面的各种可能实现中的任意一种卷积运算方法。
附图说明
图1(a)一种技术方案中标准卷积运算的运算过程示意图;
图1(b)示出了将图1(a)所示的卷积核K1进行填充得到填充后的卷积核K1'的示意图;
图1(c)示出了一种技术方案中扩张卷积运算的运算过程示意图;
图2根据本申请的一些实施例,示出了本申请提供的一种乘法电路的硬件结构框图;
图3根据本申请的一些实施例,示出了本申请提供的一种具有16*16PE阵列结构的乘法电路的硬件结构框图;
图4(a)根据本申请的一些实施例,示出了本申请提供的图3所示的乘法电路执行标准卷积运算的示意图;
图4(b)根据本申请的一些实施例,示出了图4(a)所示的数据块A01和卷积核K1的其中一子数据块;
图5(a)示出了一种将卷积核K1进行填充后与输入数据进行扩张卷积运算的示意图;
图5(b)示出了图5(a)所示的输入数据中数据块B01和卷积核K1'进行卷积运算的示意图;
图5(c)示出了图5(b)所示的输入数据中数据块B01在本申请技术方案中,实际参与扩张卷积运算的数据块C01,和卷积核K1进行卷积运算的示意图;
图5(d)示出了图5(a)所示的输入数据中数据块B02和卷积核K1'进行卷积运算的示意图;
图5(e)示出了图5(d)所示的输入数据中数据块B02在本申请技术方案中,实际参与扩张卷积运算的数据块C02,和卷积核K1进行卷积运算的示意图;
图5(f)示出了本申请技术方案中,实际参与扩张卷积运算的数据块C09,和卷积核K1进行卷积运算的示意图;
图5(g)示出了本申请技术方案中,实际参与扩张卷积运算的数据块C10,和卷积核K1进行卷积运算的示意图;图6根据本申请的一些实施例,示出了本申请提供的一种片上系统的硬件结构框图;
图7根据本申请的一些实施例,示出了一种卷积运算方法的流程流程图;
图8根据本申请的一些实施例,示出了本申请提供的一种电子设备的结构框图。
具体实施方式
本申请的说明性实施例包括但不限于一种专门用于实现神经网络模型中的乘法运算的乘法电路、片上系统和电子设备。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施例作进一步地详细介绍。
本申请实施例涉及神经网络技术领域,为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。
(1)标准卷积(Standard Convolution)运算
当通过一个卷积核对具有多个数据通道的输入数据进行标准卷积运算时,该卷积核需要对该具有多个数据通道的输入数据中的所有数据进行卷积。
图1(a)示例性地示出了一种标准卷积运算的示意图,例如,假设卷积神经网络10的输入数据为一图像的RGB(Red:红、Green:绿、Blue:蓝)颜色空间的红、绿、蓝3个颜色通道的数据,假设该图像在水平方向的像素个数分别为14、垂直方向的像素个数为8,则该输入数据的大小可以用14*8*3来表示。当需要对该14*8*3的输入数据进行标准卷积运算时,需要采用通道数同样为3的卷积核对该输入数据中的所有数据进行卷积运算(即乘加运算),得到相应的卷积结果(也称特征图)。
例如,如图1(a)所示,采用1个大小为3*3*3的卷积核K1对上述大小为14*8*3的输入数据进行卷积。其中,输入数据以及卷积核K1的3个数据通道分别记为通道C1、通道C2、通道C3。则卷积核K1对该输入数据中通道C1至通道C3的所有数据进行卷积运算,得到大小为12*6的特征图P1。具体地,卷积核K1对输入数据中各个数据块进行卷积运算,分别得到特征图P1中的各个数据。例如,卷积核K1对如图1(a)所示的同样大小为3*3*3的数据块A1进行卷积运算,得到特征图P1中的数据q1。其中,输入数据中的各个数据块是采用和卷积核K1的大小相同的3*3*3的滑动窗口在输入数据上滑动得到的。例如以输入数据通道C1左上角的第一个数据为滑动起点,以预设的步长,采用3*3*3的滑动窗口依次在输入数据上滑动,得到各个3*3*3的数据块。
(2)扩张卷积(Dilated Convolution)运算
在一些场景中,为了增加神经网模型的感受野(reception field),需要对涉及的卷积核进行填充。例如,在抠图的应用场景下,需要在一次卷积运算里获得一张图像里更多的特征,这就需要增加神经网模型的感受野(reception field),也即需要填充卷积核,使得卷积核的尺寸变大,从而采用填充后的卷积核对输入数据进行卷积时,一次卷积运算覆盖的输入数据的范围变大。
当通过一个卷积核对具有多个数据通道的输入数据进行扩张卷积运算时,需要将该卷积核每个通道中的每两个数据之间填充零,得到填充后的卷积核,然后采用填充后的卷积核对输入数据中的所有数据进行卷积。需要说明的是,相较于填充前的卷积核,填充后的卷积核的通道数不变,只增加了每个通道中的数据量。图1(b)示例性地示出了一种将3*3*3的卷积核K1扩张为5*5*3的卷积核K1'的过程示意图。具体地,将卷积核K1的通道C1至通道C3的数据分别进行填充,由于各个通道填充的过程类似,因此,仅对通道C1的填充过程进行介绍。如图1(b)所示,将卷积核K1通道C1的数据x1至x9中的每两个数据之间填充一个零,从而得到如图1(b)所示卷积核K1'的通道C1中的一共25个数据,其中包括x1至x9以及16个零。
图1(c)示例性地示出了一种扩张卷积运算的示意图,假设采用如图1(b)所示的5*5*3的卷积核K1'对14*8*3的输入数据进行扩张卷积运算,则卷积核K1'对该输入数据中通道C1至通道C3的所有数据进行卷积运算,得到大小为10*4的特征图P1'。具体地,卷积核K1'对输入数据中各个数据块进行卷积运算,分别得到特征图P1'中的各个数据。例如,卷积核K1'对如图1(c)所示的同样大小为5*5*3的数据块A1'进行卷积运算,得到特征图P1'中的数据q1'。其中,输入数据中的各个数据块是采用和卷积核K1'的大小相同的5*5*3的滑动窗口在输入数据上滑动得到的。例如以输入数据通道C1左上角的第一个数据为滑动起点,以预设的步长,采用5*5*3的滑动窗口依次在输入数据上滑动,得到各个5*5*3的数据块。
从以上关于标准卷积运算以及扩张卷积运算的介绍中,不难看出,对于同一个卷积核和同一输入数据来说,相比较于标准卷积运算,扩张卷积运算将卷积核的各个通道的数据中填充了多个零,而填充的多个零并不影响卷积运算结果,但是填充的多个零占用了硬件平台的运算资源。如果使用同一硬件平台分别实现同一卷积核对同一输入数据的标准卷积运算,以及扩张卷积运算,在执行扩张卷积运算之前,需要对参与运算的卷积核数据进行零值的填充,即需要改变参与卷积运算的卷积核数据的格式。这与产品开发/设计人员对于同一个硬件平台能够在不改变输入数据格式的情况下,能够适配不同的应用场景的需求相违背。此外,由于填充后的卷积核在对输入数据进行卷积运算时,虽然卷积核填充的零对卷积运算的结果没有影响,但是填充的零依然参与了卷积运算过程,占用了运算资源,造成了运算资源的浪费。
因此,为了解决上述技术问题,本申请提供了一种乘法电路,通过在乘法电路中部署开关电路和输入数据缓存,使得在不同的运算模式下,在每个运算周期,开关电路从输入数据缓存中存储的输入数据中选择部分数据作为目标数据,送给乘法电路中的目标运算单元进行卷积运算。其中,开关电路从输入数据缓存中选择的目标数据是按照预设间隔从输入数据中选取的。例如,开关电路从如图1(c)所示的数据块A1'中,每间隔一个数据,选取出由子数据块y1至y9组成的目标数据块送入PE阵列和卷积核K1进行卷积运算。如此,使得本申请提供的乘法电路能够在执行扩张卷积运算时,无需将卷积核中填充多个零,并且参与卷积运算的输入数据均为能够对卷积运算结果有影响的数据,避免了乘法电路计算资源的浪费。此外,本申请提供的乘法电路在不同的应用场景下,实现不同的卷积运算时,无需调整输入/输出数据的格式。可以满足产品开发/设计人员对于同一个乘法电路能够在不改变输入/输出数据格式的情况下,能够适配不同的应用场景的需求。
例如,在抠图的应用场景下,需要在一次卷积运算里获得一张图像里更多的特征,这就需要增加神经网模型的感受野(reception field),也即需要填充卷积核,使得卷积核的尺寸变大,从而采用填充后的卷积核对输入数据进行卷积时,一次卷积运算覆盖的输入数据的范围变大。并且,为了快速得到抠图结果,可以使用本申请提供的乘法电路对原始图像数据执行扩张卷积运算。又如,在人脸识别门禁等常规的应用场景下,可以采用本申请提供的乘法电路执行标准卷积运算,以得到相应的人脸识别结果。
此外,本申请提供的乘法电路在执行扩张卷积运算时,无需执行对扩张后的卷积核中零值和输入数据中与零值对应的数据的卷积运算,释放了常规扩张卷积运算中,前述零值所占用的运算资源,有利于节省乘法电路的功耗。
下面首先将对本申请提供的如图2所示的乘法电路200的硬件结构进行详细介绍。
图2示例性地示出了本申请提供的一种乘法电路200的硬件结构框图。如图2所示,乘法电路200包括DMA控制单元201、输入数据缓存270、参数缓存202、开关电路240、PE阵列250、输出缓存204以及输入数据排列模块260。其中,DMA控制单元201连接参数缓存202以及输入数据排列模块260;参数缓存202连接PE阵列250;输入数据排列模块260与PE阵列250之间依次连接有输入数据缓存270和开关电路240,并且输出缓存204连接PE阵列250。
其中,DMA控制单元201用于从外部存储空间中将需要被卷积的输入数据读取到输入数据排列模块260中,以供PE阵列250进行卷积运算。例如,本申请提供的乘法电路200应用到抠图场景,DMA控制单元201用于将需要被抠图的原始图像的数据读取到输入数据缓存270中,以供PE阵列250进行扩张卷积运算,从而得到抠图结果。
参数缓存202用于存储参与卷积运算的卷积核数据。例如,在一些实施例中,参数缓存202用于存储通道数与需要被卷积的输入数据相同的卷积核的数据。
输入数据排列模块260用于将从DMA控制单元201获取的输入数据写入输入数据缓存270的各个存储单元。
输入数据缓存270用于存储输入数据排列模块260写入的输入数据。在一些实施例中,输入数据缓存270包括多个存储单元(也即输入数据缓存270的多个存储区域),各个存储单元分别用于存储输入数据的其中一部分数据,并且每个存储单元中存储的数据各不相同,各个存储单元存储的数据组合起来构成输入数据中的完整数据。例如,在一些实施例中,输入数据缓存270包括16个存储单元,输入数据排列模块260将输入数据排列成了16个数据集合,则这16个存储单元分别用于存储前述16个数据集合的其中一个数据集合的数据。
开关电路240用于在不同的应用场景下,在每一个运算阶段,从输入数据缓存270的各个存储单元中选取目标数据,发送给PE阵列250中的目标处理单元(ProcessingElement,PE),以使目标PE将从开关电路接收的目标数据和参数缓存202中存储的卷积核数据进行标准卷积运算或扩张卷积运算。在一些实施例中,开关电路240包括多个子开关,各个子开关与输入数据缓存270中的各个存储单元一一对应,并且各个子开关与PE阵列250中的每一行PE一一对应。其中,在不同的应用场景下,开关电路240从输入数据缓存270的各个存储单元中选取目标数据的具体规则,将在下文中进行详细介绍。
PE阵列250是由多个PE形成的阵列,每个PE用于对卷积核数据和输入数据进行乘加运算。
例如,在一些实施例中,乘法电路200被应用于抠图的应用场景下,需要在一次卷积运算里获得一张图像里更多的特征,这就需要增加神经网模型的感受野,也即需要填充卷积核,使得卷积核的尺寸变大,在这种情况下,PE阵列250用于对输入数据执行扩张卷积运算,以得到抠图结果。又如,在一些实施例中,乘法电路200被应用于人脸识别门禁等常规的应用场景下,在这种情况下,PE阵列250用于对输入数据执行标准卷积运算,以得到人脸识别结果。
输出缓存204用于存储PE阵列250执行卷积运算输出的结果。例如,输出缓存204用于存储PE阵列250的每一列输出的一个特征图。
可以理解的是,以上涉及的抠图场景以及人脸识别门禁场景仅仅是为了说明本申请的技术方案的两个示例性的应用场景。本申请实施例提供的乘法电路200适用的场景包括但不限于涉及图像识别、语音识别、自然语言处理、强化学习等的各种应用场景中。
此外,可以理解的是,如图2所示的本申请提供的乘法电路200的示例性结构并不构成对乘法电路200的具体限定。在本申请另一些实施例中,乘法电路200可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
图3示例性地示出了本申请提供的一种具有16*16PE阵列(即具有16行16列共256个PE的阵列)结构的乘法电路200的硬件结构示意图。为了简化说明,图3只示意出了PE阵列250中的部分PE,其他未示意出的PE在图3中均以“省略号”指代。
可以理解的是,图3所示的具有16*16PE阵列结构的乘法电路200仅仅是为了说明本申请技术方案的一个示例,适用于本申请技术方案的乘法电路200可以包括比图3所示的乘法电路200中更多或更少的PE,在具体实现中,可以根据需要设置PE阵列中PE的数量,本申请对此不作限定。
如图3所示,该乘法电路200包括DMA控制单元201、输入数据缓存270、输入数据处理模块260、参数缓存202、开关电路240、PE阵列250以及输出缓存204。PE阵列250包括16行16列共256个PE,其中,前8行的16列PE和后8行的16列PE分别记为第一组PE251以及第二组PE252。开关电路240包括与PE阵列250中的16行PE一一对应的16个子开关,记为sw0至sw15,输入数据缓存270包括16个存储单元,记为b0至b15。由于DMA控制单元201、输入数据缓存270、参数缓存202、PE阵列250以及输出缓存204已在上述关于图3的描述中介绍过,在此不再赘述。
下面仅对图3所示的开关电路240进行详细介绍。
在图3所示的实施例中,开关电路240连接于输入数据缓存270与PE阵列250之间,用于在不同的应用场景下,将从输入数据缓存270中读取的目标数据送入PE阵列250中相应的PE中进行卷积运算。
在乘法电路200执行标准卷积运算时,各个子开关分别将输入数据中各个连续的数据块作为目标数据块,送入相应的PE。其中,输入数据中各个连续的数据块的大小和参与标准卷积运算的卷积核相同。其中,连续的数据块是指数据块中的各个子数据块是相邻的。其中,子数据块为大小为1*1*N的数据块,N为子数据块的通道数。
在乘法电路200执行扩张卷积运算时,各个子开关分别从输入数据各个连续的数据块中,按照预设间隔,选取出目标数据块送入相应的PE。其中,输入数据中各个连续的数据块的大小和填充零值后得到的卷积核相同。其中,预设间隔与对卷积核进行零值填充时涉及的扩展参数d相同。
例如,当乘法电路200在执行如图1(a)所示的3*3*3的卷积核K1和14*8*3的输入数据的标准卷积运算时,开关电路240中的子开关sw0将数据块A1送入PE阵列250的PE000,PE000将数据块A1和卷积核K1进行卷积运算。子开关sw1将数据块A2送入PE阵列250的PE100,PE100将数据块A2和卷积核K1进行卷积运算。不难理解,数据块A1和A2中的各个子数据块在输入数据中的位置是相邻的。
又如,当乘法电路200在执行上述3*3*3的卷积核K1和14*8*3的输入数据的扩张卷积运算时,开关电路240中的子开关sw1从如图1(c)所示的数据块A1'中,每间隔一个数据,选取出由子数据块y1至y9组成的目标数据块送入PE阵列250的PE000,PE000将由子数据块y1至y9组成的目标数据块和卷积核K1进行卷积运算。子开关sw1从如图1(c)所示的数据块A2'中,每间隔一个数据,选取出由子数据块t1至t9组成的目标数据块送入PE阵列250的PE100,PE100将由子数据块t1至t9组成的目标数据块和卷积核K1进行卷积运算。不难理解,上述由子数据块y1至y9组成的目标数据块,以及由子数据块t1至t9组成的目标数据块中各个子数据块在输入数据中的位置是间隔一个数据,即各个子数据块不相邻。
下面对本申请提供的如图3所示的乘法电路200执行标准卷积以及扩张卷积的原理进行详细介绍。
(1)标准卷积运算
假设,如图3所示的具有16*16阵列结构的乘法电路200采用16个大小为3*3*3的卷积核(分别记为K1至K16),对大小为14*8*3的输入数据进行卷积标准卷积运算。则,乘法电路200中PE阵列250的各个PE分别采用3*3*3的卷积核对输入数据中大小同样为3*3*3的数据块进行卷积。输入数据中大小同样为3*3*3的数据块为:采用预设步长,以3*3*3的滑动窗口在输入数据上滑动,得到的滑动窗口中对应的数据块。可以理解的是,由于输入数据具有3个数据通道,则输入数据上的每一个滑动窗口(也即数据块)也具有3个数据通道。
例如,如图4(a)所示,对于大小为14*8*3的输入数据,以通道C1左上方的第一个数据为起点,步长为1,按照3*3*3的滑动窗口在输入数据上滑动。例如,首先从左往右滑动,得到数据块A01至A012;然后从数据块A01再向下滑动一个数据后继续从左往右滑动,得到数据块A11至A112;再从数据块A11向下滑动一个数据后继续从左往右滑动,得到数据块A21至A212,依次类推,再依次得到数据块A31至A312,数据块A41至A412,数据块A51至A512。
则,对于PE阵列250中的各列PE(共16列),分别采用卷积核K1至K16中的其中一个,对输入数据进行卷积运算。在一些实施例中,为了在每个运算周期,提高PE阵列中各个PE的利用率,提升卷积运算效率,将PE阵列250划分为前8行的16列PE,即第一组PE251;以及后8行的16列PE,即第二组PE252。其中,一个运算周期为PE阵列250的一个PE完成一次对3*3*3的卷积核和3*3*3的数据块的卷积运算所占用的时长。由于各列PE卷积运算的过程类似,区别仅在不同的两列PE参与卷积运算的卷积核不同。因此,下面仅对乘法电路200第一列PE(即PE000、PE100至PE1500)执行标准卷积运算的过程进行详细介绍。其他各列PE执行标准卷积运算的过程不再详述。
第一个运算周期
对于图3所示的第一组PE251中第一列PE涉及的8个PE,PE000是对图4(a)所示的卷积核K1以及输入数据中的数据块A01进行卷积运算,得到大小为12*6的特征图P1中的第一个数据q01,卷积运算的过程为:
d0.0*x1+d0.1*x2+d0.2*x3+d1.0*x4+d1.1*x5+d1.2*x6+d2.0*x7+d2.1*x8+d2.2*x9=q01。
PE100是对图4(a)所示的卷积核K1以及输入数据中的数据块A02进行卷积运算,得到12*6的特征图P1中的第二个数据q02,卷积运算的过程为:
d0.1*x1+d0.2*x2+d0.3*x3+d1.1*x4+d1.2*x5+d1.3*x6+d2.1*x7+d2.2*x8+d2.3*x9=q02。
依次类推,PE700是对图4(a)所示的卷积核K1以及输入数据中的数据块A08(未示出)进行卷积运算,得到12*6的特征图P1中的第八个数据q08,卷积运算的过程为:
d0.7*x1+d0.8*x2+d0.9*x3+d1.7*x4+d1.8*x5+d1.9*x6+d2.7*x7+d2.8*x8+d2.9*x9=q08。
继续参考图3,在第一个运算周期,对于图3所示的第二组PE252中第一列PE涉及的8个PE,PE800是对图4(a)所示的卷积核K1以及输入数据中的数据块A11进行卷积运算,得到大小为12*6的特征图P1中的第二行的第一个数据q11,卷积运算的过程为:
d1.0*x1+d1.1*x2+d1.2*x3+d2.0*x4+d2.1*x5+d2.2*x6+d3.0*x7+d3.1*x8+d3.2*x9=q11。
PE900是对图4(a)所示的卷积核K1以及输入数据中的数据块A12进行卷积运算,得到12*6的特征图P1中的第二行的第二个数据q12,卷积运算的过程为:
d1.1*x1+d1.2*x2+d1.3*x3+d2.1*x4+d2.2*x5+d2.3*x6+d3.1*x7+d3.2*x8+d3.3*x9=q12。
依次类推,PE1500是对图4(a)所示的卷积核K1以及输入数据中的数据块A18(未示出)进行卷积运算,得到12*6的特征图P1中的第二行的第八个数据q18,卷积运算的过程为:
d1.7*x1+d1.8*x2+d1.9*x3+d2.7*x4+d2.8*x5+d2.9*x6+d3.7*x7+d3.8*x8+d3.9*x9=q18。
第二个运算周期
在第二个运算周期,第一列PE的第一组PE251中只有4个PE参与卷积运算过程。例如,PE000是对图4(a)所示的卷积核K1以及输入数据中的数据块A09(未示出)进行卷积运算,得到12*6的特征图P1中的第一行的第九个数据q09,卷积运算的过程为:
d0.8*x1+d0.9*x2+d0.10*x3+d1.8*x4+d1.9*x5+d1.10*x6+d2.8*x7+d2.9*x8+d2.10*x9=q09。
PE100是对图4(a)所示的卷积核K1以及输入数据中的数据块A10(未示出)进行卷积运算,得到12*6的特征图P1中的第一行的第十个数据q10,卷积运算的过程为:
d0.9*x1+d0.10*x2+d0.11*x3+d1.9*x4+d1.10*x5+d1.11*x6+d2.9*x7+d2.10*x8+d2.11*x9=q010。
PE200是对图4(a)所示的卷积核K1以及输入数据中的数据块A011(未示出)进行卷积运算,得到12*6的特征图P1中的第一行的第十一个数据q11,卷积运算的过程为:
d0.10*x1+d0.11*x2+d0.12*x3+d1.10*x4+d1.11*x5+d1.12*x6+d2.10*x7+d2.11*x8+d2.12*x9=q011。
PE300是对图4(a)所示的卷积核K1以及输入数据中的数据块A012(未示出)进行卷积运算,得到12*6的特征图P1中的第一行的第十二个数据q12,卷积运算的过程为:
d0.11*x1+d0.12*x2+d0.13*x3+d1.11*x4+d1.12*x5+d1.13*x6+d2.11*x7+d2.12*x8+d2.13*x9=q012。
在第二个运算周期,第一列PE的第二组PE252中也只有4个PE参与卷积运算过程。例如,PE800是对图4(a)所示的卷积核K1以及输入数据中的数据块A19(未示出)进行卷积运算,得到12*6的特征图P1中的第二行的第九个数据q19;PE900是对图4(a)所示的卷积核K1以及输入数据中的数据块A110(未示出)进行卷积运算,得到12*6的特征图P1中的第二行的第十个数据q110;PE1000是对图4(a)所示的卷积核K1以及输入数据中的数据块A111(未示出)进行卷积运算,得到12*6的特征图P1中的第二行的第十一个数据q111;PE1100是对图4(a)所示的卷积核K1以及输入数据中的数据块A112(未示出)进行卷积运算,得到12*6的特征图P1中的第二行的第十二个数据q112。
经过上述第一个运算周期以及第二运算周期的卷积运算,得到了如图4(a)所示的12*6的特征图P1的前两行数据(第一行的q01至q012,以及第二行的q11至q112)。不难理解的是,乘法电路200再经过第三个运算周期以及第四个运算周期,得到如图4(a)所示的12*6的特征图P1第三行的q21至q212,以及第四行的q31至q312。依次类推,乘法电路200再经过第五个运算周期以及第六个运算周期,得到如图4(a)所示的12*6的特征图P1第五行的q41至q412,以及第六行的q51至q512。至此,乘法电路200完成了3*3*3的卷积核K1和14*8*3的输入数据的标准卷积运算。
可以理解的是,对于乘法电路200其他各列PE,运算过程与第一列的PE000至PE1500的运算过程类似,唯一区别仅在于:每列PE参与卷积运算的卷积核不同。例如,第一列PE中参与卷积运算的卷积核为卷积核K1,第二列PE中参与卷积运算的卷积核为卷积核K2,第三列PE中参与卷积运算的卷积核为卷积核K3,依次类推,第16列PE中参与卷积运算的卷积核为卷积核K16。
此外,需要说明的是,以上在关于乘法电路200执行标准卷积运算的过程中涉及的各个数据块中的di.j(i为行号,j为列号,i的取值范围为0至7,j的取值范围为0至13),以及卷积核K1中的xn(n取值范围为1至9),并不单指一个具体的数值。由于卷积核K1以及输入数据均具有3个数据通道,因此,上述各个数据块中的di.j以及卷积核K1中的xn均指代一个大小为1*1*3的子数据块。例如,如图4(b)所示,输入数据数据块A01中的第一个子数据块为d0.0,子数据块为d0.0包括通道C1的数据I0,通道C2的数据I1,通道C3的数据I2。卷积核K1中的第一个子数据块为x1,子数据块为x1包括通道C1的数据R0,通道C2的数据R1,通道C3的数据R2。
此外,在一些实施例中,由于乘法电路200中的各个PE在执行标准卷积运算时,当乘法电路200输入数据缓存270以及参数缓存202中的数据端口的数据宽度大于前述子数据块的通道数的情况下,例如,乘法电路200的输入数据缓存270以及参数缓存202的数据端口为4B(即输入数据缓存270以及参数缓存202中存储的数据是经过量化了的8比特的整型数),而输入数据和卷积核的通道数为3,则一个时钟周期内,一个PE只能获取一个数据块中的一个子数据块的数据,以及一个卷积核中的一个子数据块中的数据。因此,在一个时钟周期内,一个PE执行的是例如图4(b)所示的子数据块d0.0和子数据块x1的卷积运算,运算过程为:I0*R0+I1*R1+I2*R2。不难理解的是,需要9个时钟周期才能完成对大小为3*3*3的数据块A01和大小为3*3*3的卷积核K1的卷积运算。
此外,从前述关于运算周期的定义可知:一个运算周期为PE阵列250的一个PE完成一次对3*3*3的卷积核和3*3*3的数据块的卷积运算所占用的时长。因此,不难理解的是,一个运算周期包括9个时钟周期。
以上只是对每个运算周期,乘法电路200执行标准卷积运算的过程进行了大致介绍。在此基础上,下面将进一步结合乘法电路200的开关电路240中各个子开关从输入数据缓存270的各个存储单元中选取目标数据的选取规则,来对乘法电路200在每个运算周期内的每个时钟周期,执行标准卷积的运算过程进行详细介绍。
在一些实施例中,假设乘法电路200的输入数据处理模块260将DMA控制单元201从外部存储空间中获取的如图4(a)所示的14*8*3d的输入数据,按照下表1的数据排列方式写入输入数据缓存270的16个存储单元b0至b15中:
表1
假设输入数据缓存270中各个存储单元的地址范围为addr0至addr6,参考表1,在一些实施例中,存储单元b0从addr0至addr7分别存储的数据为d0.0、d0.8、d2.2、d2.10、d4.4、d4.12、d6.6;存储单元b1从addr0至addr7分别存储的数据为d0.1、d0.9、d2.3、d2.11、d4.5、d4.13、d6.7;存储单元b2从addr0至addr7分别存储的数据为d0.2、d0.10、d2.4、d2.12、d4.6、d6.0、d6.8。其他存储单元不再详举,具体可参考表1。
由于乘法电路200各列PE执行标准卷积运算的过程类似,区别仅在不同的两列PE参与卷积运算的卷积核不同。因此,下面仍仅对乘法电路200第一列PE(即PE000、PE100至PE1500)在一个运算周期的各个时钟周期内的标准卷积运算过程进行详细介绍。
在第一个运算周期的第一个时钟周期
参考图3和表1,开关电路240中的子开关sw0将输入数据缓存270的存储单元b0的addr0中选取d0.0作为目标子数据块,送入PE000中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw1将输入数据缓存270的存储单元b1的addr0中选取d0.1作为目标子数据块,送入PE100中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw2将输入数据缓存270的存储单元b2的addr0中选取d0.2作为目标子数据块,送入PE200中,和参数缓存202中获取的子数据块x1进行卷积运算。
依次类推,子开关sw7将输入数据缓存270的存储单元b7的addr0中选取d0.7作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw8将输入数据缓存270的存储单元b8的addr0中选取d1.0作为目标子数据块,送入PE800中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw9将输入数据缓存270的存储单元b9的addr0中选取d1.1作为目标子数据块,送入PE900中,和参数缓存202中获取的子数据块x1进行卷积运算。
依次类推,子开关sw15将输入数据缓存270的存储单元b15的addr0中选取d1.7作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x1进行卷积运算。
在第一个运算周期的第二个时钟周期
继续参考图3和表1,开关电路240中的子开关sw0将输入数据缓存270的存储单元b1的addr0中选取d0.1作为目标子数据块,送入PE000中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw1将输入数据缓存270的存储单元b2的addr0中选取d0.2作为目标子数据块,送入PE100中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw2将输入数据缓存270的存储单元b3的addr0中选取d0.3作为目标子数据块,送入PE200中,和参数缓存202中获取的子数据块x2进行卷积运算。
依次类推,子开关sw6将输入数据缓存270的存储单元b7的addr0中选取d0.7作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x2进行卷积运算。
而子开关sw7将输入数据缓存270的存储单元b0的addr1中选取d0.8作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw8将输入数据缓存270的存储单元b9的addr0中选取d1.1作为目标子数据块,送入PE800中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw9将输入数据缓存270的存储单元b9的addr0中选取d1.2作为目标子数据块,送入PE900中,和参数缓存202中获取的子数据块x2进行卷积运算。
依次类推,子开关sw14将输入数据缓存270的存储单元b15的addr0中选取d1.7作为目标子数据块,送入PE1300中,和参数缓存202中获取的子数据块x2进行卷积运算。
而子开关sw15将输入数据缓存270的存储单元b8的addr0中选取d1.8作为目标子数据块,送入PE1500中,和参数缓存202中获取的子数据块x2进行卷积运算。
在第一个运算周期的第三个时钟周期,子开关sw0从存储单元b2的addr0中选取d0.2作为目标子数据块送入PE000;子开关sw1从存储单元b3的addr0中选取d0.3作为目标子数据块送入PE100;子开关sw2从存储单元b4的addr0中选取d0.4作为目标子数据块送入PE200;子开关sw3从存储单元b5的addr0中选取d0.5作为目标子数据块送入PE300;子开关sw4从存储单元b6的addr0中选取d0.6作为目标子数据块送入PE300;子开关sw5从存储单元b7的addr0中选取d0.7作为目标子数据块送入PE500;子开关sw6从存储单元b0的addr1中选取d0.8作为目标子数据块送入PE600;子开关sw7从存储单元b1的addr1中选取d0.9作为目标子数据块送入PE700;子开关sw8从存储单元b10的addr0中选取d1.2作为目标子数据块送入PE800;子开关sw9从存储单元b11的addr0中选取d1.3作为目标子数据块送入PE900;子开关sw10从存储单元b12的addr0中选取d1.4作为目标子数据块送入PE1000;子开关sw11从存储单元b13的addr0中选取d1.5作为目标子数据块送入PE1100;子开关sw12从存储单元b14的addr0中选取d1.6作为目标子数据块送入PE1300;子开关sw13从存储单元b15的addr0中选取d1.7作为目标子数据块送入PE1300;子开关sw14从存储单元b8的addr1中选取d1.8作为目标子数据块送入PE1300;子开关sw15从存储单元b9的addr1中选取d1.9作为目标子数据块送入PE1500。
第一个运算周期内,各个子开关从各个存储单元中选择出的目标子数据块与第一列PE(PE000至PE1500)中各个PE的对应关系如下表2所示。第一个运算周期内的其他时钟周期,以及第二运算周期至第六运算周期内的各个时钟周期,各个子开关从各个存储单元中选取的目标子数据块不再赘述。
子开关 | Clk1 | Clk2 | Clk3 | Clk4 | Clk5 | Clk6 | Clk7 | Clk8 | Clk9 | PE |
Sw0 | d0.0 | d0.1 | d0.2 | d1.0 | d1.1 | d1.2 | d2.0 | d2.1 | d2.2 | PE000 |
Sw1 | d0.1 | d0.2 | d0.3 | d1.1 | d1.2 | d1.3 | d2.1 | d2.2 | d2.3 | PE100 |
Sw2 | d0.2 | d0.3 | d0.4 | d1.2 | d1.3 | d1.4 | d2.2 | d2.3 | d2.4 | PE200 |
Sw3 | d0.3 | d0.4 | d0.5 | d1.3 | d1.4 | d1.5 | d2.3 | d2.4 | d2.5 | PE300 |
Sw4 | d0.4 | d0.5 | d0.6 | d1.4 | d1.5 | d1.6 | d2.4 | d2.5 | d2.6 | PE300 |
Sw5 | d0.5 | d0.6 | d0.7 | d1.5 | d1.6 | d1.7 | d2.5 | d2.6 | d2.7 | PE500 |
Sw6 | d0.6 | d0.7 | d0.8 | d1.6 | d1.7 | d1.8 | d2.6 | d2.7 | d2.8 | PE600 |
Sw7 | d0.7 | d0.8 | d0.9 | d1.7 | d1.8 | d1.9 | d2.7 | d2.8 | d2.9 | PE700 |
Sw8 | d1.0 | d1.1 | d1.2 | d2.0 | d2.1 | d2.2 | d3.0 | d3.1 | d3.2 | PE800 |
Sw9 | d1.1 | d1.2 | d1.3 | d2.1 | d2.2 | d2.3 | d3.1 | d3.2 | d3.3 | PE900 |
Sw10 | d1.2 | d1.3 | d1.4 | d2.2 | d2.3 | d2.4 | d3.2 | d3.3 | d3.4 | PE1000 |
Sw11 | d1.3 | d1.4 | d1.5 | d2.3 | d2.4 | d2.5 | d3.3 | d3.4 | d3.5 | PE1100 |
Sw12 | d1.4 | d1.5 | d1.6 | d2.4 | d2.5 | d2.6 | d3.4 | d3.5 | d3.6 | PE1200 |
Sw13 | d1.5 | d1.6 | d1.7 | d2.5 | d2.6 | d2.7 | d3.5 | d3.6 | d3.7 | PE1300 |
Sw14 | d1.6 | d1.7 | d1.8 | d2.6 | d2.7 | d2.8 | d3.6 | d3.7 | d3.8 | PE1300 |
Sw15 | d1.7 | d1.8 | d1.9 | d2.7 | d2.8 | d2.9 | d3.7 | d3.8 | d3.9 | PE1500 |
表2
参考表2可知,当乘法电路200在执行标准卷积运算时,在同一运算周期的相邻两个时钟周期内,各个子开关从输入数据中选取出的目标子数据块在输入数据中所处的位置是连续的。
(2)扩张卷积运算
假设,如图3所示的具有16*16阵列结构的乘法电路200依然采用16个大小为3*3*3的卷积核(分别记为K1至K16),对大小为14*8*3的输入数据进行卷积扩张卷积运算。并且,假设扩张卷积运算的扩张参数d=1,也即卷积核的各个通道参数中,每两个相邻数据之间要填充一个零。则乘法电路200要采用16个大小为3*3*3的卷积核对大小为14*8*3的输入数据进行扩张卷积运算时,要得到和如图5(a)所示的,采用16个填充零值之后的大小为5*5*3的卷积核(分别记为K1'至K16')对大小为14*8*3的输入数据进行扩张卷积运算相同的运算结果。
为了节省运算资源,乘法电路200的开关电路240需要从输入数据缓存270中存储的输入数据中选择部分数据送入PE阵列250,和参数缓存202中存储的各个大小为3*3*3卷积核进行扩张卷积运算。其中,开关电路240的选取规则将在下文中进行详细介绍。
在执行扩张卷积运算过程中,乘法电路200中PE阵列250的各个PE分别采用3*3*3的卷积核对输入数据中大小同样为3*3*3的数据块进行卷积。需要说明的是,输入数据中大小为3*3*3的数据块是从输入数据中相应的一个大小为5*5*3的数据块中选取的。
如图5(a)所示,对于大小为14*8*3的输入数据,以通道C1左上方的第一个数据为起点,步长为1,按照5*5*3的滑动窗口在输入数据上滑动。例如,首先从左往右滑动,得到数据块B01至B010;然后从数据块B01再向下滑动一个数据后继续从左往右滑动,得到数据块B11至B110;再从数据块B11向下滑动一个数据后继续从左往右滑动,得到数据块B21至B210,依次类推,再依次得到数据块B31至B310。
然而,乘法电路200在实际执行扩张卷积运算时,是从上述得到的各个数据块(即数据块B01至B310)中选取部分数据作为有效数据,然后将选取的有效数据和未填充的3*3*3的卷积核K1进行卷积运算。
例如,如图5(b)所示,乘法电路200将数据块B01中和填充后的5*5*3的卷积核K1'中填充的零相应位置的数据舍弃,得到如图5(c)所示的最终参与扩张卷积运算的数据块C01。将数据块C01与未填充的3*3*3的卷积核K1进行卷积运算,得到大小为10*4的特征图P1'中的数据ro1。类似地,如图5(d)所示,乘法电路200将数据块B02中和填充后的5*5*3的卷积核K1'中填充的零相应位置的数据舍弃,得到如图5(e)所示的最终参与扩张卷积运算的数据块C02。将数据块C02与未填充的3*3*3的卷积核K1进行卷积运算,得到大小为10*4的特征图P1'中的数据r02。类似地,分别从数据块B03(未图示)至B310(未图示)中选取相应的有效数据,最终得到参与扩张卷积运算的数据块C03(未图示)至C310(未图示)。
则,对于PE阵列250中的各列PE(共16列),分别采用卷积核K1至K16中的其中一个,对输入数据进行扩张卷积运算。在一些实施例中,同样为了在每个运算周期,提高PE阵列中各个PE的利用率,提升卷积运算效率,将PE阵列250划分为前8行的16列PE,即第一组PE251;以及后8行的16列PE,即第二组PE252。其中,一个运算周期为PE阵列250的一个PE完成一次对3*3*3的卷积核和3*3*3的数据块的卷积运算所占用的时长。由于各列PE卷积运算的过程类似,区别仅在不同的两列PE参与卷积运算的卷积核不同。因此,下面仅对乘法电路200第一列PE(即PE000、PE100至PE1500)执行扩张卷积运算的过程进行详细介绍。其他各列PE执行扩张卷积运算的过程不再详述。
第一个运算周期
对于图3所示的第一组PE251中第一列PE涉及的8个PE,PE000是对图5(c)所示的卷积核K1以及输入数据中的数据块C01进行卷积运算,得到大小为10*4的特征图P1'中的第一个数据r01,卷积运算的过程为:
d0.0*x1+d0.2*x2+d0.4*x3+d2.0*x4+d2.2*x5+d2.4*x6+d4.0*x7+d4.2*x8+d4.4*x9=r01。
PE100是对图5(e)所示的卷积核K1以及输入数据中的数据块C02进行卷积运算,得到10*4的特征图P1'中的第二个数据r02,卷积运算的过程为:
d0.1*x1+d0.3*x2+d0.5*x3+d2.1*x4+d2.3*x5+d2.5*x6+d4.1*x7+d4.3*x8+d4.5*x9=r02。
依次类推,PE700是对卷积核K1以及输入数据中的数据块C08(未示出)进行卷积运算,得到10*4的特征图P1'中的第八个数据r08。
继续参考图3,在第一个运算周期,对于图3所示的第二组PE252中第一列PE涉及的8个PE,PE800是对卷积核K1以及输入数据中的数据块C11(未示出)进行卷积运算,得到大小为10*4的特征图P1'中的第二行的第一个数据r11。
PE900是对卷积核K1以及输入数据中的数据块C12(未示出)进行卷积运算,得到大小为10*4的特征图P1'中的第二行的第二个数据r12。
依次类推,PE1500是对卷积核K1以及输入数据中的数据块C18(未示出)进行卷积运算,得到大小为10*4的特征图P1'中的第二行的第八个数据r18。
第二个运算周期
在第二个运算周期,第一列PE的第一组PE251中只有2个PE参与卷积运算过程。例如,PE000是对如图5(f)所示的卷积核K1以及输入数据中的数据块C09进行卷积运算,得到大小为10*4的特征图P1'中第一行的第九个数据r09,卷积运算的过程为:
d0.8*x1+d0.10*x2+d0.12*x3+d2.8*x4+d2.10*x5+d2.12*x6+d4.8*x7+d4.10*x8+d4.12*x9=r09。
PE100是对如图5(g)所示的卷积核K1以及输入数据中的数据块C10进行卷积运算,得到10*4的特征图P1'中的第一行的第十个数据r10,卷积运算的过程为:
d0.9*x1+d0.11*x2+d0.13*x3+d2.9*x4+d2.11*x5+d2.13*x6+d4.9*x7+d4.11*x8+d4.13*x9=r10。
在第二个运算周期,第一列PE的第二组PE252中也只有2个PE参与卷积运算过程。例如,PE800是对卷积核K1以及输入数据中的数据块C19(未示出)进行卷积运算,得到大小为10*4的特征图P1'中第二行的第九个数据r19;PE900是对卷积核K1以及输入数据中的数据块C110(未示出)进行卷积运算,得到大小为10*4的特征图P1'中第二行的第十个数据r110。
经过上述第一个运算周期以及第二运算周期的卷积运算,得到了如图5(a)所示的10*4的特征图P1'的前两行数据(第一行的r01至r010,以及第二行的r11至r110)。不难理解的是,乘法电路200再经过第三个运算周期以及第四个运算周期,即可得到如图5(a)所示的特征图P1'第三行的r21至r210,以及第四行的r31至r310。至此,乘法电路200完成了3*3*3的卷积核K1和14*8*3的输入数据的扩张卷积运算。
可以理解的是,对于乘法电路200其他各列PE,运算过程与第一列的PE000至PE1500的运算过程类似,唯一区别仅在于:每列PE参与卷积运算的卷积核不同。例如,第一列PE中参与卷积运算的卷积核为卷积核K1,第二列PE中参与卷积运算的卷积核为卷积核K2,第三列PE中参与卷积运算的卷积核为卷积核K3,依次类推,第16列PE中参与卷积运算的卷积核为卷积核K16。
通过上述对乘法电路200执行扩张卷积运算过程的介绍中不难看出,乘法电路200在执行扩张卷积运算时,无需将参与运算的卷积核填充零值,在每一个运算周期,通过从输入数据中选取部分数据作为有效数据,和未填充的卷积核进行卷积运算,得到和采用填充零值后的卷积核对输入数据进行卷积运算相同的运算结果。并且,本申请提供的乘法电路200在执行扩张卷积运算时,无需计算输入数据中与填充后的卷积核中零值相应的数据和填充后的卷积核中的零值的乘加运算,可以节省运算资源,降低功耗。
此外,在一些实施例中,同样假设乘法电路200的输入数据缓存270以及参数缓存202的数据端口为4B(即输入数据缓存270以及参数缓存202中存储的数据是经过量化了的8比特的整型数),而输入数据和卷积核的通道数为3,则一个时钟周期内,一个PE只能获取一个数据块中的一个子数据块的数据,以及一个卷积核中的一个子数据块中的数据。因此,在一个时钟周期内,一个PE执行的是例如图4(b)所示的子数据块d0.0和子数据块x1的卷积运算,运算过程为:I0*R0+I1*R1+I2*R2。需要9个时钟周期才能完成对大小为3*3*3的数据块A01和大小为3*3*3的卷积核K1的卷积运算。
此外,从前述关于运算周期的定义可知:一个运算周期为PE阵列250的一个PE完成一次对3*3*3的卷积核和3*3*3的数据块的卷积运算所占用的时长。因此,不难理解的是,一个运算周期包括9个时钟周期。
以上只是对每个运算周期,乘法电路200执行扩张卷积运算的过程进行了大致介绍。在此基础上,下面将进一步结合乘法电路200的开关电路240中各个子开关从输入数据缓存270的各个存储单元中选取目标数据的选取规则,来对乘法电路200在每个运算周期内的每个时钟周期,执行扩张卷积的运算过程进行详细介绍。
在一些实施例中,依然假设乘法电路200的输入数据处理模块260将DMA控制单元201从外部存储空间中获取的如图4(a)所示的14*8*3的输入数据,按照上表1所展示的数据排列方式写入输入数据缓存270的16个存储单元b0至b15中。
由于乘法电路200各列PE执行扩张卷积运算的过程类似,区别仅在不同的两列PE参与卷积运算的卷积核不同。因此,下面仍仅对乘法电路200第一列PE(即PE000、PE100至PE1500)在一个运算周期的各个时钟周期内的扩张卷积运算过程进行详细介绍。
在第一个运算周期的第一个时钟周期
参考图3和表1,开关电路240中的子开关sw0将输入数据缓存270的存储单元b0的addr0中选取d0.0作为目标子数据块,送入PE000中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw1将输入数据缓存270的存储单元b1的addr0中选取d0.1作为目标子数据块,送入PE100中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw2将输入数据缓存270的存储单元b2的addr0中选取d0.2作为目标子数据块,送入PE200中,和参数缓存202中获取的子数据块x1进行卷积运算。
依次类推,子开关sw7将输入数据缓存270的存储单元b7的addr0中选取d0.7作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw8将输入数据缓存270的存储单元b8的addr0中选取d1.0作为目标子数据块,送入PE800中,和参数缓存202中获取的子数据块x1进行卷积运算。
子开关sw9将输入数据缓存270的存储单元b9的addr0中选取d1.1作为目标子数据块,送入PE900中,和参数缓存202中获取的子数据块x1进行卷积运算。
依次类推,子开关sw15将输入数据缓存270的存储单元b15的addr0中选取d1.7作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x1进行卷积运算。
在第一个运算周期的第二个时钟周期
继续参考图3和表1,开关电路240中的子开关sw0将输入数据缓存270的存储单元b2的addr0中选取d0.2作为目标子数据块,送入PE000中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw1将输入数据缓存270的存储单元b3的addr0中选取d0.3作为目标子数据块,送入PE100中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw2将输入数据缓存270的存储单元b4的addr0中选取d0.4作为目标子数据块,送入PE200中,和参数缓存202中获取的子数据块x2进行卷积运算。
依次类推,子开关sw5将输入数据缓存270的存储单元b7的addr0中选取d0.7作为目标子数据块,送入PE500中,和参数缓存202中获取的子数据块x2进行卷积运算。
而子开关sw6将输入数据缓存270的存储单元b0的addr1中选取d0.8作为目标子数据块,送入PE600中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw7将输入数据缓存270的存储单元b1的addr1中选取d0.9作为目标子数据块,送入PE700中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw8将输入数据缓存270的存储单元b10的addr0中选取d1.2作为目标子数据块,送入PE800中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw9将输入数据缓存270的存储单元b11的addr0中选取d1.3作为目标子数据块,送入PE900中,和参数缓存202中获取的子数据块x2进行卷积运算。
依次类推,子开关sw13将输入数据缓存270的存储单元b15的addr0中选取d1.7作为目标子数据块,送入PE1300中,和参数缓存202中获取的子数据块x2进行卷积运算。
子开关sw14将输入数据缓存270的存储单元b8的addr1中选取d1.8作为目标子数据块,送入PE1300中,和参数缓存202中获取的子数据块x2进行卷积运算。
而子开关sw15将输入数据缓存270的存储单元b9的addr1中选取d1.9作为目标子数据块,送入PE1500中,和参数缓存202中获取的子数据块x2进行卷积运算。
第一个运算周期内,各个子开关从各个存储单元中选择出的目标子数据块与第一列PE(PE000至PE1500)中各个PE的对应关系如下表3所示。第一个运算周期内的其他时钟周期,以及第二运算周期至第六运算周期内的各个时钟周期,各个子开关从各个存储单元中选取的目标子数据块不再赘述。
子开关 | Clk1 | Clk2 | Clk3 | Clk4 | Clk5 | Clk6 | Clk7 | Clk8 | Clk9 | PE |
Sw0 | d0.0 | d0.2 | d0.4 | d2.0 | d2.2 | d2.4 | d4.0 | d4.2 | d4.4 | PE000 |
Sw1 | d0.1 | d0.3 | d0.5 | d2.1 | d2.3 | d2.5 | d4.1 | d4.3 | d4.5 | PE100 |
Sw2 | d0.2 | d0.4 | d0.6 | d2.2 | d2.4 | d2.6 | d4.2 | d4.4 | d4.6 | PE200 |
Sw3 | d0.3 | d0.5 | d0.7 | d2.3 | d2.5 | d2.7 | d4.3 | d4.5 | d4.7 | PE300 |
Sw4 | d0.4 | d0.6 | d0.8 | d2.4 | d2.6 | d2.8 | d4.4 | d4.6 | d4.8 | PE300 |
Sw5 | d0.5 | d0.7 | d0.9 | d2.5 | d2.7 | d2.9 | d4.5 | d4.7 | d4.9 | PE500 |
Sw6 | d0.6 | d0.8 | d0.10 | d2.6 | d2.8 | d2.10 | d4.6 | d4.8 | d4.10 | PE600 |
Sw7 | d0.7 | d0.9 | d0.11 | d2.7 | d2.9 | d2.11 | d4.7 | d4.9 | d4.11 | PE700 |
Sw8 | d1.0 | d1.2 | d1.4 | d3.0 | d3.2 | d3.4 | d4.0 | d4.2 | d4.4 | PE800 |
Sw9 | d1.1 | d1.3 | d1.5 | d3.1 | d3.3 | d3.5 | d5.1 | d5.3 | d5.5 | PE900 |
Sw10 | d1.2 | d1.4 | d1.6 | d3.2 | d3.4 | d3.6 | d5.2 | d5.4 | d5.6 | PE1000 |
Sw11 | d1.3 | d1.5 | d1.7 | d3.3 | d3.5 | d3.7 | d5.3 | d5.5 | d5.7 | PE1100 |
Sw12 | d1.4 | d1.6 | d1.8 | d3.4 | d3.6 | d3.8 | d5.4 | d5.6 | d5.8 | PE1200 |
Sw13 | d1.5 | d1.7 | d1.9 | d3.5 | d3.7 | d3.9 | d5.5 | d5.7 | d5.9 | PE1300 |
Sw14 | d1.6 | d1.8 | d1.10 | d3.6 | d3.8 | d3.10 | d5.6 | d5.8 | d5.10 | PE1300 |
Sw15 | d1.7 | d1.9 | d1.11 | d3.7 | d3.9 | d3.11 | d5.7 | d5.9 | d5.11 | PE1500 |
表3
参考表2可知,当乘法电路200在执行扩张卷积运算时,在同一运算周期的相邻两个时钟周期内,各个子开关从输入数据中选取出的目标子数据块在输入数据中所处的位置是不连续的。
此外,可以理解的是,以上关于通道数为3的卷积核对通道数同样为3的输入数据进行标准卷积和扩张卷积的运算过程的介绍,仅仅是为了说明标准卷积和扩张卷积的大致运算过程的一个简单的示例。本申请的技术方案在实际应用中,对标准卷积和扩张卷积运算中涉及的输入数据以及卷积核数据的通道数不做限定。例如,在一些实施例中,本申请提供的乘法电路在执行标准卷积运算以及扩张卷积运算过程中,参与运算的输入数据以及卷积核数据的通道数可以为32的整数倍。
在介绍完本申请提供的乘法电路200的硬件结构以及乘法电路200执行扩张卷积运算和标准卷积运算的过程之后,以下将对本申请提供的一种包括乘法电路200的片上系统进行介绍。
例如,如图6所示,片上系统(System on Chip,SOC)300包括乘法电路200、主控中央处理器(Central Processing Unit,CPU)310、双倍速率(Double Data Rate,DDR)内存320以及先进可扩展接口(Advanced extensible Interface,AXI)总线330。乘法电路200、主控CPU310以及DDR内存320通过AXI总线330进行通信。其中,乘法电路200的结构以及工作原理已在前文介绍过,具体请参阅以上关于图1至图5部分的文字描述,在此不再赘述。
DDR内存320可以用于加载以及存储数据和/或指令。例如,在一些实施例中,DDR内存320可以用于加载或者存储乘法电路200执行标准卷积运算或者扩张卷积运算时所涉及的卷积核数据、输入数据以及乘法电路200输出的卷积结果数据等。
主控CPU310可以包括一个或多个单核或多核处理器。在一些实施例中,主控CPU310可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任意组合。在一些实施例中,主控CPU310可以用于在不同的应用场景下,控制乘法电路200在扩张卷积运算模式和标准卷积运算模式之间切换,使乘法电路200执行扩张卷积运算或者标准卷积运算。例如,在一些实施例中,在DDR内存320中存储有片上系统300的运算程序,将抠图场景对应的扩张卷积运算程序以及人脸识别门禁场景对应的标准卷积运算程序用不同的标签进行映射。主控CPU310从DDR内存320中取指令,然后根据不同的指令控制乘法电路200执行不同的运算模式。
至此,对本申请提供的乘法电路200以及设置有乘法电路200的片上系统300结构以及工作原理进行了介绍。
需要说明的是,本申请技术方案除了通过例如图2所示的乘法电路200能够实现之外,还可以通过其他方式,如通过软件实现。
例如,在一些实施例中,本申请的技术方案通过如图7所示的流程图来实现。具体地,如图7所示,本申请提供的一种卷积运算方法包括以下步骤:
步骤701:判断需要执行的卷积运算模式,在需要执行扩张卷积运算时,进入步骤702,在需要执行标准卷积运算时,进入步骤704。
步骤702:获取第一待卷积数据。其中,第一待卷积数据为根据预设步长,采用和第二卷积核相同大小的滑动窗口在输入数据上滑动,得到的多个和第二卷积核相同大小的数据块。
例如,假设第一卷积核大小为3*3*3,扩张卷积运算的扩张参数d=1,也即需要将第一卷积核的各个通道参数中,每两个相邻数据之间要填充一个零(也即扩张数据为零)。则得到扩张后的大小为5*5*3的第二卷积核。
如图5(a)所示,对于大小为14*8*3的输入数据,以通道C1左上方的第一个数据为起点,步长为1,按照5*5*3的滑动窗口在输入数据上滑动。得到大小同样为5*5*3的多个待卷积数据。例如,首先从左往右滑动,得到数据块B01至B010;然后从数据块B01再向下滑动一个数据后继续从左往右滑动,得到数据块B11至B110;再从数据块B11向下滑动一个数据后继续从左往右滑动,得到数据块B21至B210,依次类推,再依次得到数据块B31至B310。
步骤703:根据第二卷积核中的扩张数据的排布,从第一待卷积数据中选择出有效数据。其中第二卷积核是在第一卷积核中加入扩张数据生成的,有效数据为第一待卷积数据中不与第二卷积核中的扩张数据进行运算的数据。其中,扩张数据为按照预设间隔在第一卷积核中加入的多行和/或多列的多个零
例如,扩张卷积运算的扩张参数d=1,则预设间隔为1,即在第一卷积核中每两个相邻数据之间填充一个零,也即扩张数据为按照预设间隔为1在第一卷积核中加入的多行多列的多个零。例如,假设第一卷积核大小为3*3*3,扩张卷积运算的扩张参数d=1,则得到扩张后的大小为5*5*3的第二卷积核。其中,扩张数据为填充的两行两列的多个零,其中一行或一列均包含5个零。
步骤704:获取第二待卷积数据。其中,第二待卷积数据为根据预设步长,采用和第一卷积核相同大小的滑动窗口在输入数据上滑动,得到的多个和第一卷积核相同大小的数据块。
例如,假设第一卷积核大小为3*3*3,输入数据大小为14*8*3。则如图4(a)所示,对于大小为14*8*3的输入数据,以通道C1左上方的第一个数据为起点,预设步长为1,按照3*3*3的滑动窗口在输入数据上滑动。得到大小同样为3*3*3的多个待卷积数据。例如,首先从左往右滑动,得到数据块A01至A012;然后从数据块A01再向下滑动一个数据后继续从左往右滑动,得到数据块A11至A112;再从数据块A11向下滑动一个数据后继续从左往右滑动,得到数据块A21至A212,依次类推,再依次得到数据块A31至A312,数据块A41至A412,数据块A51至A512。
步骤705:将第二待卷积数据确定为有效数据。
步骤706:采用多个第一卷积核对有效数据进行卷积运算。具体运算方法请参见以上关于乘法电路200执行扩张卷积运算以及标准卷积运算的相关描述,在此不再赘述。
图8根据本申请的一些实施例,提供了一种电子设备100的结构框图。如图8所示,电子设备100包括存储器110、输入输出设备120、处理器140、通信模块130以及片上系统300。
乘法电路200用于在不同场景下执行不同的卷积运算,例如在抠图场景中,执行扩张卷积运算;在人脸识别门禁场景中,执行标准卷积运算。具体可以参考上述关于图1至图5部分的文字描述,在此不再赘述。
处理器140可以包括一个或多个处理单元,例如,可以包括中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、微处理器(Micro-programmed Control Unit,MCU)、人工智能(Artificial Intelligence,AI)处理器或可编程逻辑器件(Field ProgrammableGate Array,FPGA)等的处理模块或处理电路。在一些实施例中,假设电子设备100为计算机,则处理器140用于根据乘法电路200输出的计算结果,得到目标抠图对象。又例如,在一些实施例中,假设电子设备100为人脸识别门禁,则处理器140用于根据乘法电路200输出的人脸识别结果,确定是否打开门禁。在一些实施例中,处理器140可以执行如图7所示的卷积运算方法。
存储器110,可用于存储数据、软件程序以及模块,可以是易失性存储器(VolatileMemory),例如随机存取存储器(Random-Access Memory,RAM);或者非易失性存储器(Non-Volatile Memory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(FlashMemory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);或者上述种类的存储器的组合,或者也可以是可移动存储介质,例如安全数字(Secure Digital,SD)存储卡。例如,存储器110用于存储乘法电路200的运算程序、乘法电路200输出的卷积运算结果、采集的图像以及乘法电路200执行卷积运算所涉及的卷积核数据等。在一些实施例中,存储器110可以存储相应的软件程序,当这些软件程序被运行时,实现如图7所示的卷积运算方法。
输入输出设备120,可以包括显示屏、触摸屏和喇叭等。
通信模块130,例如WIFI模块、通用串行总线(Universal Serial Bus,USB)、4G和5G模块等。用于供电子设备100通过通信模块130和其他电子设备通信。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(Digital Video Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor,DSP)、微控制器、专用集成电路(Application Specific Integrated Circuit,ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、可擦除可编程只读存储器(Erasable Programmable Read OnlyMemory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (21)
1.一种用于卷积运算的乘法电路,其特征在于,包括:PE阵列、用于存储输入数据的第一缓存、用于存储多个第一卷积核的第二缓存,以及连接于所述PE阵列和所述第一缓存之间的开关电路;
其中,在所述乘法电路执行扩张卷积运算时:
所述开关电路用于根据第二卷积核中的扩张数据的排布,对所述输入数据中的第一待卷积数据进行选择输出,以将所述第一待卷积数据中的有效数据输出至所述PE阵列,其中所述有效数据为所述第一待卷积数据中不与所述第二卷积核中的扩张数据进行运算的数据,所述第二卷积核是在所述第一卷积核中加入所述扩张数据生成的;
所述PE阵列用于从所述第二缓存获取所述多个第一卷积核,并采用所述第一卷积核对所述有效数据进行卷积运算。
2.根据权利要求1所述的乘法电路,其特征在于,所述PE阵列包括多行PE,所述开关电路包括分别与所述PE阵列中每一行PE一一对应的多个子开关;
其中,在所述乘法电路执行扩张卷积运算时:
所述开关电路中的各个子开关分别用于根据所述第二卷积核中的扩张数据的排布,对所述输入数据中各个所述第一待卷积数据进行选择输出,以将所述第一待卷积数据中的有效数据输出至所述PE阵列中相应的一行PE,其中,所述输入数据中与不同子开关对应的第一待卷积数据不同;
所述PE阵列中的每一行PE用于从所述第二缓存获取所述多个第一卷积核,并采用所述第一卷积核对所述有效数据进行卷积运算。
3.根据权利要求2所述的乘法电路,其特征在于,所述第一缓存包括多个存储单元,用于存储所述输入数据,其中,每两个所述存储单元中存储的数据不同,并且将所述多个存储单元存储的数据进行汇总构成所述输入数据;
在所述乘法电路执行扩张卷积运算时:
所述开关电路中的各个子开关分别用于根据所述第二卷积核中的扩张数据的排布,从所述第一缓存的多个所述存储单元中选取出有效数据,以将所述有效数据输出至所述PE阵列中相应的一行PE,其中,所述开关电路的每个子开关在每个运算周期,从所述多个所述存储单元的每一个存储单元中选取出的有效数据不同;
所述PE阵列中的每一行PE用于从所述第二缓存获取所述多个第一卷积核,并采用所述第一卷积核对所述有效数据进行卷积运算。
4.根据权利要求1至3任一项所述的乘法电路,其特征在于,所述第一待卷积数据为根据预设步长,采用和所述第二卷积核相同大小的滑动窗口在所述输入数据上滑动,得到的多个和所述第二卷积核相同大小的数据块。
5.根据权利要求1所述的乘法电路,其特征在于,在所述乘法电路执行标准卷积运算时:
所述开关电路用于将第二待卷积数据作为有效数据输出至所述PE阵列;
所述PE阵列用于从所述第二缓存获取所述多个第一卷积核,并采用所述第一卷积核对所述有效数据进行卷积运算。
6.根据权利要求5所述的乘法电路,其特征在于,所述PE阵列包括多行PE,所述开关电路包括分别与所述PE阵列中每一行PE一一对应的多个子开关;
其中,在所述乘法电路执行标准卷积运算时:
所述开关电路中的各个子开关分别用于将所述输入数据中各个所述第二待卷积数据作为有效数据输出至所述PE阵列中相应的一行PE,其中,所述输入数据中与不同子开关对应的第二待卷积数据不同;
所述PE阵列中的每一行PE用于从所述第二缓存获取所述多个第一卷积核,并采用所述第一卷积核对所述有效数据进行卷积运算。
7.根据权利要求6所述的乘法电路,其特征在于,所述第一缓存包括多个存储单元,用于存储所述输入数据,其中,每两个所述存储单元中存储的数据不同,并且将所述多个存储单元存储的数据进行汇总构成所述输入数据;
在所述乘法电路执行标准卷积运算时:
所述开关电路中的各个子开关分别用于从所述第一缓存的多个所述存储单元中选取出所述第二待卷积数据,以将作为有效数据的所述第二待卷积数据输出至所述PE阵列中相应的一行PE,其中,所述开关电路的每个子开关在每个运算周期,从所述多个所述存储单元的每一个存储单元中选取出的有效数据不同;
所述PE阵列中的每一行PE用于从所述第二缓存获取所述多个第一卷积核,并采用所述第一卷积核对所述有效数据进行卷积运算。
8.根据权利要求5至7任一项所述的乘法电路,其特征在于,所述第二待卷积数据为根据预设步长,采用和所述第一卷积核相同大小的滑动窗口在所述输入数据上滑动,得到的多个和所述第一卷积核相同大小的数据块。
9.根据权利要求1所述的乘法电路,其特征在于,还包括第三缓存,用于缓存所述PE阵列的卷积运算结果。
10.根据权利要求1所述的乘法电路,其特征在于,还包括存储控制电路,用于将外部存储空间中存储的输入数据读取到所述第一缓存中,和/或将所述外部存储空间中存储的多个卷积核读取到所述第二缓存中。
11.根据权利要求10所述的乘法电路,其特征在于,还包括连接于所述存储控制电路和所述第一缓存之间的输入数据排列模块,用于将所述输入数据中的至少部分数据写入第一缓存的各个存储单元。
12.根据权利要求1所述的乘法电路,其特征在于,所述扩张数据为按照预设间隔在所述第一卷积核中加入的多行和/或多列的多个零。
13.一种片上系统,其特征在于,包括如权利要求1至3、5至7、9至12任一项所述的乘法电路。
14.一种电子设备,其特征在于,包括如权利要求13所述的片上系统。
15.一种卷积运算方法,其特征在于,应用权利要求1所述的乘法电路,所述方法包括:
从输入数据中获取第一待卷积数据;
所述开关电路根据第二卷积核中的扩张数据的排布,从所述第一待卷积数据中选择出有效数据,并将所述有效数据输出至PE阵列;
所述PE阵列用于从所述第二缓存获取所述多个第一卷积核,并采用多个第一卷积核对所述有效数据进行卷积运算;
其中所述第二卷积核是在所述第一卷积核中加入所述扩张数据生成的,所述有效数据为所述第一待卷积数据中不与所述第二卷积核中的扩张数据进行运算的数据。
16.根据权利要求15所述的方法,其特征在于,所述第一待卷积数据为根据预设步长,采用和所述第二卷积核相同大小的滑动窗口在所述输入数据上滑动,得到的多个和所述第二卷积核相同大小的数据块。
17.根据权利要求15所述的方法,其特征在于,还包括:
获取第二待卷积数据;
将所述第二待卷积数据确定为有效数据;
采用所述多个第一卷积核对所述有效数据进行卷积运算。
18.根据权利要求17所述的方法,其特征在于,所述第二待卷积数据为根据预设步长,采用和所述第一卷积核相同大小的滑动窗口在所述输入数据上滑动,得到的多个和所述第一卷积核相同大小的数据块。
19.根据权利要求15所述的方法,其特征在于,所述扩张数据为按照预设间隔在所述第一卷积核中加入的多行和/或多列的多个零。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,该指令在电子设备上执行时使电子设备执行权利要求15-19中任一项所述的卷积运算方法。
21. 一种电子设备,其特征在于,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,当所述指令被一个或多个处理器执行时,所述处理器用于执行权利要求15-19中任一项所述的卷积运算方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110886965.5A CN113610223B (zh) | 2021-08-03 | 2021-08-03 | 乘法电路、卷积运算方法、介质、片上系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110886965.5A CN113610223B (zh) | 2021-08-03 | 2021-08-03 | 乘法电路、卷积运算方法、介质、片上系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610223A CN113610223A (zh) | 2021-11-05 |
CN113610223B true CN113610223B (zh) | 2023-12-26 |
Family
ID=78339305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110886965.5A Active CN113610223B (zh) | 2021-08-03 | 2021-08-03 | 乘法电路、卷积运算方法、介质、片上系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113610223B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647776A (zh) * | 2018-05-08 | 2018-10-12 | 济南浪潮高新科技投资发展有限公司 | 一种卷积神经网络卷积膨胀处理电路及方法 |
CN111639701A (zh) * | 2020-05-28 | 2020-09-08 | 山东云海国创云计算装备产业创新中心有限公司 | 一种图像特征提取的方法、系统、设备及可读存储介质 |
CN111951269A (zh) * | 2020-10-16 | 2020-11-17 | 深圳云天励飞技术股份有限公司 | 图像处理方法及相关设备 |
GB202100937D0 (en) * | 2021-01-25 | 2021-03-10 | Imagination Tech Ltd | Implementing dilated convolution in hardware |
WO2021088563A1 (zh) * | 2019-11-04 | 2021-05-14 | 北京希姆计算科技有限公司 | 卷积运算电路、装置以及方法 |
WO2021111633A1 (ja) * | 2019-12-06 | 2021-06-10 | 日本電気株式会社 | パラメータ最適化装置、パラメータ最適化方法、およびパラメータ最適化プログラム |
WO2021114903A1 (zh) * | 2019-12-09 | 2021-06-17 | 中科寒武纪科技股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200066952A (ko) * | 2018-12-03 | 2020-06-11 | 삼성전자주식회사 | 확장 컨벌루션 연산을 수행하는 장치 및 방법 |
-
2021
- 2021-08-03 CN CN202110886965.5A patent/CN113610223B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108647776A (zh) * | 2018-05-08 | 2018-10-12 | 济南浪潮高新科技投资发展有限公司 | 一种卷积神经网络卷积膨胀处理电路及方法 |
WO2021088563A1 (zh) * | 2019-11-04 | 2021-05-14 | 北京希姆计算科技有限公司 | 卷积运算电路、装置以及方法 |
WO2021111633A1 (ja) * | 2019-12-06 | 2021-06-10 | 日本電気株式会社 | パラメータ最適化装置、パラメータ最適化方法、およびパラメータ最適化プログラム |
WO2021114903A1 (zh) * | 2019-12-09 | 2021-06-17 | 中科寒武纪科技股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN111639701A (zh) * | 2020-05-28 | 2020-09-08 | 山东云海国创云计算装备产业创新中心有限公司 | 一种图像特征提取的方法、系统、设备及可读存储介质 |
CN111951269A (zh) * | 2020-10-16 | 2020-11-17 | 深圳云天励飞技术股份有限公司 | 图像处理方法及相关设备 |
GB202100937D0 (en) * | 2021-01-25 | 2021-03-10 | Imagination Tech Ltd | Implementing dilated convolution in hardware |
Non-Patent Citations (2)
Title |
---|
DODNet:一种扩张卷积优化的图像语义分割模型;祖朋达;李晓敏;陈更生;许薇;;复旦学报(自然科学版)(第05期);全文 * |
Real-time Object Detection and Semantic Segmentation Hardware System with Deep Learning Networks;Shaoxia Fang等;2018 International Conference on Field-Programmable Technology (FPT);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113610223A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102492477B1 (ko) | 행렬 곱셈기 | |
CN109062611B (zh) | 神经网络处理装置及其执行向量缩放指令的方法 | |
CN108416422B (zh) | 一种基于fpga的卷积神经网络实现方法及装置 | |
US11003985B2 (en) | Convolutional neural network system and operation method thereof | |
US9367892B2 (en) | Processing method and apparatus for single-channel convolution layer, and processing method and apparatus for multi-channel convolution layer | |
CN108205700B (zh) | 神经网络运算装置和方法 | |
CN110597559A (zh) | 计算装置以及计算方法 | |
CN111079917B (zh) | 张量数据分块存取的方法及装置 | |
US20160093343A1 (en) | Low power computation architecture | |
WO2020238843A1 (zh) | 神经网络计算设备、方法以及计算设备 | |
CN113032007B (zh) | 一种数据处理方法及装置 | |
US12093800B2 (en) | Hybrid convolution operation | |
CN111310115B (zh) | 数据处理方法、装置及芯片、电子设备、存储介质 | |
CN115238863A (zh) | 一种卷积神经网络卷积层的硬件加速方法、系统及应用 | |
CN113610223B (zh) | 乘法电路、卷积运算方法、介质、片上系统和电子设备 | |
US9632801B2 (en) | Banked memory access efficiency by a graphics processor | |
CN109740730B (zh) | 运算方法、装置及相关产品 | |
CN110533177B (zh) | 一种数据读写装置、方法、设备、介质及卷积加速器 | |
CN108572593B (zh) | 跨平台卷积神经网络控制系统及方法、信息数据处理终端 | |
CN115204380A (zh) | 存算一体卷积神经网络的数据存储及阵列映射方法与装置 | |
CN109542837B (zh) | 运算方法、装置及相关产品 | |
CN111368987B (zh) | 一种神经网络计算装置和方法 | |
CN113361699B (zh) | 乘法电路、片上系统和电子设备 | |
CN109543834B (zh) | 运算方法、装置及相关产品 | |
CN111047024A (zh) | 一种计算装置及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |