CN112419142A - 一种提升dcnn计算阵列效率的系统及方法 - Google Patents

一种提升dcnn计算阵列效率的系统及方法 Download PDF

Info

Publication number
CN112419142A
CN112419142A CN202011339614.4A CN202011339614A CN112419142A CN 112419142 A CN112419142 A CN 112419142A CN 202011339614 A CN202011339614 A CN 202011339614A CN 112419142 A CN112419142 A CN 112419142A
Authority
CN
China
Prior art keywords
buffer
buffer area
dcnn
read
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011339614.4A
Other languages
English (en)
Other versions
CN112419142B (zh
Inventor
张华�
刘欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science Fusion Perception Intelligence Research Institute Suzhou Industrial Park Co ltd
Original Assignee
China Science Fusion Perception Intelligence Research Institute Suzhou Industrial Park Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science Fusion Perception Intelligence Research Institute Suzhou Industrial Park Co ltd filed Critical China Science Fusion Perception Intelligence Research Institute Suzhou Industrial Park Co ltd
Priority to CN202011339614.4A priority Critical patent/CN112419142B/zh
Publication of CN112419142A publication Critical patent/CN112419142A/zh
Application granted granted Critical
Publication of CN112419142B publication Critical patent/CN112419142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0007Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Input (AREA)

Abstract

本发明公开了一种提升DCNN计算阵列效率的系统及方法,包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器;所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据,与本地缓冲区连接;所述本地缓冲区存储计算阵列控制器每次计算时的输入数据,与计算阵列控制器连接;所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据,通过写本地缓冲区控制模块写入本地缓冲区;所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据,计算完成后通过写全局缓冲区控制模块写回全局缓冲区;本发明在不增加成本的情况下,大幅提升DCNN的计算效率。

Description

一种提升DCNN计算阵列效率的系统及方法
技术领域
本发明涉及一种提升DCNN计算阵列效率的系统及方法,属于卷积神经网络技术领域。
背景技术
随着深度学习的发展,深度卷积神经网络DCNN成为应用最为广泛的网络结构,在图像、语音等领域应用广泛,深度卷积神经网络的核心算法是卷积计算,卷积计算在整个神经网络的计算中占据核心地位,如何提升DCNN计算效率是一个急需解决的问题。
现有技术中,采用乒乓SRAM的方法,来提升计算效率,这种方式把SRAM大小直接翻倍,面积也就直接翻倍,相应成本也翻倍了,同时也增加了系统功耗;而在ASIC中,SRAM的成本是昂贵的。
发明内容
针对上述存在的技术问题,本发明的目的是:提出了一种提升DCNN计算阵列效率的系统及方法,在不花费额外成本的条件下大幅提升计算阵列的计算效率。
本发明的技术解决方案是这样实现的:一种提升DCNN计算阵列效率的系统,包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器;
所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据,与本地缓冲区连接;
所述本地缓冲区存储计算阵列控制器每次计算时的输入数据,与计算阵列控制器连接;
所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据,通过写本地缓冲区控制模块写入本地缓冲区;
所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据,计算完成后通过写全局缓冲区控制模块写回全局缓冲区。
优选的,所述本地缓冲区包括写端口单元、写缓冲寄存器、SRAM、读缓冲寄存器、读端口单元和读写缓冲控制单元;所述写端口单元接入写缓冲寄存器;所述读缓冲寄存器接入有读端口单元;所述写缓冲寄存器和读缓冲寄存器设置在SRAM两端,并通过读写缓冲控制单元控制写缓冲寄存器和读缓冲寄存器的单元逻辑。
优选的,所述写端口单元的位宽为8Bits x N;所述写缓冲寄存器的位宽为8Bitsx N;所述SRAM的深度为P,位宽为8Bits x N;所述读缓冲寄存器的位宽为8Bits x N;所述读端口单元的位宽为8Bits;其中N的数值为2的n次方,n≥1。
优选的,所述本地缓冲区包括多个本地缓冲阵列(X,Y,Z),其中X表示阵列的纵向方向,Y表示阵列的横向方向,Z表示每个缓冲的深度;每个(X,Y)坐标点表示缓冲阵列中在X行,Y列的位置存在一个物理缓存,缓存基于SRAM实现;每个(X,Y,Z)坐标点表示缓冲阵列中在X行,Y列的位置存在的一个物理缓存缓存基于SRAM实现,SRAM深度为Z。
一种提升DCNN计算阵列效率的方法,包括如下步骤, S100,设置DCNN计算内核所需的基本配置,将DCNN处理所需的所有输入参数录入全局缓冲区待用;
S200,设置卷积处理所需的配置,启动DCNN计算内核运行;
S300,从全局缓冲区读取卷积处理所需的参数,然后向本地缓冲区写入所需的参数,当参数全部写入本地缓冲区后,向计算阵列控制器发出计算开始信号:
S400,计算阵列控制器从本地缓冲区读取参数,进行卷积处理,处理完成后,向全局缓冲区写入计算输出结果;
S500,对卷积处理情况进行判断:若卷积处理未全部完成,则再次执行S200;若卷积处理全部完成,则进入下一步:
S600,DCNN处理完成。
优选的,记录每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间
Figure 100002_DEST_PATH_IMAGE001
以及对应的每次卷积处理时间
Figure 283844DEST_PATH_IMAGE002
,求得每次可用传输计算比
Figure 100002_DEST_PATH_IMAGE003
,
Figure 226392DEST_PATH_IMAGE004
;记录每次可用总处理时间
Figure 100002_DEST_PATH_IMAGE005
Figure 106404DEST_PATH_IMAGE006
优选的,每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间与对应的每次卷积处理时间存在重叠,重叠时间记录为
Figure 100002_DEST_PATH_IMAGE007
由于上述技术方案的运用,本发明与现有技术相比具有下列优点:
本发明的一种提升DCNN计算阵列效率的系统及方法,通过保持本地缓冲阵列SRAM大小不变,且保持为单端口SRAM,在不增加成本的情况下,大幅提升DCNN的计算效率,大大的降低了企业的成本,满足企业发展的需求。
附图说明
下面结合附图对本发明技术方案作进一步说明:
附图1为本发明一种提升DCNN计算阵列效率的系统的功能框图;
附图2为本发明一种提升DCNN计算阵列效率的系统的本地缓冲区详细框图;
附图3为本发明一种提升DCNN计算阵列效率的系统的本地缓冲区阵列框图;
附图4为本发明的一种提升DCNN计算阵列效率的方法流程图;
附图5为本发明的流程处理时间优化前后对比图。
具体实施方式
下面结合附图来说明本发明。
实施例一
如附图1所示为本发明所述的一种提升DCNN计算阵列效率的系统,包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器;所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据,与本地缓冲区连接;所述本地缓冲区存储计算阵列控制器每次计算时的输入数据,与计算阵列控制器连接;所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据,通过写本地缓冲区控制模块写入本地缓冲区;所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据,计算完成后通过写全局缓冲区控制模块写回全局缓冲区。
实施例二
如附图2为本发明的本地缓冲区详细框图,所述本地缓冲区包括写端口单元、写缓冲寄存器、SRAM、读缓冲寄存器、读端口单元和读写缓冲控制单元;所述写端口单元接入写缓冲寄存器;所述读缓冲寄存器接入有读端口单元;所述写缓冲寄存器和读缓冲寄存器设置在SRAM两端,并通过读写缓冲控制单元控制写缓冲寄存器和读缓冲寄存器的单元逻辑;所述写端口单元的位宽为8Bits x N;所述写缓冲寄存器的位宽为8Bits x N;所述SRAM的深度为P,位宽为8Bits x N;所述读缓冲寄存器的位宽为8Bits x N;所述读端口单元的位宽为8Bits;其中N的数值为2的n次方,n≥1,其中N=2、4、8等。
因为写数据宽度是读数据宽度的N倍,也就是写端口单元能提供的带宽是读端口单元带宽的N倍;鉴于此,可以使用位宽为单端口SRAM,数据宽度8Bits x N,模拟双端口SRAM,写端口数据宽度8Bits x N,读端口数据宽度8Bits,且可满足读/写带宽的需求。
读写缓冲控制单元用于控制读、写端口单元,具体方法如下:
读端口单元的地址位宽为
Figure DEST_PATH_IMAGE009
,写端口单元的地址位宽为
Figure 464704DEST_PATH_IMAGE010
;比如N=4,P=64即写端口单元数据位宽32bits,读端口单元数据位宽8bits;写端口单元地址宽度6bits,读端口单元地址位宽8bits;需要注意是,虽然读端口单元上的位宽是8bits,但实际读SRAM端口的地址位宽是6bits,且从SRAM读出的数据位宽也为32bits;
读操作,首先会比对读端口单元的高位地址,读端口单元的
Figure 937274DEST_PATH_IMAGE008
宽度地址截掉低
Figure DEST_PATH_IMAGE011
位,比较一致且读缓冲寄存器有效时,则直接从读缓冲寄存器读出数据;比较不一致时,则从SRAM读出8Bits x N宽度的数据,取出需要的8bits数据,同时把8Bitsx N数据存到读缓冲寄存器;
当对SRAM的读/写操作发生冲突即读/写信号同时有效时,则读操作优先;来自写端口单元的数据会暂存在写缓冲寄存器中,待SRAM的读端口单元无操作时,把写缓冲寄存器中数据写到SRAM;
因为宏观上写端口单元提供的带宽是读端口单元提供带宽的N倍,且根据数据分发控制器对本地缓冲区的写策略,读写(X,Y)坐标上SRAM是均匀轮训的,因此读写操作不会出现连续冲突的情况,读写缓冲控制逻辑实现可以很简单。
实施例三
如附图3为本发明的本地缓冲区阵列框图,所述本地缓冲区包括多个本地缓冲阵列(X,Y,Z),其中X表示阵列的纵向方向,Y表示阵列的横向方向,Z表示每个缓冲的深度;每个(X,Y)坐标点表示缓冲阵列中在X行,Y列的位置存在一个物理缓存,缓存基于SRAM实现;每个(X,Y,Z)坐标点表示缓冲阵列中在X行,Y列的位置存在的一个物理缓存缓存基于SRAM实现,SRAM深度为Z。
数据分发控制器对本地缓冲区的写策略采用X->Y->Z顺序;
具体从本地缓冲区的坐标顺序上看:
(1,1,1)->(2,1,1)-> … ->(M,1,1)->(1,2,1)->(2,2,1)->…->(M,2,1)->(1,N,1)->(2,N,1)->… ->(M,N,1)-> (1,1,2)->(2,1,2)-> … ->(M,1,2)->(1,2,2)->(2,2,2)->…->(M,2,2)->(1,N,2)->(2,N,2)->… ->(M,N,2)->
……
(1,1,P)->(2,1, P)-> … ->(M,1, P)->(1,2, P)->(2,2, P)->…->(M,2, P)->(1,N, P)->(2,N, P)->… ->(M,N, P);
计算阵列控制器对本地缓冲区的读策略也采用X->Y->Z顺序;
具体从本地缓冲区的坐标顺序上看,跟写策略的顺序一样:
(1,1,1)->(2,1,1)-> … ->(M,1,1)->(1,2,1)->(2,2,1)->…->(M,2,1)->(1,N,1)->(2,N,1)->… ->(M,N,1)-> (1,1,2)->(2,1,2)-> … ->(M,1,2)->(1,2,2)->(2,2,2)->…->(M,2,2)->(1,N,2)->(2,N,2)->… ->(M,N,2)->
……
(1,1,P)->(2,1, P)-> … ->(M,1, P)->(1,2, P)->(2,2, P)->…->(M,2, P)->(1,N, P)->(2,N, P)->… ->(M,N, P)。
实施例四
基于本发明方法的2种处理流程:
流程1:
数据分发控制器按照对本地缓冲区的写策略,把参数按照X->Y->Z的顺序依次写入本地缓冲阵列;
对最后一组数据(M,N,P)的本地缓冲写完后;启动计算阵列控制器按照对本地缓冲区的读策略,从本地缓冲区按照X->Y->Z的顺序依次读出本地缓冲中的参数,进行计算;
选择合适的Z值,随后再次启动数据分发控制器对本地缓冲区的写策略,继续按照X->Y->Z的顺序依次更新下一次处理过程的输入参数;
只要Z值选择合适,一次处理过程中,计算阵列控制器一边读出数据进行计算,同时缓冲阵列也随后被下一次处理过程的数据更新,但又不会被下一次处理过程写入的数据覆盖当前处理过程的数据,从而实现数据计算和数据传输重叠,减少处理时间。
流程2:
数据分发控制器按照对本地缓冲区的写策略,把参数按照X->Y->Z的顺序依次写入本地缓冲阵列;
选择合适的Z值,随后启动计算阵列控制器按照对本地缓冲区的读策略,从本地缓冲按照X->Y->Z的顺序依次读出本地缓冲中的参数,进行计算;
只要Z值选择合适,一次处理过程中,计算阵列读出的数据进行计算,但又不会超过本地缓冲区写数据的数据量;也就实现了边写边计算的功能,从而也可实现数据计算和数据传输重叠,减少处理时间。
实施例五
如附图4所示为本发明的一种提升DCNN计算阵列效率的方法,包括如下步骤, S100,设置DCNN计算内核所需的基本配置,将DCNN处理所需的所有输入参数录入全局缓冲区待用;
S200,设置卷积处理所需的配置,启动DCNN计算内核运行;
S300,从全局缓冲区读取卷积处理所需的参数,然后向本地缓冲区写入所需的参数,当参数全部写入本地缓冲区后,向计算阵列控制器发出计算开始信号:
S400,计算阵列控制器从本地缓冲区读取参数,进行卷积处理,处理完成后,向全局缓冲区写入计算输出结果;
S500,对卷积处理情况进行判断:若卷积处理未全部完成,则再次执行S200;若卷积处理全部完成,则进入下一步:
S600,DCNN处理完成。
如附图5所示,在本方法中,记录每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间
Figure 722827DEST_PATH_IMAGE001
以及对应的每次卷积处理时间
Figure 648058DEST_PATH_IMAGE002
是2个关键过程,直接影响计算时间和计算效率;通过每次处理过程中的参数传输时间
Figure 810049DEST_PATH_IMAGE001
和每次处理过程中的卷积处理时间
Figure 137125DEST_PATH_IMAGE002
,求得每次可用传输计算比
Figure 421476DEST_PATH_IMAGE003
,
Figure 270221DEST_PATH_IMAGE004
Figure 32641DEST_PATH_IMAGE003
越小,计算效率越高;
Figure 214223DEST_PATH_IMAGE003
越大,计算效率越低;每次可用总处理时间
Figure 607159DEST_PATH_IMAGE005
Figure 506981DEST_PATH_IMAGE006
,来表达一次处理过程的总时间,直接影响DCNN的处理耗时,
Figure 73092DEST_PATH_IMAGE005
越小越好。
为此,为了提高DCNN计算阵列效率,需要减小
Figure 109181DEST_PATH_IMAGE005
Figure 673018DEST_PATH_IMAGE003
把卷积处理和参数传输进行流水线处理,这样
Figure 60137DEST_PATH_IMAGE001
Figure 164359DEST_PATH_IMAGE002
在时间上是重叠的,重叠时间记录为
Figure 258217DEST_PATH_IMAGE007
,进而
Figure 491490DEST_PATH_IMAGE001
虽然没有减少,但是总处理时间
Figure 100326DEST_PATH_IMAGE005
会减小,
Figure DEST_PATH_IMAGE013
,即流水线处理比普通处理方式减少了
Figure 211501DEST_PATH_IMAGE007
的处理时间。
本发明的一种提升DCNN计算阵列效率的系统及方法,通过保持本地缓冲阵列(SRAM)大小不变,且保持为单端口SRAM,在不增加成本的情况下,大幅提升DCNN的计算效率,大大的降低了企业的成本,满足企业发展的需求。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围内。

Claims (7)

1.一种提升DCNN计算阵列效率的系统,其特征在于:包括全局缓冲区、本地缓冲区、数据分发控制器和计算阵列控制器;
所述全局缓冲区存储DCNN计算的输入图像、网络参数以及计算过程中的临时数据,与本地缓冲区连接;
所述本地缓冲区存储计算阵列控制器每次计算时的输入数据,与计算阵列控制器连接;
所述数据分发控制器通过读全局缓冲区控制模块从全局缓冲区读出数据,通过写本地缓冲区控制模块写入本地缓冲区;
所述计算阵列控制器通过读本地缓冲区控制模块读出待计算数据,计算完成后通过写全局缓冲区控制模块写回全局缓冲区。
2.如权利要求1所述的一种提升DCNN计算阵列效率的系统,其特征在于:所述本地缓冲区包括写端口单元、写缓冲寄存器、SRAM、读缓冲寄存器、读端口单元和读写缓冲控制单元;所述写端口单元接入写缓冲寄存器;所述读缓冲寄存器接入有读端口单元;所述写缓冲寄存器和读缓冲寄存器设置在SRAM两端,并通过读写缓冲控制单元控制写缓冲寄存器和读缓冲寄存器的单元逻辑。
3.如权利要求2所述的一种提升DCNN计算阵列效率的系统,其特征在于:所述写端口单元的位宽为8Bits x N;所述写缓冲寄存器的位宽为8Bits x N;所述SRAM的深度为P,位宽为8Bits x N;所述读缓冲寄存器的位宽为8Bits x N;所述读端口单元的位宽为8Bits;其中N的数值为2的n次方,n≥1。
4.如权利要求1-3中任一项所述的一种提升DCNN计算阵列效率的系统,其特征在于:所述本地缓冲区包括多个本地缓冲阵列(X,Y,Z),其中X表示阵列的纵向方向,Y表示阵列的横向方向,Z表示每个缓冲的深度;每个(X,Y)坐标点表示缓冲阵列中在X行,Y列的位置存在一个物理缓存,缓存基于SRAM实现;每个(X,Y,Z)坐标点表示缓冲阵列中在X行,Y列的位置存在的一个物理缓存缓存基于SRAM实现,SRAM深度为Z。
5.一种提升DCNN计算阵列效率的方法,其特征在于:包括如下步骤, S100,设置DCNN计算内核所需的基本配置,将DCNN处理所需的所有输入参数录入全局缓冲区待用;
S200,设置卷积处理所需的配置,启动DCNN计算内核运行;
S300,从全局缓冲区读取卷积处理所需的参数,然后向本地缓冲区写入所需的参数,当参数全部写入本地缓冲区后,向计算阵列控制器发出计算开始信号:
S400,计算阵列控制器从本地缓冲区读取参数,进行卷积处理,处理完成后,向全局缓冲区写入计算输出结果;
S500,对卷积处理情况进行判断:若卷积处理未全部完成,则再次执行S200;若卷积处理全部完成,则进入下一步:
S600,DCNN处理完成。
6.如权利要求5所述的一种提升DCNN计算阵列效率的方法,其特征在于:记录每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间
Figure DEST_PATH_IMAGE001
以及对应的每次卷积处理时间
Figure 703486DEST_PATH_IMAGE002
,求得每次可用传输计算比
Figure DEST_PATH_IMAGE003
,
Figure 919704DEST_PATH_IMAGE004
;记录每次可用总处理时间
Figure DEST_PATH_IMAGE005
Figure 238428DEST_PATH_IMAGE006
7.如权利要求6所述的一种提升DCNN计算阵列效率的方法,其特征在于:每次读取卷积处理所需的参数至向本地缓冲区写入所需的参数的传输时间与对应的每次卷积处理时间存在重叠,重叠时间记录为
Figure DEST_PATH_IMAGE007
CN202011339614.4A 2020-11-25 2020-11-25 一种提升dcnn计算阵列效率的系统及方法 Active CN112419142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011339614.4A CN112419142B (zh) 2020-11-25 2020-11-25 一种提升dcnn计算阵列效率的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011339614.4A CN112419142B (zh) 2020-11-25 2020-11-25 一种提升dcnn计算阵列效率的系统及方法

Publications (2)

Publication Number Publication Date
CN112419142A true CN112419142A (zh) 2021-02-26
CN112419142B CN112419142B (zh) 2023-10-24

Family

ID=74842389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011339614.4A Active CN112419142B (zh) 2020-11-25 2020-11-25 一种提升dcnn计算阵列效率的系统及方法

Country Status (1)

Country Link
CN (1) CN112419142B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197111A (zh) * 2018-02-27 2019-09-03 意法半导体国际有限公司 用于深度学习引擎的加速单元
CN111626399A (zh) * 2019-02-27 2020-09-04 中国科学院半导体研究所 卷积神经网络计算装置、数据计算方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197111A (zh) * 2018-02-27 2019-09-03 意法半导体国际有限公司 用于深度学习引擎的加速单元
CN111626399A (zh) * 2019-02-27 2020-09-04 中国科学院半导体研究所 卷积神经网络计算装置、数据计算方法

Also Published As

Publication number Publication date
CN112419142B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN108416422B (zh) 一种基于fpga的卷积神经网络实现方法及装置
US11550709B2 (en) Memory device and wear leveling method for the same
EP3407266B1 (en) Artificial neural network calculating device and method for sparse connection
US10936937B2 (en) Convolution operation device and convolution operation method
CN111008040B (zh) 缓存装置及缓存方法、计算装置及计算方法
US11880768B2 (en) Method and apparatus with bit-serial data processing of a neural network
US20050193050A1 (en) Matrix multiplication in a vector processing system
CN107766079B (zh) 处理器以及用于在处理器上执行指令的方法
US20100164972A1 (en) System, method and apparatus for memory with embedded associative section for computations
US11908541B2 (en) Processing-in-memory (PIM) systems
US11526285B2 (en) Memory device for neural networks
CN114115507B (zh) 存储器及写数据的方法
CN117234720A (zh) 动态可配置的存算融合数据缓存结构、处理器及电子设备
CN112419142A (zh) 一种提升dcnn计算阵列效率的系统及方法
JP7410961B2 (ja) 演算処理装置
CN109800867B (zh) 一种基于fpga片外存储器的数据调用方法
US11488650B2 (en) Memory processing unit architecture
CN109816093B (zh) 一种单路式卷积实现方法
CN114218136A (zh) 一种面向脉动阵列的面积友好存储地址映射方法
CN102622318B (zh) 一种存储器控制电路及其控制的向量数据寻址方法
CN112906877A (zh) 用于执行神经网络模型的存储器架构中的数据布局有意识处理
CN112684977B (zh) 存储器装置及其存储器内计算方法
CN112712457A (zh) 数据处理方法以及人工智能处理器
CN109583577B (zh) 运算装置及方法
CN114072778A (zh) 存储器处理单元架构

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A System and Method for Improving the Efficiency of DCNN Computing Arrays

Effective date of registration: 20231122

Granted publication date: 20231024

Pledgee: Suzhou Surun Technology Small Loan Co.,Ltd.

Pledgor: China Science Fusion Perception Intelligence Research Institute (Suzhou Industrial Park) Co.,Ltd.

Registration number: Y2023980066657