CN109902063A - 一种集成有二维卷积阵列的系统芯片 - Google Patents

一种集成有二维卷积阵列的系统芯片 Download PDF

Info

Publication number
CN109902063A
CN109902063A CN201910103624.9A CN201910103624A CN109902063A CN 109902063 A CN109902063 A CN 109902063A CN 201910103624 A CN201910103624 A CN 201910103624A CN 109902063 A CN109902063 A CN 109902063A
Authority
CN
China
Prior art keywords
data
processing unit
register
array
output end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910103624.9A
Other languages
English (en)
Other versions
CN109902063B (zh
Inventor
连荣椿
王海力
马明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jing Wei Qi Li (beijing) Technology Co Ltd
Original Assignee
Jing Wei Qi Li (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jing Wei Qi Li (beijing) Technology Co Ltd filed Critical Jing Wei Qi Li (beijing) Technology Co Ltd
Priority to CN201910103624.9A priority Critical patent/CN109902063B/zh
Publication of CN109902063A publication Critical patent/CN109902063A/zh
Application granted granted Critical
Publication of CN109902063B publication Critical patent/CN109902063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Logic Circuits (AREA)

Abstract

一种集成有二维卷积阵列的系统芯片。在实施例中,系统芯片包括:二维卷积阵列,包括:排列成二维阵列的多个处理单元,各处理单元能够完成乘加运算;其中,处理单元包括使能输入端,用于接收使能信号,并且根据使能信号暂停或启动处理单元的操作;其中,二维阵列中的各处理单元在同一个时钟信号的控制下进行运算;第一接口,用于为二维卷积阵列提供输入数据;第二接口,用于为二维卷积阵列提供输出;FPGA模块,用于和第一/第二接口耦合。在实施例中,启动和暂停卷积阵列中各单元的运算,由此允许速度较快的卷积阵列和其它处理模块配合操作。可以通过接口模块的数据时序调整,使得输入数据和输出结果均能够按要求排列对齐。

Description

一种集成有二维卷积阵列的系统芯片
技术领域
本发明涉及集成电路领域,尤其涉及一种集成有二维卷积阵列的系统芯片。
背景技术
脉动阵列(Systolic Array),本意在于是让数据在运算单元的阵列中进行流动,减少访存的次数,并且使得结构更加规整,布线更加统一,提高频率。脉动阵列这个概念在1982年就已经提出了,最近由于人工智能芯片采用该结构作为计算的核心结构,而重新得到了关注。
随着人工智能研究的深入和应用的广泛推广,有必要推出更符合需求的AI模块。
此外,人工智能模块由处理器通过总线来进行访问控制,而总线是有一定的带宽限制,这样的架构难以适应人工智能AI模块的大带宽需求。
发明内容
本申请实施例提供一种系统芯片,系统芯片包括:二维卷积阵列,包括:排列成二维阵列的多个处理单元,各处理单元能够完成乘加运算;其中,处理单元包括使能输入端,用于接收使能信号,并且根据使能信号暂停或启动处理单元的操作;其中,二维阵列中的各处理单元在同一个时钟信号的控制下进行运算;第一维度垂直于第二维度;第一接口,用于为二维卷积阵列提供输入数据;第二接口,用于为二维卷积阵列提供输出;FPGA模块,用于和第一接口和/或第二接口耦合。
优选地,处理单元包括系数存储器,用于提供处理单元运算用系数数据;处理单元还包括乘法器、加法器、第一寄存器和第二寄存器;在第一维度上的第一输入数据端和第一数据输出端;在第二维度上的第二数据输入端和第二数据输出端;第一数据自第一数据输入端口输入,乘法器将第一数据和系数数据相乘;加法器将该乘积和来自第二数据输入端的第二数据相加,相加之后的和值寄存在第一寄存器中;和值在时钟控制下可以经第二数据输出端输出;第一数据还寄存在第二寄存器中,并且在时钟控制下经第一输出端输出。
优选地,处理单元包括系数存储器,用于提供处理单元运算用系数数据;处理单元包括乘法器、加法器、第一寄存器、第二寄存器和复用器;在第一维度上的第一输入数据端和第一数据输出端;在第二维度上的第二数据输入端和第二数据输出端;第一数据自第一数据输入端口输入,乘法器将第一数据和系数数据相乘;复用器从来自第二数据输入端的第二数据和第一寄存器的输出数据中选择一个数据输出,加法器将该复用器的输出数据和乘积相加,相加之后的和值寄存在第一寄存器中;和值在时钟控制下可以经第二数据输出端输出;第一数据还寄存在第二寄存器中,并且在时钟控制下经第一输出端输出。
优选地,处理单元包括系数存储器,用于提供处理单元运算用系数数据;处理单元包括乘法器、加法器、第一寄存器和第二寄存器、第一复用器;在第一维度上的第一输入数据端和第一数据输出端;在第二维度上的第二数据输入端和第二数据输出端;第一数据自第一数据输入端口输入,乘法器将第一数据和系数数据相乘;第二数据自第二数据输入端输入,加法器将第二数据和乘积相加,相加之后的和值寄存在第一寄存器中;复用器从第一寄存器的输出数据和第二数据中选择一个数据经第二数据输出端输出;第一数据还寄存在第二寄存器中,并且在时钟控制下可以经第二输出端输出。
优选地,所述处理单元包括第二复用器;第二复用器从第二寄存器的输出数据和第一数据中选择一个数据经第一数据输出端输出。
优选地,所述第一接口根据二维卷积阵列的需要将输入数据进行排列对齐;所述第二接口将二维卷积阵列的输出数据重新排列对齐。
优选地,二维卷积阵列采用脉动阵列。
优选地,二维卷积阵列嵌入FPGA模块中以便复用FPGA模块的绕线架构,以便自二维卷积阵列发送数据或者接收数据,皆经由所述的复用的FPGA的绕线架构。
在本发明实施例中,可以根据运算的需要,比如在输入数据不及时的情况下,启动和暂停卷积阵列中各单元的运算,由此允许速度较快的卷积阵列和其它处理模块配合操作。与此同时,可以通过接口模块的数据时序调整,使得输入数据和输出结果均能够按要求排列对齐。
附图说明
图1是一种集成有FPGA和二维卷积阵列的系统芯片的结构示意图;
图2是FPGA电路的结构示意图;
图3是2维卷积阵列的示意图;
图4是处理单元的示意图;
图5是图4的处理单元中的存储器MEM的示意图;
图6是另一种处理单元的示意图
图7是另一种处理单元的示意图;
图8是另一种处理单元的示意图;
图9是接口的结构示意图。
具体实施方式
为使本发明实施例的技术方案以及优点表达的更清楚,下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
在本申请的描述中,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
图1是一种集成有FPGA和二维卷积阵列的系统芯片的结构示意图。如图1所示,系统芯片上集成有至少一个FPGA电路和至少一个二维卷积阵列。
至少一个FPGA电路中,各FPGA电路可实现逻辑、计算、控制等各种功能。FPGA模块可实现逻辑、计算、控制等各种功能。FPGA利用小型查找表(例如,16×1RAM)来实现组合逻辑,每个查找表连接到一个D触发器的输入端,触发器再来驱动其他逻辑电路或驱动I/O,由此构成了既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块,这些模块间利用金属连线互相连接或连接到I/O模块。FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的,存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式,并最终决定了FPGA所能实现的功能。
至少一个二维卷积阵列中的各二维卷积阵列可以实现二维卷积的功能。在一个例子中,二维卷积阵列可以是脉动阵列。二维卷积阵列包括多个相同的单元,这些单元在共同的时钟CLK的作用下工作。二维卷积阵列还设有使能输入端EN。根据使能输入端上信号,可以暂停二维卷积阵列或者其部分单元的工作,以便FPGA电路和二维卷积阵列彼此协同工作。
FPGA模块和AI模块通过接口模块连通。接口模块可以是XBAR模块,XBAR模块例如由多个选择器(Multiplexer)和选择位元组成。接口模块也可以是FIFO(先进先出)。接口模块还可以是同步器(Synchronizer),同步器例如由2个触发器(Fl ip-Flop或FF)串连而成。FPGA模块可以为AI模块传输数据,提供控制。
系统芯片上还设置有与二维卷积阵列相对应的接口。对于每个二维卷积阵列,可以设置两个接口,第一接口和第二接口,这些接口可以为流经其中的数据提供不同程度的延时。第一接口用于为二维卷积阵列提供输入数据,并且可以根据二维卷积阵列的需要将输入数据进行排列对齐。第二接口用于为二维卷积阵列提供输出,可以将二维卷积阵列的输出数据根据外部电路的需要重新排列对齐。当然,排列对齐的操作也可以由其它电路完成,比如FPGA。需要注意,第一接口和第二接口仅仅是功能上的区分,并不意味着物理上需要存在两个独立的接口。此外,第一接口和第二接口以及接口模块可以在物理上合并为一个接口,也可以分立存在。
FPGA模块和二维卷积阵列可以并排放置,此时FPGA模块可以为二维卷积阵列传输数据,提供控制;二维卷积阵列也可以嵌入FPGA模块之中,此时二维卷积阵列需要复用FPGA模块的绕线架构,以便通过复用的FPGA模块的绕线架构接收和发送数据。
图2是FPGA电路的结构示意图。如图2所示,FPGA电路可包含有多个可编程逻辑模块(LOGIC)、嵌入式存储块(EMB)、乘累加器(MAC)等模块和相应的绕线(XBAR)。当然,FPGA电路还设有时钟/配置模块(主干spine/支干seam)等相关资源。若需要EMB或MAC模块时,因其面积比PLB大许多,故以此EMB/MAC模块取代若干PLB模块。
绕线资源XBAR是各模块间互联的接点,均匀地分布在FPGA模块内。FPGA模块内所有的资源,PLB、EMB、MAC、IO相互之间的绕线都是经有一个相同的绕线XBAR单元来实现。由绕线方式来看,整个阵列是相同一致,整齐排列的XBAR单元形成网格,将FPGA内所有模块相连。
LOGIC模块可以包含,例如,8个6输入查照表,18个寄存器。EMB模块可以是,例如,36k比特或2个18k比特的存储单元。MAC模块可以是,例如,25x18乘法器,或2个18x18乘法器。FPGA阵列中LOGIC、MAC、EMB各模块数量的占比并无限制,阵列的大小也根据需要,在设计时由实际应用决定。
图3是2维卷积阵列的示意图。在一个例子中,卷积阵列是脉动阵列,即数据流同步流过相邻的二维阵列单元的处理器结构。如图3所示,卷积阵列包括,例如,4X4个处理单元PE。脉动阵列可分为两个维度,彼此垂直的第一维度和第二维度。以第一处理器、第二处理器和第三处理器为例,第一处理器和第二处理器沿第一维度沿第一方向相邻排列,第一处理器的第一输出端耦合到第二处理器的第一输入端;第一处理器和第三处理器沿第二维度沿第二方向相邻排列,第一处理器的第二输出端耦合到第三处理器的第二输入端。
一维数据a可以沿第一维度沿第一方向在同一时钟下依次输入相同第二维度的各处理单元;数据在各处理单元中和存储在单元中的另一维数据(系数)W相乘;乘积沿第二维度沿第二方向的各处理单元传输,并且彼此相加。为理解方便起见,下文将以水平维度为第一维度、左向右为第一方向,以垂直维度为第二维度、上向下为第二方向。
需要注意,图1中的每条数据线既可代表单比特的信号,也可代表8(或16,32)比特的信号。
处理单元配置有使能信号EN输入端,用于接收使能信号EN,并且根据该使能信号EN,启动或暂停处理单元的处理进程。二维阵列中的各处理单元共用同一个时钟信号进行运算。
在一个例子中,二维阵列可以实现矩阵乘法。
在另一个例子中,二维阵列可以实现卷积算法。
图4是处理单元的示意图。如图4所示,处理单元包括乘法器MUL,加法器ADD。数据自第一数据输入端口DI输入,在MUL和存储在系数存储器MEM中的系数W相乘;然后,该乘积在加法器ADD和来自第二数据输入端口PI的数据P相加,相加之后的和值寄存在寄存器REG1中。在下一个时钟时,和值S经第二输出端PO输出。和值S经第一输出端PO输出后可以经输入端口PI输入位于下方的另一个PE。在第一维度上沿第一方向分布第一输入数据端DI和第一数据输出端DO;在第二维度上沿第二方向分布第二数据输入端PI和第二数据输出端PO。
当然,数据a还可以寄存在寄存器REG2中,并且在时钟控制下经第一输出端DO输出到在右侧的处理单元PE。
时钟CK用于控制处理单元的处理进程。
使能信号EN用于启动或暂停处理单元的处理进程。
图5是图4的处理单元中的存储器MEM的示意图。如图5所示,存储器包括多个D触发器,这些D触发器彼此级联,即前一个D触发器的输出端串联连接到后一个D触发器的输入端;系数数据按比特从第一个D触发器的D输入端输入,然后经各输出端Q输出为Q0-Q7。Q0-Q7可以提供系数数据。时钟CK控制各D触发器的同步工作。使能信号EN用于确定D触发器是否启动或暂停。当然,其它类型的存储器也是可行的。
图6是另一种处理单元的示意图。图6不同于图4的地方在于,在图6中,处理单元还包括第一复用器MUX1,该MUX1根据控制信号从第二数据输入端PI的数据P和REG1的输出信号中选择一个,以便送入加法器ADD。基于这样的内部反馈机制,可以在同一个单元中进行乘积累加,由此可以实施很多的AI运算。
图7是另一种处理单元的示意图。图7不同于图4的地方在于,在图6中,处理单元还包括第二复用器MUX2,该MUX2耦合在REG1的输出端和PO端之间。MUX2的一个输入端耦合至REG1的输出端,另一个输入端耦合至PI输入端,输出端则耦合至PO输出端。根据需要,MUX2可以在控制信号的控制下选通来自PI输入端的信号,使得上方处理单元的信号可以直接通过当前处理单元而进入下方的处理单元。
这样的操作,实际上实现了跳线功能,用以跳过当前PE的处理功能,由选定的输入直接送到输出。跳线功能可以实现跨单元的运算,跳线功能有助于有针对性地对处理单元进行测试、也有助于将出错的处理单元进行隔离。
图8是另一种处理单元的示意图。如图8所示,该处理单元不同于图7的地方在于,图8中,在REG2的输出端和DO输出端之间耦合有一个第三MUX3,该MUX3的一个输入端耦合至REG2的输出端,另一个输入端耦合至DI输入端,输出端则耦合至DO输出端。根据需要,MUX3可以在控制信号的控制下选通来自DI输入端的信号,使得左侧处理单元的信号可以直接通过当前处理单元而进入右侧的处理单元。
图9是接口的结构示意图。如图9所示,接口包括多排寄存器,各排的寄存器数可以不同,在图9中,第1排有1个寄存器;第2排有2个寄存器;第3排有3个寄存器。具体排数以及每一排的寄存器单元数,可以根据具体需求确定。在各排中,相邻的寄存器可以采取级联方式,即左侧寄存器的Q输出端耦合到右侧寄存器的D输入端。各排位于最左侧的寄存器的输入端可以耦合到FPGA模块的IO端,最右侧的寄存器的输出端可以耦合到卷积阵列的输入端。
由此,流经第1排的数据将经历1个时钟而输出;流经第2排的数据将经历2个时钟而输出;流经第3排的数据将经历3个时钟而输出。由此,可以对流经其中的数据进行适当的排列对齐。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种系统芯片,包括:二维卷积阵列,包括:排列成二维阵列的多个处理单元(PE),各处理单元能够完成乘加运算;其中,处理单元包括使能输入端,用于接收使能信号,并且根据使能信号暂停或启动处理单元的操作;其中,二维阵列中的各处理单元在同一个时钟信号的控制下进行运算;第一维度垂直于第二维度;
第一接口,用于为二维卷积阵列提供输入数据;
第二接口,用于将二维卷积阵列的数据输出;
FPGA模块,用于和第一接口和/或第二接口耦合。
2.根据权利要求1所述的系统芯片,其特征在于,处理单元包括系数存储器,用于提供处理单元运算用系数数据;处理单元还包括乘法器(MUL)、加法器(ADD)、第一寄存器(REG1)和第二寄存器(REG2);在第一维度上的第一输入数据端(DI)和第一数据输出端(DO);在第二维度上的第二数据输入端(PI)和第二数据输出端(PO);第一数据自第一数据输入端口输入,乘法器将第一数据和系数数据(W)相乘;加法器将该乘积和来自第二数据输入端的第二数据相加,相加之后的和值寄存在第一寄存器(REG1)中;和值在时钟控制下可以经第二数据输出端输出;第一数据还寄存在第二寄存器中,并且在时钟控制下可以经第一输出端输出。
3.根据权利要求1所述的系统芯片,其特征在于,处理单元包括系数存储器,用于提供处理单元运算用系数数据;处理单元包括乘法器(MUL)、加法器(ADD)、第一寄存器(REG1)、第二寄存器(REG2)和复用器(MUX);在第一维度上的第一输入数据端(DI)和第一数据输出端(DO);在第二维度上的第二数据输入端(PI)和第二数据输出端(PO);第一数据自第一数据输入端口输入,乘法器将第一数据和系数数据(W)相乘;复用器从来自第二数据输入端的第二数据和第一寄存器的输出数据中选择一个数据输出,加法器将该复用器的输出数据和乘积相加,相加之后的和值寄存在第一寄存器(REG1)中;和值在时钟控制下可以经第二数据输出端输出;第一数据还寄存在第二寄存器中,并且在时钟控制下经第一输出端输出。
4.根据权利要求1所述的系统芯片,其特征在于,处理单元包括系数存储器,用于提供处理单元运算用系数数据;处理单元包括乘法器(MUL)、加法器(ADD)、第一寄存器(REG1)和第二寄存器(REG2)、第一复用器(MUX1);在第一维度上的第一输入数据端(DI)和第一数据输出端(DO);在第二维度上的第二数据输入端(PI)和第二数据输出端(PO);第一数据自第一数据输入端口输入,乘法器将第一数据和系数数据(W)相乘;第二数据自第二数据输入端输入,加法器将第二数据和乘积相加,相加之后的和值寄存在第一寄存器(REG1)中;复用器从第一寄存器的输出数据和第二数据中选择一个数据经第二数据输出端输出;第一数据还寄存在第二寄存器中,并且在时钟控制下可以经第一输出端输出。
5.根据权利要求4所述的系统芯片,其特征在于,所述处理单元包括第二复用器(MUX2);第二复用器从第二寄存器的输出数据和第一数据中选择一个数据经第一数据输出端输出。
6.根据权利要求4所述的系统芯片,其特征在于,所述第一接口根据二维卷积阵列的需要将输入数据进行排列对齐;所述第二接口将二维卷积阵列的输出数据重新排列对齐。
7.根据权利要求1所述的系统芯片,其特征在于,二维卷积阵列采用脉动阵列。
8.如权利要求1所述的系统芯片,其特征在于,二维卷积阵列嵌入FPGA模块中以便复用FPGA模块的绕线架构,以便自二维卷积阵列发送数据或者接收数据,皆经由所述的复用的FPGA的绕线架构。
CN201910103624.9A 2019-02-01 2019-02-01 一种集成有二维卷积阵列的系统芯片 Active CN109902063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910103624.9A CN109902063B (zh) 2019-02-01 2019-02-01 一种集成有二维卷积阵列的系统芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910103624.9A CN109902063B (zh) 2019-02-01 2019-02-01 一种集成有二维卷积阵列的系统芯片

Publications (2)

Publication Number Publication Date
CN109902063A true CN109902063A (zh) 2019-06-18
CN109902063B CN109902063B (zh) 2023-08-22

Family

ID=66944608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910103624.9A Active CN109902063B (zh) 2019-02-01 2019-02-01 一种集成有二维卷积阵列的系统芯片

Country Status (1)

Country Link
CN (1) CN109902063B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819684A (zh) * 2021-03-02 2021-05-18 成都视海芯图微电子有限公司 一种面向图像文本识别的加速装置
CN113138748A (zh) * 2021-04-09 2021-07-20 广东工业大学 一种基于FPGA的支持8bit和16bit数据的可配置的CNN乘法累加器
CN114022366A (zh) * 2022-01-06 2022-02-08 深圳鲲云信息科技有限公司 基于数据流架构的图像尺寸调整结构、调整方法及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288195A1 (en) * 2005-06-18 2006-12-21 Yung-Cheng Ma Apparatus and method for switchable conditional execution in a VLIW processor
CN102761396A (zh) * 2012-07-30 2012-10-31 哈尔滨工业大学 基于fpga的高速串行接口
CN105488237A (zh) * 2014-09-19 2016-04-13 京微雅格(北京)科技有限公司 基于fpga的寄存器使能信号优化方法
CN105589677A (zh) * 2014-11-17 2016-05-18 沈阳高精数控智能技术股份有限公司 一种基于fpga的脉动结构矩阵乘法器及其实现方法
CN106406813A (zh) * 2016-08-31 2017-02-15 宁波菲仕电机技术有限公司 一种通用伺服控制算术逻辑单元
CN107578098A (zh) * 2017-09-01 2018-01-12 中国科学院计算技术研究所 基于脉动阵列的神经网络处理器
US20180314671A1 (en) * 2017-04-27 2018-11-01 Falcon Computing Systems And Methods For Systolic Array Design From A High-Level Program
CN108733596A (zh) * 2017-04-21 2018-11-02 英特尔公司 用于脉动阵列架构的静态可调度馈送和排放结构
CN108734636A (zh) * 2017-04-24 2018-11-02 英特尔公司 用于高效卷积的专用固定功能硬件

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060288195A1 (en) * 2005-06-18 2006-12-21 Yung-Cheng Ma Apparatus and method for switchable conditional execution in a VLIW processor
CN102761396A (zh) * 2012-07-30 2012-10-31 哈尔滨工业大学 基于fpga的高速串行接口
CN105488237A (zh) * 2014-09-19 2016-04-13 京微雅格(北京)科技有限公司 基于fpga的寄存器使能信号优化方法
CN105589677A (zh) * 2014-11-17 2016-05-18 沈阳高精数控智能技术股份有限公司 一种基于fpga的脉动结构矩阵乘法器及其实现方法
CN106406813A (zh) * 2016-08-31 2017-02-15 宁波菲仕电机技术有限公司 一种通用伺服控制算术逻辑单元
CN108733596A (zh) * 2017-04-21 2018-11-02 英特尔公司 用于脉动阵列架构的静态可调度馈送和排放结构
CN108734636A (zh) * 2017-04-24 2018-11-02 英特尔公司 用于高效卷积的专用固定功能硬件
US20180314671A1 (en) * 2017-04-27 2018-11-01 Falcon Computing Systems And Methods For Systolic Array Design From A High-Level Program
CN108805262A (zh) * 2017-04-27 2018-11-13 美国飞通计算解决方案有限公司 用于根据高级程序进行脉动阵列设计的系统及方法
CN107578098A (zh) * 2017-09-01 2018-01-12 中国科学院计算技术研究所 基于脉动阵列的神经网络处理器

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112819684A (zh) * 2021-03-02 2021-05-18 成都视海芯图微电子有限公司 一种面向图像文本识别的加速装置
CN113138748A (zh) * 2021-04-09 2021-07-20 广东工业大学 一种基于FPGA的支持8bit和16bit数据的可配置的CNN乘法累加器
CN113138748B (zh) * 2021-04-09 2023-08-29 广东工业大学 一种基于FPGA的支持8bit和16bit数据的可配置的CNN乘法累加器
CN114022366A (zh) * 2022-01-06 2022-02-08 深圳鲲云信息科技有限公司 基于数据流架构的图像尺寸调整结构、调整方法及设备
CN114022366B (zh) * 2022-01-06 2022-03-18 深圳鲲云信息科技有限公司 基于数据流架构的图像尺寸调整装置、调整方法及设备

Also Published As

Publication number Publication date
CN109902063B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN109902063A (zh) 一种集成有二维卷积阵列的系统芯片
US6526461B1 (en) Interconnect chip for programmable logic devices
CN1937409B (zh) 可分裂逻辑元件及其制造方法
US9018979B2 (en) Universal digital block interconnection and channel routing
US7906987B2 (en) Semiconductor integrated circuit, program transformation apparatus, and mapping apparatus
KR100255265B1 (ko) 분산된 신경세포를 구비한 신경신호처리장치
CN103677739A (zh) 一种可配置的乘累加运算单元及其构成的乘累加运算阵列
CN104424154A (zh) 通用串行外围接口
CN109993272A (zh) 卷积及降采样运算单元、神经网络运算单元和现场可编程门阵列集成电路
CN109891843A (zh) 用于可编程逻辑器件的时钟恢复和数据恢复
CN109902835A (zh) 处理单元设置有通用算法单元的人工智能模块及系统芯片
CN109857024A (zh) 人工智能模块的单元性能测试方法和系统芯片
CN106656103A (zh) 一种fir滤波器组及滤波方法
KR101000099B1 (ko) 프로그래머블 논리 디바이스
CN110018654A (zh) 细粒度可编程时序控制逻辑模块
CN109902040A (zh) 一种集成fpga和人工智能模块的系统芯片
CN109902836A (zh) 人工智能模块的故障容错方法及系统芯片
CN1271787C (zh) 可编程逻辑单元结构
CN109919322A (zh) 一种测试系统芯片上的人工智能模块的方法和系统芯片
CN109919321A (zh) 单元具有本地累加功能的人工智能模块及系统芯片
CN109886416A (zh) 集成人工智能模块的系统芯片及机器学习方法
CN109766293A (zh) 连接芯片上fpga和人工智能模块的电路和系统芯片
CN109933369B (zh) 集成单指令多数据流架构人工智能模块的系统芯片
CN109902795A (zh) 处理单元设置有输入复用器的人工智能模块和系统芯片
CN109933371A (zh) 其单元可访问本地存储器的人工智能模块和系统芯片

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant