CN109933370B - 连接fpga和人工智能模块的系统芯片 - Google Patents

连接fpga和人工智能模块的系统芯片 Download PDF

Info

Publication number
CN109933370B
CN109933370B CN201910103622.XA CN201910103622A CN109933370B CN 109933370 B CN109933370 B CN 109933370B CN 201910103622 A CN201910103622 A CN 201910103622A CN 109933370 B CN109933370 B CN 109933370B
Authority
CN
China
Prior art keywords
module
fpga
xbar
artificial intelligence
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910103622.XA
Other languages
English (en)
Other versions
CN109933370A (zh
Inventor
连荣椿
王海力
马明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingwei Qili Beijing Technology Co ltd
Original Assignee
Jingwei Qili Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingwei Qili Beijing Technology Co ltd filed Critical Jingwei Qili Beijing Technology Co ltd
Priority to CN201910103622.XA priority Critical patent/CN109933370B/zh
Publication of CN109933370A publication Critical patent/CN109933370A/zh
Application granted granted Critical
Publication of CN109933370B publication Critical patent/CN109933370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Logic Circuits (AREA)

Abstract

一种连接系统芯片上FPGA和人工智能AI模块的电路及系统芯片。在实施例中,系统芯片包括:AI模块,包括排列成二维阵列的多个处理单元,各处理单元能够完成逻辑和/或乘加运算;FPGA模块;绕线模块,用于提供AI模块的输入和/或输出端到FPGA模块的耦合。将FPGA与AI模块集成在同一芯片上时,AI模块的输出/输入信号可以很好的找到相应的FPGA连接点。FPGA可以高速的提供大量的数据到AI模块,配合其高带宽处理能力。

Description

连接FPGA和人工智能模块的系统芯片
技术领域
本发明涉及集成电路技术领域,尤其涉及一种连接系统芯片上FPGA和人工智能模块的电路及系统芯片。
背景技术
近年来,人工智能迎来一波发展浪潮。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。
当前,人工智能AI模块由处理器通过总线来进行访问控制,而总线是有一定的带宽限制,这样的架构难以适应AI模块的大带宽需求。
发明内容
根据本发明实施例,提供一种系统芯片,包括:AI模块,包括排列成二维阵列的多个处理单元,各处理单元能够完成逻辑和/或乘加运算;FPGA模块;绕线模块,用于提供AI模块的输入和/或输出端到FPGA模块的耦合。
优选地,所述绕线模块位于FPGA模块中。
优选地,在AI模块和FPGA模块不相邻的情况下,所述绕线XBAR模块位于AI模块的邻近区域中。
优选地,AI模块嵌入FPGA模块中以便复用FPGA模块的绕线资源,以便自AI模块发送数据或者接收数据,皆经由所述的复用的FPGA的绕线资源。
将FPGA与AI模块集成在同一芯片上时,AI模块的输出/输入信号可以很好的找到相应的FPGA连接点。FPGA可以高速的提供大量的数据到AI模块,配合其高带宽处理能力。
附图说明
图1是根据本发明实施例的连接FPGA模块和人工智能模块的系统芯片的示意图;
图2是FPGA电路的结构示意图;
图3是人工智能模块的结构示意图;
图4是处理单元的示意图。
具体实施方式
为使本发明实施例的技术方案以及优点表达的更清楚,下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
在本申请的描述中,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“东”、“南”、“西”、“北”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
图1是根据本发明实施例的连接FPGA模块和人工智能模块的系统芯片的示意图。如图1所示,系统芯片上集成有至少一个FPGA模块和至少一个人工智能模块。
FPGA模块可实现逻辑、计算、控制等各种功能。FPGA利用小型查找表(例如,16×1RAM)来实现组合逻辑,每个查找表连接到一个D触发器的输入端,触发器再来驱动其他逻辑电路或驱动I/O,由此构成了既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块,这些模块间利用金属连线互相连接或连接到I/O模块。FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的,存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式,并最终决定了FPGA所能实现的功能。
人工智能模块可实现或加速经预先选定的特定AI功能,包括人工智能(Artificial Intelligence AI),深度学习(Deep Learning DL),机器学习(MachineLearning ML)等各种算法或加速算法中某一步骤的特定功能(如卷积Convolution,矩阵Matrix/张量运算Tensor Operation等)。在一个例子中,人工智能(AI)部分包含由多个可编程功能模块(PFU)组成的阵列。
FPGA模块和人工智能模块的大小并无限定,在设计时由实际应用决定。
在占用芯片布局方面,一般是安排FPGA模块与人工智能模块相邻。FPGA模块和AI模块可以并排放置,此时FPGA模块可以为AI模块传输数据,提供控制。AI模块也可以嵌入FPGA模块之中;比如,FPGA模块较大,人工智能模块较小的情况时,亦可在大片的FPGA模块中挖空一窗口,内置入人工智能模块;此时,AI模块需要复用FPGA模块的绕线架构,以便通过复用的FPGA模块的绕线架构接收和发送数据。
在实施例中,FPGA模块内各资源PLB、EMB、MAC、IO相互之间的绕线都是经有绕线(例如,XBAR)单元来实现。由绕线方式来看,整个阵列是相同一致,整齐排列的XBAR单元形成网格,所有绕线都在这网格内由经由XBAR完成。
AI模块的输出/输入连接到相邻FPGA模块内的绕线资源的XBAR上。AI模块在左侧的输出/输入通过FPGA模块的虚拟IO(virtual IO)连接到左邻FPGA在右侧的XBAR上。AI模块在右侧的输出/输入直接连接到右侧FPGA内在左侧的XBAR上。
在AI模块上下皆不连FPGA的情况时,可以在上方或下方的芯片区域内加入一些XBAR,专供AI模块输出/输入连接之用。
在AI模块需要大量的数据输出/输入时,FPGA拥有大量的XBAR绕线资源,可以提供充足的互联资源。将FPGA与AI模块集成在同一芯片上时,AI模块的输出/输入信号可以很好的找到相应的FPGA连接点。FPGA可以高速的提供大量的数据到AI模块,配合其高带宽处理能力。由此,根据本发明的系统芯片具有良好的伸缩性,不受总线带宽的限制。
图2是FPGA电路的结构示意图。如图2所示,FPGA电路可包含有多个可编程逻辑模块(LOGIC)、嵌入式存储块(EMB)、乘累加器(MAC)等模块和相应的绕线(XBAR)。当然,FPGA电路还设有时钟/配置模块(支干seam/主干spine)等相关资源。若需要EMB或MAC模块时,因其面积比PLB大许多,故以此EMB/MAC模块取代若干PLB模块。
LOGIC模块可以包含,例如,8个6输入查找表,18个寄存器。EMB模块可以是,例如,36k bit或2个18k bit的存储单元。MAC模块可以是,例如,25x18乘法器,或2个18x18乘法器。FPGA阵列中LOGIC、MAC、EMB各模块数量的占比并无限制,阵列的大小也根据需要,在设计时由实际应用决定。
绕线资源XBAR是各模块间互联的接点,均匀地分布在FPGA模块内。FPGA模块内所有的资源,PLB、EMB、MAC、IO相互之间的绕线都是经有一个相同的界面XBAR单元来实现。由绕线方式来看,整个阵列是相同一致,整齐排列的XBAR单元形成网格,将FPGA内所有模块相连。
图3是人工智能模块的结构示意图。如图3所示,人工智能AI模块是一个二维阵列并且包括,例如,4X4个处理单元PE。AI模块可分为两个维度,彼此垂直的第一维度和第二维度。以第一处理器、第二处理器和第三处理器为例,第一处理器和第二处理器沿第一维度沿第一方向排列,第一处理器的第一输出端耦合到第一处理器的第一输入端;第一处理器和第三处理器沿第二维度沿第二方向排列,第一处理器的第二输出端耦合到第三处理器的第二输入端。
数据a可以沿第一维度双向流动;例如,既可以在同一时钟下沿第一方向依次输入具有相同第二维度值的各处理单元,也可以沿第一方向的相反方向依次输入具有相同第二维度值的各处理单元;可以在第二维度双向流动,例如,既可以在同一时钟下沿第二方向依次输入具有相同第一维度值的各处理单元,也可以沿第二方向的相反方向依次输入具有相同第一维度值的各处理单元。当然,通过控制,同一个数据或者由其衍生的数据可以在不同的时钟下流经所有的PE单元。为理解方便起见,下文将以水平维度为第一维度、左向右为第一方向,以垂直维度为第二维度、上向下为第二方向。
需要注意,图3中的每条数据线既可代表单比特的信号,也可代表8(或16,32)比特的信号。
在输入处理单元后,数据在处理单元中进行各种运算,例如加减乘除,逻辑运算等等。
在一个例子中,人工智能模块可以实现矩阵乘法。在另一个例子中,二维阵列可以实现卷积算法。
图4是处理单元的示意图。如图4所示,处理单元(PE)包括可编程功能单元(programmable functional unit,PFU)。处理单元可以设置至少一个IMUX(例如,IMUX1和IMUX2),以及一个OMUX。IMUX1和IMUX2接收相同的输入数据,即来自第一维度和第二维度不同方向(例如,东南西北四个方向)的输入数据E、S、W、N。IMUX1可以选通至少一路数据,送入PFU的一个输入端;IMUX2可以选通至少一路数据,送入PFU的另一个输入端。当然,PFU可以有两个以上的输入端,因此IMUX的数量可以是多于两个,或者IMUX1和IMUX各自可以提供多于一路的数据给PFU。
PFU实现PE的功能,一般包括逻辑、乘法、加法等运算,比如乘、加、减、计数(加一、减一)、异或XOR、移位SHIFT、旋转ROTATE、比较等等。在PFU,对输入的数据进行运算;然后,该运算结果寄存在寄存器REG中。在下一个时钟CK时,运算结果经OMUX输出。OMUX可以有东南西北四个方向的输出。在选通信号的控制下,OMUX选择相应的方向输出运算结果,用以当作四个相邻PE的输入数据。
此外,IMUX1的输出端还耦合到OMUX的一个输入端。因此,可以将IMUX1所选通的数据直接经OMUX选通输出。这样的操作,实际上实现了跳线功能,用以跳过当前PE的处理功能,由选定的输入直接送到输出。跳线功能可以实现跨单元的运算,跳线功能有助于有针对性地对处理单元进行测试、也有助于将出错的处理单元进行隔离。
回到图1,XBAR是FPGA模块内各模块间绕线的主要资源,拥有多个输入、多个输出(譬如256输入、64输出)。通常,XBAR由多个复用器(Multiplexer)和选择位元组成,可以把任意一个输入端联到任意一个输出端。把AI模块的输出和/或输入信号直接连接到XBAR后,继而可以耦合到FPGA上的任意点,由此可以保证良好的绕通性。如此极大地增加AI模块与FPGA模块的设计弹性。同时因XBAR的数量大,可以很好的满足AI模块大量输出、输入信号连接的需求,有助于提升AI模块的处理带宽。
在一个例子中,在XBAR垂直排列的情况下,AI模块的左、右二侧的相邻XBAR垂直列可以很好的和AI模块左右侧的信号相连。在另一个例子中,由于在AI模块的上下侧的信号则没有明显的相连点,可以加入水平方向XBAR,作为和AI模块在上、下侧的信号连接点。
FPGA模块以阵列排列,每个XBAR的绕线资源都一致。在一个实施例中,AI模块数据有多个BUS。此时,这些XBAR阵列可以对应每个BUS中的同类信号,使得XBAR阵列与AI模块的BUS可以有序的互联,提升BUS的性能。例如,O0-O7这一类的信号可以对应于同一个XBAR或者相邻的XBAR,E0-E7则对应于另一个XBAR,其中O和E分别是图4中PE的E输入端和O输出端。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种系统芯片,包括:
人工智能AI模块,包括排列成二维阵列的多个处理单元PE,各处理单元能够完成逻辑和/或乘加运算;
FPGA模块;
多个绕线XBAR模块,所述多个绕线XBAR模块整齐排列形成网格;所述多个绕线XBAR模块形成的网格作为所述FPGA模块内各模块间绕线的资源,用于提供AI模块的任意输入和/或输出端到FPGA模块任意点的耦合。
2.根据权利要求1所述的系统芯片,其特征在于,所述绕线XBAR模块位于FPGA模块中。
3.根据权利要求1所述的系统芯片,其特征在于,在AI模块和FPGA模块不相邻的情况下,所述绕线XBAR模块位于AI模块的邻近区域中。
4.如权利要求1所述的系统芯片,其特征在于,AI模块嵌入FPGA模块中以便复用FPGA模块的绕线资源,以便自AI模块发送数据或者接收数据,皆经由所述的复用的FPGA的绕线资源。
CN201910103622.XA 2019-02-01 2019-02-01 连接fpga和人工智能模块的系统芯片 Active CN109933370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910103622.XA CN109933370B (zh) 2019-02-01 2019-02-01 连接fpga和人工智能模块的系统芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910103622.XA CN109933370B (zh) 2019-02-01 2019-02-01 连接fpga和人工智能模块的系统芯片

Publications (2)

Publication Number Publication Date
CN109933370A CN109933370A (zh) 2019-06-25
CN109933370B true CN109933370B (zh) 2021-10-15

Family

ID=66985436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910103622.XA Active CN109933370B (zh) 2019-02-01 2019-02-01 连接fpga和人工智能模块的系统芯片

Country Status (1)

Country Link
CN (1) CN109933370B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608057A (zh) * 2015-12-09 2016-05-25 合肥工业大学 一种分时复用硬件资源的信号子空间分解的fpga实现模块及其fpga实现方法
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN107292342A (zh) * 2017-06-21 2017-10-24 广东欧珀移动通信有限公司 数据处理方法及相关产品

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832168B2 (en) * 2017-01-10 2020-11-10 Crowdstrike, Inc. Computational modeling and classification of data streams
US10261837B2 (en) * 2017-06-30 2019-04-16 Sas Institute Inc. Two-part job scheduling with capacity constraints and preferences
CN109191364A (zh) * 2018-08-01 2019-01-11 南京天数智芯科技有限公司 加速人工智能处理器的硬件架构

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608057A (zh) * 2015-12-09 2016-05-25 合肥工业大学 一种分时复用硬件资源的信号子空间分解的fpga实现模块及其fpga实现方法
CN106228238A (zh) * 2016-07-27 2016-12-14 中国科学技术大学苏州研究院 现场可编程门阵列平台上加速深度学习算法的方法和系统
CN107292342A (zh) * 2017-06-21 2017-10-24 广东欧珀移动通信有限公司 数据处理方法及相关产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Automated Systolic Array Architecture Synthesis for High Throughput CNN Inference on FPGAs;Xuechao Wei et al.;《2017 54th ACM/EDAC/IEEE Design Automation Conference》;20170622;第1-6页;图1 *

Also Published As

Publication number Publication date
CN109933370A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
US6091263A (en) Rapidly reconfigurable FPGA having a multiple region architecture with reconfiguration caches useable as data RAM
US9564902B2 (en) Dynamically configurable and re-configurable data path
EP0748049B1 (en) Interconnection architecture for coarse-grained programmable logic device
US7906987B2 (en) Semiconductor integrated circuit, program transformation apparatus, and mapping apparatus
US7737724B2 (en) Universal digital block interconnection and channel routing
US7355442B1 (en) Dedicated crossbar and barrel shifter block on programmable logic resources
US7268581B1 (en) FPGA with time-multiplexed interconnect
US8543955B1 (en) Apparatus and methods for time-multiplex field-programmable gate arrays
Doumar et al. Defect and fault tolerance FPGAs by shifting the configuration data
US20030005402A1 (en) System for simplifying the programmable memory to logic interface in FPGA
US20100306429A1 (en) System and Method of Signal Processing Engines With Programmable Logic Fabric
US20080263319A1 (en) Universal digital block with integrated arithmetic logic unit
CN109902063B (zh) 一种集成有二维卷积阵列的系统芯片
CN109902040B (zh) 一种集成fpga和人工智能模块的系统芯片
JPH10233676A (ja) 論理アレイブロック内でローカル相互接続ラインを配列する方法およびプログラマブル論理回路
US7827433B1 (en) Time-multiplexed routing for reducing pipelining registers
CN109857024B (zh) 人工智能模块的单元性能测试方法和系统芯片
CN109919322B (zh) 一种测试系统芯片上的人工智能模块的方法和系统芯片
CN109933370B (zh) 连接fpga和人工智能模块的系统芯片
CN109933369B (zh) 集成单指令多数据流架构人工智能模块的系统芯片
CN109766293B (zh) 连接芯片上fpga和人工智能模块的电路和系统芯片
CN109902835A (zh) 处理单元设置有通用算法单元的人工智能模块及系统芯片
CN109884499B (zh) 一种测试系统芯片上的人工智能模块的方法和系统芯片
CN109902037B (zh) 连接不同时钟域下的fpga和人工智能模块的系统芯片
CN109885512B (zh) 集成fpga和人工智能模块的系统芯片及设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant