CN109902037B - 连接不同时钟域下的fpga和人工智能模块的系统芯片 - Google Patents

连接不同时钟域下的fpga和人工智能模块的系统芯片 Download PDF

Info

Publication number
CN109902037B
CN109902037B CN201910107742.7A CN201910107742A CN109902037B CN 109902037 B CN109902037 B CN 109902037B CN 201910107742 A CN201910107742 A CN 201910107742A CN 109902037 B CN109902037 B CN 109902037B
Authority
CN
China
Prior art keywords
module
fpga
artificial intelligence
clock
synchronizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910107742.7A
Other languages
English (en)
Other versions
CN109902037A (zh
Inventor
连荣椿
王海力
马明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingwei Qili Beijing Technology Co ltd
Original Assignee
Jingwei Qili Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingwei Qili Beijing Technology Co ltd filed Critical Jingwei Qili Beijing Technology Co ltd
Priority to CN201910107742.7A priority Critical patent/CN109902037B/zh
Publication of CN109902037A publication Critical patent/CN109902037A/zh
Application granted granted Critical
Publication of CN109902037B publication Critical patent/CN109902037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Logic Circuits (AREA)

Abstract

一种连接不同时钟域的FPGA和人工智能模块的系统芯片。在实施例中,系统芯片包括:AI模块,包括多个处理单元,各处理单元能够完成逻辑和/或乘加运算;AI模块工作在第一时钟下;FPGA模块,经配置后工作在第二时钟下;同步器,用于将AI模块的输入端和/或输出端与FPGA模块的绕线(XBAR)模块耦合在一起。将FPGA与AI模块集成在同一芯片上时,AI模块的输出/输入信号可以很好的找到相应的FPGA连接点。FPGA可以高速的提供大量的数据到AI模块,配合其高带宽处理能力。由此,根据本发明的系统芯片具有良好的伸缩性,不受总线带宽的限制。

Description

连接不同时钟域下的FPGA和人工智能模块的系统芯片
技术领域
本发明涉及集成电路技术领域,尤其涉及一种连接不同时钟域的FPGA和人工智能模块的电路及系统芯片。
背景技术
近年来,人工智能迎来一波发展浪潮。人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。
当前,人工智能模块由处理器通过总线来进行访问控制,而总线是有一定的带宽限制,这样的架构难以适应AI模块的大带宽需求。
发明内容
根据本发明实施例,提供一种系统芯片,包括:AI模块,包括多个处理单元,各处理单元能够完成逻辑和/或乘加运算;AI模块工作在第一时钟下;FPGA模块,经配置后工作在第二时钟下;同步器,用于将AI模块的输入端和/或输出端与FPGA模块的绕线模块耦合在一起。
优选地,所述同步器由两个触发器串联而实现。
优选地,所述同步器由FPGA内的两个触发器串联而实现。
优选地,在AI模块处于同步器的接收侧时,配置FPGA模块为所述两个触发器提供第一时钟。
优选地,AI模块嵌入FPGA模块中以便复用FPGA模块的绕线资源,以便自AI模块发送数据或者接收数据,皆经由所述的复用的FPGA模块的绕线资源。
优选地,所述同步器的两个触发器的时钟信号由接收端提供。
将FPGA与AI模块集成在同一芯片上时,AI模块的输出/输入信号可以很好的找到相应的FPGA连接点。FPGA可以高速的提供大量的数据到AI模块,配合其高带宽处理能力。由此,根据本发明的系统芯片具有良好的伸缩性,不受总线带宽的限制。
附图说明
图1是根据本发明实施例的连接不同时钟域的FPGA和人工智能模块的系统芯片的示意图;
图2是FPGA电路的结构示意图;
图3是人工智能模块的结构示意图;
图4是处理单元的示意图。
具体实施方式
为使本发明实施例的技术方案以及优点表达的更清楚,下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
在本申请的描述中,术语“中心”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
图1是根据本发明实施例的连接不同时钟域的FPGA和人工智能模块的系统芯片的示意图。如图1所示,系统芯片上集成有至少一个FPGA模块和至少一个人工智能模块。
至少一个FPGA模块中各FPGA模块可实现逻辑、计算、控制等各种功能。FPGA利用小型查找表(例如,16×1RAM)来实现组合逻辑,每个查找表连接到一个D触发器的输入端,触发器再来驱动其他逻辑电路或驱动I/O,由此构成了既可实现组合逻辑功能又可实现时序逻辑功能的基本逻辑单元模块,这些模块间利用金属连线互相连接或连接到I/O模块。FPGA的逻辑是通过向内部静态存储单元加载编程数据来实现的,存储在存储器单元中的值决定了逻辑单元的逻辑功能以及各模块之间或模块与I/O间的联接方式,并最终决定了FPGA所能实现的功能。
至少一个人工智能模块中各人工智能模块可实现或加速经预先选定的特定AI功能,包括人工智能(Artificial Intelligence AI),深度学习(Deep Learning DL),机器学习(Machine Learning ML)等各种算法或加速算法中某一步骤的特定功能(如卷积Convolution,矩阵Matrix/张量运算Tensor Operation等)。人工智能(AI)部分包含由多个功能模块(FU)组成的阵列。
FPGA模块和人工智能模块的大小并无限定,在设计时由实际应用决定。
在占用芯片布局方面,一般是安排FPGA模块与人工智能模块相邻。FPGA模块和AI模块可以并排放置,此时FPGA模块可以为AI模块传输数据,提供控制。AI模块也可以嵌入FPGA模块之中;例如FPGA模块较大,人工智能模块较小的情况时,亦可在大片的FPGA模块中挖空一窗口,内置入人工智能模块;此时,AI模块需要复用FPGA模块的绕线资源,以便通过复用的FPGA模块的绕线资源接收和发送数据。
FPGA模块与人工智能模块可以由不同步的时钟CLK1,CLK2分别驱动,俩者分属不同时钟域。信号穿越时钟域时需要经过同步。在一个实施例中,每个需要同步的信号都经由一个同步器(Synchronizer)。在一个例子中,同步器由2个触发器(Flip-Flop或FF)串连而成;在从FPGA到AI模块的数据流动的情况下,数据从FPGA模块的工作在CLK1下的某个寄存器输出,然后经工作在与AI模块相同工作时钟CLK2下的两个触发器输出到AI模块;在从相反方向的从AI到FPGA模块的数据流动的情况下,数据从AI模块的工作在CLK2下的某个寄存器输出,然后经工作在与FPGA模块相同工作时钟CLK1下的两个触发器输出到FPGA模块。所述同步器的两个触发器的时钟信号由数据接收端提供。
在AI模块需要大量的数据输出/输入时,FPGA拥有大量的绕线(例如,XBAR)资源,可以提供充足的互联资源。将FPGA与AI模块集成在同一芯片上时,AI模块的输出/输入信号可以很好的找到相应的FPGA连接点。FPGA可以高速的提供大量的数据到AI模块,配合其高带宽处理能力。由此,根据本发明的系统芯片具有良好的伸缩性,不受总线带宽的限制。
在所述同步器由FPGA内的两个触发器串联而实现且AI模块处于同步器的接收侧时,配置FPGA模块为所述两个触发器提供与AI模块相同的时钟。
虽然图中示意了两个FPGA模块,但是这仅是示例。这两个FPGA模块可能属于同一个FPGA模块的两个部分。或者,系统芯片可以包括不止一个FPGA模块和/或不止一个人工智能模块。
图2是FPGA电路的结构示意图。如图2所示,FPGA电路可包含有多个可编程逻辑模块(例如,LOGIC)、嵌入式存储块(例如,EMB)、乘累加器(例如,MAC)等模块和相应的绕线单元(例如,XBAR)。当然,FPGA电路还设有时钟/配置模块(支干seam/主干spine)等相关资源。若需要EMB或MAC模块时,因其面积比PLB大许多,故以此EMB/MAC模块取代若干PLB模块。
绕线资源XBAR是各模块间互联的接点,均匀地分布在FPGA模块内。FPGA模块内所有的资源,PLB、EMB、MAC、IO相互之间的绕线都是经有一个相同的界面XBAR单元来实现。由绕线方式来看,整个阵列是相同一致,整齐排列的XBAR单元形成网格,将FPGA内所有模块相连。
LOGIC模块可以包含,例如,8个6输入查照表,18个寄存器。EMB模块可以是,例如,36k bit或2个18k bit的存储单元。MAC模块可以是,例如,25x18乘法器,或2个18x18乘法器。FPGA阵列中LOGIC、MAC、EMB各模块数量的占比并无限制,阵列的大小也根据需要,在设计时由实际应用决定。
可以由LOGIC模块提供实现图1所述的同步器的寄存器。
图3是人工智能模块的结构示意图。如图3所示,人工智能AI模块是一个二维阵列,例如包括4X4个处理单元PE。阵列可分为两个维度,彼此垂直的第一维度和第二维度。为方便起见,可以水平维度为第一维度,可以垂直维度为第二维度。以第一处理器、第二处理器和第三处理器为例,第一处理器和第二处理器沿第一维度排列且具有相同的第二维度值,第一处理器的第一输出端耦合到第一处理器的第一输入端;第一处理器和第三处理器沿第一维度排列且具有相同的第一维度值,第一处理器的第二输出端耦合到第三处理器的第二输入端。
数据a可以沿第一维度双向流动;例如,既可以从阵列的左侧在同一时钟下依次输入具有相同第二维度值的各处理单元,也可以从阵列的右侧依次输入具有相同第二维度值的各处理单元;也可以沿第二维度双向流动,例如既可以从阵列的上方在同一时钟下依次输入具有相同第一维度值的各处理单元,也可以从阵列的右侧依次输入具有相同第一维度值的各处理单元。当然,通过控制,同一个数据或者由其衍生的数据可以在不同的时钟下流经所有的PE单元。
需要注意,图3中的每条数据线既可代表单比特的信号,也可代表8(或16,32)比特的信号。
在输入处理单元后,数据在处理单元中进行各种运算,例如加减乘除,逻辑运算等等。
在一个例子中,人工智能模块可以实现矩阵乘法。在另一个例子中,二维阵列可以实现卷积算法。
图4是处理单元的示意图。如图4所示,处理单元包括可编程功能单元(programmable functional unit,PFU)。处理单元可以设置至少一个IMUX(例如,IMUX1和IMUX2),以及一个OMUX。IMUX1和IMUX2接收相同的输入数据,即来自东南西北四个方向的输入数据E、S、W、N。IMUX1可以选通至少一路数据,送入PFU的一个输入端;IMUX2可以选通至少一路数据,送入PFU的另一个输入端。当然,PFU可以有两个以上的输入端,因此IMUX的数量可以是多于两个,或者IMUX1和IMUX2各自可以提供多于一路的数据给PFU。
PFU实现PE的功能,一般包括逻辑、乘法、加法等运算,比如乘、加、减、计数(加一、减一)、XOR、SHIFT、ROTATE、比较等等。PFU的具体功能可以根据配置信息或者广播的算法代码,执行相关的运算功能。在PFU,对输入的数据进行运算;然后,该运算结果寄存在寄存器REG中。在下一个时钟CK时,运算结果经OMUX输出。OMUX可以有东南西北四个方向的输出。在选通信号的控制下,OMUX选择相应的方向输出运算结果,用以当作四个相邻PE的输入数据。
此外,IMUX1的输出端还耦合到OMUX的一个输入端。因此,可以将IMUX1所选通的数据直接经OMUX选通输出。这样的操作,实际上实现了跳线功能,用以跳过当前PE的处理功能,由选定的输入直接送到输出。跳线功能可以实现跨单元的运算,跳线功能有助于有针对性地对处理单元进行测试、也有助于将出错的处理单元进行隔离。
本申请实施例具有如下优点。
首先,在FPGA与AI模块的连接信号中插入同步器,可以互联两个处于不同时钟域的FPGA信号和AI模块信号。
其次,一组数据(或类似)信号,可共用一个同步器,降低同步成本。例如,O0-O7这一类的信号可以对应于同一个XBAR或者相邻的XBAR,可以共用一个同步器;E0-E7则对应于另一个XBAR,可共用另一个同步器。其中,O和E分别是图4中PE的E输入端和O输出端。
第三,FPGA内的逻辑资源带有大量的触发器,可以用来实现同步器,无需另加资源。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种系统芯片,包括:
人工智能AI模块,包括多个处理单元(PE),各处理单元能够完成逻辑和/或乘加运算;AI模块工作在第一时钟下;
FPGA模块,经配置后工作在第二时钟下;
同步器,由所述FPGA模块内的两个触发器串联而实现,用于将AI模块的输入端和/或输出端与FPGA模块的绕线(XBAR)模块耦合在一起;
其中,在AI模块处于同步器的接收侧时,配置FPGA模块为所述两个触发器提供与接收测的所述AI模块相同的第一时钟。
2.如权利要求1所述的系统芯片,其特征在于,AI模块嵌入FPGA模块中以便复用FPGA模块的绕线资源,以便自AI模块发送数据或者接收数据,皆经由所述的复用的FPGA模块的绕线资源。
3.如权利要求1所述的系统芯片,其特征在于,所述同步器的两个触发器的时钟信号由接收端提供。
CN201910107742.7A 2019-02-01 2019-02-01 连接不同时钟域下的fpga和人工智能模块的系统芯片 Active CN109902037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910107742.7A CN109902037B (zh) 2019-02-01 2019-02-01 连接不同时钟域下的fpga和人工智能模块的系统芯片

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910107742.7A CN109902037B (zh) 2019-02-01 2019-02-01 连接不同时钟域下的fpga和人工智能模块的系统芯片

Publications (2)

Publication Number Publication Date
CN109902037A CN109902037A (zh) 2019-06-18
CN109902037B true CN109902037B (zh) 2021-09-28

Family

ID=66944683

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910107742.7A Active CN109902037B (zh) 2019-02-01 2019-02-01 连接不同时钟域下的fpga和人工智能模块的系统芯片

Country Status (1)

Country Link
CN (1) CN109902037B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103825696A (zh) * 2014-03-11 2014-05-28 华中科技大学 一种基于fpga实现光纤高速实时通信的装置
CN107292342A (zh) * 2017-06-21 2017-10-24 广东欧珀移动通信有限公司 数据处理方法及相关产品
CN107402597A (zh) * 2017-07-31 2017-11-28 上海联影医疗科技有限公司 一种数据与时钟对齐的方法、装置、介质及磁共振设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202837399U (zh) * 2012-08-28 2013-03-27 南京国电南自电网自动化有限公司 一种同步相量测量装置
CN104615909B (zh) * 2015-02-02 2018-02-13 天津大学 基于FPGA的Izhikevich神经元网络同步放电仿真平台
US10693466B2 (en) * 2015-07-31 2020-06-23 Guosheng Wu Self-adaptive chip and configuration method
CN106547237B (zh) * 2016-10-24 2019-11-05 华中光电技术研究所(中国船舶重工集团公司第七一七研究所) 一种基于异构多核架构的导航解算装置
US10963265B2 (en) * 2017-04-21 2021-03-30 Micron Technology, Inc. Apparatus and method to switch configurable logic units
CN108508856B (zh) * 2018-03-28 2020-09-22 西安西电电气研究院有限责任公司 一种工业设备智能控制系统及方法
CN109100579B (zh) * 2018-11-07 2024-01-05 国网河南省电力公司郑州供电公司 一种三相不平衡监测装置的高速数据采集系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103825696A (zh) * 2014-03-11 2014-05-28 华中科技大学 一种基于fpga实现光纤高速实时通信的装置
CN107292342A (zh) * 2017-06-21 2017-10-24 广东欧珀移动通信有限公司 数据处理方法及相关产品
CN107402597A (zh) * 2017-07-31 2017-11-28 上海联影医疗科技有限公司 一种数据与时钟对齐的方法、装置、介质及磁共振设备

Also Published As

Publication number Publication date
CN109902037A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
US8175095B2 (en) Systems and methods for sending data packets between multiple FPGA devices
US8125242B2 (en) Reconfigurable logic fabrics for integrated circuits and systems and methods for configuring reconfigurable logic fabrics
US7944236B2 (en) High-bandwidth interconnect network for an integrated circuit
US8856711B2 (en) Apparatus and methods for time-multiplex field-programmable gate arrays
EP2722989B1 (en) Methods and apparatus for building bus interconnection networks using programmable interconnection resources
US7268581B1 (en) FPGA with time-multiplexed interconnect
US20080263334A1 (en) Dynamically configurable and re-configurable data path
WO1996013902A1 (en) Programmable multiplexing input/output port
CN109902063B (zh) 一种集成有二维卷积阵列的系统芯片
CN109902040B (zh) 一种集成fpga和人工智能模块的系统芯片
CN109919322B (zh) 一种测试系统芯片上的人工智能模块的方法和系统芯片
CN109857024B (zh) 人工智能模块的单元性能测试方法和系统芯片
US7827433B1 (en) Time-multiplexed routing for reducing pipelining registers
CN109902037B (zh) 连接不同时钟域下的fpga和人工智能模块的系统芯片
US6538469B1 (en) Technique to test an integrated circuit using fewer pins
CN109766293B (zh) 连接芯片上fpga和人工智能模块的电路和系统芯片
CN109933369B (zh) 集成单指令多数据流架构人工智能模块的系统芯片
CN109884499B (zh) 一种测试系统芯片上的人工智能模块的方法和系统芯片
CN109933370B (zh) 连接fpga和人工智能模块的系统芯片
CN109902835A (zh) 处理单元设置有通用算法单元的人工智能模块及系统芯片
CN109885512B (zh) 集成fpga和人工智能模块的系统芯片及设计方法
CN109902836A (zh) 人工智能模块的故障容错方法及系统芯片
CN109828948B (zh) 一种集成人工智能模块的系统芯片
CN109902795B (zh) 处理单元设置有输入复用器的人工智能模块和系统芯片
EP4383573A1 (en) Clock insertion delay systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant