CN110597756B

CN110597756B - 一种计算电路以及数据运算方法

Info

Publication number: CN110597756B
Application number: CN201910852785.8A
Authority: CN
Inventors: 白冰; 赵斌; 杨钊
Original assignee: Photon Arithmetic Beijing Technology Co ltd
Current assignee: Photon Arithmetic Beijing Technology Co ltd
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2023-07-25
Anticipated expiration: 2039-08-26
Also published as: CN110597756A

Abstract

本发明提供了一种计算电路以及数据运算方法，该计算电路包括：缓冲单元以及非线性运算单元。其中，缓冲单元与外接光子神经网络芯片的输入端相连，用于将待计算的数据发送至光子神经网络芯片，以使光子神经网络芯片对待计算的数据进行线性运算。非线性运算单元与光子神经网络芯片的输出端相连，用于接收经光子神经网络芯片进行线性运算的中间数据，并对中间数据进行非线性运算，生成目标数据。可见，本方案提供的计算电路，通过与其相连的光子神经网络芯片对待计算的数据进行线性运算，然后利用计算电路对中间数据进行非线性运算，由于光子神经网络芯片的线性运算能力较强，因此，本方案能够提高大数据的计算能力，且降低计算电路的面积以及成本。

Description

一种计算电路以及数据运算方法

技术领域

本发明涉及数据计算技术领域，具体涉及一种计算电路以及数据运算方法。

背景技术

随着大数据的快速发展，电子芯片在性能提升和功耗降低等方面均遇到了瓶颈。例如，无论是传统的中央处理器CPU还是后续开发的图形处理器GPU，均将受到摩尔定律失效，使得电子芯片无法支持更大规模的大数据计算。

因此，如何提供一种计算电路，能够提高大数据的计算能力的同时降低面积和成本，是本领域技术人员亟待解决的一大技术难题。

发明内容

有鉴于此，本发明实施例提供了一种计算电路以及数据运算方法，能够提高大数据的计算能力的同时降低面积和成本。

为实现上述目的，本发明实施例提供如下技术方案：

一种计算电路，包括：缓冲单元以及非线性运算单元；

所述缓冲单元与外接光子神经网络芯片的输入端相连，用于将待计算的数据发送至所述光子神经网络芯片，以使所述光子神经网络芯片对所述待计算的数据进行线性运算；

所述非线性运算单元与所述光子神经网络芯片的输出端相连，用于接收经所述光子神经网络芯片进行线性运算的中间数据，并对所述中间数据进行非线性运算，生成目标数据。

可选的，还包括：数据划分单元，

所述数据划分单元用于将所述待计算的数据划分成待处理数据图像信息以及待处理内核信息。

可选的，所述缓冲单元包括第一缓冲单元以及第二缓冲单元，

所述第一缓冲单元与所述数据划分单元相连，用于存储所述待处理内核信息，并将所述待处理内核信息发送至所述光子神经网络芯片；

所述第二缓冲单元与所述数据划分单元相连，用于存储所述待处理数据图像信息，并将所述待处理数据图像信息发送至所述光子神经网络芯片。

可选的，还包括第一数模转换器，

所述第一缓冲单元通过所述计算电路上的输入输出设备接口将所述待处理内核信息发送至所述第一数模转换器，所述第一数模转换器的输出端与所述光子神经网络芯片的一个所述输入端相连。

可选的，还包括第二数模转换器，

所述第二缓冲单元通过所述计算电路上的串行接口将所述待处理数据图像信息发送至所述第二数模转换器，所述第二数模转换器的输出端与所述光子神经网络芯片的另一个所述输入端相连。

可选的，还包括模数转换器，

所述光子神经网络芯片将所述中间数据发送至所述模数转换器，所述模数转换器通过所述计算电路上的串行接口将所述中间数据发送至所述非线性运算单元。

可选的，还包括内存控制器，

所述内存控制器与所述数据划分单元以及所述缓冲单元相连，用于将所述待处理内存信息进行数据压缩。

可选的，所述待计算的数据基于PCIE总线协议或AXI总线协议传输至所述数据划分单元。

可选的，还包括主机接口以及指令缓冲单元，

所述主机接口用于将基于所述PCIE总线协议或所述AXI总线协议传输的待计算的数据转换成预设总线协议的数据；

所述指令缓冲单元与所述主机接口相连，用于存储控制指令。

可选的，还包括处理单元，

所述处理单元用于基于所述控制指令，控制所述缓冲单元以及所述非线性运算单元执行预设动作。

一种数据运算方法，应用于任意一项上述的计算电路，所述数据运算方法包括：

获取所述待计算的数据，将所述待计算的数据划分成待处理数据图像信息以及待处理内核信息；

将所述待处理内核信息通过所述计算电路上的输入输出设备接口以及所述第一数模转换器发送至所述光子神经网络芯片；

将所述待处理数据图像信息通过所述计算电路上的串行接口以及所述第二数模转换器发送至所述光子神经网络芯片；

获取通过所述计算电路上的串行接口以及所述模数转换器传输并经所述光子神经网络芯片进行线性运算的中间数据，并对所述中间数据进行非线性运算，生成目标数据。

基于上述技术方案，本发明实施例提供了一种计算电路，包括：缓冲单元以及非线性运算单元。其中，缓冲单元与外接光子神经网络芯片的输入端相连，用于将待计算的数据发送至光子神经网络芯片，以使光子神经网络芯片对待计算的数据进行线性运算。非线性运算单元与光子神经网络芯片的输出端相连，用于接收经光子神经网络芯片进行线性运算的中间数据，并对中间数据进行非线性运算，生成目标数据。可见，本方案提供的计算电路，通过与其相连的光子神经网络芯片对待计算的数据进行线性运算，然后利用计算电路对中间数据进行非线性运算，由于光子神经网络芯片的线性运算能力较强，因此，本方案能够提高大数据的计算能力，且降低计算电路的面积以及成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本实施例提供的一种计算电路的结构示意图；

图2为本实施例提供的一种计算电路的又一结构示意图；

图3为本实施例提供的一种计算电路的又一结构示意图；

图4为本实施例提供的一种计算电路的又一结构示意图；

图5为本实施例提供的一种计算电路的又一结构示意图；

图6为本实施例提供的一种计算电路的又一结构示意图；

图7为本实施例提供的一种计算电路的又一结构示意图；

图8为本实施例提供的一种计算电路的又一结构示意图；

图9为本实施例提供的一种计算电路的又一结构示意图；

图10为本实施例提供的一种数据运算方法的流程示意图。

具体实施方式

请参阅图1，图1为本实施例提供的一种计算电路的结构示意图，该计算电路1包括：缓冲单元10以及非线性运算单元20。

其中，所述缓冲单元10与外接光子神经网络芯片2的输入端相连，用于将待计算的数据发送至所述光子神经网络芯片2，以使所述光子神经网络芯片2对所述待计算的数据进行线性运算。

所述非线性运算单元20与所述光子神经网络芯片2的输出端相连，用于接收经所述光子神经网络芯片2进行线性运算的中间数据，并对所述中间数据进行非线性运算，生成目标数据。

可见，本实施例将计算电路1与光子神经网络芯片2相结合，形成光电异构架构，采用光子神经网络芯片2进行线性运算，提高运算速度，降低功耗；采用计算电路1进行非线性运算，降低器件的面积。

具体的，在本实施例中，计算电路1可以为FPGA，相应的，FPGA与通用处理器进行通信，光子神经网络芯片与FPGA进行通信。光子神经网络芯片完成神经网络算法中的线性计算部分，FPGA完成神经网络算法中的非线性部分以及逻辑控制功能。

在上述实施例的基础上，本实施提供的计算电路中，如图2所示，还包括：数据划分单元21。该数据划分单元21用于将所述待计算的数据划分成待处理数据图像信息以及待处理内核信息。

相应的，本实施例提供的计算电路，如图3所示，所述缓冲单元10包括第一缓冲单元31以及第二缓冲单元32。

其中，所述第一缓冲单元31与所述数据划分单元21相连，用于存储所述待处理内核信息，并将所述待处理内核信息发送至所述光子神经网络芯片2。

所述第二缓冲单元32与所述数据划分单元21相连，用于存储所述待处理数据图像信息，并将所述待处理数据图像信息发送至所述光子神经网络芯片2。

除此，本实施例提供的计算电路，如图4所示，还可以包括第一数模转换器41，

其中，所述第一缓冲单元31通过所述计算电路1上的输入输出设备接口11将所述待处理内核信息发送至所述第一数模转换器41，所述第一数模转换器41的输出端与所述光子神经网络芯片2的一个所述输入端相连。

在上述实施例的基础上，本实施例提供的计算电路，如图5所示，还可以包括第二数模转换器51。

其中，所述第二缓冲单元32通过所述计算电路1上的串行接口12将所述待处理数据图像信息发送至所述第二数模转换器51，所述第二数模转换器的51输出端与所述光子神经网络芯片2的另一个所述输入端相连。

除此，本实施例提供的计算电路，如图6所示，还包括模数转换器61。

其中，所述光子神经网络芯片2将所述中间数据发送至所述模数转换器61，所述模数转换器61通过所述计算电路1上的串行接口13将所述中间数据发送至所述非线性运算单元20。

除此，本实施例提供的计算电路，如图7所示，还包括内存控制器71。

其中，所述内存控制器71与所述数据划分单元21以及所述缓冲单元10相连，用于将所述待处理内存信息进行数据压缩。

除此，本实施例提供的计算电路中，所述待计算的数据基于PCIE总线协议或AXI总线协议传输至所述数据划分单元。

进一步的，本实施例提供的计算电路，如图8所示，还可以包括主机接口81以及指令缓冲单元82。

其中，所述主机接口81用于将基于所述PCIE总线协议或所述AXI总线协议传输的待计算的数据转换成预设总线协议的数据。所述指令缓冲单元82与所述主机接口81相连，用于存储控制指令。

除此，本实施例提供的的计算电路，如图9所示，还可以包括处理单元91。

其中，所述处理单元91用于基于所述控制指令，控制所述缓冲单元10以及所述非线性运算单元20执行预设动作。

结合图9，对本实施例提供的一种计算电路的工作原理进行说明，如图10所示，该数据运算方法包括：

S101、获取所述待计算的数据，将所述待计算的数据划分成待处理数据图像信息以及待处理内核信息；

S102、将所述待处理内核信息通过所述计算电路上的输入输出设备接口以及所述第一数模转换器发送至所述光子神经网络芯片；

S103、将所述待处理数据图像信息通过所述计算电路上的串行接口以及所述第二数模转换器发送至所述光子神经网络芯片；

S104、获取通过所述计算电路上的串行接口以及所述模数转换器传输并经所述光子神经网络芯片进行线性运算的中间数据，并对所述中间数据进行非线性运算，生成目标数据。

具体的，发明人考虑到FPGA接口丰富，可以给光子神经网络芯片提供高带宽输入/输出，且FPGA的一大主流应用是用在高速转接口和高速采集卡，因此FPGA芯片上包含有大量Serdes口和大量的高带宽IO口，其中，高速的Serdes口可以直接与光子芯片的高速DAC/ADC接口输入相连，提供高带宽的Image输入与运算结果输入，而大量高带宽的IO口可以与光子神经网络芯片的多个低速DAC阵列相接，提供高带宽的Kernel(weight)输入。

在本实施例中，待处理数据通过PCIE口进入到FPGA中，数据划分单元DMA将待处理数据图像信息搬运到第二缓冲单元Input Buffer，数据划分单元DMA将kernel值搬运到DDR中。第二缓冲单元Input IMG buffer存储待处理图像信息同时通过Serdes口传输给第二数模转换器DAC。第一缓冲单元Input Kernel buffer存储kernel值同时通过IO口传输给第一数模转换器DAC。数据和kernel值分别通过DAC传输给光子神经网络芯片，光子神经网络芯片对数据进行处理，返回值返回给模数转换器ADC，ADC通过Serdes口将处理后数据返回给非线性运算单元NL engine，非线性运算单元NLengine对数据进行非线性处理。

因此，本实施例的运算流程如下：

通用处理器通过PCIE和DDR与FPGA进行信息交互，将待处理数据发送给FPGA。然后，FPGA对数据进行处理，将卷积计算中的权重数值通过低速DAC转换后发送给光子神经网络芯片；将卷积计算中的待计算数据信息通过高速DAC转换后发送给光子神经网络芯片。光子神经网络芯片对FPGA发送过来的数据进行线性处理，处理后的数据通过ADC转后后发送给FPGA。FPGA对接收到光子神经网络芯片线性处理后的数据进行激活、池化等非线性处理，然后再进行下一次循环操作。

由于目前主流的AI计算90％以上的运算是线性运算，算力主要体现在线性的卷积运算上，而卷积运算最后都可以转换为矩阵运算。光子神经网络芯片非常适合做线性运算，通过光子神经网络芯片的高性能和高能效的矩阵计算来提高AI计算能力。

FPGA由可编程输入/输出单元、基本可编程逻辑单元、内嵌的块RAM和底层嵌入功能单元等组成。如果用FPGA进行卷积计算，线性计算需要消耗底层嵌入功能单元以及大面积的基本可编程逻辑单元。采用本发明的电路结构，线性计算用光子神经网络芯片完成，能够有效减少基本可编程逻辑单元和底层嵌入功能单元的面积。对FPGA而言，面积越大，成本越高，采用本发明电路结构，提高算力、降低功耗的同时，能够有效减少FPGA成本。

且FPGA片上集成的PCIE接口，可以直接与HOST主机相连接，拓展性强。除此，本方案中高速DAC和低速DAC分开，针对不同的模型，可以实现针对性的运算，有效提高神经网络算法的高效运算。

综上，本发明提供了一种计算电路以及数据运算方法，该计算电路包括：缓冲单元以及非线性运算单元。其中，缓冲单元与外接光子神经网络芯片的输入端相连，用于将待计算的数据发送至光子神经网络芯片，以使光子神经网络芯片对待计算的数据进行线性运算。非线性运算单元与光子神经网络芯片的输出端相连，用于接收经光子神经网络芯片进行线性运算的中间数据，并对中间数据进行非线性运算，生成目标数据。可见，本方案提供的计算电路，通过与其相连的光子神经网络芯片对待计算的数据进行线性运算，然后利用计算电路对中间数据进行非线性运算，由于光子神经网络芯片的线性运算能力较强，因此，本方案能够提高大数据的计算能力，且降低计算电路的面积以及成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种计算电路，其特征在于，包括：缓冲单元、非线性运算单元、数据划分单元、第一数模转换器以及第二数模转换器；

所述非线性运算单元与所述光子神经网络芯片的输出端相连，用于接收经所述光子神经网络芯片进行线性运算的中间数据，并对所述中间数据进行非线性运算，生成目标数据；

所述数据划分单元用于将所述待计算的数据划分成待处理数据图像信息以及待处理内核信息；

所述缓冲单元包括第一缓冲单元以及第二缓冲单元，

所述第二缓冲单元与所述数据划分单元相连，用于存储所述待处理数据图像信息，并将所述待处理数据图像信息发送至所述光子神经网络芯片；

所述第一缓冲单元通过所述计算电路上的输入输出设备接口将所述待处理内核信息发送至所述第一数模转换器，所述第一数模转换器的输出端与所述光子神经网络芯片的一个所述输入端相连；

2.根据权利要求1所述的计算电路，其特征在于，还包括模数转换器，

3.根据权利要求1所述的计算电路，其特征在于，还包括内存控制器，

所述内存控制器与所述数据划分单元以及所述缓冲单元相连，用于将所述待处理内核信息进行数据压缩。

4.根据权利要求1所述的计算电路，其特征在于，所述待计算的数据基于PCIE总线协议或AXI总线协议传输至所述数据划分单元。

5.根据权利要求4所述的计算电路，其特征在于，还包括主机接口以及指令缓冲单元，

6.根据权利要求5所述的计算电路，其特征在于，还包括处理单元，

7.一种数据运算方法，其特征在于，应用于如权利要求1-6中任意一项所述的计算电路，所述数据运算方法包括：

获取通过所述计算电路上的串行接口以及模数转换器传输并经所述光子神经网络芯片进行线性运算的中间数据，并对所述中间数据进行非线性运算，生成目标数据。