CN111078625B

CN111078625B - 片上网络处理系统和片上网络数据处理方法

Info

Publication number: CN111078625B
Application number: CN201811216718.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Shanghai Cambricon Information Technology Co Ltd
Current assignee: Shanghai Cambricon Information Technology Co Ltd
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2022-03-29
Anticipated expiration: 2038-10-18
Also published as: CN111078625A

Abstract

本申请涉及一种片上网络处理系统，所述系统包括：存储装置和多个计算装置，所述存储装置和多个所述计算装置设置于同一片上，其中，至少一个计算装置与所述存储装置连接，并且至少两个计算装置之间相互连接。该系统能够减少运算开销，提高数据读写效率。

Description

片上网络处理系统和片上网络数据处理方法

技术领域

本申请涉及信息处理技术领域，特别是涉及一种片上网络处理系统和片上网络数据处理方法。

背景技术

随着半导体工艺技术的发展，在单一芯片中集成上亿晶体管已经成为现实。片上网络 (Network on Chip,NoC)能够在单芯片上集成大量的计算资源，并且实现片上通信。

由于神经网络中需要进行大量的计算，其中有一些计算需要并行处理，例如正向运算、反向运算、权值更新等。在晶体管数目众多的芯片体系结构中，芯片设计将面临访存开销大，带宽阻塞多，数据读写效率低等问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够减少运算开销，提高数据读写效率的片上网络处理系统和片上网络数据处理方法。

第一方面，提供一种片上网络处理系统，所述系统包括：存储装置和多个计算装置，所述存储装置和多个所述计算装置设置于同一片上，其中，至少一个计算装置与所述存储装置连接，并且至少两个计算装置之间相互连接。

第二方面，本申请实施例提供了一种神经网络运算装置，该神经网络运算装置包括一个或者多个上述片上网络处理系统中的计算装置。该神经网络运算装置用于从其他处理装置中获取待运算数据和控制信息，并执行指定的机器学习运算，将执行结果通过I/O接口传递给其他处理装置；

当所述神经网络运算装置包含多个所述计算装置时，所述多个所述计算装置间可以通过特定的结构进行链接并传输数据；

其中，多个所述计算装置通过PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算；多个所述计算装置共享同一控制系统或拥有各自的控制系统；多个所述计算装置共享内存或者拥有各自的内存；多个所述计算装置的互联方式是任意互联拓扑。

第三方面，本申请实施例提供了一种组合处理装置，该组合处理装置包括如第二方面所述的机器学习处理装置、通用互联接口，和其他处理装置。该神经网络运算装置与上述其他处理装置进行交互，共同完成用户指定的操作。该组合处理装置还可以包括存储装置，该存储装置分别与所述神经网络运算装置和所述其他处理装置连接，用于保存所述神经网络运算装置和所述其他处理装置的数据。

第四方面，本申请实施例提供了一种神经网络芯片，该神经网络芯片包括上述片上网络处理系统中的计算装置、上述第二方面所述的神经网络运算装置或者上述第三方面所述的组合处理装置。

第五方面，本申请实施例提供了一种神经网络芯片封装结构，该神经网络芯片封装结构包括上述第四方面所述的神经网络芯片；

第六方面，本申请实施例提供了一种板卡，该板卡包括上述第五方面所述的神经网络芯片封装结构。

第七方面，本申请实施例提供了一种电子装置，该电子装置包括上述第五方面所述的神经网络芯片或者上述第六方面所述的板卡。

第八方面，本申请实施例还提供了一种片上网络数据处理方法，所述方法用于执行机器学习计算，所述方法包括：

通过第一计算装置访问存储装置，获取第一运算数据；

通过所述第一计算装置对所述第一运算数据进行运算，得到第一运算结果；

将所述第一运算结果发送至第二计算装置。

在一些实施例中，所述电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

在一些实施例中，所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

上述片上网络处理系统和片上网络数据处理方法，通过在设置于同一片上的多个计算装置之间建立连接，使多个计算装置之间能够进行数据传输，并且在计算过程中，对输入数据以及生成的中间计算结果进行分时和复用，从而降低了访存过程中的能耗开销，减少了存储带宽阻塞，同时提高了数据的读写效率。

附图说明

图1为一个实施例中片上网络处理系统1100的结构示意图；

图2为一个实施例中片上网络处理系统1200的结构示意图；

图3为一个实施例中片上网络处理系统1300的结构示意图；

图4为一个实施例中片上网络处理系统1400的结构示意图；

图5a一个实施例中片上网络处理系统1500的结构示意图；

图5b一个实施例中片上网络处理系统15000的结构示意图；

图6为一个实施例中片上网络处理系统1600的结构示意图；

图7为一个实施例中片上网络处理系统1700的结构示意图；

图8为一个实施例中片上网络处理系统1800的结构示意图；

图9为一个实施例中片上网络处理系统1900的结构示意图；

图10a为一个实施例中片上网络处理系统1910的结构示意图；

图10b为一个实施例中片上网络处理系统19100的结构示意图；

图11为一个实施例中片上网络处理系统1920的结构示意图；

图12为一个实施例中片上网络处理系统1930的结构示意图；

图13为一个实施例中计算装置的结构示意图；

图14为另一个实施例中计算装置的结构示意图；

图15为一个实施例中主处理电路的结构示意图；

图16为另一个实施例中计算装置的结构示意图；

图17为另一个实施例中计算装置的结构示意图；

图18为一个实施例中树型模块的结构示意图；

图19为另一个实施例中计算装置的结构示意图；

图20为另一个实施例中计算装置的结构示意图；

图21为另一个实施例中计算装置的结构示意图；

图22为一个实施例中组合处理装置的结构示意图；

图23为另一个实施例中组合处理装置的结构示意图；

图24为一个实施例中板卡的结构示意图；

图25为一个实施例中片上网络数据处理方法的流程示意图；

图26为另一个实施例中片上网络数据处理方法的流程示意图；

图27为另一个实施例中片上网络数据处理方法的流程示意图；

图28为另一个实施例中片上网络数据处理方法的流程示意图；

图29为另一个实施例中片上网络数据处理方法的流程示意图；

图30为另一个实施例中片上网络数据处理方法的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置，所述存储装置和多个所述计算装置设置于同一片上，其中，至少一个计算装置与所述存储装置连接，并且至少两个计算装置之间相互连接。

其中，片上网络(Network on Chip,NoC)是指在单芯片上集成大量的计算资源以及连接这些资源的片上通信网络。可选的，芯片中的各计算装置可以通过各自的接口接入该片上网络，使用共享的网络资源和目的模块进行通信。具体地，所述存储装置和多个所述计算装置设置于同一片上指的是，将存储装置和多个计算装置集成在同一芯片上。处理器核和片外存储装置之间通过NoC相连，NoC还支持处理器多个核之间的通信。

本申请实施例中的片上网络处理系统都是基于NoC来实现片上通信。另外，本申请实施例中的片上网络处理系统既可以进行片内存储，也可以进行片外存储，也就是说，神经网络处理器处理过程中的运算数据既可以存储在片内的存储装置，也可以存储在片外的存储装置；由于片上网络处理系统的片内存储容量有限，因此，可以将运算数据以及运算过程中产生的中间结果暂时存储在片外存储装置，需要时再从片外存储读取到NoC中。本申请实施例中，片上网络处理系统中的存储装置均指代片内存储装置；片上网络处理系统中的计算装置包括神经网络处理器。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置，所述多个计算装置包括第一计算装置和多个第二计算装置，所述存储装置和多个所述计算装置设置于同一片上，其中，所述第一计算装置与所述存储装置连接，所述多个第二计算装置中的至少一个第二计算装置与所述第一计算装置连接。

在一个实施例中，提供了一种神经网络芯片，该芯片包括：存储装置、多个计算装置、第一互联装置以及第二互联装置，其中，至少一个计算装置与所述存储装置通过所述第一互联装置连接，所述多个计算装置之间通过所述第二互联装置连接。进一步，计算装置可以通过第一互联装置实现对存储装置的读写操作，多个计算装置之间还可以通过第二互联装置进行数据传输。

如图1所示，为其中一个实施例提供的一种片上网络处理系统1100，片上网络处理系统 1100包括：存储装置1101、第一计算装置1102、第二计算装置1103以及第二计算装置1104，且存储装置1101、第一计算装置1102、第二计算装置1103以及第二计算装置1104设置于片上网络处理系统1100的同一片上，其中，第一计算装置1102与存储装置1101连接，第二计算装置1103与第一计算装置1102连接，同时第二计算装置1103也与第二计算装置1104连接。只有第一计算装置1102能够访问存储装置1101，也就是说，只有第一计算装置1102能够从存储装置1101进行数据读写，第一计算装置1102、第二计算装置1103与第二计算装置1104之间能相互进行数据传输。

具体地，当第二计算装置1104需要读取数据时，由第一计算装置1102访问存储装置1101，从存储装置1101中读取第二计算装置1104所需要的数据，由第一计算装置1102将该数据发送至第二计算装置1103，再由第二计算装置1103将该数据发送至第二计算装置1104。可选的，第一计算装置1102、第二计算装置1103和第二计算装置1104也可以均与存储装置1101 连接，只要保证第一计算装置1102、第二计算装置1103和第二计算装置1104中至少一个计算装置与存储装置1101连接即可，在此不做具体限定。可选的，第二计算装置1103既可以与第二计算装置1104相互连接，也可以与第一计算装置1102相互连接，只要保证第一计算装置1102、第二计算装置1103和第二计算装置1104中至少两个计算装置相互连接即可，在此不做具体限定。

如图2所示，为其中一个实施例提供的一种片上网络处理系统1200，片上网络处理系统 1200包括：存储装置1201、第一计算装置1202、第二计算装置1203以及第二计算装置1204，且存储装置1201、第一计算装置1202、第二计算装置1203以及第二计算装置1204设置于片上网络处理系统1200的同一片上，其中，第一计算装置1202与存储装置1201连接，第二计算装置1203和第二计算装置1204与第一计算装置1202直接连接，即第二计算装置1204既与第二计算装置1203连接，又与第一计算装置1201连接，而不需通过第二计算装置1203与第一计算装置1201建立连接。只有第一计算装置1202能够访问存储装置1201，也就是说，只有第一计算装置1202能够从存储装置1201进行数据读写，第一计算装置1202、第二计算装置1203与第二计算装置1204之间能相互进行数据传输。

具体地，当第二计算装置1204需要读取数据时，由第一计算装置1202访问存储装置1201，从存储装置1201中读取第二计算装置1204所需要的数据，由第一计算装置1202将该数据直接发送至第二计算装置1204，而无需经过第二计算装置1203进行转发。可选的，第一计算装置1202、第二计算装置1203和第二计算装置1204也可以均与存储装置1201连接，只要保证第一计算装置1202、第二计算装置1203和第二计算装置1204中至少一个计算装置与存储装置1201连接即可，在此不做具体限定。可选的，第二计算装置1203既可以与第二计算装置1204相互连接，也可以与第一计算装置1202相互连接，只要保证第一计算装置1202、第二计算装置1203和第二计算装置1204中至少两个计算装置相互连接即可，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置之间建立连接，能够在多个计算装置之间进行数据传输，避免了多个计算装置都从存储装置中读取数据而导致连接带宽开销过大，同时提高了数据读写效率。

在其中一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置，所述存储装置和多个所述计算装置设置于同一片上，其中，所述多个计算装置中的每一个计算装置均与所述存储装置连接，并且至少两个计算装置之间相互连接。

如图3所示，为其中一个实施例提供的一种片上网络处理系统1300，片上网络处理系统 1300包括：存储装置1301、计算装置1302、计算装置1303以及计算装置1304，存储装置1301、计算装置1302、计算装置1303以及计算装置1304设置于片上网络处理系统1300的同一片上，其中，计算装置1302、计算装置1303和计算装置1304均与存储装置1301连接，计算装置1302与计算装置1303相互连接，同时计算装置1303与计算装置1304相互连接。计算装置1302、计算装置1303和计算装置1304均能够访问存储装置1301，计算装置1302 和计算装置1303之间能相互进行数据传输，同时计算装置1303和计算装置1304之间能相互进行数据传输。

具体地，当计算装置1304需要读取数据时，计算装置1304可以直接访问存储装置1301；也可以由计算装置1303访问存储装置1301，从存储装置1301中读取计算装置1304所需要的数据，由计算装置1303将该数据发送至计算装置1304；还可以由计算装置1302访问存储装置1301，从存储装置1301中读取计算装置1304所需要的数据，由计算装置1302将该数据发送至计算装置1303，再由计算装置1303将该数据发送至计算装置1304。可选的，计算装置1302、计算装置1303和计算装置1304中只要保证至少一个计算装置与存储装置1301连接即可，在此不做具体限定。可选的，计算装置1302、计算装置1303和计算装置1304中只要保证至少两个计算装置相互连接即可，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置之间建立连接，能够使任一计算装置所需数据都能通过多个计算装置之间进行传输，该系统能够减少同时读取存储装置接口的计算装置，减少带宽阻塞。

如图4所示，为其中一个实施例提供的一种片上网络处理系统1400，片上网络处理系统 1400包括：存储装置1401、计算装置1402、计算装置1403以及计算装置1404，存储装置1401、计算装置1402、计算装置1403以及计算装置1404设置于片上网络处理系统1400的同一片上，其中，计算装置1402、计算装置1403和计算装置1404均与存储装置1401连接，计算装置1402、计算装置1403和计算装置1404三个计算装置之间相互连接。计算装置1402、计算装置1403和计算装置1404均能够访问存储装置1401，计算装置1402、计算装置1403 和计算装置1404三个计算装置之间能相互进行数据传输。

具体地，当计算装置1404需要读取数据时，可以直接访问存储装置1401；也可以由计算装置1403访问存储装置1401，从存储装置1401中读取计算装置1404所需要的数据，由计算装置1403将该数据发送至计算装置1404；还可以由计算装置1402访问存储装置1401，从存储装置1401中读取计算装置1404所需要的数据，由计算装置1402直接将该数据发送至计算装置1404，而无需经过计算装置1403进行转发。可选的，计算装置1402、计算装置1403和计算装置1404中只要保证至少一个计算装置与存储装置1401连接即可，在此不做具体限定。可选的，计算装置1402、计算装置1403和计算装置1404中只要保证至少两个计算装置相互连接即可，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置之间建立直接连接，能够提高数据的读写效率。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置组，所述存储装置和多个所述计算装置组设置于同一片上，每一计算装置组包括多个计算装置，其中，所述多个计算装置组中至少一个计算装置组与所述存储装置连接，且至少两个计算装置组相互连接。

在一个实施例中，提供了一种神经网络芯片，该芯片包括：存储装置、多个计算装置组、第一互联装置以及第二互联装置，其中，所述多个计算装置组中至少一个计算装置组与所述存储装置通过所述第一互联装置连接，所述多个计算装置组之间通过所述第二互联装置连接。进一步，计算装置组可以通过第一互联装置实现对存储装置的读写操作，多个计算装置组之间还可以通过第二互联装置进行数据传输。

如图5a所示，为其中一个实施例提供的一种片上网络处理系统1500，片上网络处理系统1500包括：存储装置1501和六个计算装置(计算装置1502至计算装置1507)，存储装置 1501和六个计算装置(计算装置1502至计算装置1507)设置于片上网络处理系统1500的同一片上，将六个计算装置分为三组，计算装置1502和计算装置1503为第一计算装置组(cluster1)，计算装置1504和计算装置1505为第二计算装置组(cluster2)，计算装置1506和计算装置1507为第三计算装置组(cluster3)，cluster1为主计算装置组，cluster2和cluster3 为子计算装置组。其中，只有cluster1与存储装置1501连接，cluster1、cluster2和cluster3之间相互连接。cluster1中的计算装置1502与存储装置1501连接，cluster1中的计算装置1503 与cluster2中的计算装置1504相互连接，cluster2中的计算装置1505与cluster3中的计算装置1507相互连接。

具体地，当cluster3需要读取数据时，可以由cluster1访问存储装置1501，从存储装置 1501中读取cluster3所需要的数据，由cluster1将该数据发送至cluster2，再由cluster2将该数据发送至cluster3。其中，多个计算装置可以分为多个组，且每组计算装置数目不做具体限制，优选为一组包括四个计算装置。

可选的，多个计算装置中不要求所有计算装置均与存储装置1501连接，只要两个计算装置组中至少一个计算装置组与存储装置1501连接即可，在此不做具体限定。可选的，cluster1 既可以与cluster2相互连接，也可以与cluster3相互连接，只要保证三个计算装置组中至少两个计算装置组相互连接即可，在此不做具体限定。可选的，每一所述计算装置组中包括至少一个计算装置与其他所述计算装置组中的至少一个计算装置连接，也就是说，cluster1的每一个计算装置均可以与第二装置组建立连接，只需保证cluster1中至少一个计算装置与cluster2 中的至少一个计算装置连接即可，在此不做具体限定。可选的，所述多个计算装置组之间通过所述多个计算装置组内的任意一个计算装置相互连接，也就是说，cluster1中的任意一个计算装置可以与cluster2中的任意一个计算装置相互连接，在此不做具体限定。

如图5b所示，为其中一个实施例提供的一种片上网络处理系统15000，片上网络处理系统15000包括：存储装置15010和六个计算装置(计算装置15020至计算装置15070)，存储装置15010和六个计算装置(计算装置15020至计算装置15070)设置于片上网络处理系统15000的同一片上，将六个计算装置分为三组，计算装置15020和计算装置15030为第一计算装置组(cluster1)，计算装置15040和计算装置15050为第二计算装置组(cluster2)，计算装置15060和计算装置15070为第三计算装置组(cluster3)，cluster1为主计算装置组，cluster2 和cluster3为子计算装置组。其中，只有cluster1与存储装置15010连接，cluster1、cluster2 和cluster3之间相互连接。cluster1中的计算装置15020与存储装置15010连接，cluster1中的计算装置15030与cluster2中的计算装置15040相互连接，cluster2中的计算装置15050与 cluster3中的计算装置15070相互连接，cluster3中的计算装置15060与cluster1中的计算装置 15020相互连接。

具体地，当cluster3需要读取数据时，可以由cluster1访问存储装置1501，从存储装置 1501中读取cluster3所需要的数据，由cluster1将该数据直接发送至cluster3。其中，多个计算装置可以分为多个组，且每组计算装置数目不做具体限制，优选为一组包括四个计算装置。

可选的，多个计算装置中不要求所有计算装置均与存储装置15010连接，只要两个计算装置组中至少一个计算装置组与存储装置15010连接即可，在此不做具体限定。可选的， cluster1既可以与cluster2相互连接，也可以与cluster3相互连接，只要保证三个计算装置组中至少两个计算装置组相互连接即可，在此不做具体限定。可选的，每一所述计算装置组中包括至少一个计算装置与其他所述计算装置组中的至少一个计算装置连接，也就是说， cluster1的每一个计算装置均可以与第二装置组建立连接，只需保证cluster1中至少一个计算装置与cluster2中的至少一个计算装置连接即可，在此不做具体限定。可选的，所述多个计算装置组之间通过所述多个计算装置组内的任意一个计算装置相互连接，也就是说，cluster1 中的任意一个计算装置可以与cluster2中的任意一个计算装置相互连接，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置组之间建立连接，能够使多个计算装置组实现组间通信，该系统能够通过组间数据传输减少同时读取存储装置接口的计算装置，减少访存的能耗开销；同时，设置于同一片上的多个计算装置组之间采用多种连接方式建立组间通信，通过在多个计算装置之间建立多条通信通道，根据当前网络拥堵情况选择一条最优通道进行数据传输，从而实现节约能耗，提高数据处理效率的效果。

在其中一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置组，所述存储装置和多个所述计算装置组设置于同一片上，每一计算装置组包括多个计算装置，所述多个计算装置组中至少一个计算装置组与所述存储装置连接，所述多个计算装置组之间相互连接。

如图6所示，为其中一个实施例提供的一种片上网络处理系统1600，片上网络处理系统 1600包括：存储装置1601和六个计算装置(计算装置1602至计算装置1607)，存储装置1601 和六个计算装置(计算装置1602至计算装置1607)设置于片上网络处理系统1600的同一片上，将六个计算装置分为三组，计算装置1602和计算装置1603为第一计算装置组cluster1，计算装置1604和计算装置1605为第二计算装置组cluster2，计算装置1606和计算装置1607 为第三计算装置组cluster3，其中，cluster1、cluster2和cluster3均与存储装置1601连接，cluster1 和cluster2之间相互连接，cluster2和cluster3之间相互连接。计算装置1602至计算装置1607 均与存储装置1601连接，cluster1中的计算装置1603与cluster2中的计算装置1604相互连接， cluster2中的计算装置1604与cluster3中的计算装置1607相互连接。

具体地，当cluster3需要读取数据时，可以由cluster2访问存储装置1601，从存储装置 1601中读取cluster3所需要的数据，由cluster2发送至cluster3；也可以由cluster1访问存储装置1601，从存储装置1601中读取cluster3所需要的数据，由cluster1将该数据发送至cluster2，再由cluster2将该数据发送至cluster3。其中，多个计算装置可以分为多个组，且每组计算装置数目不做具体限制，优选为一组包括四个计算装置。

可选的，多个计算装置中不要求所有计算装置均与存储装置1601连接，只要两个计算装置组中至少一个计算装置组与存储装置1601连接即可，在此不做具体限定。可选的，cluster1 的每一个计算装置均可以与第二单元组和/或cluster3建立连接，只需保证cluster1中至少一个计算装置与cluster2和/或cluster3中的至少一个计算装置连接即可，在此不做具体限定。可选的，cluster1中的任意一个计算装置可以与cluster2和/或cluster3中的任意一个计算装置相互连接，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置组之间建立连接，能够使任一计算装置组所需数据都能通过多个计算装置组之间进行传输，该系统能够减少同时读取存储装置接口的计算装置，减少带宽阻塞。

在其中一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置组，所述存储装置和多个所述计算装置组设置于同一片上，每一计算装置组包括多个计算装置，所述多个计算装置组中至少一个计算装置组与所述存储装置连接，所述多个计算装置组中的任意两个计算装置组直接连接。

如图7所示，为其中一个实施例提供的一种片上网络处理系统1700，片上网络处理系统 1700包括：存储装置1701和六个计算装置(计算装置1702至计算装置1707)，存储装置1701 和六个计算装置(计算装置1702至计算装置1707)设置于片上网络处理系统1700的同一片上，将六个计算装置分为三组，计算装置1702和计算装置1703为第一计算装置组cluster1，计算装置1704和计算装置1705为第二计算装置组cluster2，计算装置1706和计算装置1707 为第三计算装置组cluster3，其中，cluster1、cluster2和cluster3均与存储装置1701连接，cluster1、 cluster2和cluster3三个计算装置组之间相互连接。计算装置1702至计算装置1707均与存储装置1701连接，cluster1中的计算装置1703与cluster2中的计算装置1704相互连接，cluster2 中的计算装置1704与cluster3中的计算装置1707相互连接，cluster1中的计算装置1702与 cluster3中的计算装置1706相互连接。

具体地，当cluster3需要读取数据时，可以由cluster2访问存储装置1701，从存储装置 1701中读取cluster3所需要的数据，由cluster2发送至cluster3；也可以由cluster1访问存储装置1701，从存储装置1701中读取cluster3所需要的数据，由cluster1将该数据直接发送至 cluster3。多个计算装置可以分为多个组，且每组计算装置数目不做具体限制，优选为一组包括四个计算装置。

可选的，多个计算装置中不要求所有计算装置均与存储装置1701连接，只要两个计算装置组中至少一个计算装置组与存储装置1701连接即可，在此不做具体限定。可选的，cluster1 的每一个计算装置均可以与第二单元组和cluster3建立连接，只需保证cluster1中至少一个计算装置与cluster2和cluster3中的至少一个计算装置连接即可，在此不做具体限定。可选的， cluster1中的任意一个计算装置可以与cluster2和cluster3中的任意一个计算装置相互连接，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置组之间建立直接连接，能够提高数据的读写效率。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：存储装置和多个计算装置组，所述存储装置和多个所述计算装置组设置于同一片上，每一计算装置组包括多个计算装置，所述多个计算装置组中至少一个计算装置组与所述存储装置连接，且至少两个计算装置组相互连接，每一所述计算装置组中的多个计算装置相互连接。

如图8所示，为其中一个实施例提供的一种片上网络处理系统1800，片上网络处理系统 1800包括：存储装置1801和六个计算装置(计算装置1802至计算装置1807)，存储装置1801 和六个计算装置(计算装置1802至计算装置1807)设置于片上网络处理系统1800的同一片上，将六个计算装置分为两组，计算装置1802、计算装置1803和计算装置1804为第一计算装置组cluster1，计算装置1805、计算装置1806和计算装置1807为第二计算装置组cluster2，其中，cluster1和cluster2均与存储装置1801连接，cluster1和cluster2之间相互连接，且cluster1 中的三个计算装置之间相互连接，cluster2中的三个计算装置之间相互连接。计算装置1802 至计算装置1807均与存储装置1801连接，cluster1中的计算装置1802与cluster2中的计算装置1805相互连接，计算装置1803与计算装置1802和计算装置1804相互连接，计算装置1806 与计算装置1805和计算装置1807相互连接。其中，每一计算装置组的多个计算装置之间的连接方式可参见片上网络处理系统1100至片上网络处理系统1400的连接方式，在此不再赘述。

具体地，当cluster2需要读取数据时，可以直接访问存储装置1801；也可以由cluster1 访问存储装置1801，从存储装置1801中读取cluster2所需要的数据，由cluster1将该数据发送至cluster2；同时第二计算装置也可以在组内进行数据传输。当cluster2需要读取数据时， cluster2中的计算装置1805、计算装置1806和计算装置1807可以同时访问存储装置1801，其中，计算装置1805、计算装置1806和计算装置1807分别读取cluster2所需要的一部分数据，这些数据可以在cluster2内进行传输。多个计算装置可以分为多个组，且每组计算装置数目不做具体限制，优选为一组包括四个计算装置。

可选的，多个计算装置中不要求所有计算装置均与存储装置1801连接，只要两个计算装置组中至少一个计算装置组与存储装置1801连接即可，在此不做具体限定。可选的，cluster1 的每一个计算装置均可以与第二单元组建立连接，只需保证cluster1中至少一个计算装置与 cluster2中的至少一个计算装置连接即可，在此不做具体限定。可选的，cluster1中的任意一个计算装置可以与cluster2中的任意一个计算装置相互连接，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个计算装置组之间建立连接，同时每一计算装置组中多个计算装置之间建立连接，从而使多个计算装置之间既能够实现组内通信，又能够实现组间通信，该系统能够减少访存的能耗开销，提高数据读取的效率。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：多个片上网络处理模块相互连接，所述多个片上网络处理模块设置于同一片上，每一片上网络处理模块包括：至少一个存储装置和多个计算装置，其中，每一片上网络处理模块中，至少一个计算装置与所述网络处理模块内部的至少一个存储装置连接，且所述多个计算装置中至少两个计算装置之间相互连接。

在一个实施例中，提供了一种神经网络芯片，该芯片包括多个片上网络处理模块相互连接，每一片上网络处理模块包括：至少一个存储装置、多个计算装置、第一互联装置以及第二互联装置，其中，每一片上网络处理模块中，至少一个计算装置与所述片上网络处理模块内部的至少一个存储装置通过所述第一互联装置连接，所述多个计算装置之间通过所述第二互联装置连接。进一步，计算装置可以通过第一互联装置实现对其所在片上网络处理模块内部的存储装置的读写操作，多个计算装置之间还可以通过第二互联装置进行数据传输。

如图9所示，为其中一个实施例提供的一种片上网络处理系统1900，片上网络处理系统 1900包括四个片上网络处理模块相互连接，所述四个片上网络处理模块设置于片上网络处理系统1900的同一片上，每一片上网络处理模块包括：一个存储装置1901和四个计算装置(计算装置1902至计算装置1905)，其中，每一片上网络处理模块中，计算装置1902与其片上网络处理模块内部的存储装置1901连接，且每一片上网络处理模块内部的四个计算装置之间相互连接。

具体地，每一片上网络处理模块所需要处理的数据都存放在该片上网络处理模块内部的存储装置中，也就是说，每一片上网络处理模块中的多个计算装置只能访问所在片上网络处理模块内部的存储装置，只能从所在片上网络处理模块内部的存储装置进行数据读写。

可选的，每一片上网络处理模块中的存储装置数目不限于一个，可以是两个、三个或多个，在此不做具体限定，优选为四个。可选的，每一片上网络处理模块中，所述多个计算装置相互连接形成计算装置网络，每一片上网络处理模块中的多个计算装置之间的连接方式可参见片上网络处理系统1100至片上网络处理系统1400的连接方式，在此不再赘述。可选的，每一片上网络处理模块中的多个计算装置中不要求所有计算装置均与存储装置1901连接，只要每一片上网络处理模块中至少一个计算装置与存储装置1901连接即可，在此不做具体限定。

可选的，每一片上网络处理模块中的每一个计算装置均可以与另一片上网络处理模块建立连接，只需保证每一片上网络处理模块中至少一个计算装置与另一片上网络处理模块中的至少一个计算装置连接即可，在此不做具体限定。可选的，所述多个片上网络处理模块之间通过每一片上网络处理模块中的任意一个计算装置相互连接，也就是说，每一片上网络处理模块中的任意一个计算装置可以与另一片上网络处理模块中的任意一个计算装置相互连接，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个片上网络处理模块之间建立连接，同时每一片上网络处理模块中多个计算装置之间建立连接，从而使多个计算装置之间既能够实现模块内通信，又能够实现模块间通信，该系统能够减少访存的能耗开销，提高数据读取的效率；同时，设置于同一片上的多个片上网络处理模块之间采用多种连接方式建立模块间通信，通过在多个计算装置之间建立多条通信通道，根据当前网络拥堵情况选择一条最优通道进行数据传输，从而实现节约能耗，提高数据处理效率的效果。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：多个片上网络处理模块相互连接，所述多个片上网络处理模块设置于同一片上，每一片上网络处理模块包括多个存储装置，且所述片上网络处理模块中，至少一个计算装置与所述片上网络处理模块内部的所述多个存储装置连接，且所述多个计算装置中至少两个计算装置相互连接。

如图10a所示，为其中一个实施例提供的一种片上网络处理系统1910，片上网络处理系统1910包括四个片上网络处理模块相互连接，所述四个片上网络处理模块设置于片上网络处理系统1910的同一片上，每一片上网络处理模块包括：存储装置1911、存储装置1916和四个计算装置(计算装置1912至计算装置1915)，其中，每一片上网络处理模块中，计算装置 1912与其片上网络处理模块内部的存储装置1911和存储装置1916连接，且每一片上网络处理模块内部的四个计算装置之间相互连接。

具体地，每一片上网络处理模块所需要处理的数据都存放在该片上网络处理模块内部的存储装置中，也就是说，每一片上网络处理模块中的多个计算装置只能访问所在片上网络处理模块内部的存储装置，只能从所在片上网络处理模块内部的存储装置进行数据读写。每一片上网络处理模块中的至少一个计算装置与该片上网络处理模块中的所有存储装置建立连接，也就是说，每一片上网络处理模块中的计算装置可以访问该片上网络处理模块中的所有存储装置。其中，每一片上网络处理模块中的存储装置数目不限于两个，可以是三个、四个或多个，在此不做具体限定，优选为四个。

具体地，每一片上网络处理模块中的计算装置优先访问邻近的存储装置。其中，邻近的存储装置指的是与计算装置相连的多个存储装置中通信距离最短的存储装置，也就是说，通信距离最短的存储装置的访问优先级高于其他存储装置。

可选的，每一片上网络处理模块中，所述多个计算装置相互连接形成计算装置网络，每一片上网络处理模块中的多个计算装置之间的连接方式可参见片上网络处理系统1100至片上网络处理系统1400的连接方式，在此不再赘述。可选的，每一片上网络处理模块中的多个计算装置中不要求所有计算装置均与存储装置1911连接，只要每一片上网络处理模块中至少一个计算装置与存储装置1911连接即可，在此不做具体限定。

上述片上网络处理系统中，每一计算装置可以访问所在片上网络处理模块中的所有存储装置，能够提供多条通信通道进行数据传输，从而提高数据的读写效率；该系统中每一计算装置优先访问邻近的存储装置，能够在节省访存开销的同时保证一定的灵活性。

在其中一个实施例中，如图10b所示的片上网络处理系统19100，其中，每一片上网络处理模块所需要处理的数据都存放在该片上网络处理模块内部的存储装置中，也就是说，每一片上网络处理模块中的多个计算装置只能访问所在片上网络处理模块内部的存储装置，只能从所在片上网络处理模块内部的存储装置进行数据读写。每一片上网络处理模块中的至少一个计算装置与该片上网络处理模块中的所有存储装置建立连接，也就是说，每一片上网络处理模块中的计算装置可以访问该片上网络处理模块中的所有存储装置。其中，每一片上网络处理模块中的存储装置数目不限于两个，可以是三个、四个或多个，在此不做具体限定，优选为四个。

具体地，每一片上网络处理模块中，每一计算装置与第一通信距离的存储装置连接，其中，第一通信距离指的是，最短通信距离，也就是说，每一片上网络处理模块中的计算装置只能访问邻近的存储装置，即每一片上网络处理模块中的计算装置只能访问与其通信距离最短的存储装置。例如，计算装置19120只能访问邻近的存储装置19110，而无法访问存储装置19160；计算装置19130只能访问邻近的存储装置19160，而无法访问存储装置19110，当计算装置19120需要读取的数据存储在存储装置19160时，需先通过计算装置19130从存储装置19160中读取该数据，再由计算装置19130将该数据传输至计算装置19120。

可选的，每一片上网络处理模块中，所述多个计算装置相互连接形成计算装置网络，每一片上网络处理模块中的多个计算装置之间的连接方式可参见片上网络处理系统1100至片上网络处理系统1400的连接方式，在此不再赘述。可选的，每一片上网络处理模块中的多个计算装置中不要求所有计算装置均与存储装置19110连接，只要每一片上网络处理模块中至少一个计算装置与存储装置19110连接即可，在此不做具体限定。

上述片上网络处理系统中，每一计算装置可以访问所在片上网络处理模块中的所有存储装置，能够提供多条通信通道进行数据传输，从而提高数据的读写效率；该系统中每一计算装置仅能访问邻近的存储装置，能够最大化的节省访存开销。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：任意两个片上网络处理模块之间直接连接，任意两个网络处理模块设置于同一片上，每一片上网络处理模块包括：至少一个存储装置和多个计算装置，其中，每一片上网络处理模块中，至少一个计算装置与所述网络处理模块内部的至少一个存储装置连接，且所述多个计算装置中至少两个计算装置相互连接。

如图11所示，为其中一个实施例提供的一种片上网络处理系统1920，片上网络处理系统1920包括四个片上网络处理模块相互连接，所述四个片上网络处理模块设置于片上网络处理系统1920的同一片上，所述四个片上网络处理模块中的任意两个片上网络处理模块之间直接连接，每一片上网络处理模块包括：一个存储装置1921和四个计算装置(计算装置1922 至计算装置1925)，其中，每一片上网络处理模块中，计算装置1922与其片上网络处理模块内部的存储装置1921连接，且每一片上网络处理模块内部的四个计算装置之间相互连接。

可选的，每一片上网络处理模块中的存储装置数目不限于一个，可以是两个、三个或多个，在此不做具体限定，优选为四个。可选的，每一片上网络处理模块中，所述多个计算装置相互连接形成计算装置网络，每一片上网络处理模块中的多个计算装置之间的连接方式可参见片上网络处理系统1100至片上网络处理系统1400的连接方式，在此不再赘述。可选的，每一片上网络处理模块中的多个计算装置中不要求所有计算装置均与存储装置1921连接，只要每一片上网络处理模块中至少一个计算装置与存储装置1921连接即可，在此不做具体限定。

上述片上网络处理系统中，通过在设置于同一片上的多个片上网络处理模块之间建立连接，同时每一片上网络处理模块中多个计算装置之间建立连接，从而使多个计算装置之间能够实现模块内通信，同时使任意两个片上网络处理模块之间能够实现模块间直接通信，该系统能够减少同时读取存储装置接口的计算装置，减少带宽阻塞，通过模块间的数据传输，提高数据读写的效率。

在一个实施例中，提供了一种片上网络处理系统，该系统包括：任意两个片上网络处理模块之间直接连接，任意两个网络处理模块设置于同一片上，每一片上网络处理模块包括多个存储装置，且所述片上网络处理模块中，至少一个计算装置与所述片上网络处理模块内部的所述多个存储装置连接，且所述多个计算装置中至少两个计算装置相互连接。

如图12所示，为其中一个实施例提供的一种片上网络处理系统1930，片上网络处理系统1930包括四个片上网络处理模块相互连接，所述四个片上网络处理模块设置于片上网络处理系统1930的同一片上，所述四个片上网络处理模块中的任意两个片上网络处理模块之间直接连接，每一片上网络处理模块包括：存储装置1931、存储装置1936和四个计算装置(计算装置1932至计算装置1935)，其中，每一片上网络处理模块中，计算装置1932与其片上网络处理模块内部的存储装置1931和存储装置1936连接，且每一片上网络处理模块内部的四个计算装置之间相互连接。

具体地，每一片上网络处理模块所需要处理的数据都存放在该片上网络处理模块内部的存储装置中，也就是说，每一片上网络处理模块中的多个计算装置只能访问所在片上网络处理模块内部的存储装置，只能从所在片上网络处理模块内部的存储装置进行数据读写。每一片上网络处理模块中的计算装置优先访问邻近的存储装置。

可选的，每一片上网络处理模块中的存储装置数目不限于两个个，可以是三个、四个或多个，在此不做具体限定，优选为四个。具体地，每一片上网络处理模块中的至少一个计算装置与该片上网络处理模块中的所有存储装置建立连接，也就是说，每一片上网络处理模块中的计算装置可以访问该片上网络处理模块中的所有存储装置。

可选的，每一片上网络处理模块中，所述多个计算装置相互连接形成计算装置网络，每一片上网络处理模块中的多个计算装置之间的连接方式可参见片上网络处理系统1100至片上网络处理系统1400的连接方式，在此不再赘述。可选的，每一片上网络处理模块中的多个计算装置中不要求所有计算装置均与存储装置1931连接，只要每一片上网络处理模块中至少一个计算装置与存储装置1931连接即可，在此不做具体限定。

上述片上网络处理系统中，每一计算装置可以访问所在片上网络处理模块中的所有存储装置，同时任意两个片上网络处理模块之间能够实现模块间直接通信，该系统能够提供多条通信通道进行数据传输，从而提高数据的读写效率；该系统中每一计算装置优先访问邻近的存储装置，能够在节省访存开销的同时保证一定的灵活性。

在其中一个实施例中，如图13所示，片上网络处理系统的计算装置可以用于执行机器学习计算，该计算装置包括：控制器单元11和运算单元12，其中，控制单元11和运算单元12 连接，该运算单元11包括：一个主处理电路和多个从处理电路；

控制器单元11，用于获取输入数据以及计算指令；在一种可选方案中，具体的，获取输入数据以及计算指令方式可以通过数据输入输出单元得到，该数据输入输出单元具体可以为一个或多个数据I/O接口或I/O引脚。

上述计算指令包括但不限于：正向运算指令或反向训练指令，或其他神经网络运算指令等等，例如卷积运算指令，本申请具体实施方式并不限制上述计算指令的具体表现形式。

控制器单元11，还用于解析该计算指令得到多个运算指令，将该多个运算指令以及所述输入数据发送给所述主处理电路；

主处理电路101，用于对所述输入数据执行前序处理以及与所述多个从处理电路之间传输数据以及运算指令；

多个从处理电路102，用于依据从所述主处理电路传输的数据以及运算指令并行执行中间运算得到多个中间结果，并将多个中间结果传输给所述主处理电路；

主处理电路101，用于对所述多个中间结果执行后续处理得到所述计算指令的计算结果。

本申请提供的技术方案将运算单元设置成一主多从结构，对于正向运算的计算指令，其可以将依据正向运算的计算指令将数据进行拆分，这样通过多个从处理电路即能够对计算量较大的部分进行并行运算，从而提高运算速度，节省运算时间，进而降低功耗。

可选的，上述计算装置还可以包括：该存储单元10和直接内存访问单元50，存储单元 10可以包括：寄存器、缓存中的一个或任意组合，具体的，所述缓存，用于存储所述计算指令；所述寄存器，用于存储所述输入数据和标量；所述缓存为高速暂存缓存。直接内存访问单元50用于从存储单元10读取或存储数据。

可选的，该控制器单元包括：指令存储单元110、指令处理单元111和存储队列单元113；

指令存储单元110，用于存储人工神经网络运算关联的计算指令；

所述指令处理单元111，用于对所述计算指令解析得到多个运算指令；

存储队列单元113，用于存储指令队列，该指令队列包括：按该队列的前后顺序待执行的多个运算指令和/或计算指令。

举例说明，在一个可选的技术方案中，主运算处理电路也可以包括一个控制器单元，该控制器单元可以包括主指令处理单元，具体用于将指令译码成微指令。当然在另一种可选方案中，从运算处理电路也可以包括另一个控制器单元，该另一个控制器单元包括从指令处理单元，具体用于接收并处理微指令。上述微指令可以为指令的下一级指令，该微指令可以通过对指令的拆分或解码后获得，能被进一步解码为各部件、各单元或各处理电路的控制信号。

在一种可选方案中，该计算指令的结构可以如表1所示。

表1

操作码

寄存器或立即数

寄存器/立即数

...

上表中的省略号表示可以包括多个寄存器或立即数。

在另一种可选方案中，该计算指令可以包括：一个或多个操作域以及一个操作码。该计算指令可以包括神经网络运算指令。以神经网络运算指令为例，如表2所示，其中，寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以为操作域。其中，每个寄存器号0、寄存器号1、寄存器号2、寄存器号3、寄存器号4可以是一个或者多个寄存器的号码。

表2

上述寄存器可以为片外存储器，当然在实际应用中，也可以为片内存储器，用于存储数据，该数据具体可以为n维数据，n为大于等于1的整数，例如，n＝1时，为1维数据，即向量，如n＝2时，为2维数据，即矩阵，如n＝3或3以上时，为多维张量。

可选的，该控制器单元还可以包括：

所述依赖关系处理单元112，用于在具有多个运算指令时，确定第一运算指令与所述第一运算指令之前的第零运算指令是否存在关联关系，如所述第一运算指令与所述第零运算指令存在关联关系，则将所述第一运算指令缓存在所述指令存储单元内，在所述第零运算指令执行完毕后，从所述指令存储单元提取所述第一运算指令传输至所述运算单元；

所述确定该第一运算指令与第一运算指令之前的第零运算指令是否存在关联关系包括：

依据所述第一运算指令提取所述第一运算指令中所需数据(例如矩阵)的第一存储地址区间，依据所述第零运算指令提取所述第零运算指令中所需矩阵的第零存储地址区间，如所述第一存储地址区间与所述第零存储地址区间具有重叠的区域，则确定所述第一运算指令与所述第零运算指令具有关联关系，如所述第一存储地址区间与所述第零存储地址区间不具有重叠的区域，则确定所述第一运算指令与所述第零运算指令不具有关联关系。

在另一种可选实施例中，运算单元12如图14所示，可以包括一个主处理电路101和多个从处理电路102。在一个实施例里，如图14所示，多个从处理电路呈阵列分布；每个从处理电路与相邻的其他从处理电路连接，主处理电路连接所述多个从处理电路中的k个从处理电路，所述k个从处理电路为：第1行的n个从处理电路、第m行的n个从处理电路以及第 1列的m个从处理电路，需要说明的是，如图14所示的K个从处理电路仅包括第1行的n 个从处理电路、第m行的n个从处理电路以及第1列的m个从处理电路，即该k个从处理电路为多个从处理电路中直接与主处理电路连接的从处理电路。

k个从处理电路，用于在所述主处理电路以及多个从处理电路之间的数据以及指令的转发。

可选的，如图15所示，该主处理电路还可以包括：转换处理电路110、激活处理电路111、加法处理电路112中的一种或任意组合；

转换处理电路110，用于将主处理电路接收的数据块或中间结果执行第一数据结构与第二数据结构之间的互换(例如连续数据与离散数据的转换)；或将主处理电路接收的数据块或中间结果执行第一数据类型与第二数据类型之间的互换(例如定点类型与浮点类型的转换)；

激活处理电路111，用于执行主处理电路内数据的激活运算；

加法处理电路112，用于执行加法运算或累加运算。

所述主处理电路，用于确定所述输入神经元为广播数据，权值为分发数据，将分发数据分配成多个数据块，将所述多个数据块中的至少一个数据块以及多个运算指令中的至少一个运算指令发送给所述从处理电路；

所述多个从处理电路，用于依据该运算指令对接收到的数据块执行运算得到中间结果，并将运算结果传输给所述主处理电路；

所述主处理电路，用于将多个从处理电路发送的中间结果进行处理得到该计算指令的结果，将该计算指令的结果发送给所述控制器单元。

所述从处理电路包括：乘法处理电路；

所述乘法处理电路，用于对接收到的数据块执行乘积运算得到乘积结果；

转发处理电路(可选的)，用于将接收到的数据块或乘积结果转发。

累加处理电路，所述累加处理电路，用于对该乘积结果执行累加运算得到该中间结果。

另一个实施例里，该运算指令为矩阵乘以矩阵的指令、累加指令、激活指令等等计算指令。

下面通过神经网络运算指令来说明如图1所示的计算装置的具体计算方法。对于神经网络运算指令来说，其实际需要执行的公式可以为：s＝s(∑wx_i+b)，其中，即将权值w乘以输入数据x_i，进行求和，然后加上偏置b后做激活运算s(h)，得到最终的输出结果s。

在一种可选的实施方案中，如图16所示，所述运算单元包括：树型模块40，所述树型模块包括：一个根端口401和多个支端口404，所述树型模块的根端口连接所述主处理电路，所述树型模块的多个支端口分别连接多个从处理电路中的一个从处理电路；

上述树型模块具有收发功能，例如如图16所示，该树型模块即为发送功能，如图17所示，该树型模块即为接收功能。

所述树型模块，用于转发所述主处理电路与所述多个从处理电路之间的数据块、权值以及运算指令。

可选的，该树型模块为计算装置的可选择结果，其可以包括至少1层节点，该节点为具有转发功能的线结构，该节点本身可以不具有计算功能。如树型模块具有零层节点，即无需该树型模块。

可选的，该树型模块可以为n叉树结构，例如，如图18所示的二叉树结构，当然也可以为三叉树结构，该n可以为大于等于2的整数。本申请具体实施方式并不限制上述n的具体取值，上述层数也可以为2，从处理电路可以连接除倒数第二层节点以外的其他层的节点，例如可以连接如图18所示的倒数第一层的节点。

可选的，上述运算单元可以携带单独的缓存，如图19所示，可以包括：神经元缓存单元，该神经元缓存单元63缓存该从处理电路的输入神经元向量数据和输出神经元值数据。

如图20所示，该运算单元还可以包括：权值缓存单元64，用于缓存该从处理电路在计算过程中需要的权值数据。

在一种可选实施例中，运算单元12如图21所示，可以包括分支处理电路103；其具体的连接结构如图21所示，其中，

主处理电路101与分支处理电路103(一个或多个)连接，分支处理电路103与一个或多个从处理电路102连接；

分支处理电路103，用于执行转发主处理电路101与从处理电路102之间的数据或指令。

本申请还揭露了一个神经网络运算装置，其包括一个或多个在本申请中提到的计算装置，用于从其他处理装置中获取待运算数据和控制信息，执行指定的机器学习运算，执行结果通过I/O接口传递给外围设备。外围设备譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口，服务器。当包含一个以上计算装置时，计算装置间可以通过特定的结构进行链接并传输数据，譬如，通过PCIE总线进行互联并传输数据，以支持更大规模的机器学习的运算。此时，可以共享同一控制系统，也可以有各自独立的控制系统；可以共享内存，也可以每个加速器有各自的内存。此外，其互联方式可以是任意互联拓扑。

该神经网络运算装置具有较高的兼容性，可通过PCIE接口与各种类型的服务器相连接。

本申请还揭露了一个组合处理装置，其包括上述的神经网络运算装置，通用互联接口，和其他处理装置。神经网络运算装置与其他处理装置进行交互，共同完成用户指定的操作。图22为组合处理装置的示意图。

其他处理装置，包括中央处理器CPU、图形处理器GPU、神经网络处理器等通用/专用处理器中的一种或以上的处理器类型。其他处理装置所包括的处理器数量不做限制。其他处理装置作为神经网络运算装置与外部数据和控制的接口，包括数据搬运，完成对本神经网络运算装置的开启、停止等基本控制；其他处理装置也可以和神经网络运算装置协作共同完成运算任务。

通用互联接口，用于在所述神经网络运算装置与其他处理装置间传输数据和控制指令。该神经网络运算装置从其他处理装置中获取所需的输入数据，写入神经网络运算装置片上的存储装置；可以从其他处理装置中获取控制指令，写入神经网络运算装置片上的控制缓存；也可以读取神经网络运算装置的存储模块中的数据并传输给其他处理装置。

可选的，该结构如图23所示，还可以包括存储装置，存储装置分别与所述神经网络运算装置和所述其他处理装置连接。存储装置用于保存在所述神经网络运算装置和所述其他处理装置的数据，尤其适用于所需要运算的数据在本神经网络运算装置或其他处理装置的内部存储中无法全部保存的数据。

该组合处理装置可以作为手机、机器人、无人机、视频监控设备等设备的SOC片上系统，有效降低控制部分的核心面积，提高处理速度，降低整体功耗。此情况时，该组合处理装置的通用互联接口与设备的某些部件相连接。某些部件譬如摄像头，显示器，鼠标，键盘，网卡，wifi接口。

在一些实施例里，还申请了一种芯片，其包括了上述神经网络运算装置或组合处理装置。

在一些实施例里，申请了一种芯片封装结构，其包括了上述芯片。

在一些实施例里，申请了一种板卡，其包括了上述芯片封装结构。参阅图24，图24提供了一种板卡，上述板卡除了包括上述芯片389以外，还可以包括其他的配套部件，该配套部件包括但不限于：存储器件390、接口装置391和控制器件392；

所述存储器件390与所述芯片封装结构内的芯片通过总线连接，用于存储数据。所述存储器件可以包括多组存储单元393。每一组所述存储单元与所述芯片通过总线连接。可以理解，每一组所述存储单元可以是DDR SDRAM(Double Data Rate SDRAM，双倍速率同步动态随机存储器)。

DDR不需要提高时钟频率就能加倍提高SDRAM的速度。DDR允许在时钟脉冲的上升沿和下降沿读出数据。DDR的速度是标准SDRAM的两倍。在一个实施例中，所述存储装置可以包括4组所述存储单元。每一组所述存储单元可以包括多个DDR4颗粒(芯片)。在一个实施例中，所述芯片内部可以包括4个72位DDR4控制器，上述72位DDR4控制器中64bit 用于传输数据，8bit用于ECC校验。可以理解，当每一组所述存储单元中采用DDR4-31200 颗粒时，数据传输的理论带宽可达到251600MB/s。

在一个实施例中，每一组所述存储单元包括多个并联设置的双倍速率同步动态随机存储器。DDR在一个时钟周期内可以传输两次数据。在所述芯片中设置控制DDR的控制器，用于对每个所述存储单元的数据传输与数据存储的控制。

所述接口装置与所述芯片封装结构内的芯片电连接。所述接口装置用于实现所述芯片与外部设备(例如服务器或计算机)之间的数据传输。例如在一个实施例中，所述接口装置可以为标准PCIE接口。比如，待处理的数据由服务器通过标准PCIE接口传递至所述芯片，实现数据转移。优选的，当采用PCIE 3.0 X 16接口传输时，理论带宽可达到116000MB/s。在另一个实施例中，所述接口装置还可以是其他的接口，本申请并不限制上述其他的接口的具体表现形式，所述接口单元能够实现转接功能即可。另外，所述芯片的计算结果仍由所述接口装置传送回外部设备(例如服务器)。

所述控制器件与所述芯片电连接。所述控制器件用于对所述芯片的状态进行监控。具体的，所述芯片与所述控制器件可以通过SPI接口电连接。所述控制器件可以包括单片机(Micro Controller Unit，MCU)。如所述芯片可以包括多个处理芯片、多个处理核或多个处理电路，可以带动多个负载。因此，所述芯片可以处于多负载和轻负载等不同的工作状态。通过所述控制装置可以实现对所述芯片中多个处理芯片、多个处理和或多个处理电路的工作状态的调控。

在一些实施例里，申请了一种电子设备，其包括了上述板卡。

电子设备包括数据处理装置、机器人、电脑、打印机、扫描仪、平板电脑、智能终端、手机、行车记录仪、导航仪、传感器、摄像头、服务器、云端服务器、相机、摄像机、投影仪、手表、耳机、移动存储、可穿戴设备、交通工具、家用电器、和/或医疗设备。

所述交通工具包括飞机、轮船和/或车辆；所述家用电器包括电视、空调、微波炉、冰箱、电饭煲、加湿器、洗衣机、电灯、燃气灶、油烟机；所述医疗设备包括核磁共振仪、B超仪和/或心电图仪。

在一个实施例中，如图25所示，提供了一种片上网络数据处理方法，该方法包括以下步骤：

步骤202，通过第一计算装置访问存储装置，获取第一运算数据。

其中，第一计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，第一计算装置中的控制器单元从存储装置中获取第一运算数据以及计算指令。

步骤204，通过所述第一计算装置对所述第一运算数据进行运算，得到第一运算结果。

其中，将从存储装置中读取的第一运算数据，根据相应的计算指令在第一计算装置中进行运算，得到第一运算结果。

步骤206，将所述第一运算结果发送至第二计算装置。

其中，第一计算装置通过与第二计算装置之间建立的通信通道，通过第一计算装置中的控制器单元将第一运算结果发送至第二计算装置。可选的，可以将第一运算结果发送至第二计算装置，也可以将第一运算结果发送至存储装置。

进一步，本实施例提供的片上网络数据处理方法，可以应用于如图1-5所示的任意一个片上网络处理系统中。

上述片上网络数据处理方法，通过将第一计算装置中的第一运算结果发送至第二计算装置，能够实现多个计算装置之间的数据传输；同时，通过对运算数据的复用，能够避免计算装置多次访问存储装置造成的带宽开销过大，该方法能够使运算数据以及中间运算结果得到合理的利用，提高了数据处理的效率。

在其中一个实施例中，如图26所示，提供了一种片上网络数据处理方法，该方法包括以下步骤：

步骤302，通过第一计算装置访问存储装置，获取第一运算数据。

其中，计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，第一计算装置中的控制器单元从存储装置中获取第一运算数据以及计算指令。

步骤304，通过所述第一计算装置对所述第一运算数据进行运算，得到第一运算结果。

步骤306，将所述第一运算结果发送至第二计算装置。

其中，第一计算装置通过与第二计算装置之间建立的通信通道，通过第一计算装置中的控制器单元将第一运算结果发送至第二计算装置。

步骤308，通过所述第二计算装置访问所述存储装置，获取第二运算数据。

其中，第二计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，第二计算装置中的控制器单元从存储装置中获取第二运算数据以及计算指令。

步骤310，通过所述第二计算装置将所述第二运算数据和所述第一运算结果进行运算，得到第二运算结果。

其中，将从存储装置中读取的第二运算数据和从第一计算装置中接收的第一运算结果，根据相应的计算指令在第一计算装置中进行运算，得到第二运算结果。

上述片上网络数据处理方法，通过将第一计算装置中的第一运算结果发送至第二计算装置，第二计算装置利用该第一运算结果进行再次运算，能够实现运算数据的复用，该方法能够使运算数据以及中间运算结果得到合理的利用，提高了数据处理的效率。

在其中一个实施例中，将如图26所示的片上网络数据处理方法应用于如图9所示的片上网络处理系统1900，其中，计算装置1902至计算装置1905均与其所在片上网络处理模块中的存储装置1901连接，且计算装置1902至计算装置1905中任意两个计算装置之间直接连接。

例如，计算一个矩阵乘法，矩阵

矩阵

计算矩阵C＝A*

其中，对于c₀₀＝a₀₀*b₀₀+a₀₁*b₁₀；

c₀₁＝a₀₀*b₀₁+a₀₁*b₁₁；

c₁₀＝a₁₀*b₀₀+a₁₁*b₁₀；

c₁₁＝a₁₀*b₀₁+a₁₁*b₁₁。

首先，将时间进行划分，得到三个时间段。

接着，在第一时间段，计算装置1902至计算装置1905同时访问其所在片上网络处理模块中的存储装置1901。

具体地，计算装置1902从存储装置1901中读取第一运算数据a₀₀和b₀₀；计算装置1903 从存储装置1901中读取第一运算数据a₀₁和b₁₁；计算装置1904从存储装置1901中读取第一运算数据a₁₁和b₁₀；计算装置1905从存储装置1901中读取第一运算数据a₁₀和b₀₁。

进一步，在计算装置1902中对读取到的第一运算数据a₀₀和b₀₀进行运算，得到第一运算结果a₀₀*b₀₀；在计算装置1903中对读取到的第一运算数据a₀₁和b₁₁进行运算，得到第一运算结果a₀₁*b₁₁；在计算装置1904中对读取到的第一运算数据a₁₁和b₁₀进行运算，得到第一运算结果a₁₁*b₁₀；在计算装置1905中对读取到的第一运算数据a₁₀和b₀₁进行运算，得到第一运算结果a₁₀*b₀₁。

接着，在第二时间段，计算装置1902分别从计算装置1903中读取第一运算数据a₀₁，和计算装置1904中读取第一运算数据b₁₀，通过运算得到第二运算结果a₀₁*b₁₀；计算装置1903 分别从计算装置1902中读取第一运算数据a₀₀，和计算装置1905中读取第一运算数据b₀₁，通过运算得到第二运算结果a₀₀*b₀₁；计算装置1904分别从计算装置1905中读取第一运算数据a₁₀，和计算装置1902中读取第一运算数据b₀₀，通过运算得到第二运算结果a₁₀*b₀₀；计算装置1905分别从计算装置1904中读取第一运算数据a₁₁，和计算装置1903中读取第一运算数据b₁₁，通过运算得到第二运算结果a₁₁*b₁₁。

接着，在第三时间段，计算装置1902将第一运算结果a₀₀*b₀₀和第二运算结果a₀₁*b₁₀进行运算，得到第三运算结果c₀₀＝a₀₀*b₀₀+a₀₁*b₁₀，并将第三运算结果c₀₀发送至存储装置1901；计算装置1903将第一运算结果a₀₁*b₁₁和第二运算结果a₀₀*b₀₁进行运算，得到第三运算结果c₀₁＝a₀₀*b₀₁+a₀₁*b₁₁，并将第三运算结果c₀₁发送至存储装置1901；计算装置1904将第一运算结果a₁₁*b₁₀和第二运算结果a₁₀*b₀₀进行运算，得到第三运算结果c₁₀＝a₁₀*b₀₀+a₁₁*b₁₀，并将第三运算结果c₁₀发送至存储装置1901；计算装置1905 将第一运算结果a₁₀*b₀₁和第二运算结果a₁₁*b₁₁进行运算，得到第三运算结果c₁₁＝a₁₀*b₀₁+a₁₁*b₁₁，并将第三运算结果c₁₁发送至存储装置1901。

在其中一个实施例中，如图27所示，提供了一种片上网络数据处理方法，该方法包括以下步骤：

步骤402，通过第一计算装置组访问存储装置，获取第一运算数据，其中，所述第一计算装置组包括多个第一计算装置。

其中，第一计算装置组cluster1中的每一第一计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，cluster1中的控制器单元从存储装置中获取第一运算数据以及计算指令。

可选的，cluster1中的多个第一计算装置同时访问存储装置，每一第一计算装置从存储装置中读取cluster1所需要的一部分数据，这些数据在cluster1内进行数据传输。可选的，指定 cluster1中的一个或多个第一计算装置可以访问存储装置，其余第一计算装置仅能进行组内通信。

步骤404，通过所述第一计算装置组对所述多个第一运算数据进行运算，得到第一运算结果。

其中，多个第一运算数据根据相应的计算指令在多个第一计算装置之间进行运算、转发，得到第一运算结果。

步骤406，将所述第一运算结果发送至第二计算装置组。

其中，cluster1通过与第二计算装置组cluster2之间建立的通信通道，通过cluster1中的控制器单元将第一运算结果发送至cluster2。

可选的，可以将第一运算结果发送至cluster2，也可以将第一运算结果发送至存储装置。可选的，通过cluster1中任意一个与cluster2之间建立的通信通道的第一计算装置，将第一运算结果发送至cluster2。可选的，cluster1可以将第一运算结果发送至cluster2中任意一个与 cluster1之间建立通信通道的第二计算装置。

进一步，本实施例提供的片上网络数据处理方法，可以应用于如图6-8所示的任意一个片上网络处理系统中。

上述片上网络数据处理方法，多个计算装置组之间既能实现组内通信，又能实现组间数据传输，该方法能够使运算数据以及中间运算结果得到合理的利用，提高了数据处理的效率。

在其中一个实施例中，如图28所示，提供了一种片上网络数据处理方法，该方法包括以下步骤：

步骤502，通过第一计算装置组访问存储装置，获取第一运算数据，其中，所述第一计算装置组包括多个第一计算装置。

步骤504，通过所述第一计算装置组对所述多个第一运算数据进行运算，得到第一运算结果。

步骤506，将所述第一运算结果发送至第二计算装置组。

可选的，通过cluster1中任意一个与cluster2之间建立的通信通道的第一计算装置，将第一运算结果发送至cluster2。可选的，cluster1可以将第一运算结果发送至cluster2中任意一个与cluster1之间建立通信通道的第二计算装置。

步骤508，通过所述第二计算装置组访问所述存储装置，获取第二运算数据，其中，所述第二计算装置组包括多个第二计算装置。

其中，cluster2中的每一第二计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，cluster2中的控制器单元从存储装置中获取第二运算数据以及计算指令。

可选的，cluster2中的多个第二计算装置同时访问存储装置，每一第二计算装置从存储装置中读取cluster2所需要的一部分数据，这些数据在cluster2内进行数据传输。可选的，指定 cluster2中的一个或多个第二计算装置可以访问存储装置，其余第二计算装置仅能进行组内通信。

步骤510，通过所述第二计算装置组将所述第二运算数据和所述第一运算结果进行运算，得到第二运算结果。

其中，将从存储装置中读取的第二运算数据和从第一计算装置组中接收的第一运算结果，根据相应的计算指令在多个第二计算装置之间进行运算、转发，得到第二运算结果。

上述片上网络数据处理方法，通过将第一计算装置组中的第一运算结果发送至第二计算装置组，第二计算装置组利用该第一运算结果进行再次运算，能够实现运算数据的复用，该方法能够使运算数据以及中间运算结果得到合理的利用，提高了数据处理的效率。

在其中一个实施例中，如图29所示，提供了一种片上网络数据处理方法，该方法包括以下步骤：

步骤602，通过第一片上网络处理模块获取第一运算数据，其中，所述第一片上网络处理模块包括第一存储装置以及多个第一计算装置，所述第一运算数据存储于所述第一存储装置中。

其中，第一片上网络处理模块中的每一第一计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，第一片上网络处理模块中的控制器单元从第一存储装置中获取第一运算数据以及计算指令。

可选的，第一片上网络处理模块中的多个第一计算装置同时访问第一存储装置，每一第一计算装置从第一存储装置中读取该第一片上网络处理模块所需要的一部分数据，这些数据在第一片上网络处理模块内进行数据传输。

可选的，指定第一片上网络处理模块中的一个或多个第一计算装置可以访问第一存储装置，其余第一计算装置仅能进行组内通信。具体地，第一片上网络处理模块所需要处理的运算数据均存储于第一存储装置中。

步骤604，通过所述第一片上网络处理模块中的多个第一计算装置，对所述第一运算数据进行运算，得到第一运算结果。

步骤606，将所述第一运算结果发送至第二片上网络处理模块。

其中，第一片上网络处理模块通过与第二片上网络处理模块之间建立的通信通道，通过第一片上网络处理模块中的控制器单元将第一运算结果发送至第二片上网络处理模块。

可选的，可以将第一运算结果发送至第二片上网络处理模块，也可以将第一运算结果发送至第一存储装置。可选的，通过第一片上网络处理模块中任意一个与第二片上网络处理模块之间建立的通信通道的第一计算装置，将第一运算结果发送至第二片上网络处理模块。可选的，第一片上网络处理模块可以将第一运算结果发送至第二片上网络处理模块中任意一个与第一片上网络处理模块之间建立通信通道的第二计算装置。

进一步，本实施例提供的片上网络数据处理方法，可以应用于如图9-12所示的任意一个片上网络处理系统中。

上述片上网络数据处理方法，多个片上网络处理模块之间既能实现模块内通信，又能实现模块间数据传输，该方法能够使运算数据以及中间运算结果得到合理的利用，提高了数据处理的效率。

在其中一个实施例中，如图30所示，提供了一种片上网络数据处理方法，该方法包括以下步骤：

步骤702，通过第一片上网络处理模块获取第一运算数据，其中，所述第一片上网络处理模块包括第一存储装置以及多个第一计算装置，所述第一运算数据存储于所述第一存储装置中。

步骤704，通过所述第一片上网络处理模块中的多个第一计算装置，对所述第一运算数据进行运算，得到第一运算结果。

步骤706，将所述第一运算结果发送至第二片上网络处理模块。

可选的，通过第一片上网络处理模块中任意一个与第二片上网络处理模块之间建立的通信通道的第一计算装置，将第一运算结果发送至第二片上网络处理模块。可选的，第一片上网络处理模块可以将第一运算结果发送至第二片上网络处理模块中任意一个与第一片上网络处理模块之间建立通信通道的第二计算装置。

步骤708，通过所述第二片上网络处理模块获取第二运算数据，其中，所述第二片上网络处理模块包括第二存储装置以及多个第二计算装置，所述第二运算数据存储于所述第二存储装置中。

其中，第二片上网络处理模块中的每一第二计算装置包括：运算单元以及控制器单元；运算单元包括：一个主处理电路和多个从处理电路。具体地，第二片上网络处理模块中的控制器单元从第二存储装置中获取第二运算数据以及计算指令。

可选的，第二片上网络处理模块中的多个第二计算装置同时访问第二存储装置，每一第二计算装置从第二存储装置中读取该第二片上网络处理模块所需要的一部分数据，这些数据在第二片上网络处理模块内进行数据传输。

可选的，指定第二片上网络处理模块中的一个或多个第二计算装置可以访问第二存储装置，其余第二计算装置仅能进行组内通信。具体地，第二片上网络处理模块所需要处理的运算数据均存储于第二存储装置中。

步骤710，通过所述第二片上网络处理模块中的多个第二计算装置，对所述第二运算数据和所述第一运算结果进行运算，得到第二运算结果。

其中，步骤710具体包括以下步骤：

步骤7102，将所述第二运算数据和所述第一运算结果在所述多个第二计算装置之间进行运算，得到所述第二运算结果。

具体地，每一第二计算装置可以根据相应的计算指令，将第二运算数据和第一运算结果进行运算，得到多个中间结果，接着根据相应的计算指令对多个中间结果进行运算，得到第二运算结果。

步骤7104，将所述第二运算结果存储至所述第二存储装置。

上述片上网络数据处理方法，通过将第一片上网络处理系统中的第一运算结果发送至第二片上网络处理系统，第二片上网络处理系统利用该第一运算结果进行再次运算，能够实现运算数据的复用，该方法能够使运算数据以及中间运算结果得到合理的利用，提高了数据处理的效率。

本申请实施例中的片上网络处理方法可用于机器学习计算，具体可用于人工神经网络运算，其中，片上网络处理系统中的运算数据具体可以包括：输入神经元数据和权值数据，片上网络处理系统中的运算结果具体可以为：人工神经网络运算的结果，即输出神经元数据。

对于神经网络中的运算可以为神经网络中的一层的运算，对于多层神经网络，其实现过程是，在正向运算中，当上一层人工神经网络执行完成之后，下一层的运算指令会将运算单元中计算出的输出神经元作为下一层的输入神经元进行运算(或者是对该输出神经元进行某些操作再作为下一层的输入神经元)，同时，将权值也替换为下一层的权值；在反向运算中，当上一层人工神经网络的反向运算执行完成后，下一层运算指令会将运算单元中计算出的输入神经元梯度作为下一层的输出神经元梯度进行运算(或者是对该输入神经元梯度进行某些操作再作为下一层的输出神经元梯度)，同时将权值替换为下一层的权值。

上述机器学习计算还可以包括支持向量机运算，k-近邻(k-nn)运算，k-均值(k-means) 运算，主成分分析运算等等。为了描述的方便，下面以人工神经网络运算为例来说明机器学习计算的具体方案。

对于人工神经网络运算，如果该人工神经网络运算具有多层运算，多层运算的输入神经元和输出神经元并非是指整个神经网络的输入层中神经元和输出层中神经元，而是对于网络中任意相邻的两层，处于网络正向运算下层中的神经元即为输入神经元，处于网络正向运算上层中的神经元即为输出神经元。以卷积神经网络为例，设一个卷积神经网络有L层， K＝1,2,...,L-1，对于第K层和第K+1层来说，我们将第K层称为输入层，其中的神经元为所述输入神经元，第K+1层称为输出层，其中的神经元为所述输出神经元。即除最顶层外，每一层都可以作为输入层，其下一层为对应的输出层。

在一种可选实施例中，以神经网络运算中的全连接运算为例，过程可以为：y＝f(wx+b)，其中，x为输入神经元矩阵，w为权值矩阵，b为偏置标量，f为激活函数，具体可以为：sigmoid 函数，tanh、relu、softmax函数中的任意一个。这里假设为二叉树结构，具有8个从处理电路，其实现的方法可以为：

控制器单元从存储单元内获取输入神经元矩阵x，权值矩阵w以及全连接运算指令，将输入神经元矩阵x，权值矩阵w以及全连接运算指令传输给主处理电路；

主处理电路确定该输入神经元矩阵x为广播数据，确定权值矩阵w为分发数据，将权值矩阵w拆分成8个子矩阵，然后将8个子矩阵通过树型模块分发给8个从处理电路，将输入神经元矩阵x广播给8个从处理电路，

从处理电路并行执行8个子矩阵与输入神经元矩阵x的乘法运算和累加运算得到8个中间结果，将8个中间结果发送给主处理电路；

主处理电路，用于将8个中间结果排序得到wx的运算结果，将该运算结果执行偏置b 的运算后执行激活操作得到最终结果y，将最终结果y发送至控制器单元，控制器单元将该最终结果y输出或存储至存储单元内。

如图1所示的计算装置执行神经网络正向运算指令的方法具体可以为：

控制器单元从指令存储单元内提取神经网络正向运算指令、神经网络运算指令对应的操作域以及至少一个操作码，控制器单元将该操作域传输至数据访问单元，将该至少一个操作码发送至运算单元。

控制器单元从存储单元内提取该操作域对应的权值w和偏置b(当b为0时，不需要提取偏置b)，将权值w和偏置b传输至运算单元的主处理电路，控制器单元从存储单元内提取输入数据Xi，将该输入数据Xi发送至主处理电路。

主处理电路依据该至少一个操作码确定为乘法运算，确定输入数据Xi为广播数据，确定权值数据为分发数据，将权值w拆分成n个数据块；

控制器单元的指令处理单元依据该至少一个操作码确定乘法指令、偏置指令和累加指令，将乘法指令、偏置指令和累加指令发送至主处理电路，主处理电路将该乘法指令、输入数据 Xi以广播的方式发送给多个从处理电路，将该n个数据块分发给该多个从处理电路(例如具有n个从处理电路，那么每个从处理电路发送一个数据块)；多个从处理电路，用于依据该乘法指令将该输入数据Xi与接收到的数据块执行乘法运算得到中间结果，将该中间结果发送至主处理电路，该主处理电路依据该累加指令将多个从处理电路发送的中间结果执行累加运算得到累加结果，依据该偏置指令将该累加结果执行加偏置b得到最终结果，将该最终结果发送至该控制器单元。

另外，加法运算和乘法运算的顺序可以调换。

本申请提供的技术方案通过一个指令即神经网络运算指令即实现了神经网络的乘法运算以及偏置运算，在神经网络计算的中间结果均无需存储或提取，减少了中间数据的存储以及提取操作，所以其具有减少对应的操作步骤，提高神经网络的计算效果的优点。

应该理解的是，虽然图25-30的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图25-30中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory， RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种片上网络处理系统，其特征在于，所述系统包括：存储装置和多个计算装置，所述存储装置和多个所述计算装置设置于同一片上，其中，至少一个计算装置与所述存储装置连接，并且至少两个计算装置之间相互连接；其中，所述计算装置用于基于输入神经元数据和权值数据进行乘法运算和累加运算得到中间结果，基于所述中间结果加上偏置后做激活操作得到最终结果，所述输入神经元数据和所述权值数据包含于运算数据，与所述存储装置连接的计算装置的所述运算数据来自于所述存储装置，其他计算装置的所述运算数据来自于与所述其他计算装置连接的计算装置，所述其他计算装置为所述多个计算装置中、除所述与存储装置连接的计算装置外的计算装置。

2.根据权利要求1所述的系统，其特征在于，所述多个计算装置中的任意两个计算装置之间直接连接。

3.根据权利要求1所述的系统，其特征在于，所述多个计算装置包括第一计算装置和多个第二计算装置，所述第一计算装置与所述存储装置连接，所述多个第二计算装置中的至少一个第二计算装置与所述第一计算装置连接。

4.根据权利要求3所述的系统，其特征在于，所述多个第二计算装置中的至少两个第二计算装置之间相互连接，并且通过所述第一计算装置与所述存储装置连接。

5.根据权利要求3所述的系统，其特征在于，所述多个第二计算装置中的任意两个第二计算装置与所述第一计算装置直接连接。

6.根据权利要求1所述的系统，其特征在于，所述多个计算装置中的每一个计算装置均与所述存储装置连接，并且至少两个计算装置之间相互连接。

7.根据权利要求1所述的系统，其特征在于，所述计算装置用于执行机器学习计算，所述计算装置包括：运算单元以及控制器单元；所述运算单元包括：一个主处理电路以及多个从处理电路；

所述控制器单元，用于获取输入数据以及计算指令；

所述控制器单元，还用于解析所述计算指令得到多个运算指令，将所述多个运算指令以及所述输入数据发送给所述主处理电路；

所述主处理电路，用于对所述输入数据执行前序处理以及与所述多个从处理电路之间传输数据和运算指令；

所述多个从处理电路，用于依据从所述主处理电路传输的数据以及运算指令并行执行中间运算得到多个所述中间结果，并将所述多个中间结果传输给所述主处理电路；

所述主处理电路，用于对所述多个中间结果执行后续处理得到所述计算指令的计算结果。

8.根据权利要求7所述的系统，其特征在于，所述控制器单元包括：指令存储单元、指令处理单元以及存储队列单元；

所述指令存储单元，用于存储人工神经网络运算关联的计算指令；

所述指令处理单元，用于对所述计算指令解析得到多个运算指令；

所述存储队列单元，用于存储指令队列，所述指令队列包括：按所述指令队列的前后顺序待执行的多个运算指令或计算指令。

9.一种机器学习芯片，其特征在于，所述机器学习芯片包括如权利要求1-8中任意一项所述的片上网络处理系统。

10.一种神经网络运算装置，其特征在于，所述神经网络运算装置包括一个或多个如权利要求1-8中任意一项所述的计算装置，所述神经网络运算装置用于从处理装置中获取待运算输入数据和控制信息，并执行机器学习运算，将执行结果通过输入/输出接口传递给所述处理装置；

当所述神经网络运算装置包含多个所述计算装置时，多个所述计算装置之间进行连接并传输数据；

其中，多个所述计算装置通过外部设备互连总线进行互联并传输数据，以支持机器学习运算；多个所述计算装置的互联方式包括多种互联拓扑。

11.一种组合处理装置，其特征在于，所述组合处理装置包括如权利要求10所述的神经网络运算装置、处理装置以及通用互联接口；

所述神经网络运算装置与所述处理装置进行交互，共同完成用户的计算操作。

12.根据权利要求11所述的组合处理装置，其特征在于，还包括：存储装置，所述存储装置分别与所述神经网络运算装置和所述处理装置连接，用于保存所述神经网络运算装置和所述处理装置的数据。

13.一种电子设备，其特征在于，所述电子设备包括如所述权利要求9所述的机器学习芯片。

14.一种板卡，其特征在于，所述板卡包括：存储器件、接口装置、控制器件以及如权利要求9所述的机器学习芯片；

其中，所述机器学习芯片与所述存储器件、所述控制器件以及所述接口装置分别连接；

所述存储器件，用于存储数据；

所述接口装置，用于实现所述机器学习芯片与外部设备之间的数据传输；

所述控制器件，用于对所述机器学习芯片的状态进行监控。

15.根据权利要求14所述的板卡，其特征在于，

所述存储器件包括：多组存储单元，每一组所述存储单元与所述机器学习芯片通过总线连接，所述存储单元包括：同步动态随机存取存储器或双倍速率同步动态随机存取存储器；

所述机器学习芯片包括：双倍速率控制器，用于对每个所述存储单元的数据传输与数据存储的控制；

所述接口装置包括：标准高速串行扩展总线接口。

16.一种神经网络芯片，其特征在于，所述芯片包括：存储装置、多个计算装置、第一互联装置以及第二互联装置，其中，至少一个计算装置与所述存储装置通过所述第一互联装置连接，所述多个计算装置之间通过所述第二互联装置连接；其中，所述计算装置用于基于输入神经元数据和权值数据进行乘法运算和累加运算得到中间结果，基于所述中间结果加上偏置后做激活操作得到最终结果，所述输入神经元数据和所述权值数据包含于运算数据，与所述存储装置通过所述第一互联装置连接的计算装置的所述运算数据来自于所述存储装置，其他计算装置的所述运算数据来自于与所述其他计算装置通过所述第二互联装置连接的计算装置，所述其他计算装置为所述多个计算装置中、除所述与存储装置通过所述第一互联装置连接的计算装置外的计算装置。

17.一种片上网络数据处理方法，其特征在于，所述方法应用于如权利要求1至8中任一项的所述片上网络处理系统，所述方法用于执行机器学习计算，所述方法包括：

通过第一计算装置访问存储装置，获取第一运算数据；

将所述第一运算结果发送至第二计算装置。

18.根据权利要求17所述的方法，其特征在于，所述方法还包括：通过所述第二计算装置访问所述存储装置，获取第二运算数据。

19.根据权利要求18所述的方法，其特征在于，所述方法还包括：通过所述第二计算装置将所述第二运算数据和所述第一运算结果进行运算，得到第二运算结果。