CN112866041B

CN112866041B - 一种自适应性的网络系统的训练方法

Info

Publication number: CN112866041B
Application number: CN202110440816.6A
Authority: CN
Inventors: 谢吉芳
Original assignee: Nanjing Lanyang Intelligent Technology Co ltd
Current assignee: Nanjing Lanyang Intelligent Technology Co ltd
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-04-19
Anticipated expiration: 2041-04-23
Also published as: CN112866041A

Abstract

本文提供了一种自适应性的网络系统及训练方法，系统包括第一节点、多个第二节点、多个第三节点和多个神经网络计算节点；第一节点与每个第二节点连接，第一节点用于将接收到的需求信息传输至每个第二节点；每个第二节点连接有多个第三节点，不同的第二节点连接的第三节点不同；每个第三节点连接有多个神经网络计算节点，不同的第三节点连接的神经网络计算节点不同，第一节点、第二节点和第三节点均用于根据所需求信息及连接的全部神经网络计算节点中的设备参数和运行参数生成与需求信息对应的计算结果；第一节点还用于将计算结果返回至与需求信息对应的终端。本文能够提高在深度神经网络训练的数据同步的效率与精准度，有效提升网络系统的竞争力。

Description

一种自适应性的网络系统的训练方法

技术领域

本文属于神经网络技术领域，具体涉及一种自适应性的网络系统及训练方法。

背景技术

深度神经网络近年来在精准度与效能上的进步使其在各种领域蓬勃发展。随着该技术的普及，深度神经网络在训练和推理的算力与效率需求越来越被重视，也成为许多重量级深度神经网络模型在建置与部署上的瓶颈与痛点。

为了解决这庞大算力的需求缺口，同时又保有系统向上或向下扩展的弹性，现有技术上都不约而同的用FPGA、GPU或ASIC来构成巨型运算丛集，解决算力上的需求与架构上扩充的弹性问题。

然而，在这巨型且具有分散式特性的丛集架构中，参数资料的同步造成非常发的效能损失。以往为了忠实还原深度神经网络的训练过程与精准度，现行系统往往采用同步式 (synchronous)的方式来同步平行装置间的参数，这在深度神经网络参数近年来大幅增长的情况下明显降低了系统的效能，虽然提出了非同步(asynchronous)的方式来降低同步平行装置间的参数时所造成的频宽负责，但这种方式却会明显造成整体深度神经网络训练上的准确度损失，进而使AI系统解决方案成效不明显。

发明内容

针对现有技术的上述问题，本文的目的在于，提供一种自适应性的网络系统及训练方法，解决在深度神经网络训练时的数据同步的效率与精准度。

具体地，本文提供一种自适应性的网络系统，所述系统包括第一节点、多个第二节点、多个第三节点和多个神经网络计算节点；

所述第一节点与每个所述第二节点连接，所述第一节点用于将接收到的需求信息传输至每个所述第二节点；

每个所述第二节点连接有多个所述第三节点，不同的第二节点连接的所述第三节点不同；

每个所述第三节点连接有多个神经网络计算节点，不同的第三节点连接的所述神经网络计算节点不同，所述第一节点、所述第二节点和所述第三节点均用于根据所需求信息及连接的全部所述神经网络计算节点中的设备参数和运行参数生成与所述需求信息对应的计算结果；

所述第一节点还用于将所述计算结果返回至与所述需求信息对应的终端。

进一步地、所述第一节点、所述第二节点和所述第三节点均包括：策略确定单元和策略执行单元；

所述策略确定单元用于根据接收到的所述需求信息确定执行策略，所述执行策略包括同步执行策略和/或异步执行策略；

策略执行单元用于根据所述策略确定单元确定的执行策略执行调整所述神经网络计算节点中的设备参数和运行参数使得不同的所述神经网络计算节点实现同步或异步。

进一步地、所述执行策略是根据连接的所述神经网络计算节点的反向传播算法和设备参数以演算法的形式确定出的。

进一步地、所述神经网络计算节点包括：FPGA、GPU和/或SoC。

另一方面，本文提出一种自适应性的网络系统的训练方法，所述方法包括：

通过预先配置的第一节点接收需求信息；

通过依次与所述第一节点连接的第二节点和第三节点获取神经网络计算节点的设备参数和运行参数；

根据所述设备参数、所述运行参数和所述需求信息生成与所述需求信息对应的计算结果；

将所述计算结果返回至于所述需求信息对应的终端。

进一步地、所述根据所述设备参数、所述运行参数和所述需求信息生成与所述需求信息对应的计算结果，包括；

根据所述需求信息确定不同所述神经网络计算节点的执行策略；

根据所述执行策略调整所述神经网络计算节点的设备参数和运行参数使得不同的所述神经网络计算节点实现同步或异步。

进一步地、所述根据所述需求信息确定不同所述神经网络计算节点的执行策略，包括：

根据所述需求信息、所述神经网络计算节点的反向传播算法和设备参数以演算法的形式确定出不同所述神经网络计算节点的执行策略。

另一方面，本文提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的自适应性的网络系统的训练方法。

再一方面，本文提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的自适应性的网络系统的训练方法。

采用上述技术方案，本文所述一种自适应性的网络系统及训练方法，所述系统包括第一节点、多个第二节点、多个第三节点和多个神经网络计算节点；所述第一节点与每个所述第二节点连接，所述第一节点用于将接收到的需求信息传输至每个所述第二节点；每个所述第二节点连接有多个所述第三节点，不同的第二节点连接的所述第三节点不同；每个所述第三节点连接有多个神经网络计算节点，不同的第三节点连接的所述神经网络计算节点不同，所述第一节点、所述第二节点和所述第三节点均用于根据所需求信息及连接的全部所述神经网络计算节点中的设备参数和运行参数生成与所述需求信息对应的计算结果；所述第一节点还用于将所述计算结果返回至与所述需求信息对应的终端。本文能够提高在深度神经网络训练时的数据同步的效率与精准度，有效提升网络系统的竞争力。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例提供的一种网络系统的结构示意图。

图2示出了本文实施例提供的另一种网络系统的结构示意图。

图3示出了本文实施例中一种自适应性的网络系统的训练方法的流程示意图。

图4示出了本文实施例中一种设备的结构示意图。

附图符号说明：802、计算机设备；804、处理器；806、存储器；808、驱动机构；810、输入/输出模块；812、输入设备；814、输出设备；816、呈现设备；818、图形用户接口；820、网络接口；822、通信链路；824、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了解决上述问题，本说明书实施例提供一种自适应性的网络系统，如图1和图2所示，图1示出了本文实施例提供的一种网络系统的结构示意图；图2示出了本文实施例提供的另一种网络系统的结构示意图，所述系统包括第一节点、多个第二节点、多个第三节点和多个神经网络计算节点；

具体的，第一节点可以用于与终端进行信息交互，将终端发送的需求信息传递给与神经网络计算节点连接的巨型运算丛集中，使得巨型运算丛集根据需求信息进行计算得到计算结果，并将计算结果返回至发送需求信息的终端。可以理解的，第一节点处于该网络系统的最上层，还用于执行将最上层的同步动作。

第二节点和第三节点用于将与其连接的神经网络计算节点的设备参数和运行参数同步相关动作，以最佳的策略处理训练时资料与参数同步，能够达到降低功耗提升速度的效果。另外，第二节点和第三节点可以是一个实体的装置，如额外的hub装置，或作为一个虚拟装置嵌入在其下属的某个神经网络计算节点中。

具体的，策略确定单元可以是Adaptive sync strategy generator (ASSG)，可以用于通过当下反向传播算法和设备参数以演算法的方式确定出对应的第一节点或第二节点或第三节点以同步（synchronous）或异步（asynchronous）的方式来同步资料与参数，以达到最低同步频宽消耗与最优的模型精确度。每个第二节点或第三节点均可以是同步或异步，也可以是全部同步或全部异步。

在具体的实施过程中，同一个第三节点下设置有四个不同的神经网络计算节点A、B、C、D，其中，A和B是需要同步执行的，针对执行结果，神经网络计算节点A必须知道神经网络计算节点B的结果M后才执行得到结果。即神经网络计算节点A和神经网络计算节点B的结果之间的是否存在依赖关系。

神经网络计算节点C和神经网络计算节点D需要异步执行，即神经网络计算节点C和神经网络计算节点D针对的是执行结果，执行神经网络计算节点C和执行神经网络计算节点D没有关系。

在上述网络系统运行之前，需要确定出神经网络计算节点A、B、C、D的设备参数和运行参数，而后，网络系统会根据神经网络计算节点A、B、C、D的设备参数、运行参数及不同神经网络计算节点的结果之间的是否存在依赖关系。其中神经网络计算节点A与神经网络计算节点B的结果存在依赖关系，网络系统中与神经网络计算节点A与神经网络计算节点B连接的第三节点根据不同神经网络计算节点的依赖关系制定相应的演算法。在网络系统运行时，根据相应的演算法将神经网络计算节点A与神经网络计算节点B设置为同步，将神经网络计算节点C与神经网络计算节点D设置为异步执行。

现有技术中并未考虑不同神经网络计算节点之间的依赖关系。在网络系统运行之前也并未通过演算法决定不同神经网络计算节点之间的执行策略。本申请通过演算法的方式推到出能够快速实现不同神经网络计算节点收敛。避免将同一个第三节点下的多个神经网络计算节点设置为相同的执行策略。如将第三节点下的多个神经网络计算节点设置为相同的执行策略，将会导致神经网络计算节点A与神经网络计算节点B的阻塞，造成神经网络计算节点A与神经网络计算节点B造成过多的频宽消耗和收敛时长。

策略执行单元可以是Sync Executor(SE)，其用于根据策略确定单元所提供的执行策略执行该超级同步处理程序下的所属的全部子超级同步处理程序资料与参数的同步。

需要说明的是，策略确定单元还可以直接通过当下反向传播算法和设备参数以演算法的方式确定出最底层的策略确定单元为同步方式执行，其余层的策略确定单元可以为异步方式执行，因此，仅需在训练完成后做唯一一次同步即可，在训练时只有最后一层的策略确定单元需要收集下属的神经网络计算节点的参数同步完后传回各自的神经网络计算节点。可以在时间上大幅度的优化神经网络。

进一步地、所述神经网络计算节点包括：FPGA、GPU和/或SoC。

神经网络计算节点可以是具备运算能力的组件，其可以是FPGA（Field-Programmable Gate Array，即现场可编程门阵列）、GPU（图形处理器Graphics ProcessingUnit)，GPU又称显示核心、视觉处理器、显示芯片，是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器和/或SoC（System-on-a-Chip，系统级芯片），SoC也有称片上系统，意指它是一个产品，是一个有专用目标的集成电路，其中包含完整系统并有嵌入软件的全部内容。需要说明的是，不同的神经网络计算节点的连线方式可以与末端的超级同步处理程序的连接方式在本说明书实施例中不做具体限定，可以根据实际需求进行设置，如全连接或使用者设定的最佳的硬件配置。

在上述提供的网络系统的基础上，本说明书实施例还提供一种自适应性的网络系统的训练方法，所述方法可以实现设备参数和运行参数的同步。

具体地，如图3所示，是本文实施例中自适应性的网络系统的训练方法的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图3所示，所述方法可以包括：

S502、通过预先配置的第一节点接收需求信息；

S504、通过依次与所述第一节点连接的第二节点和第三节点获取神经网络计算节点的设备参数和运行参数；

S506、根据所述设备参数、所述运行参数和所述需求信息生成与所述需求信息对应的计算结果；

S508、将所述计算结果返回至于所述需求信息对应的终端。

由于本文提出的自适应性的网络系统的训练方法是基于上述自适应性的网络系统执行的，因此，该方法具备自适应性的网络系统的技术效果，不在赘述。

进一步，如图4所示，为本文实施例提供的一种设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述所述的自适应性的网络系统的训练方法，作为可选地，所述计算机设备802可以包括一个或多个处理器804，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备802还可以包括任何存储器806，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器806可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备802的固定或可移除部件。在一种情况下，当处理器804执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备802可以执行相关联指令的任一操作。计算机设备802还包括用于与任何存储器交互的一个或多个驱动机构808，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备802还可以包括输入/输出模块810（I/O），其用于接收各种输入(经由输入设备812)和用于提供各种输出(经由输出设备814))。一个具体输出机构可以包括呈现设备816和相关联的图形用户接口(GUI)818。在其他实施例中，还可以不包括输入/输出模块810（I/O）、输入设备812以及输出设备814，仅作为网络中的一台计算机设备。计算机设备802还可以包括一个或多个网络接口820，其用于经由一个或多个通信链路822与其他设备交换数据。一个或多个通信总线824将上文所描述的部件耦合在一起。

通信链路822可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路822可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图2-图3中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的自适应性的网络系统的训练方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种自适应性的网络系统的训练方法，其特征在于，所述系统包括第一节点、多个第二节点、多个第三节点和多个神经网络计算节点；

所述第一节点还用于将所述计算结果返回至与所述需求信息对应的终端；

所述第一节点、所述第二节点和所述第三节点均包括：策略确定单元和策略执行单元；

策略执行单元用于根据所述策略确定单元确定的执行策略执行调整所述神经网络计算节点中的设备参数和运行参数使得不同的所述神经网络计算节点实现同步或异步；

所述执行策略是根据连接的所述神经网络计算节点的反向传播算法和设备参数以演算法的形式确定出的；

所述自适应性的网络系统的训练方法包括：

通过预先配置的第一节点接收需求信息；

通过依次与所述第一节点连接的第二节点、与第二节点连接的第三节点获取神经网络计算节点的设备参数和运行参数；

根据所述设备参数、所述运行参数和所述需求信息生成与所述需求信息对应的计算结果，根据所述需求信息确定不同所述神经网络计算节点的执行策略；

根据所述执行策略调整所述神经网络计算节点的设备参数和运行参数使得不同的所述神经网络计算节点实现同步或异步；

将所述计算结果返回至于所述需求信息对应的终端；

所述系统通过演算法的方式推导出能够快速实现不同神经网络计算节点收敛，避免将同一个第三节点下的多个神经网络计算节点设置为相同的执行策略。

2.根据权利要求1所述的自适应性的网络系统的训练方法，其特征在于，所述神经网络计算节点包括：FPGA、GPU和/或SoC。

3.根据权利要求1所述的自适应性的网络系统的训练方法，其特征在于，所述根据所述需求信息确定不同所述神经网络计算节点的执行策略，包括：

4.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1所述的自适应性的网络系统的训练方法。

5.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1所述的自适应性的网络系统的训练方法。