CN111709514A

CN111709514A - 神经网络模型的处理方法和装置

Info

Publication number: CN111709514A
Application number: CN202010390180.4A
Authority: CN
Inventors: 王健飞; 彭程; 罗雪峰; 王巍巍
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-09-25
Also published as: KR20210047832A; EP3907664A1; JP7105297B2; US20210350228A1; JP2021177368A

Abstract

本申请公开了一种神经网络模型的处理方法和装置，涉及计算机技术领域。具体实现方案为：获取第i处理层的输入数据，将输入数据转化为多个胶囊节点，对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点，根据仿射节点确定初始激活输入值，将初始激活输入值输入激活函数，生成初始激活输出值，根据初始激活输出值对应的仿射节点，重新确定初始激活输入值，将重新确定的初始激活输入值输入激活函数，重新生成初始激活输出值，如此循环预设次数，将最后一次生成的初始激活输出值确定为激活输出值。由此，通过对输入数据转化为的多个胶囊节点进行仿射变换，以根据仿射节点对激活函数的输出值进行迭代更新，从而提高了神经网络的性能。

Description

神经网络模型的处理方法和装置

技术领域

本申请涉及计算机技术领域的人工智能技术领域，尤其涉及一种神经网络模型的处理方法和装置。

背景技术

胶囊网络是一种新的神经网络建模思想，对比其他神经网络，胶囊网络通过增加各个神经元节点的表达能力，来增强网络的整体描述能力。具体而言就是将原本标量表示的神经元转化为向量表示，在标量神经元节点时，通常采用的激活函数有sigmoid，relu等。其中，激活函数在神经网络设计是一种非常重要的元件，主要用于在神经网络中引入非线性变化的能力，帮助神经网络实现非线性的逻辑推理能力。

胶囊节点由于引入了方向信息，将神经元扩充成了向量的表现形式，因此，标量的神经元激活函数将不在适用。为此，胶囊网络提出了一种新的激活函数Squash，来解决这个问题。但是，在实际应用中，Squash激活函数存在激活状态稀疏性不足和激活状态高位更新缓慢的技术问题，从而导致现有的神经网络存在性能低的缺点。

发明内容

本申请提供了一种神经网络模型的处理方法、装置、电子设备以及存储介质。

本申请第一方面实施例提供了一种神经网络模型的处理方法，所述神经网络包括N层处理层，其中，N为正整数，所述方法包括：

S1、获取第i处理层的输入数据，将所述输入数据转化为多个胶囊节点；其中，所述输入数据包括具有j维度的多个神经元向量，其中，i、j为小于或等于N的正整数；

S2、对所述多个胶囊节点进行仿射变换以生成所述多个胶囊节点对应的仿射节点；

S3、根据所述多个胶囊节点对应的仿射节点确定所述第i处理层的初始激活输入值；

S4、将第i处理层的初始激活输入值输入激活函数，生成所述第i处理层的初始激活输出值；以及

S5、根据所述初始激活输出值对应的仿射节点，重新确定所述第i处理层的初始激活输入值，将重新确定的所述第i处理层的初始激活输入值输入激活函数，重新生成所述第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为所述第i处理层的激活输出值。

本申请第二方面实施例提供了一种神经网络模型的处理装置，所述神经网络包括N层处理层，其中，N为正整数，所述装置包括：

获取模块，用于获取第i处理层的输入数据，将所述输入数据转化为多个胶囊节点；其中，所述输入数据包括具有j维度的多个神经元向量，其中，i、j为小于或等于N的正整数；

第一生成模块，用于对所述多个胶囊节点进行仿射变换以生成所述多个胶囊节点对应的仿射节点；

确定模块，用于根据所述多个胶囊节点对应的仿射节点，确定所述第i处理层的初始激活输入值；

第二生成模块，用于将第i处理层的初始激活输入值输入激活函数，生成所述第i处理层的初始激活输出值；以及

第三生成模块，用于根据所述初始激活输出值对应的仿射节点，重新确定所述第i处理层的初始激活输入值，将重新确定的所述第i处理层的初始激活输入值输入激活函数，重新生成所述第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为所述第i处理层的激活输出值。

本申请第三方面实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例的神经网络模型的处理方法。

本申请第四方面实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行第一方面实施例的神经网络模型的处理方法。

上述申请中的一个实施例具有如下优点或有益效果：通过获取第i处理层的输入数据，将输入数据转化为多个胶囊节点，对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点，根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值，将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值，根据初始激活输出值对应的仿射节点，重新确定第i处理层的初始激活输入值，将重新确定的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。由此，通过对神经网络的输入数据转化为的多个胶囊节点进行仿射变换，得到多个胶囊节点对应的仿射节点，进而根据仿射节点对激活函数的输出值进行迭代更新，以得到神将网络模型最终的激活输出值，从而提高了神经网络的性能。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例一提供的神经网络模型的处理方法的流程示意图；

图2为本申请实施例二提供的神经网络模型的处理方法的流程示意图；

图3为本申请实施例提供的现有激活函数的效果图；

图4为本申请实施例中提供的Ruler激活函数的效果图；

图5为本申请实施例三提供的神经网络模型的处理装置的结构示意图；

图6是用来实现本申请实施例的神经网络模型的处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

现有技术中，神经网络模型的处理过程中，采用的激活函数被为称为Squash激活函数，其表达式为：

其中，下标j表示第j个向量节点。S_j表示第j个向量节点激活之前的向量值，V_j表示第j个向量节点激活之后的向量值。

表示向量

的p阶范数。

基于上述Squash激活函数的公式，我们可以得到Squash激活状态的模长N_j主要取决于上述公式的右项的左半部分，即

由于||S_j||²≥0，可以推出N_j≥0的结论，从而导致Squash激活函数存在稀疏性不足的技术问题。

对于Squash激活状态的模长N_j关于变量x＝||S_j||²求导，得到导数

由公式可以知道梯度会随着x的平方的倒数递减。在x大于0.8时，导数

也就导致了激活状态高位更行缓慢的技术问题。

针对现有技术中神经网络模型的处理过程中，激活函数存在稀疏性不足和激活状态高位更行缓慢的问题，从而导致神经网络的性能较低的技术问题，本申请提出了一种神经网络模型的处理方法，通过获取第i处理层的输入数据，将输入数据转化为多个胶囊节点，对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点，根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值，将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值，根据初始激活输出值对应的仿射节点，重新确定第i处理层的初始激活输入值，将重新确定的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。

下面参考附图描述本申请实施例的神经网络模型的处理方法、装置、电子设备和存储介质。

图1为本申请实施例一提供的神经网络模型的处理方法的流程示意图。

本申请实施例以该神经网络模型的处理方法被配置于神经网络模型的处理装置中来举例说明，该神经网络模型的处理装置可以应用于任一电子设备中，以使该电子设备可以执行神经网络模型的处理功能。

其中，电子设备可以为个人电脑(Personal Computer，简称PC)、云端设备、移动设备等，移动设备例如可以为手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统的硬件设备。

如图1所示，该神经网络模型的处理方法，可以包括以下步骤：

步骤S1，获取第i处理层的输入数据，将输入数据转化为多个胶囊节点。

其中，输入数据包括具有j维度的多个神经元向量，其中，j为小于或等于N的正整数。

本申请实施例中，神经网络可以包括N层处理层，其中，N为正整数。神经网络包括输入层、隐藏层和输出层。神经网络，还可以为胶囊网络，其中，胶囊网络也包括N层处理层，其中，N为正整数。

本申请实施例中，获取到神经网络的第i处理层的输入数据后，可以将输入数据转化为多个胶囊节点。其中，第i处理层，可以为输入层、隐藏层和输出层中任意一层处理层。

举例来说，获取到的输入数据为a＝[1，2，3，4，5，6]，a表示有6个神经元，假设神经元向量为2维的向量，将可以将获取到的输入数据a转化为包含有多个胶囊节点的数据b＝[[1，2]，[3，4]，[5，6]]，其中[1，2]，[3，4]和[5，6]分别表示为一个胶囊节点。

步骤S2、对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点。

其中，仿射变换是二维平面中一种重要的变换，在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射，由一个非奇异的线性变换接上一个平移变换组成。

本申请实施例中，将输入数据转化为多个胶囊节点后，可以对多个胶囊节点进行仿射变换，以生成多个胶囊节点对应的仿射节点。由此，通过学习向量的特征抽象能力，实现l相近特征节点之间的聚合。

下面举例说明多个胶囊节点进行仿射变换的过程，例如，上述示例中多个胶囊节点的维度均为2，M＝[[0，1]，[1，0]]，聚合之后得到各个胶囊节点的新的表示方式，这里成为仿射节点c＝b*M，其中“*”表示矩阵乘法，最终可以得到多个胶囊节点对应的仿射节点c＝[[2，1]，[4，3]，[6，5]]。

步骤S3、根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值。

本申请实施例中，通过对多个胶囊节点进行仿射变换生成多个胶囊节点对应的仿射节点后，可以根据初始权重对多个仿射节点进行加权求和，以将加权求和结果作为第i处理层的初始激活输入值。由此，根据初始权重，确定第i处理层的初始激活输入值，提高了确定初始激活输入值的准确度。

继续以上述示例为例，根据初始权重w，对仿射节点c进行加权求和，得到d，即d＝∑c·w，其中，w＝[0.33，0.33，0.33]，c＝[[2，1]，[4，3]，[6，5]]，因此，最终计算得到d＝[4，3]。进一步的，可以根据加权求和的结果第i处理层的初始激活输入值。

步骤S4、将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值。

本申请实施例中，通过对多个胶囊节点对应的仿射节点进行加权求和，得到第i处理层的初始激活输入值后，将初始激活输入值输入激活函数，从而得到激活函数输出的第i处理层的初始激活输出值。

需要解释的是，神经网络模型处理过程中若不使用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果神经网络模型处理过程中使用激活函数，则激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

本申请实施例中的激活函数是一种新的针对胶囊网络的激活函数Ruler，不同于现有的Squash激活函数。因此，在神经网络模型的处理过程中，避免了采用Squash激活函数时存在稀疏性不足和激活状态高位更行缓慢的问题，从而导致神经网络的性能较低的技术问题。

步骤S5、根据初始激活输出值对应的仿射节点，重新确定第i处理层的初始激活输入值，将重新确定的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。

本申请实施例中，将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值后，可以根据初始权重对初始激活输出值进行加权求和，重新生成第i处理层的初始激活输入值，并将重新生成的第i处理层的初始激活输入值，输入激活函数，以得到新的初始激活输出值。如此循环，进行预设次数的迭代，将激活函数最后一次输出的值作为第i处理层的激活输出值。其中，迭代的预设次数根据实际情况设定，可以为1次，也可以为3次，在此不做限制。

本申请实施例的神经网络模型的处理方法，通过S1、获取第i处理层的输入数据，将输入数据转化为多个胶囊节点，S2、对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点，S3、根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值，S4、将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值，S5、根据初始激活输出值对应的仿射节点，重新确定第i处理层的初始激活输入值，将重新确定的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。由此，通过对神经网络的输入数据转化为的多个胶囊节点进行仿射变换，得到多个胶囊节点对应的仿射节点，进而根据仿射节点对激活函数的输出值进行迭代更新，以得到神将网络模型最终的激活输出值，从而提高了神经网络的性能。

在上述实施例的基础上，在步骤S4中，将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值时，可以根据初始激活输入值的模长、第一激活门限和第二激活门限生成初始激活输出值。具体的实现过程见图2，图2为本申请实施例二提供的神经网络模型的处理方法的流程示意图。

如图2所示，该神经网络模型的处理方法，还可以包括以下步骤：

步骤201，获取第i处理层的输入数据，将所述输入数据转化为多个胶囊节点。

步骤202，对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点。

步骤203，根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值。

本申请实施例中，步骤201至步骤203的实现过程，可以参见上述实施例一中步骤S1至步骤S3的实现过程，在此不再赘述。

步骤204，确定初始激活输入值对应的模长。

本申请实施例中，根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值后，可以计算初始激活输入值对应的模长。

可以理解的是，初始激活输入值为向量，因此可以通过计算向量的大小，以确定初始激活输入值对应的模长。

作为一种示例，可以通过如下公式计算初始激活输入值对应的模长。如初始激活输入值为d＝[4，3]，则初始激活输入值的模长为‖d‖，

方向为

步骤205，根据初始激活输入值对应的模长和第一激活门限，生成第一输出值。

其中，第一激活门限，是指用户设定的最低激活门限值。

本申请实施例中，确定初始激活输入值对应的模长后，可以将初始激活输入值对应的模长与第一激活门限进行比较，以根据比较结果确定第一输出值。

在一种可能的情况下，确定初始激活输入值对应的模长大于第一激活门限，则计算初始激活输入值对应的模长与第一激活门限的差值，将差值与预设斜率的乘积作为第一输出值。其中，预设斜率为1与第一激活门限之差的倒数。

在另一种可能的情况下，确定初始激活输入值对应的模长小于第一激活门限，则第一输出值为零。

举例来说，假设第一激活门限为β，初始激活输入值对应的模长为‖d‖，选取最大值输出e＝max(‖d‖-β,0)，其中，β可以由用户设置。预设斜率k＝1/(1-β)，通过将初始激活输入值对应的模长与第一激活门限的差值与零之间的最大值乘以斜率k，得到激活函数的第一输出值f＝k·e。

可以看出，当初始激活输入值对应的模长小于第一激活门限时，e的取值为0，这种情况下，第一输出值f＝k·e的取值也为0。

由此，通过根据设定的第一激活门限重新计算斜率，可以保证在激活函数的输入值为1时输出值也为1，从而实现了在缩短激活窗口的同时，达到不影响学习速率的目的。

步骤206，根据第一输出值和第二激活门限，生成第二输出值。

其中，第二激活门限大于第一激活门限，可以将第一激活门限设定为最低激活门限，第二激活门限设定为最大激活门限。

本申请实施例中，根据初始激活出入值对应的模长和第一激活门限的大小，确定第一输出值后，进一步的，根据第一输出值和第二激活门限的大小关系，确定第二输出值。

在一种可能的情况下，确定第一输出值大于第二激活门限，则将第二激活门限作为第二输出值。

可以理解的是，第二激活门限决定激活函数所能表示的最大信号值，若第一输出值超过这个信号值，则将激活函数的输出值确定为第二激活门限。由此，可以减少单个较大激活值对激活函数整体造成的影响。

在一种可能的情况下，确定第一输出值小于第二激活门限，则将第一输出值作为第二输出值。

步骤207，根据第二输出值和初始激活输入值对应的模长，生成初始激活输出值。

本申请实施例中，计算初始激活输入值与初始激活输入值对应的模长的比值，将比值乘以第二输出值的结果，作为初始激活输出值。

作为一种可能的情况，可以通过如下公式计算初始激活输出值，公式为：

其中，h为初始激活输出值，g为第二输出值，d为初始激活输入值，‖d‖为初始激活输入值对应的模长。

步骤208，根据初始激活输出值对初始权重进行更新，并根据更新之后的初始权重重新生成初始激活输入值，将重新生成的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，直至达到预设迭代次数，生成第i处理层的激活输出值。

本申请实施例中，确定激活函数的初始激活输出值后，根据初始激活输出值对初始权重进行更新。作为一种可能的实现方式，计算初始激活输出值和初始激活输入值的乘积，更新后的权重等于，初始权重加上初始激活输出值和初始激活输入值的乘积。其中，可以通过如下公式表示：w’＝w+d*g。其中，w’是指更新后的初始权重，w为更新前的初始权重，d为初始激活输入值，g为初始激活输出值。

需要解释的是，将初始激活输入值与初始激活输出值进行相乘，可以根据结果反映出初始激活输入值与初始激活输出值的相似程度。

本申请实施例中，根据初始激活输出值对初始权重进行更新后，根据更新后的初始权重对多个胶囊节点对应的仿射节点进行加权求和，以重新生成第i处理层的初始激活输入值。具体的实现过程参见上述实施例一的实现过程，在此不再赘述。

进一步的，将重新生成的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。

其中，预设次数在此不做限制，可以为1至3次。

本申请中的激活函数可以通过如下公式表示：

其中，Ruler表示激活函数，β为第一激活门限，α为第二激活门限，x为初始激活输入值。首先，对上述公式进行求导，可以发现导数值为

在‖x‖>β*‖x‖<激活区间，导数为定值。通过合理设置参数α，例如α＝1时可以保证直到激活状态的最大值为1时，同时在0到1之间的激活状态下的梯度相等，有效解决了现有的神经网络的激活函数的激活状态高位更新缓慢的问题。

当β>0时,在(0,β]的区间范围内，可以保证节点无法被激活，即节点状态值为0。因此可以增加激活状态的稀疏性，避免了现有的神经网络的激活函数中由于非激活状态对结果的叠加造成影响的技术问题。

例如，参见图3和图4中的激活函数的效果图，可以看出图3现中有的Squash激活函数效果图中存在激活状态高位更新缓慢的问题。然而，本申请中的Ruler激活函数的效果图中在0到1之间的激活状态下的梯度相等，有效解决激活状态高位更新缓慢的问题。

本申请实施例的神经网络模型的处理方法，在确定第i处理层的初始激活输入值后，确定初始激活输入值对应的模长，根据初始激活输入值对应的模长和第一激活门限，生成第一输出值，根据第一输出值和第二激活门限，生成第二输出值，根据第二输出值和初始激活输入值对应的模长，生成初始激活输出值，根据初始激活输出值对初始权重进行更新，并根据更新之后的初始权重重新生成初始激活输入值，将重新生成的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，直至达到预设迭代次数，生成第i处理层的激活输出值。由此，根据初始激活输入值，确定初始激活输出值后，根据初始激活输出值对初始权重进行更新，以对激活函数的输出值进行迭代更新，从而提高了神经网络的性能。

为了实现上述实施例，本申请提出了一种神经网络模型的处理装置。

图5为本申请实施例三提供的神经网络模型的处理装置的结构示意图。

如图5所示，神经网络包括N层处理层，其中，N为正整数，该神经网络模型的处理装置500，可以包括：获取模块510、第一生成模块520、确定模块530、第二生成模块540以及第三生成模块550。

其中，获取模块510，用于获取第i处理层的输入数据，将输入数据转化为多个胶囊节点；其中，输入数据包括具有j维度的多个神经元向量，其中，i、j为小于或等于N的正整数。

第一生成模块520，用于对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点。

确定模块530，用于根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值。

第二生成模块540，用于将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值。以及

第三生成模块550，用于根据初始激活输出值对应的仿射节点，重新确定第i处理层的初始激活输入值，将重新确定的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。

作为一种可能的情况，确定模块530，可以包括：

第一生成单元，用于根据初始权重对多个胶囊节点对应的仿射节点进行加权求和，以生成第i处理层的初始激活输入值。

作为另一种可能的情况，第二生成模块540，可以包括：

第一确定单元，用于确定初始激活输入值对应的模长。

第二生成单元，用于根据初始激活输入值对应的模长和第一激活门限，生成第一输出值。

第三生成单元，用于根据第一输出值和第二激活门限，生成第二输出值，其中，第二激活门限大于第一激活门限。

第四生成单元，用于根据第二输出值和目标胶囊节点的仿射节点对应的模长，生成初始激活输出值。

作为另一种可能的情况，第二生成单元，还用于：

如果初始激活输入值对应的模长大于第一激活门限，则计算初始激活输入值对应的模长与第一激活门限的差值，将差值与预设斜率的乘积作为第一输出值；其中，预设斜率为1与第一激活门限之差的倒数；以及

如果初始激活输入值对应的模长小于第一激活门限，则第一输出值为零。

作为另一种可能的情况，第三生成单元，还用于：

如果第一输出值大于第二激活门限，则将第二激活门限作为第二输出值；以及

如果第一输出值小于第二激活门限，则将第一输出值作为第二输出值。

作为另一种可能的情况，初始激活输出值还可以通过如下公式生成：

作为另一种可能的情况，第三生成模块550，还用于：

根据初始激活输出值对初始权重进行更新，并根据更新之后的初始权重重新生成第i处理层的初始激活输入值，将重新生成的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。

本申请实施例的神经网络模型的处理装置，通过获取第i处理层的输入数据，将输入数据转化为多个胶囊节点，对多个胶囊节点进行仿射变换以生成多个胶囊节点对应的仿射节点，根据多个胶囊节点对应的仿射节点，确定第i处理层的初始激活输入值，将第i处理层的初始激活输入值输入激活函数，生成第i处理层的初始激活输出值，根据初始激活输出值对应的仿射节点，重新确定第i处理层的初始激活输入值，将重新确定的第i处理层的初始激活输入值输入激活函数，重新生成第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为第i处理层的激活输出值。由此，通过对神经网络的输入数据转化为的多个胶囊节点进行仿射变换，得到多个胶囊节点对应的仿射节点，进而根据仿射节点对激活函数的输出值进行迭代更新，以得到神将网络模型最终的激活输出值，从而提高了神经网络的性能。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的神经网络模型的处理的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的神经网络模型的处理的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的神经网络模型的处理的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的神经网络模型的处理的方法对应的程序指令/模块(例如，附图5所示的获取模块510、第一生成模块520、确定模块530、第二生成模块540以及第三生成模块550)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的神经网络模型的处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据神经网络模型的处理的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至神经网络模型的处理的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

神经网络模型的处理的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与神经网络模型的处理的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，通过对神经网络的输入数据转化为的多个胶囊节点进行仿射变换，得到多个胶囊节点对应的仿射节点，进而根据仿射节点对激活函数的输出值进行迭代更新，以得到神将网络模型最终的激活输出值，从而提高了神经网络的性能。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种神经网络模型的处理方法，所述神经网络包括N层处理层，其中，N为正整数，所述方法包括：

S3、根据所述多个胶囊节点对应的仿射节点，确定所述第i处理层的初始激活输入值；

S4、将所述第i处理层的初始激活输入值输入激活函数，生成所述第i处理层的初始激活输出值；以及

2.如权利要求1所述的神经网络模型的处理方法，其中，所述步骤S3包括：

根据初始权重对所述多个胶囊节点对应的仿射节点进行加权求和，以生成所述第i处理层的初始激活输入值。

3.如权利要求1或2所述的神经网络模型的处理方法，其中，所述步骤S4，包括：

确定所述初始激活输入值对应的模长；

根据所述初始激活输入值对应的模长和第一激活门限，生成第一输出值；

根据所述第一输出值和第二激活门限，生成第二输出值，其中，所述第二激活门限大于所述第一激活门限；

根据所述第二输出值和所述初始激活输入值对应的模长，生成所述初始激活输出值。

4.如权利要求3所述的神经网络模型的处理方法，其中，所述根据所述初始激活输入值对应的模长和第一激活门限，生成第一输出值，包括：

如果所述初始激活输入值对应的模长大于所述第一激活门限，则计算所述初始激活输入值对应的模长与所述第一激活门限的差值，将所述差值与预设斜率的乘积作为所述第一输出值；其中，所述预设斜率为1与第一激活门限之差的倒数；以及

如果所述初始激活输入值对应的模长小于所述第一激活门限，则所述第一输出值为零。

5.如权利要求3所述的神经网络模型的处理方法，其中，所述根据所述第一输出值和第二激活门限，生成第二输出值，包括：

如果所述第一输出值大于所述第二激活门限，则将所述第二激活门限作为所述第二输出值；以及

如果所述第一输出值小于所述第二激活门限，则将所述第一输出值作为所述第二输出值。

6.如权利要求3所述的神经网络模型的处理方法，其中，所述初始激活输出值还可以通过如下公式生成：

其中，h为所述初始激活输出值，g为所述第二输出值，d为所述初始激活输入值，‖d‖为所述初始激活输入值对应的模长。

7.如权利要求3所述的神经网络模型的处理方法，其中，所述步骤S5，包括：

根据所述初始激活输出值对所述初始权重进行更新，并根据更新之后的初始权重重新生成所述第i处理层的初始激活输入值，将重新生成的所述第i处理层的初始激活输入值输入激活函数，重新生成所述第i处理层的初始激活输出值，如此循环预设次数，将最后一次生成的第i处理层的初始激活输出值确定为所述第i处理层的激活输出值。

8.一种神经网络模型的处理装置，所述神经网络包括N层处理层，其中，N为正整数，所述装置包括：

第二生成模块，用于将所述第i处理层的初始激活输入值输入激活函数，生成所述第i处理层的初始激活输出值；以及

9.如权利要求8所述的神经网络模型的处理装置，其中，所述确定模块，包括：

第一生成单元，用于根据初始权重对所述多个胶囊节点对应的仿射节点进行加权求和，以生成所述第i处理层的初始激活输入值；

10.如权利要求8或9所述的神经网络模型的处理装置，其中，所述第二生成模块，包括：

第一确定单元，用于确定所述初始激活输入值对应的模长；

第二生成单元，用于根据所述初始激活输入值对应的模长和第一激活门限，生成第一输出值；

第三生成单元，用于根据所述第一输出值和第二激活门限，生成第二输出值，其中，所述第二激活门限大于所述第一激活门限；

第四生成单元，用于根据所述第二输出值和所述目标胶囊节点的仿射节点对应的模长，生成所述初始激活输出值。

11.如权利要求10所述的神经网络模型的处理装置，其中，所述第二生成单元，还用于：

12.如权利要求10所述的神经网络模型的处理装置，其中，所述第三生成单元，还用于：

13.如权利要求10所述的神经网络模型的处理装置，其中，所述初始激活输出值还可以通过如下公式生成：

14.如权利要求10所述的神经网络模型的处理装置，其中，所述第三生成模块，还用于：

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的神经网络模型的处理方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的神经网络模型的处理方法。