CN108009635A

CN108009635A - 一种支持增量更新的深度卷积计算模型

Info

Publication number: CN108009635A
Application number: CN201711418936.6A
Authority: CN
Inventors: 陈志奎; 高静; 张清辰; 李朋; 孙铭阳
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-08

Abstract

本发明属于大数据实时处理技术领域，公开了一种支持增量更新的深度卷积计算模型，包括如下步骤：通过堆叠张量卷积层、抽样层以及全链接层构建深度卷积计算模型，通过高阶反向传播算法对模型参数进行训练。在不改变模型连接结构的前提下，根据新增数据的特征，通过设计参数更新算法将模型的张量全连接层参数由θ更新为θ+Δθ，使得更新后的参数能够学习新增相似数据的特征；通过设计结构更新算法不断增加网络计算单元方式来更新模型结构迁移历时知识，实现对高速动态变化的数据特征提取。本发明针对大数据的实时性特点，设计支持增量更新的深度卷积计算模型，能够高效地提取大数据的特征。

Description

一种支持增量更新的深度卷积计算模型

技术领域

本发明属于大数据实时处理技术领域，涉及一种支持增量更新的深度卷积计算模型，以应对大数据实时处理带来的挑战。

背景技术

大数据时代的到来带来了很多机遇，也带来了更多的挑战。大数据的一个重要特性是具有实时性，即数据以极快的速度产生，其内容和分布特征均处于高速动态变化之中，而且这些数据要求被快速处理。因此要求特征学习算法能够支持增量式更新，实时地学习高速动态变化数据的特征。增量式学习模型是指建立在已有特征学习模型的基础上，根据当前的新数据实例更新模型的参数与结构，使之能够快速学习新数据的特征；同时需要尽力保持模型的原始知识，使得更新后的模型仍能有效学习历史数据特征。

深度卷积计算模型能够有效的学习数据的特征，然而该模型属于静态学习模型，无法对模型的参数与结构知识进行动态更新，以适应新增数据的变化高效地结合新旧知识。例如，在数据集X训练的模型，在面对具有不同分布的数据集Z中数据时，模型很难得到满意的结果。增量学习是一种有效的融合新旧知识的方法，因此本专利提出一种增量的深度卷积计算模型用来学习处于高速动态变化的大数据特征。

实现支持增量更新的深度卷积计算模型具有两个大的挑战：

(1)快速的参数更新：在稳定的环境中，新增数据分布特征变化不大，对于这一类数据，通过全连接层的参数更新即可实现深度卷积计算模型的增量式学习。传统的参数更新方法在更新参数时时间复杂度高，却未能充分利用现有模型的知识，因此参数更新速度慢，无法满足大数据的实时学习要求。因此如何充分利用现有网络结构结合现有模型的知识，根据新增数据的特征，实现快速的参数更新是支持增量更新的深度卷积计算模型的关键问题。

(2)有效的结构更新：在动态环境中，大数据产生速度快，其分布特征变化明显。对于这一类数据，需要通过增加模型的计算单元，对模型的结构和参数同时进行更新，才能有效学习其分布特征。传统的结构更新模型，构建在向量空间，可以增加任意多个隐藏层神经元。然而高深度卷积计算模型工作在张量空间，模型中卷积、抽样以及全链接层为高阶张量，因此如何设计有效的结构更新规则，有效的迁移历史知识、保证模型的正确性，在增加模型计算单元后如何有效地防止模型过度拟合，实现有效结构的更新是支持增量更新的深度卷积计算模型的关键问题。

深度卷积计算是一种新型技术，它通过其复杂的网络结构，学习到高效的特征参数，进而进行有效的分析预测，同时它通过张量卷积和抽样操作有效地减少模型的参数的数量，但由于模型基于张量表示模型，该技术模型依然存在较多参数，训练过程较为耗时。因此，在大数据时代，对于其应用造成了极大的挑战。主要表现一下三个特性上：

(1)实时性：实时性是指已训练模型能够快速有效的学习新增数据的特征，同时能够保持对历史数据的学习能力，即通过对已有模型的增量训练，直接对现有模型的结构和参数进行更新，从而实现模型对新旧数据的高效学习。

(2)适应性：适应性是指更新后的模型能够对新增数据进行有效学习，即对新增数据的分类及预测误差不断降低。

(3)保持性：保持性是指更新后的模型依然能够保持原有模型的知识，即更新模型依然能够有效学习历史数据的特征。

发明内容

传统的深度卷积计算模型不支持针对高速数据的参数和结构的快速更新，本发明提供了一种支持增量更新的深度卷积计算模型，对深度卷积计算网络模型的参数和结构进行更新，以应对大数据实时高速的特点。

本发明的技术方案：

支持增量更新的深度卷积计算模型需要两个阶段：增量训练和融合训练。在增量训练阶段，参数更新方法利用增强的dropout方法探索全连接层的空闲网络，使其学习新数据中特征；结构更新方法更新各个基础模块的结构和参数，使其学习数据中的特征。在融合训练阶段，首先对全部数据进行随机抽样，然后使用抽样数据对模型的参数进行进一步的调整，有效地获地融合新数据和历史数据中知识，进而可以获得最终的参数。

一种支持增量更新的深度卷积计算模型，通过堆叠张量卷积层、抽样层以及全链接层构建深度卷积计算模型，通过高阶反向传播算法对深度卷积计算模型参数进行训练，包括参数更新和结构更新，具体步骤如下：

(1)参数更新：在不改变模型连接结构的前提下，根据新增数据的特征，通过设计参数更新算法探索模型中空闲网络，使张量全连接层参数由θ更新为θ+Δθ，使得更新后的参数能学习新增数据的特征；首先，为了快速实现模型收敛，计算参数初始化增量使参数进一步收敛于终值；其次，强化训练使全连接层空闲网络结构捕获新增数据中的知识；最终，微调训练将新增数据中的知识融合到历史知识；

1)计算参数初始化增量：通过高阶前向传播算法计算深度卷积计算模型输出值深度卷积计算模型的输出值与输入数据y的差值Δy；通过高阶反向传播算法计算深度卷积计算模型输出值对全连接层参数θ的偏导数计算全连接层参数增量Δθ；

2)增量训练：通过dropout方法生成控制张量，执行增量训练算法，着重更新权重较小节点组成的子网的参数，使全链接网络组合学习新数据中特征；

3)融合训练：通过对全部数据集随机抽样生成训练子集，然后在子集上对无dropout的模型执行高阶反向传播算法，更新网络全连接层参数，将新旧知识融合；

(2)结构更新：通过设计结构更新算法不断增加计算网络单元方式来更新模型结构迁移历时知识，实现对高速动态变化的数据特征提取；首先，设计张量卷积层、抽样层以及全连接层结构更新规则迁移历史知识；其次，通过在全连接层引入dropout策略提高模型的鲁棒性和精确率；最终，微调训练将新知识融合到历史知识；

1)更新模型结构：根据需求更新深度卷积计算模型的卷积层、抽样层以及全连接层的参数θ结构，对网络参数进行初始化，原始参数保持不变，新增节点初始化为服从正太分布的接近0值的小数，虚拟节点参数保持0；

2)增量训练：利用dropout方法在全连接层生成控制矩阵，在新增数据上利用前向传播计算dropout模型的隐藏层神经元输出值与模型输出值计算模型输出值与输入数据Y的误差函数利用高阶反向传播算法计算误差函数对模型参数的偏导数，更新dropout网络的参数，直至收敛；

3)融合训练：通过对全部数据集随机抽样生成训练子集，然后在子集上对标准dropout模型执行高阶反向传播算法，更新网络抽样层、卷积层以及全连接层参数，将新旧知识融合。

本发明的有益效果：本发明针对大数据的高速增长和实时性的特点设计了支持增量更新的深度卷积计算模型，以克服基本深度卷积计算模型无法对参数和结构进行动态更新，实时的学习新增数据的特征。重点是设计了基于dropout参数更新方法和基于增加中间层计算单元的结构更新方法。

附图说明

图1是两层神经网络示意图。

图2是更新结构后的两层神经网络示意图。

图3是典型的高阶限制网络示意图。

图4是CIFAR适应性试验结果示意图。

图5是CIFAR保持性试验结果示意图。

图6是CIFAR收敛世间结果示意图。

图7是CUAVE适应性试验结果示意图。

图8是CUAVE保持性试验结果示意图。

图9是CUAVE收敛时间验结果示意图。

图10是本发明的工作流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

参数增量算法，探索模型的全连接层中的空闲网络，并着重更新这些网络的参数使其学习新的特征，用于动态学习具有相似分布的新增数据的特征，包括参数增量计算过程和增量训练过程。

参数增量计算过程，用于计算参数初始化增量，从而加快参数更新。对于深度卷积计算模型来讲，其全链接层参数θ＝{W,b}都是高阶张量。例如，当输入数据为N阶张量时，b和W分别由N阶张量和N+1阶张量。为了快速求出参数的增量Δθ，本发明将模型的参数展开成其对应的向量形式，在向量空间计算参数的增量。

根据增量式学习的性质，本发明提出的基于参数更新的深度卷积计算模型在计算参数增量时，要使更新后的参数尽可能的趋于参数终值，即要尽力使得更新的模型能够学习新数据的特征，适应性；同时尽力保持模型的原始知识，使得更新后的模型依然能够有效学习历史数据的特征，保持性。因此，对于给定的新增训练数据X，为了获得模型的适应性，定义基于权重的适应性误差函数J_adaption如公式(1)所示：

其中，Ω是权重矩阵，典型的权重矩阵取值为表示模型参数由θ更新为θ+Δθ后的重构误差。θ表示模型的原始参数，Δθ表示参数θ的增量，u表示学习效率。y表示输入数据；T表示转置。

为了度量参数更新后模型的保持性，定义参数更新误差函数J_preservation如公式(2)所示：

为了兼顾参数更新的适应性与保持性，定义代价函数J(x,θ+Δθ)如公式(3)所示：

J(x,θ+Δθ)＝J_adaption+J_preservation (3)

其中，μ表示学习效率。

参数增量计算方法通过最小化代价函数J(x,θ+Δθ)求解模型参数的增量Δθ。由于模型采用非线性函数logistic刻画数据间的复杂关系，最小化代价函数J(x,θ+Δθ)是一个典型的非线性优化问题。为了达到快速计算参数增量Δθ的目的，本发明采用公式(3)的近似解，本发明首先利用泰勒定理对展开：

由于Δθ很小，因此可将进行一阶近似为：

进一步可得：

因此，代价函数J(x,θ+Δθ)可以近似为：

代价函数J(x,θ+Δθ)对Δθ求导，令导数等于0，求得Δθ的近似计算公式如下：

方程(8)的近似解为：

Δθ的这个近似解求出来后将其转换成对应的张量形式。

增量训练过程，用于探索模型全连层中的空闲结构，使其学习新增数据的特征。对于深度卷积计算模型来讲，其全链接层参数θ＝{W,b}都是高阶张量。为了探索模型中的空闲网络，本发明设计了增强dropout技术。

根据增量式学习的性质，本发明提出的基于参数更新的深度卷积计算模型在增量训练过程中，要尽力使得更新后的模型能够学习新数据的特征，适应性；同时尽力保持模型的原始知识，使得更新后的模型依然能够有效学习历史数据的特征，保持性。因此，对于给定网络，当输入数据为N阶张量时，W由N+1阶张量表示，为(N-1)阶子权重张量的集合，为了模型的适应性和保持性，定义了(N-1)阶子权重张量的模：

其中，w表示(N-1)阶子权重张量，||w||表示(N-1)阶子权重张量的模；i表示索引下标；I表示张量阶；n表示张量的阶数。

然后，使用权重张量的模，依据半径为R₁和R₂球面将权重空间划分为三部分：

W_A:0<||w||<R₁ (11)

W_B:R₁≤||w||<R₂

W_C:||w||≥R₂

依据前向传播计算过程可知，权重空间W_A中的权重由于其模值太小，在前向传播过程中贡献的激活值也会很小，对特征学习具有较小的作用；权重空间W_C中的权重模值太大，在前向传播过程中贡献的激活值会覆盖大多数计算节点的作用，包含某些特例信息。因此，可以得出历史数据中的特征主要包含于权重空间W_B中权值。依据增量学习的性质，所以在增量训练过程中，应该尽可能训练权值空间W_A和W_C中权值点，同时尽可能地保护权重空间W_B中权值点。因此，为了实现上述协调训练，本发明设计了一个增强的dropout方法。

为每一个权重空间中的计算节点分配一个概率开关，从而随机控制每个权重点在前向传播和反向传播过程中出现几率，如下：

w∈W_A～Bernouli(p_A) (12)

w∈W_B～Bernouli(p_B),p_A>p_C>p_B

w∈W_C～Bernouli(p_C)

这样使得空闲节点组成的网络在新数据中得到充分训练，从而学习新的特征，增强dropout前向传播过程如下：

1)根据公式(12)为每个全连接层生成由0与1组成的开关张量M，控制在每次训练过程中组成训练网络的节点。

2)由初始参数增量更新网络参数：

其中，ΔW表示W的增量；表示张量与向量的元素乘积。

3)计算全连接层的输出：

其中和分⊙别表示张量间的元素乘积和张量间的多点乘积。

增强的dropout反向传播过程如下：

1)计算输出层中每个计算单元的Δδ^l如下：

其中，δ^l表示输出层传播损失；a^(l)表示网络的输出值；y^(l)表示实例标签；z^(l)表示网络第l-1层加权激活值和；f`(z^(l))表示非线性函数导数；J_DCCM表示网络的总体代价函数。

2)计算其他全连接层计算单元的Δδ^l如下：

其中，δ^t表示第l层的传播损失；W^l表示第l层权重；f`(z^(l))表示非线性函数导数。

3)计算每层权重和偏执的更新值如下：

其中，A表示本层激活值张量；M^l表示第l层开关张量；表示扩张后与本层激活值相同阶数与维数的损失张量；Δb^l表示第l层偏置张量。

融合训练，用于将模型学习到的新知识与历史知识融合，具体步骤为从全部数据集中随机抽样部分数据，然后使用高阶反向传播算法在抽样数据集上训练增量训练后的无dropout深度卷积计算模型。

参数更新算法主要步骤如下：

1)计算参数初始化增量。通过高阶前向传播计算深度卷积计算模型输出值计算模型的输出值与输入参数y的差值Δy；通过高阶反向传播算法计算模型输出值对全连接层参数θ的偏导数计算全连接层参数增量Δθ。

2)增量训练。通过dropout方法生成控制张量，执行增量训练算法，着重更新权重较小节点组成的子网的参数，使全链接网络组合学习新数据中特征。

3)融合训练。通过对全部数据集随机抽样生成训练子集，然后在子集上对无dropout的模型执行高阶反向传播算法，更新网络全连接层参数，将新旧知识融合。更具体的算法如下：

通过参数更新算法的步骤可知，在参数增量在保证适应性和保持性的同时减少了增量训练的时间，增量训练在保护历史知识的同时利用全连层中空闲网络学习新数据的特征，进一步提高了模型的适应性和保持性，算法中的融合训练利用较少的历史数据和新数据融合模型新旧知识。除此之外，主要运算是计算全链接层的参数更行，因此，算法的时间复杂度要远远低于静态的深度卷积计算模型，所以参数更新速度能够在最大程度上满足大数据特征学习的实时性要求。

结构更新算法，通过设计张量卷积、抽样以及全连接层地更新规则有效地结合历史知识从而快速地学习动态大数据地特征。根据深度卷积计算模型的定义，网络的结构由全连接层网络和限制层网络组成。根据模型的后向设计原则，本发明首先阐述全连层网络的更新规则，然后在阐述限制层网络更新规则。

根据深度卷积计算模型的定义可知，对于网络结构而言，两层神经网络是深度卷积计算模型全连接层最简单的形式。本发明首先阐述两层神经网络的结构更新方法，进而将其扩展到高阶张量空间，获得高阶深度卷积计算模型全连接层结构更新算法的一般形式。

对于一个具有m个输入特征和n个输出特征的两层神经网络，其模型结构如图1所示。该模型参数θ＝{W,b}，具有如下形式：

W∈R^n×m,b∈Rⁿ (10)

对于图1显示的两层神经网络，当p个神经元添加到网络的输入层，q个神经与添加到网络的输出后，其结构变成如图2所示。

当网络中每层增加神经元后，需要调整参数形式，以适应网络的连接。具体地说，权重矩阵W分别需要增加p行和q列，即W∈R^(n+q)×(n+p)；同时偏置向量b需要增加一个分量，即b∈R^n+q。

对于上述两层神经网络而言，增加输入输出层神经元后，本发明首先将原始权重矩阵中的值复制到更新后的权重矩阵的对应位置，然后将新增参数初始值设置为接近于0，服从正态分布的随机数。类似地，首先将原始偏置的元素复制到新偏置的对应位置，然后将新增偏置初始化为1。设两层神经网络当前参数为θ＝{W,b}，增加p个神经元添加到网络的输入层，q个神经与添加到网络的输出后的参数初始形式如下：

更新结构后，以θ_updated＝{W_updated,b_updated}为初始参数，利用反向传播算法求得全连接层的最终参数。

接下来，本发明将两层神经网络更新算法扩展到高阶空间，设计基于增加中间层计算单元的高阶全连接层结构更新算法。对于两层神经网络而言，一次可以增加一个或者多个计算单元。然而，高阶全连接层网络地定义基于张量多点乘积，向网络里添加计算节点时，为了保持张量多点乘积的正确性，一次能够增加的计算层的数目取决于高阶全连接层的结构。为了能够实现向网络中添加任意数量的计算节点，本发明在增加计算节点的同时引入虚拟计算节点，具体过程如下：

对于一个输入层结构为输出层结构为为的两层高阶全连接网络，其参数θ＝{W,b}的形式为：

其中，R表示实数集；J表示张量的阶数。

对于该两层全连接网络，在增加任意数量计算单元M到输入层时，为了保证计算结构正确性同时增加N个虚拟计算节点，N的计算如下：

N＝L×I₂×I₃…I_N-M

其中，表示向上取整函数。更新后的网络模型θ＝{W,b}形式变为：

类似地，当增加任意数量计算单元M到输出层时，网络的参数θ＝{W,b}更新为：

更一般地，当增加任意数量M₁计算单元到输入层M₂计算节点到输出层时，更新后的模型参数形式变为：

下面给出深度卷积计算模型限制网络的结构更新规则。限制网络的结构更新主要体现在卷积核与抽样核的更新。对于3所示的3层网络为最典型的高阶限制层网络。

对于图3所示的典型高阶限制网络，输入特征为张量，卷积核张量由s个子卷积核组成，抽样核张量由s个子抽样核组成，该限制网络的参数具有如下形式：

其中K_c、K_p、O_c以及O_p分别为模型(N+1)阶卷积核、抽样核，卷积层输出以及抽样层输出；H表示输出层阶数。

保持模型输入特征张量不变，在卷积层中增加一个N阶子卷积核k_ci，同时由于模型的限制，抽样层相应地增加一个N阶子抽样核k_pi，由于网络的结构发生变化，网络的参数作出相应变化为：

更一般的情况，当网络中增加M个卷积核和M个抽样核时，网络的参数变为一下形式：

结构更新完成后，利用类似于高阶全连接层更新方法初始化更新后的高阶限制网络的参数，即原始张量卷积核和张量抽样核参数保持不变，然后新增分量的张量卷积核和张量抽样核参数初始值设置服从正太接近于0的随机小数。同时由于在网络增加计算节点的过程中很容易产生过度拟合，因此本发明将标准的dropout方法扩展到高阶张量空间，从而增加模型的泛化能力。

融合训练，用于将模型学习到的新知识与历史知识融合，具体步骤为从全部数据集中随机抽样部分数据，然后使用高阶反向传播算法在抽样数据集上训练增量训练后的深度卷积计算模型。

根据以上分析，深度卷积计算模型结构更新算法的主要步骤如下：

1)更新模型结构。根据需求更新深度卷积计算模型的卷积层、抽样层以及全连接层的参数结构，对网络参数进行初始化，原始参数保持不变，新增节点初始化为服从正太分布的接近0值的小数，虚拟节点参数保持0。

2)增量训练。利用dropout方法在全连接层生成控制矩阵，在新数据上利用前向传播计算dropout模型的隐藏层神经元输出值与模型输出值计算模型输出值与输入数据Y的误差函数利用高阶反向传播算法计算误差函数对模型参数的偏导数，更新dropout网络的参数，直至收敛；

3)融合训练。通过对全部数据集随机抽样生成训练子集，然后在子集上对标准dropout模型执行高阶反向传播算法，更新网络抽样层、卷积层以及全连接层参数，将新旧知识融合；详细的结构增量深度卷积计算模型算法的更新过程如下：

结构增量算法将新引入的参数与原始参数结合作为更新的深度卷积计算模型的初始参数，充分利用原始参数提供的知识，加快参数求解的收敛速度，使得模型快速收敛，实现学习大数据特征快速学习；同时增量训练以及最后的融合训练过程所采用扩展的dropout方法增加了模型泛化能力，有效地阻止了增加计算单元所导致的模型过度拟合。从算法的步骤中可知，结构增量算法主要采用高阶反向传播算法求解网络误差函数对网络参数的偏导数，因此算法的时间复杂度与高阶反向传播算法时间复杂度相同。

结合本发明的方案，进行实验分析如下：

为了验证本发明的有效性，将用增量式深度卷积计算模型和静态深度卷积计算模型进行对比，验证增量式深度卷积计算模型的有效性。实验数据集采用CIFAR和CUAVE两个典型的分类数据集。

在基于张量的数据表示模型中，CIFAR数据集中的每张图片被表示成一个三阶张量。由于CIFAR数据集中数据变化不明显，特征增量小，仅需要通过探索全连接层空闲网络，更新全连接层空闲网络的网络参数学习新数据的特征。因此，本发明使用CIFAR数据集验证参数增量式更新算法的有效性。通过适应性、保持性和更新效率进行验证。

为了验证增量式深度计算模型的有效性，根据CIFAR数据集设计如下三个子集：

1)S₁：抽取于CIFAR的训练集，包含每个超类下4个子类的数据对象，其用来对模型做初始化训练；

2)S₂：抽取于CIFAR的训练集，包含每个超类下剩余一个子类的数据对象，其用来对模型做增量化训练；

3)S₃：抽取于CIFAR的测试集，包含与S₁数据对线具有相同标签的对象，其用来测试模型的保持性；

4)S₄：抽取于CIFAR的测试集，包含与S₂数据对线具有相同标签的对象，其用来测试模型的适应性；

在实验过程基于以上数据训练子集，可以得到如下训练模型：

1)DCCM：深度卷积计算模型由高阶反向传播算法在数据子集s₁训练得到的参数集；

2)DCCM-PIL-2：深度卷积计算模型由参数增量算法在数据子集s₁、s₂训练得到的参数集；

3)DCCM-3：深度卷积计算模型由高阶反向传播算法在数据子集s₁、s₂训练得到的参数集；

为了验证模型的对新数据的适应性，本发明采用对新数据分类正确率作为验证标准，即将DCCM、DCCM-PIL-2以及DCCM-3参数集对应的模型，在增量数据子集s₄执行并统计模型准确率，重复实验5次，实验结果如图4所示。

从实验结果可以看出，DCCM-PIL-2参数集对应的模型对新数据的分类精确度远远高于以DCCM作为参数的模型。这是由于基本的深度卷积计算模型是一种静态学习模型，一旦参数确定后，便不再进行更新，因此难以有效学习新数据的特征。与基本深度计算模型不同，增量式深度计算模型以增量的方式对参数进行不断地更新，使得模型能够学习新数据的特征。这表明增量式深度卷积计算模型在对参数进行更新后，能够适应新数据的变化，有效学习新数据的特征。同时，可以看到以DCCM-PIL-2模型与DCCM-3模型对新增数据的产生了相似分类精度，由于DCCM-3是通过对新数据实例与原始数据整体执行基本深度卷积计算模型获得的结果，包含了所有数据实例的信息，这一点从侧面反应了DCCM-PIL-2对新数据的适应效率。

接下来，为了验证模型的对新数据的保持性，本发明采用对新数据分类正确率作为验证标准，即将DCCM、DCCM-PIL-2以及DCCM-3参数集对应的模型，在增量数据子集s₃执行并统计模型准确率，重复实验5次，实验结果如图5所示。

以上实验结果表明，DCCM、DCCM-PIL-2以及DCCM-3参数模型产生了相似分类精度，这说明了参数增量算法在学习数据特征的同时有效的保护了历史特征信息。DCCM-PIL-2产生分类精度稍低于DCCM和DCCM-3参数模型的分类精度，这是由于DCCM和DCCM-3参数模型一次性在整个历史数据上做的训练，训练完成后参数没有改动，模型中的特征信息没有发生变动，这些结果说明了本发明中参数增量算法具有较好的保持性。

上述两个实验结果表明本发明提出的算法通过参数的更新使得更新模型能够有效的学习新数据的特征，同时有效的保持了网络原始知识。

接下来，通过收敛时间验证参数增量深度卷积计算模型的收敛性。作为对比，在新增数据集上和抽样数据上对深度卷积计算模型执行增量训练算法得到DCCM-PIL，在全部数据集上其执行高阶反向传播算法得到DCCM-3，实验结果如图6所示。

从图6可以看出，DCCM-PIL的训练收敛时间远少于DCCM-3时间，从而可以看出，参数增量收敛速度远远比基本深度计算模型快。两方面原因，一是基本的深度计算模型算法容易受到数据集和初始化的影响，因此收敛不稳定收敛时间长；二是本发明在学习新数据特征时，利用全连接层的空闲网络，捕获相似特征的不同组合，有效利用原有知识，因此在学习新的数据特征的时候，能够快速收敛，从而在一定程度上满足动态变化大数据特征学习的实时性要求。

综上所述，本发明提出的算法同时满足增量式学习的两个特性：1)有效地学习新数据的特征，即对新数据的适应性；3)尽可能地保持原始知识，有效学习原始数据的特征，即对历史数据的保持性；在更新参数过程中，充分利用模型的原始知识，快速收敛，提高参数更新效率，最大程度上满足动态变化的大数据特征的实时性。

在这本实验中，由于CUAVE中是一个异构数据集，数据集中属于不同类的对象之间差距明显，因此将利用CUAVE这个数据集验证基于结构更新算法的有效性。

本发明通过适应性、保持性以及更新收敛效率对结构增量算法结构算法进行验证，因此根据CUAVE数据集设计如下数据子集：

1)s₁：抽取于CUAVE的训练集，包含具有标签0到标签7的数据对象，其用来对模型做初始化训练；

2)s₂：抽取于CUAVE的训练集，包含训练集中的剩余对象，即具有标签8和标签9的数据对象，其用来对模型做增量训练；

3)s₃：抽取于CUAVE的测试集，包含具有标签0到标签7的数据对象，其用来验证模型的保持性；

4)s₄：抽取于CUAVE的测试集，包含测试集中的剩余对象，即具有标签8和标签9的数据对象，其用于验证模型的适应性。

1)DCCM-1：深度卷积计算模型由高阶反向传播算法在数据子集s₁训练得到的参数集；

2)DCCM-SIL：深度卷积计算模型由结构增量算法在数据子集s₁、s₂训练得到的参数集；

3)DCCM-2：深度卷积计算模型由高阶反向传播算法在数据子集s₁、s₂训练得到的参数集；

为了验证模型的对新数据的适应性，本发明采用对新数据分类正确率作为验证标准，即将DCCM-1、DCCM-SIL以及DCCM-2参数集对应的模型，在增量数据子集s₄执行并统计模型准确率，重复实验5次，实验结果如图7所示。

从实验结果中可以看出，DCCM-SIL模型对对增量测试子集s₄进行分类效果要远远优于DCCM-1模型。具体点，DCCM-SIL模型对增量测试子集s₄进行分类平均准确率在90％，相比之下，DCCM-1为模型对增量测试子集s₄进行分类平均准确率64％。由于深度卷积计算模型是一种静态的学习模型，在新的数据到来之后，并不会对模型的结构和参数进行更新，没有实时的更新模型知识，无法有效的学习新数据的结构，因此在增量测试子集s₄进行分类时，准确率低。本发明设计增量式深度卷积计算模型可以根据新数据的特征分布，动态调整模型的结构与参数，有效学习处于动态变化之中大数据的特征，因此DCCM-SIL模型在增量测试子集s₄进行分类得到的准确率明显高于DCCM-1。另外，试验结果还可以得到，DCCM-SIL与在全部数据上以高阶反向传播算法训练得到的模型DCCM-2产生了近似的结果，这一点进一步验证计增量式深度卷积计算模型的有效性。以上试验结果充分说明本发明提出的基于结构更新的增量式学习模型能够适应新数据的变化，有效的学习新数据的特征。

接下来，为了验证模型的对历史数据的保持性，本发明采用对历史数据分类正确率作为验证标准，即将DCCM-1、DCCM-SIL以及DCCM-2参数集对应的模型，在历史数据子集s₃执行并统计模型准确率，重复实验5次，实验结果如图8所示。

从以上实验结果可以看出，DCCM-1、DCCM-SIL以及DCCM-2模型对历史数据集s₃具有较好的分类结果，分类准确率达到90％左右，这是因为本发明在更新模型结构与参数时，以模型的原始知识为基础，在原始结构和参数的基础上对模型进行更新。更新后的模型结构和参数都包含了历史数据的特征信息。另外，在大多数情况下DCCM-SIL和DCCM-2模型对历史数据的分类效果要由于DCCM-1模型，这是由于DCCM-SIL和DCCM-2模型的训练数据集要多于DCCM-1，模型得到更有效的训练，从而提高了模型参数的泛化能力。值得一提的是，在第四次试验中DCCM-SIL对历史数据集的分类效果最好，这是由于，结构增量算法中扩张的dropout方法进一步挺高模型的鲁棒性。因此本发明提出的算法对模型进行更新后，更新的模型仍然能够有效的学习历史数据的特征，即更新的模型具有很好的保持性。

上述两个实验结果表明，本发明提出的结构增量式学习模型能够有效的适应新的数据变化，即有效的学习动态变化的大数据特征；同时有效的保持了对原始知识的保持性，即更新的模型依然能够有效的学习历史数据的特征。

接下来，通过收敛时间验证结构增量深度卷积计算模型的收敛性。作为对比，在新增数据集上和抽样数据上对深度卷积计算模型执行增量训练算法得到DCCM-SIL，在全部数据集上其执行高阶反向传播算法得到DCCM-2，二者在采用相同的结构。实验结果如图9所示。

从图9可以看出，在模型结构相同时，DCCM-SIL的训练收敛时间远少于DCCM-2时间，从而可以看出，结构增量收敛速度远远比基本深度计算模型快。两方面原因，一是基本的深度计算模型算法容易受到数据集和初始化的影响，因此收敛不稳定收敛时间长；二是本发明在更新模型时，结合原始参数对更新后的模型进行初始化，充分利用原有知识，因此在学习新的数据特征的时候，能够快速收敛，从而在一定程度上满足动态变化大数据特征学习的实时性要求。

Claims

1.一种支持增量更新的深度卷积计算模型，通过堆叠张量卷积层、抽样层以及全链接层构建深度卷积计算模型，通过高阶反向传播算法对深度卷积计算模型参数进行训练，包括参数更新和结构更新，其特征在于，具体步骤如下：

1)计算参数初始化增量：通过高阶前向传播算法计算深度卷积计算模型输出值深度卷积计算模型的输出值与输入数据y的差值Δy；通过高阶反向传播算法计算深度卷积计算模型输出值对全连接层参数θ＝{W,b}的偏导数当输入数据为N阶张量时，b和W分别由N阶张量和N+1阶张量表示；计算全连接层参数增量Δθ，为了快速求出全连接层参数增量Δθ，将深度卷积计算模型的参数展开成其对应的向量形式，在向量空间计算参数的增量；

对于给定的新增数据X，为了获得深度卷积计算模型的适应性，定义基于权重的适应性误差函数J_adaption如公式(1)所示：

<mrow> <msub> <mi>J</mi> <mrow> <mi>a</mi> <mi>d</mi> <mi>a</mi> <mi>p</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msubsup> <mi>&Delta;y</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> <mi>T</mi> </msubsup> <msub> <mi>&Omega;&Delta;y</mi> <mrow> <mi>n</mi> <mi>e</mi> <mi>w</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中，Ω是权重矩阵，取值为表示模型参数由θ更新为θ+Δθ后的重构误差；θ表示模型的原始参数，Δθ表示参数θ的增量，u表示学习效率；y表示输入数据；T表示转置；

<mrow> <msub> <mi>J</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mi>v</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <mi>&mu;</mi> </mrow> </mfrac> <msup> <mi>&Delta;&theta;</mi> <mi>T</mi> </msup> <mi>&Delta;</mi> <mi>&theta;</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

J(x,θ+Δθ)＝J_adaption+J_preservation (3)

其中，μ表示学习率；

参数增量计算方法通过最小化代价函数J(x,θ+Δθ)求解模型参数的增量Δθ；本方法采用公式(3)的近似解，首先利用泰勒定理对展开：

由于Δθ很小，因此将进行一阶近似为：

进一步得：

因此，代价函数J(x,θ+Δθ)近似为：

方程(8)的近似解为：

Δθ的这个近似解求出来后将其转换成对应的张量形式；

对于给定网络，当输入数据为N阶张量时，W由N+1阶张量表示，为(N-1)阶子权重张量的集合，为了模型的适应性和保持性，定义了(N-1)阶子权重张量的模：

<mrow> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>|</mo> <mo>=</mo> <mi>w</mi> <mo>&CircleTimes;</mo> <mi>w</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <msub> <mi>i</mi> <mn>1</mn> </msub> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>I</mi> <mn>1</mn> </msub> </munderover> <mo>...</mo> <munderover> <mo>&Sigma;</mo> <msub> <mi>i</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <msub> <mi>I</mi> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </munderover> <msubsup> <mi>w</mi> <mrow> <msub> <mi>i</mi> <mn>1</mn> </msub> <msub> <mi>i</mi> <mn>2</mn> </msub> <mo>...</mo> <msub> <mi>i</mi> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中，w表示(N-1)阶子权重张量，||w||表示(N-1)阶子权重张量的模；i表示索引下标；I表示张量阶；n表示张量的阶数；

W_A:0<||w||<R₁ (11)

W_B:R₁≤||w||<R₂

W_C:||w||≥R₂

w∈W_A～Bernouli(p_A) (12)

w∈W_B～Bernouli(p_B),p_A>p_C>p_B

w∈W_C～Bernouli(p_C)

2.1)根据公式(12)为每个全连接层生成由0与1组成的开关张量M，控制在每次训练过程中组成训练网络的节点；

2.2)由初始参数增量更新网络参数：

<mrow> <msub> <mi>W</mi> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>=</mo> <mi>W</mi> <mo>+</mo> <mi>&Delta;</mi> <mi>W</mi> <mo>&CircleTimes;</mo> <mi>M</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>13</mn> <mo>)</mo> </mrow> </mrow>

其中，ΔW表示W的增量；表示张量与向量的元素乘积；

2.3)计算全连接层的输出：

<mrow> <mi>O</mi> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mi>t</mi> </mrow> </msub> <mo>&Theta;</mo> <mi>X</mi> <mo>&CircleTimes;</mo> <mi>M</mi> <mo>+</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

其中，和分别表示张量间的元素乘积和张量间的多点乘积；

增强的dropout反向传播过程如下：

3.1)计算输出层中每个计算单元的Δδ^l如下：

<mrow> <msup> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <mo>&part;</mo> <msub> <mi>J</mi> <mrow> <mi>D</mi> <mi>C</mi> <mi>C</mi> <mi>M</mi> </mrow> </msub> </mrow> <mrow> <mo>&part;</mo> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> <mo>=</mo> <mfrac> <mo>&part;</mo> <mrow> <mo>&part;</mo> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <mrow> <msup> <mi>a</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>=</mo> <mo>(</mo> <mrow> <msup> <mi>a</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msup> </mrow> <mo>)</mo> <mo>&CircleTimes;</mo> <msup> <mi>f</mi> <mo>`</mo> </msup> <mo>(</mo> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

其中，δ^l表示输出层传播损失；a^(l)表示网络的输出值；y^(l)表示实例标签；z^(l)表示网络第l-1层加权激活值和；f`(z^(l))表示非线性函数导数；J_DCCM表示网络的总体代价函数；

3.2)计算其他全连接层计算单元的Δδ^l如下：

其中，δl表示第l层的传播损失；W^l表示第l层权重；f`(z^(l))表示非线性函数导数；

3.3)计算每层权重和偏执的更新值如下：

<mrow> <msup> <mi>&Delta;W</mi> <mi>l</mi> </msup> <mo>=</mo> <msup> <mi>M</mi> <mi>l</mi> </msup> <mo>&CircleTimes;</mo> <mi>A</mi> <mo>&Theta;</mo> <msubsup> <mi>&delta;</mi> <mi>E</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msubsup> <mo>,</mo> <msup> <mi>&Delta;b</mi> <mi>l</mi> </msup> <mo>=</mo> <msup> <mi>&delta;</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>

其中，A表示本层激活值张量；M^l表示第l层开关张量；表示扩张后与本层激活值相同阶数与维数的损失张量；Δb^l表示第l层偏置张量；

1)更新模型结构：根据需求更新深度卷积计算模型的卷积层、抽样层以及全连接层的参数结构，对网络参数进行初始化，原始参数保持不变，新增节点初始化为服从正太分布的接近0值的小数，虚拟节点参数保持0；