CN108734301A

CN108734301A - 一种机器学习方法和机器学习装置

Info

Publication number: CN108734301A
Application number: CN201810503550.3A
Authority: CN
Inventors: 陈俊龙; 刘竹琳
Original assignee: MACAO UNIV
Current assignee: MACAO UNIV; University of Macau
Priority date: 2017-06-29
Filing date: 2018-05-23
Publication date: 2018-11-02

Abstract

本发明提供了一种机器学习方法和机器学习装置。所述机器学习方法包括：根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；利用第一随机权重和第一随机数基于原始输入矩阵构建映射特征节点矩阵；利用第二随机权重和第二随机数基于映射特征节点矩阵构建增强节点矩阵；根据由映射特征节点矩阵和增强节点矩阵组成的增广矩阵以及原始输出矩阵来确定连接权重矩阵。在本发明的机器学习方法和机器学习装置中，不仅添加了神经网络中输入层与输出层直接的连接的因素，而且添加了输入层与输出层之间更多隐藏层的因素，因此具有既能满足计算效率又能保证学习精度的宽度学习方法的优势。

Description

一种机器学习方法和机器学习装置

技术领域

本发明涉及人工智能领域,特别涉及一种机器学习方法和机器学习装置。

背景技术

深层结构祌经网络和学习已经在许多领域得到应用，并在许多应用中取得了突破性的成功，特别是在大规模数据处理中。其中，最受欢迎的深度网络是深度彳目任网络(Deep Belief Networks，DBN)，深度玻尔兹曼机器(Deep Boltzmann Machines，DBM)间和卷积祌经网络(Convolutional neural Networks，CNN)。即使深度结构网络如此强大，但大多数网络都受到极度耗时的训练过程的困扰，因为以上深度结构复杂并且涉及到大量的超参数。此外，这种复杂性使得在理论上分析深层结构变得困难。为了在应用中获得更高的精度，模型不得不增加网络层数或者调整参数个数。最近，一系列以提高训练速度为目的的深度结构的方法,以及一系列结合方法逐渐引起人们关注。

单层前馈祌经网络(Single layer feed forward neural networks，SLFN)已被广泛应用于分类和回归等问题，因为它们具有全局的逼近性质。训练SLFN的常规方法是基于梯度下降的学习算法。它们的泛化性能对某些参数设置，例如学习率，非常敏感。更重要的，他们通常在训练过程中局限在局部最小值中。由Pao提出的随机向量函数链接祌经网络(random vector functional link neural network，RVFLNN)提供了不同的学习方法。

RVFLNN有效地消除了训练过程过长的缺点，同时也提供了函数逼近的泛化能力。同时，理论上也可以证明，对于紧集上的连续函数，RVFLNN是具有快速学习特性的全局近似。因此，RVFLNN已经被用来解决不同领域的问题，包括函数建模和控制等应用。虽然RVFLNN显着提高了感知器的性能，但是在当今大数据时代，仿真模拟以大容量和时间多变性为本质特性的大数据时，这种网络并不能胜任。为了对中等大小数据进行建模，提出了一种动态逐步更新算法，用于更新RVFLNN中新增加输入数据和新添加的增强节点的输出权重。这项工作为调整遇到新的输入数据的系统铺平了道路。

如今，除了数据量的增长之外，数据的维度也大大增加。假如将原始的”大“数据直接输入祌经网络，系统往往无法再保持其有效性。如何处理高维数据最近成为迫在眉睫的问题。克服这个难题的两个常见做法是降维和特征提取。其中，特征提取目的是寻求从输入数据到特征向量的最佳函数变换。易于实现和效率突出的特征提取常用方法包括，变量排序(variable ranking)，特征子集选择(feature subset selection)，惩罚最小二乘法(penalized least squares，随机特征提取方法，包括非自适应随机投影(non-adaptiverandom projections)和随机森林(random forest)以及基于卷积的输入映射等等。但是这些方法都无法实现效率和精度的最优。

发明内容

为了解决上述问题，本发明提供一种机器学习方法和机器学习装置，能够保证效率和精度的最优。第一方面，提供了一种机器学习方法，包括：根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；利用第一随机权重和第一随机数基于所述原始输入矩阵构建映射特征节点矩阵；利用第二随机权重和第二随机数基于所述映射特征节点矩阵构建增强节点矩阵；根据由所述映射特征节点矩阵和所述增强节点矩阵组成的增广矩阵以及所述原始输出矩阵来确定连接权重矩阵。

根据第一方面所述的机器学习方法，所述利用第一随机权重和第一随机数基于所述原始输入矩阵构建映射特征节点矩阵，包括：基于如下公式构建所述映射特征节点矩阵：Zⁱ＝[Z₁,…,Z_i]，其中，映射特征节点Z_i＝Φ_i(XW_ei+β_ei)，W_ei为具有适当维度的所述第一随机权重，β_ei为第一随机数。

根据第一方面所述的机器学习方法，所述利用第二随机权重和第二随机数基于所述映射特征节点矩阵构建增强节点矩阵，包括：基于如下公式构建所述增强节点矩阵：Hⁱ＝[H₁,…,H_i]，其中，增强节点H_i＝ξ_i(ZⁱW_hi+β_hi)，W_hi为具有适当维度的所述第二随机权重，β_hi为第二随机数。

根据第一方面所述的机器学习方法，所述方法还包括：利用所述第一随机权重和所述第一随机数基于所述原始输入矩阵构建增量映射特征节点矩阵；利用岭回归近似法确定作为所述增量映射特征节点矩阵的伪逆的第一伪逆矩阵；利用所述第一伪逆矩阵更新所述连接权重矩阵。

根据第一方面所述的机器学习方法，所述方法还包括：利用所述第二随机权重和所述第二随机数基于所述映射特征节点矩阵构建增量增强节点矩阵；利用岭回归近似法确定作为所述增量增强节点矩阵的伪逆的第二伪逆矩阵；利用所述第二伪逆矩阵更新所述连接权重矩阵。

根据第一方面所述的机器学习方法，所述方法还包括：根据新增训练样本构建增量原始输入矩阵和增量原始输出矩阵；利用岭回归近似法确定作为所述增量原始输入矩阵的伪逆的第三伪逆矩阵；根据所述第三伪逆矩阵和所述增量原始输出矩阵来更新所述连接权重矩阵。

根据第一方面所述的机器学习方法，根据由所述映射特征节点矩阵和所述增强节点矩阵组成的增广矩阵以及所述原始输出矩阵来确定连接权重矩阵，包括：利用岭回归近似法确定作为所述扩展增强矩阵的伪逆的第四伪逆矩阵；将所述第四伪逆矩阵与所述原始输出矩阵相乘得到所述连接权重矩阵。

根据第一方面所述的机器学习方法，所述方法还包括：利用奇异值分解简化所述矩阵中的至少一个。

第二方面，提供了一种机器学习装置，包括：第一构建模块，根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；第二构建模块，利用第一随机权重和第一随机数基于所述原始输入矩阵构建映射特征节点矩阵；第三构建模块，利用第二随机权重和第二随机数基于所述映射特征节点矩阵构建增强节点矩阵；确定模块，根据由所述映射特征节点矩阵和所述增强节点矩阵组成的增广矩阵以及所述原始输出矩阵来确定连接权重矩阵。

根据第二方面所述的机器学习方法，所述第二构建模块具体被配置为：基于如下公式构建所述映射特征节点矩阵：Zⁱ＝[Z₁,…,Z_i]，其中，映射特征节点Z_i＝Φ_i(XW_ei+β_ei)，W_ei为具有适当维度的所述第一随机权重，β_ei为第一随机数；所述第三构建模块具体被配置为：基于如下公式构建所述增强节点矩阵：Hⁱ＝[H₁,…,H_i]，其中，增强节点H_i＝ξ_i(ZⁱW_hi+β_hi)，W_hi为具有适当维度的所述第二随机权重，β_hi为第二随机数。

在本发明的机器学习方法和机器学习装置中，由于采用了第一随机权重和第一随机数构建映射特征节点矩阵，并且利用第二随机权重和第二随机数构建增强节点矩阵，不仅添加了神经网络中输入层与输出层直接的连接的因素，而且添加了输入层与输出层之间更多隐藏层的因素，因此具有既能满足计算效率又能保证学习精度的宽度学习方法的优势。

附图说明

图1为根据本发明的一个实施例的机器学习方法的示意性流程图。

图2为根据本发明的另一实施例的机器学习装置的示意性框图。

图3为根据本发明的另一实施例的动态更新网络模型的示意图。

图4为根据本发明的另一实施例的宽度学习系统神经网络的示意图。

图5为根据本发明的另一实施例的替代增强结点的宽度学习系统神经网络的示意图。

图6为根据本发明的另一实施例的增加额外p个增强节点的宽度学习系统神经网络的示意图。

图7为根据本发明的另一实施例的增加额外的(n+1)组特征映射的宽度学习系统神经网络的示意图。

图8为根据本发明的另一实施例的增加额外的输入数据的宽度学习系统神经网络的示意图。

图9为根据本发明的另一实施例的MNIST数据库的示意图。

图10为根据本发明的另一实施例的训练图片样本示例的示意图。

图11为根据本发明的另一实施例的测试图片样本示例的示意图。

具体实施方式

以下结合附图对本发明的进行详细描述。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

图1为根据本发明的一个实施例的机器学习方法的示意性流程图。图1的机器学习方法100包括：

110：根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；

120：利用第一随机权重和第一随机数基于原始输入矩阵构建映射特征节点矩阵；

130：利用第二随机权重和第二随机数基于映射特征节点矩阵构建增强节点矩阵；

140：根据由映射特征节点矩阵和增强节点矩阵组成的增广矩阵以及原始输出矩阵来确定连接权重矩阵。

对于特征提取，RVFLNN可以采用”映射特征”作为其输入。本发明中提出了宽度学习系统(Broad Learning System，BLS)，其基于将映射特征作为RVFLNN输入的思想设计的。此外，BLS可以在需要时以有效和高效的方式更新系统(或重新学习)。换言之，BLS的设计思路为：首先，利用输入数据映射的特征作为网络的特征节点。其次，映射的特征被增强为随机生成权重的增强节点。随后，所有映射的特征和增强节点直接连接到输出。为了在宽度上扩展特征节点和增强节点，在本发明中设计了对应的宽度学习算法。

在本发明的机器学习方法中，由于采用了第一随机权重和第一随机数构建映射特征节点矩阵，并且利用第二随机权重和第二随机数构建增强节点矩阵，不仅添加了神经网络中输入层与输出层直接的连接的因素，而且添加了输入层与输出层之间更多隐藏层的因素，因此具有既能满足计算效率又能保证学习精度的宽度学习方法的优势。

在下文中，首先介绍现一般化网络、伪逆和岭回归学习算法、稀疏自动编码器以及奇异值分解(SVD)。然后再详细介绍本方案。

对于常规分类任务中的一般化网络，定义矩阵[X|ξ(XW_h+β_h)]为A。其中，A是由所有输入向量与增强分量组合而成的的输入矩阵。提出了一种动态模型，用于分别更新输入模式增加和增强节点增加的网络输出系数。与经典网络相比，该算法简单快速，易于更新。该模型的灵感来源于中描述的分割矩阵的伪逆。定义是维度为N×m的输入矩阵。本节中，仅仅介绍关于增加新的增强结点的动态更新网络算法，如图3所示。这种情况下，等价于在输入矩阵中增加一列。给定记号其伪逆等于，

其中

并且c＝a-A_nd。

同样的，新的输出权重系数为：

其中W_n+1和W_n分别是添加新增强节点之前和之后的权重。这种方式下，通过仅计算相应的添加节点的伪逆，可以轻松的更新新架构的网络的输出权重。

伪逆和岭回归学习算法：

在平坦网络中，伪逆可以被认为是解决祌经网络的输出层权重的非常方便的方法。可以使用不同的方法来计算这种广义逆，如正交投影法，正交法，迭代法和奇异值分解(SVD)。然而，直接解法通常都代价昂贵，特别是如今训练样本和输入模式容易遭受高容量，高速度和/或高品质的困扰。另外，伪逆，作为线性方程的最小二乘估计，目的在于得到具有最小训练误差的输出权重，但对于泛化误差，特别是对于病态问题，并不能达到预定目的。事实上，如下的最优问题是解决伪反问题的一种有效替代方法：

其中，σ₁＞0，σ₂＞0，，同时u,v是正则化系数。假设σ₁＝σ₂＝u＝v＝2，上述最优问题转化为常规l2范数正则化凸问题。数值λ定义了对于W平方和的进一步约束。该优化问题的解等价于与岭回归理论的解。具体说来，即是通过向A^T A或者AA^T的对角线元素加上一个正数来给出Moore—Penrose广义逆的近似。理论上，如果λ＝0，则逆问题退化为最小二乘问题，并近似于输入矩阵的伪逆。另一方面，如果λ→∞,则优化方程的解趋向于0。因此，有

W＝(λI+AA^T)^-1A^TY.

对应于输出系数，我们有

稀疏自动编码器：

监督的学习任务如分类，通常需要良好的输入特征表征才能实现优秀的表现。特征表征不仅是一种有效的数据表征方法，更重要的是它能捕获数据的本质特征。通常，特征可以通过复杂的数学推导所得到，同时简单随机初始化生成地一组随机特征在实际应用中也很受欢迎。为了克服随机性，稀疏自动编码器可以被认为是将随机特征微调到一组更加紧凑特征的重要工具。为了从给定的训练数据X中提取稀疏特征，可以考虑解决等价优化问题。如果设定σ2＝u＝1，以及σ1＝v＝2，下列优化问题完全等价于方程(1)。

其中是需要的稀疏解，并且Z是给定线性方程XW＝Z的期望输出。显然，上述问题是凸的.式中的近似问题(4)可以通过数十种方法来解决，例如Alternating DirectionMethod of Multipliers(ADMM)，orthogonal matchingpursuit(OMP)以及K-SVD。本文采用快速迭代收缩阈值算法(fast iterative shrinkage-thresholding algorithm，FISTA)。其速度优势也在H-ELM中得到应用。FISTA是迭代收缩阈值算法(ISTA)的快速收敛版本，同时也是线性反问题的有效方法。方程4可以等同地被认为是以下一般问题：

其中，并且g(ω)＝λ||w||₁。假设函数f是光滑并且有凸梯度，那么存在Lipschitz常数L(f)使得：

对于每一个w₁，ω₂.

同时，定义如下优化算子，

为了解决上述最优问题，初始化o₁＝w₀，第k次迭代的详细步骤如下，

可以证明，序列w_k最终迭代收敛到优化问题的最优解w_*。

在的算法中，对于给定的随机特征，稀疏自动编码器被应用于生成更紧凑的特征。

奇异值分解(SVD)：

A＝U∑V^T

对于任何实矩阵假设矩阵维度为m×n。那么有矩阵分解为其中U是维度为m×m的正交矩阵，同时，U的列向量是矩阵AA^T的特征向量。对应的，V是维度为n×n的正交矩阵，同时，V的列向量是矩阵A^TA的特征向量。最后，Σ是维度为m×n对角矩阵，并且

其中，σ₁≥σ₂≥…≥σ_r＞0，并且r＝rank(A)。此外，σ₁，...，σ_r是A^TA特征值的平方根。它们被称为矩阵A的奇异值。矩阵A的奇异值分解是用于矩阵分析的有效工具之一。在的算法中，涉及到减小矩阵大小的两种不同的方法。首先，阈值参数η被设置为0<η≤1。这意味着σ_i≥ησ₁的奇异值分量被保留。第二种情况是选择l个奇异值对应的分量，其中l小于某个整数n。定义一个阈值ε，对于情形1为η,情形2为ε。

根据图1的机器学习方法100，利用第一随机权重和第一随机数基于原始输入矩阵构建映射特征节点矩阵，包括：基于如下公式构建映射特征节点矩阵：Zⁱ＝[Z₁,…,Z_i]，其中，映射特征节点Z_i＝Φ_i(XW_ei+β_ei)，W_ei为具有适当维度的第一随机权重，β_ei为第一随机数。

根据图1的机器学习方法100，利用第二随机权重和第二随机数基于映射特征节点矩阵构建增强节点矩阵，包括：基于如下公式构建增强节点矩阵：Hⁱ＝[H₁,…,H_i]，其中，增强节点H_i＝ξ_i(ZⁱW_hi+β_hi)，W_hi为具有适当维度的第二随机权重，β_hi为第二随机数。

本文提出的宽度学习系统可以是基于传统的RVFLNN祌经网络构建的。然而，与直接接受输入数据并建立增强节点的传统RVFLNN不同，首先映射输入以构建一组映射特征。

假设提供输入数据X并利用函数映射产生第i组映射特征Z_i。其中，是具有适当维度的随机权重系数。给定记号Zⁱ≡[Z₁，...，Z_i]表示前i组所有映射特征。同样的，第j组增强节被记为Hj，同时前j组所有增强节点被记为H^j≡[H₁，...，H_j]。实际上，根据建模任务的复杂性，可以选择不同的i和j。此外，当i≠k时，φ_i和φ_k可以是不同函数。同样，当j≠r，ξ_j与ξ_r也可以不同。在不失一般性的情况下，本文省略了随机映射φ_i和ξ_j的下标。

在的宽度学习系统中，为了利用稀疏自动编码器特征的优点，采用方程(6)所示的迭代方法来调整初始随机权重以获得更好的特征。下面给出算法的细节。

假设输入数据集为X，并且其中含有N个M维样本点，同时，输出矩阵Y属于其中，生成k个结点的第n个特征映射，可以表示为以下形式：

其中W_ei以及β_ei均为随机产生。

记所有的特征结点为Zⁿ≡[Z₁，...，Z_n]，同时记第m组增强结点为

最终，宽度学习模型可以被表示为：

其中W^m＝[Zⁿ|H^m]⁺Y。W^m是所建立宽度结构的连接权重，可以通过[Zⁿ|H^m]⁺的岭回归近似来容易地计算方程式(3)。图4表征了上述宽度学习网络。可替代地，可以采用另一方法建立增强节点，通过将各组映射特征分别连接到不同增强节点来实现不同的宽度学习结构。详细说明如下。

对于输入数据集X，假设网络由n组映射特征以及n组增强节点，那么新的网络结构是：

其中Z_i，i＝1，...，n，是N×α维特征映射。同时这类宽度学习系统的模型可以参考图5。

很明显，图5和图4中的两个网络结构之间的主要区别在于增强节点的建立方法。以下定理证明，增强节点中的上述两个不同的建立实际上是等效的。

定理：对于图4中的模型，特征的维度为k，同时增强节点的维数为q。对应的，对于图5中的模型，特征的维度为k，同时增强节点的维数为γ。那么如果mq＝nγ，并且H^(a)和H^(b)被归一化，那么两个网络是完全等价的。

因此，只要特征节点和增强节点的总数相等，上述两种建立增强节点网络本质上相同。因此，本文的其余部分将仅考虑图4中的模型。

根据图1的机器学习方法100，还包括：利用第一随机权重和第一随机数基于原始输入矩阵构建增量映射特征节点矩阵；利用岭回归近似法确定作为增量映射特征节点矩阵的伪逆的第一伪逆矩阵；利用第一伪逆矩阵更新连接权重矩阵。在各种应用中，利用所选择的特征映射，增强节点的动态增量可能不足以应付学习的要求。这可能是由于现有特征映射节点并不能提取出足够多的底层变化因子。这种变化因子的不足，直接导致输入数据的结构不能准确的反映在网络结构中。

在现有的深度结构网络中，当现有模型无法很好地学习任务时，一般做法是增加过滤器(或窗口)的数量或增加层数。由于新结构的参数的重设需要，此类网络通常需要繁琐的学习过程。而在本文提出的宽度学习系统中，如果需要增加新的特征映射，则可以在不需要训练整个网络的情况下，应用增量学习更新整个结构。

现在，让考虑针对新增特征节点的增量学习。假设初始结构由n组特征映射节点和m组增强节点组成。考虑到第(n+1)组特征映射节点被添加并被表示为：

相应的增强节点随机生成如下，

其中以及为随机生成。

给定记号作为更新映射特征结点后的对应输入矩阵。则

升级后的伪逆矩阵应该如下迭代方程，

其中

并且

最终，新的对应输出权重为

具体来说，该算法只需要计算附加映射特征的伪逆，而不是计算整个矩阵的伪逆。类似的，额外的(n+1)组特征映射以及p个额外的增强节点的增量网络如图7所示。

根据图1的机器学习方法100，还包括：利用第二随机权重和第二随机数基于映射特征节点矩阵构建增量增强节点矩阵；利用岭回归近似法确定作为增量增强节点矩阵的伪逆的第二伪逆矩阵；

利用第二伪逆矩阵更新连接权重矩阵。在某些情况下，如果学习模型无法达到所需的准确度，其中一个解决方案是扩展额外的增强节点以实现更好的性能。接下来，将详细介绍添加p个增强节点的宽度扩展算法。

给定记号A^m＝[Zⁿ|H^m]以及A^m+1，其中

其中，同样的，从映射特征到P附加增强节点的连接权重和偏差是随机生成的。通过上述讨论，可以推导出更新后矩阵的伪逆为

其中

并且

同样的，更新后的输出权重为

增量宽度学习构建模型结构如图6所示。应注意，所有矩阵的伪逆可以都是通过公式(3)中的岭回归近似方法计算的。具体来说，该算法仅需要计算附加增强节点的伪逆，而不是计算整个矩阵(A^m+1)的计算，从而导致快速增量学习算法。

根据图1的机器学习方法100，还包括：根据新增训练样本构建增量原始输入矩阵和增量原始输出矩阵；利用岭回归近似法确定作为增量原始输入矩阵的伪逆的第三伪逆矩阵；根据第三伪逆矩阵和增量原始输出矩阵来更新连接权重矩阵。现在让来讨论训练样本持续输入的情况。通常，一旦完成了系统建模，如果具有相应输出的新输入进入模型，则应更新模型以反映附加样本。本小节中的算法旨在轻松更新权重，而无需训练整个模型。

将X_a表示为添加到祌经网络中的新输入，并将表示为对应的n组的特征映射节点和m组的初始增强节点网络。映射特征节点和增强节点的分别增量有如下表示，

其中是对应于新输入X_a的映射特征

节点。权重以及是随机生成。

因此，更新后的输入矩阵可以表示为：

其中

并且

因此更新后的权重是：

相关联的伪逆更新算法可以推导如下，

其中Y_a是对应输入X_a的标签信息。

类似地，输入节点更新网络结构表示为图8。再次，这种增量学习仅仅需要计算必要的伪逆，从而大大节省了建模训练时间。这种特殊方案对于新的输入数据的增量学习是完美的。

根据图1的机器学习方法100，根据由映射特征节点矩阵和增强节点矩阵组成的增广矩阵以及原始输出矩阵来确定连接权重矩阵，包括：利用岭回归近似法确定作为扩展增强矩阵的伪逆的第四伪逆矩阵；将第四伪逆矩阵与原始输出矩阵相乘得到连接权重矩阵。

根据图1的机器学习方法100，还包括：利用奇异值分解简化矩阵中的至少一个。

值得注意的是，一旦学习系统完成了建模，就可能由于宽度上的扩展而产生冗余。这种情况下，低秩近似可以被采用来简化系统。低秩近似已经作为科学计算的新工具，以解决经典方法难以解决的大规模线性和多线性代数问题。详细阐述了结构化低秩近似的理论，算法和应用。在各种算法中，奇异值分解(Singular Value Decomposition，SVD)是广泛使用的探索性数据分析技术。通过将这种经典的低等级算法嵌入到所提出的宽度学习网络中，设计了基于SVD的结构简化的宽度学习算法。这种方法为选择模型提供了一个很好的选择。

在通过增量学习添加映射特征和增强节点的宽度扩展之后，由于输入数据中存在的冗余性或者较差的特征初始化，网络结构可能具有冗余的风险。一般来说，可以通过一系列低秩逼近算法来简化结构。在本文中，将经典SVD作为保守的选择，为提出的宽度模型提供结构简化的方法。简化可以通过不同的方面完成：(1)在生成映射特征时，(2)在生成增强节点时，或者是(3)，在初始宽度学习网络构建完成时。

一、映射特征节点的SVD简化：

让从具有n组的特征节点的随机初始网络开始，可以表示为以下形式的公式：

类似于之前的设定,给定记号从而有

为了探索矩阵的特征，将SVD应用于Z_i，i＝1,...,n，

其中，∑_P以及∑Q是在阈值ε设定下，根据奇异值大小分割的子矩阵。

通过用主体分量压缩Zi，能够减少特征节点的数量。Zi和之间的方程可以推导如下，

至于原始模型，定义

有

其中

最后，通过求解一个最小二乘的线性方程，模型被改进为

其中

这里，是矩阵的伪逆。这样，初始矩阵被简化为

二、增强节点的SVD简化：

在网络中添加一组增强节点后，可以类似的减少节点数量。假设已经添加了n组特征映射节点和m组增强节点，从而模型表示为

其中

并且

在上述方程中，通过与相同的方式获得，这意味着，

类似地，通过用代替Hj，可以获得简化结构。

三、额外p个增强节点的SVD简化：

不失一般性，基于上述假设，推导出对于额外p个增强节点的SVD简化，如下所示，

其中

同样，正如SVD在前面的步骤中所实现的，有

为了更新矩阵的伪逆，类似于等式(11-13)，得出结论

其中

并且于是，新的权重可以表示为

这里，是以下模型的最小二乘解

四、宽度模型的SVD简化：

虽然一个完整的宽度网络被完全建立，但是，可能需要简化更多。一个可选的解决方案是舍弃过小的奇异值分量。

因此，有

类似于初始的算法，给定记号

有如下的矩阵近似表示，

Y＝A_FW_F， (33)

其中

W_F＝A_F+Y. (34)

通常，最终网络神经节点的数量可以根据用于简化特征映射节点，增强节点和最终结构的阈值εe，εh，ε控制。

图2为根据本发明的另一实施例的机器学习方法的示意性框图。图2的机器学习装置200包括：

第一构建模块210，根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；

第二构建模块220，利用第一随机权重和第一随机数基于原始输入矩阵构建映射特征节点矩阵；

第三构建模块230，利用第二随机权重和第二随机数基于映射特征节点矩阵构建增强节点矩阵；

确定模块240，根据由映射特征节点矩阵和增强节点矩阵组成的增广矩阵以及原始输出矩阵来确定连接权重矩阵。

在本发明的机器学习装置中，由于采用了第一随机权重和第一随机数构建映射特征节点矩阵，并且利用第二随机权重和第二随机数构建增强节点矩阵，不仅添加了神经网络中输入层与输出层直接的连接的因素，而且添加了输入层与输出层之间更多隐藏层的因素，因此具有既能满足计算效率又能保证学习精度的宽度学习方法的优势。

根据图2的机器学习装置200，第二构建模块具体被配置为：基于如下公式构建映射特征节点矩阵：Zⁱ＝[Z₁,…,Z_i]，其中，映射特征节点Z_i＝Φ_i(XW_ei+β_ei)，W_ei为具有适当维度的第一随机权重，β_ei为第一随机数。

根据图2的机器学习装置200，第三构建模块具体被配置为：基于如下公式构建增强节点矩阵：Hⁱ＝[H₁,…,H_i]，其中，增强节点H_i＝ξ_i(ZⁱW_hi+β_hi)，W_hi为具有适当维度的第二随机权重，β_hi为第二随机数。

根据图2的机器学习装置200，还包括：第四构建模块，利用所述第一随机权重和所述第一随机数基于所述原始输入矩阵构建增量映射特征节点矩阵；第二确定模块，利用岭回归近似法确定作为所述增量映射特征节点矩阵的伪逆的第一伪逆矩阵；第一更新模块，利用所述第一伪逆矩阵更新所述连接权重矩阵。

根据图2的机器学习装置200，还包括：第五构建模块，利用所述第二随机权重和所述第二随机数基于所述映射特征节点矩阵构建增量增强节点矩阵；第三确定模块，利用岭回归近似法确定作为所述增量增强节点矩阵的伪逆的第二伪逆矩阵；第二更新模块，利用所述第二伪逆矩阵更新所述连接权重矩阵。

根据图2的机器学习装置200，还包括：第六构建模块，根据新增训练样本构建增量原始输入矩阵和增量原始输出矩阵；第四确定模块，利用岭回归近似法确定作为所述增量原始输入矩阵的伪逆的第三伪逆矩阵；第三更新模块，根据所述第三伪逆矩阵和所述增量原始输出矩阵来更新所述连接权重矩阵。

根据图2的机器学习装置200，确定模块240具体被配置为：利用岭回归近似法确定作为所述扩展增强矩阵的伪逆的第四伪逆矩阵；将所述第四伪逆矩阵与所述原始输出矩阵相乘得到所述连接权重矩阵。

根据图2的机器学习装置200，还包括：简化模块，利用奇异值分解简化所述矩阵中的至少一个。

实验与讨论：在本文中，相关实验结果被给出以验证所提出的宽度学习系统。为了确定提出的系统的有效性，本文测试了宽度学习系统在MNIST和NORB数据下的分类表现。同时，为了证明BLS的有效性，将与现有“主流”方法的分类能力进行比较，包括堆叠自动编码器(Stacked AutoEncoders，SAE)，另一个版本的堆叠自动编码器(another version ofstacked autoencoder，SDA)，深度信念网络(Deep Belief Networks，DBN)，基于多层感知器的方法(Multi layer Perceptron based methods，MLP)深玻尔兹曼机器(DeepBoltzmann Machines，DBM)，两种的基于ELM的多层结构，分别表示为MLELM和HELM。上述算法统一在Matlab软件平台下，在配有Intel-i7,主频为2.4GHz处理器，内存为16G的笔记本电脑下进行测试。此外，将分类结果与扩展的模糊限制玻尔兹曼机器(Fuzzy RestrictedBoltzmann Ma-rine，FRBM)进行比较。单层FRBM以及提出的宽度学习模型统一在装载主频为3.40GHz的Inteli7-6700处理器PC的Matlab平台上进行测试。同时，所有的实验均在一台配备了2.30GHz的Intel XeonE5-2650CPU处理器的服务器上重复测试，相关的测试精度和训练时间都用特殊的上标*表示。

一般来说，除了HELM和MLELM之外，上面提到的所有方法都是基于反向传播(backpropagation，BP)方法调整超参数的深度结构。对应的初始学习率设置为0.1，同时每次学习的衰减率设置为0.95。对于基于ELM的网络，MLELM的三层正则化参数分别设置为10^-1,10³，以及10⁸。而HELM的惩罚参数设定为10^-8。更为具体的参数设置可以在中参考。在提出的宽度学习系统中，用于岭回归的正则化参数A被设置为10^-8,另外采用单层线性特征映射以及单步随机参数微调来优化所随机选择的特征。同时，参数从区间[一1，1]为的标准正态分布中抽样得出。对于增强节点，选择sigmoid函数来建立BLS。

MNIST数据：

在本小节中，一系列集中在经典的MNIST手写数字图像数据库的实验被给出。该数据集由70,000副手写数字图像组成，其中包含60,000样本的训练集和10,000样本的测试集。每个数字都由大小为28×28灰度像素的图像表示。图9示例了数据集中的典型样本。

为了测试提出的宽度学习系统的效率和准确性，给出了有关特征节点和增强节点数量的先验知识。然而，事实上这是在深度学习神经网络中构建网络的通常做法，也是整个学习过程中最具挑战性的任务。在的实验中，网络由10×10特征节点和1×11000增强节点构成。相关的权重均为随机生成。BLS的测试精度以及本文开始所提到的深度算法测试精度如表1所示。

表1:MNIST数据库的分类结果

虽然98.74％不是最优秀的(事实上，深度学习的表现仍然比SAE和MLP好)，BLS在服务器上的训练时间被压缩到了29.6968秒。此外，应该注意的是，MNIST数据特征的数量减少到100。这个结果符合学者在大数据学习中的直觉，也就是现实应用中的数据信息通常是冗余的。表2给出了具有不同映射特征以及增强节点的更多测试结果。

表2:MNIST数据厍的分类结果

特征节点数	增强节点数	准确度(％)
			100	4000	98.19
100	6000	98.47
			100	8000	98.55
100	9500	98.59
			100	10500	98.59
100	11000	98.74
			100	12000	98.67
200	11000	98.69
			400	11000	98.61
1000	11000	98.53
			2000	11000	98.45

接下来，将展示增量学习系统的快速性和有效性。设计的相关实验，都在本文开始提到的服务器计算机中实现。两种不同的初始网络用于测试这里的增量学习，同时最终的增量网络结构固定于100特征节点和11000增强节点。

首先，假设初始网络设置为10x10特征节点以及9000增强节点。每次动态增加500增强节点，直到达到11000。

其次，三种动态增量的方法被测试，包括，(1)动态增加特征节点，(2)动态增加对应的增强节点，(3)动态增加附加增强节点，如图7所示。初始网络设置为10×6特征节点以及8000增强节点。之后，特征节点在每次动态更新中以10的步长从60增加到100；额外特征的相应增强节点每一步增加250；而额外的增强节点每一次增加500。或者等价地，在每次增量更新中，将10特征节点和750增强节点增加到网络中。与表1中的结果相比，表3显示了MNIST分类下的上述两种不同动态结构的测试结果。

表3:使用增量学习的MNIST分类的结果

增量学习算法现实出与单次初始化相似的性能。更令人惊讶的是，测试结果最优秀的是功能节点和增强节点上的同步动态增量学习算法。这意味着使用增量学习的模型的动态更新可以呈现兼容的结果；同时，它提供了调整系统的结构和准确性以匹配所期望性能的机会。

为了测试增量学习算法的时间，额外测试了MNIST数据库。假设初始网络设置为10×6特征节点以及3000增强节点。类似地，特征节点以10的步长从60增加到100；对应附加特征节点的增强节点每一步增

加750；最后额外的增强节点每次更新增加1250个。单次更新的训练时间和分类测试精度结果可参考表4。

表4:使用増量学习的MNIST分类的逐步结果

当网络节点数达到100特征节点和表1中显示的11000增强节点时，分类精度结果证明增量学习算法非常有效。

最后，还对增加的输入测试增量宽度学习算法。测试结果如表5和表6所示。

表5:使用增量学习的MNIST分类的逐步结果：增加输入数据

表6:使用增量学习的MNIST分类的逐步结果：增加输入数据和增强节点

从而，进一步得出结论，本文所提出的宽度学习算法，可以逐步更新建模系统，而无需从一开始重新训练整个系统。尤其当系统收集到新输入数据时，现有网络结构迫切需要更新以反映系统的真实性和完整性。这一功能完全适用于大数据。

NORB数据库：

与MNIST数据集相比，NYU对象识别基准(NORB)数据集是一个更复杂的数据集；数据库包括48600张图像，每张图像包括2×32×32像素。NORB数据库包含属于5不同类别的50个不同的3-D玩具的图像：1)动物；2)人；3)飞机；4)卡车；和5)小汽车，如图10和11所示。训练集包含25对象(每类五个)的24300张图像，如图10所示，而测试集包含剩余25对象的24300图像，如图11。在的实验中，该网络模型由10×100特征节点和1×9000增强节点组成。测试结果，如表7所示，与MNIST的测试结果类似。考虑到与现有深度方法比较，BLS表现出最优的训练时间，可以认为所提出的宽度学习网络具有相当吸引力。

表7:NORB数据库的分类结果

方法	测试准确度	训练时间
			SAE	86.28	60504.3
SDA	87.62	65747.6
			DBN	88.47	87280.4
DBM	89.65	182183.
			MLP	84.20	354005.4
MLELM	88.91	7775.285
			HELM	91.28	432.19
BL	89.06	21.25*

基于SVD的网络结构简化：

本小节中，使用SVD运行仿真实验，以简化模型结构。相关实验在MNIST数据集中进行测试。另外，设定阈值为εe＝εh＝1，以及ε＝N。这意味着本组实验在生成特征节点以及生成增强节点时没有进行简化，只保留矩阵的前N个奇异值分量来最终简化网络结构。如表8所示，在实验中，N被设定为500,600,800,1000,1500,2000,2500,3000。

表8:使用SVD宽度学习算法的网络压缩测试结果

表中的参数Ω表示实施SVD之前的网络结构，其中第一个数字表示特征节点的数量，相应的，第二个数字表示增强节点的数量。或者准确地说，Ω列中的数字总和表征宽度祌经网络中的总节点数。在标注为“BLSVD”列中，SVD被应用于网络并将网络压缩到上面提到的的N个节点。本小节的测试是与RBM和原始BLS进行比较。其中，学习率为0.05，参数衰减为0.001。在表中，所有10次实验中的最小测试误差(MTE)和平均测试误差(，ATE)都以百分比显示。

从表中可以看出，当节点数超过1000，基于BLS的模型具有更低的错误率。此外，经过SVD选择的模型显著地提高了分类精度。

分析与讨论：

基于上述实验，宽度学习系统在训练速度方面明显优于现有的深度结构祌经网络。此外，与其他MLP训练方法相比，宽度学习系统在分类准确性和学习速度都有长足的表现。与数百个迭代的高性能电脑下几十小时或几天的训练相比，宽度学习系统可以在几分钟内轻松构建，即使在普通PC中也是如此。

另外，应该提到，从表3和4可以明显看出，宽度学习的增量版本并没有损失分类的准确性，甚至在MNIST分类实验中表现更好。

此外，宽度学习系统可以通过应用一系列低秩近似来简化网络结构。在本文中，只讨论了经典SVD方法，其与单层RBM的比较可以看出所提出的基于SVD的宽度学习性能更加稳定。假如读者认为SVD并不那么有效，则可以开发使用不同相关算法的快速结构缩减算法。

本文提出了宽度学习系统(BLS)，目的在于为深度学习以及深度结构提供一种替代方法。本系统的建立可以是基于随机向量函数链型祌经网络(RVFLNN)的思想。

当系统需要新的特征节点和增强节点时，本系统可以简易的以宽度的方式扩展模型。相应的增量学习算法在本文中也有详细介绍。表4中提供的增量实验结果可以看出，所提出的增量学习算法可以快速更新和重构系统，并且不会损失最终的测试精确度。同样值得注意的有，无增量结构的网络训练时间实际小于有增量的网络训练时间。即便如此，这种增量学习为系统重构和模型选择提供了一种可选方法，尤其是在对大容量，时变系统进行建模时。

同时，MNIST和NORB数据的实验证实了所提出的宽度学习系统的可动态更新属性。最后，本文讨论了采用SVD方法简化网络结构的算法。相关实验结果表明，被简化的网络表现出预期的结果。

最终，通过在特征节点中的恰当设置，本文提出的宽度学习算法和增量学习算法可以应用于类似的平坦网络或其他仅需要计算输出层连接权重的祌经网络，如ELM。

另外，本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本发明实施例中，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种机器学习方法，其特征在于，包括：

根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；

利用第一随机权重和第一随机数基于所述原始输入矩阵构建映射特征节点矩阵；

利用第二随机权重和第二随机数基于所述映射特征节点矩阵构建增强节点矩阵；

根据由所述映射特征节点矩阵和所述增强节点矩阵组成的增广矩阵以及所述原始输出矩阵来确定连接权重矩阵。

2.根据权利要求1的机器学习方法，其特征在于，所述利用第一随机权重和第一随机数基于所述原始输入矩阵构建映射特征节点矩阵，包括：

基于如下公式构建所述映射特征节点矩阵：Zⁱ＝[Z₁,…,Z_i]，

其中，映射特征节点Z_i＝Φ_i(XW_ei+β_ei)，W_ei为具有适当维度的所述第一随机权重，β_ei为第一随机数。

3.根据权利要求2的机器学习方法，其特征在于，所述利用第二随机权重和第二随机数基于所述映射特征节点矩阵构建增强节点矩阵，包括：

基于如下公式构建所述增强节点矩阵：Hⁱ＝[H₁,…,H_i]，

其中，增强节点H_i＝ξ_i(ZⁱW_hi+β_hi)，W_hi为具有适当维度的所述第二随机权重，β_hi为第二随机数。

4.根据权利要求1的机器学习方法，其特征在于，还包括：

利用所述第一随机权重和所述第一随机数基于所述原始输入矩阵构建增量映射特征节点矩阵；

利用岭回归近似法确定作为所述增量映射特征节点矩阵的伪逆的第一伪逆矩阵；

利用所述第一伪逆矩阵更新所述连接权重矩阵。

5.根据权利要求1的机器学习方法，其特征在于，还包括：

利用所述第二随机权重和所述第二随机数基于所述映射特征节点矩阵构建增量增强节点矩阵；

利用岭回归近似法确定作为所述增量增强节点矩阵的伪逆的第二伪逆矩阵；

利用所述第二伪逆矩阵更新所述连接权重矩阵。

6.根据权利要求1的机器学习方法，其特征在于，还包括：

根据新增训练样本构建增量原始输入矩阵和增量原始输出矩阵；

利用岭回归近似法确定作为所述增量原始输入矩阵的伪逆的第三伪逆矩阵；

根据所述第三伪逆矩阵和所述增量原始输出矩阵来更新所述连接权重矩阵。

7.根据权利要求1的机器学习方法，其特征在于，根据由所述映射特征节点矩阵和所述增强节点矩阵组成的增广矩阵以及所述原始输出矩阵来确定连接权重矩阵，包括：

利用岭回归近似法确定作为所述扩展增强矩阵的伪逆的第四伪逆矩阵；

将所述第四伪逆矩阵与所述原始输出矩阵相乘得到所述连接权重矩阵。

8.根据权利要求1的机器学习方法，其特征在于，还包括：

利用奇异值分解简化所述矩阵中的至少一个。

9.一种机器学习装置，其特征在于，包括：

第一构建模块，根据获取的训练样本集构建原始输入矩阵和原始输出矩阵；

第二构建模块，利用第一随机权重和第一随机数基于所述原始输入矩阵构建映射特征节点矩阵；

第三构建模块，利用第二随机权重和第二随机数基于所述映射特征节点矩阵构建增强节点矩阵；

确定模块，根据由所述映射特征节点矩阵和所述增强节点矩阵组成的增广矩阵以及所述原始输出矩阵来确定连接权重矩阵。

10.根据权利要求9所述的数据处理装置，其特征在于，所述第二构建模块具体被配置为：基于如下公式构建所述映射特征节点矩阵：Zⁱ＝[Z₁,…,Z_i]，其中，映射特征节点Z_i＝Φ_i(XW_ei+β_ei)，W_ei为具有适当维度的所述第一随机权重，β_ei为第一随机数；

所述第三构建模块具体被配置为：基于如下公式构建所述增强节点矩阵：Hⁱ＝[H₁,…,H_i]，其中，增强节点H_i＝ξ_i(ZⁱW_hi+β_hi)，W_hi为具有适当维度的所述第二随机权重，β_hi为第二随机数。