CN110490324A - 一种梯度下降宽度学习系统实现方法 - Google Patents

一种梯度下降宽度学习系统实现方法 Download PDF

Info

Publication number
CN110490324A
CN110490324A CN201910773986.9A CN201910773986A CN110490324A CN 110490324 A CN110490324 A CN 110490324A CN 201910773986 A CN201910773986 A CN 201910773986A CN 110490324 A CN110490324 A CN 110490324A
Authority
CN
China
Prior art keywords
layer
learning system
output
characteristic
width learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910773986.9A
Other languages
English (en)
Inventor
刘然
刘亚琼
田逢春
钱君辉
郑杨婷
赵洋
陈希
崔珊珊
王斐斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201910773986.9A priority Critical patent/CN110490324A/zh
Publication of CN110490324A publication Critical patent/CN110490324A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Navigation (AREA)

Abstract

本发明提供一种梯度下降宽度学习系统实现方法,梯度下降宽度学习系统由特征层、增强层和输出层三个密集层和一个合并层构成,特征层使用随机映射将输入数据映射为映射特征以形成特征节点,增强层对特征层输出的映射特征进行增强以形成增强节点,合并层将特征节点和增强节点的输出进行合并后作为一个整体输入到输出层,输出层将合并层的输出进行映射成网络最终的输出,训练时小批量训练样本被不断输入梯度下降宽度学习系统,梯度下降宽度学习系统采用梯度下降法来更新网络的权重,使均方误差MSE损失函数的损失逐渐减小。本方法实现的梯度下降宽度学习系统在不断进行小批量训练样本训练时,能够明显提升分批训练时的回归性能,可应用于回归任务。

Description

一种梯度下降宽度学习系统实现方法
技术领域
本发明涉及宽度学习技术领域,具体涉及一种梯度下降宽度学习系统实现 方法。
背景技术
宽度学习系统(Broad Learning System,BLS)是一种可替代深度结构神 经网络(deep structure neural network)的模型,由Chen等人提出,能有效地 运用于分类和回归任务。与目前流行的深度神经网络(Deep Neural Network, DNN)不同,BLS是在随机向量函数链接神经网络(Random Vector Functional Link Neural Network,RVFLNN)的基础上提出的,有着扁平的网 络架构(network architecture)。它的基本思想是:首先,从输入数据生成映 射特征(mapped feature)以形成特征节点(feature node),一个映射特征可 以形成多个特征节点。其次,映射特征被增强为具有随机生成权重的增强节点 (enhancementnode)。最后,所有映射特征和增强节点直接连接到输出端, 所需的连接权重可以通过伪逆(pseudoinverse)的岭回归(ridge regression) 求解得到。BSL的特点是易于宽度扩展和动态更新,涉及特征节点增量 (increment of feature node)、增强节点增量(incrementof enhancement node)和输入数据增量(increment of input data)等三种情形。为了在宽度上 扩展特征节点和增强节点,Chen等人设计了对应的增量学习(incrementallearning)算法;此外,他们还给出了用于处理输入数据增量的增量学习算 法。上述这些算法使得BLS可以以增量方式重新建模,而无需从头开始再训 练。因此,在准确率相当的情况下,BLS与深度神经网络相比模型更简洁、训 练速度更快,同时支持增量式的在线模型更新。
然而,本发明的发明人经过研究发现,当BLS处理回归任务时,对于小 批量输入数据增量这种情形,即小批量训练样本不断进入网络,有可能出现损 失函数(lossfunction)的损失值不断增加的现象,则可能会导致网络的回归 性能下降。
发明内容
针对现有BLS处理回归任务时,对于小批量输入数据增量这种情形,即 小批量训练样本不断进入网络,有可能出现损失函数的损失值不断增加的现 象,则可能会导致网络回归性能下降的技术问题,本发明提供一种梯度下降宽 度学习系统实现方法。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种梯度下降宽度学习系统实现方法,所述梯度下降宽度学习系统的架构 包括特征层、增强层和输出层共三个密集层及一个合并层,所述方法包括以下 步骤:
S1、梯度下降宽度学习系统构建:
设训练集为其中X为样本集,为矩阵,n为样 本个数,d为样本的维度,Y为样本标签集,c为类别个数;构建流程包括:
首先,让密集层中的特征层使用随机映射φ将样本集X映射为一个映射 特征以形成特征节点Z:
Z=φ(XWee) 式(1)
其中,连接权重We和偏置βe是随机生成的向量;
其次,使用密集层中的增强层对特征层输出的映射特征进行增强,形成一 组增强节点H:
H=ξ(ZWhh) 式(2)
其中,ξ是随机映射,Wh是随机生成的连接权重,βh是随机生成的偏 置;
然后,使用合并层将特征节点和增强节点的输出进行合并,并将合并的结 果A作为一个整体输出到输出层:
A=[Z|H] 式(3)
最后,使用密集层中的输出层将合并层的输出结果通过随机映射映射为 梯度下降宽度学习系统的最终输出
其中,W是将特征节点和增强节点连接到输出层的连接权重,β是随机生 成的偏置;
且在三个随机映射φ、ξ和中,必须至少有一个为非线性激活函数;
S2、梯度下降宽度学习系统训练:
将小批量数据输入前述构建的梯度下降宽度学习系统中,梯度下降宽度学 习系统按下式(5)来计算这批数据的损失,计算损失相对于权重的梯度,并 更新输入样本与特征层之间的权重We和βe、特征层与增强层之间的权重Wh和 βh以及合并层与输出层之间的权重W和β,使损失逐渐减小;
其中,argmin是使后面这个式子达到最小值时的变量的取值,MSE是均方 误差,n为样本个数,yi为标签真实值,为对应的BLS输出预测值即标签预 测值,θ为网络中的可训练参数。
与现有技术相比,本发明提供的梯度下降宽度学习系统实现方法中,梯度 下降宽度学习系统由三个密集层(特征层、增强层和输出层)和一个合并层构 成;其中,特征层使用随机映射将输入数据映射为映射特征以形成特征节点, 增强层对特征层输出的映射特征进行增强以形成增强节点,合并层将特征节点 和增强节点的输出进行合并,然后将其作为一个整体输入到输出层,输出层将 合并层的输出进行映射成网络最终的输出;在训练时,小批量训练样本被不断 输入梯度下降宽度学习系统,梯度下降宽度学习系统采用梯度下降法来更新网 络的权重,使均方误差MSE损失函数的损失逐渐减小,其更新的权重包括输 入样本与特征层之间的权重、特征层与增强层之间的权重以及合并层与输出层 之间的权重。实验表明,在不断进行小批量训练样本的训练时,即进行分批训 练时,本申请提出的梯度下降宽度学习系统能够明显地提升分批训练时的回归 性能,因而能够应用于回归任务。
进一步,所述随机映射φ、ξ和选择校正线性单元、双曲正切函数或者 sigmoid函数。
进一步,所述三个随机映射φ、ξ和中,将映射ξ设置为非线性激活函 数。
附图说明
图1是本发明提供的梯度下降宽度学习系统构建流程示意图。
图2是本发明提供的梯度下降宽度学习系统在进行小批量输入数据增量学 习时MSE的变化示意图。
图3是本发明提供的现有宽度学习系统在进行小批量输入数据增量学习时 MSE的变化示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了 解,下面结合具体图示,进一步阐述本发明。
请参考图1所示,本发明提供一种梯度下降宽度学习系统实现方法,所述 梯度下降宽度学习系统(Gradient Descent Broad Learning System,GDBLS)的 架构包括特征层、增强层和输出层共三个密集层及一个合并层,即GDBLS主 要由三个密集层(Dense层)和一个合并层(Merge层)组成,所述三个密集 层和一个合并层的各自具体构成为本领域技术人员熟知的现有技术,Dense层 是神经网络中的全连接层(fully connected layer),全连接层的每一个节点都 与上一层的所有节点相连,用于把前面提取到的信息综合起来;Merge层能够 对多个输入进行处理,包括加、减、乘、合并等操作。由于BLS需要将特征 节点的输出和增强节点的输出合并(列合并)到一起,作为整体输入到输出 层,因此GDBLS使用进行合并操作的Merge层;所述方法包括以下步骤:
S1、梯度下降宽度学习系统构建:
设训练集为其中X为样本集,为矩阵,n为样 本个数,d为样本的维度,Y为样本标签集,c为类别个数;GDBLS的构建流 程包括:
首先,让密集层中的特征层(feature layer)使用随机映射φ将样本集X 映射为一个映射特征以形成特征节点Z,一个映射特征可以形成多个特征节 点:
Z=φ(XWee) 式(1)
其中,连接权重We和偏置βe是随机生成的向量,特征层包含多个特征节 点;
其次,使用密集层中的增强层(enhancement layer)对特征层输出的映射 特征进行增强,形成一组增强节点H:
H=ξ(ZWhh) 式(2)
其中,ξ是随机映射,Wh是随机生成的连接权重,βh是随机生成的偏 置;
然后,使用合并层将特征节点和增强节点的输出进行合并,并将合并的结 果A作为一个整体输出到输出层:
A=[Z|H] 式(3)
最后,使用密集层中的输出层将合并层的输出结果通过随机映射映射为 梯度下降宽度学习系统的最终输出
其中,W是将特征节点和增强节点连接到输出层的连接权重,β是随机生 成的偏置;
在梯度下降宽度学习系统构建流程中,三个随机映射φ、ξ和中必须至 少有一个为非线性激活函数(nonlinear activation function),以保证GDBLS 能够对非线性的应变量建模,通常将映射ξ设置为非线性激活函数;而所述随 机映射φ、ξ和具体可以选择现有的校正线性单元(Rectified Linear Unit, ReLU)、双曲正切函数(tanh)或者sigmoid函数。
S2、梯度下降宽度学习系统训练:
在将GDBLS应用于回归任务之前需要对它进行训练,在训练过程中,本 申请仅讨论小批量训练样本不断进入系统的情形,即仅考虑小批量输入数据增 量的情形,与典型BLS通过计算伪逆来更新权重(包括连接权重和偏置)的 训练方法不同,GDBLS采用梯度下降法来更新权重,使得网络的损失函数 (loss function)的损失逐渐减小。本申请中,GDBLS的损失函数选择常用于 回归任务的均方误差(Mean-Squared Error,MSE),而权重的更新问题就是 以下最优化问题。具体在训练时,将小批量数据输入前述构建的梯度下降宽度 学习系统中,梯度下降宽度学习系统按下式(5)来计算这批数据的损失,计 算损失相对于权重的梯度,并更新输入样本与特征层之间的权重We和βe、特 征层与增强层之间的权重Wh和βh以及合并层与输出层之间的权重W和β,使 损失逐渐减小,与BLS仅更新映射特征和增强节点到输出端的权重不同, GDBLS会更新网络中所有的权重;
其中,arg min是使后面这个式子达到最小值时的变量的取值,MSE是均方 误差,n为样本个数,yi为标签真实值,为对应的BLS输出预测值即标签预 测值,θ为网络中的可训练参数。
为了更好地说明本申请GDBLS的回归性能,以下将结合实验来进行详细 介绍:
本文使用Abalone数据集来验证GDBLS在处理小批量输入数据增量时的 回归性能,该数据集是加州大学尔湾分校(University of California at Irvine, UCI)的机器学习和智能系统中心提供的,包括2784个训练样本(training sample),1393个测试样本(testing sample),样本属性有8个,样本标签是 一个标量,表示鲍鱼的年龄。本申请分别使用现有的BLS与GDBLS来对鲍 鱼的年龄进行预测。如图1所示,在该实验中GDBLS的特征层使用ReLU作 为非线性激活函数,增强层和输出层使用sigmoid作为非线性激活函数,系统采用MSE作为损失函数。
为方便后面的对比,本申请首先测试了BLS和GDBLS一次处理整个数 据集的损失,实验时将训练样本一次全部输入到BLS和GDBLS中,使用全 部的测试集进行测试,实验结果如下表1所示:
表1 BLS和GDBLS一次处理整个数据集的均方误差
从表1可以看出,无论是训练集还是测试集,BLS的预测都较为准确,但 DGBLS与BLS的MSE十分接近,表明在这种情形下两者的性能相当。
接下来测试BLS和GDBLS在进行小批量输入数据增量学时MSE的变 化,实验过程如下:
先随机从训练集中选择100个样本进行BLS和GDBLS的初始训练;再 随机从训练集中选择100个样本进行增量的训练,依据该方式进行10次的增 量训练。每次训练之后,使用相同的测试集(30个样本)进行预测。
图2和图3示出了GDBLS及BLS在初始训练以及10次增量训练时,测 试集MSE的变化。从图2中可以明显看出,在测试集上进行小批量输入数据 增量学习时,DGBLS对应的MSE越来越小,表明DGBLS的回归性能变好; 而图3中可以明显看出,在测试集上进行小批量输入数据增量学习时,BLS对 应的MSE越来越大,表明BLS的回归性能变差。
与现有技术相比,本发明提供的梯度下降宽度学习系统实现方法中,梯度 下降宽度学习系统由三个密集层(特征层、增强层和输出层)和一个合并层构 成;其中,特征层使用随机映射将输入数据映射为映射特征以形成特征节点, 增强层对特征层输出的映射特征进行增强以形成增强节点,合并层将特征节点 和增强节点的输出进行合并,然后将其作为一个整体输入到输出层,输出层将 合并层的输出进行映射成网络最终的输出;在训练时,小批量训练样本被不断 输入梯度下降宽度学习系统,梯度下降宽度学习系统采用梯度下降法来更新网 络的权重,使均方误差MSE损失函数的损失逐渐减小,其更新的权重包括输 入样本与特征层之间的权重、特征层与增强层之间的权重以及合并层与输出层 之间的权重。实验表明,在不断进行小批量训练样本的训练时,即进行分批训 练时,本申请提出的梯度下降宽度学习系统能够明显地提升分批训练时的回归 性能,因而能够应用于回归任务。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管 参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解, 可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的 宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种梯度下降宽度学习系统实现方法,其特征在于,所述梯度下降宽度学习系统的架构包括特征层、增强层和输出层共三个密集层及一个合并层,所述方法包括以下步骤:
S1、梯度下降宽度学习系统构建:
设训练集为其中X为样本集,为矩阵,n为样本个数,d为样本的维度,Y为样本标签集,c为类别个数;构建流程包括:
首先,让密集层中的特征层使用随机映射φ将样本集X映射为一个映射特征以形成特征节点Z:
Z=φ(XWee) 式(1)
其中,连接权重We和偏置βe是随机生成的向量;
其次,使用密集层中的增强层对特征层输出的映射特征进行增强,形成一组增强节点H:
H=ξ(ZWhh) 式(2)
其中,ξ是随机映射,Wh是随机生成的连接权重,βh是随机生成的偏置;
然后,使用合并层将特征节点和增强节点的输出进行合并,并将合并的结果A作为一个整体输出到输出层:
A=[Z|H] 式(3)
最后,使用密集层中的输出层将合并层的输出结果通过随机映射映射为梯度下降宽度学习系统的最终输出
其中,W是将特征节点和增强节点连接到输出层的连接权重,β是随机生成的偏置;
且在三个随机映射φ、ξ和中,必须至少有一个为非线性激活函数;
S2、梯度下降宽度学习系统训练:
将小批量数据输入前述构建的梯度下降宽度学习系统中,梯度下降宽度学习系统按下式(5)来计算这批数据的损失,计算损失相对于权重的梯度,并更新输入样本与特征层之间的权重We和βe、特征层与增强层之间的权重Wh和βh以及合并层与输出层之间的权重W和β,使损失逐渐减小;
其中,argmin是使后面这个式子达到最小值时的变量的取值,MSE是均方误差,n为样本个数,yi为标签真实值,为对应的BLS输出预测值即标签预测值,θ为网络中的可训练参数。
2.根据权利要求1所述的梯度下降宽度学习系统实现方法,其特征在于,所述随机映射φ、ξ和选择校正线性单元、双曲正切函数或者sigmoid函数。
3.根据权利要求1所述的梯度下降宽度学习系统实现方法,其特征在于,所述三个随机映射φ、ξ和中,将映射ξ设置为非线性激活函数。
CN201910773986.9A 2019-08-21 2019-08-21 一种梯度下降宽度学习系统实现方法 Pending CN110490324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910773986.9A CN110490324A (zh) 2019-08-21 2019-08-21 一种梯度下降宽度学习系统实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910773986.9A CN110490324A (zh) 2019-08-21 2019-08-21 一种梯度下降宽度学习系统实现方法

Publications (1)

Publication Number Publication Date
CN110490324A true CN110490324A (zh) 2019-11-22

Family

ID=68552510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910773986.9A Pending CN110490324A (zh) 2019-08-21 2019-08-21 一种梯度下降宽度学习系统实现方法

Country Status (1)

Country Link
CN (1) CN110490324A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401443A (zh) * 2020-03-16 2020-07-10 重庆大学 基于多特征提取的宽度学习系统
CN113311035A (zh) * 2021-05-17 2021-08-27 北京工业大学 一种基于宽度学习网络的出水总磷预测方法
CN116403294A (zh) * 2023-06-08 2023-07-07 华南理工大学 基于Transformer的多视图宽度学习活体检测方法、介质及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401443A (zh) * 2020-03-16 2020-07-10 重庆大学 基于多特征提取的宽度学习系统
CN111401443B (zh) * 2020-03-16 2023-04-18 重庆大学 基于多特征提取的宽度学习系统
CN113311035A (zh) * 2021-05-17 2021-08-27 北京工业大学 一种基于宽度学习网络的出水总磷预测方法
CN113311035B (zh) * 2021-05-17 2022-05-03 北京工业大学 一种基于宽度学习网络的出水总磷预测方法
CN116403294A (zh) * 2023-06-08 2023-07-07 华南理工大学 基于Transformer的多视图宽度学习活体检测方法、介质及设备
CN116403294B (zh) * 2023-06-08 2023-10-27 华南理工大学 基于Transformer的多视图宽度学习活体检测方法、介质及设备

Similar Documents

Publication Publication Date Title
Li et al. Prediction for tourism flow based on LSTM neural network
Sharma Deep challenges associated with deep learning
Venkatesan et al. A novel progressive learning technique for multi-class classification
CN110795619B (zh) 一种融合多目标的教育资源个性化推荐系统及方法
Roudi et al. Mean field theory for nonequilibrium network reconstruction
CN107066445B (zh) 一种属性情感词向量的深度学习方法
CN111881342A (zh) 一种基于图孪生网络的推荐方法
CN106203625B (zh) 一种基于多重预训练的深层神经网络训练方法
CN103620624B (zh) 用于导致稀疏连通性的局部竞争性学习规则的方法和装置
CN110490324A (zh) 一种梯度下降宽度学习系统实现方法
CN110969250A (zh) 一种神经网络训练方法及装置
CN107341541A (zh) 一种用于执行全连接层神经网络训练的装置和方法
CN105471631B (zh) 基于流量趋势的网络流量预测方法
Prasad et al. A new data-driven neural fuzzy system with collaborative fuzzy clustering mechanism
CN116010684A (zh) 物品推荐方法、装置及存储介质
Navgaran et al. Evolutionary based matrix factorization method for collaborative filtering systems
CN115438732A (zh) 面向冷启动用户基于分类偏好迁移的跨域推荐方法
CN106777402A (zh) 一种基于稀疏神经网络的图像检索文本方法
CN115186097A (zh) 一种基于知识图谱和强化学习的交互式推荐方法
Khalil et al. A novel reconfigurable hardware architecture of neural network
CN115907001A (zh) 基于知识蒸馏的联邦图学习方法及自动驾驶方法
CN108009635A (zh) 一种支持增量更新的深度卷积计算模型
CN110210540A (zh) 基于注意力机制的跨社交媒体用户身份识别方法及系统
Khan et al. Bridgeout: stochastic bridge regularization for deep neural networks
Mao et al. Multi-dimensional extreme learning machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191122

RJ01 Rejection of invention patent application after publication