CN106909968A

CN106909968A - 一种基于知识的级联相关构造性神经网络方法

Info

Publication number: CN106909968A
Application number: CN201710131208.0A
Authority: CN
Inventors: 丁世飞; 孟令恒; 徐晓; 赵星宇; 张健; 张楠
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2017-06-30

Abstract

本发明一种基于知识的级联相关构造性神经网络方法，涉及人工神经网络、机器学习和人工智能领域。特别涉及通过相关性将已经学习到的知识级联到神经网络中，并在此基础上构造性地改造神经网络，从而达到快速灵活地构造神经网络的目的。该算法，在一个前向传播神经网络中根据训练数据来调整网络结构和权值。该算法主要包括两个阶段：输入阶段和输出阶段。在输出阶段，所有进入输出节点的权值，通过训练算法进行优化使得目标网络的输出误差不断减小。在输入阶段，一个新的隐层节点或者知识网络会被添加到目标网络中。最终被选择加入到目标网络中的候选网络是能最好地关联目标网络输出错误的候选网络。

Description

一种基于知识的级联相关构造性神经网络方法

技术领域

本发明一种基于知识的级联相关构造性神经网络方法，涉及人工神经网络、机器学习和人工智能领域。特别涉及通过相关性将已经学习到的知识级联到神经网络中，并在此基础上构造性地改造神经网络，从而达到快速灵活地构造神经网络的目的。

背景技术

目前，国内外应用较多的神经网络都必须在训练学习之前决定网络结构。这种预设的网络结构在实际应用中可能不适用于给定学习任务，比如：网络结构太过简单导致神经网络没有足够的学习能力；或者网络结构太过复杂，虽然能够满足学习任务的需要，但是复杂的结构带来了昂贵的训练代价以及过拟合等问题。针对这些问题，工业界常用的解决办法是不断尝试不同的网络结构，从而最终选择一个合适的网络结构。这种方式带来了极大的人力浪费，而且灵活性和可扩展性非常低。

发明内容

为了解决上述问题，本发明一种基于知识的级联相关构造性神经网络方法，提出基于知识，也就是基于已经学习到的神经网络来动态的改变网络结构的构造性神经网络训练方法。本发明提出的算法利用已有知识与学习目标的相关性来决定网络的级联方式，从而实现构造性地改造神经网络的结构，进而使网络能够更好地适应给定学习任务。

本发明是通过以下方案实现的：

本发明一种基于知识的级联相关构造性神经网络方法，在一个前向传播神经网络中根据训练数据来调整网络结构和权值。该算法主要包括两个阶段：输入阶段和输出阶段。在输出阶段，所有进入输出节点的权值，通过训练算法进行优化使得目标网络的输出误差不断减小。目标网络的训练过程从输出阶段开始，并最终以输出阶段结束。在输入阶段，一个新的隐层节点或者知识网络会被添加到目标网络中。一个新的隐层节点或者一个知识网络叫做一个候选网络，所有的候选网络组成了候选网络池。现有目标网络中除输出节点以外的所有节点作为输入进入候选网络，这些输入到候选网络的输入权值，通过训练来最大化候选网络的输出与目标网络输出错误之间的相关性。在此训练过程中，目标网络的其他权值保持不变。最终被选择加入到目标网络中的候选网络是能最好地关联目标网络输出错误的候选网络。目标网络最初只有输入节点和输出节点。在学习过程中，目标网络会根据是否引入了候选网络来决定是否在输出阶段和输入阶段之间来回跳转。

本发明具有以下优点及效果：

(1)可以更好地利用已学习到的知识增量式地训练目标网络。

(2)具有更快的学习速度。

(3)具有更好的适应性和灵活性。

附图说明

图1为本发明一种基于知识的级联相关构造性神经网络方法的训练过程示意图。

图2为使用本发明一种基于知识的级联相关构造性神经网络方法的网络结构变化示意图。

具体实施方式

本发明一种基于知识的级联相关构造性神经网络方法的实现由初始化阶段、输出阶段和输入阶段组成。其中，输出阶段和输入阶段会根据各自的判断标准来决定是否跳转到另一阶段进行学习。

下面结合图1对本发明一种基于知识的级联相关构造性神经网络方法的3个实施阶段进行具体介绍。

初始化阶段：

步骤1，开始训练之前，初始化网络连接权值。

输出阶段：

步骤1，使用反向传播算法或者快速传播算法等优化算法训练输出权值。在此步骤中，需要优化的函数F是在所有训练样本p和输出节点o上的误差平方和函数：

F＝∑_o∑_p(V_o,p-T_o,p)²，

而优化过程中使用的函数F相对于权值的偏导数为：

步骤2，继续执行输出阶段，直到满足以下条件中的任意一条：

1)如果超过最大输出阶段迭代次数且没有找到合适的解，则跳转到输入阶段。默认情况下，最大输出阶段迭代次数MaxOutputEpoch＝100。

2)如果误差F减小到某一值，并在随后的几个迭代中误差减小的程度没有达到输出阶段停滞标准，则跳转到输入阶段。而这个输出阶段停滞标准，由两个参数OutputChangeThreshold和OutputPatience决定。其中，OutputChangeThreshold＝0.01为误差减小的比例，即连续两次误差计算中的前一次误差F₁和后一次误差F₂之差，除以前一次误差，所得比例必须大于OutputChangeThreshold：而OutputPatience为不满足上述不等式的最大迭代次数，通常取值OutputPatience＝8。

3)如果对于多有样本，输出值V_o,p在目标值T_o,p的一定范围内，也就是|V_o,p-T_o,p|≤ScoreThreshold，那么宣布达到训练目标，训练结束。

输入阶段：

步骤1，将候选网络中的N个网络或者节点，单独连接到当前目标网络中，也就是当前目标网络中的所有输入节点和隐层节点都输入到候选网络中，从而形成N个候选目标网络，然后单独初始化这N个候选目标网络中新加入的候选网络的输入权值。

步骤2，使用反向传播算法或者快速传播算法等优化算法训练候选网络的输入权值。在此步骤中，需要优化的函数G_c是候选网络c在所有训练样本p和输出节点o_c上的输出与候选目标网络误差E_o,p的相关系数：

E_o,p＝(V_o,p-T_o,p)f′_o,p。

而优化过程中使用的相关系数G_c相对于候选网络输入权值的偏导数为：

步骤3，继续执行输入阶段，直到满足以下条件中的任意一条：

1)如果超过最大输入阶段迭代次数且没有找到合适的解，则跳转到输出阶段。默认情况下，最大输入阶段迭代次数MaxInputEpoch＝100。当达到跳转输出阶段的标准的时候，将最佳候选网络的输出节点连接到目标网络的输出节点，并使用[0-1]随机初始化连接权值，且初始化权值符号为同时，丢弃掉所有其他候选网络。

2)如果有至少一个相关系数G_c达到最低相关性要求MinimalCorrelation＝0.2，且相关系数的最大化在连续几次输出阶段迭代中达到输入阶段停滞标准，则跳转到输出阶段。相关系数通过步骤2中的G_c求得。输入阶段停滞标准，由两个参数InputChangeThreshold和InputPatience决定。其中，InputChangeThreshold＝0.03为相关系数减小的最低比例，即连续两次相关系数计算中的后一次相关系数G_c,2和前一次相关系数G_c,1之差，除以前一次相关系数，所得比例必须大于InputChangeThreshold：而InputPatience为不满足上述不等式的最大迭代次数，通常取值InputPatience＝8。当达到跳转输出阶段的标准的时候，将最佳候选网络的输出节点连接到目标网络的输出节点，并使用[0-1]随机初始化连接权值，且初始化权值符号为同时，丢弃掉所有其他候选网络。

按照上述算法训练神经网络的网络结构变化如图2所示。由图2可以看出，网络由输出阶段开始，然后在输入阶段和输出阶段之间不断跳转，从而使网络增长到适合给定训练数据的网络结构。最终，整个训练过程以输出阶段结束。

Claims

1.本发明一种基于知识的级联相关构造性神经网络方法，在一个前向传播神经网络中根据训练数据来调整网络结构和权值。

2.该算法主要包括两个阶段：输入阶段和输出阶段。

3.在输出阶段，所有进入输出节点的权值，通过训练算法进行优化使得目标网络的输出误差不断减小。

4.目标网络的训练过程从输出阶段开始，并最终以输出阶段结束。

5.在输入阶段，一个新的隐层节点或者知识网络会被添加到目标网络中。

6.一个新的隐层节点或者一个知识网络叫做一个候选网络，所有的候选网络组成了候选网络池；现有目标网络中除输出节点以外的所有节点作为输入进入候选网络，这些输入到候选网络的输入权值，通过训练来最大化候选网络的输出与目标网络输出错误之间的相关性；在此训练过程中，目标网络的其他权值保持不变，最终被选择加入到目标网络中的候选网络是能最好地关联目标网络输出错误的候选网络。

7.目标网络最初只有输入节点和输出节点。

8.在学习过程中，目标网络会根据是否引入了候选网络来决定是否在输出阶段和输入阶段之间来回跳转。