CN101546389A

CN101546389A - 一种主方向神经网络系统

Info

Publication number: CN101546389A
Application number: CN200810102802A
Authority: CN
Inventors: 殷维栋; 王守觉
Original assignee: Institute of Semiconductors of CAS
Current assignee: Institute of Semiconductors of CAS
Priority date: 2008-03-26
Filing date: 2008-03-26
Publication date: 2009-09-30

Abstract

本发明公开了一种主方向神经网络系统，采用4层前馈式结构，包括输入层、第一隐层、第二隐层和输出层，输入层包含D个神经元，第一隐层包含K组神经元，每组神经元包含3个神经元，第二隐层包含K个神经元，输出层为一个神经元，D和K均为自然数；输入层用于接收D维向量，每个神经元对应接收D维向量中的一个分量；第一隐层将接收自输入层的D维向量映射至第二隐层中的神经元，第一隐层中每组神经元对应第二隐层中的一个神经元；第二隐层将接收自第一隐层的3K维向量映射至输出层中的神经元；输出层将第二隐层的结果进行有偏置w₀的线性加权，然后输出。本发明克服了陷入局部极小的困难和对噪声的敏感性。

Description

一种主方向神经网络系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种主方向神经网络系统。

背景技术

机器学习研究的问题是怎样让机器进行学习，从而具备智能。人工神经网络是实现机器学习的强有力的手段，原因在于人工神经网络研究的基本出发点是模仿生物神经网络。

人工神经网络由大量神经元互连而成，单个神经元的功能可以非常简单，但是它们之间复杂连接而成的网络却具有极强的非线性映射，分布式存储，并行处理和容错能力，这些是实现智能的基础。

人工神经网络的非常重要的优势在于实现非线性映射逼近，而这无论是在模式识别领域还是在机器学习领域都是十分关键的性质，正是由于这个特点，我们在人工智能的很多方面都可以看到神经网络的存在，神经网络已经成为一种重要的工具得到了广泛的应用。

当前得到广泛应用的网络有BP网络、RBF网络、Hopfield网络、SOM网络、LVQ网络、ART系列的网络等。国内也有一批学者在神经网络模型方面做出了贡献，比如王守觉院士提出的基于高维空间几何分析理论的神经网络模型。

王守觉院士提出的思想富有启发性，其思想的出发点是要从形象思维的角度考察人工智能问题，特别的，他对于传统模式识别提出质疑，认为应该从认识而不是划分的角度来思考模式识别问题。基于这一思想，王院士提出了仿生模式识别和高维空间信息学，特别是构建了超香肠模型并在实践中取得了优异的效果。

神经网络由于其非线性映射能力，既可以用来做函数回归，也可以用于模式识别领域。例如BP网络在模式识别方面有广泛应用，RBF网络由于其结构简单，算法收敛快等优点广泛的应用于函数回归方面。但它们都有缺点，例如BP网络收敛慢而且容易陷入性能函数的局部极小；RBF网络对噪声比较敏感。

我们一方面为克服陷入局部极小的困难，借鉴RBF网络主体结构，另一方面要克服其对噪声的敏感性，因而考虑对每个自然聚类采用多个代表点。

发明内容

(一)要解决的技术问题

有鉴于此，本发明的主要目的在于提供一种主方向神经网络系统，以克服陷入局部极小的困难，并克服对噪声的敏感性。

(二)技术方案

为达到上述目的，本发明提供了一种主方向神经网络系统，该神经网络系统采用4层前馈式结构，包括输入层、第一隐层、第二隐层和输出层，输入层包含D个神经元，第一隐层包含K组神经元，每组神经元进一步包含3个神经元，第二隐层包含K个神经元，输出层为一个神经元，其中D和K均为自然数；

所述输入层用于接收D维向量x＝(x₁x₂…x_D)，每个神经元对应接收D维向量中的一个分量，并将该D维向量x＝(x₁x₂…x_D)映射至第一隐层中的各神经元；

所述第一隐层将接收自输入层的D维向量x＝(x₁x₂…x_D)映射至第二隐层中的神经元，第一隐层中每组神经元对应第二隐层中的一个神经元；

所述第二隐层将接收自第一隐层的3K维向量映射至输出层中的神经元；

所述输出层将第二隐层的结果进行有偏置w₀的线性加权，然后输出。

优选地，所述输入层将该D维向量x＝(x₁x₂…x_D)映射至第一隐层中的各神经元通过以下运算实现：输入向量与第j聚类的3个代表点

的距离的r(r≥1)次方。

优选地，所述第一隐层将接收自输入层的D维向量x＝(x₁x₂…x_D)映射至第二隐层中的神经元通过以下运算实现：将第一隐层得到的结果求和后作相应的非线性映射

优选地，所述基函数宽度可调参数λ_j，j＝1，2，...，K是随聚类的特性而变的，能够反映输入空间的数据的近似分布。

优选地，该神经网络系统采用各聚类第一主方向上的3个代表点

并且由这3个代表点构成一个几何形体来覆盖样本数据点。

优选地，该神经网络系统采用神经网络的映射逼近，具体过程分为以下两个阶段：第一阶段是实现输入空间样本的自然聚类，第二阶段是基于覆盖模型的映射求解。

优选地，所述第一阶段通过非监督方法得到，所述第二阶段通过监督学习得到。

优选地，所述第一阶段的自然聚类采用的是基于马氏距离的K均值聚类，以更好的发掘出样本数据的方向性分布结构，为基于主方向的几何形体覆盖做好铺垫。

(三)有益效果

从上述技术方案可以看出，本发明具有以下效果：

1、本发明提供的这种主方向神经网络系统，借鉴了RBF网络的思想，局部响应，整体平滑，同时借鉴了王守觉院士的高维几何形体覆盖的思想，通过对输入空间样本的覆盖来实现映射，RBF网络对每一聚类使用一个代表中心，而主方向神经网络则采用各聚类第一主方向上的3个代表点

并且由这3个代表点构成一个几何形体来覆盖样本数据点。

2、本发明提供的这种主方向神经网络系统，具有更好的逼近性能和更优的抗噪声性能，克服了陷入局部极小的困难，并克服了对噪声的敏感性。

附图说明

图1是本发明提供的主方向神经网络的结构示意图；

图2是覆盖框架的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明提供的这种主方向神经网络系统，构建在某个函数集在连续函数空间中的稠密性的基础上的，这为网络的逼近性能提供了理论保障。将神经网络的映射逼近问题分为两个阶段，第一阶段是实现输入空间样本的自然聚类，第二阶段是基于覆盖模型的映射求解。第一阶段通过非监督方法得到，第二阶段通过监督学习得到。该神经网络系统不仅结构清晰，而且算法易于理解并具有很好的可操作性。我们用实例验证过该网络，发现它不仅具有很好的非线性逼近能力，而且具有好的抗噪声干扰能力。

如图1所示，图1是本发明提供的主方向神经网络的结构示意图，该神经网络系统采用4层前馈式结构，包括输入层、第一隐层、第二隐层和输出层，输入层包含D个神经元，第一隐层包含K组神经元，每组神经元进一步包含3个神经元，第二隐层包含K个神经元，输出层为一个神经元，其中D和K均为自然数。

所述输入层用于接收D维向量x＝(x₁x₂…x_D)，每个神经元对应接收D维向量中的一个分量，并将该D维向量x＝(x₁x₂…x_D)映射至第一隐层中的各神经元。所述第一隐层将接收自输入层的D维向量x＝(x₁x₂…x_D)映射至第二隐层中的神经元，第一隐层中每组神经元对应第二隐层中的一个神经元。所述第二隐层将接收自第一隐层的3K维向量映射至输出层中的神经元。所述输出层将第二隐层的结果进行有偏置w₀的线性加权，然后输出。

所述输入层将该D维向量x＝(x₁x₂…x_D)映射至第一隐层中的各神经元通过以下运算实现：输入向量与第j聚类的3个代表点的距离的r(r≥1)次方。

所述第一隐层将接收自输入层的D维向量x＝(x₁x₂…x_D)映射至第二隐层中的神经元通过以下运算实现：将第一隐层得到的结果求和后作相应的非线性映射

所述基函数宽度可调参数λ_j，j＝1，2，...，K是随聚类的特性而变的，能够反映输入空间的数据的近似分布。

该神经网络系统采用各聚类第一主方向上的3个代表点

并且由这3个代表点构成一个几何形体来覆盖样本数据点。

该神经网络系统采用神经网络的映射逼近，具体过程分为以下两个阶段：第一阶段是实现输入空间样本的自然聚类，第二阶段是基于覆盖模型的映射求解。所述第一阶段通过非监督方法得到，所述第二阶段通过监督学习得到。所述第一阶段的自然聚类采用的是基于马氏距离的K均值聚类，以更好的发掘出样本数据的方向性分布结构，为基于主方向的几何形体覆盖做好铺垫。

通过分析RBF等网络和借鉴仿生模式识别和高维空间复杂形体覆盖的思想，我们认为，用神经网络作非线性映射可以分两个阶段考虑：第一，是样本所在的区域的覆盖表示，第二是基于这一表示的映射建模。这里我们分别予以说明。

第一个阶段依赖于样本点在高维空间中的几何分布，一些常用的网络，如BP网络以超平面划分的形式表示样本所在的区域，RBF网络以超球面表示，FAM则是采用一些矩形来表示，仿生模式识别是以超香肠表示。

第二阶段是映射建模，不同的神经网络具有不同的建模方法，例如BP网络采用基于Sigmoid基函数的线性组合来构建映射模型，而RBF网络则是基于径向基函数的线性组合来构建模型，

基于上面的分析，我们总结得到处理这类问题的统一框架，称之为覆盖框架，如附图2所示。

这里作一些必要的说明：映射

由样本数据的几何分布决定，得到该映射的过程是无监督的，称映射

为样本的自然聚类。映射φ是建立在自然聚类基础上的覆盖映射，实现映射φ的实质就是对样本数据集所在的几何区域进行表示，我们称映射φ为表示映射。接下来需要确立输入空间到输出空间的映射关系。映射ξ：X′→Y′是神经网络的映射模型，不同神经网络的这个模型假定是不同的。ξ：X′→Y′应该在X′的子集X，即样本集上满足映射要求，我们依据ξ在数据集上的限制ξ|X：X→Y确定模型参数，从而确定了映射ξ。神经网络的泛化能力体现在

X' &Superset; X

上，ξ能够对训练样本外的数据实现映射。

设C(R^s)是R^s上的连续函数全体构成集合，它关于数乘和加法运算构成一个线性空间，定义连续函数间的乘法运算后构成一个代数。为简化符号起见，该代数依然记为C(R^s)。

我们考虑C(Rs)的一个子集

，这里r≥1是一个常数。

定义G的非负张成集合如下：

H = {Σ_{i = 1}^{m} λ_{i} g_{i} : m &Element; N, λ_{i} &GreaterEqual; 0, g_{i} &Element; G, i = 1,2, . . ., m}

设函数φ(x)＝exp(-x)，x≥0，考虑下列函数集：

我们希望F成为C(R^s)中的基本集，事实上确实如此。

定理1：

是C(R^s)中的基本集。

有了这些准备工作后，我们提出一种基于覆盖框架的神经网络模型，基本思想是利用各自然聚类第一主方向(最大方差方向)上的几个特殊点作为该聚类的代表，以这些代表点构建的某种几何形体实现对该类样本点的覆盖。

仿照函数集的形式，为构建一个可用的网络，我们要求神经网络实现如下的映射：

Ψ (x) = Σ_{j = 1}^{K} w_{j} \exp (- λ_{j} Σ_{l = 1}^{3} {| | x - {c^{l}}_{j} | |}^{r}) + w_{0}

可以看到，这种神经网络的结构与经典的径向基函数神经网络是有共同之处的，而不同之处在于，径向基函数神经网络应用一个代表点表示一个聚类，用其超球邻域覆盖样本，而主方向神经网络利用第一主方向上3个点表示一个聚类，用形体

Σ_{l = 1}^{3} {| | x - {c^{l}}_{j} | |}^{r} \leq const

来覆盖第j聚类的样本点。有趣的是，当r＝2时，容易证明这是一个超球，同于径向基函数神经网络的覆盖形体。

依据覆盖框架，主方向神经网络的训练算法分为两个关键阶段：第一阶段是实现自然聚类。第二阶段是监督学习，获得网络需要存储的各连接权值和输出偏置。

为了更精细的刻画样本数据的分布特征，我们采用基于马氏距离的K均值聚类。设有K类，类j来自总体X_j，D维随机向量X_j均值向量为μ_j，协方差矩阵为∑_j，根据最大后验准则，判决函数为：

d_{j} (z) = \frac{1}{2} {(x - μ_{j})}^{T} Σ_{j}^{- 1} (x - μ_{j}) + \frac{1}{2} \ln (\det (Σ_{j}) - \ln P (ω_{j}) + \frac{1}{2} D \ln (2 π), j = 1,2, \cdot \cdot \cdot, K

判决方法为：

z &Element; ω_{j_{0}} &DoubleLeftRightArrow; d_{j_{0}} (z) < d_{j} (z),

&ForAll; j &NotEqual; j_{0}, j &Element; {1,2, . . ., K}

根据映射模型

Ψ (x) = Σ_{j = 1}^{K} w_{j} \exp (- λ_{j} Σ_{l = 1}^{3} {| | x - {c^{l}}_{j} | |}^{r}) + w_{0},

需要确定的量有

各聚类的3个代表点

由无监督学习来确定，选取第一主方向p_j上与中心μ_j成对称分布的两个点，连同μ_j一起作为第j聚类的3个代表点，用方程描述为

{c^{l}}_{j} = μ_{j} + 2 (l - 2) σ_{l} p_{j}, l = 1,2,3; j = 1,2, . . ., K,

这里σ_j>0，j＝1，2，...，K为各类样本第一主方向上的标准差，

是∑_j的最大特征值，p_j为相应的特征向量，我们只对其方向感兴趣，故将其长度定为1。

可以用乘幂法确定，也可以用∑_j的奇异值分解(SVD)来确定。

参数λ_j可以和w_j一起由一个最优化问题确定，但该问题不是凸优化问题，求解比较困难，而且存在陷入局部极小的困难。为简化求解，我们给出确定λ_j的经验方法：

λ_{j} = {(\frac{κ}{σ_{j}})}^{r}, j = 1,2, . . ., K,

这里κ≥0为可调参数，这样就只需要调整好参数κ>0，就可以确定λ_j。κ越大，基函数越尖锐；κ越小，基函数越平坦。

连接权值w_j和输出偏置w₀由监督学习来确定。设有M个训练样本(x_i，d_i)∈R^s×R，i＝1，2，...，M，那么导出如下的含有K+1个未知数的线性方程组：

Σ_{j = 1}^{K} w_{j} \exp (- λ_{j} Σ_{l = 1}^{3} {| | x_{i} - {c^{l}}_{j} | |}^{r}) + w_{0} = d_{i}, i = 1,2, . . ., M

当M>K+1时，这是一个超定的线性方程组，通过伪逆法可以求其最小二乘意义下的解。

综上所述，我们有如下的学习算法1：

算法1

Step1：输入数据集X_i，输入预聚类数K，容许误差界ε。

Step2：采用一定的算法，选取初始中心μ_j，并设定初始协方差矩阵和初始分布∑_j＝I，P(ω_j)＝1/K，j＝1，2，...，K。

Step3：对每一个观测X_i，计算d_j(X_i)，

index (i) = \arg \min_{j} d_{j} (X_{i})

Step4：判断是否有空的聚类，若存在空聚类，则剔除该聚类，重新设置初始分布，转向Step3。

Step5：按index重新计算各聚类中心向量和协方差矩阵以及分布。

Step6：判别新的中心向量与原来中心向量的距离是否都小于容许误差界ε。若是，则输出聚类的相关信息，算法结束；否则，更新各聚类中心向量和协方差矩阵以及分布，然后转向Step3。

Step7：依据乘幂法或奇异值分解计算

Step8：计算

{c^{l}}_{j} = μ_{j} + 2 (l - 2) σ_{j} p_{j}, l = 1,2,3; j = 1,2, . . ., K,

λ_{j} = {(\frac{κ}{σ_{j}})}^{r}, j = 1,2, . . ., K;

Step9：采用伪逆法求解下面的超定线性方程组，得到最小二乘意义下的解，得到连接权值和偏置

Σ_{j = 1}^{K} w_{j} \exp (- λ_{j} Σ_{l = 1}^{3} {| | x_{i} - {c^{l}}_{j} | |}^{r}) + w_{0} = d_{i}, i = 1,2, . . ., M;

至此，完成网络的全部训练过程，使用网络时只需要将测试向量代入映射表达式中求取映射函数值即可。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种主方向神经网络系统，其特征在于，该神经网络系统采用4层前馈式结构，包括输入层、第一隐层、第二隐层和输出层，输入层包含D个神经元，第一隐层包含K组神经元，每组神经元进一步包含3个神经元，第二隐层包含K个神经元，输出层为一个神经元，其中D和K均为自然数；

2、根据权利要求1所述的主方向神经网络系统，其特征在于，所述输入层将该D维向量x＝(x₁x₂…x_D)映射至第一隐层中的各神经元通过以下运算实现：输入向量与第j聚类的3个代表点

的距离的r(r≥1)次方。

3、根据权利要求1所述的主方向神经网络系统，其特征在于，所述第一隐层将接收自输入层的D维向量x＝(x₁x₂…x_D)映射至第二隐层中的神经元通过以下运算实现：将第一隐层得到的结果求和后作相应的非线性映射

4、根据权利要求3所述的主方向神经网络系统，其特征在于，所述基函数宽度可调参数λ₁，j＝1，2，...，K是随聚类的特性而变的，能够反映输入空间的数据的近似分布。

5、根据权利要求1所述的主方向神经网络系统，其特征在于，该神经网络系统采用各聚类第一主方向上的3个代表点

并且由这3个代表点构成一个几何形体来覆盖样本数据点。

6、根据权利要求1所述的主方向神经网络系统，其特征在于，该神经网络系统采用神经网络的映射逼近，具体过程分为以下两个阶段：第一阶段是实现输入空间样本的自然聚类，第二阶段是基于覆盖模型的映射求解。

7、根据权利要求6所述的主方向神经网络系统，其特征在于，所述第一阶段通过非监督方法得到，所述第二阶段通过监督学习得到。

8、根据权利要求6所述的主方向神经网络系统，其特征在于，所述第一阶段的自然聚类采用的是基于马氏距离的K均值聚类，以更好的发掘出样本数据的方向性分布结构，为基于主方向的几何形体覆盖做好铺垫。