CN105550748A

CN105550748A - 基于双曲正切函数的新型神经网络的构造方法

Info

Publication number: CN105550748A
Application number: CN201510903638.0A
Authority: CN
Inventors: 游萌
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2015-12-09
Filing date: 2015-12-09
Publication date: 2016-05-04

Abstract

本发明涉及神经网络模型，目的是为了增强神经网络的计算适应性和运算特性。本发明提供一种基于双曲正切函数的新型神经网络的构造方法，该方法包括如下步骤：构建完全对称的双曲正切函数，并确定双曲正切函数的取值区域；将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型，所述双曲正切函数用于提取数据的特征，将可能的无限域变换到有限范围内；根据多层感知机模型构建卷积神经网络模型。本发明适用于神经网络。

Description

基于双曲正切函数的新型神经网络的构造方法

技术领域

本发明涉及神经网络模型，特别涉及一种适用于智能家电的新型神经网络的构造方法。

背景技术

神经网络是计算机视觉和模式识别一个重要的研究领域，神经网络是由简单处理单元以联立的方式相互组合构成的具有一定规模的并行分布式处理器，具有存储先前经验和自主学习的能力，在人工智能，模式识别，机器学习和人机交互等领域存在广泛的应用，也是前沿科学最重要的研究领域。图像检索及文字识别都属于这一类别，而文字的检测与识别系统则是进行信息检索的基本条件，检测与识别技术是计算机视觉和人机交互领域重要组成部分。

卷积神经网络是最近广泛应用于模式识别和计算机视觉等领域的一种算法模型，具有多层感知器本身特有的结构性布局特点，在考虑多层感知器设计和算法实现方面，卷积神经网络构造的基础设计方面存在很多不同的结构设计，本专利重点在特征映射的执行使用优化的激活函数，良好的激活函数的选择是神经网络设计的一个重要组成部分。一般来说，激活函数应该是对称的，通常有加权，求和与转移三种功能，不同的网络特性主要区别在于采用了不同的激活函数，也正是因为这样，而使神经元具有了各不相同的信息处理机制和特性。在卷积神经网络当前训练样本集合也存在先验知识约束其设计，所以针对卷积神经网络神经元处理数据的方法做改进以增强神经网络的计算适应性和运算特性，有针对性的对处理数据或样本集合做特定的优化和改进。

发明内容

本发明的目的是为了增强神经网络的计算适应性和运算特性，提供一种基于网络神经元所选用的非线性双曲正切函数的新型神经网络的构造方法，其特征在于，包括如下步骤：

构建完全对称的双曲正切函数，并确定双曲正切函数的取值区域；

将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型，所述双曲正切函数用于提取数据的特征，将可能的无限域变换到有限范围内；

根据多层感知机模型构建卷积神经网络模型。

优选地，所述双曲正切函数的取值区域为-0.8至0.8。

具体地，在将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型时，在一个网络节点计算的过程中，输入向量从第一个隐含层开始，以输出层计算该层的每一个神经元的误差信号结束，误差信号经过网络一层一层的传播，并且递归计算每个神经元的局部梯度。

具体地，所述局部梯度等于这个神经元的误差信号乘以它的非线性一次导数。

具体地，神经元的非线性一次导数的计算过程如下：

获得神经元的输出表达式

x = F (y) = \tanh (y) = \frac{\sinh (y)}{\cosh (y)}

其中，y是函数的输入(对应于一个神经元的激活值)，X是神经元的输出；

对上式进行求导计算，即

\frac{d F}{d y} = \frac{d}{d y} (\frac{\sinh (y)}{c o s h (y)}) = \frac{\cosh^{2} (y) - \sinh^{2} (y)}{\cosh^{2} (y)}

简化为：

\frac{d F}{d y} = 1 - \tanh^{2} (y) .

本发明的有益效果是：通过上述的方法的改进，我们使用更加适合本项目的卷积网络神经元激活函数1-tanh²(y)，可以在不占用大量计算资源的情况下，最大程度上减少卷积神经网络的网络结构设计复杂度，使其易于操作和理解，更有利于日后的维护和管理。在严格控制时间和计算资源耗损的情况下可以在后续的实验和模拟中针对更为庞大的训练样本集做训练。在实际实验过程中激活函数的不同而使神经元具有了各不相同的信息处理机制和特性。使用本发明阐述的激活函数使神经元的输出节点处理变的简单，而且易于控制迭代进入理想可控的局面，神经网络设计层面上每一个节点都提供期望的反应信号，优化的神经元激活函数的有效配置和应用使得计算误差信号变得非常简单。

具体实施方式

以下对本发明的技术方案作进一步详细描述。

本发明的目的是为了增强神经网络的计算适应性和运算特性，提供一种基于双曲正切函数的新型神经网络的构造方法，包括如下步骤：

根据多层感知机模型构建卷积神经网络模型。

以下对本发明的技术方案进行理论分析。

创建基于使用学习算法的多层感知机模型，该模型为解决非线性可分问题，但是由于感知机学习算法的限制，模式分类能力很有限，以此切入重点是其中的激活函数功能，激活函数其作用是将海量数据的特征提取，将可能的无限域变换到一个指定的有限范围内输入，在神经元输入信号与其激活状态的一种转变，针对大量样本数据的网络特征传递有着非常重要的意义，合适的激活函数的设计类型对提高神经网络层内和节点互联的信息交换，增强隐含层神经元的学习能力有着决定性的作用。

明确隐含层神经元的学习能力之后，在一般的神经网络层内和节点互联的数据传递结构仍然存在对称性和计算效率等问题，一般常用的线性函数和阈值性函数过于简单，不适合高性能条件下的应用要求。而一般的非线性压缩函数(SquashingFunction)，通常的有：Sigmoid函数和双曲正切函数(hyperbolictangent)。其中Sigmoid函数相对简单，性能在广泛使用后缺乏进一步提升的空间，本专利主要针对双曲正切函数具体在实验环境下的分类性能的提升方面做优化改进，以满足高性能卷积神经网络的应用特性和整体架构的要求，更加有效的处理文字检测与识别系统的构建。

构建优化的双曲正切函数完全对称，Sigmoid函数一般对应于0～1之间的一个连续取值区域，tanh函数习惯在-1～+1之间。在实际运用构建激活函数的时候，我们这里不做通常情况下的完整区间，而是有选择性的在双曲正切函数连续区域取值±0.8或者视情况人为缩短连续区域取值，比如说±0.3甚至更小(不同于-1～+1的区间)。这样做的目的是在一个网络节点计算的过程中，输入向量从第一个隐含层开始，以输出层计算该层的每一个神经元的误差信号结束，误差信号经过网络一层一层的传播，并且递归计算每个神经元的局部梯度，而局部梯度等于这个神经元的误差信号乘以它的非线性一次导数，因此可以计算求得所有进入输出层的连接的权值变化，通过传播这个变化给网络的所有突触权值，一层接一层连续递归计算。在这个过程中于局部梯度的计算因子仅仅依赖于隐含层神经元的激活函数。这里选择双曲正切函数连续区域取值±0.8或者缩短连续区域取值与局域梯度的计算有直接的关系。为了相应激活函数可控制，使神经元响应误差信号和相应激活函数的导数的乘积满足计算的要求。

改进的双曲正切激活函数还有另一个可靠的原因：是很容易得到它的导数。可参考公式：

\frac{\partial E^{p}}{\partial y^{i}} = G (x^{i}) \cdot \frac{\partial E^{p}}{\partial x^{i}}

G(xⁱ)即为激活函数的导数。是神经元误差，误差乘以g(x)，这是激活函数的导数。

双曲正切激活函数需要在神经网络内计算很多迭代。它不仅是容易获得导数，而且导数的值可以在输出值表示(即，相对于后续神经元的输入值)。更具体地说，见下面公式：

x = F (y) = \tanh (y) = \frac{\sinh (y)}{\cosh (y)}

y是函数的输入(对应于一个神经元的激活值)，X是神经元的输出。那么这时：

\frac{d F}{d y} = \frac{d}{d y} (\frac{\sinh (y)}{\cosh (y)}) = \frac{\cosh^{2} (y) - \sinh^{2} (y)}{\cosh^{2} (y)}

通常双正切函数可以表示为：x＝tanh(y)；即原式可以更简练的表示：

我们可以依据函数的输出的值方便的计算导数。

通过软件模拟实现卷积神经网络模型，并使用大量数据对发明所阐述的神经元激活函数做训练和测试，而且在适应性能大幅提升的情况下，也可以促进更加广泛的模式识别和计算机视觉针对检测和识别对象的范围，基于新型快速神经元激活函数的基础设计技术提升智能家电产品的应用，提高了家电在视觉交互方面的智能性和泛化性，以实际产品使用过程中获得更好的用户体验。

Claims

1.基于双曲正切函数的新型神经网络的构造方法，其特征在于，包括如下步骤：

根据多层感知机模型构建卷积神经网络模型。

2.如权利要求1所述的基于双曲正切函数的新型神经网络的构造方法，其特征在于，所述双曲正切函数的取值区域为-0.8至0.8。

3.如权利要求1所述的基于双曲正切函数的新型神经网络的构造方法，其特征在于，在将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型时，在一个网络节点计算的过程中，输入向量从第一个隐含层开始，以输出层计算该层的每一个神经元的误差信号结束，误差信号经过网络一层一层的传播，并且递归计算每个神经元的局部梯度。

4.如权利要求3所述的基于双曲正切函数的新型神经网络的构造方法，其特征在于，所述局部梯度等于这个神经元的误差信号乘以它的非线性一次导数。

5.如权利要求4所述的基于双曲正切函数的新型神经网络的构造方法，其特征在于，神经元的非线性一次导数的计算过程如下：

获得神经元的输出表达式

x = F (y) = \tanh (y) = \frac{\sinh (y)}{\cosh (y)}

对上式进行求导计算，即

\frac{d F}{d y} = \frac{d}{d y} (\frac{\sinh (y)}{c o s h (y)}) = \frac{\cosh^{2} (y) - \sinh^{2} (y)}{\cosh^{2} (y)}

简化为：

\frac{d F}{d y} = 1 - \tanh^{2} (y) .