CN105550748A - 基于双曲正切函数的新型神经网络的构造方法 - Google Patents
基于双曲正切函数的新型神经网络的构造方法 Download PDFInfo
- Publication number
- CN105550748A CN105550748A CN201510903638.0A CN201510903638A CN105550748A CN 105550748 A CN105550748 A CN 105550748A CN 201510903638 A CN201510903638 A CN 201510903638A CN 105550748 A CN105550748 A CN 105550748A
- Authority
- CN
- China
- Prior art keywords
- hyperbolic tangent
- tangent function
- function
- neural network
- neuronic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
Abstract
本发明涉及神经网络模型,目的是为了增强神经网络的计算适应性和运算特性。本发明提供一种基于双曲正切函数的新型神经网络的构造方法,该方法包括如下步骤:构建完全对称的双曲正切函数,并确定双曲正切函数的取值区域;将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型,所述双曲正切函数用于提取数据的特征,将可能的无限域变换到有限范围内;根据多层感知机模型构建卷积神经网络模型。本发明适用于神经网络。
Description
技术领域
本发明涉及神经网络模型,特别涉及一种适用于智能家电的新型神经网络的构造方法。
背景技术
神经网络是计算机视觉和模式识别一个重要的研究领域,神经网络是由简单处理单元以联立的方式相互组合构成的具有一定规模的并行分布式处理器,具有存储先前经验和自主学习的能力,在人工智能,模式识别,机器学习和人机交互等领域存在广泛的应用,也是前沿科学最重要的研究领域。图像检索及文字识别都属于这一类别,而文字的检测与识别系统则是进行信息检索的基本条件,检测与识别技术是计算机视觉和人机交互领域重要组成部分。
卷积神经网络是最近广泛应用于模式识别和计算机视觉等领域的一种算法模型,具有多层感知器本身特有的结构性布局特点,在考虑多层感知器设计和算法实现方面,卷积神经网络构造的基础设计方面存在很多不同的结构设计,本专利重点在特征映射的执行使用优化的激活函数,良好的激活函数的选择是神经网络设计的一个重要组成部分。一般来说,激活函数应该是对称的,通常有加权,求和与转移三种功能,不同的网络特性主要区别在于采用了不同的激活函数,也正是因为这样,而使神经元具有了各不相同的信息处理机制和特性。在卷积神经网络当前训练样本集合也存在先验知识约束其设计,所以针对卷积神经网络神经元处理数据的方法做改进以增强神经网络的计算适应性和运算特性,有针对性的对处理数据或样本集合做特定的优化和改进。
发明内容
本发明的目的是为了增强神经网络的计算适应性和运算特性,提供一种基于网络神经元所选用的非线性双曲正切函数的新型神经网络的构造方法,其特征在于,包括如下步骤:
构建完全对称的双曲正切函数,并确定双曲正切函数的取值区域;
将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型,所述双曲正切函数用于提取数据的特征,将可能的无限域变换到有限范围内;
根据多层感知机模型构建卷积神经网络模型。
优选地,所述双曲正切函数的取值区域为-0.8至0.8。
具体地,在将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型时,在一个网络节点计算的过程中,输入向量从第一个隐含层开始,以输出层计算该层的每一个神经元的误差信号结束,误差信号经过网络一层一层的传播,并且递归计算每个神经元的局部梯度。
具体地,所述局部梯度等于这个神经元的误差信号乘以它的非线性一次导数。
具体地,神经元的非线性一次导数的计算过程如下:
获得神经元的输出表达式
其中,y是函数的输入(对应于一个神经元的激活值),X是神经元的输出;
对上式进行求导计算,即
简化为:
本发明的有益效果是:通过上述的方法的改进,我们使用更加适合本项目的卷积网络神经元激活函数1-tanh2(y),可以在不占用大量计算资源的情况下,最大程度上减少卷积神经网络的网络结构设计复杂度,使其易于操作和理解,更有利于日后的维护和管理。在严格控制时间和计算资源耗损的情况下可以在后续的实验和模拟中针对更为庞大的训练样本集做训练。在实际实验过程中激活函数的不同而使神经元具有了各不相同的信息处理机制和特性。使用本发明阐述的激活函数使神经元的输出节点处理变的简单,而且易于控制迭代进入理想可控的局面,神经网络设计层面上每一个节点都提供期望的反应信号,优化的神经元激活函数的有效配置和应用使得计算误差信号变得非常简单。
具体实施方式
以下对本发明的技术方案作进一步详细描述。
本发明的目的是为了增强神经网络的计算适应性和运算特性,提供一种基于双曲正切函数的新型神经网络的构造方法,包括如下步骤:
构建完全对称的双曲正切函数,并确定双曲正切函数的取值区域;
将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型,所述双曲正切函数用于提取数据的特征,将可能的无限域变换到有限范围内;
根据多层感知机模型构建卷积神经网络模型。
以下对本发明的技术方案进行理论分析。
创建基于使用学习算法的多层感知机模型,该模型为解决非线性可分问题,但是由于感知机学习算法的限制,模式分类能力很有限,以此切入重点是其中的激活函数功能,激活函数其作用是将海量数据的特征提取,将可能的无限域变换到一个指定的有限范围内输入,在神经元输入信号与其激活状态的一种转变,针对大量样本数据的网络特征传递有着非常重要的意义,合适的激活函数的设计类型对提高神经网络层内和节点互联的信息交换,增强隐含层神经元的学习能力有着决定性的作用。
明确隐含层神经元的学习能力之后,在一般的神经网络层内和节点互联的数据传递结构仍然存在对称性和计算效率等问题,一般常用的线性函数和阈值性函数过于简单,不适合高性能条件下的应用要求。而一般的非线性压缩函数(SquashingFunction),通常的有:Sigmoid函数和双曲正切函数(hyperbolictangent)。其中Sigmoid函数相对简单,性能在广泛使用后缺乏进一步提升的空间,本专利主要针对双曲正切函数具体在实验环境下的分类性能的提升方面做优化改进,以满足高性能卷积神经网络的应用特性和整体架构的要求,更加有效的处理文字检测与识别系统的构建。
构建优化的双曲正切函数完全对称,Sigmoid函数一般对应于0~1之间的一个连续取值区域,tanh函数习惯在-1~+1之间。在实际运用构建激活函数的时候,我们这里不做通常情况下的完整区间,而是有选择性的在双曲正切函数连续区域取值±0.8或者视情况人为缩短连续区域取值,比如说±0.3甚至更小(不同于-1~+1的区间)。这样做的目的是在一个网络节点计算的过程中,输入向量从第一个隐含层开始,以输出层计算该层的每一个神经元的误差信号结束,误差信号经过网络一层一层的传播,并且递归计算每个神经元的局部梯度,而局部梯度等于这个神经元的误差信号乘以它的非线性一次导数,因此可以计算求得所有进入输出层的连接的权值变化,通过传播这个变化给网络的所有突触权值,一层接一层连续递归计算。在这个过程中于局部梯度的计算因子仅仅依赖于隐含层神经元的激活函数。这里选择双曲正切函数连续区域取值±0.8或者缩短连续区域取值与局域梯度的计算有直接的关系。为了相应激活函数可控制,使神经元响应误差信号和相应激活函数的导数的乘积满足计算的要求。
改进的双曲正切激活函数还有另一个可靠的原因:是很容易得到它的导数。可参考公式:
G(xi)即为激活函数的导数。是神经元误差,误差乘以g(x),这是激活函数的导数。
双曲正切激活函数需要在神经网络内计算很多迭代。它不仅是容易获得导数,而且导数的值可以在输出值表示(即,相对于后续神经元的输入值)。更具体地说,见下面公式:
y是函数的输入(对应于一个神经元的激活值),X是神经元的输出。那么这时:
通常双正切函数可以表示为:x=tanh(y);即原式可以更简练的表示:
我们可以依据函数的输出的值方便的计算导数。
通过软件模拟实现卷积神经网络模型,并使用大量数据对发明所阐述的神经元激活函数做训练和测试,而且在适应性能大幅提升的情况下,也可以促进更加广泛的模式识别和计算机视觉针对检测和识别对象的范围,基于新型快速神经元激活函数的基础设计技术提升智能家电产品的应用,提高了家电在视觉交互方面的智能性和泛化性,以实际产品使用过程中获得更好的用户体验。
Claims (5)
1.基于双曲正切函数的新型神经网络的构造方法,其特征在于,包括如下步骤:
构建完全对称的双曲正切函数,并确定双曲正切函数的取值区域;
将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型,所述双曲正切函数用于提取数据的特征,将可能的无限域变换到有限范围内;
根据多层感知机模型构建卷积神经网络模型。
2.如权利要求1所述的基于双曲正切函数的新型神经网络的构造方法,其特征在于,所述双曲正切函数的取值区域为-0.8至0.8。
3.如权利要求1所述的基于双曲正切函数的新型神经网络的构造方法,其特征在于,在将所构建的双曲正切函数作为激活函数创建基于使用学习算法的多层感知机模型时,在一个网络节点计算的过程中,输入向量从第一个隐含层开始,以输出层计算该层的每一个神经元的误差信号结束,误差信号经过网络一层一层的传播,并且递归计算每个神经元的局部梯度。
4.如权利要求3所述的基于双曲正切函数的新型神经网络的构造方法,其特征在于,所述局部梯度等于这个神经元的误差信号乘以它的非线性一次导数。
5.如权利要求4所述的基于双曲正切函数的新型神经网络的构造方法,其特征在于,神经元的非线性一次导数的计算过程如下:
获得神经元的输出表达式
其中,y是函数的输入(对应于一个神经元的激活值),X是神经元的输出;
对上式进行求导计算,即
简化为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510903638.0A CN105550748A (zh) | 2015-12-09 | 2015-12-09 | 基于双曲正切函数的新型神经网络的构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510903638.0A CN105550748A (zh) | 2015-12-09 | 2015-12-09 | 基于双曲正切函数的新型神经网络的构造方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105550748A true CN105550748A (zh) | 2016-05-04 |
Family
ID=55829929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510903638.0A Pending CN105550748A (zh) | 2015-12-09 | 2015-12-09 | 基于双曲正切函数的新型神经网络的构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105550748A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018076331A1 (zh) * | 2016-10-31 | 2018-05-03 | 北京中科寒武纪科技有限公司 | 一种神经网络训练方法及装置 |
CN109179133A (zh) * | 2018-11-05 | 2019-01-11 | 常熟理工学院 | 用于预判故障的电梯智能维保预测方法及系统 |
CN109643392A (zh) * | 2016-09-07 | 2019-04-16 | 罗伯特·博世有限公司 | 利用简化的激活函数计算多层感知器模型的神经元层的方法 |
CN112612898A (zh) * | 2021-03-05 | 2021-04-06 | 蚂蚁智信(杭州)信息技术有限公司 | 文本分类的方法和装置 |
CN112889075A (zh) * | 2018-10-29 | 2021-06-01 | Sk电信有限公司 | 使用非对称双曲正切激活函数改进预测性能 |
CN112990421A (zh) * | 2019-12-02 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 优化深度学习网络的运行过程的方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968663A (zh) * | 2012-11-29 | 2013-03-13 | 河海大学 | 基于无标记样本的神经网络构建方法及其装置 |
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN104794527A (zh) * | 2014-01-20 | 2015-07-22 | 富士通株式会社 | 基于卷积神经网络的分类模型构建方法和设备 |
CN104866524A (zh) * | 2015-04-10 | 2015-08-26 | 大连交通大学 | 一种商品图像精细分类方法 |
-
2015
- 2015-12-09 CN CN201510903638.0A patent/CN105550748A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
CN102968663A (zh) * | 2012-11-29 | 2013-03-13 | 河海大学 | 基于无标记样本的神经网络构建方法及其装置 |
CN104794527A (zh) * | 2014-01-20 | 2015-07-22 | 富士通株式会社 | 基于卷积神经网络的分类模型构建方法和设备 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN104866524A (zh) * | 2015-04-10 | 2015-08-26 | 大连交通大学 | 一种商品图像精细分类方法 |
Non-Patent Citations (1)
Title |
---|
刘聪: "包含小数点的手写数字串切分与识别", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109643392A (zh) * | 2016-09-07 | 2019-04-16 | 罗伯特·博世有限公司 | 利用简化的激活函数计算多层感知器模型的神经元层的方法 |
WO2018076331A1 (zh) * | 2016-10-31 | 2018-05-03 | 北京中科寒武纪科技有限公司 | 一种神经网络训练方法及装置 |
CN112889075A (zh) * | 2018-10-29 | 2021-06-01 | Sk电信有限公司 | 使用非对称双曲正切激活函数改进预测性能 |
CN112889075B (zh) * | 2018-10-29 | 2024-01-26 | Sk电信有限公司 | 使用非对称双曲正切激活函数改进预测性能 |
CN109179133A (zh) * | 2018-11-05 | 2019-01-11 | 常熟理工学院 | 用于预判故障的电梯智能维保预测方法及系统 |
CN112990421A (zh) * | 2019-12-02 | 2021-06-18 | 杭州海康威视数字技术股份有限公司 | 优化深度学习网络的运行过程的方法、装置及存储介质 |
CN112990421B (zh) * | 2019-12-02 | 2023-09-05 | 杭州海康威视数字技术股份有限公司 | 优化深度学习网络的运行过程的方法、装置及存储介质 |
CN112612898A (zh) * | 2021-03-05 | 2021-04-06 | 蚂蚁智信(杭州)信息技术有限公司 | 文本分类的方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105550748A (zh) | 基于双曲正切函数的新型神经网络的构造方法 | |
Zha et al. | Forecasting monthly gas field production based on the CNN-LSTM model | |
Hu et al. | Rapid spatio-temporal flood prediction and uncertainty quantification using a deep learning method | |
Shen et al. | Forecasting exchange rate using deep belief networks and conjugate gradient method | |
KR102492318B1 (ko) | 모델 학습 방법 및 장치, 및 데이터 인식 방법 | |
Fei et al. | Wind speed prediction using the hybrid model of wavelet decomposition and artificial bee colony algorithm-based relevance vector machine | |
Ta et al. | Research on a dissolved oxygen prediction method for recirculating aquaculture systems based on a convolution neural network | |
Mohammadi et al. | A new hybrid evolutionary based RBF networks method for forecasting time series: a case study of forecasting emergency supply demand time series | |
Uzlu et al. | Estimates of energy consumption in Turkey using neural networks with the teaching–learning-based optimization algorithm | |
Liu et al. | Multi-scale prediction of water temperature using empirical mode decomposition with back-propagation neural networks | |
Jalali et al. | Towards novel deep neuroevolution models: chaotic levy grasshopper optimization for short-term wind speed forecasting | |
Venkatesan et al. | A novel progressive learning technique for multi-class classification | |
CN102622418B (zh) | 一种基于bp神经网络的预测装置及设备 | |
CN109376913A (zh) | 降水量的预测方法及装置 | |
CN108445752B (zh) | 一种自适应选择深度特征的随机权神经网络集成建模方法 | |
CN113408743A (zh) | 联邦模型的生成方法、装置、电子设备和存储介质 | |
CN112070277A (zh) | 基于超图神经网络的药物-标靶相互作用预测方法 | |
CN110197251A (zh) | 基于深度学习网络的预测方法、装置、设备及存储介质 | |
Pradeepkumar et al. | Forex rate prediction using chaos, neural network and particle swarm optimization | |
CN111382840B (zh) | 一种面向自然语言处理的基于循环学习单元的htm设计方法 | |
Li et al. | Hybrid CNN-LSTM models for river flow prediction | |
Jiang et al. | Deterministic and probabilistic multi-time-scale forecasting of wind speed based on secondary decomposition, DFIGR and a hybrid deep learning method | |
CN110490324A (zh) | 一种梯度下降宽度学习系统实现方法 | |
CN113051130A (zh) | 结合注意力机制的lstm网络的移动云负载预测方法及系统 | |
Ju et al. | Hydrologic simulations with artificial neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160504 |