CN116522989A - 基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端 - Google Patents

基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端 Download PDF

Info

Publication number
CN116522989A
CN116522989A CN202310157636.6A CN202310157636A CN116522989A CN 116522989 A CN116522989 A CN 116522989A CN 202310157636 A CN202310157636 A CN 202310157636A CN 116522989 A CN116522989 A CN 116522989A
Authority
CN
China
Prior art keywords
repu
alpha
activation function
layer
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310157636.6A
Other languages
English (en)
Inventor
赵大志
罗琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN202310157636.6A priority Critical patent/CN116522989A/zh
Publication of CN116522989A publication Critical patent/CN116522989A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于满足关系的α‑RePU激活函数构建的数据处理系统及终端,属于人工智能技术领域,包括神经网络模型,神经网络模型采用α‑RePU激活函数进行数据处理。本发明α‑RePU激活函数,在x<0时,是一个关于常数c的指数幂形式,解决了ReLU激活函数神经元“坏死”的问题。同时,本发明α‑RePU激活函数满足不等式关系,使得α‑RePU激活函数表示的神经网络能有效地逼近

Description

基于满足Holder关系的alpha-RePU激活函数构建的数据处理 系统及终端
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于满足关系的α-RePU激活函数构建的数据处理系统及终端。
背景技术
神经网络通常是由人工神经元节点组成的多层网络,常用于数据的分类和预测任务,根据网络的输入数据输出对应的分类或预测结果。其有一个输入层、一个或多个隐藏层和一个输出层;所有层都有一个或多个节点,每个节点都有一个权重值。
激活函数在神经网络中具有非常重要的作用,因为神经网络的非线性处理能力全部来自于激活函数的非线性,如果网络中没有激活函数或者激活函数为线性函数,其只能表示线性系统。在神经网络的每一层中,我们计算该层的输入与相应权重的乘积之和,然后对其应用激活函数,以获得该层的输出,并将其传递给下一层并作为下一层的输入。
神经网络的预测精度与所使用的激活函数的类型密切相关。常见的激活函数有Sigmoid、Tanh、ReLU、Maxout、RePU等。Sigmoid激活函数的输出在(0,1)之间,且其梯度好求解,但是其容易出现梯度消失问题,在反向传播过程中,当梯度接近于0时,权重基本不会更新。Tanh收敛速度较Sigmoid更快,但其同样存在梯度消失问题。ReLU运算速度快,不会出现梯度消失的问题,但存在神经元“死亡”的问题,即在负半轴上梯度永远为零,因此在神经网络训练中的反向传播步骤中权重和偏差不会更新。Maxout激活函数是一个可学习的分段线性函数,在参数取值特殊时其可退化到ReLU;Maxout继承了ReLU的优点,但其每个神经元的参数数量增加了一倍。RePU激活函数的表达式为:
其中s∈N。从RePU函数模型可以知道其参数s是取所有的自然数,当s=1时,RePU就是ReLU,因此与ReLU一样,也存在着在负半轴神经元“坏死”的问题。
发明内容
本发明的目的在于克服现有技术的问题,提供了一种基于满足关系的α-RePU激活函数构建的数据处理系统及终端。
本发明的目的是通过以下技术方案来实现的:一种基于满足关系的α-RePU激活函数构建的数据处理系统,该系统具体包括神经网络模型,神经网络模型采用α-RePU激活函数进行数据处理;
给定参数α∈(0,1],α-RePU激活函数的数学模型为:
其中,c为大于0的常数;x表示自变量;σ(x)是一个连续函数。本发明的α-RePU激活函数的参数设置范围为(0,1],在负半轴是一个关于常数c的指数幂,且α-RePU激活函数满足不等式关系,具有/>的特性,在图像分类、抵抗对抗攻击上具有很强的鲁棒性。
在一示例中,所述α-RePU激活函数的梯度数学模型为:
在一示例中,在神经网络模型训练过程中,α-RePU激活函数在前向传播过程中的计算式为:
z(l)=W(l)hl-1+b(l)
h(l)=σ(z(l))
其中,z(l)表示第l层中的预激活;W(l)表示第l层的权重矩阵;h(l)表示第l层的激活;b(l)表示第l层的偏差。
在一示例中,在神经网络模型训练过程中,反向传播过程中的计算方式包括:
前向传播中计算神经网络模型每一层的z(l)和激活值h(l),直到最后一层;
反向传播计算每一层的误差项;
计算每一层参数的偏导数,并更新参数。
在一示例中,每一层的误差项的计算式为:
其中,δ(l)表示第l层的误差项;T表示转置。
在一示例中,每一层参数的计算式为:
其中,为离散数学符号,即全称量词;/>表示偏导;y(n)为每个样本x(n)输入给前馈神经网络得到的输出;/>为假设的损失函数;δ(l)表示第l层的误差项;⊙是向量的点积运算符,表示每个元素相乘。
在一示例中,所述参数更新计算式为:
W(l)←W(l)-γ(δ(l)(h(l-1))T+λW(l));
b(l)←b(l)-γδ(l)
其中,δ(l)表示第l层的误差项;T表示转置;λ表示正则化系数;γ表示学习率。
在一示例中,采用α-RePU激活函数进行数据处理的神经网络模型为全连接网络或CNN,α-RePU激活函数中c取值为0.0001-0.001,优选为0.0001;α取值为0.5-0.9,可选为0.5、0.9,优选为0.8。
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有上述任一示例或多个示例组成形成的所述基于满足关系的α-RePU激活函数构建的数据处理系统,处理器用于运行所述数据处理系统,进而执行数据处理任务。
需要进一步说明的是,上述各示例对应的技术特征可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
本发明α-RePU激活函数,在x<0时,是一个关于常数c的指数幂形式,以此有效地解决x为负值时限制为0的问题,能够激活输入的负值特征信息,即解决了ReLU激活函数神经元“坏死”的问题。同时,本发明α-RePU激活函数满足不等式关系,使得α-RePU激活函数表示的神经网络能有效地逼近/>函数类,在图像分类、抵抗对抗攻击上具有很强的鲁棒性。
具体实施方式
下面对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,使用序数词(例如,“第一和第二”、“第一至第四”等)是为了对物体进行区分,并不限于该顺序,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在一示例中,一种基于满足Holder关系即关系的α-RePU激活函数构建的数据处理系统,该系统包括神经网络模型,可以为CNN(卷积神经网络)模型、RNN(循环神经网络)模型、LSTM(长短期记忆网络)模型等中任意一种,该神经网络模型采用α-RePU激活函数即alpha-RePU激活函数进行数据处理,包括分类任务、预测任务等。
针对给定参数α∈(0,1],α-RePU激活函数的数学模型为:
其中,c为大于0的常数,这是为了避免当x→0时候,梯度趋近于∞。注意,σ(x)是一个连续函数,但其导数在x=0时具有不连续性,因此我们定义σ'(0)=0或σ'(0)=αcα-1用于梯度计算,即本发明所述的α-RePU激活函数的梯度数学模型为:
从α-RePU激活函数表达式可以看出,当x小于0时,它是一个关于常数c的指数幂形式,能有效地解决ReLU中当x为负值时限制为0的问题,能够激活输入的负值特征信息,即解决了ReLU的神经元“坏死”问题。
进一步地,α-RePU激活函数的另外一个非常重要的特性是其满足不等式关系,具体证明过程如下:
证:∵当β∈(0,1],x1≥0,x2≥0时,有不等式成立,
∴当x≥0,y≥0时,x+c≥0,y+c≥0,有:
|σ(x)-σ(y)|=|(x+c)α-(y+c)α|≤|(x+c)-(y+c)|α=|x-y|α
当x≥0,y<0时,有:
|σ(x)-σ(y)|=|σ(x)-σ(0)|≤|x-0|α=|x-y|α
综上,α-RePU激活函数满足不等式关系。该特性使得α-RePU激活函数表示的神经网络能有效地逼近/>函数类,比ReLU神经网络能近似的Lipshitz函数类要大得多。如果一个神经网络具有/>性质或者Lipshitz性质,那么其对样本攻击是鲁棒的,因此本发明的α-RePU激活函数能用于设计对样本攻击鲁棒的神经网络系统,同时能够提升图像分类准确度。
在一示例中,在神经网络模型训练过程中,α-RePU激活函数在前向传播过程中的计算式为:
z(l)=W(l)hl-1+b(l)
h(l)=σ(z(l))
其中,z(l)表示第l层中的预激活;W(l)表示第l层的权重矩阵;h(l)表示第l层的激活;b(l)表示第l层的偏差。
在一示例中,在反向传播过程中的计算过程包括:
S1:前向传播中计算神经网络模型每一层的z(l)和激活值h(l),直到最后一层;
S2:反向传播计算每一层的误差项;
S3:计算每一层参数的偏导数,并更新参数。
优选地,步骤S2中每一层的误差项的计算式为:
其中,δ(l)表示第l层的误差项;T表示转置。
优选地,步骤S3中每一层参数的计算式为:
其中,为离散数学符号,即全称量词;/>表示偏导;y(n)为每个样本x(n)输入给前馈神经网络得到的输出;/>为假设的损失函数;⊙是向量的点积运算符,表示每个元素相乘。
优选地,步骤S3中参数更新计算式为:
W(l)←W(l)-γ(δ(l)(h(l-1))T+λW(l));
b(l)←b(l)-γδ(l)
其中,λ表示正则化系数;γ表示学习率。
为了说明本发明α-RePU激活函数的高效分类性能,以一个三层全连接的网络为例进行说明,该网络每个隐藏层都有1024个神经元,使用Adam优化器训练网络,网络使用的激活函数正是α-RePU函数。在MNIST数据集分类上,我们通过设置α-RePU的不同参数来比较出其最佳分类性能,其中参数c=0.001,α分别被设置为0.3、0.5、0.6、0.7、0.8和0.9,其误差结果如表1所示:
表1当c=0.001时,不同参数α对应的误差结果
如表1所示,当α为0.8时,本发明的α-RePU激活函数对MNIST数据集的正确分类率达到98.62%,说明其是具有高效的分类效果的;当然,α为0.5或0.9时,分类误差为1.41,也具备较优的分类性能。
现将α-RePU激活函数的最佳性能同现有其他激活函数分类性能做具体比较,以更加直观说明本申请激活函数的分类性能。
具体地,以MNIST数据集为例,通过建立三层全连接的网络(每个隐藏层都有1024个神经元),应用本发明的α-RePU激活函数分别与应用ReLU、MaxMin、GroupSort、Maxout等激活函数的网络做图像分类实验对比,其中GroupSort为一种也具有对抗攻击鲁棒性的激活函数,MaxMin为它的一种特殊形式。结果显示,当α-RePU的参数α设置为0.8,c设置为0.001时,其分类误差分别较ReLU、MaxMin、GroupSort、Maxout提升了0.23、0.09、0.05、0.02,具体效果如表2所示:
表2不同激活函数的分类效果
本发明采用α-RePU激活函数的神经网络可以逼近类函数,结合表2可以看出其能保证其在具有良好的网络分类效果的同时具有对抗攻击鲁棒性。而其他采用常用的激活函数如ReLU的神经网络一般只能逼近Lipshitz网络,因此本申请提出的α-RePU激活函数适用于更多的需要对抗攻击鲁棒性的任务。
综上,本发明提出的α-RePU激活函数是现有许多激活函数的扩展,当α为1时,其就是大家熟知的ReLU函数。α-RePU的参数α取(0,1]间的实数,而RePU函数的参数s是取所有的自然数。同时,α-RePU激活函数表示的神经网络能有效地逼近函数类,比ReLU神经网络能近似的Lipshitz函数类要大得多。特别地,当α∈(0,1]时,本发明的α-RePU激活函数是满足/>不等式关系的,当α为1时候,又是一个1-Lipshitz函数,基于该激活函数的神经网络在图像分类、抵抗对抗攻击上已有大量工作研究得出其具有很强的鲁棒性。由于本申请提出的α-RePU激活函数具有/>性,因此也能保证其具有良好的网络分类效果,以及在更多的任务上具有对抗攻击鲁棒性。
本申请还包括一种存储介质,用于存储上述任一示例或多个示例组成的基于满足关系的α-RePU激活函数构建的数据处理系统。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还包括一种终端,包括存储器和处理器,储存器上存储有上述任一示例或多个示例组成的基于满足关系的α-RePU激活函数构建的数据处理系统,处理器用于运行所述数据处理系统,以执行数据处理方法。
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (9)

1.一种基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:包括神经网络模型,神经网络模型采用α-RePU激活函数进行数据处理;
给定参数α∈(0,1],α-RePU激活函数的数学模型为:
其中,c为大于0的常数;x表示自变量;σ(x)是一个连续函数。
2.根据权利要求1所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:所述α-RePU激活函数的梯度数学模型为:
3.根据权利要求1所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:在神经网络模型训练过程中,α-RePU激活函数在前向传播过程中的计算式为:
z(l)=W(l)hl-1+b(l)
h(l)=σ(z(l))
其中,z(l)表示第l层中的预激活;W(l)表示第l层的权重矩阵;h(l)表示第l层的激活;b(l)表示第l层的偏差。
4.根据权利要求3所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:在神经网络模型训练过程中,反向传播过程中的计算方式包括:
前向传播中计算神经网络模型每一层的z(l)和激活值h(l),直到最后一层;
反向传播计算每一层的误差项;
计算每一层参数的偏导数,并更新参数。
5.根据权利要求4所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:每一层的误差项的计算式为:
其中,δ(l)表示第l层的误差项;T表示转置。
6.根据权利要求4所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:每一层参数的计算式为:
其中,为离散数学符号,即全称量词;/>表示偏导;y(n)为每个样本x(n)输入给前馈神经网络得到的输出;/>为假设的损失函数;δ(l)表示第l层的误差项;⊙是向量的点积运算符,表示每个元素相乘。
7.根据权利要求4所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:所述参数更新计算式为:
W(l)←W(l)-γ(δ(l)(h(l-1))T+λW(l));
b(l)←b(l)-γδ(l)
其中,δ(l)表示第l层的误差项;T表示转置;λ表示正则化系数;γ表示学习率。
8.根据权利要求1所述的基于满足关系的α-RePU激活函数构建的数据处理系统,其特征在于:采用α-RePU激活函数进行数据处理的神经网络模型为全连接网络或CNN,α-RePU激活函数中c取值为0.0001-0.001,α取值为0.5-0.9。
9.一种终端,包括存储器和处理器,其特征在于:所述存储器上存储有权利要求1-8任意一项所述的基于满足关系的α-RePU激活函数构建的数据处理系统,处理器用于运行所述数据处理系统。
CN202310157636.6A 2023-02-23 2023-02-23 基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端 Pending CN116522989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310157636.6A CN116522989A (zh) 2023-02-23 2023-02-23 基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310157636.6A CN116522989A (zh) 2023-02-23 2023-02-23 基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端

Publications (1)

Publication Number Publication Date
CN116522989A true CN116522989A (zh) 2023-08-01

Family

ID=87396530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310157636.6A Pending CN116522989A (zh) 2023-02-23 2023-02-23 基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端

Country Status (1)

Country Link
CN (1) CN116522989A (zh)

Similar Documents

Publication Publication Date Title
Grathwohl et al. Scalable reversible generative models with free-form continuous dynamics
Wen et al. Optimized backstepping for tracking control of strict-feedback systems
Gotmare et al. Swarm and evolutionary computing algorithms for system identification and filter design: A comprehensive review
Baig et al. AdaBoost-based artificial neural network learning
US4979126A (en) Neural network with non-linear transformations
Das et al. Artificial neural network trained by particle swarm optimization for non-linear channel equalization
CN114547980B (zh) 具有时变状态约束的多智能体有限时间事件触发控制方法
CN113836312A (zh) 一种基于编码器和解码器架构的知识表示推理方法
Tzafestas et al. On the overtraining phenomenon of backpropagation neural networks
CN110018675A (zh) 基于lwdnn-arx模型的非线性系统建模方法
Bai et al. The performance of the backpropagation algorithm with varying slope of the activation function
CN116522989A (zh) 基于满足Holder关系的alpha-RePU激活函数构建的数据处理系统及终端
CN112116088A (zh) 一种自适应确定隐层节点数的增量半监督超限学习机系统
CN116484959A (zh) 量子电路处理方法、装置、设备以及存储介质
CN112926738A (zh) 一种神经网络自适应输出层的设计方法、设备及存储介质
Chen et al. On the learning and convergence of the radial basis networks
Poikonen et al. Online linear subspace learning in an analog array computing architecture
CN111582461A (zh) 神经网络训练方法、装置、终端设备和可读存储介质
US12026623B2 (en) Machine learning using gradient estimate determined using improved perturbations
JPH0962645A (ja) 専門家の階層混合モデルの構築的学習方法
Tang et al. New dynamical optimal learning for linear multilayer FNN
Guo et al. A New Sparse Kernel RLS Algorithm for Identification of Nonlinear Systems
Zhang et al. Consensus of Second‐Order Heterogeneous Hybrid Multiagent Systems via Event‐Triggered Protocols
Dalianis et al. A study of the generalization capability versus training in backpropagation neural networks
Svetunkov Polynomial networks instead of neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination