CN112819086B - 通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法 - Google Patents
通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法 Download PDFInfo
- Publication number
- CN112819086B CN112819086B CN202110184449.8A CN202110184449A CN112819086B CN 112819086 B CN112819086 B CN 112819086B CN 202110184449 A CN202110184449 A CN 202110184449A CN 112819086 B CN112819086 B CN 112819086B
- Authority
- CN
- China
- Prior art keywords
- neural network
- sample
- vector
- loss function
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000006870 function Effects 0.000 claims abstract description 111
- 210000002569 neuron Anatomy 0.000 claims abstract description 42
- 238000002474 experimental method Methods 0.000 claims abstract description 9
- 210000004027 cell Anatomy 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 34
- 210000002364 input neuron Anatomy 0.000 claims description 12
- 210000004205 output neuron Anatomy 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005457 optimization Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000002922 simulated annealing Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法属于深度学习领域。对神经网络最优解的计算,考虑梯度下降等方法在优化神经网络时容易陷入到局部最优,存在优化失败可能性的问题,本发明使用一种由ReLU函数非光滑的性质使得通过该函数是否激活的若干个样本点可以将神经网络的神经元权值空间划分为若干个可微区间的方法来精准地求解神经网络的全局最优解。通过计算每个区间中的损失函数值,来确定权值空间的全局最优解。随着样本的增多,由样本划分的权值空间的数量也随之增加,加重了实验的复杂度。发明引入了局部敏感哈希原理对数据集进行优化筛选,从而降低了神经网络空间中区间的数量,提高了算法的执行效率。
Description
技术领域
本发明属于人工智能领域,更具体来说深度学习方向的一种通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法。
背景技术
近年来人工智能的长足进步离不开深度学习的快速发展,而深度学习的核心问题就是对深度神经网络的不断研究。深度神经网络可以用来实现在图像等各种领域的分类任务。深度神经网络之所以能够实现对图像的精准分类,就是因为通过对已知标签的样本的不断训练,利用算法对网络空间权重参数值的不断调整来达到实现对该类图像的精准预测。所以,能够求解出深度神经网络的神经元权值参数值的最优解,是深度学习领域研究的重要问题之一。
对于一个深度神经网络,只有精准地找到网络的全局最优解才能够保证该神经网络具有最好的预测能力和泛化能力,则说明在人工智能领域里该神经网络能够更好的为人们发挥更大的效益。
由于神经网络中存在大量的局部极小值和鞍点,所以利用常用的例如梯度下降、模拟退火等局部搜索的优化方法求解神经网络最优解的过程是存在使得网络参数陷入局部极小点或者鞍点导致优化失败的可能性。了解损失函数的全局形状,特别是局部极小值和鞍点是否存在,以及它们的数量和位置,将有助于解决这个难题。在此基础上,如果能够设计出对初始权值不敏感的搜索算法,保证有效地避开所有的局部极小值和鞍点,成功地搜索到网络的全局最优解是当今我们应该深入思考的问题。
以人脸识别为例,为加强防范意识,校园门口设立了以深度神经网络为核心的人脸识别装置,考虑到真实人脸的遮挡性、光线或人脸角度等因素的影响,使用传统的方法求解出来的神经网络最优解有可能是网络的局部最优解,利用这样的神经网络来实现人脸识别会大概率的出现误判的可能,进而会对防范措施造成一定的影响。
受上述问题的启发,本专利从研究单隐层ReLU神经网络出发,由于ReLU函数的非光滑性,可以将神经网络的权值空间分为可微区域和不可微区域。从这一角度出发,神经网络的权值空间就会因为样本是否被ReLU函数激活抽象地“想象成”权值空间被若干个样本划分为若干可微单元格。只要遍历每个单元格,求出单元格中的神经网络的权值最优解,就可以精准的求出单隐层ReLU神经网络的全局最优解,不会存在优化失败的情况。为防止随着样本的增多导致单元格的“爆炸性”增加,本专利利用局部敏感哈希原理设计了一系列哈希函数,可将每个输入样本的维度降至1维再挑选被哈希函数映射倒同一个“哈希桶”中的样本,将这些更具有代表性的样本作为神经网络的输入样本,可大为减少单元格的数量,提升算法的执行效率。
所以,为了更加精准的求出深度神经网络的全局最优解,本发明提出了一种通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法。
发明内容
本发明要解决的问题是:对于单隐层ReLU神经网络,使用传统的例如梯度下降法等局部优化方法求解神经网络全局最优解时往往会在训练的过程中陷入局部最优,最终可能会导致优化失败。针对此问题,本发明提出了一种通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法。本方法从ReLU激活函数所引入的非光滑性的角度出发,神经网络的权值参数空间就会因为样本是否被ReLU函数激活抽象地“想象成”权值空间被若干个样本划分为若干可微的“单元格”。只要遍历每个单元格,求出单元格中的神经网络的参数最优解,即为神经网络的全局最优解。
本发明专利总体分为三大部分:
(1)对于MNIST数据集,使用局部敏感哈希原理定义哈希函数将数据集进行降维,再使用哈希分桶的方法对数据进行筛选,提取部分更具有代表性的样本点作为神经网络的输入样本。
(2)搭建具有d个输入神经元、K个ReLU激活的隐藏层神经元和1个输出神经元的单隐层神经网络。
(3)为便于计算神经网络的全局最优解,在2维空间中,使用线排列和双向链接边表的数据结构将样本将参数空间划分出来的单元格可视化呈现出来。
本发明提出的方法具体技术方案如下:
1.数据集的准备。这里使用经过线性判别分析(LDA)将原始的MNIST手写数字数据集降至2维后的数据集和原始的MNIST手写数字数据集,分别用于对低维和高维这两种情况下的深度神经网络全局最优解的计算。
2.使用局部敏感哈希原理对数据进行预处理。使用一系列的哈希函数将读取到的MNIST数据集映射至1维,因为降维后的每张图片会以一个很高的概率保存其原始高维状态下的性质。所以,定义另外一种哈希函数对降维后的样本进行“哈希分桶”,经过一系列的哈希函数映射后,均落入到同一个哈希桶中的两个样本点则表明其在原始高维状态下依然比较接近。取相同哈希桶中的样本作为输入样本并且舍弃其余样本。这样就使得在接下来的步骤中大大的减少了由样本点划分出的单元格的数量,很明显地提高了搜索神经网络全局最优解的效率。
3.单隐层ReLU神经网络的搭建。本发明使用具有d个输入神经元、K个ReLU单隐层神经元和1个输出神经元的神经网络。由于ReLU函数的非光滑性,被ReLU函数激活与非激活的若干个输入样本可以将网络权值空间划分为若干个凸的可微单元格。有关定理已经证明了在凸的可微单元格中神经网络的局部最优解即为该单元格中的全局最优解,借助该定理可以假设损失函数为例如均方误差损失的凸函数。为方便后序局部最优解的计算,可以将损失函数中输入层到隐藏层的神经元权值参数和隐藏层到输出层的神经元权值参数进行积分。
4.计算损失函数的解并判断处在某一单元格中的局部最优解的解是否唯一。根据凸单元格中的所有局部最优解就是全局最优解的定理,利用权值空间的解向量矩阵的秩等一些概念求解每个单元格中的局部最优解。由于损失函数的解所对应的矩阵的秩的不同、隐藏神经元个数的不同和样本数量的不同,这些因素将会导致处在某一单元格中损失函数的解可能是唯一的、可能是连续的也可能是不存在的。
5.在2维空间中将单元格可视化呈现。由于样本将神经网络参数空间划分出单元格的过程是抽象的。本步骤则利用计算几何中线排列的相关理论,构建双向链接边表,使用C++中的CGAL模块中的函数可以将抽象的单元格可视化呈现。原始MNIST数据集是784维的高维数据,则无法使用2维的双向链接边表可视化呈现。
本发明提出了一种通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法,这是一种可以精准并且快速地找到神经网络全局最优解的方法。该方法不仅不会出现例如梯度下降、模拟退火等局部优化方法导致优化过程陷入局部最优最后优化失败的情况,而且使用局部敏感哈希原理检索出更具有代表性的样本点,还会极大地提高算法的执行效率。利用本专利发明的方法将会更精准、更快捷地计算神经网络的全局最优解。
附图说明
图1、本发明方法的流程图;
图2、神经网络参数空间划分单元格示意图;
图3、对使用局部敏感哈希降维后的数据范围直方图;
图4、部分数据将神经网络参数空间划分出的部分单元格示意图;
具体实施方式:
本发明提出的基于一种通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法的实验,运行在Windows 10系统下,利用python 3.6和PyTorch 1.2.0框架实现、利用C++11和其函数库CGAL中的函数、利用型号为TITAN X的GPU为深度神经网络的求解全局最小值加速。
具体实施步骤如下:
步骤1:数据集的准备
本发明专利使用的是经过线性判别分析(LDA)将原始的MNIST手写数字数据集降至2维后的数据集和原始784维度的MNIST手写数字数据集,分别用于对低维和高维这两种情况下的深度神经网络全局最优解的计算。
由于MNIST手写数字数据集中的数据并不是按照从0-9的标签顺序存放的,所以为执行下述的局部敏感哈希方法,首先将MNSIT数据集按照0-9标签的顺序存到一个新的文件中。由于MNIST数据集的训练样本是55000个并且这10类数据并不是等分的,本发明规定,每个不同标签的数据均等量挑选。
步骤2:使用局部敏感哈希原理对数据进行预处理。
本发明是利用局部敏感哈希(LSH)对数据做进一步的处理,局部敏感哈希主要用于高维海量数据的快速近似查找,近似查找便是比较数据点之间的距离或者是相似度。定义两种不同的哈希函数分别用于数据的降维和哈希分桶。检索出相近的数据摒弃偏离样本分布的数据后,将相似的数据作为输入样本可以大为降低后续步骤中算法的时间复杂度。
局部敏感哈希的主要思想是,高维空间的两点若距离很近,那么设计一种哈希函数对这两点进行哈希值计算,使得这两个样本点经过哈希函数映射降低维度后也会以一个很大的概率依旧保持其高维中的距离。反之,如果两个样本点在高维中距离很远,使用哈希函数降维后,依旧会以一个很大的概率保持较远的距离。局部敏感哈希所得到的是一个近似的结果,因为在相似度匹配中并不需非常高的精确度。即使是近似解,时候几乎和其精准解一致。
在本发明专利中,使用局部敏感哈希会使得相邻的数据落入到同一个“哈希桶”中,收集通过一系列的哈希函数映射后均落入到同一个哈希桶中的数据作为最终的样本数据。
将步骤1中的MNIST数据集按照标签0-9的顺序重新存储到一个新的列表中并保证不同标签的数据集个数相等。
本专利发明了如下公式,可将MNIST数据集中的降至1维,公式如下:
h(v)=v·x
其中,矩阵v代表的是一个(N,784)的MNIST数据集向量,N为挑选的MNIST数据集的个数,x代表的是一个(784,1)用作降维的向量,则任意一个通过上述哈希函数的计算可将高维的MNIST手写数字图片进行降维,降维后的样本点依旧会以一个很高的概率保持其原有高维时的性质。
将N个相同标签的数据数据集通过上述公式运算后映射为1维的点,即映射结果为(N,1)的向量。每个不同标签的数据集均上述方法。
下面将降维好的样本进行哈希分桶挑选数据集,本专利发明了下述哈希函数:
其中v是(N,784)的原始MNIST数据集向量,x代表的是一个(784,1)用作降维的向量,w是哈希分桶的宽度,b是0到w间的一个均匀分布,为避免分桶边界固化。而且映射操作会导致部分距离信息的丢失出现误判相近点的情况,本发明采用了m个哈希函数同时进行分桶,同时掉进m哈希函数的同一个桶中的若干个点,其相似度最大。这样的哈希分桶就会导致同一个桶中相似的样本点的概率最大,出现误判的可能性大为降低。
随着样本数量的增多,步骤3所阐述的单元格数量会呈现“爆炸性增长”,使用局部敏感哈希则可以很好的解决数据样本过多的问题,进而很好的降低了算法的时间复杂度。
步骤3:单隐层ReLU激活的神经网络的参数搭建。
本发明使用具有d个输入神经元、K个ReLU激活的单隐层神经元和1个输出神经元的深度神经网络。本发明定义[N]来表示{1,2,3…,N}的缩写,即神经网络的输入样本个数是N。定义[K]来表示{1,2,3…,K}的缩写,表示神经网络隐藏神经元的个数为K。其中输入样本用(xi,yi)(i∈[N])来表示,(xi,i∈[N])是第i个输入样本的向量,yi∈±1是xi的标签,连接输入神经元和隐藏神经元之间的权向量记为(wj,j∈[K]),连接隐藏神经元与输出神经元之间的权重向量记为(zj,j∈[K]),则单隐层ReLU神经网络的损失函数公式如下述:
其中z={zk,k∈[K]},w={wk,k∈[K]},[wj·xi]+=max(0,wj·xi)为ReLU函数,yi为第i个样本的标签,表示第i个样本的损失函数值,/>表示对N个样本的损失函数做平均处理,L(z,w)为整个神经网络的损失函数。假设L是凸的,那么抽象的损失函数可具体化为均方误差损失。
为简化损失函数,引入变量Iij作为ReLU激活函数的取值,表示的是第i个输入样本在第j个隐藏神经元上的激活情况,即,如果wj·xi>0,则Iij=1,表示第i个输入样本第j个隐藏神经元上被激活;否则等于0,表明第i个输入样本在第j个隐藏神经元上不被激活。更进一步,为方便损失函数值的计算,将输入层到隐藏层的神经元权重与隐藏层到输出层的权值w和z进行积分,定义Rj=zj·wj。其中R={Rj,j∈[K]},K表征的是具有K个隐藏神经元,这样的转换在很大程度上隐藏了两层权重的复杂性。则损失函数可以被重新写为:
其中,L(R)表示神经网络的损失函数。表示第i个样本的损失函数。/>表示对N个样本的损失函数做平均处理。/>中的中Iij表明第i个输入样本在第j个隐藏神经元上的激活情况,即ReLU函数的取值。Rj表明的输入层到隐藏层的神经元权重与隐藏层到输出层的权值w和z的积分。xi是第i个输入样本,yi为第i个样本的标签。
对于单隐层ReLU神经网络,样本向量x是参数空间w中的超平面。样本(xi,i∈[N])将w空间划分为若干个凸的单元格。因此,每个权值wj都位于某一单元格内部或单元格边界上。如果所有的权值(wj,j∈[K])都位于单元格内,并且在单元格内移动而不跨越边界,则上述公式中的Iij(I∈[N])的值是常数,因此损失L在这些单元格内是(Rj,j∈[K])的可微函数。将其中(wj,j∈[K])的单元称为定义单元格。当越过两个单元格的边界时Iij在边界处从1变为0。因此,损失函数L在边界处是不可微的。局部极小值可以存在于单元内部或边界上,称之为可微和不可微的局部极小值。
上述单元格的划分示意图2所示。
步骤4:根据凸单元格中的所有局部极小值就是全局最小值的定理来计算单元格中局部最小值。
因为有关理论已经证明了如果损失函数L是凸的,那么在每个单元格中所有可微局部极小值都是全局的。为方便得到解析解,可将步骤3中的损失函数定义为均方误差损失,则损失函数的解析解是下述公式:
其中R*为损失函数的解,表示对N个样本的损失函数做平均处理,Iij为第i个样本在第j个神经元中的ReLU函数的取值,xi表示第i个样本,yi表示第i个样本的标签。
通过上式可求得神经网络权值的线性解可由下述公式表征:
定义Iij·xi=A,则上式解析解改写为如下的矩阵形式:
其中表明xi转置。并且/>则上述矩阵中R的解为:
其中表示矩阵A的Moore-Penrose伪逆矩阵,y是样本的标签向量,c∈RKd代表的是任意向量,其中R为实数集合,K表示的是隐藏神经元的个数,d表示的是输入神经元的个数,即c是属于K·d范围内的实数集向量,I是单位矩阵。
矩阵的最优解R*表征的就是神经网络的权值参数{w*,z*}的最优解。R*能够被如下两种情况所表征:
(1)R*有唯一解。即当且仅当rank(A)=Kd,矩阵A为满秩矩阵。将矩阵A进行分解,可得/>矩阵的解可以表示为:/>
(2)R*有无限个连续的解。此时,rank(A)≠Kd。首先N<Kd,此时矩阵有无数个解;其次N≥Kd但rank(A)<Kd,举例就是一些隐藏的神经元并不是被所有的样本激活。
处在单元格中的最优解或者是唯一的或者是连续的,为了得到这些最优解即损失函数最小值,可将矩阵的解R*带入到损失函数可得:
其中,其中表示矩阵A的Moore-Penrose的伪逆矩阵,y表示样本的标签,表示损失函数的L2范数的平方,/>表示对N个样本的损失函数做平均处理。
在上述矩阵的解向量中,涵盖输入样本向量x和ReLU函数的取值Iij。由于样本向量x可知,只要求解出ReLU激活函数的取值Iij即可利用该公式计算出神经网络的参数解R*。
步骤5:在2维空间中,利用计算几何领域里线排列中的双向链接边表结构体来可视化上述步骤中的可微单元格,神经网络损失函数最小值就处在某一个双向链接边表中。
在计算几何中存在双向链接边表的结构体,利用每个双向链接边表来表示每个不同的单元格并且双向链接边表的每一条边的里边和外边分别代表顺时针和逆时针这两个不同的方向,显然时针转向相同的边必然能够表征凸的单元格。通过应用该结构体可以将参数空间中的单元格可视化呈现出来。
对于2维的输入样本,使用2维空间的点来表示数据样本,使用2维空间中的直线来表示由ReLU函数将神经网络参数空间划分出来的单元格,使用2维空间中的平面表示整个神经网络的权值空间。因为在整个平面空间的计算过程中,需要一个有限的范围将样本划分出来的单元格包围起来,可以利用计算几何中线排列的相关理论来构造整个外围的包围框。随着样本的不断增多,使用递增式算法逐一增加与神经网络参数空间相对应的双向链接边表,并通过遍历双向链接边表从每一个划分的区域中的样本点来计算步骤4中的Iij(i∈[N],j∈[K])的所有取值。
计算出来Iij(i∈[N])的所有取值之后,使用步骤4中的神经网络参数空间的求解矩阵来求解出每个单元格中的损失函数值,进而比对出所有单元格中的损失函数最小值,此时的神经网络权值的取值即为整个网络空间的最优解。
步骤6:实验过程和结果评价
本发明实验由两个实验构成,分别是低维和高维两种情况下的神经网络的全局最优解的求解。这两个实验在本发明的前两个步骤中是相同的。
每个不同标签的MNIST数据集选取的相同个数在本步骤中选取的是4900个。图3表示的标签为0的MNIST数据是在一次哈希映射后将784维的数据映射至1维后的统计。显然,降维后的样本在25-40范围内的数据所占比例是最大的。所以,本发明采用20次哈希映射后的数据均处在25-40内的相对应的原始数据作为最后的神经网络的输入样本。
通过步骤2中的方法,使用局部敏感哈希将不同标签的MNIST数据集依次筛选后所得到的从标签0-9的数据个数依次为:976,1833,376,274,1168,522,1031,426,261,923个,总计为7790个。
对于2维数据的情况:神经网络的构造是2个输入神经元,2个ReLU单隐层神经元和1个输出神经元。输入样本为使用局部敏感哈希挑选后再经过线性判别分析降维至2维的MNSIT数据集。经实验分析,7790个样本将单隐层ReLU神经网络参数空间划分为60687996个单元格,并且通过本发明中的方法进行计算,求出了神经网络的权值最优解。由于样本将网络空间划分的单元格过于庞大,本专利只取了部分样本的部分区域进行展示,如图4所示,黑色包围框中的单元格表示的就是由部分样本划分出的神经网络权值空间的单元格。
经统计,在2维情况下,由样本将神经网络权值空间划分出来的60687996个单元格中,损失函数形状为一条直线、不存在、任意值和一个点这4种情况。下表表示2维空间下每种情况所对应的损失函数形状和损失函数的取值范围。
通过对上表的分析,对这60687996个单元格逐一遍历。可以看到对于7790个2维样本,2个输入神经元,2个ReLU隐藏神经元和1个输出神经元的神经网络的损失函数最小值是0.032。
对于784维高维MNSIT数据集的实验情况:
定义具有784个输入神经元,2个ReLU单隐层神经元和1个输出神经元。由于高维实验无法使用双向链接边表表示,所以直接计算经过局部敏感哈希挑选后的7790个MNIST数据集。高维实验神经网络损失函数的全局最优解的结果为:0.498。与采用梯度下降计算神经网络最优解的实验进行对比,可得到如下表格:
由此可以看出,对于具有784个输入神经元、2个ReLU隐藏神经元和1个输出神经元的神经网络,使用本专利中提出的通过神经网络权值空间划分单元格的方法求解的网络最优解对MNIST数据集的分类准确率要高于使用梯度下降求解神经网络最优解的方法。这可以证明本发明方法的确能够更加精准的计算神经网络的全局最优解。
Claims (2)
1.通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法,其特征在于,包含以下几个步骤:
(1)挑选数据集;使用原始的MNIST数据集和经过线性判别分析将原始的MNIST数据集降至2维后的数据,分别用于对高维和低维两种情况下的实验;
(2)使用局部敏感哈希原理对读取的MNIST数据集进一步的筛选;由于局部敏感哈希原理可以在一个相对比较高的概率下筛选出一些更具有代表性的样本,用一系列的哈希函数,将原始MNIST数据集映射至1维后,再定义新的哈希函数对数据进行“哈希分桶”;收集经过一系列哈希函数映射后均落入同一个桶中的数据,将这些数据作为最终的神经网络的输入数据,其余数据舍弃;
(3)搭建神经网络;使用具有d个输入神经元、K个ReLU单隐层神经元和1个输出神经元的神经网络;
(4)神经网络权值空间的划分;令x表示输入样本向量,w表示输入层到隐藏层的权值向量,根据ReLU函数的性质,如果输入样本的向量与隐藏层神经元的权重向量在同一个方向,有w·x>0成立,可以通过ReLU函数被激活;反之,输入样本向量与隐藏层神经元权重向量方向相反,则w·x≤0,不会被ReLU函数激活;
激活部分与不激活部分将整个神经网络的权值空间划分为两个不同的区域,样本向量x则可以抽象地理解为神经元权值空间的超平面;那么,若干个输入样本向量x就将权值空间划分为若干个不用的区域,简称“单元格”;
(5)神经网络全局最优解的计算;假定单元格是凸的,损失函数是均方误差损失,则求解出来的参数空间中该单元格中的损失函数局部极小值就是该单元格中的损失函数全局最小值;求解出网络空间中所有单元格中损失函数的局部极小值,返回其中的最小值计算出整个神经网络的全局最优解。
2.根据权利要求1所述的方法,其特征在于:
步骤1:数据集的准备
使用的是经过线性判别分析将原始的MNIST手写数字数据集降至2维后的数据集和原始784维度的MNIST手写数字数据集,分别用于对低维和高维这两种情况下的深度神经网络全局最优解的计算;
先将MNSIT数据集按照0-9标签的顺序存到一个新的文件中;因为MNIST数据集的训练样本是10类数据并不是等分的,所以每个不同标签的数据均等量挑选;
步骤2:使用局部敏感哈希原理对数据进行预处理;
使用局部敏感哈希会使得相邻的数据落入到同一个“哈希桶”中,收集通过一系列的哈希函数映射后均落入到同一个哈希桶中的数据作为最终的样本数据;
将步骤1中的MNIST数据集按照标签0-9的顺序重新存储到一个新的列表中并保证不同标签的数据集个数相等;
采用如下公式,将MNIST数据集中的降至1维,公式如下:
h(v)=v·x
其中,矩阵v代表的是一个(N,784)的MNIST数据集向量,N为挑选的MNIST数据集的个数,x代表的是一个(784,1)用作降维的向量;将N个相同标签的数据数据集通过上述公式运算后映射为1维的点,即映射结果为(N,1)的向量;
下面将降维好的样本进行哈希分桶挑选数据集,采用下述哈希函数:
其中v是(N,784)的原始MNIST数据集向量,x代表的是一个(784,1)用作降维的向量,w是哈希分桶的宽度,b是0到w间的一个均匀分布;采用了m个哈希函数同时进行分桶,同时掉进m哈希函数的同一个桶中的若干个点,其相似度最大;
步骤3:单隐层ReLU神经网络的参数搭建;
使用具有d个输入神经元、K个ReLU激活的单隐层神经元和1个输出神经元的深度神经网络;定义[N]来表示{1,2,3…,N}的缩写,即神经网络的输入样本个数是N;定义[K]来表示{1,2,3…,K}的缩写,表示神经网络隐藏神经元的个数为K;其中输入样本用(xi,yi)来表示,xi是第i个输入样本的向量,i∈[N],yi∈±1是xi的标签,连接输入神经元和隐藏神经元之间的权向量记为wj,连接隐藏神经元与输出神经元之间的权重向量记为zj,j∈[K],则单隐层ReLU神经网络的损失函数公式如下述:
其中z={zk,k∈[K]},w={wk,k∈[K]},[wj·xi]+=max(0,wj·xi)为ReLU函数,yi为第i个样本的标签,表示第i个样本的损失函数值,/>表示对N个样本的损失函数做平均处理,L(z,w)为整个神经网络的损失函数;损失函数具体化为均方误差损失;
引入变量Iij作为ReLU激活函数的取值,表示的是第i个输入样本在第j个隐藏神经元上的激活情况,即,如果wj·xi>0,则Iij=1,表示第i个输入样本第j个隐藏神经元上被激活;否则等于0,表明第i个输入样本在第j个隐藏神经元上不被激活;
将输入层到隐藏层的神经元权重与隐藏层到输出层的权值w和z进行积分,定义Rj=zj·wj;其中R={Rj,j∈[K]},K表征的是具有K个隐藏神经元,这样的转换在很大程度上隐藏了两层权重的复杂性;则损失函数被重新写为:
其中,L(R)表示神经网络的损失函数;表示第i个样本的损失函数;表示对N个样本的损失函数做平均处理;/>中的中Iij表明第i个输入样本在第j个隐藏神经元上的激活情况,即ReLU函数的取值;Rj表明的输入层到隐藏层的神经元权重与隐藏层到输出层的权值w和z的积分;xi是第i个输入样本,yi为第i个样本的标签;
对于单隐层ReLU神经网络,样本向量x是参数空间w中的超平面;样本(xi,i∈[N])将w空间划分为若干个凸的单元格;因此,每个权值wj都位于某一单元格内部或单元格边界上;如果所有的权值(wj,j∈[K])都位于单元格内,并且在单元格内移动而不跨越边界,则上述公式中的Iij(I∈[N])的值是常数,因此损失L在这些单元格内是(Rj,j∈[K])的可微函数;将其中(wj,j∈[K])的单元称为定义单元格;当越过两个单元格的边界时Iij在边界处从1变为0;因此,损失函数L在边界处是不可微的;
步骤4:根据凸单元格中的所有局部极小值就是全局最小值的定理来计算单元格中局部最小值;
则损失函数的解析解是下述公式:
其中R*为损失函数的解,表示对N个样本的损失函数做平均处理,Iij为第i个样本在第j个神经元中的ReLU函数的取值,xi表示第i个样本,yi表示第i个样本的标签;
通过上式求得神经网络权值的线性解由下述公式表征:
定义Iij·xi=A,则上式解析解改写为如下的矩阵形式:
其中表明xi转置;并且/>则上述矩阵中R的解为:
其中表示矩阵A的Moore-Penrose伪逆矩阵,y是样本的标签向量,c∈RKd代表的是任意向量,其中R为实数集合,K表示的是隐藏神经元的个数,d表示的是输入神经元的个数,即c是属于K·d范围内的实数集向量,I是单位矩阵;
矩阵的最优解R*表征的就是神经网络的权值参数{w*,z*}的最优解;R*被如下两种情况所表征:
(1)R*有唯一解;即当且仅当rank(A)=Kd,矩阵A为满秩矩阵;将矩阵A进行分解,可得/>矩阵的解可以表示为:/>
(2)R*有无限个连续的解;此时,rank(A)≠Kd;首先N<Kd,此时矩阵有无数个解;其次N≥Kd但rank(A)<Kd,举例就是一些隐藏的神经元并不是被所有的样本激活;
处在单元格中的最优解或者是唯一的或者是连续的,将矩阵的解R*带入到损失函数可得最优解:
其中,其中表示矩阵A的Moore-Penrose的伪逆矩阵,y表示样本的标签,/>表示损失函数的L2范数的平方,/>表示对N个样本的损失函数做平均处理;
在上述矩阵的解向量中,涵盖输入样本向量x和ReLU函数的取值Iij;由于样本向量x可知,只要求解出ReLU激活函数的取值Iij即可利用该公式计算出神经网络的参数解R*;
步骤5:在2维空间中,利用计算几何领域里线排列中的双向链接边表结构体来可视化上述步骤中的可微单元格,神经网络损失函数最小值就处在某一个双向链接边表中;
在计算几何中存在双向链接边表的结构体,利用每个双向链接边表来表示每个不同的单元格并且双向链接边表的每一条边的里边和外边分别代表顺时针和逆时针这两个不同的方向,显然时针转向相同的边必然能够表征凸的单元格;通过应用该结构体可以将参数空间中的单元格可视化呈现出来;
对于2维的输入样本,使用2维空间的点来表示数据样本,使用2维空间中的直线来表示由ReLU函数将神经网络参数空间划分出来的单元格,使用2维空间中的平面表示整个神经网络的权值空间;因为在整个平面空间的计算过程中,需要一个有限的范围将样本划分出来的单元格包围起来,可以利用计算几何中线排列的相关理论来构造整个外围的包围框;随着样本的不断增多,使用递增式算法逐一增加与神经网络参数空间相对应的双向链接边表,并通过遍历双向链接边表从每一个划分的区域中的样本点来计算步骤4中的Iij(i∈[N],j∈[K])的所有取值;
计算出来Iij(i∈[N])的所有取值之后,使用步骤4中的神经网络参数空间的求解矩阵来求解出每个单元格中的损失函数值,进而比对出所有单元格中的损失函数最小值,此时的神经网络权值的取值即为整个网络空间的最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110184449.8A CN112819086B (zh) | 2021-02-10 | 2021-02-10 | 通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110184449.8A CN112819086B (zh) | 2021-02-10 | 2021-02-10 | 通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112819086A CN112819086A (zh) | 2021-05-18 |
CN112819086B true CN112819086B (zh) | 2024-03-15 |
Family
ID=75865283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110184449.8A Active CN112819086B (zh) | 2021-02-10 | 2021-02-10 | 通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819086B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844332A (zh) * | 2016-03-10 | 2016-08-10 | 中国石油大学(华东) | 快速递归Elman神经网络建模学习算法 |
KR20200073445A (ko) * | 2018-12-14 | 2020-06-24 | 한동대학교 산학협력단 | 뉴럴 네트워크를 위한 학습 가능한 풀링 방법 및 그 장치 |
-
2021
- 2021-02-10 CN CN202110184449.8A patent/CN112819086B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844332A (zh) * | 2016-03-10 | 2016-08-10 | 中国石油大学(华东) | 快速递归Elman神经网络建模学习算法 |
KR20200073445A (ko) * | 2018-12-14 | 2020-06-24 | 한동대학교 산학협력단 | 뉴럴 네트워크를 위한 학습 가능한 풀링 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN112819086A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | Graph relation network: Modeling relations between scenes for multilabel remote-sensing image classification and retrieval | |
Qi et al. | Feature selection and multiple kernel boosting framework based on PSO with mutation mechanism for hyperspectral classification | |
Zhao et al. | Multiobjective sparse ensemble learning by means of evolutionary algorithms | |
Rasheed et al. | Handwritten Urdu characters and digits recognition using transfer learning and augmentation with AlexNet | |
Tan et al. | Target recognition of SAR images by partially matching of target outlines | |
CN113128564B (zh) | 一种基于深度学习的复杂背景下典型目标检测方法及系统 | |
CN109034213B (zh) | 基于相关熵原则的高光谱图像分类方法和系统 | |
Menaga et al. | Deep learning: a recent computing platform for multimedia information retrieval | |
CN110991500A (zh) | 一种基于嵌套式集成深度支持向量机的小样本多分类方法 | |
Dong et al. | Exploring locally adaptive dimensionality reduction for hyperspectral image classification: A maximum margin metric learning aspect | |
Wei et al. | An automated detection model of threat objects for X-ray baggage inspection based on depthwise separable convolution | |
Yue et al. | A novel few-shot learning method for synthetic aperture radar image recognition | |
Sun et al. | Image target detection algorithm compression and pruning based on neural network | |
Ghadhban et al. | Segments interpolation extractor for finding the best fit line in Arabic offline handwriting recognition words | |
Zabihzadeh et al. | Sparse Bayesian approach for metric learning in latent space | |
Yu et al. | An approach for handwritten Chinese text recognition unifying character segmentation and recognition | |
Ying et al. | License plate detection and localization in complex scenes based on deep learning | |
Biniz et al. | Recognition of Tifinagh characters using optimized convolutional neural network | |
Ma et al. | Neural CAPTCHA networks | |
Babu et al. | A new design of iris recognition using hough transform with K-means clustering and enhanced faster R-CNN | |
CN112819086B (zh) | 通过划分网络空间计算单隐层ReLU神经网络全局最优解的图像分类方法 | |
Xu et al. | Detection of ship targets in photoelectric images based on an improved recurrent attention convolutional neural network | |
Jain et al. | Flynet–neural network model for automatic building detection from satellite images | |
Da et al. | Remote sensing image ship detection based on improved YOLOv3 | |
Yu et al. | An efficient prototype-based model for handwritten text recognition with multi-loss fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |