CN105005785A

CN105005785A - 一种基于fisher信息矩阵的主动深度学习方法

Info

Publication number: CN105005785A
Application number: CN201510338417.3A
Authority: CN
Inventors: 王力哲; 刘鹏; 左亚青
Original assignee: Institute of Remote Sensing and Digital Earth of CAS
Current assignee: Institute of Remote Sensing and Digital Earth of CAS
Priority date: 2015-06-17
Filing date: 2015-06-17
Publication date: 2015-10-28

Abstract

本发明公开了一种基于fisher信息矩阵的主动深度学习方法，包括以下步骤：选取若干不同的高斯分布函数，构建训练样本和测试样本；利用稀疏自动编码器，对训练样本进行无监督自编码深度网络学习，并在进行无监督自编码深度网络学习之后，再次对训练样本进行监督自编码深度网络学习，得出训练样本分类结果；利用稀疏自动编码器，将测试样本输入深度网络，得到测试样本分类结果，并利用fisher信息矩阵算法公式，从测试样本分类结果中选取最小泛化误差样本；将选取的最小泛化误差样本加入到训练样本分类结果中。本发明对数据的分类精度有一定的提高，同时也显著的减少了所需的样本数。

Description

一种基于fisher信息矩阵的主动深度学习方法

技术领域

本发明涉及多分类高斯分布数据技术领域，具体来说，涉及一种基于fisher信息矩阵的主动深度学习方法。

背景技术

许多研究表明，为了能够学习表示高阶抽象概念的复杂函数，解决目标识别，语音感知和语音理解等人工智能相关的任务，需要引入深度学习，深度学习是通过大量的简单神经元组成，每层的神经元接收更底层的神经元的输入、通过输入与输出之间的非线性关系，将底层特征组合成更高层的抽象表示，并发现观测数据的分布式特征。通过自下而上的学习形成多层的抽象表示，并多层次的特征学习是一个自动的无人干预的过程。根据学习到的网络结构，系统将输入的样本数据映射到各种层次的特征，并利用分类器或者匹配算法对顶层的输出单元进行分类识别等。

此外，主动学习的理论研究对于深入理解机器学习中的许多重要理论问题，例如，如何降低样本复杂度，如何处理小样本数据集，不平衡数据的学习问题，标注数据的有效利用，监督学习和无监督学习之间的联系等都有非常重要的指导意义。

因此，研发一种主动深度学习方法，尤其是一种基于fisher信息矩阵(费希尔信息矩阵)的主动深度学习方法就变得尤为重要。

发明内容

本发明的目的在于提供一种基于fisher信息矩阵的主动深度学习方法，以克服现有技术中的上述技术问题。

本发明的技术方案是这样实现的：

一种基于fisher信息矩阵的主动深度学习方法，包括以下步骤：选取若干不同的高斯分布函数，构建训练样本和测试样本；利用稀疏自动编码器，对所述训练样本进行无监督自编码深度网络学习，并在进行无监督自编码深度网络学习之后，再次对训练样本进行监督自编码深度网络学习，得出训练样本分类结果；利用稀疏自动编码器，将所述测试样本输入深度网络，得到测试样本分类结果，并利用fisher信息矩阵算法公式，从测试样本分类结果中选取最小泛化误差样本；将选取的所述最小泛化误差样本加入到所述训练样本分类结果中。

此外，所述的基于fisher信息矩阵的主动深度学习方法，还包括：在将选取的所述最小泛化误差样本加入到所述训练样本分类结果中后，将测试样本中的该最小泛化误差样本进行删除。

另外，所述的基于fisher信息矩阵的主动深度学习方法，还包括：在将选取的所述最小泛化误差样本加入到所述训练样本分类结果中后，对训练样本分类结果进行分析，并分析结果为训练样本分类结果与预定要求(可以设定为准确精度或者循环次数)相符的情况下，终止训练，而在分析结果为训练样本分类结果与预定要求不符的情况下，循环利用稀疏自动编码器和fisher信息矩阵算法公式对训练样本和测试样本进行训练。

在上述方案中，选取若干不同的高斯分布函数为选取至少两种不同的高斯分布函数。

本发明的有益效果：通过深度学习加fisher信息矩阵，以统计渐进理论为基础，以最小化泛化误差为目标，建立一个有效的输入样本主动查询标准，对数据的分类精度也有一定的提高。而在深度学习的基础上再加入主动学习，在主动学习中，学习器不再是被动接收由用户提供的训练数据，而是主动要求用户对那些最有价值的数据进行标记，从而显著的减少了所需的样本数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于fisher信息矩阵的主动深度学习方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于fisher信息矩阵的主动深度学习方法。

如图1所示，根据本发明实施例的基于fisher信息矩阵的主动深度学习方法包括以下步骤：

步骤S101、选取若干不同的高斯分布函数，构建训练样本和测试样本；

步骤S103、利用稀疏自动编码器，对所述训练样本进行无监督自编码深度网络学习，并在进行无监督自编码深度网络学习之后，再次对训练样本进行监督自编码深度网络学习，得出训练样本分类结果；

步骤S105、利用稀疏自动编码器，将所述测试样本输入深度网络，得到测试样本分类结果，并利用fisher信息矩阵算法公式，从测试样本分类结果中选取最小泛化误差样本；

步骤S107、将选取的所述最小泛化误差样本加入到所述训练样本分类结果中。

另外，所述的基于fisher信息矩阵的主动深度学习方法，还包括：在将选取的所述最小泛化误差样本加入到所述训练样本分类结果中后，对训练样本分类结果进行分析，并分析结果为训练样本分类结果与预定要求相符的情况下，终止训练，而在分析结果为训练样本分类结果与预定要求不符的情况下，循环利用稀疏自动编码器和fisher信息矩阵算法公式对训练样本和测试样本进行训练。

为了方便理解本发明的上述技术方案，以下通过具体原理对本发明的上述技术方案进行详细说明。

具体使用时：1)基于稀疏自编码算法：

自编码神经网络是一种无监督学习算法，它使用了反向传播算法，并让目标值等于输入值，比如y＝x。自编码神经网络尝试学习一个h_w,b(x)的函数，(h_w,b(x)是输入为x的假设输出，其中包含参数W，b，该输出应当与目标值y具有相同的维数，w是权重参数，b是相对应的偏置向量，)即尝试逼近一个恒等函数，从而使输出接近于输入x。在隐藏层神经元数目较多的情况下，隐藏神经元加入稀疏性限制，自编码神经网络可以学习到数据的稀疏表示形式。此时隐含层就是输入数据的重新表示，即学习到的新特征。因此，自编码神经网络的目标函数为：

j (W . b) = \frac{1}{2} | | h_{w . b} (x) - x | |^{2};

其中，J(W,b)是整体样本代价函数，它包含权重衰减项。

使用表示隐藏神经元j的激活度，使用表示在给定输入x情况下自编码器隐藏神经元j的激活度。使用表示隐藏神经元j在训练集上的平均活跃度，为了数据表示稀疏化，加入限制其中m表示输入节点样本个数，ρ是稀疏性参数，通常是一个接近于0的较小值(比如ρ＝0.05)。使用相对熵作为惩罚因子，其相对熵可表示为：

K L (ρ | | {\hat{ρ}}_{j}) = ρ l o g \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) l o g \frac{1 - ρ}{1 - {\hat{ρ}}_{j}};

其中，上述公式是一个以ρ为均值和一个以为均值的两个伯努利随机变量之间的相对熵。

此时，稀疏自编码重构误差函数为：

J_{s p a r s e} (W, b) = J (W, b) + β Σ_{j = 1}^{s_{2}} KL (ρ | | {\hat{ρ}}_{j});

其中，β是稀疏性惩罚因子的权重,s_l表示第l层的单元数目。对上述公式进行求解，通过训练调整权重矩阵w和偏置向量b使得重构误差达到极小，则可得到数据的稀疏表示形式。

2)主动学习：fisher信息矩阵

关于fisher信息矩阵有三种优化设计：1.A-最优：最小化矩阵迹的跟踪信息。2.D-最优：最小化逆矩阵的行列式。3.E-最优：最小化逆矩阵的最大特征值。本发明选择A-最优设计，考虑让参考矩阵A＝I_u(θ)，即fisher信息的无标记样本u,并让F＝I_x(θ),即fisher信息的一些查询样本x。使用A-最优设计，从而推导出费舍尔信息比率

神经网络的定义：

本发明讨论三层感知器模型：

f^{i} (x; θ) = Σ_{j = 1}^{H} w_{i j} s (Σ_{k = 1}^{L} μ_{j k} x_{k} + ζ_{j}) + η_{i}, (1 \leq i \leq M);

其中w,μ代表权重,代表偏差，k代表输入向量个数，j代表隐层输出向量个数，i代表输出层输出向量个数。s函数为系统的期望输出为f(x),实际输出为y,则为了得到一个输入一输出D＝{x^(v),y^(v)}|_v＝{1,...N},需要选择一组输入样本集X_N＝{x^(v)},并将它们输入到多层感知器进行训练,得到一组输出向量{y^(v)},则主动学习的关键问题就可以转化为：确定一组训练样本X_n使得最小均方误差值最小：

\hat{θ} = \underset{θ}{\arg \min} Σ_{v = 1}^{N} | | y^{(v)} - f (x^{v}; θ) | |^{2} .

泛化误差主要是用来评估己经训练好的神经网络的推广能力,在给出泛化误差的具体定义之前,首先引入一个环境概率Q的概念,它表示实际环境中的一个输入向量。以识别系统为例,环境概率代表了一个已经训练好的神经网络的输入样本分布情况。利用环境概率,就可以给出泛化误差的定义如下:

ϵ_{g e n} = &Integral; | | f (x; \hat{θ}) - f (x) | |^{2} d Q (x) .

本发明主动学习的目标就是降低泛化误差的期望。通常,泛化误差的期望可以分解如下:

E [ϵ_{g e n}] = E [&Integral; | | f (x; \hat{θ}) - f (x) | |^{2} d Q (x)] + &Integral; | | f (x; θ_{0}) - f (x) | |^{2} d Q (x);

式中，E[ε_gen]表示泛化误差的期望，θ₀是的参数值,第一项和第二项分别是模型的方差和偏差。在实际应用中,偏差一般很难明确描述出来,故本发明假设模型的偏差值足够小,可以忽略不计。

根据渐进统计理论，上式可以用下式来逼近:

E[ε_gen]≈σ²Tr[I(θ₀)J^-1(θ₀；X_N)]。

本发明定义矩阵为：

I(θ)＝∫I(x；θ)dQ(x)；

J (θ; X_{N}) = Σ_{v = 1}^{N} I (x^{(v)}; θ);

I_{a b} (x; θ) = \frac{\partial f {(x; θ)}^{T}}{\partial θ_{a}} \frac{\partial f (x; θ)}{\partial θ_{b}};

其中，矩阵I(θ)和J(θ；X_N)分别为fisher信息矩阵和渐进协方差矩阵,。在上边的公式中，矩阵I(θ)是环境概率Q的平均值，而J(θ；X_N)是通过经验数据X_N的计算值；用当前估计值来代替未知参数θ₀，就可以适当调整主动学习的标准如下式：

\min T r [I (\hat{θ}) J^{- 1} (\hat{θ}; X_{N})] .

主动学习的标准确定之后,就可以依据此标准设计一个简单的主动学习算法。关于n-1个训练样本，输入一输出对以及与之对应的均方差(LSE)估计值可按照下列准则选择训练样本：

x^{(n)} = \arg \min T r [I ({\hat{θ}}_{n - 1}) J^{- 1} ({\hat{θ}}_{n - 1}; X_{n - 1} \cup {x})] .

按照以上介绍，设计完成了一种基于fisher信息矩阵的主动深度学习方法。本发明以统计渐进理论为基础，以最小化泛化误差为目标，建立一个有效的输入样本主动查询标准，对数据的分类精度也有一定的提高。同时利用稀疏自编码能更有效更稀疏的对高分数据进行表征。大大减少了数据的存储空间，简化了后续的数据分析处理难度。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于fisher信息矩阵的主动深度学习方法，其特征在于，包括以下步骤：

选取若干不同的高斯分布函数，构建训练样本和测试样本；

利用稀疏自动编码器，对所述训练样本进行无监督自编码深度网络学习，并在进行无监督自编码深度网络学习之后，再次对训练样本进行监督自编码深度网络学习，得出训练样本分类结果；

利用稀疏自动编码器，将所述测试样本输入深度网络，得到测试样本分类结果，并利用fisher信息矩阵算法公式，从测试样本分类结果中选取最小泛化误差样本；

将选取的所述最小泛化误差样本加入到所述训练样本分类结果中。

2.根据权利要求1所述的基于fisher信息矩阵的主动深度学习方法，其特征在于，还包括：在将选取的所述最小泛化误差样本加入到所述训练样本分类结果中后，将测试样本中的该最小泛化误差样本进行删除。

3.根据权利要求1所述的基于fisher信息矩阵的主动深度学习方法，其特征在于，还包括：在将选取的所述最小泛化误差样本加入到所述训练样本分类结果中后，对训练样本分类结果进行分析，并分析结果为训练样本分类结果与达到预定要求相符的情况下，终止训练。

4.根据权利要求3所述的基于fisher信息矩阵的主动深度学习方法，其特征在于，还包括：在分析结果为训练样本分类结果与预定要求不符的情况下，循环利用稀疏自动编码器和fisher信息矩阵算法公式对训练样本和测试样本进行训练。

5.根据权利要求1至4中任意一项所述的基于fisher信息矩阵的主动深度学习方法，其特征在于，选取若干不同的高斯分布函数为选取至少两种不同的高斯分布函数。