CN105787500A

CN105787500A - 基于人工神经网络的特征选择方法和装置

Info

Publication number: CN105787500A
Application number: CN201410834973.5A
Authority: CN
Inventors: 祁仲昂; 胡卫松
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2016-07-20

Abstract

本发明涉及一种基于人工神经网络的特征选择方法和装置，其中该方法包括：根据待选择的K个特征和O个输出目标构造具有输入层、中间层和输出层的人工神经网络；利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重，其中，训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。通过在人工神经网络的输入层添加稀疏性约束，能够实现在对人工神经网络进行训练的同时得到特征选择结果，提高了对人工神经网络进行特征选择的效率。

Description

基于人工神经网络的特征选择方法和装置

技术领域

本发明涉及数据挖掘时的特征选择，尤其涉及一种基于人工神经网络的特征选择方法和装置。

背景技术

在大数据时代，数据采集的途径多种多样，因此采集到的数据的特征维度通常非常大。然而，从大数据中挖掘所需信息时，并不是所有的特征对数据挖掘都有利。例如，有些特征是冗余的，有些特征甚至会对数据挖掘起阻碍作用。因此，需要进行特征选择，以去掉数据中的冗余特征和阻碍特征，从而提高数据挖掘的效率，提升信息提取的效果。

目前，在进行数据挖掘时，可以基于神经网络(NeuralNetwork)进行特征提取。例如，专利CN1945602A公开了一种基于神经网络的特征选择方法，其通过在神经网络的中间层添加稀疏性约束，使用用户提供的数据集对带有模糊映射层的人工神经网络进行训练，再借助训练好的人工神经网络计算所有特征的重要性度量，达到特征选择的目的。

由于是借助训练好的人工神经网络计算所有特征的重要性度量，然后再对特征进行排序和选择，上述方法的特征选择效率较低。

发明内容

技术问题

有鉴于此，本发明要解决的技术问题是，如何提高特征选择的效率。

解决方案

为了解决上述问题，本发明实施例提供一种基于人工神经网络的特征选择方法，包括：

根据待选择的K个特征和O个输出目标构造具有输入层、中间层和输出层的人工神经网络，其中，所述输入层包括K个节点并且每个节点对应一个特征，所述输出层包括O个节点并且每个节点对应一个输出目标；

利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重，其中，训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

在一种可能的实现方式中，所述优化函数采用下式1表示，

式1，

其中，J(W,b)表示所述优化函数，W表示所述人工神经网络中各层至下一层的连接权重，b表示所述人工神经网络中各层的偏置节点的偏置系数，所述训练集中包括m个训练样本包括第i个训练样本的K个特征的实测值；包括第i个训练样本的O个输出目标的实测值表示K维实数，表示O维实数；

表示基于所述训练集中的训练样本的损失函数；

为对所述输入层进行稀疏性约束的分组L1正则项，λ₁为预先确定的优化参数，W⁽¹⁾为所述输入层至下一层的连接权重，G为对所述输入层至下一层的连接权重进行分组的分组数，I_g为第g组参数的索引矩阵，⊙为阿达马HADAMARD乘积；

为所述中间层的L2正则项，为W^(l)的L2范数的平方，λ₂为预先确定的优化参数，W^(l)为所述人工神经网络的第l层至第l+1层的连接权重，n_l为所述人工神经网络的层数。

在一种可能的实现方式中，在将所述输入层的一个节点的所有连接权重作为一组的情况下，G＝K，式1中的分组L1正则项将如下式1-1所示为W⁽¹⁾的L2,1范数，

式1-1，

其中，为矩阵W⁽¹⁾的L2,1范数，s₁为所述输入层、即所述人工神经网络的第1层的节点数，s₂为所述人工神经网络的第2层的节点数，为所述输入层的第i个节点与所述第2层的第j个节点之间的连接权重；

s_l为所述人工神经网络的第l层的节点数，为所述人工神经网络的第l层的第i个节点与所述人工神经网络的第l+1层的第j个节点之间的连接权重。

在一种可能的实现方式中，对于式1中的所述损失函数，如下式1-2所示选择二次损失函数：

\frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - y^{(i)} | |}^{2}

式1-2，

其中，为所述二次损失函数，函数h_W,b(x⁽ⁱ⁾)＝y⁽ⁱ⁾表示采用第i个训练样本得到的所述输出目标的估计向量。

在一种可能的实现方式中，在利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重之后，还包括：

增加包括至少一个测试样本的测试集；

根据所述训练集和所述测试集，利用训练好的所述人工神经网络计算所述K个特征对所述O个输出目标的影响。

在一种可能的实现方式中，根据所述训练集和所述测试集，利用训练好的所述人工神经网络计算所述K个特征对所述O个输出目标的影响，包括：

根据所述训练集和所述测试集中的所有样本的实测值，计算式3所表示的第一损失函数；

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式3，

其中，l_s为所述第一损失函数，其中，m为所述训练集中的训练样本个数，n为所述测试集中的测试样本个数；

将所述训练集和所述测试集中所有样本的第k个特征的值全部设置为0，以计算式4所表示的第二损失函数；

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式4，

其中，1≤k≤K，表示将第k个特征的值全部设置为0时第i个样本的估计向量；

将所述第一损失函数和所述第二损失函数，代入式5计算第k个特征对输出目标y⁽ⁱ⁾的影响；

{eff}^{k} = l_{s}^{k} - l_{s}

式5。

在一种可能的实现方式中，所述人工神经网络为深度学习网络，在所述中间层的层数大于1的情况下，利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重包括：

利用所述训练集对所述深度学习网络进行一次预训练，以确定所述深度学习网络中各层至下一层的初始连接权重，其中，对输入层进行一次预训练时所用的优化函数包括对所述输入层进行稀疏性约束的项；以及

利用所述训练集对一次预训练后的所述深度学习网络进行二次微调训练，以确定所述深度学习网络中各层至下一层的连接权重，其中，二次微调训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

在一种可能的实现方式中，利用所述训练集对所述深度学习网络进行一次预训练，包括：

在所述输入层，基于如下式6所示的输入层优化函数利用所述训练集进行训练；

J_{1} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} {| | W^{(2)} | |}_{2}^{2}

式6，

其中，J₁(W,b)表示所述输入层的一次预训练的优化函数，表示所述输入层的一次预训练的损失函数，λ₁||W⁽¹⁾||_2,1表示所述输入层的K个节点的分组L1正则项，表示中间层的L2正则项；

在所述中间层，基于如下式7所示的中间层优化函数利用所述训练集进行训练；

J_{l} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{2} {| | W^{(l)} | |}_{2}^{2}

式7，

其中，J_l(W,b)表示所述中间层的一次预训练的优化函数；

在所述输出层，在整个所述训练集上使用回归算法。

在一种可能的实现方式中，利用所述训练集对所述深度学习网络进行二次微调训练，包括：

在所述深度学习网络的所有层，基于如式1所示的优化函数利用所述训练集进行所述二次微调训练，得到所述深度学习网络的各层之间最终的连接权重，其中，所述二次微调训练的权重初始值为所述一次预训练得到的权重值。

为了解决上述问题，本发明实施例还提供一种基于人工神经网络的特征选择装置，其特征在于，包括：

构造模块，用于根据待选择的K个特征和O个输出目标构造具有输入层、中间层和输出层的人工神经网络，其中，所述输入层包括K个节点并且每个节点对应一个特征，所述输出层包括O个节点并且每个节点对应一个输出目标；

训练模块，用于利用训练集对所述构造模块构造的所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重，其中，训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

在一种可能的实现方式中，所述训练模块被配置为：采用下式1表示的所述优化函数对所述人工神经网络进行训练，

式1，

表示基于所述训练集中的训练样本的损失函数；

在一种可能的实现方式中，所述训练模块还被配置为：在将所述输入层的一个节点的所有连接权重作为一组的情况下，G＝K，式1中的分组L1正则项将如下式1-1所示为W⁽¹⁾的L2,1范数，

式1-1，

在一种可能的实现方式中，所述训练模块还被配置为：对于式1中的所述损失函数，如下式1-2所示选择二次损失函数：

\frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - y^{(i)} | |}^{2}

式1-2，

在一种可能的实现方式中，该装置还包括：

评价模块，用于增加包括至少一个测试样本的测试集，根据所述训练集和所述测试集，利用训练好的所述人工神经网络计算所述K个特征对所述O个输出目标的影响。

在一种可能的实现方式中，所述评价模块被配置为：

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式3，

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式4，

{eff}^{k} = l_{s}^{k} - l_{s}

式5。

在一种可能的实现方式中，所述人工神经网络为深度学习网络，在所述中间层的层数大于1的情况下，所述训练模块包括：

预训练单元，用于利用所述训练集对所述深度学习网络进行一次预训练，以确定所述深度学习网络中各层至下一层的初始连接权重，其中，对输入层进行一次预训练时所用的优化函数包括对所述输入层进行稀疏性约束的项；以及

微调训练单元，用于利用所述训练集对一次预训练后的所述深度学习网络进行二次微调训练，以确定所述深度学习网络中各层至下一层的连接权重，其中，二次微调训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

在一种可能的实现方式中，所述预训练单元被配置为：

J_{1} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} {| | W^{(2)} | |}_{2}^{2}

式6，

J_{l} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{2} {| | W^{(l)} | |}_{2}^{2}

式7，

其中，J_l(W,b)表示所述中间层的一次预训练的优化函数；

在所述输出层，在整个所述训练集上使用回归算法。

在一种可能的实现方式中，所述微调训练单元被配置：在所述深度学习网络的所有层，基于如式1所示的优化函数利用所述训练集进行所述二次微调训练，得到所述深度学习网络的各层之间最终的连接权重，其中，所述二次微调训练的权重初始值为所述一次预训练得到的权重值。

有益效果

本发明实施例通过在人工神经网络的输入层添加稀疏性约束，能够实现在对人工神经网络进行训练的同时得到特征选择结果，提高了对人工神经网络进行特征选择的效率。

根据下面参考附图对示例性实施例的详细说明，本发明的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本发明的示例性实施例、特征和方面，并且用于解释本发明的原理。

图1a示出根据本发明一实施例的基于人工神经网络的特征选择方法的流程示意图；

图1b示出根据本发明一实施例基于人工神经网络的特征选择方法中所构造的人工神经网络的示意图；

图2示出根据本发明另一实施例的基于人工神经网络的特征选择方法的流程示意图；

图3a示出根据本发明另一实施例的基于深度学习网络的特征选择方法的流程示意图；

图3b示出根据本发明另一实施例的基于深度学习网络的特征选择方法中所构造的深度学习网络的示意图；

图3c示出根据本发明另一实施例的基于深度学习网络的特征选择方法中训练所用的特征向量与目标向量的示意图；

图3d示出根据本发明另一实施例的基于深度学习网络的特征选择方法中训练结果的示意图；

图3e示出根据本发明另一实施例的基于深度学习网络的特征选择方法中特征分析所用的估计向量的示意图；

图4示出根据本发明一实施例的基于人工神经网络的特征选择装置的结构示意图；

图5示出根据本发明另一实施例的基于人工神经网络的特征选择装置的结构示意图。

具体实施方式

以下将参考附图详细说明本发明的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本发明的主旨。

实施例1

图1a示出根据本发明一实施例的基于人工神经网络的特征选择方法的流程示意图。如图1a所示，该基于人工神经网络的特征选择方法主要可以包括：

步骤101、根据待选择的K个特征和O个输出目标构造具有输入层、中间层和输出层的人工神经网络，其中，所述输入层包括K个节点并且每个节点对应一个特征，所述输出层包括O个节点并且每个节点对应一个输出目标。

步骤102、利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重，其中，训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

具体而言，人工神经网络具有特征学习的能力，当输入数据中包含很多冗余特征和阻碍特征时，在人工神经网络中对输入层的节点添加稀疏性约束非常重要，尤其是在需要训练学习输出目标和输入特征之间的关联时。在人工神经网络中嵌入特征选择可以使输入层的参数向量变稀疏，从而滤除输入层的冗余特征和阻碍特征，在关联分析时揭示出对于输出目标最相关的输入特征。

本发明实施例在人工神经网络的输入层添加稀疏性约束，可以更好的分析输出目标和输入特征之间的关系，在训练的同时完成特征选择。

举例而言，如图1b所示，给定一个人工神经网络，令n^l表示人工神经网络的层数，L_l表示第l层，s_l表示第l层的节点数，则L₁表示输入层，表示输出层。连接权重W^(l)是一个s_l+1×s_l的矩阵，是矩阵中的元素，表示连接第l层的节点i和第l+1层的节点j的连接权重。人工神经网络的参数为其中表示连接第l层的节点i和第l+1层的节点j的连接权重，是第l+1层的节点j的偏置系数。偏置节点并没有任何输入，因为其输出都是+1，所以在计算每一层节点数的时候可以不考虑偏置节点。

其中，在对人工神经网络训练前，需要对训练集中的样本特征进行数据标准化(normalization)，采用标准化之后的特征进行训练。人工神经网络训练时所用的优化函数可以采用下式1表示，

式1，

其中，J(W,b)表示所述优化函数，W表示所述人工神经网络中各层至下一层的连接权重，b表示所述人工神经网络中各层的偏置节点的偏置系数，所述训练集中包括m个已标注数据、即训练样本对于每一个训练样本包括第i个训练样本的K个特征的实测值；包括第i个训练样本的O个输出目标的实测值表示K维实数，表示O维实数；

表示基于所述训练集中的训练样本的损失函数。

为对所述输入层进行稀疏性约束的分组L1(GroupedL1)正则项，用来进行特征选择，λ₁为预先确定的优化参数，W⁽¹⁾为所述输入层至下一层的连接权重，G为对所述输入层至下一层的连接权重进行分组的分组数，I_g为第g组参数的索引矩阵，⊙为阿达马HADAMARD乘积；传统的L1正则通常情况下无法使得某个特征的所有参数(连接权重)同时为零，所以传统的L1正则在人工神经网络中无法进行特征选择。将每个特征的所有参数都看成一个自然组，采用分组L1正则可以使得某个特征的所有参数同时为零，从而在人工神经网络中达到特征选择的目的。

为所述中间层的L2正则项，用来避免过拟合，为W^(l)的L2范数的平方，λ₂为预先确定的优化参数，W^(l)为所述人工神经网络的第l层至第l+1层的连接权重，n_l为所述人工神经网络的层数。

式1-1，

s_l为所述人工神经网络的第l层的节点数，s_l+1为所述人工神经网络的第l+1层的节点数，为所述人工神经网络的第l层的第i个节点与所述人工神经网络的第l+1层的第j个节点之间的连接权重。

在一种可能的实现方式中，对于式1中的所述损失函数，如下式1-2所示选择二次损失函数(thequadraticloss)：

\frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - y^{(i)} | |}^{2}

式1-2，

因此，结合式1-1和式1-2，可以将式1转换为如下式2：

\begin{matrix} J (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} Σ_{l = 2}^{n_{l} - 1} {| | W^{(l)} | |}_{2}^{2} \\ = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)} - y^{(i)}) | |}^{2} + λ_{1} Σ_{i = 1}^{s_{1}} {(Σ_{j = 1}^{s_{2}} {(W_{ji}^{(1)})}^{2})}^{1 / 2} + \frac{λ_{2}}{2} Σ_{l = 2}^{n_{l} - 1} Σ_{i = 1}^{s_{l}} Σ_{j = 1}^{s_{l + 1}} {(W_{ji}^{(l)})}^{2} \end{matrix}

式2。

本实施例将每个待选择的特征的所有参数作为一个自然组，通过分组L1正则项，在人工神经网络的输入层添加稀疏性约束，能够使得某个特征的所有参数同时为0，从而在人工神经网络的输入层添加特征选择功能，实现在训练的同时得到特征选择结果，与训练之后再对每个特征进行分析才能得到特征选择结果的方案相比，提高了特征选择的效率。

实施例2

图2示出根据本发明另一实施例的基于人工神经网络的特征选择方法的流程示意图。图2中标号与图1a相同的步骤具有相同的功能，为简明起见，省略对这些步骤的详细说明。

如图2所示，与上述实施例的区别在于，在步骤102利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重之后，该基于人工神经网络的特征选择方法还可以包括：增加包括至少一个测试样本的测试集；根据所述训练集和所述测试集，利用训练好的所述人工神经网络计算所述K个特征对所述O个输出目标的影响，具体可以包括：

步骤201、根据所述训练集和所述测试集中的所有样本的实测值，计算式3所表示的第一损失函数；

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式3，

步骤202、将所述训练集和所述测试集中所有样本的第k个特征的值全部设置为0，以计算式4所表示的第二损失函数；

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式4，

步骤203、将所述第一损失函数和所述第二损失函数，代入式5计算第k个特征对输出目标y⁽ⁱ⁾的影响；

{eff}^{k} = l_{s}^{k} - l_{s}

式5。

具体而言，在对人工神经网络进行训练与特征选择之后，还可以深入分析出每个输入特征对于输出目标的作用,同时揭示出对于输出目标关联最紧密的输入特征,提高特征分析的准确度。例如，采用算法Algorithm1:AssociationAnalysis进行特征分析：

1Computethemeanlossl_sovermlabeledtraininginstancesandntestinginstancesusingthetrainedweights:

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

2foreachfeaturek,1≤k≤Kdo

3|foreachi,1≤i≤m+ndo

4||Letx⁽ⁱ⁾＝x⁽ⁱ⁾,andSet

5|Computethemeanloss

|

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

6|Computetheeffectoffeaturekforthetarget:

|

{eff}^{k} = l_{s}^{k} - l_{s}

其中，eff^k＞0表示第k个特征是输出目标y⁽ⁱ⁾的相关因子；eff^k＝0表示第k个特征是输出目标y⁽ⁱ⁾的冗余因子；eff^k＜0表示第k个特征是输出目标y⁽ⁱ⁾的阻碍因子。

本实施例将每个待选择的特征的所有参数作为一个自然组，通过分组L1正则项，在人工神经网络的输入层添加稀疏性约束，能够使得某个特征的所有参数同时为0，从而在人工神经网络的输入层添加特征选择功能，实现在训练的同时得到特征选择结果，与训练之后再对每个特征进行分析才能得到特征选择结果的方案相比，提高了特征选择的效率。进一步地，如果需要确定特征对输出目标的影响，也可以在特征选择完成之后，对全部或部分(例如特征选择结果所包括的)的特征进行分析。

实施例3

图3a示出根据本发明另一实施例的基于深度学习网络的特征选择方法的流程示意图。图3a中标号与图1a、图2相同的步骤具有相同的功能，为简明起见，省略对这些步骤的详细说明。

如图3b所示，可以构造带特征选择的深度学习(DeepLearningwithFeatureSelection)网络，深度学习(DeepLearning)网络是一种中间层(或者称隐含层)的层数大于1的人工神经网络。深度学习网络一般首先通过无监督学习初始化各层的参数；然后通过监督学习来整体微调同时优化所有层的参数。本发明实施例可以在无监督学习时在输入层添加特征选择(FeatureSelection)，来初始化输入层的参数；在监督学习时在输入层添加特征选择，来整体微调优化所有层的参数，来实现进行深度学习网络训练的同时完成特征选择。

具体而言，在深度学习网络中进行训练的步骤102具体可以包括以下两次训练：

首先，利用所述训练集对所述深度学习网络进行一次预训练，以确定所述深度学习网络中各层至下一层的初始连接权重，其中，对输入层进行一次预训练时所用的优化函数包括对所述输入层进行稀疏性约束的项。

然后，参见上述的实施例1和2，利用所述训练集对一次预训练后的所述深度学习网络进行二次微调训练，以确定所述深度学习网络中各层至下一层的连接权重，其中，二次微调训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

在一种可能的实现方式中，利用所述训练集对所述深度学习网络进行一次预训练，以确定所述深度学习网络中各层至下一层的初始连接权重具体可以包括：

步骤301、在所述输入层，通过在优化函数中添加对输入层进行稀疏性约束的项，将特征选择嵌入到自编码(AutoencoderwithFeatureSelection,AEFS)中，在整个训练集中进行一次预训练，获得输入层的网络参数W和b，具体可以基于如下式6所示的输入层优化函数利用所述训练集进行训练；

J_{1} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} {| | W^{(2)} | |}_{2}^{2}

式6，

步骤302、在所述中间层，可以直接使用自编码(Autoencoder,AE)在整个训练集中进行一次预训练，获得中间层的网络参数，具体可以基于如下式7所示的中间层优化函数利用所述训练集进行训练；

J_{l} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{2} {| | W^{(l)} | |}_{2}^{2}

式7，

其中，J_l(W,b)表示所述中间层的一次预训练的优化函数。

如果中间层有多层，可以将上一中间层的输出作为下一中间层的输入，多次采用式7进行训练，直至将所有中间层训练完成。

步骤303、在所述输出层，在整个所述训练集上使用回归算法(regression)，参见下式8：

J_{n_{l}} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) + \frac{λ}{2} {| | W^{(n_{l})} | |}_{2}^{2}

式8，

式8中的表示所述输出层的回归算法的优化函数。

最后，再用带特征选择的人工神经网络(NeuralNetworkwithFeatureSelection)来进行网络参数的微调，例如，将一次预训练得到的网络参数如连接权重和偏置系数等，作为深度学习的神经网络的初始化参数，然后在所述深度学习网络的所有层，再采用式1或式2所示的优化函数，对整个深度学习的神经网络进行二次微调训练，以对一次预训练的初始化参数的训练结果进行微调。

举例而言，深度学习网络，对数据进行一次预训练的一个示例如下：

首先，对数据进行以下预处理，以确定待选择特征和输出目标，并选择训练样本。

(一)特征向量选取

待选择的特征可包括多种，即可以采用特征向量的形式表示。举例而言，将与某一站点最邻近的a个站点(不包括自己)的前t个小时(包含当前小时)的下列信息作为待选择的特征，共a*5+a*t*14维(a暂定取5，t暂定取6)。

(1)该站点与a个最邻近站点的空间距离信息：原始距离(即经纬度距离)，网格编号横向距离(分为dX+，和dX-，例如100和98的dX+＝2，dX-＝0)，网格编号纵向距离(分为dY+，和dY-，例如107和113的dY+＝0，dY-＝6)，共a*5维；

(2)该站点与a个最邻近站点前t个小时的下列信息：

CO，NO2，SO2，O3，PM10，PM2.5，湿度，温度，风向，风力，X+，X-，Y+，Y-，共a*t*14维。

此外，该站点自己的静态特征，18个土地利用特征+人口，共18维；以及，该站点自己的动态特征，该站点自己前b个小时(包含当前小时)的交通量Traffic(t-b)，共b维(b暂定取6)，也可以作为待选择的特征。

在实际应用场景中，与该站点相关的以上的各种信息的全部或部分，可以作为人工神经网络中待选择的特征(也即输入特征)。

(二)目标向量选取

对于每一个已标注的训练数据(labeledtrainingdata)如35*1560个点的数据，其标签(label)即输出向量描述可以包括例如某一时刻后p个小时(包含当前小时)的下列信息：

CO，NO2，SO2，O3，PM10，PM2.5，共6*p维，其中，p暂定取25，其中当前小时的值用来做插值，未来24个小时的值用来做预测。

(三)根据以上确定的待选择特征和输出目标，选择具有这些待选择特征和输出目标的多个训练样本作为训练集，并将训练集按照例如图3c所示进行特征向量和目标向量的归一化处理。图3c中x1～x5是5个训练样本的特征向量，y1～y5是5个训练样本的目标向量，CO(t)(i₁)、CO(t-1)(i₁)、Traffic(t)等是每个训练样本的待选择特征，PM2.5(t+5)是训练样本的输出目标。

其次，根据以上预处理之后的数据，经过步骤301～步骤303进行一次预训练，以得到深度学习网络的初始连接权重和初始偏置系数。然后将初始连接权重和初始偏置系数作为初始化参数，采用式2进行二次微调训练，对初始连接权重和初始偏置系数进行微调，得到深度学习网络最终的连接权重和偏置系数，如图3d所示，为图3b的训练之后得到训练结果的示意图。

最后，可以参见图3c中的表格以及图3e，对上述待选择的各个特征进行分析，以确定各个特征对输出目标的硬性。

采用图3e中所表示的各个样本的特征向量即实测值，利用上述训练好的连接权重W和偏置系数b分别对特征CO(t)(i₁)，CO(t-1)(i₁)计算第一损失函数

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)}) .

采用图3c中所表示的各个样本的估计向量，利用上述训练好的连接权重W和偏置系数b分别对特征CO(t)(i₁)，CO(t-1)(i₁)计算第二损失函数然后可以得到特征CO(t)(i₁)，CO(t-1)(i₁)对输出目标PM2.5(t+5)的影响发现二者的影响eff^k都大于0，且CO(t)(i₁)计算出的eff^k大于CO(t-1)(i₁)计算出的eff^k，说明特征CO(t)(i₁)，CO(t-1)(i₁)都是输出目标PM2.5(t+5)的相关因子，且CO(t)(i₁)比CO(t-1)(i₁)对该输出目标的相关性更大一些。

本实施例将每个待选择的特征的所有参数作为一个自然组，通过分组L1正则项，在深度学习网络的输入层添加稀疏性约束，能够使得某个特征的所有参数同时为0，从而在深度学习网络的输入层添加特征选择功能，实现在训练的同时得到特征选择结果，与训练之后再对每个特征进行分析才能得到特征选择结果的方案相比，提高了特征选择的效率。

实施例4

图4示出根据本发明一实施例的基于人工神经网络的特征选择装置的结构示意图。如图4所示，该特征选择装置主要可以包括：

构造模块41，用于根据待选择的K个特征和O个输出目标构造具有输入层、中间层和输出层的人工神经网络，其中，所述输入层包括K个节点并且每个节点对应一个特征，所述输出层包括O个节点并且每个节点对应一个输出目标；

训练模块43，用于利用训练集对所述构造模块41构造的所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重，其中，训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

本实施例通过在人工神经网络的输入层添加稀疏性约束，可以更好的分析输出目标和输入特征之间的关系，能够实现在对人工神经网络进行训练的同时得到特征选择结果，提高了特征选择的效率。

实施例5

图5示出根据本发明另一实施例的基于人工神经网络的特征选择装置的结构示意图。图5中标号与图4相同的组件具有相同的功能，为简明起见，省略对这些组件的详细说明。如图5所示，并参见上述图1b及其相关描述，与上一实施例的主要区别在于，该装置的训练模块43被配置为：采用下式1表示的所述优化函数对所述人工神经网络进行训练，

式1，

表示基于所述训练集中的训练样本的损失函数；

在一种可能的实现方式中，训练模块43还被配置为：在将所述输入层的一个节点的所有连接权重作为一组的情况下，G＝K，式1中的分组L1正则项将如下式1-1所示为W⁽¹⁾的L2,1范数，

式1-1，

在一种可能的实现方式中，训练模块43还被配置为：对于式1中的所述损失函数，如下式1-2所示选择二次损失函数：

\frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - y^{(i)} | |}^{2}

式1-2，

因此，结合式1-1和式1-2，可以将式1转换为上述式2。本实施例的式1、式1-1、式1-2以及式2的具体参数的含义与示例可以参见上述方法实施例中的相关描述。

具体而言，在对人工神经网络进行训练与特征选择之后，还可以深入分析出每个输入特征对于输出目标的作用,同时揭示出对于输出目标关联最紧密的输入特征,提高特征分析的准确度。因此，在一种可能的实现方式中，该装置还可以包括：

评价模块45，用于增加包括至少一个测试样本的测试集，根据所述训练集和所述测试集，利用训练好的所述人工神经网络计算所述K个特征对所述O个输出目标的影响。

在一种可能的实现方式中，评价模块45被配置为：

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式3，

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式4，

{eff}^{k} = l_{s}^{k} - l_{s}

式5。

其中，评价模块45所采用的算法是示例可以参加上述方法实施例中的Algorithm1。

在一种可能的实现方式中，所述人工神经网络为深度学习网络，在所述中间层的层数大于1的情况下，所述训练模块43包括：

预训练单元51，用于利用所述训练集对所述深度学习网络进行一次预训练，以确定所述深度学习网络中各层至下一层的初始连接权重，其中，对输入层进行一次预训练时所用的优化函数包括对所述输入层进行稀疏性约束的项；以及

微调训练单元53，用于利用所述训练集对一次预训练后的所述深度学习网络进行二次微调训练，以确定所述深度学习网络中各层至下一层的连接权重，其中，二次微调训练时所用的优化函数包括对所述输入层进行稀疏性约束的项，以使得所述输入层至下一层的连接权重能够表示对所述K个特征的选择结果。

在一种可能的实现方式中，预训练单元51被配置为：

J_{1} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} {| | W^{(2)} | |}_{2}^{2}

式6，

J_{l} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{2} {| | W^{(l)} | |}_{2}^{2}

式7，

其中，J_l(W,b)表示所述中间层的一次预训练的优化函数；

在所述输出层，在整个所述训练集上使用回归算法。

在一种可能的实现方式中，微调训练单元53被配置：在所述深度学习网络的所有层，基于如式1所示的优化函数利用所述训练集进行所述二次微调训练，得到所述深度学习网络的各层之间最终的连接权重，其中，所述二次微调训练的权重初始值为所述一次预训练得到的权重值。

其中，本装置在深度学习网络中应用的具体示例可以参见上述方法实施例图3a～图3e的相关描述。

本实施例将每个待选择的特征的所有参数作为一个自然组，通过分组L1正则项，在人工神经网络的输入层添加稀疏性约束，能够使得某个特征的所有参数同时为0，从而在人工神经网络的输入层添加特征选择功能，实现在训练的同时得到特征选择结果，与训练之后再对每个特征进行分析才能得到特征选择结果的方案相比，提高了特征选择的效率。并且本实施例适用于深度学习网络。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于人工神经网络的特征选择方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述优化函数采用下式1表示，

式1，

表示基于所述训练集中的训练样本的损失函数；

3.根据权利要求2所述的方法，其特征在于，在将所述输入层的一个节点的所有连接权重作为一组的情况下，G＝K，式1中的分组L1正则项将如下式1-1所示为W⁽¹⁾的L2,1范数，

式1-1，

4.根据权利要求3所述的方法，其特征在于，对于式1中的所述损失函数，如下式1-2所示选择二次损失函数：

\frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - y^{(i)} | |}^{2}

式1-2，

5.根据权利要求4所述的方法，其特征在于，在利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重之后，还包括：

增加包括至少一个测试样本的测试集；

6.根据权利要求5所述的方法，其特征在于，根据所述训练集和所述测试集，利用训练好的所述人工神经网络计算所述K个特征对所述O个输出目标的影响，包括：

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式3，

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式4，

{eff}^{k} = l_{s}^{k} - l_{s}

式5。

7.根据权利要求1～6中任一项所述的方法，其特征在于，所述人工神经网络为深度学习网络，在所述中间层的层数大于1的情况下，利用训练集对所述人工神经网络进行训练，以确定所述人工神经网络中各层至下一层的连接权重包括：

8.根据权利要求7所述的方法，其特征在于，利用所述训练集对所述深度学习网络进行一次预训练，包括：

J_{1} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} {| | W^{(2)} | |}_{2}^{2}

式6，

J_{l} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{2} {| | W^{(l)} | |}_{2}^{2}

式7，

其中，J_l(W,b)表示所述中间层的一次预训练的优化函数；

在所述输出层，在整个所述训练集上使用回归算法。

9.根据权利要求8所述的方法，其特征在于，利用所述训练集对所述深度学习网络进行二次微调训练，包括：

10.一种基于人工神经网络的特征选择装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述训练模块被配置为：采用下式1表示的所述优化函数对所述人工神经网络进行训练，

式1，

表示基于所述训练集中的训练样本的损失函数；

12.根据权利要求11所述的装置，其特征在于，所述训练模块还被配置为：在将所述输入层的一个节点的所有连接权重作为一组的情况下，G＝K，式1中的分组L1正则项将如下式1-1所示为W⁽¹⁾的L2,1范数，

式1-1，

13.根据权利要求12所述的装置，其特征在于，所述训练模块还被配置为：对于式1中的所述损失函数，如下式1-2所示选择二次损失函数：

\frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, y^{(i)}) = \frac{1}{m} Σ_{i = 1}^{m} \frac{1}{2} {| | h_{W, b} (x^{(i)}) - y^{(i)} | |}^{2}

式1-2，

14.根据权利要求13所述的装置，其特征在于，还包括：

15.根据权利要求14所述的装置，其特征在于，所述评价模块被配置为：

l_{s} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式3，

l_{s}^{k} = \frac{1}{m + n} Σ_{i = 1}^{m + n} L (W, b; x^{(i)}, y^{(i)})

式4，

{eff}^{k} = l_{s}^{k} - l_{s}

式5。

16.根据权利要求10～15中任一项所述的装置，其特征在于，所述人工神经网络为深度学习网络，在所述中间层的层数大于1的情况下，所述训练模块包括：

17.根据权利要求16所述的装置，其特征在于，所述预训练单元被配置为：

J_{1} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + λ_{1} {| | W^{(1)} | |}_{2,1} + \frac{λ_{2}}{2} {| | W^{(2)} | |}_{2}^{2}

式6，

J_{l} (W, b) = \frac{1}{m} Σ_{i = 1}^{m} L (W, b; x^{(i)}, x^{(i)}) + \frac{λ}{2} Σ_{l = 1}^{2} {| | W^{(l)} | |}_{2}^{2}

式7，

其中，J_l(W,b)表示所述中间层的一次预训练的优化函数；

在所述输出层，在整个所述训练集上使用回归算法。

18.根据权利要求17所述的装置，其特征在于，所述微调训练单元被配置：在所述深度学习网络的所有层，基于如式1所示的优化函数利用所述训练集进行所述二次微调训练，得到所述深度学习网络的各层之间最终的连接权重，其中，所述二次微调训练的权重初始值为所述一次预训练得到的权重值。