CN110443353A

CN110443353A - 一种基于短连接的挖掘特征之间隐含关系的神经网络

Info

Publication number: CN110443353A
Application number: CN201910639616.6A
Authority: CN
Inventors: 高强; 郭菲; 张小旺; 冯志勇
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-11-12

Abstract

一种基于短连接的挖掘特征之间隐含关系的神经网络，包括有输入层，设定有输入空间；第一嵌入层，用于后续提取非线性的低阶特征交互；第二嵌入层，用于后续提取线性特征；非线性交互池化层，用于从第一嵌入层输出的密集特征矩阵中提取出非线性的低阶特征交互；层损失神经网络，用于将非线性交互池化层输出的低阶交互特征变为高阶特征交互输出；线性模型，用于从第二嵌入层输出的密集特征向量中提取出线性特征；结合层，用于将层损失神经网络输出的高阶特征交互和线性模型输出的线性特征进行融合，得到最终的预测值。本发明不仅可以充分地利用更多的特征，而且还构造出了对目标任务更加有效的低阶特征交互向量，更提高了模型的预测能力。

Description

一种基于短连接的挖掘特征之间隐含关系的神经网络

技术领域

本发明涉及一种神经网络。特别是涉及一种基于短连接的挖掘特征之间隐含关系的神经网络。

背景技术

稀疏预测分析是机器学习领域中的一个重要问题，当数据特征处于稀疏表示时，亦可应用机器学习技术来预估特征和目标之间的关系。现实中大多数预测任务是预估一个从实值特征向量x∈Rⁿ到预测目标T(回归：T＝R，分类：T＝(+,-))的映射函数y:Rⁿ→T。在监督学习中，假设有数据集D＝{(x₁,y₁),...,(x_i,y_i),...,(x_num,y_num)}，其中i表示第i条样本，x_i为特征向量，y_i为预测目标，num表示样本个数。本发明处理的问题为：x_i是一个高度稀疏的特征向量，也就是说x_i中的元素大多数都是0。令m(x_i)表示特征向量x_i中非0元素的个数，表示在所有特征向量x∈D中的平均非0元素个数。当满足时，数据集D就表现出稀疏性。这种具有稀疏性的数据集经常出现在事件交易(推荐系统)和文本分析(词袋模型)中，造成数据稀疏的一个重要原因是输入空间中多数特征是多域类别特征，通过对每一个特征进行独热编码后使得特征中的值大多数为0，只有一个值为1，且表示具有实际的意义。举例来说，假设数据集D中具有三个多域类别特征，且其中的一条样本为：[Gender＝Male,Country＝China,Weekday＝Thursday]，通过独热编码后的特征表示为：

与密集数据中的预测分析相比，由于在稀疏数据中样本的稀疏性，使得学习特征之间的隐含关系更加困难。

与本发明最相似的现有技术实现方案：

为了学习在稀疏数据中特征之间的隐含关系，最近的许多工作大致分为以下三类：(1)手动特征工程，(2)用于提取低阶交互特征的(非)线性模型，(3)提取高阶和低阶交互特征的神经网络模型。手动特征工程通过专业的领域知识和具体业务来直接制定隐藏特征，例如多项式编码和扩展编码。线性模型和非线性模型主要提取低阶交互特征，例如因子分解机算法(FM)和基于“域”的因子分解机算法(FFM)算法，还有业界比较常用的逻辑回归模型和FTRL算法，这种线性模型通常都需要繁重的特征工程去提高模型的预测能力。近年来，基于神经网络的模型可用于同时提取稀疏数据中高阶和低阶特征交互。这些基于神经网络的模型通常通过设计一个池化层来提取低阶特征交互，然后通过多层隐藏层和激活单元来提取更高阶的特征交互。例如，Wide&Deep learning(WDL)模型提出了一种联合线性模型和深度学习训练的融合策略，它设计一种池化操作为每对特征向量求和去学习特征之间的低阶特征交互；Factorisation-machine supported Neural Network(FNN)通过根据“域”划分特征以减少特征空间中特征的维度，同时结合嵌入向量来提取基本的密集特征；Product-based Neural Network(PNN)设计了product层，其通过对每对特征向量计算它们的内积和外积来捕获特征之间的隐含特征；Hierarchical Representation Model(HRM)和Neural Network-based Collaborative Filtering(NCF)通过对嵌入向量求均值来获取特征之间隐含的特征交互关系；DeepFM结合了因子分解机算法和深度学习，它通过计算每对特征向量的内积并将其经过简单的融合来学习交互特征；Neural FactorizationMachines(NFM)设计了一种BI-Interaction池化层，该池化层计算两个特征向量的逐元素积来表示这两个特征之间的隐含关系；Attention Factorization Machines(AFM)在NFM的基础上引入注意力机制来计算特征交互对目标的贡献度；基于卷积神经网络的CCPM模型，可以通过卷积核来学习局部特征之间的特征交互；Deep Crossing模型基于残差网络(ResNet)提出了复合残差单元来学习特征之间的高阶特征交互；Deep Cross Network(DCN)在低阶特征交互的基础上，提出了一种交叉网络以学习更高阶的特征交互。总之，现有基于神经网络的模型大多采用线性模型提取线性特征和低阶交互特征，采用深度学习模型提取高阶交互特征，最终通过对特征的融合预测最终目标。

现有技术的缺点：

在机器学习中，特征决定了目标任务的上限，而算法只是去逼近这个上限。因此，我们需要构造对目标任务更加有效的特征。现有的对稀疏数据进行分析预测的方法在一定程度上确实提高了预测能力。然而，它们在学习特征交互时仅利用了当前层的特征，没有充分利用模型中间过程产生的历史特征，也就说忽略了特征的传递性和可重用性。

发明内容

本发明所要解决的技术问题是，提供一种能够充分利用模型过程中产生的各种特征来提高模型预测性能的基于短连接的挖掘特征之间隐含关系的神经网络。

本发明所采用的技术方案是：一种基于短连接的挖掘特征之间隐含关系的神经网络，包括有输入层，设定有输入空间D＝{(x₁,y₁),...,(x_i,y_i),...,(x_num,y_num)}，其中i表示第i条样本，x_i为特征向量，y_i为预测目标，num表示样本个数，所述的输入层用于将输入空间中的特征向量x_i经过独热编码后，转化为稀疏的特征向量作为任务的特征空间；还设置有：

第一嵌入层：用于将输入层输出的特征空间中的稀疏特征向量转化为一个密集特征矩阵，用于后续提取非线性的低阶特征交互；

第二嵌入层：用于将输入层输出的特征空间中的稀疏特征向量转化为一个密集特征向量，用于后续提取线性特征；

非线性交互池化层：是一个基于短连接的分级特征提取器，用于从第一嵌入层输出的密集特征矩阵中提取出非线性的低阶特征交互；

层损失神经网络：是一种基于层层提取特征的前馈神经网络，用于将非线性交互池化层输出的低阶交互特征变为高阶特征交互输出；

线性模型：用于从第二嵌入层输出的密集特征向量中提取出线性特征；

结合层：用于将层损失神经网络输出的高阶特征交互和线性模型输出的线性特征进行融合，得到最终的预测值；

应用均方误差作为模型的损失函数，同时还包括层损失神经网络中每一层隐藏层中相对于的损失，计算如下：

式中，表示最小化损失函数，表示第i条样本的预测值，y_i为第i条样本的真实值，D表示输入空间，L表示层损失神经网络的层数，l表示第l层隐藏层，h_l表示第l隐藏层的输出。

第一嵌入层是采用如下公式将接收到的特征空间中的稀疏特征向量转换为密集特征矩阵：

其中表示第一嵌入层的输出，是一个矩阵权重参数，运算符·表示选取一个矩阵里面索引对应的元素；F表示特征维度大小，K表示嵌入向量的维度大小，FS表示整个样本中特征值个数的大小。

第二嵌入层是采用如下公式将接收到的特征空间中的稀疏特征向量转化为一个密集特征向量：

其中表示第一嵌入层的输出，是一个向量权重参数，运算符表示选取一个向量里面索引对应的元素；F表示特征维度大小，FS表示整个样本中特征值个数的大小。

所述的非线性交互池化层包括有：分别接收第一嵌入层输出的密集特征矩阵的第一列合单元和第二哈达玛积单元，其中，所述的第一列合单元将密集特征矩阵转化为密集特征向量后经第一哈达玛积单元分解后，再与第一列合单元输出的密集特征向量经第一加法器相加得到密集特征向量，所述的第二哈达玛积单元将密集特征矩阵分解，再与第一嵌入层输出的密集特征矩阵经第二加法器相加后，经第二列合单元转化为密集特征向量，第二列合单元输出的密集特征向量与第一加法器输出的密集特征向量经减法器相减后构成非线性交互池化层的输出。

所述的非线性交互池化层的计算公式为：

令[M_rc]_n×m表示一个n×m的矩阵，

其中，表示M_rc矩阵[M_rc]_n×m的第r行第c列的元素；

将非线性交互池化层的计算公式依次简化为：

其中，x_{non_in}表示非线性交互池化层的输出；表示密集特征矩阵；表示列和：用于将矩阵转化为向量；表示哈达玛积，用于对接收的密集特征矩阵进行分解，即分解为两种类型的矩阵，第一个矩阵表示将按行切分为n个矩阵，第二个矩阵是一个对角矩阵，最终将这两种矩阵融合得到一个矩阵作为结果输出。

在非线性交互池化层的计算结果加入有用于调整每一层隐藏层分布的批标准化和可以随机选择若干个神经元参与每次迭代的Dropout正则化，具体公式如下：

r∝Bernoulli(p)

x_{non_in_drop}＝w·r·x_{non_in}+b

其中，p表示概率，r表示一个以p生成的Bernoulli分布，x_{non_in}表示非线性交互池化层的输出，w和b表示权重参数和偏置参数，x_{non_in_drop}表示非线性交互池化层经过Dropout的输出。

所述的层损失神经网络是由依次串联的L组结构相同的隐藏层构成，每一组隐藏层均的输出均连接目标单元的输入端，所述目标单元的输出端连接结合层，每一组层损失层均是由线性变换层、非线性单元和层线性模型依次串联构成。

所述层损失神经网络的计算公式：

h₁＝bad(w₁×x_{non_in_drop}+b₁)

......

h_l＝bad(w_l×h_l-1+b_l)

......

h_L＝bad(w_L×h_L-1+b_L)

其中，L表示隐藏层的层数，h_l表示第l层隐藏层的输出，w_l和b_l分别表示连接矩阵和偏置向量；x_{non_in_drop}表示非线性交互池化层经过Dropout的输出；非线性单元由批标准化、激活函数和Dropout正则化构成，其中，激活函数表示上一层和当前层的函数关系，在每一层隐藏层后面设置一个激活函数，用于提高整体的预测能力；层线性模型(c)的表达式为：

其中，h_l表示第l层隐藏层的输出，表示第i条样本的预测值，w_ll和b_ll分别表示权重参数和偏置向量。

所述的线性模型，具体公式为：

其中，表示第一嵌入层的输出，w_wide和b_wide分别表示该线性模型的权重参数和偏置参数，x_wide表示线性模型的输出。

所述的结合层计算公式如下：

其中，表示第i条样本的预测值，h_L表示第L层隐藏层的输出，x_wide表示线性模型的输出，b_total表示偏置参数。

本发明的一种基于短连接的挖掘特征之间隐含关系的神经网络，针对稀疏数据分析预测在特征转换、低阶隐含关系挖掘、高阶隐含关系挖掘、捕获历史特征、融合特征表示等问题，研究面向稀疏数据得分析预测的模型框架。在保证训练代价的前提下，充分利用模型过程中产生的各种特征来提高模型的预测性能。

本发明的一种基于短连接的挖掘特征之间隐含关系的神经网络，是一种基于短连接的非线性交互池化层，基于层层提取特征的层损失神经网络和一种混合嵌入方式，主要利用历史特征的传递性和可重用性来捕获特征之间的低阶和高阶特征交互。本发明设计的非线性交互池化层在短连接的基础上，能够充分的利用池化层中的历史特征，将历史特征向量直接传递到当前层，这样不仅可以充分地利用更多的特征，而且还构造出了对目标任务更加有效的低阶特征交互向量，更提高了模型的预测能力。本发明基于普通的神经网络，设计了层损失神经网络层提取特征，使得提取的特征随着层数的增加而越来越高阶，越来越对目标任务有效。

附图说明

图1是本发明中神经网络模型的架构图；

图2是本发明中非线性交互池化层的结构图；

图3是本发明中层损失神经网络的结构图。

具体实施方式

下面结合实施例和附图对本发明的一种基于短连接的挖掘特征之间隐含关系的神经网络做出详细说明。

本发明的一种基于短连接的挖掘特征之间隐含关系的神经网络，是一种在稀疏数据背景下，基于神经网络的分析预测方法--交互神经网络。网络模型结构主要有：1)一种混合嵌入方法，可将特征空间中的稀疏样本向量转换基本的密集样本向量；2)一种基于短连接的池化层，利用历史特征更好地捕获特征之间隐含的低阶依赖关系；3)一种基于层层提取特征的神经网络，通过建模每一层隐藏层中包含的历史特征和预测目标之间的关系以获取更加有意义的高阶交互特特征。

如图1所示，本发明的一种基于短连接的挖掘特征之间隐含关系的神经网络，包括有输入层1，设定有输入空间D＝{(x⁽¹⁾,y⁽¹⁾),(x⁽²⁾,y⁽²⁾),...,(x⁽ⁿ⁾,y⁽ⁿ⁾)}，其中i表示第i条样本，x_i为特征向量，y_i为预测目标，num表示样本个数，所述的输入层1用于将输入空间中的特征向量x_i经过独热编码后，转化为稀疏的特征向量作为任务的特征空间；还设置有：

第一嵌入层2：用于将输入层1输出的特征空间中的稀疏特征向量转化为一个密集特征矩阵，其包含比较多的信息，用于后续提取非线性的低阶特征交互；

第一嵌入层2是采用如下公式将接收到的特征空间中的稀疏特征向量转换为密集特征矩阵：

其中表示第一嵌入层2的输出，是一个矩阵权重参数，运算符·表示选取一个矩阵里面索引对应的元素，x_in表示输入的稀疏特征向量；F表示特征维度大小，K表示嵌入向量的维度大小，FS表示整个样本中特征值个数的大小。

第二嵌入层3：用于将输入层1输出的特征空间中的稀疏特征向量转化为一个密集特征向量，其包含比较少的信息，用于后续提取线性特征；

第二嵌入层3是采用如下公式将接收到的特征空间中的稀疏特征向量转化为一个密集特征向量：

其中表示第一嵌入层2的输出，是一个向量权重参数，运算符表示选取一个向量里面索引对应的元素；F表示特征维度大小，FS表示整个样本中特征值个数的大小。

通俗来说，和分别表示对原始特征空间的稀疏数据x_in的密集特征向量表示和密集特征矩阵表示。在交互神经网络中，被用来在非线性交互池化层中学习高阶的非线性特征交互，而被用于输入到线性模型中去学习线性特征。

如图2所示，非线性交互池化层4：是一个基于短连接的分级特征提取器，用于从第一嵌入层2输出的密集特征矩阵中提取出非线性的低阶特征交互；

所述的非线性交互池化层4包括有：分别接收第一嵌入层2输出的密集特征矩阵的第一列合单元4.1和第二哈达玛积单元4.4，其中，所述的第一列合单元4.1将密集特征矩阵转化为密集特征向量后经第一哈达玛积单元4.2分解后，再与第一列合单元4.1输出的密集特征向量经第一加法器4.3相加得到密集特征向量，所述的第二哈达玛积单元4.4将密集特征矩阵分解，再与第一嵌入层2输出的密集特征矩阵经第二加法器4.5相加后，经第二列合单元4.6转化为密集特征向量，第二列合单元4.6输出的密集特征向量与第一加法器4.3输出的密集特征向量经减法器4.7相减后构成非线性交互池化层4的输出。

所述的非线性交互池化层4的计算公式为：

令[M_rc]_n×m表示一个n×m的矩阵，其中，表示M_rc矩阵[M_rc]_n×m的第r行第c列的元素。

将式(3)依次简化为：

由公式(4)可以看出，非线性交互池化层实际上是通过建模嵌入矩阵的每两行来学习特征之间的隐含依赖关系，但是，由公式(3)可以看出，本发明的计算复杂度较低。

从上面可以看出，非线性交互池化层中的每一个操作符都具有实际的意义，其可以学习特征之间的低阶特征交互，同时它的计算复杂度为O(n)，同时还可以通过一般的优化器去更新权重参数。

在非线性交互池化层4的计算结果加入有用于调整每一层隐藏层分布的批标准化和可以随机选择若干个神经元参与每次迭代的Dropout正则化，具体公式如下：

批标准化：一种神经网络中的加速技术，它可以在训练过程中调整每一层隐藏层的分布。为了避免“Internal Covariate Shift”现象，本发明在非线性交互池化层中引入批标准化技术，并通过实验结果表明批标准化可以加速非线性交互池化层，同时可以使得特征之间的隐含特征交互关系更好地被提取。

Dropout正则化：一种神经网络中防止过拟合的正则化策略，它可以随机选择若干个神经元参与每次迭代。当神经网络前向传播时，每个神经元以概率p的可能性不参与此次迭代过程。由于它不依赖于局部特征，这可以提高模型的泛化能力。在交互神经网络中，本发明在非线性交互池化层中引入Dropout正则化技术来防止过拟合。更重要的是，由于每次迭代过程中随机选择若干特征，我们可以挖掘更多不同的有意义的特征。

如图3所示，层损失神经网络5：是一种基于层层提取特征的前馈神经网络，用于将非线性交互池化层4输出的低阶交互特征变为高阶特征交互输出；

所述的层损失神经网络5是由依次串联的L组结构相同的隐藏层5.21、5.22、...5.2l....5.2L构成，每一组隐藏层5.2l的输出均连接目标单元5.1的输入端，所述目标单元5.1的输出端连接结合层7，每一组层损失层均是由线性变换层a、非线性单元b和层线性模型c依次串联构成。

所述的层损失神经网络5是一种前馈神经网络，它可以自动学习特征之间的高阶特征交互和非线性特征。显然，从图3中可以看出，线性模型对建模每一层隐藏层和目标任务的关系起着重要的作用。通过获取每一层隐藏层的特征，它可以构造出更多重要的特征。同时，交互将每一层隐藏层的损失增加到最终的损失函数当中。

全连接神经网络的目标是抽取对目标有意义的交互特征，特征在隐藏层中逐层传递，随着层数的增加，隐藏层中代表的特征信息越来越有意义。所述的层损失神经网络(5)的计算公式：

其中，L表示隐藏层的层数，h_l表示第l层隐藏层的输出，w_l和b_l分别表示连接矩阵和偏置向量；x_{non_in_drop}表示非线性交互池化层经过Dropout的输出；非线性单元由批标准化、激活函数和Dropout正则化构成，其中，激活函数表示上一层和当前层的函数关系，在每一层隐藏层后面设置一个激活函数，用于提高整体的预测能力；层线性模型c的表达式为：

其中，h_l表示第l层隐藏层的输出，表示第i条样本的预测值，w_ll和b_ll分别表示权重参数和偏置向量。与普通的神经网络相比，它可以从隐藏层中学习到更多有意义的特征交互。

在本发明中，我们应用了不同的激活函数(Sigmoid，Tanh，ReLU)，并且通过实验验证在不同数据集下，不同激活函数对学习特征交互的影响，对模型预测能力的影响。

同时，本发明将批标准化和Dropout正则化技术也应用于层损失神经网络中，去学习非线性的更高阶的特征交互，同时还可以防止过拟合。

线性模型6：用于从第二嵌入层3输出的密集特征向量中提取出线性特征；

所述的线性模型6，具体公式为：

其中，表示第一嵌入层(2)的输出，w_wide和b_wide分别表示该线性模型的权重参数和偏置参数，x_wide表示线性模型(6)的输出。

结合层7：用于将层损失神经网络5输出的高阶特征交互和线性模型6输出的线性特征进行融合，得到最终的预测值；

所述的结合层7计算公式如下：

其中，表示第i条样本的预测值，h_L表示第L层隐藏层的输出，x_wide表示线性模型6的输出，b_total表示偏置参数。

本发明应用均方误差作为模型的损失函数，同时还包括层损失神经网络中每一层隐藏层中相对于的损失，计算如下：

式中，表示最小化损失函数，表示第i条样本的预测值，y_i为第i条样本的真实值，D表示输入空间，L表示层损失神经网络的层数，l表示第l层隐藏层，h_l表示第l隐藏层的输出。通过最小化损失函数可求解模型参数。

Claims

1.一种基于短连接的挖掘特征之间隐含关系的神经网络，包括有输入层(1)，设定有输入空间D＝{(x₁,y₁),...,(x_i,y_i),...,(x_num,y_num)}，其中i表示第i条样本，x_i为特征向量，y_i为预测目标，num表示样本个数，所述的输入层(1)用于将输入空间中的特征向量x_i经过独热编码后，转化为稀疏的特征向量作为任务的特征空间；其特征在于，还设置有：

第一嵌入层(2)：用于将输入层(1)输出的特征空间中的稀疏特征向量转化为一个密集特征矩阵，用于后续提取非线性的低阶特征交互；

第二嵌入层(3)：用于将输入层(1)输出的特征空间中的稀疏特征向量转化为一个密集特征向量，用于后续提取线性特征；

非线性交互池化层(4)：是一个基于短连接的分级特征提取器，用于从第一嵌入层(2)输出的密集特征矩阵中提取出非线性的低阶特征交互；

层损失神经网络(5)：是一种基于层层提取特征的前馈神经网络，用于将非线性交互池化层(4)输出的低阶交互特征变为高阶特征交互输出；

线性模型(6)：用于从第二嵌入层(3)输出的密集特征向量中提取出线性特征；

结合层(7)：用于将层损失神经网络(5)输出的高阶特征交互和线性模型(6)输出的线性特征进行融合，得到最终的预测值；

2.根据权利要求1所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，第一嵌入层(2)是采用如下公式将接收到的特征空间中的稀疏特征向量转换为密集特征矩阵：

其中表示第一嵌入层(2)的输出，是一个矩阵权重参数，运算符·表示选取一个矩阵里面索引对应的元素；F表示特征维度大小，K表示嵌入向量的维度大小，FS表示整个样本中特征值个数的大小。

3.根据权利要求1所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，第二嵌入层(3)是采用如下公式将接收到的特征空间中的稀疏特征向量转化为一个密集特征向量：

其中表示第一嵌入层(2)的输出，是一个向量权重参数，运算符表示选取一个向量里面索引对应的元素；F表示特征维度大小，FS表示整个样本中特征值个数的大小。

4.根据权利要求1所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，所述的非线性交互池化层(4)包括有：分别接收第一嵌入层(2)输出的密集特征矩阵的第一列合单元(4.1)和第二哈达玛积单元(4.4)，其中，所述的第一列合单元(4.1)将密集特征矩阵转化为密集特征向量后经第一哈达玛积单元(4.2)分解后，再与第一列合单元(4.1)输出的密集特征向量经第一加法器(4.3)相加得到密集特征向量，所述的第二哈达玛积单元(4.4)将密集特征矩阵分解，再与第一嵌入层(2)输出的密集特征矩阵经第二加法器(4.5)相加后，经第二列合单元(4.6)转化为密集特征向量，第二列合单元(4.6)输出的密集特征向量与第一加法器(4.3)输出的密集特征向量经减法器(4.7)相减后构成非线性交互池化层(4)的输出。

5.根据权利要求4所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，所述的非线性交互池化层(4)的计算公式为：

令[M_rc]_n×m表示一个n×m的矩阵，其中，表示M_rc矩阵[M_rc]_n×m的第r行第c列的元素；

将非线性交互池化层(4)的计算公式依次简化为：

6.根据权利要求5所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，在非线性交互池化层(4)的计算结果加入有用于调整每一层隐藏层分布的批标准化和可以随机选择若干个神经元参与每次迭代的Dropout正则化，具体公式如下：

r∝Bernoulli(p)

x_{non_in_drop}＝w·r·x_{non_in}+b

7.根据权利要求1所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，所述的层损失神经网络(5)是由依次串联的L组结构相同的隐藏层(5.21、5.22、...5.2l....5.2L)构成，每一组隐藏层(5.2l)均的输出均连接目标单元(5.1)的输入端，所述目标单元(5.1)的输出端连接结合层(7)，每一组层损失层均是由线性变换层(a)、非线性单元(b)和层线性模型(c)依次串联构成。

8.根据权利要求7所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，所述层损失神经网络(5)的计算公式：

h₁＝bad(w₁×x_{non_in_drop}+b₁)

......

h_l＝bad(w_l×h_l-1+b_l)

......

h_L＝bad(w_L×h_L-1+b_L)

9.根据权利要求1所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，所述的线性模型(6)，具体公式为：

10.根据权利要求1所述的一种基于短连接的挖掘特征之间隐含关系的神经网络，其特征在于，所述的结合层(7)计算公式如下：

其中，表示第i条样本的预测值，h_L表示第L层隐藏层的输出，x_wide表示线性模型(6)的输出，b_total表示偏置参数。