CN105224984B

CN105224984B - 一种基于深度神经网络的数据类别识别方法及装置

Info

Publication number: CN105224984B
Application number: CN201410242182.3A
Authority: CN
Inventors: 田光见; 何诚; 范伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2014-05-31
Filing date: 2014-05-31
Publication date: 2018-03-13
Anticipated expiration: 2034-05-31
Also published as: US20160071010A1; WO2015180397A1; US10296827B2; CN105224984A

Abstract

本发明公开了一种基于深度神经网络的数据类别识别方法及装置，用以解决目前通过深度神经网络进行数据识别时，存在无法识别数据的类别信息的问题。本发明实施例中，在本地建立添加数据类别信息的深度神经网络，将待识别数据输入基于上述数据类别信息生成的深度神经网络的输入层中，获取该深度神经网络的输出层输出的待识别数据所属的类别信息。采用本发明技术方案，基于数据的类别信息建立深度神经网络，通过该深度神经网络，方便快捷地获得待识别数据的类别信息，从而实现了深度神经网络的类别识别功能，便于根据待识别数据的类别信息挖掘待识别数据的深层规律。

Description

一种基于深度神经网络的数据类别识别方法及装置

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于深度神经网络的数据类别识别方法及装置。

背景技术

随着计算机技术的飞速发展，计算机的功能越来越强大，应用领域也越来越广泛。深度学习是机器学习过程中的一个新领域，目的在于建立以及模拟人脑进行分析学习的神经网络，通过该神经网络来识别数据所属的类别。

在深度学习中，“深度”主要是针对计算机数据处理能力较低时代的浅层神经网络学习而言，表示神经网络层数较多，且每一层神经元的数目较为庞大；“学习”即为通过训练令计算机等机器识别样本数据的特征，如图像信息，文本信息等。由此可见，深度学习使用神经网络从原始数据中提取数据的特征，而这些目前不可解释的特征往往使得分类效果更好。

目前，在对深度神经网络进行训练的过程中，每一层均采用无监督自编码器模型，采用无监督自编码器模型训练深度神经网络，能够最小化重建误差。但是，由于无监督自编码器模型中并没有样本数据的类别信息，导致最终得到的深度神经网络无法获取输入的样本数据分别对应的类别信息。

由此可见，目前通过深度神经网络进行数据识别时，存在无法识别数据的类别信息的问题。

发明内容

本发明实施例提供一种基于深度神经网络的数据类别识别方法及装置，用以解决目前通过深度神经网络进行数据识别时，存在无法识别数据的类别信息的问题。

本发明实施例提供的具体技术方案如下：

第一方面，提供一种基于深度神经网络的数据类别识别方法，包括：

建立初始深度神经网络；

根据输入的训练样本向量集合，在本地保存的初始线性类别分析函数中添加数据类别信息后，生成线性类别分析函数；

根据本地保存的无监督自编码模型优化函数，以及所述线性类别分析函数，获取所述初始深度神经网络的优化函数；

根据所述初始深度神经网络的优化函数，获取所述初始深度神经网络的参数；

根据本地保存的分类神经网络，所述初始深度神经网络，以及所述初始深度神经网络的参数，建立深度神经网络；其中，所述深度神经网络为至少包含输入层和输出层的多层网络结构；

将待识别数据输入所述深度神经网络的输入层，获取所述深度神经网络的输出层输出的所述待识别数据所属的类别信息。

结合第一方面，在第一种可能的实现方式中，对所述初始线性类别分析函数采用松弛算法进行松弛化处理，以及对所述输入的训练样本向量集合进行归一化处理；将归一化处理后的训练样本向量集合代入松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。

结合第一方面第一种可能的实现方式，在第二种可能的实现方式中，所述线性类别分析函数为：其中，ζ_lda(W)为所述线性类别分析函数；W为深度神经网络的参数，且所述W为包含多个元素的矩阵，所述矩阵由对所述归一化处理后的训练样本向量集合的学习获得；w_k为所述矩阵W中的任意一列向量；w^T _k为所述列向量w_k的转置；x_i和x_j均为所述归一化处理后的训练样本向量集合中的训练样本向量；x_j ^T为x_j的转置；M为由至少一对属于不同类别的训练样本向量组成的向量对集合；C为由至少一对属于相同类别的训练样本向量组成的向量对集合；(x_i,x_j)∈M表示x_i和x_j属于不同类别；(x_i,x_j)∈C表示x_i和x_j属于相同类别；K为所述矩阵W包含的列向量的总数。

结合第一方面，第一方面第一种可能的实现方式，或者第一方面第二种可能的实现方式，在第三种可能的实现方式中，所述初始深度神经网络的优化函数为：ζ＝αζ_ae(W)+(1-α)ζ_lda(W)，其中，α为所述初始深度神经网络的优化函数的系数，根据具体应用场景预先设置获取；ζ_ae(W)为无监督自编码模型优化函数；ζ_lda(W)为所述线性类别分析函数；ζ为初始深度神经网络的优化函数。

结合第一方面，第一方面第一种可能的实现方式，第一方面第二种可能的实现方式，或者第一方面第三种可能的实现方式，在第四种可能的实现方式中，根据所述初始深度神经网络的优化函数，采用后向传播算法，获取所述初始深度神经网络的优化函数对应的梯度；根据所述初始深度神经网络的优化函数对应的梯度，采用梯度下降算法或者拟牛顿算法，获取所述初始深度神经网络的参数。

结合第一方面，第一方面第一种可能的实现方式，第一方面第二种可能的实现方式，第一方面第三种可能的实现方式，或者第一方面第四种可能的实现方式，在第五种可能的实现方式中，将所述分类神经网络叠加到所述初始深度神经网络上，生成叠加处理后的初始深度神经网络；根据所述初始深度神经网络的参数，以及所述叠加处理后的初始深度神经网络，采用后向传播算法，建立所述深度神经网络。

第二方面，提供一种基于深度神经网络的数据类别识别装置，包括：

第一建立单元，用于建立初始深度神经网络；

生成单元，用于根据输入的训练样本向量集合，在本地保存的初始线性类别分析函数中添加数据类别信息后，生成线性类别分析函数；

优化函数获取单元，用于根据本地保存的无监督自编码模型优化函数，以及所述线性类别分析函数，获取所述初始深度神经网络的优化函数；

参数获取单元，用于根据所述初始深度神经网络的优化函数，获取所述初始深度神经网络的参数；

第二建立单元，用于根据本地保存的分类神经网络，所述初始深度神经网络，以及所述初始深度神经网络的参数，建立深度神经网络；其中，所述深度神经网络为至少包含输入层和输出层的多层网络结构；

数据类别识别单元，用于将待识别数据输入所述深度神经网络的输入层，获取所述深度神经网络的输出层输出的所述待识别数据所属的类别信息。

结合第二方面，在第一种可能的实现方式中，所述生成单元，具体用于：对所述初始线性类别分析函数采用松弛算法进行松弛化处理，以及对所述输入的训练样本向量集合进行归一化处理；将归一化处理后的训练样本向量集合代入松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。

结合第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述生成单元生成的所述线性类别分析函数为：其中，ζ_lda(W)为所述线性类别分析函数；W为深度神经网络的参数，且所述W为包含多个元素的矩阵，所述矩阵由对所述归一化处理后的训练样本向量集合的学习获得；w_k为所述矩阵W中的任意一列向量；w^T _k为所述列向量w_k的转置；x_i和x_j均为所述归一化处理后的训练样本向量集合中的训练样本向量；x_j ^T为x_j的转置；M为由至少一对属于不同类别的训练样本向量组成的向量对集合；C为由至少一对属于相同类别的训练样本向量组成的向量对集合；(x_i,x_j)∈M表示x_i和x_j属于不同类别；(x_i,x_j)∈C表示x_i和x_j属于相同类别；K为所述矩阵W包含的列向量的总数。

结合第二方面，第二方面第一种可能的实现方式，或者第二方面第二种可能的实现方式，在第三种可能的实现方式中，所述优化函数获取单元获取的所述初始深度神经网络的优化函数为：ζ＝αζ_ae(W)+(1-α)ζ_lda(W)，其中，α为所述初始深度神经网络的优化函数的系数，根据具体应用场景预先设置获取；ζ_ae(W)为无监督自编码模型优化函数；ζ_lda(W)为所述线性类别分析函数；ζ为初始深度神经网络的优化函数。

结合第二方面，第二方面第一种可能的实现方式，第二方面第二种可能的实现方式，或者第二方面第三种可能的实现方式，在第四种可能的实现方式中，所述参数获取单元，具体用于：根据所述初始深度神经网络的优化函数，采用后向传播算法，获取所述初始深度神经网络的优化函数对应的梯度；根据所述初始深度神经网络的优化函数对应的梯度，采用梯度下降算法或者拟牛顿算法，获取所述初始深度神经网络的参数。

结合第二方面，第二方面第一种可能的实现方式，第二方面第二种可能的实现方式，第二方面第三种可能的实现方式，或者第二方面第四种可能的实现方式，在第五种可能的实现方式中，所述第二建立单元，具体用于：将所述分类神经网络叠加到所述初始深度神经网络上，生成叠加处理后的初始深度神经网络；根据所述初始深度神经网络的参数，以及所述叠加处理后的初始深度神经网络，采用后向传播算法，建立所述深度神经网络。

本发明实施例中，在本地建立添加数据类别信息的深度神经网络，将待识别数据输入基于上述数据类别信息生成的深度神经网络的输入层中，获取该深度神经网络的输出层输出的待识别数据所属的类别信息。采用本发明技术方案，基于数据的类别信息建立深度神经网络，通过该深度神经网络，方便快捷地获得待识别数据的类别信息，从而实现了深度神经网络的类别识别功能，便于根据待识别数据的类别信息挖掘待识别数据的深层规律。

附图说明

图1为本发明实施例中深度神经网络建立流程图；

图2为本发明实施例中基于深度神经网络进行数据类别识别流程图；

图3为本发明实施例中深度神经网络结构示意图；

图4为本发明实施例中基于深度神经网络的数据类别识别装置结构示意图；

图5为本发明实施例中基于深度神经网络的数据类别识别设备结构示意图。

具体实施方式

为了解决目前通过深度神经网络进行数据识别时，存在无法识别数据的类别信息的问题。本发明实施例中，在本地建立添加数据类别信息的深度神经网络，将待识别数据输入基于上述数据类别信息生成的深度神经网络的输入层中，获取该深度神经网络的输出层输出的待识别数据所属的类别信息。采用本发明技术方案，基于数据的类别信息建立深度神经网络，通过该深度神经网络，方便快捷地获得待识别数据的类别信息，从而实现了深度神经网络的类别识别功能，便于根据待识别数据的类别信息挖掘待识别数据的深层规律。

下面结合说明书附图对本发明实施例作进一步详细描述。

在对待识别数据进行类别识别之前，需要在本地建立深度神经网络。参阅图1所示，建立深度神经网络的过程为：

步骤100：建立初始深度神经网络。

步骤110：根据输入的训练样本向量集合，在本地保存的初始线性类别分析函数中添加数据类别信息后，生成线性类别分析函数。

本发明实施例中，接收输入的训练样本向量集合(记为X)，每一个训练样本向量集合可以表示为X＝{x₁，x₂，…，x_i，…，x_n}，该训练样本向量集合X中的每一个训练样本向量x_i均表示一个包含多个训练样本数据的向量，且该训练样本向量x_i对应多个维度，例如，上述训练样本向量集合X中的训练样本向量x_i可以表示为：x_i＝{x_i1，x_i2，…，x_id}，d为训练样本向量x_i的维数。上述训练样本向量集合对应的类别信息集合(记为Y)也可以表示为：Y＝{y₁，y₂，…，y_j，…，y_n}，该类别信息集合中的每一个元素均为已知。可选的，上述训练样本集合X中的每一个训练样本向量均拥有自身对应的类别信息，类别信息集合Y中包含的每一个元素(y_j)均表示一种类别信息；训练样本集合X中的每一个训练样本向量对应的类别信息即包含在类别信息集合Y中，如训练样本向量x₁对应的类别信息即为元素y₁，训练样本向量x₂对应的类别信息即为元素y₂，以此类推，训练样本向量x_n对应的类别信息即为元素y_n。

可选的，对输入的训练样本向量集合X中的训练样本向量进行归一化处理，使所有训练样本向量中的训练样本数据的值均小于等于一且大于等于零。采用上述技术方案，将训练样本向量集合中的训练样本数据进行归一化处理，使训练样本向量集合中的每一个训练样本数据均在预设范围内，从而避免了后期在对深度神经网络建立过程中，存在数量量纲不一致的问题，保证了建立的深度神经网络的准确性。

可选的，获取本地保存的初始线性类别分析函数，该初始线性类别分析函数可以用如下公式表示：

其中，为初始线性类别分析函数；W′为初始线性类别分析函数对应的矩阵；w_k′为上述矩阵W中的任意一列向量；w_k′ ^T为上述w_k′的转置；ν^(k)为第k类训练样本向量的均值；ν为所有训练样本向量的均值；N_k为第k类训练样本向量的个数；c为训练样本向量对应的类别数目；为第_k类的一个训练样本向量；(v^(k)-v)^T为(v^(k)-v)的转置；为的转置。

可选的，对上述初始线性类别分析函数进行松弛化处理，即在保证数据分类结果精确度的情况下，放松经典的初始线性类别分析函数中的限制条件；并将归一化处理后的训练样本向量集合代入上述松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。该生成的线性类别分析函数可以采用如下公式表示：

其中，ζ_lda(W)为线性类别分析函数；W为深度神经网络对应的矩阵，即为深度神经网络的参数，由对归一化处理后的训练样本向量集合的学习获得；w_k为上述矩阵W中的任意一列向量，由对归一化处理后的训练样本向量集合的学习获得；w^T _k为列向量w_k的转置，由对归一化处理后的训练样本向量集合的学习获得；x_i、x_j、x_i＇和x_j＇均为上述归一化处理后的训练样本向量集合X中的样本向量；x_j ^T为x_j的转置，x_j＇^T为x_j＇的转置；M为由至少一对属于不同类别的训练样本向量组成的向量对集合，该集合M中包含的所有训练样本向量对均属于同一个类别，例如，M可以表示为{(x₁，x₂)，…，(x_n-1，x_n)}，x₁和x₂同属于同一个类别，x_n-1和x_n同属于同一个类别；C为由至少一对属于相同类别的训练样本向量组成的向量对集合，该集合C中包含的所有训练样本向量对均属于不同类别；(x_i,x_j)∈M表示x_i和x_j属于不同类别，即x_i对应的类别信息y_i，与x_j对应的类别信息y_j不同；(x_i′,x_j′)∈C示x_i＇和x_j＇属于相同类别，即x_i＇对应的类别信息y_i，与x_j＇对应的类别信息y_j相同；K为矩阵W中包含的列向量w_k的数目，由对训练样本向量集合的学习获得。

采用上述技术方案，由于训练样本向量集合对应的类别信息为已知，即训练样本对应的类别信息集合Y为已知，因此，在公示二中，(x_i′,x_j′)∈C和(x_i,x_j)∈M均需要应用到训练样本向量所属类别信息即表示从类别信息集合Y中获取训练向量对应的类别信息，并分别判断训练向量是否属于相同类别，由此可见，在生成的线性类别分析函数中包含数据类别信息，从而使生成的深度神经网络能够识别待识别数据所属的类别信息。

上述对线性类别分析函数的计算中，仅采用训练样本向量集合X中的部分训练样本向量(如x₁，x₂)即可，无须采用所有训练样本向量计算获得，且上述由训练样本向量集合X中选取哪些训练样本向量作为部分训练样本向量可以根据具体情况预先配置。

采用上述技术方案，对本地保存的初始线性类别分析函数进行松弛化处理，模糊深度神经网络建立过程中的函数对应的限制条件，避免了现有技术中初始线性类别分析函数存在的计算量大的问题，在保证建立的深度神经网络识别数据类别的准确度的基础上，有效降低了计算复杂度。

步骤120：根据本地保存的无监督自编码模型优化函数，以及上述线性类别分析函数，获取上述初始深度神经网络的优化函数。

本发明实施例中，本地保存的无监督自编码模型优化函数采用如下公式表示：

其中，ζ_ae(W)为无监督自编码模型优化函数；W为深度神经网络的参数，且该参数为包含多个元素的矩阵，由对归一化处理后的训练样本向量集合的学习获得；x_i为归一化处理后的训练样本向量集合中的训练样本向量；为对归一化处理后的训练样本向量集合进行重建后获取的重建训练样本向量集合中的训练样本向量；n为归一化处理后的训练样本向量集合中包含的训练样本向量数目。

可选的，上述可以采用如下两个公式中的任意一种表示：

其中，x_i为归一化处理后的训练样本向量集合中的训练样本向量；为对归一化处理后的训练样本向量集合进行重建后获取的重建训练样本向量集合中的训练样本向量；表示x_i与之间的欧氏距离。

可选的，上述公式三至公式五中的可以用如下公式表示：

其中，S_g和S_f均为激励函数，且S_g和S_f均为sigmoid函数或者tanh(双曲正切)函数；b和c为偏移向量，该值通过对训练样本集合X的学习获得，或者，将b和c均设置为0；W^T为矩阵W的转置。

可选的，将线性类别分析函数集成到上述无监督自编码模型化函数中，生成初始深度神经网络的优化函数。其中，将线性类别分析函数集成到上述无监督自编码模型化函数中，生成的初始深度神经网络的优化函数可以采用如下公式表示：

其中，α为初始深度神经网络的优化函数的系数，根据具体应用场景预先设置获取，α大于等于0且小于等于1；ζ_ae(W)为无监督自编码模型优化函数；ζ_lda(W)为线性类别分析函数；ζ为初始深度神经网络的优化函数。

步骤130：根据上述初始深度神经网络的优化函数，获取初始初始深度神经网络的参数。

本发明实施例中，根据上述获取的初始深度神经网络的优化函数，获取初始深度神经网络的参数的过程，具体为：采用后向传播算法，获取上述初始深度神经网络的优化函数对应的梯度；根据上述初始深度神经网络优化函数的梯度，采用梯度下降算法或者拟牛顿算法，获取上述初始深度神经网络的参数(W，b和c)。

步骤140：根据本地保存的分类神经网络，初始深度神经网络，以及上述初始深度神经网络的参数，建立深度神经网络。

本发明实施例中，将本地保存的分类神经网络叠加到上述初始深度神经网络上；根据叠加处理后的初始深度神经网络，采用后向传播算法，建立深度神经网络。其中，该深度神经网络为至少包含输入层和输出层的多层网络结构；并且，上述深度神经网络的参数基于上述初始深度神经网络的参数；上述分类神经网络为多层感知器模型或者逻辑回归模型。

可选的，将本地保存的分类神经网络叠加到上述初始深度神经网络上的过程，具体为：采用后向传播算法，对公式七表示的初始深度神经网络进行优化处理，得到一层神经网络的参数，计算S(Wx_i+b)的结果，并将该计算结果作为下一层神经网络的输入，其中，S为sigmoid函数或者tanh(双曲正切)函数；重复上述过程L次，即可建立一个包含L层的神经网络的深度神经网络。

可选的，生成的深度神经网络对应的函数可以通过如下公式表示：

κ＝S{W_LS[W_L-1S(W₂S(W₁x_i))]} 公式八

其中，κ为深度神经网络对应的函数；W₁、W₂、L、W_L为深度神经网络中不同层级神经网络的参数，其的初始值根据上述对训练样本集合中的学习获取。针对上述对应初始值的W₁、W₂、L、W_L，采用后向传播算法，对W₁,W₂,…,W_L进一步迭代优化，得到最后的深度神经网络。

参阅图2所示，本发明实施例中，基于深度神经网络进行数据类别识别流程为：

步骤200：接收输入的待识别数据。

本发明实施例中，接收用户输入的待识别数据，或者，接收其他设备发送的待识别数据；其中，接收待识别数据的设备为包含数据处理能力的设备，以下以计算机对上述待识别数据进行处理为例进行详细介绍。

步骤210：将待识别数据输入深度神经网络的输入层，获取该深度神经网络的输出层输出的待识别数据所属的类别信息。

本发明实施例中，当计算机接收到上述待识别数据时，即将待识别数据输入本地保存的深度神经网络，通过该深度神经网络获取待识别数据的类别信息。其中，参阅图3所示，上述深度神经网络为至少包含输入层和输出层的多层网络结构，输入层用于接收原始待识别数据，输出层用于将识别出的类别信息输出，而输入层和输出层之间包含至少一个隐藏层，用于对上述待识别数据进行处理。

基于上述已经建立的深度神经网络，获取待识别数据所属的类别信息。

采用上述技术方案，在深度神经网络中集成了数据类别信息，克服了现有技术中原始模型只优化最小重建误差而不考虑样本类别分布特点的缺点，实现了深度神经网络对待识别数据所属类别信息的识别过程。

基于上述技术方案，参阅图4所示，本发明实施例还提供一种基于深度神经网络的数据类别识别装置，包括第一建立单元40，生成单元41，优化函数获取单元42，参数获取单元43，第二建立单元44，数据类别识别单元45，其中：

第一建立单元40，用于建立初始深度神经网络；

生成单元41，用于根据输入的训练样本向量集合，在本地保存的初始线性类别分析函数中添加数据类别信息后，生成线性类别分析函数；

优化函数获取单元42，用于根据本地保存的无监督自编码模型优化函数，以及所述线性类别分析函数，获取所述初始深度神经网络的优化函数；

参数获取单元43，用于根据所述初始深度神经网络的优化函数，获取所述初始深度神经网络的参数；

第二建立单元44，用于根据本地保存的分类神经网络，所述初始深度神经网络，以及所述初始深度神经网络的参数，建立深度神经网络；其中，所述深度神经网络为至少包含输入层和输出层的多层网络结构；

数据类别识别单元45，用于将待识别数据输入所述深度神经网络的输入层，获取所述深度神经网络的输出层输出的所述待识别数据所属的类别信息。

所述生成单元41，具体用于：对所述初始线性类别分析函数采用松弛算法进行松弛化处理，以及对所述输入的训练样本向量集合进行归一化处理；将归一化处理后的训练样本向量集合代入松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。

所述生成单元41生成的所述线性类别分析函数为：其中，ζ_lda(W)为所述线性类别分析函数；W为深度神经网络的参数，且所述W为包含多个元素的矩阵，所述矩阵由对所述归一化处理后的训练样本向量集合的学习获得；w_k为所述矩阵W中的任意一列向量；w^T _k为所述列向量w_k的转置；x_i和x_j均为所述归一化处理后的训练样本向量集合中的训练样本向量；x_j ^T为x_j的转置；M为由至少一对属于不同类别的训练样本向量组成的向量对集合；C为由至少一对属于相同类别的训练样本向量组成的向量对集合；(x_i,x_j)∈M表示x_i和x_j属于不同类别；(x_i,x_j)∈C表示x_i和x_j属于相同类别；K为所述矩阵W包含的列向量的总数。

采用上述技术方案，由于训练样本向量集合对应的类别信息为已知，即训练样本对应的类别信息集合Y为已知，因此，在生成线性类别分析函数时，初始线性类别分析函数公式中的(x_i,x_j)∈C和(x_i,x_j)∈M均需要应用到训练样本向量所属类别信息即表示从类别信息集合Y中获取训练向量x_i对应的y_i，以及训练向量x_j对应的y_j，并分别判断x_i和x_j是否属于相同类别，由此可见，在生成的线性类别分析函数中包含数据类别信息，从而使生成的深度神经网络能够识别待识别数据所属的类别信息。

所述优化函数获取单元42获取的所述初始深度神经网络的优化函数为：ζ＝αζ_ae(W)+(1-α)ζ_lda(W)，其中，α为所述初始深度神经网络的优化函数的系数，根据具体应用场景预先设置获取；ζ_ae(W)为无监督自编码模型优化函数；ζ_lda(W)为所述线性类别分析函数；ζ为初始深度神经网络的优化函数。

所述参数获取单元43，具体用于：根据所述初始深度神经网络的优化函数，采用后向传播算法，获取所述初始深度神经网络的优化函数对应的梯度；根据所述初始深度神经网络的优化函数对应的梯度，采用梯度下降算法或者拟牛顿算法，获取所述初始深度神经网络的参数。

所述第二建立单元44，具体用于：将所述分类神经网络叠加到所述初始深度神经网络上，生成叠加处理后的初始深度神经网络；根据所述初始深度神经网络的参数，以及所述叠加处理后的初始深度神经网络，采用后向传播算法，建立所述深度神经网络。

采用上述技术方案，基于数据的类别信息建立深度神经网络，从而实现了深度神经网络的类别识别功能，便于根据待识别数据的类别信息挖掘待识别数据的深层规律。

基于上述技术方案，参阅图5所示，本发明实施例还提供一种基于深度神经网络的数据类别识别设备，包括处理器50，以及收发器51，其中：

处理器50，用于建立初始深度神经网络；

处理器50，还用于根据输入的训练样本向量集合，在本地保存的初始线性类别分析函数中添加数据类别信息后，生成线性类别分析函数；

处理器50，还用于根据本地保存的无监督自编码模型优化函数，以及所述线性类别分析函数，获取所述初始深度神经网络的优化函数；

处理器50，还用于根据所述初始深度神经网络的优化函数，获取所述初始深度神经网络的参数；

处理器50，还用于根据本地保存的分类神经网络，所述初始深度神经网络，以及所述初始深度神经网络的参数，建立深度神经网络；其中，所述深度神经网络为至少包含输入层和输出层的多层网络结构；

收发器51，用于接收输入的待识别数据；

处理器50，还用于将待识别数据输入所述深度神经网络的输入层，获取所述深度神经网络的输出层输出的所述待识别数据所属的类别信息。

可选的，处理器50，具体用于：对所述初始线性类别分析函数采用松弛算法进行松弛化处理，以及对所述输入的训练样本向量集合进行归一化处理；将归一化处理后的训练样本向量集合代入松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。

可选的，处理器50，具体用于：生成的所述线性类别分析函数为，其中，ζ_lda(W)为所述线性类别分析函数；W为深度神经网络的参数，且所述W为包含多个元素的矩阵，所述矩阵由对所述归一化处理后的训练样本向量集合的学习获得；w_k为所述矩阵W中的任意一列向量；w^T _k为所述列向量w_k的转置；x_i和x_j均为所述归一化处理后的训练样本向量集合中的训练样本向量；x_j ^T为x_j的转置；M为由至少一对属于不同类别的训练样本向量组成的向量对集合；C为由至少一对属于相同类别的训练样本向量组成的向量对集合；(x_i,x_j)∈M表示x_i和x_j属于不同类别；(x_i,x_j)∈C表示x_i和x_j属于相同类别；K为所述矩阵W包含的列向量的总数。

可选的，处理器50，具体用于：获取的所述初始深度神经网络的优化函数为，ζ＝αζ_ae(W)+(1-α)ζ_lda(W)，其中，α为所述初始深度神经网络的优化函数的系数，根据具体应用场景预先设置获取；ζ_ae(W)为无监督自编码模型优化函数；ζ_lda(W)为所述线性类别分析函数；ζ为初始深度神经网络的优化函数。

可选的，处理器50，具体用于：根据所述初始深度神经网络的优化函数，采用后向传播算法，获取所述初始深度神经网络的优化函数对应的梯度；根据所述初始深度神经网络的优化函数对应的梯度，采用梯度下降算法或者拟牛顿算法，获取所述初始深度神经网络的参数。

可选的，处理器50，具体用于：将所述分类神经网络叠加到所述初始深度神经网络上，生成叠加处理后的初始深度神经网络；根据所述初始深度神经网络的参数，以及所述叠加处理后的初始深度神经网络，采用后向传播算法，建立所述深度神经网络。

综上所述，建立初始深度神经网络；根据输入的训练样本向量集合，在本地保存的初始线性分析函数中添加数据类别信息后，生成线性类别分析函数；根据本地保存的无监督自编码模型优化函数，以及上述线性类别分析函数，获取上述初始深度神经网络的优化函数；根据上述初始深度神经网络的优化函数，获取初始初始深度神经网络的参数；根据本地保存的分类神经网络，初始深度神经网络，以及上述初始深度神经网络的参数，建立深度神经网络；将待识别数据输入深度神经网络的输入层，获取该深度神经网络的输出层输出的待识别数据所属的类别信息。采用本发明技术方案，基于数据的类别信息建立深度神经网络，通过该深度神经网络，方便快捷地获得待识别数据的类别信息，从而实现了深度神经网络的类别识别功能，便于根据待识别数据的类别信息挖掘待识别数据的深层规律。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度神经网络的数据类别识别方法，其特征在于，包括：

建立初始深度神经网络；

将待识别数据输入所述深度神经网络的输入层，获取所述深度神经网络的输出层输出的所述待识别数据所属的类别信息；

所述根据本地保存的无监督自编码模型优化函数，以及所述线性类别分析函数，获取所述初始深度神经网络的优化函数为：

ζ＝αζ_ae(W)+(1-α)ζ_lda(W)

其中，α为所述初始深度神经网络的优化函数的系数，根据具体应用场景预先设置获取；ζ_ae(W)为无监督自编码模型优化函数；ζ_lda(W)为所述线性类别分析函数；ζ为初始深度神经网络的优化函数。

2.如权利要求1所述的方法，其特征在于，所述根据输入的训练样本向量集合，在保存的初始线性类别分析函数中添加数据类别信息后，生成线性类别分析函数，具体包括：

对所述初始线性类别分析函数采用松弛算法进行松弛化处理，以及对所述输入的训练样本向量集合进行归一化处理；

将归一化处理后的训练样本向量集合代入松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。

3.如权利要求2所述的方法，其特征在于，所述线性类别分析函数为：

<mrow> <msub> <mi>&zeta;</mi> <mrow> <mi>l</mi> <mi>d</mi> <mi>a</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mo>{</mo> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>M</mi> <mo>)</mo> </mrow> </munder> <msubsup> <mi>w</mi> <mi>k</mi> <mi>T</mi> </msubsup> <msub> <mi>x</mi> <mi>i</mi> </msub> <msubsup> <mi>x</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>-</mo> <munder> <mo>&Sigma;</mo> <mrow> <mo>(</mo> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <mo>,</mo> <msup> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>&prime;</mo> </msup> <mo>&Element;</mo> <mi>C</mi> <mo>)</mo> </mrow> </munder> <msubsup> <mi>w</mi> <mi>k</mi> <mi>T</mi> </msubsup> <msup> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>&prime;</mo> </msup> <msup> <msub> <mi>x</mi> <mi>j</mi> </msub> <mrow> <mo>&prime;</mo> <mi>T</mi> </mrow> </msup> <msub> <mi>w</mi> <mi>k</mi> </msub> <mo>}</mo> </mrow>

其中，ζ_lda(W)为所述线性类别分析函数；W为深度神经网络的参数，且所述W为包含多个元素的矩阵，所述矩阵由对所述归一化处理后的训练样本向量集合的学习获得；w_k为所述矩阵W中的任意一列向量；w^T _k为所述列向量w_k的转置；x_i、x_j、x_i＇和x_j＇均为所述归一化处理后的训练样本向量集合中的训练样本向量；x_j ^T为x_j的转置，x_j＇^T为x_j＇的转置；M为由至少一对属于不同类别的训练样本向量组成的向量对集合；C为由至少一对属于相同类别的训练样本向量组成的向量对集合；(x_i,x_j)∈M表示x_i和x_j属于不同类别；(x_i′,x_j′)∈C表示x_i＇和x_j＇属于相同类别；K为所述矩阵W包含的列向量的总数。

4.如权利要求1至3任一项所述的方法，其特征在于，所述根据所述初始深度神经网络的优化函数，获取所述初始深度神经网络的参数，具体包括：

根据所述初始深度神经网络的优化函数，采用后向传播算法，获取所述初始深度神经网络的优化函数对应的梯度；

根据所述初始深度神经网络的优化函数对应的梯度，采用梯度下降算法或者拟牛顿算法，获取所述初始深度神经网络的参数。

5.如权利要求1所述的方法，其特征在于，所述根据本地保存的分类神经网络，所述初始深度神经网络，以及所述初始深度神经网络的参数，建立深度神经网络，具体包括：

将所述分类神经网络叠加到所述初始深度神经网络上，生成叠加处理后的初始深度神经网络；

根据所述初始深度神经网络的参数，以及所述叠加处理后的初始深度神经网络，采用后向传播算法，建立所述深度神经网络。

6.一种基于深度神经网络的数据类别识别装置，其特征在于，包括：

第一建立单元，用于建立初始深度神经网络；

数据类别识别单元，用于将待识别数据输入所述深度神经网络的输入层，获取所述深度神经网络的输出层输出的所述待识别数据所属的类别信息；

所述优化函数获取单元获取的所述初始深度神经网络的优化函数为：

ζ＝αζ_ae(W)+(1-α)ζ_lda(W)

7.如权利要求6所述的装置，其特征在于，所述生成单元，具体用于：

对所述初始线性类别分析函数采用松弛算法进行松弛化处理，以及对所述输入的训练样本向量集合进行归一化处理；将归一化处理后的训练样本向量集合代入松弛化处理后的初始线性类别分析函数中，生成线性类别分析函数。

8.如权利要求7所述的装置，其特征在于，所述生成单元生成的所述线性类别分析函数为：

9.如权利要求6至8任一项所述的装置，其特征在于，所述参数获取单元，具体用于：

根据所述初始深度神经网络的优化函数，采用后向传播算法，获取所述初始深度神经网络的优化函数对应的梯度；根据所述初始深度神经网络的优化函数对应的梯度，采用梯度下降算法或者拟牛顿算法，获取所述初始深度神经网络的参数。

10.如权利要求6所述的装置，其特征在于，所述第二建立单元，具体用于：

将所述分类神经网络叠加到所述初始深度神经网络上，生成叠加处理后的初始深度神经网络；根据所述初始深度神经网络的参数，以及所述叠加处理后的初始深度神经网络，采用后向传播算法，建立所述深度神经网络。