CN108154222A

CN108154222A - 深度神经网络训练方法和系统、电子设备

Info

Publication number: CN108154222A
Application number: CN201611097445.1A
Authority: CN
Inventors: 石建萍; 赵恒爽
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2018-06-12
Anticipated expiration: 2036-12-02
Also published as: CN108154222B

Abstract

本发明实施例公开了深度神经网络训练方法和系统、电子设备，其中，方法包括：在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得中间网络层输出的第一场景分析预测结果和末个网络层输出的第二场景分析预测结果；确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异、以及第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异；在反向传播过程中，根据第一差异调整第一网络层的参数、并根据第一差异和第二差异调整第二网络层的参数；其中：第一网络层包括中间网络层和末个网络层之间的至少一网络层，第二网络层包括除第一网络层外的其他网络层。本发明实施例可以获得更好的网络模型优化结果。

Description

深度神经网络训练方法和系统、电子设备

技术领域

本发明涉及计算机视觉技术，尤其是一种深度神经网络训练方法和洗头膏、电子设备。

背景技术

对于神经网络，可以明显发现，网络的表达能力和性能随着网络深度的增加而增强。然而，网络并非越深越好。除了计算代价问题，在网络深度较深时，继续增加网络层数并不能提高网络性能，反而可能退化。另外，对于深度很深的神经网络，由于梯度消失等原因，如何训练一个深度很深的神经网络却一直是一个困扰人们的问题。

发明内容

本发明实施例提供一种用于进行深度神经网络训练的技术方案。

根据本发明实施例的一个方面，提供一种神经网络训练方法，包括：

在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果；

确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异、以及所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异；

在反向传播过程中，根据所述第一差异调整第一网络层的参数、并根据所述第一差异和所述第二差异调整第二网络层的参数；其中：所述第一网络层包括所述深度神经网络模型中位于所述中间网络层和所述末个网络层之间的至少一网络层，所述第二网络层包括所述深度神经网络模型中至少一除所述第一网络层之外的其他网络层。

基于上述方法的另一实施例中，所述中间网络层包括所述深度神经网络模型中的多个网络层；不同的中间网络层进行参数调整的网络层不同。

基于上述方法的另一实施例中，所述深度神经网络模型的网络层数量为N，所述中间网络层为所述深度神经网络模型中在前向传播方向上的第M层；其中，N的取值为大于2的整数，M的取值为大于2、且小于N的整数。

基于上述方法的另一实施例中，M的取值大于N/2。

基于上述方法的另一实施例中，根据所述第一差异和所述第二差异调整各第二网络层的参数，包括：

为所述第一差异和所述第二差异确定不同的权重；

根据所述第一差异及其权重、所述第二差异及其权重调整所述第二网络层的参数。

基于上述方法的另一实施例中，所述第一差异的权重小于所述第二差异的权重。

基于上述方法的另一实施例中，所述中间网络层包括辅助分类层；

所述第一场景分析预测结果包括所述辅助分类层输出的对所述样本图像中各像素的场景分类预测结果。

基于上述方法的另一实施例中，所述方法还包括：

对所述深度神经网络模型网络训练完成后，去除所述辅助分类层。

基于上述方法的另一实施例中，确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异，包括：

利用第一分类代价函数层获取所述第一场景分析预测结果和所述场景分析标注信息中对所述样本图像中各像素的场景分类预测结果之间的差异，作为所述第一差异；

对所述深度神经网络模型网络训练完成后，去除所述第一分类代价函数层。

基于上述方法的另一实施例中，所述第二场景分析预测结果包括所述末个网络层输出的对所述样本图像中各像素的场景分类预测结果。

基于上述方法的另一实施例中，确定所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异包括：

利用第二分类代价函数层获取第二场景分析预测结果和所述场景分析标注信息中对所述样本图像中各像素的场景分类预测结果之间的差异，作为所述第二差异。

基于上述方法的另一实施例中，所述方法还包括：

对所述深度神经网络模型网络训练完成后，去除所述第二分类代价函数层。

基于上述方法的另一实施例中，所述第一分类代价函数层包括：回归softmax损失函数、熵函数或者支持向量机SVM代价函数；和/或所述第二分类代价函数层包括：回归softmax损失函数、熵函数或者支持向量机SVM代价函数。

基于上述方法的另一实施例中，所述利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的中间网络层输出的第一场景分析预测结果，包括：

利用所述深度神经网络模型对样本图像进行卷积操作，获得第一特征图，所述第一特征图包括所述样本图像中各像素的特征；

利用所述中间网络层，根据所述第一特征图对所述样本图像进行场景分析检测，获得所述样本图像的第一场景分析预测结果并输出，所述第一场景分析预测结果包括所述样本图像中各像素的类别。

基于上述方法的另一实施例中，所述利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的末个网络层输出的第二场景分析预测结果，包括：

对所述第一特征图进行池化操作，获得至少一个第二特征图，所述至少一个第二特征图的大小小于所述第一特征图；

根据所述第一特征图与所述至少一个第二特征图对所述样本图像进行场景分析检测，获得所述样本图像的第二场景分析预测结果并通过所述末个网络层输出，所述第二场景分析预测结果包括所述样本图像中各像素的类别。

基于上述方法的另一实施例中，所述至少一个第二特征图的数量为多个；

多个第二特征图中不同第二特征图的大小不同所述至少一个第二特征图，所述多个第二特征图中各第二特征图的大小依次递增。

基于上述方法的另一实施例中，对所述第一特征图进行池化操作，获得至少一个第二特征图，包括：

利用所述深度神经网络模型中的第一池化层，分别以多个大小不同的池化窗口分别对所述第一特征图进行下采样，获得多个第二特征图。

基于上述方法的另一实施例中，所述根据所述第一特征图与所述至少一个第二特征图对所述样本图像进行场景分析之前，还包括：

通过所述深度神经网络模型中的卷积层对所述至少一个第二特征图进行降维处理。

基于上述方法的另一实施例中，根据所述第一特征图与所述至少一个第二特征图对所述样本图像进行场景分析之前，还包括：

利用所述深度神经网络模型中的第二池化层分别对所述至少一个第二特征图进行上采样，以将各所述至少一个第二特征图分别放大至所述第一特征图的大小。

基于上述方法的另一实施例中，所述根据所述第一特征图与所述至少一个第二特征图对所述样本图像进行场景分析包括：

利用所述深度神经网络模型中的连接层，将放大后的各第二特征图与所述第一特征图进行连接，获得第三特征图；

利用所述深度神经网络模型中的分类层，通过所述第三特征图，预测所述样本图像中各像素的类别，获得所述样本图像的第二场景分析预测结果。

根据本发明实施例的另一个方面，提供一种深度神经网络训练装置，包括深度神经网络模型和网络训练单元；所述深度神经网络模型包括中间网络层和末个网络层，用于在网络训练的前向传播过程中对样本图像进行场景分析检测，并通过所述深度神经网络模型的中间网络层输出的第一场景分析预测结果，通过所述深度神经网络模型的末个网络层输出第二场景分析预测结果；

所述网络训练单元包括：

获取子单元，用于确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异、以及所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异；

参数调整子单元，用于在反向传播过程中，根据所述第一差异调整第一网络层的参数、并根据所述第一差异和所述第二差异调整第二网络层的参数；其中：所述第一网络层包括所述深度神经网络模型中位于所述中间网络层和所述末个网络层之间的至少一网络层，所述第二网络层包括所述深度神经网络模型中至少一除所述第一网络层之外的其他网络层。

基于上述系统的另一实施例中，所述中间网络层包括所述深度神经网络模型中的多个网络层；不同的中间网络层进行参数调整的网络层不同。

基于上述系统的另一实施例中，所述深度神经网络模型的网络层数量为N，所述中间网络层为所述深度神经网络模型中在前向传播方向上的第M 层；其中，N的取值为大于2的整数，M的取值为大于2、且小于N的整数；和/或

M的取值大于N/2。

基于上述系统的另一实施例中，所述参数调整子单元根据所述第一差异和所述第二差异调整各第二网络层的参数时，具体用于：

为所述第一差异和所述第二差异确定不同的权重；以及

基于上述系统的另一实施例中，所述第一差异的权重小于所述第二差异的权重。

基于上述系统的另一实施例中，所述中间网络层包括辅助分类层，所述辅助分类层在所述深度神经网络模型网络训练完成后被去除；

基于上述系统的另一实施例中，所述获取子单元包括第一分类代价函数层和第二分类代价函数层，所述第一分类代价函数层和第二分类代价函数层在所述深度神经网络模型网络训练完成后被去除；

所述第一分类代价函数层，用于获取所述第一场景分析预测结果和所述场景分析标注信息中对所述样本图像中各像素的场景分类预测结果之间的差异，作为所述第一差异；

所述第二分类代价函数层，用于获取第二场景分析预测结果和所述场景分析标注信息中对所述样本图像中各像素的场景分类预测结果之间的差异，作为所述第二差异；

所述第二场景分析预测结果包括所述末个网络层输出的对所述样本图像中各像素的场景分类预测结果。

基于上述系统的另一实施例中，所述第一分类代价函数层包括：回归softmax损失函数、熵函数或者支持向量机SVM代价函数；和/或所述第二分类代价函数层包括：回归softmax损失函数、熵函数或者支持向量机SVM代价函数。

基于上述系统的另一实施例中，所述利用深度神经网络模型还包括：

特征提取单元，用于对所述样本图像进行卷积操作，获得第一特征图，所述第一特征图包括所述样本图像中各像素的特征；

所述中间网络层，用于根据所述第一特征图对所述样本图像进行场景分析检测，获得所述样本图像的第一场景分析预测结果并输出，所述第一场景分析预测结果包括所述样本图像中各像素的类别。

基于上述系统的另一实施例中，所述深度神经网络模型还包括：

第一池化层，用于对所述第一特征图进行池化操作，获得至少一个第二特征图，所述至少一个第二特征图的大小小于所述第一特征图；

所述末个网络层，用于根据所述第一特征图与所述至少一个第二特征图对所述样本图像进行场景分析检测，获得所述样本图像的第二场景分析预测结果并输出，所述第二场景分析预测结果包括所述样本图像中各像素的类别。

基于上述系统的另一实施例中，所述至少一个第二特征图的数量为多个；

多个第二特征图中不同第二特征图的大小不同，所述多个第二特征图中各第二特征图的大小依次递增。

基于上述系统的另一实施例中，所述第一池化层，具体用于分别以多个大小不同的池化窗口分别对所述第一特征图进行下采样，获得多个第二特征图。

卷积层，用于对所述第一池化层获得的所述至少一个第二特征图进行降维处理。

第二池化层，用于分别对所述至少一个第二特征图进行上采样，以将各所述至少一个第二特征图分别放大至所述第一特征图的大小；

连接层，用于将放大后的各第二特征图与所述第一特征图进行连接，获得第三特征图；

所述末个网络层包括分类层，具体用于通过所述第三特征图，预测所述样本图像中各像素的类别，获得所述样本图像的第二场景分析预测结果。

根据本发明实施例的又一个方面，提供一种基于上述任一深度神经网络训练方法或系统训练获得的深度神经网络。

本发明实施例的又一个方面，提供的一种电子设备，包括：处理器、存储器、通信部和通信总线，所述处理器、所述存储器和所述通信部通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述任一实施例所述的深度神经网络训练方法对应的操作。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令包括：在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果的指令；确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异、以及所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异的指令；在反向传播过程中，根据所述第一差异调整第一网络层的参数、并根据所述第一差异和所述第二差异调整第二网络层的参数的指令；其中：所述第一网络层包括所述深度神经网络模型中位于所述中间网络层和所述末个网络层之间的至少一网络层，所述第二网络层包括所述深度神经网络模型中至少一除所述第一网络层之外的其他网络层。

根据本发明实施例的再一个方面，提供一种计算机设备，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成本发明上述任一实施例的深度神经网络训练方法对应的操作。

基于本发明上述实施例提供的深度神经网络训练方法和系统、电子设备，在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果，确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异、以及第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异，之后，在反向传播过程中，根据第一差异调整第一网络层的参数、并根据第一差异和第二差异调整第二网络层的参数。其中：第一网络层包括深度神经网络模型中位于中间网络层和末个网络层之间的至少一网络层，第二网络层包括深度神经网络模型中至少一除第一网络层之外的其他网络层。

本发明实施例在深度神经网络训练过程中，引入了深度神经网络模型的中间网络层输出的第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异，同时基于该第一差异和末个网络侧层输出的第二场景分析预测结果与样本图像的场景分析标注信息之间的第二差异，联合优化深度神经网络模型中位于该中间网络层和末个网络层之间的至少一网络层的参数，基于上述第二差异来调整深度神经网络模型中至少一除上述第一网络层之外的其他网络层参数，因此该中间网络层及其之前的各网络层可以受到更好的监督，使得深度神经网络模型优化更加彻底，能够获得更好的网络模型优化结果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明深度神经网络训练方法一个实施例的流程图。

图2为本发明深度神经网络训练方法另一个实施例的流程图。

图3为本发明深度神经网络训练方法又一个实施例的流程图。

图4为基于本发明深度神经网络训练方法获得深度神经网络一个应用实施例的流程图。

图5为本发明深度神经网络训练系统一个实施例的结构示意图。

图6为本发明深度神经网络训练系统一个实施例的结构示意图。

图7为本发明深度神经网络一个实施例的结构示意图。

图8为本发明电子设备一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统、服务器、终端设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统、服务器、终端设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本发明的过程中，发明人通过研究发现，深度神经网络模型中存在的一个问题是网络深度过深会导致误差难以向前传递，结构难以得到最佳的优化，使得神经网络的训练仍然呈现了退化(degradation)的现象，即：随着网络深度的增加，网络的性能反而下降，例如，56层的神经网络在训练误差和测试误差上都要比20层的神经网络大。

图1为本发明深度神经网络训练方法一个实施例的流程图。如图1所示，该实施例的深度神经网络训练方法包括：

102，在对深度神经网络模型进行网络训练的前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得该深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果。

其中，深度神经网络模型的网络层数量可以表示为N，N的取值为大于2的整数。实际应用中，深度神经网络模型中的网络层数量N的取值都较高，通常为几十、上百、甚至上千。

本发明各实施例中的样本图像为具有预先通过人工标注的、作为准确的场景分析结果的的图像，其中，人工标注的场景分析结果在本发明各实施例中称为场景分析标注信息，用于衡量深度神经网络模型中相应网络层输出的场景分析预测结果的准确性。

通常，一个深度神经网络模型的网络训练过程通常包括多次迭代训练直至满足预定的训练完成条件，例如，第一差异和/或第二差异满足预设的差异阈值，或者迭代训练的次数达到预设次数阈值。每次迭代训练的过程可以分为两个阶段：前向传播和反向传播。如无相反说明，本发明各实施例中，首个网络层、中间网络层和末个网络层是按照网络训练的前向传播方向对深度神经网络模型中各网络层进行的排序。

104，确定上述第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异(可以表示为loss1)、以及第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异(可以表示为loss2)。

106，在反向传播过程中，根据上述第一差异调整第一网络层的参数、并根据上述第一差异和上述第二差异调整第二网络层的参数。

其中：第一网络层包括深度神经网络模型中位于上述中间网络层和上述末个网络层之间的至少一网络层，第二网络层包括深度神经网络模型中至少一除上述第一网络层之外的其他网络层。

基于本发明上述实施例提供的深度神经网络训练方法，在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果，确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异、以及第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异，之后，在反向传播过程中，根据第一差异调整第一网络层的参数、并根据第一差异和第二差异调整第二网络层的参数。其中：第一网络层包括深度神经网络模型中位于中间网络层和末个网络层之间的至少一网络层，第二网络层包括深度神经网络模型中至少一除第一网络层之外的其他网络层。

在具体应用中，中间网络层具体可以是一个，也可以是多个。可以根据实际需求，仅在深度神经网络模型中设置一个中间网络层，还可以根据进行网络训练的深度神经网络模型的网络层数量N，确定需要的中间网络层的数量L，其中，L的取值为大于0且小于N的整数。中间网络层为多个时，不同的中间网络层进行参数调整的深度神经网络模型中的网络层不同。可以规定，深度神经网络模型的网络层数量N越大，即网络越深，中间网络层的数量越大。中间网络层可以表示为深度神经网络模型中前向传播方向上的第M层，其中，M的取值为大于2、且小于N的整数。

本发明人通过研发发现，如果M值较小，则深度神经网络模型中在该中间网络层前面的网络层较少，由首个网络层到该中间网络层形成的深度神经网络太浅，网络表达能力有限，通过第一差异对该中间网络层和末个网络层之间的至少一网络层进行训练的效果可能不好，从而限制了该第一差异的辅助训练效果。针对于此，在本发明一个具体示例中，M的取值例如可以大于N/2，即：可以在深度神经网络模型中前向传播方向上的后半部分网络层设置一个中间网络层。例如，在一个具体应用中，本发明实施例的中间网络层可以设置在池化层之后，用于对池化层输出的特征图进行场景分析检测。

在本发明神经网络训练方法实施例的一个具体示例中，上述实施例的操作106中，根据上述第一差异和上述第二差异调整第二网络层的参数，具体可以通过如下方式实现：

为第一差异和第二差异分别为第一差异和第二差异确定不同的权重W1和W2；

根据第一差异及其权重W1、第二差异及其权重W2调整上述第二网络层的参数。

具体地，在实际应用中，可以设置第一差异的权重W1小于第二差异的权重W2，即：W1与W2的比值大于0且小于1，以实现第一差异对深度神经网络模型网络优化的主导作用，由第一差异辅助对深度神经网络模型网络进行优化，在整体上保障整个深度神经网络模型的优化效果。

在本发明上述方法实施例的一个具体实例中，中间网络层具体可以是一个辅助分类层，上述第一场景分析预测结果包括该辅助分类层输出的对样本图像中各像素的场景分类预测结果。进一步地，可以在对深度神经网络模型的网络训练完成后，去除该辅助分类层，以简化网络结构。

在本发明上述各神经网络训练方法实施例的另一个具体示例中，上述操作104中，确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异时，具体可以利用第一分类代价函数层获取第一场景分析预测结果和场景分析标注信息中对样本图像中各像素的场景分类预测结果之间的差异，作为第一差异。

其中，在对深度神经网络模型网络训练完成后，可以去除上述第一分类代价函数层。

在本发明上述各神经网络训练方法实施例的另一个具体示例中，第二场景分析预测结果具体包括末个网络层输出的对样本图像中各像素的场景分类预测结果。

相应地，在上述操作104中，确定第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异时，具体可以利用第二分类代价函数层获取第二场景分析预测结果和场景分析标注信息中对样本图像中各像素的场景分类预测结果之间的差异，作为第二差异。

同样，在对深度神经网络模型网络训练完成后，可以去除上述第二分类代价函数层。

示例性地，上述第一分类代价函数层、第二分类代价函数层，例如具体可以是以下任意一种：回归(softmax)损失函数、熵函数或者支持向量机(SVM)代价函数。

在上述各深度神经网络训练方法实施例的一个具体示例中，操作102中，利用深度神经网络模型对样本图像进行场景分析检测，获得中间网络层输出的第一场景分析预测结果，具体可以通过如下方式实现：

利用深度神经网络模型对样本图像进行卷积操作，获得第一特征图，该第一特征图包括样本图像中各像素的特征；

利用该中间网络层，根据第一特征图对样本图像进行场景分析检测，获得该样本图像的第一场景分析预测结果并输出，其中的第一场景分析预测结果包括样本图像中各像素的类别。

在上述各深度神经网络训练方法实施例的一个具体示例中，操作102中，利用深度神经网络模型对样本图像进行场景分析检测，获得末个网络层输出的第二场景分析预测结果，具体可以通过如下方式实现：

对第一特征图进行池化操作，获得至少一个第二特征图，其中第二特征图的大小小于第一特征图；

根据第一特征图与至少一个第二特征图对样本图像进行场景分析检测，获得样本图像的第二场景分析预测结果并通过末个网络层输出，其中的第二场景分析预测结果包括样本图像中各像素的类别。

其中，每个第二特征图包括多个特征，由于第二特征图中的每个特征由对第一特征图进行池化操作获得、且第二特征图大于第一特征图，则第二特征图中每个特征对应的样本图像区域大于第一特征图中每个特征对应的样本图像区域，第二特征图中的各特征体现了样本图像对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)，由此，基于第二特征图可以获知每个特征对应的样本图像区域的语义上下文信息和空间上下文信息等上下文信息。

具体应用中，上述实施例中获得的第二特征图可以是一个，也可以包括多个，第二特征图有多个时，多个第二特征图中不同第二特征图的大小不同。多个第二特征图中各第二特征图的大小可以依次递增，从而形成金字塔结构，由此，该金字塔结构的第二特征图包括了整个样本图像中各像素在大小依次变化的不同视觉感受野的信息，根据第一特征图与该金字塔结构的第二特征图，同时基于样本图像中各像素的特征及各像素在不同视觉感受野的信息，对样本图像进行场景分析，使得对各像素类别的预测更准确。

第二特征图有多个时，对第一特征图进行池化操作，获得至少一个第二特征图，具体可以通过如下方式实现：利用深度神经网络模型中的第一池化层，分别以多个大小不同的池化窗口，例如，分别以1*1、2*2、3*3、6*6的池化窗口，对第一特征图进行下采样，生成多个第二特征图，每个第二特征图包括多个特征，每个特征用于表示样本图像对应区域中各像素上下文信息(如语义上下文信息和/或空间上下文信息等)。

另外，第二特征图是一个时，对第一特征图进行池化操作，获得至少一个第二特征图，具体也可以通过同样的方式实现：利用深度神经网络模型中的第一池化层，以设定的池化窗口大小对第一特征图进行下采样，生成一个第二特征图，该第二特征图包括多个特征，每个特征用于表示样本图像中对应区域中像素的语义上下文信息和空间上下文信息等。

图2为本发明深度神经网络训练方法另一个实施例的流程图。如图2所示，与图1所示的实施例相比，该实施例的深度神经网络训练方法中，操作102具体可以包括：

202，利用深度神经网络模型对样本图像进行卷积操作，获得第一特征图，该第一特征图包括样本图像中各像素的特征。

204，利用深度神经网络模型的中间网络层，根据第一特征图对样本图像进行场景分析检测，获得样本图像的第一场景分析预测结果并输出，其中，第一场景分析预测结果包括样本图像中各像素的类别；以及利用深度神经网络模型中的第一池化层，分别以多个大小不同的池化窗口分别对该第一特征图进行下采样，获得多个第二特征图。

206，根据第一特征图与上述至少一个第二特征图，对图像进行场景分析，获得该样本图像的第二场景分析预测结果并通过深度神经网络模型的末个网络层输出，该第二场景分析预测结果中包括样本图像中各像素的类别。

基于本发明实施例进行深度神经网络训练时，在对样本图像进行场景分析检测的过程中，由于第一特征图包括了样本图像中各像素的特征，第二特征图由对第一特征图进行池化操作获得且大于第一特征图，则第二特征图中每个特征对应的样本图像区域大于第一特征图中每个特征对应的图像区域，由此，第二特征图中的各特征体现了样本图像中对应区域中各像素的语义上下文信息和空间上下文信息等上下文信息。因此本发明实施例不止考虑了各像素的语义信息，同时参考了整个样本图像的语义上下文信息和空间上下文信息，使得对各像素类别的预测更准确，从而使得对样本图像的场景检测结果更准备，提升了深度神经网络模型的优化性能，使得优化得到的深度神经网络性能更好，可以实现对图像进行场景分析的准确性。

图3为本发明深度神经网络训练方法又一个实施例的流程图。如图3所示，与图1或图2所示的实施例相比，该实施例的深度神经网络训练方法中，操作102具体可以包括：

302，利用深度神经网络模型对样本图像进行卷积操作，获得第一特征图，该第一特征图包括样本图像中各像素的特征。

304，利用深度神经网络模型的中间网络层，根据第一特征图对样本图像进行场景分析检测，获得样本图像的第一场景分析预测结果并输出，其中，第一场景分析预测结果包括样本图像中各像素的类别；以及利用深度神经网络模型中的第一池化层，分别以多个大小不同的池化窗口分别对该第一特征图进行下采样，获得多个第二特征图。

306，通过深度神经网络模型中的卷积层对上述至少一个第二特征图进行降维处理。

所谓特征降维，即采用一个低纬度的特征来表示高纬度。具体地，本发明实施例可以通过例如特征选择和特征抽取的方式进行特征降维。其中，第二特征图包括的特征作为高纬度的特征，则通过特征选择的方式进行特征降维时，从第二特征图包括的高纬度的特征中选择其中的一个子集来作为新的特征。通过特征抽取的方式进行特征降维时，将第二特征图包括的高纬度的特征经过预设的函数映射至低纬度作为新的特征。

获得第二特征图后，如果第二特征图的特征维数太多，经常会导致特征匹配时过于复杂，消耗计算资源，本发明实施例在将第一特征图与第二特征图进行连接前先对第二特征图进行降维，可以提高特征匹配效率，节省计算资源；并且，避免了第二特征图中特征(场景图像的全局特征)的维度太高的导致第一特征图中的特征(即各像素自身的特征)在深度神经网络模型训练反向传播过程中对网络参数调整的影响变小，有效保证在深度神经网络模型训练反向传播过程中，第一特征图中的特征对网络参数调整的影响作用。

308，利用深度神经网络模型中的第二池化层分别对降维后的上述至少一个第二特征图进行上采样，将各降维后的上述至少一个第二特征图分别放大至所述第一特征图的大小，以便确定第二特征图与第一特征图在图像各像素位置上的对应关系。

310，利用深度神经网络模型中的连接层，将放大后的各第二特征图与第一特征图例如在垂直于池化窗口的方向，进行连接，获得第三特征图。

312，利用深度神经网络模型中的分类层，通过第三特征图，预测样本图像中各像素的类别，获得样本图像的第二场景分析预测结果并通过深度神经网络模型的末个网络层输出，该第二场景分析预测结果中包括样本图像中各像素的类别。

场景分析(Scene parsing)是基于语义分割，对图像描述的场景(本发明中称为：场景图像)中的每一个像素赋予一个类别，并对不同的类别标注对应的颜色。场景分析是目标识别、图像检索、视频标注等的基础，近年来已成为计算机视觉领域的研究热点。

在实现本发明的过程中，发明人通过研究发现，现有的场景分析方法仅基于各像素点的信息预测场景图像中各像素的类别，针对复杂的场景分析任务，会存在以下问题：

不匹配的相对关系，例如，错误地将水面上的船预测为小轿车；

存在易混淆的类别，例如，将摩天大楼的部分预测为建筑物，这对于精细分类来说是不合格的；

易忽视不显眼的物体，例如，忽视了床上与床单颜色纹理均很相似的枕头，由于床上的枕头由于和床单颜色纹理太像而没有被预测出来，而这些是机器感知领域非常重视的问题。

图4为基于本发明深度神经网络训练方法获得深度神经网络一个应用实施例的流程图。如图4所示，基于本发明上述各实施例训练得到的深度神经网络，可用于通过如下方式，对图像进行场景分析：

402，利用深度神经网络中的卷积层对待分析的图像进行卷积操作，提取待分析图像的卷积特征，获得第一特征图，其中包括图像中各像素的卷积特征。

404，利用深度神经网络中的第一池化层，分别以多个大小不同的池化窗口，例如，分别以1*1、2*2、3*3、6*6的池化窗口，对第一特征图进行下采样(maxpooling)，获得多个大小不同的第二特征图。

其中的第二特征图包括多个特征，以每个池化窗口下采样一次获得一个特征，每个特征分别表示图像对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。由此，基于第二特征图可以获知每个特征对应的图像区域的语义上下文信息和/或空间上下文信息等上下文信息。

其中多个第二特征图中按照大小依次排序时，可以形成金字塔结构，由此，该金字塔结构的第二特征图包括了整个图像中各像素在大小依次变化的不同视觉感受野的信息，根据第一特征图与该金字塔结构的第二特征图，同时基于图像中各像素的特征及各像素在不同视觉感受野的信息，对图像进行场景分析，使得对各像素类别的预测更准确。

406，利用深度神经网络中的第二池化层分别对上述多个第二特征图进行上采样，将第二特征图放大至第一特征图的大小，以便实现第二特征图与第一特征图在图像各像素位置上的对应关系。

408，利用深度神经网络中的连接层，将放大后的多个第二特征图与第一特征图，例如在垂直于池化窗口的方向，进行连接，获得第三特征图。

这样，第三特征图便包括了图像中各原始像素的特征和一系列对应图像区域中各像素的特征。

410，利用深度神经网络中的分类层，通过第三特征图，预测图像中各像素的类别，获得图像的场景分析结果。

其中的场景分析结果中包括图像中各像素的类别。

本发明人通过研发发现，场景分析任务中每个像素对周边信息依赖比较强。通过本发明实施例训练得到的深度神经网络，可以在对图像进行场景分析的过程中，由于第一特征图包括了图像中各像素的特征，第二特征图由对第一特征图进行池化操作获得且其大小小于第一特征图，则第二特征图中每个特征对应的图像区域大于第一特征图中每个特征对应的图像区域，由此，第二特征图中的各特征体现了图像中对应区域中各像素的上下文信息(如语义上下文信息和/或空间上下文信息等)。因此本发明实施例对图像进行场景分析时，不止考虑了各像素自身的语义信息，同时参考了整个图像不同像素的语义上下文信息和/或空间上下文信息等上下文信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

另外，在本发明实施例中，基于图像的第一特征图和呈金字塔结构分布的多个第二特征图生成的第三特征图进行场景分析，每个像素类别信息的判读不仅基于当前像素的信息，还基于整张图像中各像素在不同视觉感受野的信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

通过实验证明，基于本发明实施例的场景分析方法对包含床单和枕头、且二者颜色纹理均很相似的图像进行场景分析，获得的场景分析结果与场景分析标注信息基本一致，避免了现有技术针对图像中由于颜色、纹理相似而无法被预测出来的问题。

图5为本发明深度神经网络训练系统一个实施例的结构示意图。该实施例的深度神经网络训练系统可用于实现本发明上述各深度神经网络训练方法实施例中。如图5所示，该实施例的深度神经网络训练系统包括深度神经网络模型和网络训练单元。

其中，深度神经网络模型用于在网络训练的前向传播过程中对样本图像进行场景分析检测，并通过所述深度神经网络模型的中间网络层输出的第一场景分析预测结果，通过所述深度神经网络模型的末个网络层输出第二场景分析预测结果。该深度神经网络模型共包括N个网络层，N个网络层中包括在前向传播方向的中间网络层和末个网络层，N的取值为大于2的整数。

网络训练单元包括获取子单元和参数调整子单元。其中：

获取子单元，用于确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异、以及第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异；

参数调整子单元，用于在反向传播过程中，根据第一差异调整第一网络层的参数、并根据第一差异和第二差异调整第二网络层的参数。其中：第一网络层包括深度神经网络模型中位于中间网络层和末个网络层之间的至少一网络层，第二网络层包括深度神经网络模型中至少一除第一网络层之外的其他网络层。

基于本发明上述实施例提供的深度神经网络训练系统，在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果，确定第一场景分析预测结果和样本图像的场景分析标注信息之间的第一差异、以及第二场景分析预测结果和样本图像的场景分析标注信息之间的第二差异，之后，在反向传播过程中，根据第一差异调整第一网络层的参数、并根据第一差异和第二差异调整第二网络层的参数。其中：第一网络层包括深度神经网络模型中位于中间网络层和末个网络层之间的至少一网络层，第二网络层包括深度神经网络模型中至少一除第一网络层之外的其他网络层。

具体地，在图5所示系统实施例的一个具体示例中，中间网络层具体可以是一个，也可以是多个。可以根据实际需求，仅在深度神经网络模型中设置一个中间网络层，还可以根据进行网络训练的深度神经网络模型的网络层数量N，确定需要的中间网络层的数量L，其中，L的取值为大于0且小于N的整数。中间网络层为多个时，不同的中间网络层进行参数调整的深度神经网络模型中的网络层不同。可以规定，深度神经网络模型的网络层数量N越大，即网络越深，中间网络层的数量L越大。中间网络层可以表示为深度神经网络模型中前向传播方向上的第M层，其中，M的取值为大于2、且小于N的整数。图5所示实施例仅示例性的示出其中一个中间网络层的实例。

另外，在本发明上述各实施例的再一个具体示例中，参数调整子单元根据第一差异和第二差异调整各第二网络层的参数时，具体用于为第一差异和第二差异确定不同的权重；以及根据第一差异及其权重、第二差异及其权重调整第二网络层的参数。

具体应用中，可以确定第一差异的权重小于第二差异的权重。

另外，在本发明上述各实施例的另一个具体示例中，中间网络层具体可以是一个辅助分类层，在对深度神经网络模型网络训练完成后，去除该辅助分类层，以简化网络结构。相应地，该实施例中，第一场景分析预测结果包括辅助分类层输出的对样本图像中各像素的场景分类预测结果。

在本发明上述各实施例的又一个具体示例中，获取子单元具体可以包括第一分类代价函数层和第二分类代价函数层，改述第一分类代价函数层和第二分类代价函数层可以在深度神经网络模型网络训练完成后被去除。

其中，第一分类代价函数层，用于获取第一场景分析预测结果和场景分析标注信息中对样本图像中各像素的场景分类预测结果之间的差异，作为第一差异。第二分类代价函数层，用于获取第二场景分析预测结果和场景分析标注信息中对样本图像中各像素的场景分类预测结果之间的差异，作为第二差异。相应地，该实施例中，第二场景分析预测结果包括末个网络层输出的对样本图像中各像素的场景分类预测结果。

示例性地，上述第一分类代价函数层和/或第二分类代价函数层具体可以通过softmax损失函数、熵函数或者SVM代价函数实现。

图6为本发明实施例中深度神经网络模型一个实施例的结构示意图。如图6所示，该实施例的深度神经网络模型除了包括中间网络层和末个网络层外，还包括特征提取单元和中间网络层。其中：

特征提取单元，用于对样本图像进行卷积操作，获得第一特征图，该第一特征图包括样本图像中各像素的特征。

中间网络层具体用于根据第一特征图对样本图像进行场景分析检测，获得样本图像的第一场景分析预测结果并输出，其中的第一场景分析预测结果包括样本图像中各像素的类别。

另外，再参见图6，另一个实施例的深度神经网络模型还可以包括第一池化层，用于对第一特征图进行池化操作，获得至少一个第二特征图，例如，第一池化层具体可分别以多个大小不同的池化窗口分别对第一特征图进行下采样，获得多个第二特征图，其中该至少一个第二特征图的大小小于第一特征图。相应地，该实施例中，末个网络层用于根据第一特征图与至少一个第二特征图对样本图像进行场景分析检测，获得样本图像的第二场景分析预测结果并输出，其中的第二场景分析预测结果包括样本图像中各像素的类别。

具体地，第二特征图可以是一个，也可以包括多个，第二特征图有多个时，多个第二特征图中不同第二特征图的大小不同。多个第二特征图中各第二特征图的大小可以依次递增，从而形成金字塔结构，由此，该金字塔结构的第二特征图包括了整个样本图像中各像素在大小依次变化的不同视觉感受野的信息，根据第一特征图与该金字塔结构的第二特征图，同时基于样本图像中各像素的特征及各像素在不同视觉感受野的信息，对样本图像进行场景分析，使得对各像素类别的预测更准确。

另外，再参见图6，深度神经网络模型还可以包括卷积层，用于对第一池化层获得的至少一个第二特征图进行降维处理。

进一步地，再参见图6，在进一步实施例中，深度神经网络模型还可以包括第二池化层和连接层。其中：第二池化层，用于分别对上述至少一个第二特征图进行上采样，以将各上述至少一个第二特征图分别放大至第一特征图的大小；连接层，用于将放大后的各第二特征图与第一特征图进行连接，获得第三特征图。

相应地，该实施例中，末个网络层具体包括分类层，具体用于通过第三特征图，预测样本图像中各像素的类别，获得样本图像的第二场景分析预测结果。

如图7所示，为通过本发明上述任一实施例的深度神经网络训练方法或者深度神经网络训练系统训练获得的深度神经网络，其具体可以包括特征提取单元、第一池化层、卷积层、第二池化层、连接层和分类层，可用于对图像进行场景分析。特征提取单元、第一池化层、卷积层、第二池化层、连接层和分类层在对图像进行场景分析中的功能、以及相互之间的连接关系与上述实施例中深度神经网络模型中的对应部分相同。本发明实施例不再赘述。

由于本发明实施例的深度神经网络由本发明上述各深度神经网络训练方法或者深度神经网络训练系统训练获得，用于对图像进行场景分析时，不止考虑了各像素自身的语义信息，同时参考了整个图像不同像素的语义上下文信息和/或空间上下文信息等上下文信息，使得对各像素类别的预测更准确，相对传统仅基于当前像素的信息进行类别预测的技术而言，有效提升了场景分析结果的准确性。

具体地，本发明实施例的深度神经网络训练系统可以是任意具有数据处理功能的装置，例如可以包括但不限于：进阶精简指令集机器(ARM)、中央处理单元(CPU)或图形处理单元(GPU)等。

另外，本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等，该电子设备设置有本发明上述任一实施例的数据处理装置。

具体地，实施例的电子设备包括：处理器、存储器、通信部和通信总线，处理器、存储器和通信部通过所述通信总线完成相互间的通信；

其中，存储器用于存放至少一可执行指令，所述可执行指令使处理器执行本发明上述任一实施例所述的深度神经网络训练方法对应的操作。

基于本发明上述实施例提供的电子设备，包括本发明上述数据处理装置，从而包括本发明上述任一实施例提供的深度神经网络训练系统或者深度神经网络，使得深度神经网络模型优化更加彻底，能够获得更好的网络模型优化结果，从而使得训练得到的神经网络具有更好的表达能力和性能。

图8为本发明电子设备一个实施例的结构示意图。下面参考图7，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图：如图8所示，计算机系统包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果；确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异、以及所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异；在反向传播过程中，根据所述第一差异调整第一网络层的参数、并根据所述第一差异和所述第二差异调整第二网络层的参数；其中：所述第一网络层包括所述深度神经网络模型中位于所述中间网络层和所述末个网络层之间的至少一网络层，所述第二网络层包括所述深度神经网络模型中至少一除所述第一网络层之外的其他网络层。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分8；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，在前向传播过程中，利用深度神经网络模型对样本图像进行场景分析检测，获得所述深度神经网络模型的中间网络层输出的第一场景分析预测结果以及末个网络层输出的第二场景分析预测结果的指令；确定所述第一场景分析预测结果和所述样本图像的场景分析标注信息之间的第一差异、以及所述第二场景分析预测结果和所述样本图像的场景分析标注信息之间的第二差异的指令；在反向传播过程中，根据所述第一差异调整第一网络层的参数、并根据所述第一差异和所述第二差异调整第二网络层的参数的指令；其中：所述第一网络层包括所述深度神经网络模型中位于所述中间网络层和所述末个网络层之间的至少一网络层，所述第二网络层包括所述深度神经网络模型中至少一除所述第一网络层之外的其他网络层。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统、设备实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、系统、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法、系统、设备。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种深度神经网络训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述中间网络层包括所述深度神经网络模型中的多个网络层；不同的中间网络层进行参数调整的网络层不同。

3.根据权利要求1或2所述的方法，其特征在于，所述深度神经网络模型的网络层数量为N，所述中间网络层为所述深度神经网络模型中在前向传播方向上的第M层；其中，N的取值为大于2的整数，M的取值为大于2、且小于N的整数。

4.根据权利要求3所述的方法，其特征在于，M的取值大于N/2。

5.根据权利要求1至4任意一项所述的方法，其特征在于，根据所述第一差异和所述第二差异调整各第二网络层的参数，包括：

为所述第一差异和所述第二差异确定不同的权重；

6.根据权利要求5所述的方法，其特征在于，所述第一差异的权重小于所述第二差异的权重。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述中间网络层包括辅助分类层；

8.一种深度神经网络训练系统，其特征在于，包括深度神经网络模型和网络训练单元；

所述深度神经网络模型包括中间网络层和末个网络层，用于在网络训练的前向传播过程中对样本图像进行场景分析检测，并通过所述深度神经网络模型的中间网络层输出的第一场景分析预测结果，通过所述深度神经网络模型的末个网络层输出第二场景分析预测结果；

所述网络训练单元包括：

9.一种基于权利要求1至7任意一项所述的方法、或权利要求8所述的系统训练获得的深度神经网络。

10.一种电子设备，其特征在于，包括：处理器、存储器、通信部和通信总线，所述处理器、所述存储器和所述通信部通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至7任意一项所述的深度神经网络训练方法对应的操作。