CN107358293B

CN107358293B - 一种神经网络训练方法及装置

Info

Publication number: CN107358293B
Application number: CN201710450211.9A
Authority: CN
Inventors: 王乃岩; 陈韫韬
Original assignee: Beijing Tusimple Technology Co Ltd
Current assignee: Beijing Tusimple Technology Co Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2021-04-02
Anticipated expiration: 2037-06-15
Also published as: CN107358293A; CN110969250B; WO2018227800A1; CN110969250A

Abstract

本发明公开一种神经网络训练方法及装置，以提升学生网络的性能。方法包括：选取一个与学生网络实现相同功能的教师网络；基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络；其中：所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据，所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。本发明技术方案根据教师网络的输出数据间相似性训练得到的学生网络性能更优。

Description

一种神经网络训练方法及装置

技术领域

本发明涉及计算机视觉领域，特别涉及一种神经网络训练方法及装置。

背景技术

近几年来，深度神经网络在计算机视觉领域的各类应用中取得了巨大的成功，如图像分类、目标检测、图像分割等。但深度神经网络的模型往往包含大量的模型参数，计算量大、处理速度慢，无法在一些低功耗、低计算能力的设备(如嵌入式设备、集成设备等)上进行实时计算。

目前，为解决该问题，提出一些解决方案，例如，通过知识迁移方式将教师网络的知识(即教师网络，教师网络一般具有复杂的网络结构、准确性高、计算速度慢)迁移到学生网络中(即学生网络，学生网络的网络结构相对简单、准确性低、速度快)，以提高学生网络性能。此时的学生网络可应用到低功耗、地计算能力的设备中。

知识迁移是一种通用的对深度神经网络模型进行压缩以及加速的技术。目前知识迁移的方法主要包括三种，分别是2014年Hinton等人发表的论文“Distilling theknowledge in a neural network”中提出的Knowledge Distill(简称 KD)方法，2015年Romero等人发表的论文“Fitnets：Hints for thin deep nets”提出的FitNets，以及2016年Sergey发表的论文“Paying more attention to attention： Improving theperformance of convolutional neural networks via attention transfer”提出的Attention Transfer(简称AT)方法。

现有的知识迁移方式，利用教师网络中输出数据中的单个数据的信息来训练学生网络，训练得到的学生网络虽然在性能上有一定的提高，但仍然还有很大的提升空间。

相关术语解释：

知识迁移(Knowledge Transfer)：在深度神经网络中，知识迁移是指利用训练样本数据在教师网络的中间网络层或最终网络层的输出数据，辅助训练速度较快但性能较差的学生网络，从而将性能优良的教师网络迁移到学生网络上。

知识提取(Knowledge Distill)：在深度神经网络中，知识提取是指在分类问题中利用教师网络输出的平滑类别后验概率训练学生网络的技术。

教师网络(Teacher Network)：知识迁移过程中用以为学生网络提供更加准确的监督信息的高性能神经网络。

学生网络(Student Network)：计算速度快但性能较差的适合部署到对实时性要求较高的实际应用场景中的单个神经网络，学生网络相比于教师网络，具有更大的运算吞吐量和更少的模型参数。

发明内容

本发明实施例提供一种神经网络训练方法及装置，以更进一步提升学生网络的性能和准确性。

本发明实施例，一方面提供一种神经网络训练方法，该方法包括：

选取一个与学生网络实现相同功能的教师网络；

基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络；

其中：所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据，所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。

本发明实施例另一方面提供一种神经网络训练装置，该装置包括：

选取单元，用于选取一个与学生网络实现相同功能的教师网络；

训练单元，用于基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络；

本发明实施例中，能够将样本训练数据在教师网络输出的输出数据的各数据间相似信息全面迁移到学生网络中，从而实现训练样本数据通过教师网络输出的结果与通过目标网络输出的结果基本一致。根据神经网络良好的泛化性能，训练得到的目标网络的输出与教师网络的输出在测试集上也基本相同，从而提高了学生网络的准确性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明实施例中神经网络训练方法的流程图；

图2为本发明实施例中训练学生网络的流程图；

图3为本发明实施例中神经网络训练装置的结构示意图；

图4为本发明实施例中训练单元的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

参见图1，为本发明实施例中神经网络训练方法的流程图，该方法包括：

步骤101、选取一个与学生网络实现相同功能的教师网络。

实现的功能如图像分类、目标检测、图像分割等。教师网络性能优良、准确率高，但是相对学生网络其结构复杂、参数权重较多、计算速度较慢。学生网络计算速度快、性能一般或者较差、网络结构简单。可以在预先设置的神经网络模型的集合中选取一个与学生网络实现的功能相同且性能优良的网络作为教师网络。

步骤102、基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络。

其中，所述第一输出数据为所述训练样本数据输入教师网络后从教师网络的第一特定网络层输出的数据，所述第二输出数据为所述训练样本数据输入学生网络后从学生网络的第二特定网络层输出的数据。

本发明实施例中，将训练样本数据输入教师网络后，从教师网络的第一特定网络层输出的数据统称为第一输出数据；将训练样本数据输入学生网络后，从学生网络的第二特定网络层输出的数据统称为第二输出数据。

优选地，本发明实施例中，所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层。

优选地，本发明实施例中，所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。

优选地，前述步骤102具体实现可如图2所示的方法流程，具体包括：

步骤102A、构建所述学生网络的目标函数，所述目标函数包含训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数。

步骤102B、采用所述训练样本数据对所述学生网络进行迭代训练。

步骤102C、当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述目标网络。

优选地，前述步骤102B，具体实现可如下：

对所述学生网络进行多次以下迭代训练(以下称为本次迭代训练，将用于本次迭代训练的训练样本数据称为当前训练样本数据，本次迭代训练包括以下步骤A、步骤B、步骤C、步骤D、步骤E和步骤F)：

步骤A、将用于本次迭代训练的当前训练样本数据分别输入所述教师网络和学生网络，得到对应的第一输出数据和第二输出数据；

步骤B、计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度；

步骤C、根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率，并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序；

步骤D、根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率；

步骤E、根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值，并根据所述目标函数的取值调整所述学生网络的权重；

步骤F、基于调整权重后的学生网络进行下一次迭代训练。

优选地，本发明实施例中，前述步骤C中从第一输出数据中各数据的所有排列顺序中选取目标排列顺序，实现方式包括但不仅限于以下两种：

方式1、从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序。

方式2、从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。

本发明实施例中，选取的目标排列顺序可以是一个也可以是多个，本申请不作严格限定。

优选地，步骤B中，计算第一输出数据(第二输出数据)中各数据间的相似度，具体包括：计算第一输出数据(第二输出数据)中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度。

本发明实施例中，所述空间距离可以是欧式距离、余弦距离、街区距离或马氏距离等，本申请不做严格限定。以计算两两数据之间的欧氏距离和余弦距离为例。

通过以下公式(1)计算第任意两个数据x_i和x_j之间的欧式距离：

式(1)中，α为预置的尺度变换因子，β为预置的对比伸缩因子，γ为偏移量，|·|₂代表向量的l²范数。

通过以下公式(2)计算任意两个数据x_i和x_j之间的余弦距离：

S_ij＝α(x_i·x_j)^β+γ 式(2)

式(2)中，α为预置的尺度变换因子，β为预置的对比伸缩因子，γ为偏移量，·代表向量间的点乘操作。

优选地，步骤C中，根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率，具体实现下：针对每个排列顺序，将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中，得到所述排列顺序的概率。

以一个训练样本数据y＝{y₁，y₂，y₃}为例进行描述。将y输入教师网络得到对应的第一输出数据x＝{x₁，x₂，x₃}；计算x中两两数据之间的相似度为s₁₂ (x₁与x₂的相似度)、s₁₃(x₁与x₃的相似度)、s₂₃(x₂与x₃的相似度)。x₁、x₂、 x₃的所有排列顺序的数量为3！＝6个，排列顺序分别为

π₂＝x₁→x₃→x₂、π₃＝x₂→x₁→x₃、π₄＝x₂→x₃→x₁、π₅＝x₃→x₁→x₂、π₆＝x₃→x₂→x₁；根据各数据间的相似度计算得到前述六种排列顺序的概率分别为

各训练样本数据对应的各第一输出数据选取的对应的目标排列顺序可以相同也可以不相同，以前述x为例，假设第一样本训练数据对应的第一输出数据对应的目标排列顺序为π₁＝x₁→x₂→x₃、π₂＝x₁→x₃→x₂、π₃＝x₂→x₁→x₃，第二样本训练数据对应的第一输出数据对应的目标排列顺序为

π₄＝x₂→x₃→x₁、π₅＝x₃→x₁→x₂。

优选地，所述步骤D中根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率，具体实现如下：针对每一个目标排列顺序，将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中，得到所述目标排列顺序的概率。

本发明实施例中，所述概率计算模型可以为一阶Plackett概率模型，也可以为高阶Plackett概率模型，还可以是其他能够计算概率的模型，本申请不做严格限定。

下面以采用一阶Plackett概率模型计算排列顺序的概率为例进行描述。

假设某一训练样本数据对应的第一输出数据为x＝{x₁，x₂，x₃，x₄}，以计算排列顺序π₁和π₂的概率为例，假设π₁＝x₁→x₂→x₃→x₄、π₂＝x₁→x₃→x₄→x₂，通过一阶Plackett概率模型得到以下结果：

其中，f(·)为任意一种线性或非线性的映射函数，且所有排列顺序的概率的和值为1

本发明实施例中，所述目标排列顺序可以为一个，也可以为多个。

本发明实施例中，学生网络的目标函数可以仅包含一个匹配函数，该目标函数还可以是一个匹配函数与任务损失函数的和值，该任务损失函数的表达式与学生网络所要实现的任务相关，例如该任务损失函数可以与教师网络的目标函数相同。匹配函数的表达式可以但不仅限于以下的公式(3)和公式(4)。

实例1、当目标顺序为一个时，所述学生网络的目标函数可设置为如以下公式(3)所示：

L＝-logP(π^t|X^s) 式(3)

式(3)中，π^t为当前训练样本数据对应的第一输出数据中各数据的目标排列顺序，X^s为当前训练样本数据对应的第二输出数据，P(π^t|X^s)为第二输出数据中各数据的目标排列顺序的概率。

优选地，前述目标排列顺序π^t为当前训练样本数据的第一输出数据中各数据所有排列顺序中概率取值最大的排列顺序。

当目标顺序为多个时，本发明实施例可以基于匹配多个目标排列顺序的概率分布的方式训练得到所述学生网络。本发明实施例中匹配多个目标排列顺序的概率分布的方法有多种，例如基于概率分布的全变分距离、Wesserstein距离、 Jensen-Shannon散度或Kullback-Leibler散度等。

以下以基于概率分布的Kullback-Leibler散度为例，所述学生网络的目标函数表达式可如以下如下式(4)所示：

式(4)中，π为一个目标排列顺序，X^s为当前训练样本数据对应的第二输出数据，X^t为当前训练样本数据对应的第一输出数据，P(π|X^s)为当前训练样本数据的第二传输数据中各数据的π的概率，P(π|x^t)为当前训练样本数据的第一传输数据中各数据的π的概率，O为目标排列顺序的集合。

优选地，前述步骤E中根据所述目标函数的取值调整学生网络的权重，具体包括：采用预置的梯度下降优化算法，根据所述目标函数的取值调整所述学生网络的权重。

优选地，前述步骤A与步骤B之间还包括以下步骤：通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理，使得所述第一输出数据的空间维度与第二输出数据的空间维度一致，且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本数据的数量一致。当然，如果步骤A得到的第一输出数据与第二输出数据的空间维度相同，且第一输出数据与第二输出数据的数量均与所述当前训练样本数据的数量一致，则无需在步骤A与步骤 B之间增加该步骤，即在步骤A之后直接执行步骤B。前述空间维度一般是指输入数据的数量、频道数、特征图的高度和宽度。

需要说明的是，前述步骤A～步骤F没有严格的先后顺序，也可以用以下的步骤A’～步骤B’替代前述步骤A～步骤B。

步骤A’、将用于本次迭代训练的当前训练样本数据输入教师网络，得到对应的第一输出数据，并计算第一输出数据中各数据间的相似度；

步骤B’、将所述当前训练样本数据输入学生网络，得到对应的第二输出数据，并计算第二输出数据中各数据间的相似度。

假设用于训练学生网络(用S表示)的三个训练样本数据分别为

y₂＝{y₂₁，y₂₂，y₂₃}，y₃＝{y₃₁，y₃₂，y₃₃}；该三个训练样本数据输入到教师网络(用T表示)输出的第一输出数据依次为

该三个训练样本数据输入到学生网络输出的第二输出数据依次为

本发明实施例以第一输出数据中各数据的所有排列顺序作为目标排列顺序。第i个训练样本数据对应的第一输出数据的目标排列顺序的集合

其中

计算得到第i个训练数据对应的第一输出数据的目标排列顺序的概率为

第i个训练数据对应的第二输出数据的目标排列顺序的集合

其中

计算得到第i个训练样本数据对应的第二输出数据的目标排列顺序的概率为

由于同一个训练样本数据对应的第一输出数据和第二输出数据的数量一致，则将第一输出数据与第二输出数据中数据排列顺序相同的排列顺序作为同一个目标排列顺序。例如将第i个训练样本数据的第二输出数据的

与其第一输出数据的

作为同一个目标排列顺序，用π_i1表示，则得到第i个训练样本数据的第一输出数据和第二输出数据的目标排列顺序集合Q_i表示为Q_i＝{π_i1，π_i2，π_i3，π_i4，π_i5，π_i6}

执行以下多次迭代训练：

第一次迭代训练：将y₁输入教师网络和学生网络，得到对应的第一输出数据为

和第二输出数据为

计算

中各数据之间的相似度以及计算

中各数据之间的相似度；根据

中各数据间的相似度计算

中各数据的所有排列顺序的概率，将该所有排列顺序作为目标排列顺序；根据

中各数据间的相似度计算得到

中各数据的目标排列顺序的概率；将y₁对应的第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率输入至目标函数中，计算得到目标函数的取值为L₁，根据该 L₁调整学生网络当前权重W₀，得到调整后的权重W₁；

第二次迭代训练：将y₂输入教师网络和学生网络，得到对应的第一输出数据为

和第二输出数据为

计算

中各数据之间的相似度以及计算

中各数据之间的相似度；根据

中各数据间的相似度计算

中各数据间的相似度计算得到

中各数据的目标排列顺序的概率；将y₂对应的第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率输入至目标函数中，计算得到目标函数的取值为L₂，根据该L₂调整学生网络当前权重W₁，得到调整后的权重为W₂；

第三次迭代训练：将y₃输入教师网络和学生网络，得到对应的第一输出数据为

和第二输出数据为

计算

中各数据之间的相似度以及计算

中各数据之间的相似度；根据

中各数据间的相似度计算

中各数据间的相似度计算得到

中各数据的目标排列顺序的概率；将y₃对应的第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率输入至目标函数中，计算得到目标函数的取值为L₃，根据该L₃调整学生网络当前权重W₂，得到调整后的权重为W₃。

实施例二

基于与前述实施例一提供的神经网络训练方法的相同构思，本发明实施例二提供一种神经网络训练装置，该装置的结构如图3所示，包括：

选取单元31，用于选取一个与学生网络实现相同功能的教师网络；

训练单元32，用于基于匹配同一训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络；

本发明实施例中，教师网络和学生网络所实现的功能如图像分类、目标检测、图像分割等。教师网络性能优良、准确率高，但是相对学生网络其结构复杂、参数权重较多、计算速度较慢。学生网络计算速度快、性能一般或者较差、网络结构简单。选取单元31可以在预先设置的神经网络模型的集合中选取一个与学生网络实现的功能相同且性能优良的网络作为教师网络。

本发明实施例中，所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层；和/或，所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。

优选地，训练单元32的结构如图4所示，具体包括构建模块321、训练模块322和确定模块323，其中：

构建模块321，用于构建所述学生网络的目标函数，所述目标函数包含训练样本数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数；

训练模块322，用于采用所述训练样本数据对所述学生网络进行迭代训练；

确定模块323，用于当训练模块322迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述目标网络。

优选地，训练模块322，具体用于：

步骤F、基于调整权重后的学生网络进行下一次迭代训练。

优选地，训练模块322从第一输出数据中各数据的所有排列顺序中选取目标排列顺序，具体包括：从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序；或者，从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。

优选地，所述训练模块322计算第一输出数据中各数据间的相似度，具体包括：计算第一输出数据中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度；

所述训练模块322计算第二输出数据中各数据间的相似度，具体包括：计算第二输出数据中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度。

优选地，所述训练模块322根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率，具体包括：针对每个排列顺序，将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中，得到所述排列顺序的概率；

所述训练模块322根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序概率，具体包括：针对每一个目标排列顺序，将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中，得到所述目标排列顺序的概率。

本发明实施例中，所述目标排列顺序可以为一个，也可以为多个。当目标顺序为多个时，本发明实施例可以基于匹配多个目标排列顺序的概率分布的方式训练得到所述学生网络。本发明实施例中匹配多个目标排列顺序的概率分布的方法有多种，例如基于概率分布的全变分距离、Wesserstein距离、 Jensen-Shannon散度或Kullback-Leibler散度等。

本发明实施例中，学生网络的目标函数可以仅包含一个匹配函数，该目标函数还可以是一个匹配函数与任务损失函数的和值，该任务损失函数的表达式与学生网络所要实现的任务相关，例如该任务损失函数可以与教师网络的目标函数相同。

优选地，所述训练模块322根据所述目标函数的取值调整所述学生网络的权重，具体包括：采用预置的梯度下降优化算法，根据所述目标函数的取值调整所述学生网络的权重。

优选地，所述训练模块322进一步用于：在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前，通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理，使得所述第一输出数据的空间维度与第二输出数据的空间维度一致，且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本数据的数量一致。

以上是本发明的核心思想，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明实施例中技术方案作进一步详细的说明。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种神经网络训练方法，其特征在于，包括：

在实时的计算机视觉处理过程中，低计算能力的处理设备获取图像数据；

所述处理设备使用预先设置的目标网络对获取到的图像数据进行计算机视觉处理，得到计算机视觉处理结果；其中，所述目标网络是通过如下处理得到的：

选取一个与学生网络实现相同功能的教师网络；

基于匹配同一训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到所述目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络，具体包括：

构建所述学生网络的目标函数，所述目标函数包含训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数；

采用所述训练样本图像数据对所述学生网络进行迭代训练；

当迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述目标网络；

其中：所述第一输出数据为所述训练样本图像数据输入教师网络后从教师网络的第一特定网络层输出的数据，所述第二输出数据为所述训练样本图像数据输入学生网络后从学生网络的第二特定网络层输出的数据。

2.根据权利要求1所述的方法，其特征在于，采用所述训练样本图像数据对所述学生网络进行迭代训练，具体包括：

对所述学生网络进行多次以下迭代训练：

将用于本次迭代训练的当前训练样本图像数据分别输入所述教师网络和学生网络，得到对应的第一输出数据和第二输出数据；

计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度；

根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率，并从所述第一输出数据中各数据的所有排列顺序中选取目标排列顺序；

根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率；

根据第一输出数据中各数据的目标排列顺序的概率和第二输出数据中各数据的目标排列顺序的概率计算所述目标函数的取值，并根据所述目标函数的取值调整所述学生网络的权重；

基于调整权重后的学生网络进行下一次迭代训练。

3.根据权利要求2所述的方法，其特征在于，从第一输出数据中各数据的所有排列顺序中选取目标排列顺序，具体包括：

从第一输出数据中各数据的所有排列顺序中选取概率取值大于预置阈值的排列顺序作为目标排列顺序；

或者，从第一输出数据中各数据的所有排列顺序中选取概率取值排在前面的预置数量的排列顺序作为目标排列顺序。

4.根据权利要求2所述的方法，其特征在于，计算第一输出数据中各数据间的相似度，具体包括：计算第一输出数据中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度；

计算第二输出数据中各数据间的相似度，具体包括：计算第二输出数据中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度。

5.根据权利要求2所述的方法，其特征在于，根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率，具体包括：针对每个排列顺序，将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中，得到所述排列顺序的概率；

根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序的概率，具体包括：针对每一个目标排列顺序，将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中，得到所述目标排列顺序的概率。

6.根据权利要求2所述的方法，其特征在于，当所述目标排列顺序为一个时，所述学生网络的目标函数如下：

L＝-log P(π^t|X^s)

式中，π^t为当前训练样本图像数据对应的第一输出数据中各数据的目标排列顺序，X^s为当前训练样本图像数据对应的第二输出数据，P(π^t|X^s)为第二输出数据中各数据的目标排列顺序的概率。

7.根据权利要求2所述的方法，其特征在于，当所述目标排列顺序为多个时，所述学生网络的目标函数如下：

式中，π为一个目标排列顺序，X^s为当前训练样本图像数据对应的第二输出数据，X^t为当前训练样本图像数据对应的第一输出数据，P(π|X^s)为当前训练样本图像数据的第二传输数据中各数据的排列顺序为π的概率，P(π|X^t)为当前训练样本图像数据的第一传输数据中各数据的排列顺序为π的概率，Q为目标排列顺序的集合。

8.根据权利要求2所述的方法，其特征在于，根据所述目标函数的取值调整所述学生网络的权重，具体包括：

采用预置的梯度下降优化算法，根据所述目标函数的取值调整所述学生网络的权重。

9.根据权利要求2所述的方法，其特征在于，在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前，还包括：通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理，使得所述第一输出数据的空间维度与第二输出数据的空间维度一致，且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本图像数据的数量一致。

10.根据权利要求1所述的方法，其特征在于，所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层；

所述第二特定网络层为学生网络的一个中间网络层或最后一层网络层。

11.一种神经网络训练装置，其特征在于，包括：

训练单元，用于基于匹配同一训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性来迭代训练所述学生网络得到目标网络，以实现将所述教师网络的输出数据间相似性迁移到所述学生网络，并将所述目标网络设置低计算能力的处理设备中，所述处理设备在实时计算过程中获取图像数据，并使用所述目标网络对获取到的图像数据进行计算机视觉处理、得到计算机视觉处理结果；

其中：所述第一输出数据为所述训练样本图像数据输入教师网络后从教师网络的第一特定网络层输出的数据，所述第二输出数据为所述训练样本图像数据输入学生网络后从学生网络的第二特定网络层输出的数据；

所述训练单元，具体包括：

构建模块，用于构建所述学生网络的目标函数，所述目标函数包含训练样本图像数据对应的第一输出数据的数据间相似性与第二输出数据的数据间相似性的匹配函数；

训练模块，用于采用所述训练样本图像数据对所述学生网络进行迭代训练；

确定模块，用于当训练模块迭代训练次数达到阈值或者所述目标函数满足预置的收敛条件时，得到所述目标网络。

12.根据权利要求11所述的装置，其特征在于，所述训练模块，具体用于：

对所述学生网络进行多次以下迭代训练：

基于调整权重后的学生网络进行下一次迭代训练。

13.根据权利要求12所述的装置，其特征在于，所述训练模块从第一输出数据中各数据的所有排列顺序中选取目标排列顺序，具体包括：

14.根据权利要求12所述的装置，其特征在于，所述训练模块计算第一输出数据中各数据间的相似度，具体包括：计算第一输出数据中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度；

所述训练模块计算第二输出数据中各数据间的相似度，具体包括：计算第二输出数据中两两数据之间的空间距离，根据所述空间距离得到所述两两数据间的相似度。

15.根据权利要求12所述的装置，其特征在于，所述训练模块根据第一输出数据中各数据间的相似度计算第一输出数据中各数据的所有排列顺序的概率，具体包括：针对每个排列顺序，将所述排列顺序的顺序信息以及第一输出数据的该排列顺序中所有相邻两个数据间的相似度输入预置的概率计算模型中，得到所述排列顺序的概率；

所述训练模块根据第二输出数据中各数据间的相似度计算第二输出数据中各数据的目标排列顺序概率，具体包括：针对每一个目标排列顺序，将所述目标排列顺序的顺序信息以及第二输出数据的该目标排列顺序中所有相邻两个数据间的相似度输入所述概率计算模型中，得到所述目标排列顺序的概率。

16.根据权利要求12所述的装置，其特征在于，

当所述目标排列顺序为一个时，所述学生网络的目标函数如下：

L＝-logP(π^t|X^s)

式中，π^t为第二输出数据中各数据的目标排列顺序，X^s为当前训练样本图像数据对应的第二输出数据，P(π^t|X^s)为π^t的概率。

17.根据权利要求12所述的装置，其特征在于，

当所述目标排列顺序为多个时，所述学生网络的目标函数如下：

18.根据权利要求12所述的装置，其特征在于，所述训练模块根据所述目标函数的取值调整所述学生网络的权重，具体包括：

19.根据权利要求12所述的装置，所述训练模块进一步用于：

在计算第一输出数据中各数据间的相似度以及计算第二输出数据中各数据间的相似度之前，通过下采样算法与插值算法对所述第一输出数据和第二输出数据进行处理，使得所述第一输出数据的空间维度与第二输出数据的空间维度一致，且第一输出数据的数量和第二输出数据的数量均与所述当前训练样本图像数据的数量一致。

20.根据权利要求11所述的装置，其特征在于，所述第一特定网络层为教师网络中的一个中间网络层或最后一层网络层；