CN111598213B

CN111598213B - 网络训练方法、数据识别方法、装置、设备和介质

Info

Publication number: CN111598213B
Application number: CN202010249418.1A
Authority: CN
Inventors: 李哲
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2024-01-23
Anticipated expiration: 2040-04-01
Also published as: CN111598213A

Abstract

本申请涉及一种网络训练方法、数据识别方法、装置、设备和介质。该方法包括：将训练数据分别输入待训练学生网络和教师网络，得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征；其中，所述训练数据包括图像数据、语音数据和文本数据中的至少一种；将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值；根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络。采用本方法能够提高学生网络的精度。

Description

网络训练方法、数据识别方法、装置、设备和介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种网络训练方法、数据识别方法、装置、设备和介质。

背景技术

随着科技的发展，神经网络被广泛的应用在人们的学习和生活中，使得现代人类全面进入人工智能时代。深度学习算法作为神经网络的主要算法之一也已经广泛地应用于图像处理和计算机视觉领域中，但是基于深度学习算法的神经网络模型普遍体积较大，计算复杂度高，随着人们对神经网络的深入研究，模型压缩也成为了现在深度学习领域的一个热点方向。

知识蒸馏是模型压缩中的一个十分常用的算法。知识蒸馏的核心思想是训练一个体积较大的教师网络和一个相对轻量化的学生网络。然后利用实验效果更好的教师网络监督学生网络的训练，从而提升学生网络的实验效果，最终使用轻量化的网络來进行任务部署，达到使用效果更好的学生网络來应用的目的，例如使用学生网络进行图像识别、语音识别和文本识别等。在现有的知识蒸馏算法中，通常使用教师网络和学生网络每层的特征图差的L2模作为损失函数，来训练学生网络。

然而，传统的使用教师网络和学生网络每层的特征图差的L2模作为损失函数所训练的学生网络，使得学生网络的精度不高，导致和教师网络的处理结果差异较大，使得图像数据、语音数据或者文本数据的处理精度低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高学生网络精度的网络训练方法、装置、计算机设备和存储介质。

第一方面，本申请实施例提供一种网络训练方法，所述方法包括：

将训练数据分别输入待训练学生网络和教师网络，得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征；其中，所述训练数据包括图像数据、语音数据和文本数据中的至少一种；

将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值；

根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络。

在其中一个实施例中，所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值，包括：

将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；

根据所述学生网络输出的所述训练数据对应的预测值，将所述学生网络对应的第一损失值确定为所述目标损失值。

根据所述循环神经网络输出的所述训练数据对应的预测值，将所述循环神经网络对应的第二损失值确定为所述目标损失值。

根据所述学生网络输出的所述训练数据对应的预测值，确定所述学生网络对应的第一损失值；

根据所述循环神经网络输出的所述训练数据对应的预测值，确定所述循环神经网络对应的第二损失值；

根据所述第一损失值和所述第二损失值，确定目标损失值。

在其中一个实施例中，所述根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络，包括：

将所述第一损失值和所述第二损失值进行加权，得到所述目标损失值；

根据所述目标损失值，对所述待训练学生网络和所述循环神经网络进行迭代训练，直至所述目标损失值收敛，得到所述学生网络。

在其中一个实施例中，所述方法还包括：

根据所述目标损失值，更新所述循环神经网络的网络参数。

在其中一个实施例中，所述将训练数据分别输入所述待训练学生网络和所述教师网络之前，包括：

判断所述教师网络的网络层数是否大于所述待训练学生网络的网络层数；

若是，则从所述教师网络的教师网络层中筛选出与所述待训练学生网络的网络层数数量一致的网络层，作为所述教师网络中间层。

在其中一个实施例中，所述从所述教师网络的教师网络层中筛选出与所述待训练学生网络的网络层数数量一致的网络层，作为所述教师网络中间层，包括：

从所述教师网络的教师网络层中间隔筛选出与所述待训练学生网络的网络层数数量一致的网络层，作为所述教师网络中间层。

第二方面，本申请实施例提供一种数据识别方法，所述方法包括：

获取待识别数据；其中，所述待识别数据包括图像数据、语音数据和文本数据中的至少一种；

将所述待识别数据输入如上述任一实施例所述的学生网络进行处理，得到识别结果。

第三方面，本申请实施例提供一种网络训练装置，所述装置包括：

输入模块，用于将训练数据分别输入待训练学生网络和教师网络，得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征；其中，所述训练数据包括图像数据、语音数据和文本数据中的至少一种；

输出模块，用于将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值；

处理模块，用于根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络。

第四方面，本申请实施例提供一种数据识别装置，所述装置包括：

获取模块，用于获取待识别数据；其中，所述待识别数据包括图像数据、语音数据和文本数据中的至少一种；

识别模块，用于将所述待识别数据输入如上述任一实施例所述的学生网络进行处理，得到识别结果。

第五方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第六方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第七方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第八方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述网络训练方法、数据识别方法、装置、计算机设备和存储介质，计算机设备将训练数据分别输入待训练学生网络和教师网络，得到待训练学生网络的多个学生网络中间层的输出特征及与学生网络中间层对应的教师网络中间层的输出特征，然后将每个学生网络中间层的输出特征和对应的教师网络中间层的输出特征输入循环神经网络，确定目标损失值，最后根据目标损失值，更新待训练学生网络的参数，得到学生网络。本实施例中，通过计算机设备将每个学生网络中间层的输出特征和对应的教师网络中间层的输出特征输入循环神经网络，从而在网络训练过程中，引入了循环神经网络，使得特征数据在循环神经网络中逐级迭代处理，该方法相比传统的仅监督最后一层网络的输出所导致的特征数据传递不完全，以至于训练的学生网络精度低的问题，采用循环神经网络实现不同的网络层之间的特征数据循环传递，极大的减小了学生网络与教师网络之间的精度差异，因此极大的提高了学生网络的训练精度。进而使得采用高精度的学生网络进行数据处理，所得到处理结果的精度大大提高。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例提供的网络训练方法的流程示意图；

图3为一个实施例提供的组合网络的示意图；

图4为又一个实施例提供的网络训练方法的流程示意图；

图5为一个实施例提供的数据识别方法的流程示意图；

图6为一个实施例提供的网络训练装置的结构示意图；

图7为一个实施例提供的数据识别装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的学生网络训练方法和数据识别方法，可以适用于图1所示的计算机设备。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、数据库、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储下述实施例中的待训练网络组合或学生网络，有关待训练网络组合或学生网络的具体描述参见下述实施例中的具体描述。该计算机设备的网络接口可以用于与外部的其他设备通过网络连接通信。可选的，该计算机设备可以是服务器，可以是台式机，可以是个人数字助理，还可以是其他的终端设备，例如平板电脑、手机等等，还可以是云端或者远程服务器，本申请实施例对计算机设备的具体形式并不做限定。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。当然，输入装置和显示屏也可以不属于计算机设备的一部分，可以是计算机设备的外接设备。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

需要说明的是，下述方法实施例的执行主体可以是学生网络训练装置或数据识别装置，该装置可以通过软件、硬件或者软硬件结合的方式实现成为上述计算机设备的部分或者全部。下述方法实施例以执行主体为计算机设备为例进行说明。

图2为一个实施例提供的网络训练方法的流程示意图。本实施例涉及的是计算机设备采用体较大的教师网络训练轻量化的学生网络的具体过程，如图2所示，包括：

S11、将训练数据分别输入待训练学生网络和教师网络，得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征；其中，所述训练数据包括图像数据、语音数据和文本数据中的至少一种。

首先，计算机设备可以获取存储在存储器中的组合网络，也可以接收其他设备发送的组合网络，该组合网络可以是教师网络、待训练学生网络和循环神经网络(RecurrentNeural Network，简称RNN)进行组合，按照网络层之间的对应关系形成上述组合网络。需要说明的是，教师网络中包括多个教师网络中间层，每个教师网络中间层可以对输入数据进行运算，例如卷积、池化等数据处理；待训练学生网络可以包括多个学生网络中间层，其中，可以是学生网络中间层的数量小于或等于教师网络的网络层的数量，也可以是待训练学生网络的参数相比教师网络的网络参数更为精简，还可以是待训练学生网络的通道数比教师网络的通道数更少，或者是网络的数量、网络参数和通道数中的至少一个是经过简化的，总之待训练学生网络为一个轻量化的小型的神经网络。

上述教师网络和待训练学生网络通过循环神经网络连接，该循环神经网络包括多个层级化设置的循环单元，循环神经网络将输入的数据逐层进行处理，从第一个循环单元逐层传递至最后一个循环单元。上述教师网络中间层、循环单元和学生网络中间层具有对应关系，例如可以是一一对应的关系，如第一层的教师网络中间层、第一层的循环单元和第一层的学生网络中间层对应，第二层的教师网络中间层、第二层的循环单元和第二层的学生网络中间层对应等等。

具体的，计算机设备将训练数据分别输入待训练学生网络和教师网络，待训练学生网络中的每个学生网络中间层对训练数据进行处理，输出对应的输出特征，同样的，教师网络中的每个教师网络中间层对训练数据进行处理，输出对应的输出特征。其中，所述训练数据包括图像数据、语音数据和文本数据中的一种或多种。

S12、将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值。

具体的，计算机设备将每个学生网络中间层的输出特征输入循环神经网络的同时，还将每个教师网络中间层的输出特征输入循环神经网络，上述网络组合输出一个损失值，作为目标损失值。可选地，上述目标损失值可以是待训练学生网络输出的损失值，也可以是循环神经网络输出的损失值，还可以是待训练学生网络输出的损失值和环神经网络输出的损失值进行融合所组成的损失值，对此本实施例不做限定。

S13、根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络。

具体的，计算机设备可以根据上述目标损失值，对上述待训练学生网络进行迭代训练，在每一次的迭代训练过程中，上述网络组合输出对应的目标损失值，通过调整上述待训练学生网络和/或循环神经网络中的网络参数，使得网络组合输出的目标损失值满足收敛要求，并根据满足收敛要求时的网络参数更新待训练学生网络和/或循环神经网络，并基于更新了网络参数的待训练学生网络和/或循环神经网络，再次进行下次迭代训练，直至上述目标损失值满足收敛要求，此时将满足收敛要求的时候的待训练学生网络的参数作为训练好的参数，更新至待训练学生网络的参数，得到训练好的学生网络。可选地，上述收敛要求可以是目标损失值位于预设的阈值范围内，因此收敛要求可以是一个数据范围，例如当上述目标损失值为交叉熵损失函数得到的损失值，则收敛要求可以是损失函数的损失值在1.2-1.5的取值范围。需要说明的是，该取值范围为根据精度要求进行设置的数值范围，可以通过调整该取值范围来平衡学生网络的训练精度和训练效率。

可选地，上述组合网络及训练过程的数据流向可以参见图3所示。

本实施例中，计算机设备将训练数据分别输入待训练学生网络和教师网络，得到待训练学生网络的多个学生网络中间层的输出特征及与学生网络中间层对应的教师网络中间层的输出特征，然后将每个学生网络中间层的输出特征和对应的教师网络中间层的输出特征输入循环神经网络，确定目标损失值，最后根据目标损失值，更新待训练学生网络的参数，得到学生网络。本实施例中，通过计算机设备将每个学生网络中间层的输出特征和对应的教师网络中间层的输出特征输入循环神经网络，从而在网络训练过程中，引入了循环神经网络，使得特征数据在循环神经网络中逐级迭代处理，该方法相比传统的仅监督最后一层网络的输出所导致的特征数据传递不完全，以至于训练的学生网络精度低的问题，采用循环神经网络实现不同的网络层之间的特征数据循环传递，极大的减小了学生网络与教师网络之间的精度差异，因此极大的提高了学生网络的训练精度。进而使得采用高精度的学生网络进行数据处理，所得到处理结果的精度大大提高。

由于上述训练数据包括图像数据、语音数据和文本数据中的至少一种，因此该学生网络能够基于图片数据、语音数据和包括自然语言的文本数据进行训练，从而实现对图片数据、语音数据和文本数据的处理。当输入的训练数据是图像数据的时候，则该方法基于图像类别的训练数据进行训练，例如可以是待训练学生网络的学生网络中间层对图像数据进行特征提取，并将输出数据输入下一层的学生网络中间层的同时，还输入循环神经网络。教师网络的教师网络中间层在对图像数据进行特征提取之后，将输出数据输入下一层网络的同时，还输入给还输入循环神经网络，通过这样的方式，对待训练学生网络和循环神经网络进行训练，得到损失函数值满足收敛要求的学生网络，该学生网络则能够用于对图像数据进行处理，例如基于特征提取进行的图像识别，图像分类，目标跟踪等，能够使得输出的识别结果、分类结果或者跟踪结果的精确度大大提高。当输入的训练数据是语音数据的时候，通过上述训练方法，能够得到满足要求的学生网络，用于对语音数据进行特征提取，进而识别语音，包括语义判断等，解析得到语音指令等，并将语音指令用于后续的设备控制、操作和对象识别的过程，进而使得语音识别结果的精确度大大提高。当输入的训练数据是文本数据的时候，通过上述训练方法，能够得到满足要求的学生网络，用于对文本数据进行特征提取，进而识别文本，包括语义判断等，进而使得文本识别结果的精确度大大提高。

可选地，在上述实施例的基础上，上述步骤S12的一种可能的实现方式可以如图4所示，包括：

S121、将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元。

S122、根据所述学生网络输出的所述训练数据对应的预测值，将所述学生网络对应的第一损失值确定为所述目标损失值。

需要说明的是，上述循环神经网络包括多个逐层相连的循环单元，每个循环单元可以从上一层循环单元获取数据进行处理后，传入下一层的循环单元进行运算。每个循环单元均对应一个学生网络层中间和一个教师网络中间层，每个循环单元还可以接收对应的学生网络层中间和教师网络中间层输出的特征数据进行处理。

具体的，计算机设备将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元。教师网络和待训练学生网络在运算过程中，对输入的训练数据层级化运算，每一教师网络中间层的输出数据输入下一层网络进行计算的同时，还输入对应的循环单元，每一学生网络中间层的输出数据输入下一层网络进行计算的同时，还输入对应的循环单元。循环神经网络的循环单元接收对应的学生网络中间层的输出数据和教师网络中间层的输出数据的同时，还接收上一层循环单元的输入，进行运算，并将运算结果输入下一个循环单元。其中，第一层的循环单元由于不存在上一个循环单元，因此只针对对应的学生网络中间层的输出数据和教师网络中间层的输出数据进行运算。计算机设备获取学生网络输出的训练数据的预测值，然后将这个预测值和训练数据对应的真实值计算学生网络的第一损失值，并将该第一损失值作为目标损失值。

这里对网络迭代训练过程进行详细的说明：每次迭代训练中，计算机设备将训练数据分别输入待训练学生网络的第i学生网络中间层和教师网络的第j教师网络中间层；将第i学生网络中间层的输出数据和第j教师网络中间层的输出数据，输入循环神经网络的第N循环单元进行数据运算，得到第N胞体输出数据；将第i学生网络中间层的输出数据输入学生网络的第i+1学生网络中间层，以及将第j教师网络中间层的输出数据输入教师网络的第j+1教师网络中间层；将第i+1学生网络中间层的输出数据、第j+1教师网络中间层的输出数据和第N胞体输出数据，输入循环神经网络的第N+1循环单元，得到第N+1胞体输出数据；其中，i、j和N的取值可以为自然数，i和N从1开始取值，直至i+1等于待训练学生网络的网络层数，到达待训练学生网络和待训练循环神经网络的最后一层，从而得到目标损失函数；然后在该目标损失函数不满足收敛要求的时候调整待训练学生网络和循环神经网络的权重参数，并继续上述迭代过程，直至目标损失函数值满足收敛要求，得到训练好的学生网络。

本实施例中，计算机设备通过将每个学生网络中间层的输出特征，输入循环神经网络中与学生网络中间层对应的循环单元，以及将每个教师网络中间层的输出特征，输入循环神经网络中与教师网络中间层对应的循环单元，并根据学生网络输出的训练数据对应的预测值，将学生网络对应的第一损失值确定为目标损失值。该方法基于目标损失值对待训练学生网络和循环神经网络进行迭代训练，得到学生网络，由于每个学生网络中间层的输出数据输入对应的循环单元进行运算，每个教师网络中间层的输出数据输入对应的循环单元进行运算，因此，能够将每一层网络的输出数据通过循环神经网络的线性设置的循环单元，实现网络的层级之间的信息的传递，该方法相比传统的仅监督最后一层网络的输出所导致的信息传递不完全，以至于训练的学生网络精度低的问题，采用循环神经网络实现层级之间的信息传递，进而使得所训练的学生网络与教师网络的精度差异大大减小，从而极大的提高了学生网络的精度。进而使得采用学生网络进行数据处理，所得到处理结果的精度大大提高。同时，由于将学生网络对应的第一损失值确定为目标损失值，能够通过对学生网络的精度进行收敛性的直接判断，进一步确保了学生网络的训练精度。

在一个实施例中，上述目标损失值还可以为循环神经网络的第二损失值，步骤S12的一种可能的实现方式可以包括：将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；根据所述循环神经网络输出的所述训练数据对应的预测值，将所述循环神经网络对应的第二损失值确定为所述目标损失值。本实施例中的网络训练过程的数据处理可以参见上述图4实施例所述，此处只是目标损失值可以为循环神经网络输出的第二损失值，通过将循环神经网络输出的第二损失值作为目标损失值，能够使得循环神经网络收敛，进而监督学生网络的训练，提高了学生网络的精度。进而使得采用学生网络进行数据处理，所得到处理结果的精度大大提高。

在一个实施例中，上述目标损失值还可以为待训练学生网络的第一损失值循环神经网络的第二损失值的组合，步骤S12的一种可能的实现方式可以包括：将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；根据所述学生网络输出的所述训练数据对应的预测值，确定所述学生网络对应的第一损失值；根据所述循环神经网络输出的所述训练数据对应的预测值，确定所述循环神经网络对应的第二损失值；根据所述第一损失值和所述第二损失值，确定目标损失值。本实施例中，计算机设备通过上述方法能够实现将每一层网络的输出数据通过待训练循环神经网络的线性设置的循环单元，实现网络的层级之间的信息的传递。因此计算机社别采用上述方法实现学生网络的训练，能够得到满足预设要求的学生网络，该方法相比传统的仅监督最后一层网络的输出所导致的信息传递不完全，以至于训练的学生网络精度低的问题，采用循环神经网络实现层级之间的信息传递，进而使得所训练的学生网络与教师网络的精度差异大大减小，从而极大的提高了学生网络的精度。进而使得采用学生网络进行数据处理，所得到处理结果的精度大大提高。

可选地，上述目标损失值还可以是第一损失值和第二损失值的加权结果。通过将第一损失值和第二损失值的加权结果作为目标损失值，能够通过对第一损失值和第二损失值配置不同的权重得到综合的目标损失值，使得最终输出的目标损失值更为全面和准确的对上述组合网络的精度进行表征，因此使得训练得到学生网络更为合理和精确。

上述步骤S13的一种可能的实现方式可以包括：将所述第一损失值和所述第二损失值进行加权，得到所述目标损失值；根据所述目标损失值，对所述待训练学生网络和所述循环神经网络进行迭代训练，直至所述目标损失值收敛，得到所述学生网络。需要说明的是，上述将第一损失值和第二损失值进行加权，得到目标损失值，可以是将第一损失值乘以对应的权重系数和第二损失值乘以对应的权重系数并进行相加，得到目标损失值。本实施例所描述的训练过程可以参见前述实施例，此处不再赘述。本实施例中通过对第一损失值和第二损失值配置不同的权重得到综合的目标损失值，使得最终输出的目标损失值更为全面和准确的对上述组合网络的精度进行表征，因此使得训练得到学生网络更为合理和精确。

可选地，在上述各个实施例的基础上，所述方法还可以包括：根据所述目标损失值，更新所述循环神经网络的网络参数。本实施例中，计算机设别根据目标损失值，还可以在更新待训练学生网络的同时，更新循环神经网络的网络参数，从而同步对上述循环神经网络进行训练，进而使得循环神经网络和学生网络同步收敛，能够进一步提高学生网络的精度。

可选地，在上述步骤S12之前，在上述各个实施例的基础上，该方法还可以包括：判断所述教师网络的教师网络层的数量是否大于所述待训练学生网络中间层的数量；若是，则从所述教师网络的教师网络层中筛选出与所述待训练学生网络中间层的数量一致的网络层，作为所述教师网络中间层。具体的，计算机设备可以获取教师网络的教师网络层的数量，判断教师网络的教师网络层的数量是否大于待训练学生网络中间层的数量，如果是，则计算机设备从教师网络层中筛选出与所述待训练学生网络中间层的数量一致的网络层，并作为所述教师网络中间层，从而实现教师网络中间层和待训练学生网络中间层之间的一一对应的关系。如果教师网络层的数量等于待训练学生网络中间层的数量，则将所有的教师网络层作为教师网络中间层，且教师网络的教师网络中间层和。可选地，计算机设备从教师网络层中筛选出与所述待训练学生网络中间层的数量一致的网络层，可以是基于用户的选择指令进行筛选，也可以是计算机设备按照一定的规则，例如跳跃筛选，从而使得网络的中间层的信息能够均匀传递，进一步提高了学生网络的精度。例如计算机设备可以间隔一定数量的教师网络层进行筛选，使得所选择出的教师网络中间层尽可能的均匀分布在教师网络中，例如教师网络层为10层，学生网络中间层为5层，则可以选择第一、第三、第五、第七、第九层的教师网络层作为教师网络中间层，使得网络的中间层的信息能够均匀传递，实现间隔监督学生网络的训练，在确保训练效率的前提下，进一步提高了学生网络的精度。本实施例中，通过判断教师网络的教师网络层的数量是否大于待训练学生网络中间层的数量，在教师网络层的数量大于待训练学生网络中间层的数量时，通过从教师网络的教师网络层中筛选出与学生网络中间层的数量一致的网络层，作为教师网络中间层，从而实现教师网络中间层和待训练学生网络中间层之间的一一对应的关系，进而确保了学生网络的训练精度。

在一个实施例中，还提供了一种数据识别方法，所述方法如图5所示，包括：

S21、获取待识别数据；其中，所述待识别数据包括图像数据、语音数据和文本数据中的至少一种。

S22、将所述待识别数据输入如上述任一实施例所述的学生网络进行处理，得到识别结果。

具体的，计算机设备可以读取存储器存储的待识别数据，也可以接收其他设备发送的待识别数据。所述待识别数据包括图像数据、语音数据和文本数据中的至少一种。计算机设备将上述待识别数据输入如上述任一实施例所述的学生网络进行处理，得到识别结果。由于上述学生网络的训练过程中，每个学生网络中间层的输出数据和每个教师网络中间层的输出数据输入循环神经网络进行运算，能够将每一层网络的输出数据通过循环神经网络参与训练，实现网络的层级之间的信息的传递，相比传统的仅监督最后一层网络的输出所导致的信息传递不完全，以至于训练的学生网络精度低的问题，采用循环神经网络实现层级之间的信息传递，进而使得所训练的学生网络与教师网络的精度差异大大减小，从而极大的提高了学生网络的精度。因此采用上述学生网络进行数据处理，能够使得识别得到的结果的准确度得到极大的提高。

当待识别数据为图像数据的时候，该学生网络则能够对图像数据进行处理，例如基于特征提取进行的图像识别，图像分类，目标跟踪等，能够使得输出的识别结果的精确度大大提高。当输入的待识别数据是语音数据的时候，该学生网络所输出的语音识别结果的精确度大大提高。当输入的待识别数据是文本数据的时候，该学生网络所输出的文本识别结果的精确度大大提高。上述数据处理方法的实现原理和有益效果可以参见前述实施例的描述，此处不再赘述。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种网络训练装置，包括：

输入模块100，用于将训练数据分别输入待训练学生网络和教师网络，得到所述待训练学生网络的多个学生网络中间层的输出特征及与所述学生网络中间层对应的教师网络中间层的输出特征；其中，所述训练数据包括图像数据、语音数据和文本数据中的至少一种；

输出模块200，用于将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值；

处理模块300，用于根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络。

在一个实施例中，输出模块200，具体用于将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；根据所述学生网络输出的所述训练数据对应的预测值，将所述学生网络对应的第一损失值确定为所述目标损失值。

在一个实施例中，输出模块200，具体用于将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；根据所述循环神经网络输出的所述训练数据对应的预测值，将所述循环神经网络对应的第二损失值确定为所述目标损失值。

在一个实施例中，输出模块200，具体用于将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；根据所述学生网络输出的所述训练数据对应的预测值，确定所述学生网络对应的第一损失值；根据所述循环神经网络输出的所述训练数据对应的预测值，确定所述循环神经网络对应的第二损失值；根据所述第一损失值和所述第二损失值，确定目标损失值。

在一个实施例中，处理模块300，具体用于将所述第一损失值和所述第二损失值进行加权，得到所述目标损失值；根据所述目标损失值，对所述待训练学生网络和所述循环神经网络进行迭代训练，直至所述目标损失值收敛，得到所述学生网络。

在一个实施例中，处理模块300，还用于根据所述目标损失值，更新所述循环神经网络的网络参数。

在一个实施例中，输入模块100，具体用于判断所述教师网络的网络层数是否大于所述待训练学生网络的网络层数；若是，则从所述教师网络的教师网络层中筛选出与所述学生网络的网络层数数量一致的网络层，作为所述教师网络中间层。

在一个实施例中，输入模块100，具体用于从所述教师网络的教师网络层中间隔筛选出与所述待训练学生网络的网络层数数量一致的网络层，作为所述教师网络中间层。

在一个实施例中，如图7所示，提供了一种数据识别装置，包括：

获取模块400，用于获取待识别数据；其中，所述待识别数据包括图像数据、语音数据和文本数据中的至少一种；

识别模块500，用于将所述待识别数据输入如上述任一实施例所述的学生网络进行处理，得到识别结果。

关于网络训练装置和数据识别装置的具体限定可以参见上文中对于网络训练方法和数据识别方法的限定，在此不再赘述。上述网络训练装置和数据识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据所述第一损失值和所述第二损失值，确定目标损失值。

根据所述目标损失值，更新所述循环神经网络的网络参数。

应当清楚的是，本申请实施例中处理器执行计算机程序的过程，与上述方法中各个步骤的执行过程一致，具体可参见上文中的描述。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

根据所述第一损失值和所述第二损失值，确定目标损失值。

根据所述目标损失值，更新所述循环神经网络的网络参数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种网络训练方法，其特征在于，所述方法包括：

根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络；

其中，所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值，包括：

根据所述第一损失值和所述第二损失值，确定目标损失值。

2.根据权利要求1所述的方法，其特征在于，所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值，包括：

3.根据权利要求1所述的方法，其特征在于，所述将每个所述学生网络中间层的输出特征和对应的所述教师网络中间层的输出特征输入循环神经网络，确定目标损失值，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

根据所述目标损失值，更新所述循环神经网络的网络参数。

6.根据权利要求1所述的方法，其特征在于，所述将训练数据分别输入所述待训练学生网络和所述教师网络之前，包括：

7.根据权利要求6所述的方法，其特征在于，所述从所述教师网络的教师网络层中筛选出与所述待训练学生网络的网络层数数量一致的网络层，作为所述教师网络中间层，包括：

8.一种数据识别方法，其特征在于，所述方法包括：

将所述待识别数据输入如权利要求1-7任一项所述的学生网络进行处理，得到识别结果。

9.一种网络训练装置，其特征在于，所述装置包括：

处理模块，用于根据所述目标损失值，更新所述待训练学生网络的参数，得到学生网络；

所述输出模块还用于将每个所述学生网络中间层的输出特征，输入所述循环神经网络中与所述学生网络中间层对应的循环单元，以及将每个所述教师网络中间层的输出特征，输入所述循环神经网络中与所述教师网络中间层对应的所述循环单元；根据所述学生网络输出的所述训练数据对应的预测值，确定所述学生网络对应的第一损失值；根据所述循环神经网络输出的所述训练数据对应的预测值，确定所述循环神经网络对应的第二损失值；根据所述第一损失值和所述第二损失值，确定目标损失值。

10.一种数据识别装置，其特征在于，所述装置包括：

识别模块，用于将所述待识别数据输入如权利要求1-7任一项所述的学生网络进行处理，得到识别结果。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。