CN111898742A

CN111898742A - 一种用于监控神经网络模型训练状态的方法与设备

Info

Publication number: CN111898742A
Application number: CN202010777678.6A
Authority: CN
Inventors: 姚广
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2020-11-06

Abstract

本申请的目的是提供一种用于监控神经网络模型训练状态的方法与设备。与现有技术相比，本申请通过从神经网络模型的不同网络层中确定一个或多个目标监控网络层，然后获取所述目标监控网络层的状态与梯度，并基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。通过本方案的这种方式，实现了对神经网络模型内部的有效监控，能够有效地提高模型的训练效率。

Description

一种用于监控神经网络模型训练状态的方法与设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种用于监控神经网络模型训练的技术。

背景技术

目前，机器学习在各行各业的应用方面取得了很大的进步，其中基于大数据的深度学习是机器学习领域中的一个新的方向。而深度学习在人脸识别、语音识别、数据挖掘、机器翻译、自然语言处理和智能推荐方面取得了举世瞩目的成就，但是，在深度学习的训练过程中，由于模型的学习能力不同，模型的训练状态是衡量模型拟合程度的标准，通常来说，一般会使用反向传播时模型输出的loss变化和评价指标来衡量模型的训练状态，但是对模型内部的变化没有有效的手段进行监控，导致不能更好的对模型训练进行监控。

发明内容

本申请的目的是提供一种用于监控神经网络模型训练状态的方法与设备，以解决现有技术中无法对模型内部进行有效监控的技术问题。

根据本申请的一个方面，提供了一种用于监控神经网络模型训练状态的方法，其中，所述方法包括：

从神经网络模型的不同网络层中确定一个或多个目标监控网络层；

获取所述目标监控网络层的状态与梯度；

基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。

进一步地，其中，所述方法还包括：

将所述目标监控网络层的状态与梯度转换成可视化图；

其中，所述基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控包括：

基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度通过原始的状态矩阵依次转化为状态图,并将多个状态图排布成一整张可视化图，以对所述神经网络模型的训练状态进行监控。

进一步地，其中，所述获取所述目标监控网络层的状态与梯度包括：

基于添加的数据收集模块从每个目标监控网络层收集所述目标监控网络层的状态与梯度。

进一步地，其中，所述从神经网络模型的不同网络层中确定一个或多个目标监控网络层包括：

从神经网络模型的不同网络层中为奇数或者偶数的相邻间隔网络层，确定一个或多个目标监控网络层。

进一步，其中，所述将所述目标监控网络层的状态与梯度转换成可视化图包括：

将所述目标监控网络层的状态与梯度对应的多维数据进行降维处理，以获得所述状态与梯度对应的降维后的二维数组；

将所述二维数组的取值范围缩放到图片像素的范围，以转换成可视化图。

进一步地，其中，当所述多维数据为五维数据，所述将所述目标监控网络层的状态与梯度对应的多维数据进行降维处理，以获得所述状态与梯度对应的降维后的二维数组包括：

将所述目标监控网络层的状态与梯度对应的五维数据进行降维处理，获得降维后的四维数据；

将所述四维数据取最大值并在通道上取平均值，以获得所述状态与梯度对应的降维后的二维数组。

根据本申请的再一方面，还提供了一种用于监控神经网络模型训练状态的设备，其中，所述设备包括：

第一装置，用于从神经网络模型的不同网络层中确定一个或多个目标监控网络层；

第二装置，用于获取所述目标监控网络层的状态与梯度；

第三装置，用于基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。

根据本申请的再一方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述方法的操作。

与现有技术相比，本申请通过从神经网络模型的不同网络层中确定一个或多个目标监控网络层，然后获取所述目标监控网络层的状态与梯度，并基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。通过本方案的这种方式，实现了对神经网络模型内部的有效监控，能够有效地提高模型的训练效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1示出根据本申请一个方面的一种用于监控神经网络模型训练状态的方法流程图；

图2示出根据本申请一个方面的一种优选实施例的神经网络模型可视化结果示意图；

图3示出根据本申请另一个方面的一种用于监控神经网络模型训练状态的设备示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为更进一步阐述本申请所采取的技术手段及取得的效果，下面结合附图及优选实施例，对本申请的技术方案，进行清楚和完整的描述。

图1示出本申请一个方面提供的一种用于监控神经网络模型训练状态的方法流程图，该方法通过设备1执行，该方法包括以下步骤：

S11从神经网络模型的不同网络层中确定一个或多个目标监控网络层；

S12获取所述目标监控网络层的状态与梯度；

S13基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。

在本申请中，所述方法通过设备1执行，所述设备1为计算机设备和/或云，所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集；所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。

在此，所述计算机设备和/或云仅为举例，其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内，在此，以引用的方式包含于此。

在该实施例中，在所述步骤S11中，从神经网络模型的不同网络层中确定一个或多个目标监控网络层。在此，神经网络模型包括能够进行网络模型训练的任何网络模型，例如，包括但不限于残差网络、长短时记忆网络(LSTM，Long Short-Term Memory Network)等等，其中，模型中的不同网络层包括但不限于模型中不同模块接口，通常可以把模型中不同模块接口的状态作为目标监控网络层的监控数据，比如在LSTM中，每一个LSTM单元输出的状态数据和输出数据等等。在此，所述目标监控网络层的确定可将神经网络模型中每个模块作为目标监控网络层，或者，会提前根据需求进行预设，将预设的一或者多个模块作为目标监控网络层，在此，对于目标监控网络层的设定不做任何限定。

可选地，所述步骤S11包括：从神经网络模型的不同网络层中为奇数或者偶数的相邻间隔网络层，确定一个或多个目标监控网络层。在该实施例中，对于目标监控网络层的确定为了节省设备资源，提高监控效率，可以无需对神经网络模型中的每个模块进行监控，而选取间隔一个模块进行监控的方式，以提高效率。

继续在该实施例中，在所述步骤S12中，获取所述目标监控网络层的状态与梯度。在此，所述状态与梯度为所述目标监控网络层的相关输出数据，用以反映所述目标监控网络层的训练情况，其中，梯度可以反馈神经网络的反向传播是否可以影响到检测点(即梯度提取位置)，若梯度值正常说明对应的网络层可正常发挥作用；其中，状态可体现网络当前的拟合状况，拟合状况越好代表训练情况越好。

可选地，其中，所述步骤S12包括：基于添加的数据收集模块从每个目标监控网络层收集所述目标监控网络层的状态与梯度。在该实施例中，数据收集模块用以专门收集每个目标监控网络的状态与梯度，所述数据收集模块可以调用或者收集神经网络模型的不同网络层的状态与梯度。

具体地，深度学习在构建过程中，每个模块会返回下一个模块需要的信息，对于需要收集的状态和梯度，需要额外创建一个数据收集模块用以保存，并在产生此状态的模块内传递到主程序，收集到的N个目标监控网络层状态此处命名为state1，state2，...，stateN(按照一般深度学习的数据格式，state包括但不限于多维的数组，以5维数组举例，其尺寸为(b，s，c，w，h)，其中b为批batch的大小，s为每批内序列的长度，c，w，h分别对应每个子状态的通道大小，宽度，和高度)，而梯度的收集需要在主程序中调用神经网络模型对应模块，并提取其梯度属性，在此，grad同样为5维的数组进行举例，对应收集到的梯度命名为grad1，grad2，...，gardN。

继续在该实施例中，在所述步骤S13中，基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。通过这种方式能够直观清晰地反应出整个神经网络模型内部各个目标监控层的训练状态，且顺序排布的方式能够更直白地与神经网络模型进行对应，便于更好的进行监控。在该实施例中，由于神经网络模型的模块构成存在先后的顺序，因此，对于获取到的状态与梯度需按照对应的模块，也即对应的目标监控网络层在神经网络模型中的先后顺序进行依序排布，以形成对整个神经网络模型的训练状态进行监控。

可选地，其中，所述方法还包括：S14(未示出)将所述目标监控网络层的状态与梯度转换成可视化图；其中，所述步骤S13包括：

基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度通过原始的状态矩阵依次转化为状态图，并将多个状态图排布成一整张可视化图，以对所述神经网络模型的训练状态进行监控。

在该实施例中，会将多个所述目标监控网络层的状态与梯度分别转化成对应的状态图，并按照神经网络模型的结构，将状态图排列成整张可视化图能够更好地表示网络的状态。在此，所述可视化图为可视化二维图片，通过这样的方式能够直观地将神经网络模型的训练状态呈现出来，便于技术人员直观地对训练情况进行了解。

可选地，其中，所述步骤S14包括：

S141(未示出)将所述目标监控网络层的状态与梯度对应的多维数据进行降维处理，以获得所述状态与梯度对应的降维后的二维数组；

S142(未示出)将所述二维数组的取值范围缩放到图片像素的范围，以转换成可视化图。

在该实施例中，会对每个目标监控网络层的状态与梯度对应的多维数据进行降维处理，获得降维后的二维数据，并将所述二维数组的取值范围缩放到图片像素的范围，这种方式可形成可视化图。

可选地，其中，当所述多维数据为五维数据，所述步骤S141包括：

将所述目标监控网络层的状态与梯度对应的五维数据进行降维处理，获得降维后的四维数据；将所述四维数据取最大值并在通道上取平均值，以获得所述状态与梯度对应的降维后的二维数组。

在该实施例中，具体地，以状态(state)和梯度(grad)分别都是五维数组进行举例，若想要对其可视化，需要进行降维处理。通过每次只取用多个批次中的第一批，五维数据(b，s，c，w，h)就降维为(s，c，w，h)，之后在seq(sequence，序列)上进行对数组取最大值，并在通道上取平均值，这个数组就转变成了二维数据，即图片的单通道形式。为了方便可视化，还需要需要将state和grad的取值范围缩放到图片像素的范围(即0～255)，同时，记录他们各自的最大值和最小值。由于当前的数据范围映射到0～255，图片的像素显示只有0～255范围，数据缩放到图片像素范围后，只能显示数据的分布，无法看到数据的范围，因此，需要数据的最大值最小值作为参考，也即，记录了最大值最小值之后，才能还原到原先的数据范围。按照神经网络模型的结构，将每一个state和grad排布在各自的一整张图上，然后将其保存，即可得到神经网络模型当前训练状态的可视化形态。通过这种方式即可实现在神经网络模型深度学习的训练中目标监控网络层的状态和梯度的实时监测。

如图2所示，示出根据本申请一个方面的一种优选实施例的神经网络模型可视化结果示意图，其中，所示神经网络模型ConvLSTM模型，网络分为Encoder和Decoder两部分，在横向方向上，左边的10排为Encoder的状态，右边的10排为Decoder的状态，Encoder与Decoder的结构都为6*10,其中10为序列的长度(从左往右以此为1-10)，6为encoder的层数(从下往上一次为1-6)，图中每一行代表一层网络的状态，每一列代表一个序列。

从图中可以看出，在学习过程中Encoder的第六层的信息非常少，这说明在信息传播过程中，第六层的作用不是很大，而在Decoder中几乎每个状态都有非常多的噪音，说明网络的训练程度还不够。

图3示出根据本申请另一个方面的一种用于监控神经网络模型训练状态的设备示意图，其中，所述设备1包括：

第一装置11，用于从神经网络模型的不同网络层中确定一个或多个目标监控网络层；

第二装置12，用于获取所述目标监控网络层的状态与梯度；

第三装置13，用于基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。

此外，本申请实施例还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述方法。

本申请实施例还提供了一种用于优化神经网络文本识别模型的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行前述方法的操作。

例如，计算机可读指令在被执行时使所述一个或多个处理器：从神经网络模型的不同网络层中确定一个或多个目标监控网络层；获取所述目标监控网络层的状态与梯度；基于所述目标监控网络层在所述神经网络模型的排布顺序，将所述目标监控网络层的状态与梯度依序排布，以实现对所述神经网络模型的训练状态进行监控。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种用于监控神经网络模型训练状态的方法，其中，所述方法包括：

获取所述目标监控网络层的状态与梯度；

2.根据权利要求1所述的方法，其中，所述方法还包括：

将所述目标监控网络层的状态与梯度转换成可视化图；

3.根据权利要求1所述的方法，其中，所述获取所述目标监控网络层的状态与梯度包括：

4.根据权利要求1至3中任一项所述的方法，其中，所述从神经网络模型的不同网络层中确定一个或多个目标监控网络层包括：

5.根据权利要求2所述的方法，其中，所述将所述目标监控网络层的状态与梯度转换成可视化图包括：

6.根据权利要求5所述的方法，其中，当所述多维数据为五维数据，所述将所述目标监控网络层的状态与梯度对应的多维数据进行降维处理，以获得所述状态与梯度对应的降维后的二维数组包括：

7.一种用于监控神经网络模型训练状态的设备，其中，所述设备包括：

第二装置，用于获取所述目标监控网络层的状态与梯度；

8.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至6中任一项所述的方法。

9.一种用于监控神经网络模型训练状态的设备，其中，该设备包括：

一个或多个处理器；以及

存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如权利要求1至6中任一项所述方法的操作。