CN107480789B

CN107480789B - 一种深度学习模型的高效转换方法及装置

Info

Publication number: CN107480789B
Application number: CN201710669779.XA
Authority: CN
Inventors: 杨敏; 艾国; 张韵东
Original assignee: Vimicro Corp
Current assignee: Vimicro Corp
Priority date: 2017-08-07
Filing date: 2017-08-07
Publication date: 2020-12-29
Anticipated expiration: 2037-08-07
Also published as: CN107480789A

Abstract

本发明实施例的深度学习模型的高效转换方法，用于解决深度学习模型开发效率和运算效率较低的技术问题。方法包括：根据通用深度学习框架建立与NPU模型对应的数据标准化框架；利用所述数据标准化框架将深度学习模型的参数转换为所述数据标准化框架的标准参数；将所述标准参数转换为NPU模型的参数。本发明针对各通用深度学习框架的参数结构为特定处理器建立统一的数据标准化框架，根据通用深度学习框架形成的深度学习模型的参数可以利用数据标准化框架统一的数据结构形成标准数据，使得处理器进行数据解析处理的过程与深度学习模型的结构相关性大大降低，使得处理器处理过程的开发与深度学习模型的开发可以有效分离。还包括相应的高效转换装置。

Description

一种深度学习模型的高效转换方法及装置

技术领域

本发明涉及深度学习框架的数据处理，特别涉及一种深度学习模型的高效转换方法及装置。

背景技术

在深度学习技术领域，通常利用如Caffe、TensorFlow和Torch等通用深度学习框架定义海量数据处理和分析的深度学习模型，深度学习模型的训练和数据分析需要大量的计算资源。由于不同的通用深度学习框架对数据信息的存储方式和解析方式存在较大差异，同时受限于处理器的硬件结构差异，导致深度学习模型数据处理和数据调度过程往往不能与处理器结构特点相适应，降低了处理器的运算效率。

例如在现有技术方案中，直接把深度学习模型转换成神经网络处理器(NPU)的数据处理模型时需要依靠相应的转换工具，转换工具的开发需要开发人员熟悉深度学习框架的同时还要非常熟悉神经网络处理器的硬件执行特点，设计难度非常大。不采用良好的转换工具直接在神经网络处理器上运行深度学习模型，深度学习模型的通用性会成为神经网络处理器的障碍，造成执行效率低下。

发明内容

有鉴于此，本发明实施例提供了一种深度学习模型的高效转换方法及装置，用于解决深度学习模型开发效率和运算效率较低的技术问题。

本发明的深度学习模型的高效转换方法，包括：

根据通用深度学习框架建立与NPU模型对应的数据标准化框架；

利用所述数据标准化框架将深度学习模型的参数转换为所述数据标准化框架的标准参数；

将所述标准参数转换为NPU模型的参数。

本发明的深度学习模型的高效转换装置，包括：

数据标准化框架生成模块，用于根据通用深度学习框架建立与NPU模型对应的数据标准化框架；

标准数据生成模块，用于利用所述数据标准化框架将深度学习模型的参数转换为所述数据标准化框架的标准参数；

数据转换模块，用于将所述标准数据转换为处理器数据。

本发明的深度学习模型的高效转换装置，包括存储介质，存储介质中包括：

数据转换模块，用于将所述标准数据转换为处理器数据。

本发明的深度学习模型的高效转换方法及装置针对各通用深度学习框架的参数结构为NPU处理器模型建立统一的数据标准化框架，根据通用深度学习框架形成的深度学习模型的参数可以利用数据标准化框架统一的数据结构形成标准参数，使得NPU处理器进行数据解析处理的过程与深度学习模型的结构相关性大大降低，使得NPU处理器处理过程(如微代码编程)的开发与深度学习模型的开发可以有效分离，避免了转换工具带来的开发难度。标准参数的数据结构可以通过合理转换进一步优化形成与NPU处理器的数据结构更适配的NPU处理器模型的参数，实现NPU处理器处理过程的早期优化。

附图说明

图1为本发明实施例深度学习模型的高效转换方法的流程图。

图2为本发明实施例深度学习模型的高效转换方法的数据处理流程图。

图3为本发明实施例深度学习模型的高效转换方法中建立深度学习模型的流程图。

图4为本发明实施例深度学习模型的高效转换方法中建立数据标准化框架的流程图。

图5为本发明实施例深度学习模型的高效转换方法中形成标准参数的流程图。

图6为本发明实施例深度学习模型的高效转换方法中形成标准参数的一种深度学习模型的结构示意图。

图7为本发明实施例深度学习模型的高效转换方法中形成处理器数据的流程图。

图8为本发明实施例深度学习模型的高效转换装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

附图中的步骤编号仅用于作为该步骤的附图标记，不表示执行顺序。

本发明实施例深度学习模型的高效转换方法利用通用深度学习框架建立的数据标准化框架将深度学习模型进行数据结构转换，形成与NPU处理器模型相适应的标准参数，利用NPU处理器模型对标准参数进行适应硬件处理的进一步优化处理形成处理器模型的参数。

图1为本发明实施例深度学习模型的高效转换方法的流程图。如图1所示包括：

步骤200：根据通用深度学习框架建立与NPU模型对应的数据标准化框架。

NPU处理器根据处理器硬件特点具有固定模型的数据结构，处理器进行数据处理过程中通过固定的数据结构运用参数进行微代码处理。

步骤300：利用所述数据标准化框架将深度学习模型的参数转换为所述数据标准化框架的标准参数。

步骤40：将标准参数转换为NPU模型的参数。

本发明实施例的深度学习模型的高效转换方法通过数据标准化框架建立不同通用深度学习框架与NPU处理器模型数据结构的映射规则，深度学习模型基于不同通用深度学习框架形成，数据标准化框架保证深度学习模型的具体描述参数可以转换为适配NPU处理器硬件性能的标准参数，极大简化了深度学习模型和处理器数据模型间数据传递的开发难度。

图2为本发明实施例深度学习模型的高效转换方法的数据处理流程图。如图2所示包括：

步骤100：根据通用深度学习框架建立深度学习模型。

每种通用深度学习框架都定义了本框架内的标准功能层，包括但不限于数据层、视觉层、损耗层、激励层和一般层，在不同的通用深度学习框架中主要功能层会有进一步的具体定义，例如：数据层可以定义为数据库层、内存层、数据流输入/输出层、视窗层或图像层等。视觉层可以定义为卷积层、池化层或LRN(Local Response Normalization)层等。损耗层可以定义为Softmax层、Hinge/Margin层或Infogain层等。激励层可以定义为ReLU(Rectified-Linear and Leaky-ReLU)层或Sigmoid层等。一般层可以定义为全连接层(Inner Product)、分割层(Splitting)或平整层(Flattening)等。

根据深度学习数据处理的逻辑过程可以利用不同数量和类型的功能层形成具有不同数据连接拓扑结构的基础深度学习模型，通过对各功能层的初始状态或运算状态进行配置，加载各功能层输入数据参数或输出数据参数，形成具有明确数据处理目的的深度学习模型。

每个深度学习框架中的对应功能层受主要处理功能和实现方法的限定具有一部分相似参数和另一部分差异参数，功能层的参数可以用统一的数据结构进行描述和存储。描述各功能层参数的数据结构参考处理器(例如神经网络处理器)的特定类型参数形成数据标准化框架。

深度学习模型携带具体功能层结构信息、配置参数和数据参数，经过简单的数据键-值检索和赋值，可以将深度学习模型的全部信息储存在数据标准化框架中形成深度学习模型的标准参数。

步骤400：根据所述NPU模型的数据结构将所述标准参数转换为所述NPU模型的参数。

步骤400是步骤40的进一步具体处理过程。处理器数据结构与数据标准化框架存在映射规则，将深度学习模型的标准参数映射至处理器模型的数据结构形成处理器数据作为处理器数据处理过程的输入数据。

本发明实施例的深度学习模型的高效转换方法针对各通用深度学习框架的参数结构为NPU处理器模型建立统一的数据标准化框架，根据通用深度学习框架形成的深度学习模型的参数可以利用数据标准化框架统一的数据结构形成标准参数，使得NPU处理器进行数据解析处理的过程与深度学习模型的结构相关性大大降低，使得NPU处理器处理过程(如微代码编程)的开发与深度学习模型的开发可以有效分离，避免了转换工具带来的开发难度。标准参数的数据结构可以通过合理转换进一步优化形成与NPU处理器的数据结构更适配的NPU处理器模型的参数，实现NPU处理器处理过程的早期优化。

图3为本发明实施例深度学习模型的高效转换方法中建立深度学习模型的流程图。如图3所示建立深度学习模型包括：

步骤110：根据通用深度学习框架的功能层逻辑结构建立深度学习模型的功能层。

深度学习模型利用通用深度学习框架的层结构体现，功能层通常包括数据层、视觉层、损耗层、激励层和一般层，根据选择的通用深度学习框架，各功能层具有明确的参数定义。深度学习模型通过参数定义形成功能层的数据连接拓扑结构和数据处理逻辑架构。

步骤120：导入功能层的配置参数。

配置参数为深度学习模型中每一功能层的具体配置状态，包括功能层间形成连接关系的参数，功能层具体类型的参数，功能层数据输入输出控制的参数等。

步骤130：导入功能层的数据参数。

数据参数包括导入各功能层的待处理数据集合，导入各功能层用于数据处理的训练数据集合等。

本发明实施例的深度学习模型的高效转换方法根据具体研发需要，利用通用深度学习框架的层结构描述，形成解决具体研发问题的深度学习模型，并为各功能层填充用于数据处理的配置参数和数据参数，使得深度学习模型的基本数据结构符合通用深度学习框架的数据结构规范。

图4为本发明实施例深度学习模型的高效转换方法中建立数据标准化框架的流程图。如图4所示建立数据标准化框架包括：

步骤210：获取通用深度学习框架中各功能层的数据连接拓扑结构形成功能层的逻辑架构。

通用深度学习框架中以层结构描述了深度学习的数据处理过程，包括各功能层间数据输入输出的连接方向，提取数据输入输出的连接方向形成功能层的逻辑架构。

步骤220：从逻辑架构中获取各功能层的层功能类型和层参数类型。

在各通用深度学习框架中包括功能类型唯一的独立功能层，也包括属于同一功能类型但存在功能差别的相似功能层。独立功能层具有独立的层参数类型，相似功能层具有相似的层参数类型和区别的层参数类型。层参数类型可以分为层配置参数类型和层数据参数类型。

步骤230：根据层功能类型和层配置参数类型建立功能层的层结构体。

层结构体包括功能层的配置参数结构，用于标准化存储功能层的配置参数，还包括功能层的数据流向指针结构，用于标准化存储功能层的数据流向参数。

步骤240：根据层功能类型和层数据参数类型建立功能层的数据结构体。

数据结构体包括功能层的数据参数结构，用于标准化存储功能层的数据参数，数据参数包括输入或输出的数据训练集，数据向量集，可数据索引的精度数据。

步骤250：各功能层的层结构体和数据结构体形成与NPU模型对应的数据标准化框架。

本发明实施例深度学习模型的高效转换方法利用各功能层的层结构体和数据结构体形成的数据标准化框架可以适应根据不同通用深度学习框架形成的深度学习模型的参数标准化存储，使得标准化存储的深度学习模型数据既可以反映深度学习模型的逻辑架构又可以脱离通用深度学习框架的复杂参数定义。

图5为本发明实施例深度学习模型的高效转换方法中形成标准参数的流程图。如图5所示形成标准参数包括：

步骤310：将深度学习模型的各功能层的层功能类型的参数和层配置参数类型的参数存入数据标准化框架的层结构体。

步骤320：将深度学习模型的各功能层的数据参数类型的参数存入数据标准化框架的数据结构体。

步骤330：通过数据标准化框架将层结构体和数据结构体的参数形成标准参数。

本发明实施例深度学习模型的高效转换方法利用数据标准化框架形成与功能层对应的层结构体和数据结构体，可以完成深度学习模型各类数据参数的对应转换和存储，快速形成符合数据标准化框架的标准参数，标准参数摆脱了深度学习模型中复杂和特殊的参数定义，可以直接用于处理器的进一步数据处理。

图6为本发明实施例深度学习模型的高效转换方法中形成标准参数的一种深度学习模型的结构示意图。如图6所示深度学习模型的通用深度学习框架为Caffe，功能层包括mnist、conv1、pool1、conv2、pool2、ip1、ip2、relu1、loss和accuracy，每一功能层包括相应的配置参数(附图中的矩形图框中)，同时每一功能层也包括数据参数(附图中的六边形图框中)以及数据参数在功能层间的流向(附图中的箭头方向)。例如功能层中的卷积层conv1，包括配置参数kernel size、stride、pad等功能层的配置参数，也包括数据参数conv1，数据参数conv1连接的箭头指示了卷积层conv1形成的卷积数据作为数据参数指向池化层pool1。

如图6所示，在确定深度学习模型的功能层的配置参数和数据参数后，在数据标准化框架中功能层的数据结构至少包括：层类型-层序号-层结构体配置参数-数据结构体数据参数，将深度学习模型每一层的配置参数和数据参数转换至数据标准化框架中形成深度学习模型的标准参数。

图7为本发明实施例深度学习模型的高效转换方法中形成处理器输入数据的流程图。如图7所示形成处理器数据包括：

步骤410：根据NPU模型的层数据结构，将标准参数中部分功能层的层功能类型的参数和层配置参数类型的参数合并，形成部分功能层的层结构合并。

步骤450：根据NPU模型的层数据结构进行转换形成NPU模型的参数。

处理器硬件性能特点需要特定的层数据结构进行数据存储，标准参数保证了根据通用深度学习框架想成深度学习模型的数据一致性，需要将标准参数中相关功能层根据类型进行合并使得数据存储适应处理器的层数据结构减小数据吞吐带宽，在实际处理器数据处理时提高运行速度。

例如参考图5所示，标准参数中包括功能层conv1、pool1、conv2、pool2、ip1、relu1、ip2，进行层合并后形成conv1+pool1、conv2+pool2、ip1+relu1、和ip2四层与处理器的层数据结构对应。

如图7所示，本发明实施例深度学习模型的高效转换方法中还包括：

步骤420：将标准参数中功能层的数据参数类型的浮点数据进行定点化形成定点数据。

受处理器硬件性能特点局限(例如在神经网络处理器中)，处理器在浮点数据运算过程中处于低效率，需要进行必要的定点化运算，将浮点数据转换为定点数据。

定点化运算还可以包括浮点数据的转置、对齐。

进一步步骤420与步骤450间还包括：

步骤430：对定点数据进行稀疏编码。

利用稀疏编码对定点数据进行必要的压缩，可以有效减小数据带宽需求有利于处理器的层数据结构储存。

步骤440：对低效运算进行预处理形成结果数据。

受处理器硬件性能特点局限，处理器在特定处理过程中处于低效率，一种克服的方法是在特定处理过程的数据输入确定的基础上预先完成特定处理过程获得结果数据，将结果数据直接输入处理器的层数据结构储存。

例如在神经网络处理器中，NPU对除法和指数运算的效率低于乘法和加法，直接采用NPU进行除法和指数运算会对并行运算造成影响，因此采用预先完成一个数值范围的除法和指数运算获得结果数据并存入层数据结构储存可以加快实际处理器运算时的并行效率。

本发明实施例深度学习模型的高效转换方法以处理器的层数据结构为基准以提高处理器数据处理效率为目的，在标准参数向处理器的层数据结构的转换过程中完成提高处理器数据处理效率的数据优化，使得标准参数的转换充分适应特定处理器的硬件性能特点。

图8为本发明实施例深度学习模型的高效转换装置的结构示意图。本实施例的高效转换装置的各个模块和单元可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)或逻辑门阵列(FPGA)来实现。还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样实现本发明的程序可以存储在计算机可读介质上。如图8所示包括：

数据标准化框架生成模块1200，用于根据通用深度学习框架建立与NPU模型对应的数据标准化框架；

标准数据生成模块1300，用于利用所述数据标准化框架将深度学习模型的参数转换为所述数据标准化框架的标准参数；

数据转换模块1040，用于将标准参数转换为NPU模型的参数。

在一个实施例中数据转换模块1040包括数据转换第一子模块1400，用于根据所述NPU模型的数据结构将所述标准参数转换为所述NPU模型的参数。

在一个实施例中数据标准化框架生成模块1200包括：

逻辑架构接收单元1210，用于获取通用深度学习框架中各功能层的数据连接拓扑结构形成功能层的逻辑架构。

功能层参数接收单元1220，用于从逻辑架构中获取各功能层的层功能类型和层参数类型。

层结构体建立单元1230，用于根据层功能类型和层配置参数类型建立功能层的层结构体。

数据结构体建立单元1240，用于根据层功能类型和层数据参数类型建立功能层的数据结构体。

框架建立单元1250，用于各功能层的层结构体和数据结构体形成与NPU模型对应的数据标准化框架。

在一个实施例中标准数据生成模块1300包括：

层结构体存储单元1310，用于将深度学习模型的各功能层的层功能类型的参数和层配置参数类型的参数存入数据标准化框架的层结构体。

数据结构体存储单元1320，用于将深度学习模型的各功能层的数据参数类型的参数存入数据标准化框架的数据结构体。

标准数据存储单元1330，用于通过数据标准化框架将层结构体和数据结构体的参数形成标准参数。

在一个实施例中数据转换第一子模块1400包括：

层合并单元1410，用于根据NPU模型的层数据结构，将标准参数中部分功能层的层功能类型的参数和层配置参数类型的参数合并，形成部分功能层的层结构合并。

定点化单元1420，用于将标准参数中功能层的数据参数类型的浮点数据进行定点化形成定点数据。

编码单元1430，用于对定点数据进行稀疏编码。

预处理单元1440，用于对低效运算进行预处理形成结果数据。

处理器数据存储单元1450，用于根据NPU模型的层数据结构进行转换形成NPU模型的参数。

在一个实施例中还包括深度学习模型生成模块1000，用于根据通用深度学习框架建立深度学习模型。

在一个实施例中深度学习模型生成模块1000包括：

功能层建立单元1110，用于根据通用深度学习框架的功能层逻辑结构建立深度学习模型的功能层。

配置导入单元1120，用于导入功能层的配置参数。

数据导入单元1130，用于导入功能层的数据参数。

本发明实施例中深度学习模型的高效转换装置的具体实现和有益效果可参见数据的聚类方法，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种深度学习模型的高效转换方法，包括：

根据深度学习框架建立功能层的层结构体和数据结构体，所述层结构体和所述数据结构体形成与NPU模型对应的数据标准化框架；

将所述标准参数转换为NPU模型的参数，

其中，所述根据深度学习框架建立功能层的层结构体和数据结构体，所述层结构体和所述数据结构体形成与NPU模型对应的数据标准化框架，包括：

获取所述深度学习框架中各功能层的数据连接拓扑结构形成功能层的逻辑架构；

从所述逻辑架构中获取所述各功能层的层功能类型和层参数类型；

根据所述层功能类型和层配置参数类型建立所述功能层的层结构体；

根据所述层功能类型和层数据参数类型建立所述功能层的数据结构体；

所述层结构体和所述数据结构体形成与所述NPU模型对应的数据标准化框架。

2.如权利要求1所述的深度学习模型的高效转换方法，其特征在于，所述利用所述数据标准化框架将深度学习模型的参数转换为所述数据标准化框架的标准参数包括：

将所述各功能层的所述层功能类型的参数和所述层配置参数类型的参数存入所述数据标准化框架的所述层结构体；

将所述各功能层的所述层数据参数类型的参数存入所述数据标准化框架的所述数据结构体；

通过数据标准化框架将所述层结构体和所述数据结构体中的参数形成标准参数。

3.如权利要求1所述的深度学习模型的高效转换方法，其特征在于，所述将所述标准参数转换为NPU模型的参数包括：

根据所述NPU模型的数据结构将所述标准参数转换为所述NPU模型的参数。

4.如权利要求3所述的深度学习模型的高效转换方法，其特征在于，所述根据所述NPU模型的数据结构将所述标准参数转换为所述NPU模型的参数包括：

根据所述NPU模型的层数据结构，将所述标准参数中部分功能层的层功能类型的参数和层配置参数类型的参数合并，形成所述部分功能层的层结构合并。

5.如权利要求3所述的深度学习模型的高效转换方法，其特征在于，所述根据所述NPU模型的数据结构将所述标准参数转换为所述NPU模型的参数还包括：

将所述标准参数中功能层的浮点数据进行定点化形成定点数据。

6.如权利要求5所述的深度学习模型的高效转换方法，其特征在于，所述根据所述NPU模型的数据结构将所述标准参数转换为所述NPU模型的参数还包括：

对所述定点数据进行稀疏编码。

7.如权利要求1所述的深度学习模型的高效转换方法，其特征在于，还包括：

根据所述深度学习框架建立所述深度学习模型。

8.如权利要求7所述的深度学习模型的高效转换方法，其特征在于，所述根据深度学习框架建立深度学习模型包括：

根据所述深度学习框架的功能层逻辑结构建立深度学习模型的功能层；

导入所述功能层的配置参数；

导入所述功能层的数据参数。

9.一种深度学习模型的高效转换装置，包括：

数据标准化框架生成模块，用于根据深度学习框架建立功能层的层结构体和数据结构体，所述层结构体和所述数据结构体形成与NPU模型对应的数据标准化框架；

数据转换模块，用于将所述标准参数转换为NPU模型的参数，

其中，所述数据标准化框架生成模块还用于：