CN116128046B

CN116128046B - 嵌入式设备的多输入神经网络模型串行块的存储方法

Info

Publication number: CN116128046B
Application number: CN202310400435.4A
Authority: CN
Inventors: 钟宇清; 凌云; 杨常星; 宋蕴; 宋一平; 黄磊; 应屹航
Original assignee: Hangzhou Nationalchip Science & Technology Co ltd
Current assignee: Hangzhou Guoxin Microelectronics Co.,Ltd.
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-07-18
Anticipated expiration: 2043-04-14
Also published as: CN116128046A

Abstract

本发明公开了嵌入式设备的多输入神经网络模型串行块的存储方法。本发明方法提出了一种多输入神经网络模型结构，该结构要求神经网络模型按照数据更新频率的不同分为多个串行块，每个串行块包含一层或多层神经网络。通过遍历所有存储情况，并进行多输入神经网络模型的运行，测量和记录每种存储情况的功耗和运行时间数据，选取功耗最低，并满足运行时间要求的存储方案，作为最终串行块部署方案。本发明通过对网络模型结构的优化，以及对应此结构的部署优化，降低该神经网络部署在端侧嵌入式设备上的算力需求，运行功耗要求。从而使得嵌入式设备可以部署更大规模的多输入神经网络模型，以提升模型的可配置性和泛化能力。

Description

嵌入式设备的多输入神经网络模型串行块的存储方法

技术领域

本发明属于嵌入式设备技术领域，具体地说是一种嵌入式设备的多输入神经网络模型串行块的存储方法。

背景技术

神经网络模型已经被广泛应用于计算机视觉、自然语言处理等领域。随着技术的不断发展，人们对神经网络模型的期望越来越高。然而，由于神经网络模型需要大量的计算资源和存储空间，这使得在嵌入式设备上部署神经网络模型成为一个具有挑战性的问题。端侧嵌入式设备对神经网络有实时要求，功耗要求，算力要求，可配置性要求，隐私保护要求，这使得神经网络模型的部署变得更加复杂。对端侧神经网络模型部署的相关需求和常见解决手段主要如下：

可配置性要求：这个需求是神经网络落地实际产品时都会遇到的需求。这个需求主要出现在方案调试阶段以及客户使用阶段。在方案调试阶段，方案调试人员在推广客户时，灵活可配对于方案的快速落地会有非常大的帮助。由于网络模型是轻量级的，一般轻量级网络由于泛化能力的不足，并不能支持较多的配置项，以改变效果。常用的做法是训练很多个轻量级模型，这在选项较少的情况下可行，如果选项较多时，模型个数将会随着选项的个数成指数次上升，这对于训练模型海还是部署模型都是不可接受的。比如每个选项分2档进行训练，那么10个选项，排列组合将达到2的10次方个模型。在客户使用阶段，也有些个性化的选项需要调节，比如图像的清晰程度，降噪的强度等，端侧设备存储空间有限，无法存放过多的模型。

隐私保护要求：用户的图像，声音等都是隐私信息，在用户隐私越来越重视的今天很多产品都会限制端侧用户数据的搜集。

实时性要求：对端侧视音频处理网络而言，实时性要求是一个基本需求，实时性不能满足要求，可能会出现视频丢帧，声音断续等异常情况，这是方案上无法接受的。

功耗要求：功耗要求对于嵌入式设备，也是一个基本要求，特别对于电池供电设备而言，更是方案设计时考虑的主要因素之一。

算力要求：嵌入式设备由于成本和功耗的原因的导致计算资源有限，因此在部署和设计神经网络时需要采取很多优化手段。

以下列举一些为了满足，实时性，功耗和算力要求，而采用的模型优化部署方法：

第一类方法是对网络的权重进行量化和压缩，由于嵌入式设备上存储空间有限，这种手段主要目的是为了减少权重的存储量。

第二类手段是优化网络的结构采用知识蒸馏，结构化剪枝等手段使得网络结构轻量化。如专利CN108280453A公开一种基于知识蒸馏的图像超分辨率增强方法，通过知识蒸馏技术对超分辨率网络进行轻量化训练，从而实现低功耗和效果的平衡。但轻量化网络由于其计算复杂度的降低，在复杂场景下，势必导致泛化性能的损失。

第三类手段是采用云端结合的方式来解决轻量级网络在部署时效果问题，专利CN115170840A提供一种在云侧设备上部署有参数生成模型，端侧设备上部署有轻量级模型。通过端侧信息的搜集反馈给云端服务器，而云端服务器实时更新端侧模型参数。从而在不增加端侧模型资源负担的情况下，提升端侧模型的泛化能力。但端侧设备存在几个实际问题，是该方案无法解决的：首先，端侧设备存在无法联网的情况，模型无法更新。其次，端侧设备有隐私保护要求，无法提供当前用户的数据给云端。再次，对于实时性要求非常高的应用，如实时的超分辨率恢复，自动驾驶等，网络由于存在延迟和信号质量问题并不能确保实时性满足要求。

在端侧部署神经网络的过程中，通过配置信息，统计信息的输入，提升模型的可配置性和泛化能力，但由于端侧嵌入式设备存在资源，功耗，联网能力等限制，输入信息的增加需要模型计算复杂度相应增加，才能提高泛化能力，但模型的轻量化要求限制了其性能的进一步提升。特别是对于实时超分辨率网络而言，由于其处理图像的分辨率一般较大，其实时性要求较高，对算力的需求十分巨大，因此在端侧嵌入式设备往往只能采用极度精简的轻量化模型，场景的适应性较差，直接通过参数增加参数的方式，提升的泛化能力比较有限。训练多个模型的方法如上文所述将面临着模型个数爆炸问题。如果交给云端参数生成模型处理，又面临着隐私保护和实时性的问题。

发明内容

本发明的目的在于提供一种嵌入式设备的多输入神经网络模型串行块的存储方法。本发明方法利用输入数据更新速度的不同，通过对网络模型结构的优化，以及对应此结构的部署优化，降低该神经网络部署在端侧嵌入式设备上的算力需求，运行功耗要求。从而使得嵌入式设备可以部署更大规模的多输入神经网络模型，以提升模型的可配置性和泛化能力。

本发明的具体技术方案是：

所述嵌入式设备包含输入单元、神经网络计算单元、输出单元、中央处理器和存储器。其中：

输入单元进行数据的输入和前处理，如摄像头信号接收模块和传统ISP模块；

神经网络计算单元通过对多输入神经网络模型进行推理计算，处理输入单元所获取的数据；所述的多输入神经网络模型包含多个输入数据接口，并且输入的数据之间具有多个更新频率差异；

输出单元将神经网络计算单元处理后的结果输出到显示设备或存储器中；

中央处理器负责调度、配置和部署神经网络模型；

存储器用于存储神经网络模型的参数和数据，包括片内SRAM、DRAM和Flash。

所述的多输入神经网络模型的参数包括神经网络的结构信息和权重信息，为神经网络模型训练完成后固化不变的信息；

所述的多输入神经网络模型的数据包括神经网络的输入数据和输出数据，以及推理过程中的每一层输出的临时数据；

所述的多输入神经网络模型的输入数据为配置信息、统计数据和图像数据中的一种或多种；

所述的多输入神经网络模型的结构按输入数据更新频率的不同，由低到高分为N个串行块，N≥2，数据更新频率相同的结构作为一个串行块；每个串行块包含一层或多层神经网络，如卷积神经网络、全连接神经网络和循环神经网络；串行块存储多输入神经网络模型该块的参数和数据；

第一串行块K₁接收更新频率最低的数据输入，第一串行块K₂接收更新频率次低的数据输入和第一串行块K₁的输出，以此类推，第N串行块K_N接收更新频率最高的数据输入和第N-1串行块K_N-1的输出；如果更新频率相同，则作为同一个块的输入。

所述多输入神经网络模型采用有监督训练，并采用BP算法进行优化，不同串行块之间均为可导。

具体存储方案确定方法如下：

将多个存储器按照访问速度从慢到快进行排序，C₁,…,C_M，M为存储器数量；将N个串行块的参数和数据以串行块为单位存储到M个存储器中，更新频率低的串行块的参数和数据存储到访问速度慢的存储器,如果第n个串行块K_n的参数和数据存储到第m个存储器C_m中，则第n+1个串行块K_n+1的参数和数据存储到第m个存储器C_m或第m+1个存储器C_m+1中；

运行所述的多输入神经网络模型，如果某个串行块K_n的输入需要更新，则中央处理器调度神经网络计算单元，对该串行块K_n进行计算，得到该串行块K_n输出，作为第n+1串行块K_n+1的输入，n=1,2,…,N-1；中央处理器调度神经网络计算单元，对第n+1串行块K_n+1进行计算，得到第n+1串行块K_n+1的输出，作为第n+2串行块K_n+1的输入；以此类推，第N串行块K_N的输出，完成推断。对串行块K_n之前的串行块K₁,…,K_n-1不进行计算；

按照以上条件，遍历所有存储情况，并进行多输入神经网络模型的运行，测量和记录每种存储情况的功耗和运行时间数据，选取功耗最低，并满足运行时间要求的存储方案，作为最终串行块部署方案。

本发明通过对多输入神经网络模型在结构上进行了优化，在此结构的基础上提出了一种串行块的存储和推断方法，从而优化多输入神经网络模型的运行功耗和算力要求。在同等功耗和算力要求下，嵌入式设备可以部署更大规模的多输入神经网络模型，以提升模型的可配置性和泛化能力。

附图说明

图1为本发明实施例网络模型的结构及其分块存储示意图；

图2为本发明实施例多输入神经网络模型运行流程示意图。

实施方式

以下结合附图和实施例对本发明方法进一步说明。应当注意到，除非另外特殊说明，否则在实施例中阐述涉及的相对设置、数字表达式、字母表达式和数值不限定本发明的范围，提供这写实施例仅为了让相关人员更便于理解本发明。对相关领域的技术人员公知的技术方法可能不做过多描述。但一定条件下，本发明所述技术、方法和系统应当被视为说明书的一部分。

图1展示了实时超分辨率网络模型的结构及其分块存储方案。该网络为多输入神经网络模型，除了需要处理的实时原始图像之外，还将各种输入单元的配置作为参数输入到模型中，以增强模型在不同输入配置的情况下的泛化能力。对超分辨率模型而言，需要有一定的抑制噪声的能力，但由于噪声强弱的不同，模型需要根据当前输入图像进行自适应降噪，因此对模型的泛化能力提出了较高的要求。ISO值是和模型噪声强度相关性最大的参数，因此把ISO值作为参数输入到模型中，可以降低模型对噪声强度检测能力的要求，提升模型对噪声的适应性。同理，其他输入图像特征相关的参数，都可以作为模型的输入以提升模型的泛化能力。

如图1所示，该多输入神经网络模型，为实时视频超分辨率网络，除了输入实时的图像数据外，为了提升网络的泛化能力，把配置信息和统计信息也作为网络的输入，根据输入参数更新频率的不同，在逻辑上把网络分为四个块。该实时视频超分辨率网络结构描述如下：

块1的输入是用户配置信息，包括锐化强度、饱和度等。这些配置信息的一般根据用户喜好设定，更新频率最低，更新实时性要求也是最低。块1的网络结构是FC结构，其参数量为512K个。

块2的输入是可见光模式配置信息，一般是在每天日夜转换时，切换成红外模式或者可见光模式，属于低频率动态信息。块2的网络结构是FC结构，其参数量为256K个。

块3的输入是ISO信息和曝光统计信息，这些信息每帧都在变化，因此属于较高频率动态信息。块3的网络结构是FC结构，其参数量为128K个。

块4的输入是实时原始图像数据，更新速率最高，实时性要求也是最高。其结构是卷积神经网络，并采用Unet结构，为了轻量化还采用了深度可分离卷积卷积。其参数量为32K个。

如图1所示，该嵌入式设备包括三种不同的存储介质，分别是Flash、DRAM和SRAM。其中Flash的空间最大，单位存储成本最低，速度最慢，访问功耗较高。DRAM空间小于Flash，单位存储成本大于Flash，访问速度快于Flash，访问功耗较低，而SRAM空间小于DRAM，无法放下块4以外的块，存储成本大于DRAM，访问功耗最低。通过对4个块在3种不同的存储器中进行部署遍历，得到最优的低功耗存储部署方案，即块1参数和输入数据、块2参数和输入数据存放在Flash中，块3参数和输入数据存放在DRAM中，块4参数和输入数据存放在SRAM中。

在完成模型的载入之后，中央处理器负责优化调度模型的计算，根据每个块输入的更新与否决定是否需要调用神经网络计算模块对该块进行计算。计算以串行块为单位进行优化方法,按下列原则进行优化：

块1在用户更改锐化强度，饱和度，降噪强度等配置后进行计算。

块2在块1输出改变或者系统更新可见光模式配置信息后进行计算。

块3在块2输出改变或者系统更新ISO信息，曝光统计信息后进行计算。

块4在图像信息改变时进行计算。

由于ISO信息和曝光统计信息为每帧更新，更新频率较高，为了减少更新次数，块3的计算频率最快是每帧进行计算。并且为了保持块4输出效果在一帧内保持一致，块3的输出必须在块4开始完整的一帧计算之前进行更新。

中央处理器具体调度策略如图2所示：

S01.初始化模型。完成模型的参数载入到对应的存储介质中。跳转到S02。

S02.判断块1的输入是否更新，即用户是否更改了配置。如果是则跳转到S021。如果否则跳转到S03。

S021.调用神经网络计算模块计算块1。跳转到S022。

S022.用输出结果更新块1的输出。跳转到S03。

S03.判断块2的输入是否更新，即块1的输出是否更新或者可见光模式配置信息是否更新。如果是则跳转到S031。如果否则跳转到S04。

S031.调用神经网络计算模块计算块2。跳转到S032。

S032.用输出结果更新块2的输出。跳转到S04。

S04.判断块3的输入是否更新，即块2的输出是否更新或者ISO信息和曝光统计信息是否更新。如果是则跳转到S041。如果否则跳转到S05。

S041.调用神经网络计算模块计算块3。跳转到S042。

S042.用输出结果更新块3的输出。跳转到S05。

S05.判断块4的输入是否更新，即图像数据是否更新。如果是则跳转到S06，如果否则跳转到S05，进行等待。

S06.调用神经网络计算单元计算块4。跳转到S07。

S07.调用输出单元把块4计算所得的超分辨率图像输出到显示设备或者编码后存储到Flash中。跳转到S02开始新的一帧处理。

Claims

1.嵌入式设备的多输入神经网络模型串行块的存储方法，其特征在于：所述的嵌入式设备包含输入单元、神经网络计算单元、输出单元、中央处理器和存储器；

所述的神经网络计算单元通过对多输入神经网络模型进行推理计算，处理输入单元所获取的数据；所述的多输入神经网络模型包含多个输入数据接口，并且输入的数据之间具有多个更新频率差异；

所述的多输入神经网络模型的结构按输入数据更新频率的不同，由低到高分为N个串行块，N≥2，数据更新频率相同的结构作为一个串行块；每个串行块包含一层或多层神经网络，串行块存储多输入神经网络模型该块的参数和数据；

第一串行块K₁接收更新频率最低的数据输入，第二串行块K₂接收更新频率次低的数据输入和第一串行块K₁的输出，以此类推，第N串行块K_N接收更新频率最高的数据输入和第N-1串行块K_N-1的输出；如果更新频率相同，则作为同一个块的输入；

所述多输入神经网络模型采用有监督训练，并采用BP算法进行优化；

具体存储方案确定方法如下：

运行所述的多输入神经网络模型，如果某个串行块K_n的输入需要更新，则中央处理器调度神经网络计算单元，对该串行块K_n进行计算，得到该串行块K_n输出，作为第n+1串行块K_n+1的输入，n＝1,2,…,N-1；中央处理器调度神经网络计算单元，对第n+1串行块K_n+1进行计算，得到第n+1串行块K_n+1的输出，作为第n+2串行块K_n+1的输入；以此类推，第N串行块K_N的输出，完成推断；对串行块K_n之前的串行块K₁,…,K_n-1不进行计算；

2.如权利要求1所述的嵌入式设备的多输入神经网络模型串行块的存储方法，其特征在于：所述的存储器包括片内SRAM、DRAM和Flash。

3.如权利要求1所述的嵌入式设备的多输入神经网络模型串行块的存储方法，其特征在于：所述的多输入神经网络模型的参数包括神经网络的结构信息和权重信息，为神经网络模型训练完成后固化不变的信息。

4.如权利要求1所述的嵌入式设备的多输入神经网络模型串行块的存储方法，其特征在于：所述的多输入神经网络模型的数据包括神经网络的输入数据和输出数据，以及推理过程中的每一层输出的临时数据。

5.如权利要求4所述的嵌入式设备的多输入神经网络模型串行块的存储方法，其特征在于：所述的多输入神经网络模型的输入数据为配置信息、统计数据和图像数据中的一种或多种。

6.如权利要求1所述的嵌入式设备的多输入神经网络模型串行块的存储方法，其特征在于：所述的输入单元进行数据的输入和前处理；所述的输出单元将神经网络计算单元处理后的结果输出到显示设备或存储器中；所述的中央处理器负责调度、配置和部署神经网络模型；所述的存储器用于存储神经网络模型的参数和数据。