CN115018066B

CN115018066B - 一种边端模式下的深度神经网络本地化训练方法

Info

Publication number: CN115018066B
Application number: CN202210564592.4A
Authority: CN
Inventors: 李昱江; 刘洪宇; 任海青; 杨林; 王浩枫
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2024-04-09
Anticipated expiration: 2042-05-23
Also published as: CN115018066A

Abstract

本发明涉及一种边端模式下的深度神经网络本地化训练方法，属于机器学习领域。本发明边缘侧处理机向终端设备发送待部署深度神经网络模型；终端设备执行智能信息处理任务，将采集的数据、模型预测结果与置信度发送至边缘侧处理机进行存储；边缘侧处理机存储的终端推理数据超过指定存储容量阈值时，对深度神经网络模型进行本地化训练；边缘侧处理机测试深度神经网络模型并将结果写入日志；测试结果高于日志记录历史最高值时，边缘侧处理机向终端设备发送本地化训练后的模型进行部署，并将伪标注训练集合并到真实标注训练集中。该方法有效改善了数据分布偏差问题，降低了人工标注成本，且有效改善了灾难性遗忘问题。

Description

一种边端模式下的深度神经网络本地化训练方法

技术领域

本发明属于机器学习领域，具体涉及一种边端模式下的深度神经网络本地化训练方法。

背景技术

随着深度学习技术的快速发展，深度神经网络已广泛应用于目标识别、人机交互、辅助决策等多种智能信息处理任务中。智能信息处理任务的一种典型部署模式是边-端部署，其中“边”为边缘侧处理机，通常配备较强的计算资源和存储资源，可承载深度神经网络的模型训练和模型推理等计算任务；“端”为终端设备，通常配备传感器、有限的计算资源和存储资源，主要承载信息采集任务，亦可承担所采集信息的数据预处理任务、以及深度神经网络的轻量化模型推理等任务。以图像目标识别任务为例，边缘侧处理机可结合本地数据集与计算资源，对深度神经网络模型进行个性化训练；边缘侧处理机进一步将训练得到的模型以网络传输的方式发送到终端设备进行部署；终端设备采集并处理图像数据，将处理后的数据输入到已部署的深度神经网络模型中进行推理计算，得到图像识别结果，完成图像识别任务。

在真实应用场景中，由于终端设备在采集数据时所面临的环境复杂多变，终端设备的数据源与模型训练的数据源存在不同程度的差异。数据源的差异会反映到数据分布偏差，严重的数据分布偏差会显著降低深度神经网络模型的泛化能力，从而降低模型推理的性能。为解决边-端模式下，训练和推理的数据分布偏差问题，以往的工作通常对新环境下采集的数据进行人工标注，然后采用新标注的数据对深度神经网络模型进行微调训练。然而，现有方法存在两个问题：

第一、人工标注增加了人力成本，并且受到人员工作时间和效率的限制；

第二、仅采用新标注的数据对深度神经网络模型进行微调训练，会使模型面临灾难性遗忘问题，所述灾难性遗忘问题是指，模型过拟合当前阶段提供的训练样本，而降低对之前阶段所利用样本的拟合能力。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是如何提供一种边端模式下的深度神经网络本地化训练方法，以解决人工标注增加了人力成本，并且受到人员工作时间和效率的限制，仅采用新标注的数据对深度神经网络模型进行微调训练，会使模型面临灾难性遗忘问题等问题。

(二)技术方案

为了解决上述技术问题，本发明提出一种边端模式下的深度神经网络本地化训练方法，该方法包括如下步骤：

步骤S1：边缘侧处理机以网络传输的方式向一台或多台终端设备发送待部署的深度神经网络模型，各台终端设备部署模型；

步骤S2：终端设备利用部署的深度神经网络模型执行智能信息处理任务，并将终端推理数据以网络传输的方式发送至边缘侧处理机，边缘侧处理机存储上述终端推理数据；终端推理数据包括采集的原始数据、模型预测结果与置信度；

步骤S3：当边缘侧处理机所存储的终端推理数据超过指定存储容量阈值时，边缘侧处理机对深度神经网络模型进行本地化训练；

步骤S4：当边缘侧处理机完成深度神经网络模型的本地化训练后，对该深度神经网络模型进行测试，并将测试结果写入性能记录日志；

步骤S5：边缘侧处理机读取性能记录日志，如果本次本地化训练后的模型测试结果高于性能记录日志中记录的历史最高值，则边缘侧处理机执行数据整理操作，并以网络传输的方式向终端设备发送本次本地化训练后的深度神经网络模型，各台终端设备部署模型；否则，边缘侧处理机执行数据清理操作。

进一步地，所述边缘侧处理机存储了所述智能信息处理任务相关的真实标注训练集、真实标注测试集和深度神经网络模型。

进一步地，所述深度神经网络模型的网络结构为ResNet18。

进一步地，所述智能信息处理任务为RGB图像目标分类；所述原始数据为RGB三通道图像数据；所述模型预测结果为预测的图像标签；所述置信度为预测图像标签的概率值。

进一步地，所述指定存储容量阈值为2GB。

进一步地，所述数据整理操作指边缘侧处理机将伪标注训练集合并到真实标注训练集中。

进一步地，所述数据清理操作指边缘侧处理机将伪标注训练集从磁盘中删除。

进一步地，所述步骤S3具体包括如下步骤：

步骤S31：边缘侧处理机将终端设备采集的原始数据、模型预测结果、模型预测结果对应的置信度进行一一对应，筛选出置信度高于预设置信度阈值的原始数据及对应的模型预测结果，构成伪标注训练集；

步骤S32：边缘侧处理机从真实标注训练集中，随机选取和伪标注数据集相同数量的真实标注样本，构成真实标注训练子集；

步骤S33：边缘侧处理机加载已部署的深度神经网络模型的参数，采用真实标注训练子集和伪标注训练集对模型进行微调训练，直至模型收敛；其中，模型训练采用批量随机梯度下降算法进行参数更新，用于批量随机梯度下降计算的每一批数据包含相同数量的真实标注样本和伪标注样本，该策略称为“真标注-伪标注”数据均衡策略。

进一步地，对于伪标注训练集中的每个样本，原始数据作为样本输入，模型预测结果作为样本标签，边缘侧处理机从磁盘中删除除伪标注训练集以外的其他终端推理数据。

进一步地，所述预设置信度阈值为0.8。

(三)有益效果

本发明提出一种边端模式下的深度神经网络本地化训练方法，本发明的有益效果包括：

第一，本发明提出一种边端模式下的深度神经网络本地化训练方法，该方法基于伪标注的半监督学习方法，能够有效处理因终端设备所采集的数据与模型训练所采用的数据存在差异而引发的数据分布偏差问题，同时能够避免对终端设备所采集的数据进行人工标注，从而降低人工成本、提升训练-部署效率。

第二，在本发明提出的边端模式下的深度神经网络本地化训练方法中，提出在批量梯度下降过程中采用“真标注-伪标注”数据均衡策略，能够有效处理灾难性遗忘问题。

附图说明

图1为本发明实例提供的边端模式下的深度神经网络本地化训练方法的总体流程示意图；

图2为本发明实例提供的边端模式下的深度神经网络本地化训练方法的本地化训练流程示意图。

具体实施方式

为使本发明的目的、内容和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明的目的在于提供一种边端模式下的深度神经网络本地化训练方法。该方法应能够有效处理如下问题：第一，避免对终端设备所采集的原始数据进行人工标注，边缘设备仅利用终端设备所采集的原始数据、终端设备所部署深度神经网络模型对所采集原始数据的预测结果、以及边缘设备所存储的有标注训练数据，来对深度神经网络模型进行训练；第二，缓解灾难性遗忘问题，即模型过拟合当前阶段提供的训练样本，而降低对之前阶段所用样本的拟合能力。

本发明公开了一种边端模式下的深度神经网络本地化训练方法，包括：边缘侧处理机向终端设备发送待部署深度神经网络模型；终端设备执行智能信息处理任务，将采集的数据、模型预测结果与置信度发送至边缘侧处理机进行存储；边缘侧处理机存储的终端推理数据超过指定存储容量阈值时，对深度神经网络模型进行本地化训练；边缘侧处理机测试深度神经网络模型并将结果写入日志；测试结果高于日志记录历史最高值时，边缘侧处理机向终端设备发送本地化训练后的模型进行部署，并将伪标注训练集合并到真实标注训练集中。所述本地化训练包括：将置信度高于阈值的原始数据及对应的模型预测结果作为伪标注训练数据；随机选取和伪标注数据集同数量的真实标注数据；边缘侧处理机加载已部署深度神经网络模型参数，采用真实标注数据和伪标注数据基于数据均衡策略微调模型。该方法通过本地化训练，有效改善了因终端设备所采集数据与模型训练所采用数据的差异而引发的数据分布偏差问题，降低了人工标注成本，且有效改善了灾难性遗忘问题。

本发明的目的是通过以下技术方案实现的：本发明提供一种边端模式下的深度神经网络本地化训练方法，包括：

步骤S2：终端设备利用部署的深度神经网络模型执行智能信息处理任务，并将采集的原始数据、模型预测结果与置信度等终端推理数据，以网络传输的方式发送至边缘侧处理机，边缘侧处理机存储上述终端推理数据；

根据本发明的边端模式下的深度神经网络本地化训练方法的一实施例，其中，所述边缘侧处理机，存储了所述智能信息处理任务相关的真实标注训练集、真实标注测试集、深度神经网络模型。

根据本发明的边端模式下的深度神经网络本地化训练方法的一实施例，其中，所述本地化训练，包括：

步骤S31：边缘侧处理机将终端设备采集的原始数据、模型预测结果、模型预测结果对应的置信度进行一一对应，筛选出置信度高于预设置信度阈值的原始数据及对应的模型预测结果，构成伪标注训练集。其中，对于伪标注训练集中的每个样本，原始数据作为样本输入，模型预测结果作为样本标签。边缘侧处理机从磁盘中删除除伪标注训练集以外的其他终端推理数据；

步骤S33：边缘侧处理机加载已部署的深度神经网络模型的参数，采用真实标注训练子集和伪标注训练集对模型进行微调训练，直至模型收敛。其中，模型训练采用批量随机梯度下降算法(BatchSGD)进行参数更新，用于批量随机梯度下降计算的每一批数据包含相同数量的真实标注样本和伪标注样本，该策略称为“真标注-伪标注”数据均衡策略。

根据本发明的边端模式下的深度神经网络本地化训练方法的一实施例，其中，所述数据整理操作，是指边缘侧处理机将伪标注训练集合并到真实标注训练集中。

根据本发明的边端模式下的深度神经网络本地化训练方法的一实施例，其中，所述数据清理操作，是指边缘侧处理机将伪标注训练集从磁盘中删除。

如图1所示，本发明实施例提供一种弱监督场景下基于强化学习的深度神经网络训练方法，包括以下步骤：

步骤1：边缘侧处理机以网络传输的方式向一台或多台终端设备发送待部署的深度神经网络模型，各台终端设备部署模型；

步骤2：终端设备利用部署的深度神经网络模型执行智能信息处理任务，并将采集的原始数据、模型预测结果与置信度等终端推理数据，以网络传输的方式发送至边缘侧处理机，边缘侧处理机存储上述终端推理数据；

步骤3：当边缘侧处理机所存储的终端推理数据超过指定存储容量阈值时，边缘侧处理机对深度神经网络模型进行本地化训练；

步骤4：当边缘侧处理机完成深度神经网络模型的本地化训练后，对该深度神经网络模型进行测试，并将测试结果写入性能记录日志；

步骤5：边缘侧处理机读取性能记录日志，如果本次本地化训练后的模型测试结果高于性能记录日志中记录的历史最高值，则边缘侧处理机执行数据整理操作，并以网络传输的方式向终端设备发送本次本地化训练后的深度神经网络模型，各台终端设备部署模型；否则，边缘侧处理机执行数据清理操作。

上述方法的步骤1中，所述待部署的深度神经网络模型，其网络结构为ResNet18。

上述方法的步骤2中，所述智能信息处理任务，具体为RGB图像目标分类；所述原始数据，具体为RGB三通道图像数据；所述模型预测结果，具体为预测的图像标签；所述置信度，具体为预测图像标签的概率值。

上述方法的步骤3中，所述指定存储容量阈值，具体为2GB。

上述方法的步骤3中，所述本地化训练，包括：

步骤31：边缘侧处理机将终端设备采集的原始数据、模型预测结果、模型预测结果对应的置信度进行一一对应，筛选出置信度高于预设置信度阈值的原始数据及对应的模型预测结果，构成伪标注训练集。其中，对于伪标注数据中的每个样本，原始数据作为样本输入，模型预测结果作为样本标签。边缘侧处理机从磁盘中删除除伪标注训练集以外的其他终端推理数据；

步骤32：边缘侧处理机从真实标注训练集中，随机选取和伪标注数据集相同数量的真实标注样本，构成真实标注训练子集；

步骤33：边缘侧处理机加载已部署的深度神经网络模型的参数，采用真实标注训练子集和伪标注训练集对模型进行微调训练，直至模型收敛。其中，模型训练采用批量随机梯度下降算法(BatchSGD)进行参数更新，用于批量随机梯度下降计算的每一批数据包含相同数量的真实标注样本和伪标注样本，该策略称为“真标注-伪标注”数据均衡策略。

上述方法的步骤31中，所述预设置信度阈值，具体为0.8。

上述方法的步骤5中，所述数据整理操作，是指边缘侧处理机将伪标注训练集合并到真实标注训练集中。

上述方法的步骤5中，所述数据清理操作，是指边缘侧处理机将伪标注训练集从磁盘中删除。

本发明的有益效果包括：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种边端模式下的深度神经网络本地化训练方法，其特征在于，该方法包括如下步骤：

步骤S5：边缘侧处理机读取性能记录日志，如果本次本地化训练后的模型测试结果高于性能记录日志中记录的历史最高值，则边缘侧处理机执行数据整理操作，并以网络传输的方式向终端设备发送本次本地化训练后的深度神经网络模型，各台终端设备部署模型；否则，边缘侧处理机执行数据清理操作；

其中，

所述步骤S3具体包括如下步骤：

2.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述边缘侧处理机存储了所述智能信息处理任务相关的真实标注训练集、真实标注测试集和深度神经网络模型。

3.如权利要求2所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述深度神经网络模型的网络结构为ResNet18。

4.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述智能信息处理任务为RGB图像目标分类；所述原始数据为RGB三通道图像数据；所述模型预测结果为预测的图像标签；所述置信度为预测图像标签的概率值。

5.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述指定存储容量阈值为2GB。

6.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述数据整理操作指边缘侧处理机将伪标注训练集合并到真实标注训练集中。

7.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述数据清理操作指边缘侧处理机将伪标注训练集从磁盘中删除。

8.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，对于伪标注训练集中的每个样本，原始数据作为样本输入，模型预测结果作为样本标签，边缘侧处理机从磁盘中删除除伪标注训练集以外的其他终端推理数据。

9.如权利要求1所述的边端模式下的深度神经网络本地化训练方法，其特征在于，所述预设置信度阈值为0.8。