CN112069903B

CN112069903B - 基于深度强化学习实现人脸识别端边卸载计算方法及装置

Info

Publication number: CN112069903B
Application number: CN202010789192.4A
Authority: CN
Inventors: 杨涛; 高丰; 梁松涛; 崔广章; 汪明军; 郁善金; 王晓江; 施佩琦
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2023-12-22
Anticipated expiration: 2040-08-07
Also published as: CN112069903A

Abstract

本发明公开了一种基于深度强化学习实现人脸识别端边卸载计算方法及装置，包括：获取真实的人脸图片，根据边端人脸识别模型训练得到分类数据，其中，分类数据包括图片名称、id、图片提取出的128维特征向量、终端预测置信度、终端预测值、边缘预测值；将深度学习与强化学习进行结合，定义马尔科夫决策过程的状态空间、动作集、奖励函数和智能体；根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用分类数据对构建好的Actor神经网络和Critic神经网络进行训练，获得智能卸载决策模型；对智能卸载决策模型的性能与基准查询策略进行对比评估；根据对比评估的结果，将智能卸载决策模型部署到智能终端设备中，进行人脸识别的任务卸载决策。

Description

基于深度强化学习实现人脸识别端边卸载计算方法及装置

技术领域

本发明涉及计算机边缘智能技术领域，尤其涉及一种基于深度强化学习(DeepReinforcement Learning，DRL)实现人脸识别端边卸载计算方法及装置。

背景技术

近年来，随着万物互联时代的到来和5G网络的普及，网络边缘的设备数量和其产生的数据量都急剧增长。另外，智能终端设备已成为人们生活的一部分，人们对服务质量的要求有了进一步提升。在这种情况下，以云计算为代表的集中式处理模式将无法高效地处理边缘设备产生的数据，无法满足人们对服务质量的需求。这时，边缘计算的出现正好解决了这一系列问题，边缘计算设备处理了部分产生的临时数据，不再需要将全部数据上传至云端，只需要传输有价值的数据，这极大地减轻了网络带宽的压力，且减少了对计算存储资源的需求。尤其是当下人工智能领域的快速发展，智能终端设备的计算能力已经无法满足我们的需求。这个时候就需要将计算任务在终端设备与边缘服务器上进行智能调度。而目前我们对于视频人脸识别的端边协同还没有一个性能完善的智能调度方法，无法及时合理的将终端设备上的人脸识别任务卸载到边缘服务器上进行计算，从而导致任务识别的精确性较低，并且对于计算资源的分配不合理。

发明内容

本发明实施例的目的是提供一种基于深度强化学习实现人脸识别端边协同卸载计算方法及装置，以解决现有存在的无法及时合理的将终端设备上的人脸识别任务卸载到边缘服务器上进行计算，从而导致任务识别的精确性较低，并且对于计算资源的分配不合理问题。

为了达到上述目的，本发明实施例所采用的技术方案如下：

第一方面，本发明实施例提供一种基于深度强化学习实现人脸识别端边卸载计算方法，包括：

获取真实的人脸图片，根据边端人脸识别模型训练得到分类数据，其中，所述分类数据包括图片名称、id、图片提取出的128维特征向量、终端预测置信度、终端预测值、边缘预测值；

将深度学习与强化学习进行结合，定义马尔科夫决策过程的状态空间、动作集、奖励函数和智能体；

根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用所述分类数据对构建好的Actor神经网络和Critic神经网络利用A2C算法进行训练，获得智能卸载决策模型；

对所述智能卸载决策模型的性能与基准查询策略进行对比评估；

根据对比评估的结果，将智能卸载决策模型部署到智能终端设备中，进行人脸识别的任务卸载决策。

进一步地，所述状态空间包括当前与上一时间步的人脸特征的欧式距离偏差、上一个时间步终端的人脸识别的预测值、上一个时间步终端人脸识别的置信度、上一个时间步边缘侧的人脸识别的预测值、当前时间、上一个时间步终端的人脸识别预测集、剩余的查询步数、终端的查询决策、边缘侧的查询决策。

进一步地，所述动作集包括查询终端缓存、查询边缘缓存、查询终端当前预测、查询边缘当前预测四个动作。

进一步地，根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用所述分类数据对构建好的Actor神经网络和Critic神经网络进行训练，获得智能卸载决策模型，包括：

步骤(3.1)，初始化状态空间，从所述分类数据中随机选取一组数据并赋值给对应状态；

步骤(3.2)，构建Actor神经网络，输入步骤(3.1)中得到的状态空间到Actor神经网络中，然后Actor神经网络会从动作集来选取一个动作并输出；

步骤(3.3)，将步骤(3.2)得到的动作以及当前时刻状态输入到仿真环境中以后，将由奖励函数根据t时刻人脸识别任务的精确度与动作的开销系数返回从环境中获得的奖赏，然后时刻更新到t+1并更新状态空间；

步骤(3.4)，构建Critic神经网络，输入动作和步骤(3.3)更新后的状态空间后，Critic神经网络将输出对动作的反馈值；

步骤(3.5)，Actor神经网络将根据Critic神经网络对动作的反馈值来重新调整网络权重系数；

步骤(3.6)，经过多轮迭代训练，直到奖励函数收敛，获得智能卸载决策模型。

进一步地，对所述智能卸载决策模型的性能与基准查询策略进行对比评估，包括：

在仿真环境中首先运行智能卸载决策模型，当查询预算还有剩余的时候会根据环境的其他状态情况智能选择人脸识别任务是否需要卸载到边缘服务器，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

在仿真环境中运行随机采样策略，当查询预算还有剩余的时候从四个查询动作中随机采取动作来训练随机采样卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

在仿真环境中运行终端查询策略，当查询预算还有剩余的时候查询动作为每次都从终端查询最新的预测来训练终端查询卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

在仿真环境中运行边缘侧查询策略，当查询预算还有剩余的时候每次都从边缘服务器中的OpenFace模型中获取最新预测结果来训练边缘侧查询卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

在仿真环境中运行终端随机采样策略，当查询预算还有剩余的时候会根据机器人端模型预测的置信度将一些关键帧传输到边缘侧服务器中FaceNet模型中获取最新预测结果来训练终端随机采样卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

在仿真环境中运行数据库查询策略，直接根据数据库中记录所有时间段的状态来计算奖励值，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

通过保存的奖励以及人脸识别的误差绘制出不同查询策略的模型性能评估。

第二方面，本发明实施例还提供一种基于深度强化学习实现人脸识别端边卸载计算装置，包括：

获取模块，用于获取真实的人脸图片，根据边端人脸识别模型训练得到分类数据，其中，所述分类数据包括图片名称、id、图片提取出的128维特征向量、终端预测置信度、终端预测值、边缘预测值；

模型定义模块，用于将深度学习与强化学习进行结合，定义马尔科夫决策过程的状态空间、动作集、奖励函数和智能体；

模型构建模块，用于根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用所述分类数据对构建好的Actor神经网络和Critic神经网络进行训练，获得智能卸载决策模型；

评估模块，用于对所述智能卸载决策模型的性能与基准查询策略进行对比评估；

模型部署模块，用于根据对比评估的结果，将智能卸载决策模型部署到智能终端设备中，进行人脸识别的任务卸载决策。

根据以上技术方案，本发明的有益效果为：通过深度强化学习构建的智能卸载决策模型，利用A2C算法训练学习在不同时刻根据不同的环境状态选择最优的任务卸载动作，从而最终实现将终端设备与边缘服务器进行协同作业并智能化分配计算资源的同时并且提升人脸识别任务的精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施1提供的一种基于深度强化学习实现人脸识别端边协同卸载计算方法的流程图；

图2为本发明实施例1中智能卸载策略在仿真模拟环境中平均每轮总收益与其他几种任务查询策略的对比图；

图3为本发明实施例1中智能卸载策略在仿真模拟环境中平均每轮需要消费的代价与其他几种任务查询策略的对比图；

图4为本发明实施例2提供的一种基于深度强化学习实现人脸识别端边协同卸载计算装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例1：

图1为本发明实施例提供的一种基于深度强化学习实现人脸识别端边协同卸载计算方法的流程图；本实施例提供的一种基于深度强化学习实现人脸识别端边协同卸载计算方法，该方法包括以下：

步骤S101，获取真实的人脸图片，根据边端人脸识别模型训练得到分类数据，其中，所述分类数据包括图片名称、id、图片提取出的128维特征向量、终端预测置信度、终端预测值、边缘预测值；

具体地，通过将预先准备好的真实人脸图片，分为训练数据和测试数据，经过SVM分类器得到相应的预测标签、置信度，以及通过OpenFace模型将图片转为128维的向量空间，然后对每一张照片分别手动标注这些数据，并加上图片id、图片名称、真实的人名、真实的类别、分类置信度、分类预测人名、模型准确性、向量空间。将这些标注完成的数据保存到csv文件中，这些数据将会在下面的步骤中帮助我们来训练智能卸载决策模型。

步骤S102，将深度学习与强化学习进行结合，定义马尔科夫决策过程的状态空间、动作集、奖励函数和智能体；

具体地，对于人脸识别这种场景下的端边协同卸载计算定义马尔科夫过程如下：

所述状态空间包括当前与上一时间步的人脸特征的欧式距离偏差、上一个时间步终端的人脸识别的预测值、上一个时间步终端人脸识别的置信度、上一个时间步边缘侧的人脸识别的预测值、当前时间、上一个时间步终端的人脸识别预测集、剩余的查询步数、终端的查询决策、边缘侧的查询决策。定义这些状态的目的是为了让智能卸载模型可以在仿真环境中模拟出真实场景下的状态，从而使训练出的智能卸载模型可以最终应用到真实环境中。

所述动作集包括查询终端缓存、查询边缘缓存、查询终端当前预测、查询边缘当前预测四个动作。定义这四个动作，是为了解决终端设备有限的计算能力与边缘服务器的数据通信开销之间的矛盾。在查询预算有限的前提下，即端边通信的成本包括时延、带宽，人脸识别任务必须根据当前所处的环境状态进行一个决策，即从上述动作集中选出最合适的动作。

奖励函数定义为R^t _offload(S^t，a^t)＝-α_accuracyL(y^t,y,^t)-β_costcost(a^t)，S^t，a^t为输入t时刻的状态和动作，其中α与β分别对应模型预测精度与动作开销的权重，这里可以根据实际情况灵活设置，L(y^t,y,^t)为计算人脸识别任务的准确度，其中y^t为预测标签的值，y’^t为真实值，准确度通过零一损失函数来计算，如果预测正确则为0，如果预测错误则为1，cost(a^t)为动作的开销函数，返回人脸识别任务的准确度与查询动作的开销和；例如，当剩余查询预算已经不足时，如果卸载决策模型做出查询边缘服务器的动作，将会给予适当的惩罚，因为查询边缘服务器的代价较大，反之如果此时去查询终端缓存或者终端部署的人脸识别模型nn4.small2.v1将会给予适当回报。当查询预算充裕时，此时主要会根据模型查询的精度来给予奖励或惩罚。

步骤S103，根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用所述分类数据对构建好的Actor神经网络和Critic神经网络利用A2C算法进行训练，获得智能卸载决策模型；具体地，该步骤包括以下子步骤：

步骤(3.1)，初始化状态空间，从所述分类数据中随机选取一组数据并赋值给对应状态；具体地，随机取出所述分类数据，一组数据包括图片id、图片名称、真实标签、真实标签编号、SVM置信度、预测值、模型正确性、特征向量，取出多组数据加入时间T进行排序。每个时间T对应一组数据。在初始化状态空间的时候选择一组数据传递给状态空间。

步骤S104，对所述智能卸载决策模型的性能与基准查询策略进行对比评估；具体地，包括以下子步骤

步骤S1041，在仿真环境中首先运行智能卸载决策模型，当查询预算还有剩余的时候会根据环境的其他状态情况智能选择人脸识别任务是否需要卸载到边缘服务器，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

步骤S1042，在仿真环境中运行随机采样策略，当查询预算还有剩余的时候从四个查询动作中随机采取动作来训练随机采样卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

步骤S1043，在仿真环境中运行终端查询策略，当查询预算还有剩余的时候查询动作为每次都从终端查询最新的预测来训练终端查询卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

步骤S1044，在仿真环境中运行边缘侧查询策略，当查询预算还有剩余的时候每次都从边缘服务器中的FaceNet模型中获取最新预测结果来训练边缘侧查询卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

步骤S1045，在仿真环境中运行终端随机采样策略，当查询预算还有剩余的时候会根据机器人端模型预测的置信度将一些关键帧传输到边缘侧服务器中FaceNet模型中获取最新预测结果来训练终端随机采样卸载模型，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

步骤S1046，在仿真环境中运行数据库查询策略，直接根据数据库中记录所有时间段的状态来计算奖励值，并保存每次执行完动作以后从环境中所获得的奖励以及人脸识别的误差；

步骤S1047，通过保存的奖励以及人脸识别的误差绘制出不同查询策略的模型性能评估，如图2和图3所示，分别记录了仿真环境中不同任务查询策略的平均每轮总收益和平均每轮总查询代价。平均每轮总收益越高，代表查询策略在执行人脸识别任务的精度上效果越好；平均每轮总查询代价越低则表示在有限的预算下，模型会智能卸载计算任务，合理的选择任务执行的位置(终端或者边缘服务器)。

步骤S105，根据对比评估的结果，将智能卸载决策模型部署到智能终端设备中，进行人脸识别的任务卸载决策。

具体地，将智能卸载模型集成到视频采集和传输的工程代码中去，在代码中会根据智能卸载模型的决策来选择人脸识别任务的计算位置(终端或边缘)，如果需要边缘服务器计算，将通过socket通信将视频图像帧转换成的128维特征向量，然后将特征向量传输到边缘服务器，边缘服务器将通过预先部署的大型人脸识别模型计算出特征向量分类的结果，并返回预测标签到终端设备。将该工程代码部署到智能终端设备中去，首先将启动智能终端的摄像头采集图像，然后会去调用智能卸载模型按照上面的工作流执行。

本发明的方法将帮助机器人等智能终端设备将采集到的人脸视频流根据当前环境以及设备的状态情况智能化的进行人脸识别任务调度决策，智能终端设备受限于本地的计算资源，将与边缘MEC设备进行端边协同的人脸识别任务。本发明的出发点是为了寻求在有限算力的智能终端设备与边缘MEC设备计算中的时延中寻求一种平衡，可以根据当前环境实时计算出当前的查询成本并智能选择人脸识别模型计算在本地或边缘MEC，最终达到在有限的查询预算下人脸模型识别的精度最大化。

实施例2：

如图4所示，本实施例提供一种基于深度强化学习实现人脸识别端边卸载计算装置，该装置为实施例1对应的虚拟装置，具备执行实施例1方法相应的功能模块和有益效果，该装置包括：

数据采集模,901，用于获取真实的人脸图片，根据边端人脸识别模型训练得到分类数据，其中，所述分类数据包括图片名称、id、图片提取出的128维特征向量、终端预测置信度、终端预测值、边缘预测值；

模型定义模块902，用于将深度学习与强化学习进行结合，定义马尔科夫决策过程的状态空间、动作集、奖励函数和智能体；

模型构建模块903，用于根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用所述分类数据对构建好的Actor神经网络和Critic神经网络进行训练，获得智能卸载决策模型；

评估模块904，用于对所述智能卸载决策模型的性能与基准查询策略进行对比评估；

模型部署模块905，用于根据对比评估的结果，将智能卸载决策模型部署到智能终端设备中，进行人脸识别的任务卸载决策。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的设备实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习实现人脸识别端边卸载计算方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度强化学习实现人脸识别端边卸载计算方法，其特征在于，所述状态空间包括当前与上一时间步的人脸特征的欧式距离偏差、上一个时间步终端的人脸识别的预测值、上一个时间步终端人脸识别的置信度、上一个时间步边缘侧的人脸识别的预测值、当前时间、上一个时间步终端的人脸识别预测集、剩余的查询步数、终端的查询决策、边缘侧的查询决策。

3.根据权利要求1所述的一种基于深度强化学习实现人脸识别端边卸载计算方法，其特征在于，所述动作集包括查询终端缓存、查询边缘缓存、查询终端当前预测、查询边缘当前预测四个动作。

4.根据权利要求1-3任一项所述的一种基于深度强化学习实现人脸识别端边卸载计算方法，其特征在于，根据定义好的马尔科夫决策过程，构建Actor神经网络和Critic神经网络，使用所述分类数据对构建好的Actor神经网络和Critic神经网络利用A2C算法进行训练，获得智能卸载决策模型，包括：

5.根据权利要求1所述的一种基于深度强化学习实现人脸识别端边卸载计算方法，其特征在于，对所述智能卸载决策模型的性能与基准查询策略进行对比评估，包括：

6.一种基于深度强化学习实现人脸识别端边卸载计算装置，其特征在于，包括：