CN116627474B

CN116627474B - 基于强化学习的智能设备智能安全管理方法、装置及设备

Info

Publication number: CN116627474B
Application number: CN202310902309.9A
Authority: CN
Inventors: 王滨; 钟洁; 何承润; 殷丽华; 李超; 钱亚冠
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-13
Anticipated expiration: 2043-07-21
Also published as: CN116627474A

Abstract

本申请提供一种基于强化学习的智能设备智能安全管理方法、装置及设备，该方法包括：获取智能设备批量升级任务信息；在存在升级需求，且依据智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级；依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新。该方法可以提高智能设备升级效率。

Description

基于强化学习的智能设备智能安全管理方法、装置及设备

技术领域

本申请涉及智能设备管理技术领域，尤其涉及一种基于强化学习的智能设备智能安全管理方法、装置及设备。

背景技术

随着网络与电子设备技术的高速发展，智能设备（如物联网设备）的应用逐渐普及。

在智能设备的使用过程中，经常会出现需要进行设备升级的情况，例如，设备上的特定软件更新。

传统方案中，智能设备升级通常是在智能设备接收到升级通知消息的情况下，由用户手动确认是否升级，升级效率低，在存在多个设备需要升级的情况下更加明显。

发明内容

有鉴于此，本申请提供一种基于强化学习的智能设备智能安全管理方法、装置及设备。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种基于强化学习的智能设备智能安全管理方法，包括：

获取智能设备批量升级任务信息；其中，对于任一智能设备批量升级任务，智能批量升级任务信息包括初始升级策略、以及，待升级设备的地址信息和登录信息；

对于任一智能设备批量升级任务，在确定存在升级需求，且依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级；其中，初始状态下，该智能设备批量升级任务当前的升级策略为该智能设备批量升级任务的初始升级策略；

依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新。

根据本申请实施例的第二方面，提供一种基于强化学习的智能设备智能安全管理装置，包括：

获取单元，用于获取智能设备批量升级任务信息；其中，对于任一智能设备批量升级任务，智能批量升级任务信息包括初始升级策略、以及，待升级设备的地址信息和登录信息；

批量升级单元，用于对于任一智能设备批量升级任务，在确定存在升级需求，且依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级；其中，初始状态下，该智能设备批量升级任务当前的升级策略为该智能设备批量升级任务的初始升级策略；

策略更新单元，用于依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新。

根据本申请实施例的第三方面，提供一种电子设备，包括处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面提供的方法。

本申请实施例的基于强化学习的智能设备智能安全管理方法，获取智能设备批量升级任务信息，对于任一智能设备批量升级任务，在确定存在升级需求，且依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级，依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新，通过对智能设备进行批量升级，并依据智能设备升级反馈结果，利用强化学习算法，进行升级策略的更新，得到更优化的升级策略，从而，可以在无需用户手动确认是否升级的情况下，实现设备批量升级，提升了用户体验，并提高了智能设备升级效率。

附图说明

图1为本申请一示例性实施例示出的一种基于强化学习的智能设备智能安全管理方法的流程示意图；

图2为本申请一示例性实施例示出的一种升级任务创建的流程示意图；

图3为本申请一示例性实施例示出的一种升级任务管理的流程示意图；

图4为本申请一示例性实施例示出的一种批量升级的流程示意图；

图5为本申请一示例性实施例示出的一种升级策略更新的流程示意图；

图6为本申请一示例性实施例示出的一种基于强化学习的智能设备智能安全管理方案的总体流程示意图；

图7为本申请一示例性实施例示出的一种基于强化学习的智能设备智能安全管理装置的结构示意图；

图8为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面先对本申请实施例中涉及的部分技术术语进行说明。

强化学习（Reinforcement Learning, 简称RL）：是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

A3C算法：全称为异步优势动作评价算法（Asynchronous advantage actor-critic），是强化学习中一种同时基于价值和策略的算法。

全局网络（Global Network）：主要是一个公共的神经网络模型，这个神经网络包括actor网络和critic网络两部分的功能。

线程（Woker）：线程是进程的一部分，多线程是进程中并发运行的一段代码，能够实现线程之间的切换执行。

为了使本申请实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请实施例中技术方案作进一步详细的说明。

需要说明的是，本申请实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

请参见图1，为本申请实施例提供的一种基于强化学习的智能设备智能安全管理方法的流程示意图，如图1所示，该基于强化学习的智能设备智能安全管理方法可以包括以下步骤：

步骤S100、获取智能设备批量升级任务信息；其中，对于任一智能设备批量升级任务，智能批量升级任务信息包括初始升级策略、以及，待升级设备的地址信息和登录信息。

示例性的，可以在智能设备批量升级任务创建成功的情况下，获取智能设备批量升级任务信息。

示例性的，智能设备批量升级任务信息可以包括但不限于初始升级策略、以及，待升级设备的地址信息（如IP地址）和登录信息（如用户名和密码等）。

示例性的，初始升级策略可以包括但不限于指定时间段升级或定时开始升级或立即开始升级。

示例性的，初始升级策略可以通过人工设置。

其中，人工设置初始升级策略，可通过人工规避设备高使用率阶段，减少因设备升级造成设备暂时不可用带来的不便，提高升级成功率。

此外，通过人工设置升级时间段，在所设置的升级时间段自动升级，无需人工实时触发升级，减少人力使用，提高升级效率。

步骤S110、对于任一智能设备批量升级任务，在确定存在升级需求，且依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级；其中，初始状态下，该智能设备批量升级任务当前的升级策略为该智能设备批量升级任务的初始升级策略。

本申请实施例中，对于任一智能设备批量升级任务，在确定该智能设备批量升级任务存在升级需求的情况下，可以对该智能设备升级任务当前的升级策略进行监控，确定该智能设备批量升级任务是否满足升级条件。

在该智能设备批量升级任务满足升级条件的情况下，可以依据待升级设备的地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级。

示例性的，对于任一智能设备批量升级任务，初始状态下，例如，该智能设备批量升级任务未完成第一次升级的情况下，该智能设备批量升级任务当前的升级策略为该智能设备批量升级任务的初始升级策略；非初始状态下，该智能设备批量升级任务当前的升级策略为上一次升级策略更新后得到的升级策略。

在一个示例中，对于任一智能设备批量升级任务，确定存在升级需求，包括：在该智能设备批量升级任务创建成功，且未开始升级的情况下，确定存在升级需求。

在另一个示例中，对于任一智能设备批量升级任务，确定存在升级需求，包括：在该智能设备批量升级任务完成至少一次升级，且检测到重新升级指令的情况下，确定存在升级需求。

步骤S120、依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新。

本申请实施例中，考虑到初始升级策略中的升级时间可能并非智能设备批量升级任务中一个或多个待升级设备合适的升级时间，从而，智能设备批量升级任务中可能会出现待升级设备升级失败。

为了提高设备升级成功率，优化用户体验，可以依据待升级设备的升级反馈结果进行升级策略的更新优化，得到更合适的升级策略。

相应地，对于任一智能设备批量升级任务，在该智能设备批量升级任务对应的各待升级设备均升级完成的情况下，可以依据该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备计算的损失函数梯度更新值，利用强化学习算法，进行全局升级策略更新，即对该智能设备升级任务当前的升级策略更新。

例如，假设任务1中有3个设备，初始升级策略是定时晚上10点开始升级，那么在晚上10点任务1中的3个设备开始升级，接收到的反馈设备1无法升级，设备2，3升级成功，经过训练模块计算后整体任务的升级策略优化更新成晚上11点开始升级。在下次再对任务1下达开始升级的指令后，任务1中的3个设备会晚上11点再开始升级，再获取反馈，以此类推，持续优化更新整个任务的升级策略，以使优化更新后的升级策略下设备升级成功更高。

示例性的，升级反馈结果可以包括设备升级结果以及设备状态。

其中，设备升级结果可以包括设备升级成功或设备升级失败。

其中，设备状态可以包括但不限于设备当前时间、设备使用率、设备当前使用状态、设备当前流量等状态中的部分或全部。

示例性的，在设备升级失败的情况下，升级反馈结果还可以包括升级失败原因，如设备正在使用中；设备网络不通等。

示例性的，不同类型的设备升级结果（设备升级成功或设备升级失败），以及，不同的升级失败原因，均可以对应不同的反馈值，用于升级策略的优化更新。

示例性的，对于任一智能设备批量升级任务，在初始状态下，该智能设备批量升级任务对应的各待升级设备当前的升级策略均为该智能设备批量升级设备的初始升级策略；在完成至少一次升级策略更新的情况下，待升级设备当前的升级策略为最近一次更新完成的情况下得到的升级策略。

例如，对于任一待升级设备，在该待升级设备完成升级的情况下，可以依据该待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备计算的损失函数梯度更新值，利用强化学习算法，进行全局升级策略更新。

本申请实施例中，在全局升级策略更新完成，即依据获取到的各待升级设备的升级反馈结果对对应的待升级设备进行了损失函数梯度的更新，并依据各待升级设备损失函数梯度值对全局升级策略进行了更新的情况下，可以对更新后的全局升级策略进行存储，并该智能设备批量升级任务下一次存在升级需求的情况下，可以获取存储的更新后的全局升级策略，并依据更新后的全局升级策略对该智能设备批量升级任务对应的待升级设备进行升级。

可见，在图1所示方法流程中，获取智能设备批量升级任务信息，对于任一智能设备批量升级任务，在确定存在升级需求，且依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级，依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新，通过对智能设备进行批量升级，并依据智能设备升级反馈结果，利用强化学习算法，进行升级策略的更新，得到更优化的升级策略，从而，可以在无需用户手动确认是否升级的情况下，实现设备批量升级，提升了用户体验，并提高了智能设备升级效率。

在一些实施例中，智能设备批量升级任务通过以下方式创建：

在检测到智能设备批量升级任务创建请求的情况下，获取待升级设备的地址信息和登录信息，以及，初始升级策略；

对待升级设备的地址信息和登录信息进行有效性校验；

在确定存在至少一个有效待升级设备的情况下，创建智能设备批量升级任务，为该智能批量升级任务分配任务标识，并关联任务标识存储有效待升级设备的地址信息和登录信息，以及，初始升级策略；其中，有效待升级设备为地址信息和登录信息有效性校验通过的待升级设备。

示例性的，用户在请求创建智能设备批量升级任务的情况下，需要提交待升级设备的地址信息和登录信息，以及，初始升级策略。

相应地，在检测到智能设备批量升级任务创建请求的情况下，可以获取待升级设备的地址信息和登录信息，以及，初始升级策略，并对待升级设备的地址信息和登录信息进行有效性校验。

示例性的，可以校验待升级设备的地址信息是否正确、登录信息是否正确等。

其中，对于地址信息和登录信息均有效性校验通过的待升级设备，可以称为有效待升级设备。

在确定存在至少一个有效待升级设备的情况下，可以创建智能设备批量升级任务，为该智能设备批量升级任务分配任务标识（如任务编号），并关联任务标识存储有效待升级设备的地址信息和登录信息，以及，初始升级策略。

在一些实施例中，上述对该智能设备批量升级任务对应的待升级设备进行批量升级，可以包括：

对于该智能设备批量升级任务对应的任一待升级设备，依据该待升级设备的地址信息和登录信息对该待升级设备进行登录；

在成功登录该待升级设备情况下，获取该待升级设备的升级包；

在获取到该待升级设备的升级包的情况下，依据该待升级设备的升级包对该待升级设备进行升级处理。

示例性的，在依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，对于该智能设备批量升级任务对应的任一待升级设备，可以依据该待升级设备的地址信息和登录信息对该待升级设备进行登录（也可以称为登录信息验证）。

在成功登录该待升级设备的情况下，可以获取该待升级设备的升级包，并在获取到该待升级设备的升级包的情况下，依据该待升级设备的升级包对该待升级设备进行升级处理。

示例性的，对于任一待升级设备，可以依据该待升级设备的设备属性，获取对应的升级包。

示例性的，设备属性可以包括但不限于设备型号、版本号、固件码、主控版本属性中的一个或多个。

示例性的，对于任一智能设备批量升级任务，该智能设备批量升级任务对应的各待升级设备的升级包可以由用户在创建智能设备批量升级任务之前上传，或，由用户在创建智能设备批量升级任务的情况下上传，或，在该智能设备批量升级任务对应的各待升级设备再次存在升级需求的情况下上传。

需要说明的是，对于任一待升级设备，在依据该待升级设备的地址信息和登录信息对该待升级设备进行登录，但登录失败的情况下，或者，未获取到该待升级设备的升级包的情况下，可以确定该待升级设备在此次升级过程中无法升级。在该情况下，可以向用户返回无法升级的原因，如登录失败或升级包获取失败等。

在一些实施例中，在对该智能设备批量升级任务对应的待升级设备进行批量升级的过程中，所述方法还包括：

在检测到针对该智能设备批量升级任务的暂停升级操作指令的情况下，暂停第一类型待升级设备的升级操作，并将该暂停升级操作指令对应的第一反馈值作为环境反馈，应用于第一类型待升级设备的损失函数梯度更新，得到第一类型待升级设备的损失函数梯度更新值，并将该损失函数梯度更新值应用于全局升级策略更新；其中，第一类型待升级设备为该智能批量升级任务对应的待升级设备中，已开始升级但未完成升级的待升级设备；

在检测到针对该智能设备批量升级任务的继续升级操作指令的情况下，依据第二类型待升级的地址信息和登录信息对该待升级设备进行登录，在成功登录第二类型待升级设备的情况下，获取第二类型待升级设备的升级包，在获取到第二类型待升级设备的升级包的情况下，依据第二类型待升级设备的升级包继续对第二类型待升级设备进行升级处理，并将该继续升级操作指令对应的第二反馈值作为环境反馈，应用于第二类型待升级设备的损失函数梯度更新，得到第二类型待升级设备的损失函数梯度更新值，并将该损失函数梯度更新值应用于全局升级策略更新；其中，第二类型待升级设备为该智能批量升级任务对应的待升级设备中，被暂停升级的待升级设备。

示例性的，在智能设备批量升级任务对应的待升级设备升级的过程中，用户可以根据实际需求选择暂停升级或继续升级。

相应地，对于任一智能设备批量升级任务，在检测到针对该智能设备批量升级任务的暂停升级操作指令的情况下，可以确定该智能批量升级任务对应的待升级设备中，已开始升级但未完成升级的待升级设备（可以称为第一类型待升级设备），暂停第一类型待升级设备的升级操作，并将该暂停升级操作指令对应的反馈值（可以称为第一反馈值）作为环境反馈，应用于第一类型待升级设备的损失函数梯度更新。

即对于任一待升级设备，可以依据该待升级设备的升级反馈结果，以及，升级过程中检测到的升级操作指令（暂停升级指令或继续升级指令），对该待升级设备的损失函数梯度进行更新。

在检测到针对该智能设备批量升级任务的继续升级操作指令的情况下，可以确定智能批量升级任务对应的待升级设备中，被暂停升级的待升级设备（可以称为第二类型待升级设备），依据第二类型待升级的地址信息和登录信息对该待升级设备进行登录，在成功登录第二类型待升级设备的情况下，获取第二类型待升级设备的升级包，在获取到第二类型待升级设备的升级包的情况下，依据第二类型待升级设备的升级包继续对第二类型待升级设备进行升级处理，并将该继续升级操作指令对应的反馈值（可以称为第二反馈值）作为环境反馈，应用于第二类型待升级设备的损失函数梯度的更新。

需要说明的是，对于暂停升级的设备（如上述第二类型待升级设备），其需要在等待继续升级指令，以继续升级。

例如，假设升级策略是每天晚上10点开始升级，在第一天晚上10点开始后将任务暂停，第二天晚上10点也并不会开始升级，暂停操作会一直保持，直到收到继续指令，继续指令其实是继续第一天晚上10点的那次操作，不需要重新进行策略判断。

在一个示例中，第一反馈值对应负向反馈，第一反馈值对应的强化学习的奖励值为负值；

第二反馈值对应正向反馈，第二反馈值对应的强化学习的奖励值为正值。

示例性的，考虑到用户选择暂停升级任务的情况下，通常意味着当前的升级策略中设置的升级时间并不合适，因此，暂停升级操作指令对应的反馈值（即上述第一反馈值）对应负向反馈，该第一反馈值对应的强化学习的奖励值为负值。

此外，考虑到用户选择继续升级任务的情况下，通常意味着当前用户认为当前的时间适合设备升级，因此，继续升级操作指令对应的反馈值（即上述第二反馈值）对应正向反馈，该第二反馈值对应的强化学习的奖励值为正值。

示例性的，在利用强化学习对升级策略进行更新的过程中，通过上述反馈值的反馈，可以使升级策略优化更新过程中，更新后的升级时间会尽量避开暂停升级操作指令发生的时间，并优先选择继续升级操作指令发生的时间之后的时间作为升级时间。

例如，假设用户在10：30选择暂停升级任务，并在11：00选择继续升级，则可以优先将更新后的升级时间设置在11：00之后。

示例性的，在利用强化学习算法进行升级策略优化更新的过程中，奖励值越高，表明当前升级策略中设置的升级时间越适合设备升级；奖励值越低，表明当前升级策略中设置的升级时间越不适合设备升级。

在一些实施例中，对于任一智能设备批量升级任务，针对该智能设备批量升级任务对应的任一待升级设备，启动独立线程；

上述依据该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，可以包括：

对于任一待升级设备，依据获取到的该待升级设备的升级反馈结果，利用A3C算法，对该待升级设备对应的线程进行损失函数梯度更新，得到损失函数梯度更新值；其中，该损失函数梯度更新值用于全局网络的神经网络模型参数更新，该全局网络用于全局升级策略的优化更新；该全局网络的初始神经网络模型参数依据该智能设备批量升级任务的初始升级策略确定；

上述依据各待升级设备计算的损失函数梯度更新值，利用强化学习算法，进行全局升级策略更新，可以包括：

对于任一完成升级的待升级设备，依据该待升级设备对应的线程的损失函数梯度更新值，利用A3C算法，对全局网络进行神经网络模型参数更新；

在各待升级设备均完成升级，并依据各待升级设备对应的线程的损失函数梯度更新值对所述全局神经网络模型进行了神经网络模型参数更新的情况下，利用参数更新后的全局网络进行全局升级策略优化更新。

示例性的，以利用A3C算法进行升级策略升级为例。

对于任一智能设备批量升级任务，针对该智能设备批量升级任务对应的任一待升级设备，启动独立线程。

需要说明的是，对于任一智能设备批量升级任务，在该智能设备批量升级任务对应的待升级设备数量超过系统支持的单次启动的线程数量的情况下，可以分批对待升级设备进行损失函数梯度更新。

例如，假设智能设备批量升级任务对应的待升级设备数量为100个，系统支持的单次启动的线程数量为20，则可以每20个待升级设备为一批进行待升级设备的损失函数梯度更新。

对于任一待升级设备，可以依据获取到的该待升级设备的升级反馈结果，利用A3C算法，对该待升级设备对应的线程进行损失函数梯度更新，得到损失函数梯度更新值，并将该损失函数梯度更新值应用于全局网络的神经网络模型参数更新。

示例性的，全局网络用于全局升级策略的优化更新；全局网络的初始神经网络模型参数依据该智能设备批量升级任务的初始升级策略确定。

对于任一完成升级的待升级设备，可以依据该待升级设备对应的线程的损失函数梯度更新值，利用A3C算法，对全局网络进行神经网络模型参数更新；

在各待升级设备均完成升级，并依据各待升级设备对应的线程的损失函数梯度更新值对全局神经网络模型进行了神经网络模型参数更新的情况下，利用参数更新后的全局网络进行全局升级策略优化更新，得到更新后的全局升级策略。

在一个示例中，上述依据获取到的该待升级设备的升级反馈结果，利用A3C算法，对该待升级设备对应的线程进行损失函数梯度更新，可以包括：

依据该待升级设备的升级反馈结果，确定强化学习的奖励值；其中，升级反馈结果包括设备升级结果；设备升级结果包括设备升级成功，或，设备升级失败；设备升级成功对应的奖励值为正值，设备升级失败对应的奖励值为负值；

依据强化学习的奖励值，利用A3C算法，对该待升级设备对应的线程进行损失函数梯度更新。

示例性的，升级反馈结果可以包括设备升级结果，该设备升级结果可以包括设备升级成功或设备升级失败。

考虑到设备升级成功的情况下，可以表明当前的升级策略中的升级时间是合适的，在该情况下，该升级反馈结果对应正向反馈，对应的奖励值为正值。

此外，考虑到设备升级失败的情况下，可以表明当前的升级策略中升级时间不合适，在该情况下，该升级反馈结果对应负向反馈，对应的奖励值为负值。

示例性的，可以依据待升级设备的升级反馈结果，确定强化学习的奖励值，并依据该强化学习的奖励值，利用A3C算法，对该待升级设备对应的线程进行损失函数梯度更新。

作为一种示例，升级反馈结果还可以包括设备状态；设备状态包括设备当前时间、设备使用率、设备当前使用状态、设备当前流量中的部分或全部；

其中，在设备状态包括设备当前时间的情况下，设备升级结果对应的奖励值的绝对值与目标时间差值负相关；目标时间差值为设备当前时间与当前的升级策略中包括的升级时间之间的差值；

在设备状态包括设备使用率的情况下，设备升级结果对应的奖励值与设备使用率负相关；

在设备状态包括设备当前使用状态，且设备升级结果为设备升级失败的情况下，设备当前被使用对应的奖励值小于设备当前未被使用对应奖励值；

在设备状态包括设备当前流量的情况下，设备升级结果对应的奖励值的绝对值与设备当前流量正相关。

示例性的，升级反馈结果还可以包括设备状态，不同设备状态下，升级反馈结果对应的强化学习的奖励值可以不同。

示例性的，以设备状态包括设备当前时间（即上报升级反馈结果的时间）为例，对于设备升级成功的情况，在设备当前时间与当前的升级策略中包括的升级时间之间的差值（可以称为目标差值）越小的情况下，表明设备可以越快完成升级，从而，表明该升级时间越适合该设备升级，因而，该升级设备结果对应的奖励值越高。

而对于设备升级失败的情况，在目标差值越小的情况下，表明设备升级失败越快，从而，表明该升级时间越不适合该设备升级，因而，该升级结果对应的奖励值越小。由于设备升级失败对应的奖励值为负值，因此，奖励值越小，奖励值的绝对值越大。

以设备状态包括设备使用率（如内存使用率）为例，考虑到设备使用率越大，越不利用设备升级，即升级反馈结果中包括的设备使用率越高，表明升级时间设置得越不合理，因此，设备升级结果对应的奖励值与设备使用率负相关。

以设备状态包括设备当前使用状态（包括设备当前被使用或设备当前未被使用）为例，考虑到设备升级过程中，设备被使用通常会导致设备升级失败，即设备被使用的时间通常并不适合进行设备升级，因而，在设备状态包括设备当前使用状态，且设备升级结果为设备升级失败的情况下，设备当前被使用对应的奖励值小于设备当前未被使用对应奖励值。

以设备状态包括设备当前流量（设备在一段时间内通过网络传输的数据量）为例，考虑到在设备升级成功的情况下，设备当前流量越大，通常意味着设备升级的效率越高，即当前的升级策略设置的升级时间越适合升级，因而，升级反馈结果对应的奖励值越大；在设备升级失败的情况下，设备当前流量越大，通常意味着设备当前正在被使用，即当前的升级策略设置的升级时间越不适合升级，因此，升级反馈结果对应的奖励值越小。由于设备升级失败对应的奖励值为负值，因此，奖励值越小，奖励值的绝对值越大。

为了使本领域技术人员更好地理解本申请实施例提供的技术方案，下面结合具体场景对本申请实施例提供的技术方案进行说明。

在该实施例中，以物联网设备批量升级为例。使用基于评价的强化学习算法A3C算法，采用并行架构，支持多任务并行，与独立的物联网环境进行交互，独立收集独立物联网环境下多种设备的反馈异步同步到全局网络中，最终为不同应用场景下的物联网设备匹配不同的升级策略；同时提供可配置的初始升级策略，在模型训练的任何时间段均能提供有效的升级策略对设备进行批量升级。

本申请实施例提供的技术方案的使用者可通过任务管理模块对批量升级任务进行管理，在使用者不参与的情况下，任务按照强化学习训练的升级策略进行设备的批量升级，使用者也可通过任务管理模块对升级任务进行批量暂停（即暂停升级）、继续（即继续升级）、重新升级等操作，将操作反馈到A3C强化学习训练中。

在该实施例中，基于强化学习的智能设备智能安全管理方案涉及用户、批量升级及管理系统、物联网环境及设备三个方面。

批量升级及管理系统可以包括升级任务创建与存储模块、升级任务管理模块、批量升级与反馈模块及A3C强化学习训练模块。

下面分别基于批量升级及管理系统的各模块对本申请实施例中基于强化学习的智能设备智能安全管理方案的实现进行说明。

一、升级任务创建及存储模块

物联网环境及设备包含不同场景下多个不同型号的设备。

示例性的，对物联网设备进行批量升级的必要条件是已获取待升级物联网设备的用户名及密码（即上述登录信息）。

升级任务创建模块是连接用户与物联网环境、进行物联网设备批量升级的关键。用户可根据不同的物联网使用场景（包括但不限于一个小区、一个公司、一条道路等环境）下的待升级物联网设备IP、用户名及密码创建待升级任务，可并行创建多个任务。

需要说明的是，为保证最佳使用效果，应根据实际使用场景创建，每个设备IP仅允许出现在一个任务中。在创建任务的情况下，用户需上传升级包，并选择初始升级策略。如图2所示，其具体步骤为：

1.1、用户传入待升级设备数据。用户输入任务名称后，可通过多种方式传入待升级设备数据，其可以包括但不限于输入IP段（或IP范围）及用户名、密码；或者，导入包含设备IP、用户名、密码的CSV（Comma-Separated Values，字符分隔值）文件等形式。

示例性的，用户还需上传当前待批量升级设备所需升级包。

1.2、传入待升级设备数据后，用户可根据当前对设备的使用习惯及现场需求设定初始升级策略。例如，可设定指定时间段升级或定时开始升级或立即开始升级。

1.3、系统平台对用户传入设备IP、用户名、密码有效性进行校验，包括IP是否正确、用户名密码是否正确等，若有效性数据大于等于1，赋予相应任务编号，存储升级策略及有效设备数据并创建升级任务。

二、升级任务管理模块

升级任务管理模块对用户开放，用户可对升级任务进行管理，包括但不限于编辑、暂停、继续、重新升级等操作，不同操作会被赋予不同反馈值，反馈到A3C强化学习模块。

升级任务管理模块的操作指令会发送到批量升级与反馈模块，控制批量升级与反馈模块的任务进行；此外，升级任务管理模块实时获取所有任务的升级策略并进行升级监控，在确定某个任务符合其对应的升级策略的情况下下，向批量升级与反馈模块发送“开始升级”指令及对应任务编号。如图3所示，其具体步骤如下：

2.1、获取每个任务的升级策略，解析升级策略与当前系统状态进行对比，在当前时间到达某个任务的升级策略设定定时开始点或区间开始点的情况下，发送“开始升级”指令与对应任务编号至批量升级与反馈模块。

2.2、用户选择某一进行中任务，可点击暂停，升级任务管理模块发送“暂停”指令与对应任务编号至批量升级与反馈模块，同时向A3C强化学习训练模块发送任务编号及“暂停”指令对应的反馈值（即上述第一反馈值）。

需要说明的是，暂停状态下将不再对当前任务进行升级策略监控。

2.3、用户选择某一暂停中任务，可点击继续，升级任务管理模块发送“继续”指令与对应任务编号至批量升级与反馈模块，同时向A3C强化学习训练模块发送任务编号及“继续”指令对应的反馈值（即上述第二反馈值）。

需要说明的是，在“继续”进行升级任务的情况下，当前升级任务将重新进入升级监控中；在符合升级策略的情况下，将继续进行升级。

2.4、用户选择某一已完成任务，可点击重新升级，升级任务管理模块发送“重新升级”指令与对应任务编号至批量升级与反馈模块，同时向A3C强化学习训练模块发送“重新升级”指令的对应反馈值。

例如，在进行完第一次升级的情况下，优化后的升级策略制定任务每天晚上10点开始升级，但在第二天晚上10点之前，用户选择了重新升级，基于此，可以确定在晚上10点之前进行升级对用户而言是可接受的，因此可以传递重新升级对应的反馈值，以便训练模块再次进行升级策略优化。

2.5、用户可选择某一任务，编辑任务名称；在首次使用升级策略进行批量升级之前，可编辑“初始升级策略”，在升级开始的情况下，无法编辑升级策略。

三、批量升级与反馈模块

批量升级与反馈模块接收升级任务管理模块发送的任务编号及操作指令，按照相应指令对物联网中的设备进行相应操作，包括但不限于批量验证用户名密码、批量升级、暂停升级等操作。在设备升级完成的情况下，接收物联网环境中设备的升级反馈，并向升级任务管理模块与A3C强化学习训练模块反馈任务中设备的升级反馈结果。如图4所示，具体步骤如下：

3.1、接收升级管理模块的升级指令与任务编号。

3.2、升级指令为“开始升级”或“重新升级”的情况下，获取任务中的全部设备进行下一步；

升级指令为“继续”的情况下，获取任务中被暂停升级设备（不包括已完成升级设备）进行下一步；

升级指令为“暂停”的情况下，对任务中未完成升级设备进行升级操作的暂停。

3.3、对上一步中的物联网环境设备进行用户名密码验证，在用户名密码验证未通过的情况下，向升级管理模块返回验证失败，不向A3C强化学习训练模块反馈；在用户名密码验证通过的情况下，根据相应设备的设备型号获取升级包；在获取不到升级包的情况下，向升级管理模块返回升级包获取失败，不向A3C强化学习训练模块反馈；在用户名密码验证通过且获取到相应升级包的情况下，执行对应设备的升级程序，获取设备的升级反馈结果。

示例性的，升级反馈结果可以包括但不限于设备当前时间、设备使用率、设备当前使用状态、设备当前流量。

批量升级与反馈模块可以将获取到的升级反馈结果传递到升级任务管理模块及A3C强化学习训练模块。

四、A3C强化学习训练模块

A3C强化学习训练模块与升级任务创建与存储模块、批量升级与反馈模块、升级任务管理模块交互，获取对应任务的初始升级策略，接收批量升级与反馈模块反馈的升级反馈结果，以及，升级任务管理模块的用户操作指令反馈，通过价值函数与升级策略间的相互优化得到最佳升级策略。如图5所示，具体步骤如下：

4.1、从升级任务创建及存储模块获取当前升级策略作为A3C强化学习训练模块的全局网络（Global Network）参数。

4.2、对于任务中的每个设备，开启并行独立的线程（woker）。

示例性的，一个线程可以对应一个智能体。

在A3C算法中，采用异步训练的方式来更新全局网络。具体而言，通过并行地创建多个智能体来同时进行环境交互和训练，并独立地计算各自的梯度。每个智能体都有自己的本地网络（Local Network），与全局网络的参数进行异步更新。

4.3、每个设备的独立线程接收来自升级任务管理模块对当前设备的用户参与反馈，以及，批量升级与反馈模块反馈的升级反馈结果，对当前线程的损失函数梯度值进行更新计算。

示例性的，对于任一线程，该线程计算的损失函数梯度值可以包括策略梯度值（即策略函数网络（Actor）的梯度值）和值函数梯度值（即值函数网络（Critic）的梯度值）。

4.4、每个独立线程获得本线程中的梯度更新值的情况下，利用其更新全局网络中的神经网络模型参数。

示例性的，全局网络在接收到来自各线程的梯度更新值的情况下，对接收到的梯度更新值进行聚合，然后通过梯度下降算法来更新全局网络的参数。这样，全局网络的参数通过不断地接收和整合来自多个线程的梯度信息，逐步优化模型的性能。

4.5、根据神经网络模型获得优化升级函数的情况下，将其存储为当前任务的升级策略。

4.6、多个设备的多轮升级迭代，针对当前任务的使用环境获得更有效地升级策略。

如图6所示，基于强化学习的智能设备智能安全管理方案的总体流程如下：

6.1、用户通过设备IP及用户名、密码等信息创建批量升级任务并选择初始升级策略，并根据设备型号上传所需升级包。

示例性的，可并行创建多个任务。

6.2、升级任务管理模块对每个任务的升级策略进行监控，在符合升级策略条件的情况下，开启批量升级；此外，升级任务管理模块可对设备批量升级进行批量暂停、继续、重新升级等操作，操作反馈也作为环境反馈传入A3C强化学习训练模块。

6.3、批量升级与反馈模块对待升级设备进行批量升级，物联网环境下的多个物联网设备并行升级；在某个待升级设备的升级完成的情况下，获取升级反馈结果，传递到A3C强化学习训练模块。

6.4、A3C强化学习训练模块使用每个设备的升级反馈结果，以及，升级管理模块的用户操作反馈，计算设备独立线程中的损失函数的梯度，通过此梯度异步更新全局网络中的神经网络模型参数；最终为不同的物联网环境下的升级任务匹配最优升级策略，实现不同物联网环境下的高效设备批量升级及管理。

可见，在该实施例中，用户可通过本申请实施例提供的方案创建多个不同物联网环境下的批量升级任务，使用设备升级反馈结果与用户操作反馈作为输入变量，通过A3C强化学习训练模块训练最适用于当前物联网环境的升级策略，提升用户体验，提高物联网设备升级效率。

A3C强化学习训练模块使用异步并行架构，获取设备升级反馈结果与用户操作反馈，可大大提高学习效率，降低内存占用，发挥多核同时学习的优势。

在任务创建成功的情况下，在不需要人工干预的情况下，也可以对任务设定的物联网环境下的设备进行可靠批量升级。

以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述：

请参见图7，为本申请实施例提供的一种基于强化学习的智能设备智能安全管理装置的结构示意图，如图7所示，该基于强化学习的智能设备智能安全管理装置可以包括：

获取单元710，用于获取智能设备批量升级任务信息；其中，对于任一智能设备批量升级任务，智能批量升级任务信息包括初始升级策略、以及，待升级设备的地址信息和登录信息；

批量升级单元720，用于对于任一智能设备批量升级任务，在确定存在升级需求，且依据该智能设备升级任务当前的升级策略，确定该智能设备批量升级任务满足升级条件的情况下，依据待升级设备地址信息和登录信息对该智能设备批量升级任务对应的待升级设备进行批量升级；其中，初始状态下，该智能设备批量升级任务当前的升级策略为该智能设备批量升级任务的初始升级策略；

策略更新单元730，用于依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新。

对待升级设备的地址信息和登录信息进行有效性校验；

在确定存在至少一个有效待升级设备的情况下，创建智能设备批量升级任务，为该智能设备批量升级任务分配任务标识，并关联任务标识存储有效待升级设备的地址信息和登录信息，以及，初始升级策略；其中，有效待升级设备为地址信息和登录信息有效性校验通过的待升级设备。

在一些实施例中，所述批量升级单元720对该智能设备批量升级任务对应的待升级设备进行批量升级，包括：

在一些实施例中，所述批量升级单元720，还用于在检测到针对该智能设备批量升级任务的暂停升级操作指令的情况下，暂停第一类型待升级设备的升级操作，并将该暂停升级操作指令对应的第一反馈值作为环境反馈，应用于所述第一类型待升级设备的损失函数梯度更新，得到所述第一类型待升级设备的损失函数梯度更新值，并将该损失函数梯度更新值应用于全局升级策略更新；其中，所述第一类型待升级设备为该智能批量升级任务对应的待升级设备中，已开始升级但未完成升级的待升级设备；在检测到针对该智能设备批量升级任务的继续升级操作指令的情况下，依据第二类型待升级的地址信息和登录信息对该待升级设备进行登录，在成功登录所述第二类型待升级设备的情况下，获取所述第二类型待升级设备的升级包，在获取到所述第二类型待升级设备的升级包的情况下，依据所述第二类型待升级设备的升级包继续对所述第二类型待升级设备进行升级处理，并将该继续升级操作指令对应的第二反馈值作为环境反馈，应用于所述第二类型待升级设备的损失函数梯度更新，得到所述第二类型待升级设备的损失函数梯度更新值，并将该损失函数梯度更新值应用于全局升级策略更新；其中，所述第二类型待升级设备为该智能批量升级任务对应的待升级设备中，被暂停升级的待升级设备。

在一些实施例中，其中，所述第一反馈值对应负向反馈，所述第一反馈值对应的强化学习的奖励值为负值；

所述第二反馈值对应正向反馈，所述第二反馈值对应的强化学习的奖励值为正值。

在一些实施例中，所述批量升级单元720对于任一智能设备批量升级任务，确定存在升级需求，包括：

在该智能设备批量升级任务创建成功，且未开始升级的情况下，或，在该智能设备批量升级任务完成至少一次升级，且检测到重新升级指令的情况下，确定存在升级需求。

所述策略更新单元730依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，包括：

对于任一待升级设备，依据获取到的该待升级设备的升级反馈结果，利用异步优势动作评价算法A3C算法，对该待升级设备对应的线程进行损失函数梯度更新，得到损失函数梯度更新值；其中，所述损失函数梯度更新值用于全局网络的神经网络模型参数更新；所述全局网络用于全局升级策略的优化更新；所述全局网络的初始神经网络模型参数依据该智能设备批量升级任务的初始升级策略确定；

所述策略更新单元730依据各待升级设备计算的损失函数梯度更新值，利用强化学习算法，进行全局升级策略更新，包括：

对于任一完成升级的待升级设备，依据该待升级设备对应的线程的损失函数梯度更新值，利用A3C算法，对所述全局网络进行神经网络模型参数更新；

在一些实施例中，所述策略更新单元730依据获取到的该待升级设备的升级反馈结果，利用异步优势动作评价算法A3C算法，对该待升级设备对应的线程进行损失函数梯度更新，包括：

依据该待升级设备的升级反馈结果，确定强化学习的奖励值；其中，所述升级反馈结果包括设备升级结果；所述设备升级结果包括设备升级成功，或，设备升级失败；设备升级成功对应的奖励值为正值，设备升级失败对应的奖励值为负值；

在一些实施例中，所述升级反馈结果还包括设备状态；所述设备状态包括设备当前时间、设备使用率、设备当前使用状态、设备当前流量中的部分或全部；

其中，在设备状态包括设备当前时间的情况下，设备升级结果对应的奖励值的绝对值与目标时间差值负相关；所述目标时间差值为设备当前时间与当前的升级策略中包括的升级时间之间的差值；

本申请实施例还提供一种电子设备，包括处理器和存储器，其中，存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现上文描述的基于强化学习的智能设备智能安全管理方法。

请参见图8，为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器801、存储有机器可执行指令的存储器802。处理器801与存储器802可经由系统总线803通信。并且，通过读取并执行存储器802中与基于强化学习的智能设备智能安全管理逻辑对应的机器可执行指令，处理器801可执行上文描述的基于强化学习的智能设备智能安全管理方法。

本文中提到的存储器802可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM（RadomAccess Memory，随机存取存储器）、易失存储器、非易失性存储器、闪存、存储驱动器（如硬盘驱动器）、固态硬盘、任何类型的存储盘（如光盘、dvd等），或者类似的存储介质，或者它们的组合。

在一些实施例中，还提供了一种机器可读存储介质，如图8中的存储器802，该机器可读存储介质内存储有机器可执行指令，所述机器可执行指令被处理器执行时实现上文描述的基于强化学习的智能设备智能安全管理方法。例如，所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，存储有计算机程序，并且当处理器执行该计算机程序时，促使处理器执行上文中描述的基于强化学习的智能设备智能安全管理方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于强化学习的智能设备智能安全管理方法，其特征在于，包括：

依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新；

其中，对于任一智能设备批量升级任务，针对该智能设备批量升级任务对应的任一待升级设备，启动独立线程；

所述依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，包括：

所述依据各待升级设备计算的损失函数梯度更新值，利用强化学习算法，进行全局升级策略更新，包括：

在各待升级设备均完成升级，并依据各待升级设备对应的线程的损失函数梯度更新值对所述全局网络进行了神经网络模型参数更新的情况下，利用参数更新后的全局网络进行全局升级策略优化更新。

2.根据权利要求1所述的方法，其特征在于，智能设备批量升级任务通过以下方式创建：

对待升级设备的地址信息和登录信息进行有效性校验；

3.根据权利要求1所述的方法，其特征在于，在对该智能设备批量升级任务对应的待升级设备进行批量升级的过程中，所述方法还包括：

在检测到针对该智能设备批量升级任务的暂停升级操作指令的情况下，暂停第一类型待升级设备的升级操作，并将该暂停升级操作指令对应的第一反馈值作为环境反馈，应用于所述第一类型待升级设备的损失函数梯度更新，得到所述第一类型待升级设备的损失函数梯度更新值，并将该损失函数梯度更新值应用于全局升级策略更新；其中，所述第一类型待升级设备为该智能批量升级任务对应的待升级设备中，已开始升级但未完成升级的待升级设备；

在检测到针对该智能设备批量升级任务的继续升级操作指令的情况下，依据第二类型待升级设备的地址信息和登录信息对该待升级设备进行登录，在成功登录所述第二类型待升级设备的情况下，获取所述第二类型待升级设备的升级包，在获取到所述第二类型待升级设备的升级包的情况下，依据所述第二类型待升级设备的升级包继续对所述第二类型待升级设备进行升级处理，并将该继续升级操作指令对应的第二反馈值作为环境反馈，应用于所述第二类型待升级设备的损失函数梯度更新，得到所述第二类型待升级设备的损失函数梯度更新值，并将该损失函数梯度更新值应用于全局升级策略更新；其中，所述第二类型待升级设备为该智能批量升级任务对应的待升级设备中，被暂停升级的待升级设备。

4.根据权利要求3所述的方法，其特征在于，所述第一反馈值对应负向反馈，所述第一反馈值对应的强化学习的奖励值为负值；

5.根据权利要求1所述的方法，其特征在于，所述依据获取到的该待升级设备的升级反馈结果，利用异步优势动作评价算法A3C算法，对该待升级设备对应的线程进行损失函数梯度更新，包括：

6.根据权利要求5所述的方法，其特征在于，所述升级反馈结果还包括设备状态；所述设备状态包括设备当前时间、设备使用率、设备当前使用状态、设备当前流量中的部分或全部；

7.一种基于强化学习的智能设备智能安全管理装置，其特征在于，包括：

策略更新单元，用于依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，并依据各待升级设备的损失函数梯度更新值，利用强化学习算法，对该智能设备升级任务当前的升级策略进行更新；

所述策略更新单元依据获取到的该智能设备批量升级任务对应的各待升级设备的升级反馈结果，利用强化学习算法，分别对各待升级设备当前的损失函数梯度进行更新，得到各待升级设备的损失函数梯度更新值，包括：

所述策略更新单元依据各待升级设备计算的损失函数梯度更新值，利用强化学习算法，进行全局升级策略更新，包括：

8.一种电子设备，其特征在于，包括处理器和存储器，其中，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1~6任一项所述的方法。