CN113031983B

CN113031983B - 一种基于深度强化学习的软件智能升级方法及装置

Info

Publication number: CN113031983B
Application number: CN202110147585.XA
Authority: CN
Inventors: 俞俊; 许明杰; 吴小志; 王召; 李东辉; 杨春松; 杨云飞; 朱佳
Original assignee: Nari Technology Co Ltd
Current assignee: Nari Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-11-11
Anticipated expiration: 2041-02-03
Also published as: CN113031983A

Abstract

本发明提出了一种基于深度强化学习的软件智能升级方法及装置。所述方法包括：采集软件运行参数以及用户操作参数，并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点；根据所述软件运行参数以及用户操作参数，利用策略网络给出预测的升级时间点，将预测的升级时间点和所述基准升级时间点的差值作为强化学习的奖励，并将奖励作为策略网络的标签值，通过训练得到训练好的软件智能升级模型；获取软件实时运行参数和用户操作参数，传入训练好的软件智能升级模型，得到当前升级时间点的可信值，并根据可信值判断是否进行升级。本发明基于强化学习和深度学习，实现软件系统的智能升级时机预测，极大地提高软件升级效率。

Description

一种基于深度强化学习的软件智能升级方法及装置

技术领域

本发明涉及计算机软件升级，具体涉及一种基于深度强化学习的软件智能升级方法及装置。

背景技术

在传统的设备软件升级过程中，升级时机的选取和升级操作的执行都是由人工完成的。软件升级时机往往选取业务量少或半夜用户在线量低的时间段，软件的模块类别和属性继承都由人工进行处理。这种方法稳定性和可靠性低，往往需要提出多个回滚备案以及进行多次灰度测试才能将软件升级完成。因此提出一种软件系统自适应升级时机预测的方法，让软件系统自适应的选择升级时机，智能进行升级操作，十分有意义。

现代软件系统越来越复杂，其运行环境和用户需求会不断变化，具有不确定性。如果在与环境的交互作用中，软件根据所获得的奖惩不断学习知识，从而更加适应环境，将会极大的节省软件升级的成本。这就要求软件系统能够适应运行环境的复杂性、动态性和不确定性。而这一适应的过程，与人类学习知识的过程非常相似，因此可以使用强化学习来模拟软件学习自适应性的过程。

在自适应软件系统中，环境代表软件的运行环境，通常包括Windows系统、Linux系统和安卓/IoS系统。对于不同的环境状态，软件需要智能决策出下一步的动作，这个决策的过程实际上就是系统策略部分。最简单的策略方式是Q-leaming方法，这是一种表格方法，这意味着它非常直接构建了一组“状态-＞动作”的策略。但是这个方法有两个弊端，一是Q-leaming的适用状态和作用空间很小；二是如果一个状态从未出现过，Q-leaming就无法处理。换言之，系统根本没有预测能力和泛化能力，无法处理未出现过的状态。如何让系统基于运行环境的变化并根据当前状态自适应地做出决策，是需要解决的关键问题。

发明内容

发明目的：针对现有技术的不足，本发明提供一种基于深度强化学习的软件智能升级方法，实现软件系统的智能升级时机预测，极大地提高软件升级效率。

本发明的另一目的是提供一种深度强化学习的软件智能升级装置。

技术方案：第一方面，一种基于深度强化学习的软件智能升级方法，包括以下步骤：

采集软件运行参数以及用户操作参数，并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点；

根据所述软件运行参数以及用户操作参数，利用策略网络给出预测的升级时间点，将预测的升级时间点与所述基准升级时间点的差值作为强化学习的奖励，并将奖励值作为策略网络的标签值，通过训练得到训练好的软件智能升级模型；

获取软件实时运行参数和用户操作参数，传入训练好的软件智能升级模型，得到当前升级时间点的可信值，并根据可信值判断是否进行升级。

其中，所述软件运行参数包括下述中的至少一种：软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量，所述用户操作参数包括软件界面点击量、接口调用量中的至少一种。

作为优选的实施方式，所述方法还包括：根据升级判断结果对软件智能升级模型进行优化，如果使用者确认升级，则给软件智能升级模型一个正值奖励，如果使用者拒绝升级，则反馈给软件智能升级模型一个负值奖励。

第二方面，一种基于深度强化学习的软件智能升级装置，包括：

数据采集模块，用于采集软件运行参数以及用户操作参数，并确定所述采集软件运行参数以及用户操作参数下软件的基准升级时间点；

软件智能升级模型训练模块，用于根据所述软件运行参数和用户操作参数利用策略网络给出预测的升级时间点，将预测的升级时间点与所述基准升级时间点的差值作为强化学习的奖励，并将奖励值作为策略网络的标签值，通过训练得到训练好的软件智能升级模型；

升级判断模块，用于根据实时获取的软件运行参数和用户操作参数，将其作为输入传入训练好的软件智能升级模型，得到当前升级时间点的可信值，并根据可信值判断是否进行升级。

作为优选的实施方式，所述装置还包括反馈学习模块，用于根据升级判断结果对软件智能升级模型进行优化，如果使用者确认升级，则给软件智能升级模型一个正值奖励，如果使用者拒绝升级，则反馈给软件智能升级模型一个负值奖励。

有益效果：本发明将深度学习引入自适应算法的构建中，提出了一种基于深度强化学习的软件智能升级方法，通过采集软件运行参数以及用户操作参数，建立一个基准升级时间点，再利用策略网络给出预测的升级时间点，通过将预测的升级时间点和基准升级时间点的差值作为奖励建立强化学习模型，根据深度学习可以精准进行预测，根据强化学习可以不断地提高对环境的感知学习能力。该自适应方法能监听到运行环境的变化，然后根据系统当前状态做出决策，并调用系统透出的接口进行执行，从而影响环境状态。本发明基于强化学习和深度学习，实现软件系统的智能升级时机预测，极大地提高软件升级效率。

附图说明

图1为本发明具体实施方式中软件智能升级方法框架示意图；

图2为本发明具体实施方式中自适应系统与强化学习示意图；

图3为本发明具体实施方式中策略算法结构示意图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明提出一种基于深度强化学习的软件智能升级方法，图1示出了该方法的总体框架，通过监听系统软件运行环境的变化，根据系统当前状态做出决策，并调用系统透出的接口进行决策的执行，从而影响环境状态。

本发明通过强化学习机制实现对环境状态的自适应动作预测，通过深度学习实现环境状态到系统动作的映射。自适应强化学习模块包括智能体(软件系统)、环境(软件运行环境)、动作(可执行操作)、状态(环境监听值)、奖励(反馈)五个组件，具体而言，强化学习任务设定为四元组<A，S，R，P>，A代表系统软件所有的可执行行为；S是软件所处所感知的环境状态；R是人为设定的价值，代表奖赏或惩罚；P代表状态转移概率。各组件的具体对应关系如图2所示。

强化学习模型中，策略可以被看作是从环境空间S＝{S₁，S₂…S_n}到动作空间A＝{A₁，A₂…A_m}的一个映射，代表软件在当前状态S_k下(S_k∈S)，所执行的动作A_m(A_m∈A)，记为π。对于随机策略而言，每次决策都会选择概率值最高的动作，而各个决策的概率和必为1：

强化学习模型中，反馈代表每一次和环境交互的期望程度，它定义了系统学习的目标，可以理解为对系统的奖励和惩罚。在状态S_t时，采取动作A_t后的状态S_t+1和收益只与当前状态和动作有关，与历史状态无关，这也是马尔科夫模型。如下公式所示：

P(S_t+1，R_t+1|S₀，A₀，R₁，…S_t，A_t)＝P(S_t+1，R_t+1|S_t，A_t)

初始状态为S₀，采取了动作A₀后，得到了R₁反馈值，随后状态转变为S₁，并采取了动作A₁，直到时刻t，等式左边代表当历史状态为[<S₀，A₀>，<S₁，A₁>…<S_t，A_t>]时，反馈为R_t+1且状态转变为S_t+1的概率值，等式右边代表当t时刻状态为<S_t，A_t>时，反馈为R_t+1且状态转变为S_t+1的概率值。当两者相等时，代表软件采取动作后的状态和反馈只与前一时刻相关。

深度学习模块利用核心策略算法学习环境状态到系统动作的映射，包含输入层、隐藏层和输出层三个部分，输入层为系统监控的数据，记为X＝[X₀，X₁…X_n]，根据系统运行环境的不同，X的数量和类别也有差别，在本系统中，监控数据包括软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量、软件界面点击量、接口调用量等。输出层输出单个节点值Y，代表系统执行的下一步操作，即是否为合适的升级时机。隐藏层可以被看作是一个黑盒模型，将输入的监控数据处理为自适应操作。详细结构如图3所示。在具体实施时，算法借助于TensorFlow创建多层感知机网络模型，读取训练集中的数据对模型进行训练，并对在测试集上表现最好的模型进行持久化，最后将数据输入至训练好的模型中进行预测，得到最终的可执行操作。

在训练完成后，多层感知机模型期望学习到相应策略函数为f(s)＝A，其中，s是输入多层感知机的数据，f(s)是多层感知机最后一层的输出，A代表数据的标签。使用梯度下降法来使网络优化，使感知机输出的函数值无限接近标签值，即让在测试集上的损失最小，其中损失函数的定义如下：

其中，batchsize代表一轮训练中的样本数，i代表样本序号，s_i代表第i个样本，A_i代表该样本对应的标签值。

具体的实施主要分为四个阶段：

1、数据采集。在数据采集阶段，需要持续收集软件的运行参数(软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量等)以及用户的操作参数(软件界面点击量、接口调用量等)。然后由人为确定最佳的升级时间点，具体地，由测试人员使用软件，每隔5分钟询问是否升级，只有当测试人员确定升级且软件升级成功时，才能被看作是最佳的升级时间点，该时间点前后2.5分钟看作是可升级时间，这些时间点可以看做为这段数据的标签，也可称为基准升级时间点。并且对这些数据进行划分，得到用于模型训练的训练集和用于性能测试的测试集。

2、训练模型。将采集数据中获取的参数，作为策略网络的输入层。将当前预测的时间点与标签时间点的差值作为强化学习的奖励，差距越小，奖励越高，这个奖励值作为策略网络的标签值。根据大量数据来训练模型，即最小化策略网络的损失函数，最终得到一个在测试数据集表现良好的模型。

训练模型基于多层感知机，对输入数据进行预测，具体包括以下步骤：

1)借助于TensorFlow深度学习框架，创建神经网络模型。包含两部分：一是声明模型中各个结构包含的变量；二是实现模型的前向传播过程；

2)分别读取训练集中训练数据，对创建的模型进行训练；

3)选择在测试集上表现最好的模型，将其持久化，并对训练过程进行监控，对表现最好的模型进行储存；

4)为了离线预测，需要加载和恢复表现最好的模型，将恢复的模型中输入实时的真实数据，在经过计算后，模型会输出一个预测结果，代表当前时刻是否适合升级。

3、使用模型。在训练完成后，系统会实时的将运行参数和用户操作参数进行处理，并作为输入传入策略网络，并计算得到当前适合升级的时机的可信值，如果这个值超过了阈值，则认为当前可以进行升级，软件系统会提示用户进行软件升级。

4、反馈机制。在模型预测到当前时间适合升级，跳出升级提示后，如果用户确认升级，会给模型一个正值奖励；如果用户拒绝升级，会反馈给模型一个很大的负值奖励，并会将这段数据(预测前5分钟的监控参数和用户操作)存入日志。在下一次更新升级时，会提取出日志中的预测失败的数据，并融合在训练和测试数据中，对模型进行训练和优化，得到更准确的模型。

根据本发明的另一实施例，提供一种基于深度强化学习的软件智能升级装置，包括：

数据采集模块，用于采集软件运行参数以及用户操作参数，并基于采集的软件运行参数以及用户操作参数，通过人工确定软件的基准升级时机点，具体确定的方法可以参照方法实施例中的描述；

软件智能升级模型训练模块，用于根据软件运行参数和用户操作参数，利用策略网络预测软件的升级时间点，将预测的升级时间点与基准升级时间点的差值作为强化学习的奖励，并将奖励值作为策略网络的标签值，通过训练得到训练好的软件智能升级模型；

升级判断模块，用于根据实时获取的软件运行参数和用户操作参数，将其作为输入传入训练好的软件智能升级模型，得到当前适合升级的时机的可信值，并根据可信值判断是否进行升级；

反馈学习模块，用于根据升级判断结果对软件智能升级模型进行优化，如果使用者确认升级，则给软件智能升级模型一个正值奖励，如果使用者拒绝升级，则反馈给软件智能升级模型一个负值奖励。

在本发明实施例中，软件运行参数包括下述中的至少一种：软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量；用户操作参数包括软件界面点击量、接口调用量中的至少一种。

在软件智能升级模型中，强化学习任务表示为四元组<A，S，R，P>，A代表软件所有的可执行动作，S是软件所感知的环境状态，R是预先设定的价值，代表奖赏或惩罚，P代表状态转移概率；策略代表软件在当前状态S_k下(S_k∈S)，所执行的动作A_m(A_m∈A)，记为π，S＝{S₁，S₂…S_n}表示环境空间，A＝{A₁，A₂…A_m}表示动作空间；

强化学习的反馈机制为：在状态S_t时，采取动作A_t后的状态S_t+1和收益只与当前状态和动作有关，与历史状态无关，表示如下：

P(S_t+1，R_t+1|S₀，A₀，R₁，…S_t，A_t)＝P(S_t+1，R_t+1|S_t，A_t)。

初始状态为S₀，采取了动作A₀后，得到了R₁反馈值，随后状态转变为S₁，并采取了动作A₁，直到时刻t，等式左边代表当历史状态为[<S₀，A₀>，<S₁，A₁>…<S_t，A_t>]时，反馈为R_t+1且状态转变为S_t+1的概率值，等式右边代表当t时刻状态为<S_t，A_t>时，反馈为R_t+1且状态转变为S_t+1的概率值，当两者相等时，代表软件采取动作后的状态和反馈只与前一时刻相关。

策略网络具体使用深度学习中的多层感知机，其输入层为采集数据中获取的参数，记为X＝[X₀，X₁…X_n]，输出层输出单个节点值Y，代表系统执行的下一步操作，即是否为合适的升级时机。

在训练完成后，为了提高精度，使用梯度下降法对多层感知机进行优化，使感知机的输出损失最小，其中损失函数的定义如下：

应理解，本发明实施例中的软件智能升级装置可以实现上述方法实施例中的全部技术方案，其各个功能模块的功能可以根据上述方法实施例中的方法具体实现，其具体实现过程以及所涉及的具体计算公式可参照上述实施例中的相关描述，此处不再赘述。

基于与方法实施例相同的技术构思，根据本发明的另一实施例，提供一种计算机设备，所述设备包括：一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述程序被处理器执行时实现方法实施例中的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置/设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于深度强化学习的软件智能升级方法，其特征在于，所述方法包括以下步骤：

根据所述软件运行参数以及用户操作参数，利用策略网络给出预测的升级时间点，将预测的升级时间点和所述基准升级时间点的差值作为强化学习的奖励，并将奖励作为策略网络的标签值，通过训练得到训练好的软件智能升级模型；其中所述强化学习表示为四元组<A,S,R,P>，A代表软件所有的可执行动作，S是软件所感知的环境状态，R是预先设定的收益值，代表奖赏或惩罚，P代表状态转移概率；策略代表软件在当前状态S_k下(S_k∈S)，所执行的动作A_m(A_m∈A)，记为π，S＝{S₁，S₂…S_n}表示环境空间，A＝{A₁，A₂…A_m}表示动作空间；所述强化学习的反馈机制为：在状态S_t时，采取动作A_t后的状态S_t+1和收益只与当前状态和动作有关，与历史状态无关，表示如下：P(S_t+1，R_t+1|S₀，A₀，R₁，...S_t，A_t)＝P(S_t+1，R_t+1|S_t，A_t)，初始状态为S₀，采取了动作A₀后，得到了R₁反馈值，随后状态转变为S₁，并采取了动作A₁，直到时刻t，等式左边代表当历史状态为[<S₀，A₀>,<S₁，A₁>…<S_t，A_t>]时，反馈为R_t+1且状态转变为S_t+1的概率值，等式右边代表当t时刻状态为<S_t，A_t>时，反馈为R_t+1且状态转变为S_t+1的概率值；所述策略网络使用深度学习中的多层感知机，其输入层为采集数据中获取的软件运行参数和用户操作参数，记为X＝[X₀,X₁…X_n]，输出层输出单个节点值Y，代表系统执行的下一步操作；

2.根据权利要求1所述的基于深度强化学习的软件智能升级方法，其特征在于，所述软件运行参数包括下述中的至少一种：软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量，所述用户操作参数包括软件界面点击量、接口调用量中的至少一种。

3.根据权利要求1所述的基于深度强化学习的软件智能升级方法，其特征在于，所述策略网络使用梯度下降法对多层感知机进行优化，使感知机的输出损失最小，其中损失函数的定义如下：

4.根据权利要求1所述的基于深度强化学习的软件智能升级方法，其特征在于，所述方法还包括：根据升级判断结果对软件智能升级模型进行优化，如果使用者确认升级，则给软件智能升级模型一个正值奖励，如果使用者拒绝升级，则反馈给软件智能升级模型一个负值奖励。

5.一种基于深度强化学习的软件智能升级装置，其特征在于，包括：

数据采集模块，用于采集软件运行参数以及用户操作参数，并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点；

软件智能升级模型训练模块，用于根据所述软件运行参数和用户操作参数利用策略网络给出预测的升级时间点，将预测的升级时间点与所述基准升级时间点的差值作为强化学习的奖励，并将奖励值作为策略网络的标签值，通过训练得到训练好的软件智能升级模型；其中所述强化学习表示为四元组<A,S,R,P>，A代表软件所有的可执行动作，S是软件所感知的环境状态，R是预先设定的收益值，代表奖赏或惩罚，P代表状态转移概率；策略代表软件在当前状态S_k下(S_k∈S)，所执行的动作A_m(A_m∈A)，记为π，S＝{S₁，S₂…S_n}表示环境空间，A＝{A₁，A₂…A_m}表示动作空间；所述强化学习的反馈机制为：在状态S_t时，采取动作A_t后的状态S_t+1和收益只与当前状态和动作有关，与历史状态无关，表示如下：P(S_t+1，R_t+1|S₀，A₀，R₁，...，S_t，A_t)＝P(S_t+1，R_t+1|S_t，A_t)，初始状态为S₀，采取了动作A₀后，得到了R₁反馈值，随后状态转变为S₁，并采取了动作A₁，直到时刻t，等式左边代表当历史状态为[<S₀，A₀>,<S₁，A₁>…<S_t，A_t>]时，反馈为R_t+1且状态转变为S_t+1的概率值，等式右边代表当t时刻状态为<S_t，A_t>时，反馈为R_t+1且状态转变为S_t+1的概率值；所述策略网络使用深度学习中的多层感知机，其输入层为数据采集模块获取的软件运行参数和用户操作参数，记为X＝[X₀,X₁…X_n]，输出层输出单个节点值Y，代表系统执行的下一步操作；

6.根据权利要求5所述的基于深度强化学习的软件智能升级装置，其特征在于，还包括反馈学习模块，用于根据升级判断结果对软件智能升级模型进行优化，如果使用者确认升级，则给软件智能升级模型一个正值奖励，如果使用者拒绝升级，则反馈给软件智能升级模型一个负值奖励。

7.根据权利要求5所述的基于深度强化学习的软件智能升级装置，其特征在于，所述软件运行参数包括下述中的至少一种：软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量，所述用户操作参数包括软件界面点击量、接口调用量中的至少一种。