CN113031983B - 一种基于深度强化学习的软件智能升级方法及装置 - Google Patents

一种基于深度强化学习的软件智能升级方法及装置 Download PDF

Info

Publication number
CN113031983B
CN113031983B CN202110147585.XA CN202110147585A CN113031983B CN 113031983 B CN113031983 B CN 113031983B CN 202110147585 A CN202110147585 A CN 202110147585A CN 113031983 B CN113031983 B CN 113031983B
Authority
CN
China
Prior art keywords
software
upgrading
value
state
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110147585.XA
Other languages
English (en)
Other versions
CN113031983A (zh
Inventor
俞俊
许明杰
吴小志
王召
李东辉
杨春松
杨云飞
朱佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Technology Co Ltd
Original Assignee
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Technology Co Ltd filed Critical Nari Technology Co Ltd
Priority to CN202110147585.XA priority Critical patent/CN113031983B/zh
Publication of CN113031983A publication Critical patent/CN113031983A/zh
Application granted granted Critical
Publication of CN113031983B publication Critical patent/CN113031983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种基于深度强化学习的软件智能升级方法及装置。所述方法包括:采集软件运行参数以及用户操作参数,并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点;根据所述软件运行参数以及用户操作参数,利用策略网络给出预测的升级时间点,将预测的升级时间点和所述基准升级时间点的差值作为强化学习的奖励,并将奖励作为策略网络的标签值,通过训练得到训练好的软件智能升级模型;获取软件实时运行参数和用户操作参数,传入训练好的软件智能升级模型,得到当前升级时间点的可信值,并根据可信值判断是否进行升级。本发明基于强化学习和深度学习,实现软件系统的智能升级时机预测,极大地提高软件升级效率。

Description

一种基于深度强化学习的软件智能升级方法及装置
技术领域
本发明涉及计算机软件升级,具体涉及一种基于深度强化学习的软件智能升级方法及装置。
背景技术
在传统的设备软件升级过程中,升级时机的选取和升级操作的执行都是由人工完成的。软件升级时机往往选取业务量少或半夜用户在线量低的时间段,软件的模块类别和属性继承都由人工进行处理。这种方法稳定性和可靠性低,往往需要提出多个回滚备案以及进行多次灰度测试才能将软件升级完成。因此提出一种软件系统自适应升级时机预测的方法,让软件系统自适应的选择升级时机,智能进行升级操作,十分有意义。
现代软件系统越来越复杂,其运行环境和用户需求会不断变化,具有不确定性。如果在与环境的交互作用中,软件根据所获得的奖惩不断学习知识,从而更加适应环境,将会极大的节省软件升级的成本。这就要求软件系统能够适应运行环境的复杂性、动态性和不确定性。而这一适应的过程,与人类学习知识的过程非常相似,因此可以使用强化学习来模拟软件学习自适应性的过程。
在自适应软件系统中,环境代表软件的运行环境,通常包括Windows系统、Linux系统和安卓/IoS系统。对于不同的环境状态,软件需要智能决策出下一步的动作,这个决策的过程实际上就是系统策略部分。最简单的策略方式是Q-leaming方法,这是一种表格方法,这意味着它非常直接构建了一组“状态->动作”的策略。但是这个方法有两个弊端,一是Q-leaming的适用状态和作用空间很小;二是如果一个状态从未出现过,Q-leaming就无法处理。换言之,系统根本没有预测能力和泛化能力,无法处理未出现过的状态。如何让系统基于运行环境的变化并根据当前状态自适应地做出决策,是需要解决的关键问题。
发明内容
发明目的:针对现有技术的不足,本发明提供一种基于深度强化学习的软件智能升级方法,实现软件系统的智能升级时机预测,极大地提高软件升级效率。
本发明的另一目的是提供一种深度强化学习的软件智能升级装置。
技术方案:第一方面,一种基于深度强化学习的软件智能升级方法,包括以下步骤:
采集软件运行参数以及用户操作参数,并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点;
根据所述软件运行参数以及用户操作参数,利用策略网络给出预测的升级时间点,将预测的升级时间点与所述基准升级时间点的差值作为强化学习的奖励,并将奖励值作为策略网络的标签值,通过训练得到训练好的软件智能升级模型;
获取软件实时运行参数和用户操作参数,传入训练好的软件智能升级模型,得到当前升级时间点的可信值,并根据可信值判断是否进行升级。
其中,所述软件运行参数包括下述中的至少一种:软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量,所述用户操作参数包括软件界面点击量、接口调用量中的至少一种。
作为优选的实施方式,所述方法还包括:根据升级判断结果对软件智能升级模型进行优化,如果使用者确认升级,则给软件智能升级模型一个正值奖励,如果使用者拒绝升级,则反馈给软件智能升级模型一个负值奖励。
第二方面,一种基于深度强化学习的软件智能升级装置,包括:
数据采集模块,用于采集软件运行参数以及用户操作参数,并确定所述采集软件运行参数以及用户操作参数下软件的基准升级时间点;
软件智能升级模型训练模块,用于根据所述软件运行参数和用户操作参数利用策略网络给出预测的升级时间点,将预测的升级时间点与所述基准升级时间点的差值作为强化学习的奖励,并将奖励值作为策略网络的标签值,通过训练得到训练好的软件智能升级模型;
升级判断模块,用于根据实时获取的软件运行参数和用户操作参数,将其作为输入传入训练好的软件智能升级模型,得到当前升级时间点的可信值,并根据可信值判断是否进行升级。
作为优选的实施方式,所述装置还包括反馈学习模块,用于根据升级判断结果对软件智能升级模型进行优化,如果使用者确认升级,则给软件智能升级模型一个正值奖励,如果使用者拒绝升级,则反馈给软件智能升级模型一个负值奖励。
有益效果:本发明将深度学习引入自适应算法的构建中,提出了一种基于深度强化学习的软件智能升级方法,通过采集软件运行参数以及用户操作参数,建立一个基准升级时间点,再利用策略网络给出预测的升级时间点,通过将预测的升级时间点和基准升级时间点的差值作为奖励建立强化学习模型,根据深度学习可以精准进行预测,根据强化学习可以不断地提高对环境的感知学习能力。该自适应方法能监听到运行环境的变化,然后根据系统当前状态做出决策,并调用系统透出的接口进行执行,从而影响环境状态。本发明基于强化学习和深度学习,实现软件系统的智能升级时机预测,极大地提高软件升级效率。
附图说明
图1为本发明具体实施方式中软件智能升级方法框架示意图;
图2为本发明具体实施方式中自适应系统与强化学习示意图;
图3为本发明具体实施方式中策略算法结构示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明提出一种基于深度强化学习的软件智能升级方法,图1示出了该方法的总体框架,通过监听系统软件运行环境的变化,根据系统当前状态做出决策,并调用系统透出的接口进行决策的执行,从而影响环境状态。
本发明通过强化学习机制实现对环境状态的自适应动作预测,通过深度学习实现环境状态到系统动作的映射。自适应强化学习模块包括智能体(软件系统)、环境(软件运行环境)、动作(可执行操作)、状态(环境监听值)、奖励(反馈)五个组件,具体而言,强化学习任务设定为四元组<A,S,R,P>,A代表系统软件所有的可执行行为;S是软件所处所感知的环境状态;R是人为设定的价值,代表奖赏或惩罚;P代表状态转移概率。各组件的具体对应关系如图2所示。
强化学习模型中,策略可以被看作是从环境空间S={S1,S2…Sn}到动作空间A={A1,A2…Am}的一个映射,代表软件在当前状态Sk下(Sk∈S),所执行的动作Am(Am∈A),记为π。对于随机策略而言,每次决策都会选择概率值最高的动作,而各个决策的概率和必为1:
Figure BDA0002931225140000031
强化学习模型中,反馈代表每一次和环境交互的期望程度,它定义了系统学习的目标,可以理解为对系统的奖励和惩罚。在状态St时,采取动作At后的状态St+1和收益只与当前状态和动作有关,与历史状态无关,这也是马尔科夫模型。如下公式所示:
P(St+1,Rt+1|S0,A0,R1,…St,At)=P(St+1,Rt+1|St,At)
初始状态为S0,采取了动作A0后,得到了R1反馈值,随后状态转变为S1,并采取了动作A1,直到时刻t,等式左边代表当历史状态为[<S0,A0>,<S1,A1>…<St,At>]时,反馈为Rt+1且状态转变为St+1的概率值,等式右边代表当t时刻状态为<St,At>时,反馈为Rt+1且状态转变为St+1的概率值。当两者相等时,代表软件采取动作后的状态和反馈只与前一时刻相关。
深度学习模块利用核心策略算法学习环境状态到系统动作的映射,包含输入层、隐藏层和输出层三个部分,输入层为系统监控的数据,记为X=[X0,X1…Xn],根据系统运行环境的不同,X的数量和类别也有差别,在本系统中,监控数据包括软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量、软件界面点击量、接口调用量等。输出层输出单个节点值Y,代表系统执行的下一步操作,即是否为合适的升级时机。隐藏层可以被看作是一个黑盒模型,将输入的监控数据处理为自适应操作。详细结构如图3所示。在具体实施时,算法借助于TensorFlow创建多层感知机网络模型,读取训练集中的数据对模型进行训练,并对在测试集上表现最好的模型进行持久化,最后将数据输入至训练好的模型中进行预测,得到最终的可执行操作。
在训练完成后,多层感知机模型期望学习到相应策略函数为f(s)=A,其中,s是输入多层感知机的数据,f(s)是多层感知机最后一层的输出,A代表数据的标签。使用梯度下降法来使网络优化,使感知机输出的函数值无限接近标签值,即让在测试集上的损失最小,其中损失函数的定义如下:
Figure BDA0002931225140000041
其中,batchsize代表一轮训练中的样本数,i代表样本序号,si代表第i个样本,Ai代表该样本对应的标签值。
具体的实施主要分为四个阶段:
1、数据采集。在数据采集阶段,需要持续收集软件的运行参数(软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量等)以及用户的操作参数(软件界面点击量、接口调用量等)。然后由人为确定最佳的升级时间点,具体地,由测试人员使用软件,每隔5分钟询问是否升级,只有当测试人员确定升级且软件升级成功时,才能被看作是最佳的升级时间点,该时间点前后2.5分钟看作是可升级时间,这些时间点可以看做为这段数据的标签,也可称为基准升级时间点。并且对这些数据进行划分,得到用于模型训练的训练集和用于性能测试的测试集。
2、训练模型。将采集数据中获取的参数,作为策略网络的输入层。将当前预测的时间点与标签时间点的差值作为强化学习的奖励,差距越小,奖励越高,这个奖励值作为策略网络的标签值。根据大量数据来训练模型,即最小化策略网络的损失函数,最终得到一个在测试数据集表现良好的模型。
训练模型基于多层感知机,对输入数据进行预测,具体包括以下步骤:
1)借助于TensorFlow深度学习框架,创建神经网络模型。包含两部分:一是声明模型中各个结构包含的变量;二是实现模型的前向传播过程;
2)分别读取训练集中训练数据,对创建的模型进行训练;
3)选择在测试集上表现最好的模型,将其持久化,并对训练过程进行监控,对表现最好的模型进行储存;
4)为了离线预测,需要加载和恢复表现最好的模型,将恢复的模型中输入实时的真实数据,在经过计算后,模型会输出一个预测结果,代表当前时刻是否适合升级。
3、使用模型。在训练完成后,系统会实时的将运行参数和用户操作参数进行处理,并作为输入传入策略网络,并计算得到当前适合升级的时机的可信值,如果这个值超过了阈值,则认为当前可以进行升级,软件系统会提示用户进行软件升级。
4、反馈机制。在模型预测到当前时间适合升级,跳出升级提示后,如果用户确认升级,会给模型一个正值奖励;如果用户拒绝升级,会反馈给模型一个很大的负值奖励,并会将这段数据(预测前5分钟的监控参数和用户操作)存入日志。在下一次更新升级时,会提取出日志中的预测失败的数据,并融合在训练和测试数据中,对模型进行训练和优化,得到更准确的模型。
根据本发明的另一实施例,提供一种基于深度强化学习的软件智能升级装置,包括:
数据采集模块,用于采集软件运行参数以及用户操作参数,并基于采集的软件运行参数以及用户操作参数,通过人工确定软件的基准升级时机点,具体确定的方法可以参照方法实施例中的描述;
软件智能升级模型训练模块,用于根据软件运行参数和用户操作参数,利用策略网络预测软件的升级时间点,将预测的升级时间点与基准升级时间点的差值作为强化学习的奖励,并将奖励值作为策略网络的标签值,通过训练得到训练好的软件智能升级模型;
升级判断模块,用于根据实时获取的软件运行参数和用户操作参数,将其作为输入传入训练好的软件智能升级模型,得到当前适合升级的时机的可信值,并根据可信值判断是否进行升级;
反馈学习模块,用于根据升级判断结果对软件智能升级模型进行优化,如果使用者确认升级,则给软件智能升级模型一个正值奖励,如果使用者拒绝升级,则反馈给软件智能升级模型一个负值奖励。
在本发明实施例中,软件运行参数包括下述中的至少一种:软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量;用户操作参数包括软件界面点击量、接口调用量中的至少一种。
在软件智能升级模型中,强化学习任务表示为四元组<A,S,R,P>,A代表软件所有的可执行动作,S是软件所感知的环境状态,R是预先设定的价值,代表奖赏或惩罚,P代表状态转移概率;策略代表软件在当前状态Sk下(Sk∈S),所执行的动作Am(Am∈A),记为π,S={S1,S2…Sn}表示环境空间,A={A1,A2…Am}表示动作空间;
强化学习的反馈机制为:在状态St时,采取动作At后的状态St+1和收益只与当前状态和动作有关,与历史状态无关,表示如下:
P(St+1,Rt+1|S0,A0,R1,…St,At)=P(St+1,Rt+1|St,At)。
初始状态为S0,采取了动作A0后,得到了R1反馈值,随后状态转变为S1,并采取了动作A1,直到时刻t,等式左边代表当历史状态为[<S0,A0>,<S1,A1>…<St,At>]时,反馈为Rt+1且状态转变为St+1的概率值,等式右边代表当t时刻状态为<St,At>时,反馈为Rt+1且状态转变为St+1的概率值,当两者相等时,代表软件采取动作后的状态和反馈只与前一时刻相关。
策略网络具体使用深度学习中的多层感知机,其输入层为采集数据中获取的参数,记为X=[X0,X1…Xn],输出层输出单个节点值Y,代表系统执行的下一步操作,即是否为合适的升级时机。
在训练完成后,为了提高精度,使用梯度下降法对多层感知机进行优化,使感知机的输出损失最小,其中损失函数的定义如下:
Figure BDA0002931225140000071
其中,batchsize代表一轮训练中的样本数,i代表样本序号,si代表第i个样本,Ai代表该样本对应的标签值。
应理解,本发明实施例中的软件智能升级装置可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程以及所涉及的具体计算公式可参照上述实施例中的相关描述,此处不再赘述。
基于与方法实施例相同的技术构思,根据本发明的另一实施例,提供一种计算机设备,所述设备包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现方法实施例中的各步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置/设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种基于深度强化学习的软件智能升级方法,其特征在于,所述方法包括以下步骤:
采集软件运行参数以及用户操作参数,并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点;
根据所述软件运行参数以及用户操作参数,利用策略网络给出预测的升级时间点,将预测的升级时间点和所述基准升级时间点的差值作为强化学习的奖励,并将奖励作为策略网络的标签值,通过训练得到训练好的软件智能升级模型;其中所述强化学习表示为四元组<A,S,R,P>,A代表软件所有的可执行动作,S是软件所感知的环境状态,R是预先设定的收益值,代表奖赏或惩罚,P代表状态转移概率;策略代表软件在当前状态Sk下(Sk∈S),所执行的动作Am(Am∈A),记为π,S={S1,S2…Sn}表示环境空间,A={A1,A2…Am}表示动作空间;所述强化学习的反馈机制为:在状态St时,采取动作At后的状态St+1和收益只与当前状态和动作有关,与历史状态无关,表示如下:P(St+1,Rt+1|S0,A0,R1,...St,At)=P(St+1,Rt+1|St,At),初始状态为S0,采取了动作A0后,得到了R1反馈值,随后状态转变为S1,并采取了动作A1,直到时刻t,等式左边代表当历史状态为[<S0,A0>,<S1,A1>…<St,At>]时,反馈为Rt+1且状态转变为St+1的概率值,等式右边代表当t时刻状态为<St,At>时,反馈为Rt+1且状态转变为St+1的概率值;所述策略网络使用深度学习中的多层感知机,其输入层为采集数据中获取的软件运行参数和用户操作参数,记为X=[X0,X1…Xn],输出层输出单个节点值Y,代表系统执行的下一步操作;
获取软件实时运行参数和用户操作参数,传入训练好的软件智能升级模型,得到当前升级时间点的可信值,并根据可信值判断是否进行升级。
2.根据权利要求1所述的基于深度强化学习的软件智能升级方法,其特征在于,所述软件运行参数包括下述中的至少一种:软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量,所述用户操作参数包括软件界面点击量、接口调用量中的至少一种。
3.根据权利要求1所述的基于深度强化学习的软件智能升级方法,其特征在于,所述策略网络使用梯度下降法对多层感知机进行优化,使感知机的输出损失最小,其中损失函数的定义如下:
Figure FDA0003757643720000021
其中,batchsize代表一轮训练中的样本数,i代表样本序号,si代表第i个样本,Ai代表该样本对应的标签值。
4.根据权利要求1所述的基于深度强化学习的软件智能升级方法,其特征在于,所述方法还包括:根据升级判断结果对软件智能升级模型进行优化,如果使用者确认升级,则给软件智能升级模型一个正值奖励,如果使用者拒绝升级,则反馈给软件智能升级模型一个负值奖励。
5.一种基于深度强化学习的软件智能升级装置,其特征在于,包括:
数据采集模块,用于采集软件运行参数以及用户操作参数,并确定所述软件运行参数以及用户操作参数下软件的基准升级时间点;
软件智能升级模型训练模块,用于根据所述软件运行参数和用户操作参数利用策略网络给出预测的升级时间点,将预测的升级时间点与所述基准升级时间点的差值作为强化学习的奖励,并将奖励值作为策略网络的标签值,通过训练得到训练好的软件智能升级模型;其中所述强化学习表示为四元组<A,S,R,P>,A代表软件所有的可执行动作,S是软件所感知的环境状态,R是预先设定的收益值,代表奖赏或惩罚,P代表状态转移概率;策略代表软件在当前状态Sk下(Sk∈S),所执行的动作Am(Am∈A),记为π,S={S1,S2…Sn}表示环境空间,A={A1,A2…Am}表示动作空间;所述强化学习的反馈机制为:在状态St时,采取动作At后的状态St+1和收益只与当前状态和动作有关,与历史状态无关,表示如下:P(St+1,Rt+1|S0,A0,R1,...,St,At)=P(St+1,Rt+1|St,At),初始状态为S0,采取了动作A0后,得到了R1反馈值,随后状态转变为S1,并采取了动作A1,直到时刻t,等式左边代表当历史状态为[<S0,A0>,<S1,A1>…<St,At>]时,反馈为Rt+1且状态转变为St+1的概率值,等式右边代表当t时刻状态为<St,At>时,反馈为Rt+1且状态转变为St+1的概率值;所述策略网络使用深度学习中的多层感知机,其输入层为数据采集模块获取的软件运行参数和用户操作参数,记为X=[X0,X1…Xn],输出层输出单个节点值Y,代表系统执行的下一步操作;
升级判断模块,用于根据实时获取的软件运行参数和用户操作参数,将其作为输入传入训练好的软件智能升级模型,得到当前升级时间点的可信值,并根据可信值判断是否进行升级。
6.根据权利要求5所述的基于深度强化学习的软件智能升级装置,其特征在于,还包括反馈学习模块,用于根据升级判断结果对软件智能升级模型进行优化,如果使用者确认升级,则给软件智能升级模型一个正值奖励,如果使用者拒绝升级,则反馈给软件智能升级模型一个负值奖励。
7.根据权利要求5所述的基于深度强化学习的软件智能升级装置,其特征在于,所述软件运行参数包括下述中的至少一种:软件已运行时间、系统时间、网卡流速及方向、CPU平均负载值、使用率、空闲时间、物理内存可用容量、swap分区可用容量,所述用户操作参数包括软件界面点击量、接口调用量中的至少一种。
CN202110147585.XA 2021-02-03 2021-02-03 一种基于深度强化学习的软件智能升级方法及装置 Active CN113031983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110147585.XA CN113031983B (zh) 2021-02-03 2021-02-03 一种基于深度强化学习的软件智能升级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110147585.XA CN113031983B (zh) 2021-02-03 2021-02-03 一种基于深度强化学习的软件智能升级方法及装置

Publications (2)

Publication Number Publication Date
CN113031983A CN113031983A (zh) 2021-06-25
CN113031983B true CN113031983B (zh) 2022-11-11

Family

ID=76459818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110147585.XA Active CN113031983B (zh) 2021-02-03 2021-02-03 一种基于深度强化学习的软件智能升级方法及装置

Country Status (1)

Country Link
CN (1) CN113031983B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626052B (zh) * 2021-07-29 2023-08-08 苏州浪潮智能科技有限公司 一种深度学习训练平台
CN113986770B (zh) * 2021-12-27 2022-04-22 深圳市明源云科技有限公司 基于人工智能的用户系统升级方法、装置、设备及介质
CN115291919B (zh) * 2022-10-10 2023-03-24 荣耀终端有限公司 一种搜包方法及相关装置
CN115576586B (zh) * 2022-11-15 2023-04-07 四川蜀天信息技术有限公司 一种智能运营与维护服务器的服务端程序的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857534A (zh) * 2019-02-12 2019-06-07 浙江方正印务有限公司 一种基于策略梯度强化学习的智能任务调度策略训练方法
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN112200737A (zh) * 2020-09-27 2021-01-08 北京达佳互联信息技术有限公司 一种基于强化学习的图像处理方法、装置及存储介质
CN112200736A (zh) * 2020-09-27 2021-01-08 北京达佳互联信息技术有限公司 基于强化学习的图像处理方法及模型训练方法、装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109857534A (zh) * 2019-02-12 2019-06-07 浙江方正印务有限公司 一种基于策略梯度强化学习的智能任务调度策略训练方法
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN112200737A (zh) * 2020-09-27 2021-01-08 北京达佳互联信息技术有限公司 一种基于强化学习的图像处理方法、装置及存储介质
CN112200736A (zh) * 2020-09-27 2021-01-08 北京达佳互联信息技术有限公司 基于强化学习的图像处理方法及模型训练方法、装置

Also Published As

Publication number Publication date
CN113031983A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113031983B (zh) 一种基于深度强化学习的软件智能升级方法及装置
CN110119844B (zh) 引入情绪调控机制的机器人运动决策方法、系统、装置
CN111582694B (zh) 一种学习评估方法及装置
CN110019151B (zh) 数据库性能调整方法、装置、设备、系统及存储介质
US20090043715A1 (en) Method to Continuously Diagnose and Model Changes of Real-Valued Streaming Variables
CN111290922B (zh) 服务运行健康度监测方法及装置
CN113077052A (zh) 用于稀疏奖励环境的强化学习方法、装置、设备及介质
CN114422322B (zh) 一种告警压缩的方法、装置、设备及存储介质
CN116340726A (zh) 一种能源经济大数据清洗方法、系统、设备及存储介质
Zhou et al. Deep learning-based intelligent multilevel predictive maintenance framework considering comprehensive cost
CN117573307A (zh) 云环境下多任务的统筹管理方法及系统
CN112818100A (zh) 一种融合题目难度的知识追踪方法及系统
JPH06332506A (ja) 非線形制御装置
CN113743461B (zh) 无人机集群健康度评估方法及装置
CN114742644A (zh) 训练多场景风控系统、预测业务对象风险的方法和装置
CN114328821A (zh) 基于控制槽位和业务数据槽位的多轮对话控制方法及装置
CN113987261A (zh) 一种基于动态信任感知的视频推荐方法及系统
CN114726751A (zh) 资源质量监控的智能化预警方法、系统、设备和存储介质
CN114239934A (zh) 一种基于生成式对抗网络的电网负荷序列预测方法及系统
CN117632905B (zh) 基于云端使用记录的数据库管理方法及系统
CN111667107B (zh) 基于梯度随机森林的研发管控问题预测方法及装置
US20220006853A1 (en) Intelligent server migration platform
CN117725508A (zh) 一种基于em算法的工业数据风险预测方法、设备及介质
CN111783040A (zh) 一种服务性能稳定性测试评估的方法及装置
CN114138614A (zh) 一种批处理任务的运行时长预测方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant