CN111324358A - 一种用于信息系统自动运维策略的训练方法 - Google Patents

一种用于信息系统自动运维策略的训练方法 Download PDF

Info

Publication number
CN111324358A
CN111324358A CN202010092042.8A CN202010092042A CN111324358A CN 111324358 A CN111324358 A CN 111324358A CN 202010092042 A CN202010092042 A CN 202010092042A CN 111324358 A CN111324358 A CN 111324358A
Authority
CN
China
Prior art keywords
information system
strategy
user
maintenance
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010092042.8A
Other languages
English (en)
Other versions
CN111324358B (zh
Inventor
俞扬
秦熔均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanqi Xiance Nanjing Technology Co ltd
Original Assignee
Nanqi Xiance Nanjing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanqi Xiance Nanjing Technology Co ltd filed Critical Nanqi Xiance Nanjing Technology Co ltd
Priority to CN202010092042.8A priority Critical patent/CN111324358B/zh
Publication of CN111324358A publication Critical patent/CN111324358A/zh
Application granted granted Critical
Publication of CN111324358B publication Critical patent/CN111324358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于信息系统自动运维策略的训练方法,主要包括基于机器学习、对抗学习的信息系统模拟器构造、基于强化学习的自动智能运维策略搜索和自动智能运维策略模型迁移优化三个部分,解决信息系统领域里的高动态、难求解的问题。

Description

一种用于信息系统自动运维策略的训练方法
技术领域
本发明涉及一种用于信息系统自动运维策略的训练方法,可用于对信息系统自动智能运维,属于智能运维技术领域。
背景技术
自动智能运维策略的目标是辅助信息系统根据即时系统状态,调整并维护系统中各设备节点参数,即时地为覆盖范围内的用户提供最好的信息服务。传统的自动运维策略设计多依赖于对周边用户进行一定的偏好假设或约束,再用传统优化方法求解,而这些假设通常难以准确描述周边用户的行为,且假设不具有实时性,无法还原真实环境的高动态,使得根据这些假设求解的运维策略效果受限,且随信息系统越来越庞大,上述方法甚至无法进行求解。而自动运维是一个典型的多智能体交互环境下的序列决策过程,因此在本发明中,引入强化学习以解决以上问题。
强化学习中,智能体与环境不断交互试错,提升智能体自身的决策水平,使智能体在环境中逐渐学得最优控制策略,自动完成决策任务。然而,强化学习的学习过程需要智能体与环境进行大量交互试错,在实际的自动运维求解问题中,直接使用强化学习需要使用大量不同参数配置以进行试错,可能会导致现有系统崩溃,显然直接在真实的信息系统使用强化学习方法是不切实际的。
因此,在本发明中,我们提出了一种新型的基于对用户行为模式模拟的自动运维策略学习方法以解决上述问题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明提供一种用于信息系统自动运维策略的训练方法。
技术方案:一种用于信息系统自动运维策略的训练方法,主要包括信息系统模拟器构造、策略搜索和迁移优化算法三个部分,其中信息系统模拟器由虚拟用户生成器、信息系统后台、虚拟用户行为策略三部分构建而成;该信息系统模拟器通过模拟信息系统运维策略、用户行为策略,产生用户与系统交互数据,这些数据中包含了用户行为记录、系统某配置参数下用户可感知的服务质量,以互联网服务供应商(ISP)为例,服务质量为带宽、时延,用户在信息系统中的行为包括下载、浏览网页、观看在线视频等。
策略搜索部分在构建完成的模拟器中搜索最优的运维策略,来动态地、实时地配置系统参数,优化服务质量。
迁移优化部分,将在模拟器中学得的运维策略部署到信息系统中作为运维策略,以用户集合信息作为特征,把模拟得到的活跃用户数量、服务质量等数据作为优化目标,求得能够最大化活跃用户数量、最优化服务质量的参数配置值,并将其作为信息系统运维过程中配置的具体参数值。此外,在新的运维策略部署上线后,在系统与用户的交互数据可用于对模拟器的进一步更新,以提高模拟的准确度,并更新运维策略。
附图说明
图1是本发明实施例的方法流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,用于信息系统自动运维策略的训练方法,包括信息系统模拟器构造、策略搜索和迁移优化算法三个部分:
信息系统模拟器构建:
(1)虚拟用户生成器
该生成器生成一个周期(如一个自然日)内,信息系统中的活跃用户集合,以及用户属性。通常活跃用户的属性在一个周期内不改动。为了生成用户及对应属性,具体的实施方案描述如下:
首先,通过人工标注的方法,或聚类算法,根据用户的行为序列,切分为不同的用户群组;
然后,将切分好的用户群组按照需要的属性(可由本领域技术人员指定)打上标签作为训练数据;
最后,利用以上训练数据,使用监督学习等机器学习方法,训练用户生成器即可。
(2)信息系统后台和用户行为策略训练:
信息系统模拟器的另外两个主要部分,一为信息系统后台,二为用户行为策略。前者主要目标为模拟信息系统中的工作流程,并评估所提供的服务质量,后者主要目标则为模拟用户根据自身属性,在观察到系统的服务质量后的行为模式。
通常,可直接根据现有的信息系统运维数据进行监督学习,得到信息系统后台模型和用户行为策略。
【方案例1】使用监督学习
首先,建立若干神经网络作为用户策略和信息系统后台的模型。
其次,将真实信息系统数据整理为数据集D={(u,c,q,a,u’)},每条数据对应一个元组(u,c,q,a,u’),其中u表示当前用户集合,c表示配置的系统参数,q为参数c下对应的服务质量,a表示用户行为,u’表示用户执行完动作a之后新的用户集合。
然后,使用真实数据集D中真实的(u,c)作为输入,真实的服务质量q作为输出,使用监督学习方法训练服务质量评估函数。
再次,使用真实数据集D中真实的(u,q)作为输入,真实的用户行为a为输出,使用监督学习方法训练用户策略。
然后,使用真实数据集D中真实的(u,a)作为输入,真实的新用户集合u’为输出,使用监督学习方法训练系统后台。
最后,使用上述训练后的模型,可作为信息系统模拟器。
由于用户策略和信息系统后台,以及所提供的服务质量是互相影响的,如果固定其中一个组件,单独模拟另外一个,则很难取得一个比较好的效果。因此,在本发明中,将二者的模拟过程进一步联合起来,对二者进行联合训练,从而能够更好的模拟整个信息系统。
联合训练时,信息系统后台和用户行为策略训练过程包括以下步骤:
1)初始化生成随机参数。
2)使用虚拟用户生成器生成虚拟用户集合u。
3)将虚拟用户集合u作为输入传入信息系统后台,系统后台根据运维策略配置信号系统参数c。
4)信息系统后台根据用户集合u和系统参数c,评估服务质量q。
5)用户行为策略根据二元组(u,q)确定用户行为a。
6)根据用户行为a,信息系统更新活跃用户集合u。
7)重复步骤3)-6),直至活跃用户数量小于设定阈值或一个周期结束,得到一条交互轨迹。
8)重复步骤7)N次,得到用户行为序列构成的N条交互轨迹,使用这些轨迹以及学习算法更新信息系统后台、服务质量评估函数和用户策略。
9)重复步骤2)-8),直到用完循环次数。
下面给出具体实施案例:
【实施例1】联合训练(使用对抗学习和强化学习)
首先,建立若干神经网络作为用户策略和信息系统后台的模型。
其次,建立一个神经网络作为判别器,用于判别数据的可信度,可信度取值为0到1之间的实数,越接近1则越像真实数据,越接近0则越像生成数据。
再次,在信息系统后台和用户策略训练过程的第3)-6)步骤中,将用户策略和信息系统后台的联合输出,拼接为元组(u,c,q,a,u’),执行步骤7),并构造模拟数据集D’={(u,c,q,a,u’)},使用真实数据集D和训练过程中的模拟数据集D’作为数据,更新一次判别器,更新目标如下:
Figure BDA0002384005330000041
其中f为判别器,f(x),f(x′)分别表示判别器在单条真实数据和模拟数据上输出的可信度。
然后,判别器给出(u,c,q,a,u’)的可信度评分作为反馈信号,使用现有强化学习算法(例如PPO、DDPG),更新用户策略、信息系统后台。
再次,重复以上两步,直到用完循环次数。
最后,使用上述训练后的模型,可作为信息系统模拟器。
运维策略搜索:
经过上一步,完成了信息系统模拟器的构造,此时在该模拟环境中进行运维策略搜索,即可得到模拟器中的最优运维策略。
【实施例1】使用强化学习
步骤1,建立神经网络作为信息系统运维策略模型;
步骤2,使用该运维策略和信息系统模拟器交互,即先由虚拟用户生成器生成一批用户,运维策略根据用户集合,配置信息系统参数,得到服务质量,用户根据服务质量,按照用户行为策略执行动作,按照执行的动作和当前用户集合,运维策略再进行信息系统参数配置,直到生成用户数量小于设定阈值或达到一个时间周期。重复执行该步骤N次,得到N条交互轨迹,其中每条轨迹(S0,a0,r0,S1,a1,r1,…,Sn)是一个序列,S0,S1,…,Sn为用户集合和用户执行的动作,a0,a1,…为配置的信息系统参数,r0,r1,…为信息系统后台给出的服务质量评估值q;
步骤3,用步骤2中的交互轨迹,使用现有强化学习算法(如PPO、DDPG)进行运维策略更新;
最后,重复步骤2-3,直到达到最大迭代次数,并将最后得到的策略模型作为搜索结果。
迁移优化部署:
迁移优化部署是将模拟环境(信息系统模拟器)中搜索得到的自动运维策略部署到真实的信息系统中,并使用该策略,配置信息系统的参数,维持活跃用户数量以及最优化服务质量,完成对信息系统的运维。同时,根据真实的运维结果,对模拟环境以及从中得到的自动运维策略进行增量式修正,以适配真实的信息系统运维过程。
【方案例1】
首先,将在模拟环境中训练得到的运维策略部署在真实信息系统中,对信息系统进行运维,记录并保留所有新产生的交互数据,并记录实际服务质量与评估的服务质量相差较大的交互数据
Figure BDA0002384005330000051
其次,将每个周期产生的新的交互数据,加入到历史数据中,并维护最近一段时间的交互数据,例如维护最近360天的交互数据进行重新整合。
然后,使用每个周期新产生的交互数据,对虚拟用户生成器、用户信息行为策略、信息系统模拟器和运维策略模型,按照模拟器构建和策略搜索步骤进行一次更新,并额外使用
Figure BDA0002384005330000052
中数据进行一次更新修正。
最后,定期进行全量更新,即使用重新整合的交互数据,对虚拟用户生成器、用户信息行为策略、信息系统模拟器和运维策略模型,按照模拟器构建和策略搜索步骤进行更新。
经过上述优化的运维策略可持续更新。

Claims (8)

1.一种用于信息系统自动运维策略的训练方法,其特征在于:包括信息系统模拟器构造、策略搜索和迁移优化部署三个部分,其中信息系统模拟器由虚拟用户生成器、信息系统后台、虚拟用户行为策略三部分构建而成;所述信息系统模拟器通过模拟信息系统运维策略、用户行为策略来生成虚拟的用户、系统交互数据,这些数据中包含了系统当前配置参数下用户可感知的服务质量。
2.如权利要求1所述的用于信息系统自动运维策略的训练方法,其特征在于:所述策略搜索部分在构建完成的模拟器中搜索最优的运维策略,来动态地、实时地配置系统参数,优化服务质量。
3.如权利要求1所述的用于信息系统自动运维策略的训练方法,其特征在于:所述迁移优化部署:将模拟环境中搜索得到的自动运维策略部署到真实的信息系统中,对信息系统进行运维;同时,根据真实的运维系统交互数据,对模拟环境以及从中得到的自动运维策略进行增量式修正,以适配真实的信息系统运维。
4.如权利要求1所述的用于信息系统自动运维策略的训练方法,其特征在于:所述信息系统模拟器构建包括:
(1)虚拟用户生成器
该生成器模拟一个周期内,信息系统中的活跃用户动态变化情况,以及对应的用户信息,具体步骤如下:
首先,通过人工标注的方法,或聚类算法,将用户的行为序列,切分为不同的用户群组;
然后,将切分好的用户群组按照需要的属性打上标签作为训练数据;
最后,利用以上训练数据,使用机器学习方法,训练用户生成器即可;
(2)信息系统后台和用户行为策略训练:
信息系统模拟器的另外两个部分,一为信息系统后台,二为用户行为策略;前者主要目标为模拟信息系统中的工作流程,并评估所提供的服务质量,后者主要目标则为模拟用户根据自身属性,在观察到系统的服务质量后的行为模式;
由于用户策略和系统所提供的服务质量是互相影响的,因此,将信息系统后台和用户行为策略训练的训练过程联合起来,对二者进行迭代训练;联合训练时,信息系统后台和用户行为策略训练过程包括以下步骤:
1)初始化生成随机参数;
2)使用虚拟用户生成器生成虚拟用户集合u;
3)将虚拟用户集合u作为输入传入信息系统后台,系统后台根据运维策略配置信号系统参数c;
4)信息系统根据用户集合u和系统参数c,评估服务质量q;
5)用户行为策略根据二元组(u,q)确定用户行为a;
6)根据用户行为a,信息系统更新活跃用户集合u;
7)重复步骤3)-6),直至活跃用户小于设定阈值或一个周期结束,得到一条交互轨迹;
8)重复步骤7)N次,得到用户行为序列构成的N条交互轨迹,使用这些轨迹以及学习算法更新信息系统后台、服务质量评估函数和用户策略;
9)重复步骤2)-8),直到用完循环次数。
5.如权利要求4所述的用于信息系统自动运维策略的训练方法,其特征在于:使用监督学习算法获得信息系统运维策略、服务质量评估函数和用户策略的流程为:
首先,建立若干神经网络作为用户策略和信息系统后台的模型;
其次,将真实信息系统数据整理为数据集D={(u,c,q,a,u’)},每条数据对应一个元组(u,c,q,a,u’),其中u表示当前用户集合,c表示配置的系统参数,q为参数c下对应的服务质量,a表示用户行为,u’表示用户执行完动作a之后新的用户集合;
然后,使用真实数据集D中真实的(u,c)作为输入,真实的服务质量q作为输出,使用监督学习方法训练服务质量评估函数;
再次,使用真实数据集D中真实的(u,q)作为输入,真实的用户行为a为输出,使用监督学习方法训练用户策略;
然后,使用真实数据集D中真实的(u,a)作为输入,真实的新用户集合u’为输出,使用监督学习方法训练系统后台。
最后,使用上述训练后的模型,可作为信息系统模拟器。
6.如权利要求5所述的用于信息系统自动运维策略的训练方法,其特征在于:使用联合训练,获得信息系统运维策略、服务质量评估函数和用户策略的流程为:
首先,建立若干神经网络作为用户策略和信息系统后台的模型;
其次,建立一个神经网络作为判别器,用于判别数据的可信度,可信度取值为0到1之间的实数,越接近1则越像真实数据,越接近0则越像生成数据;
再次,在信息系统后台和用户策略训练过程的第3)-6)步骤中,将用户策略和信息系统后台的联合输出,拼接为元组(u,c,q,a,u’),执行步骤7),并构造模拟数据集D’={(u,c,q,a,u’)},使用真实数据集D和训练过程中的模拟数据集D’作为数据,更新一次判别器,更新目标如下:
Figure FDA0002384005320000031
其中f为判别器,f(x),f(x′)分别表示判别器在单条真实数据和模拟数据上输出的可信度;
然后,判别器给出(u,c,q,a,u’)的可信度评分作为反馈信号,使用强化学习算法,更新用户策略、信息系统后台;
再次,重复以上两步,直到用完循环次数;
最后,使用上述训练后的模型,可作为信息系统模拟器。
7.如权利要求1所述的用于信息系统自动运维策略的训练方法,其特征在于:完成信息系统模拟器的构造后,在该模拟环境中进行策略搜索,即可得到模拟器中的最优运维策略,具体步骤为:
步骤1,建立神经网络作为信息系统运维策略模型;
步骤2,使用该运维策略和信息系统模拟器交互,即先由虚拟用户生成器生成一批用户,运维策略根据用户集合,配置信息系统参数,得到服务质量,用户根据服务质量,按照用户行为策略执行动作,按照执行的动作和当前用户集合,运维策略再进行信息系统参数配置,直到生成用户数量小于设定阈值或达到一个时间周期;重复执行该步骤N次,得到N条交互轨迹,其中每条轨迹(S0,a0,r0,S1,a1,r1,…,Sn)是一个序列,S0,S1,…,Sn为用户集合和用户执行的动作,a0,a1,…为配置的信息系统参数,r0,r1,…为信息系统后台给出的服务质量评估值q;
步骤3,用步骤2中的交互轨迹,使用强化学习算法进行运维策略更新;
最后,重复步骤2-3,直到达到最大迭代次数,并将最后得到的策略模型作为搜索结果。
8.如权利要求1所述的用于信息系统自动运维策略的训练方法,其特征在于:自动运维策略可进行迁移优化部署,即将模拟器中搜索策略部署到实际信息系统中后,根据部署后的运维结果,进行增量和全量式更新,以适配真实的信息系统运维过程,具体步骤为:
首先,将在模拟环境中训练得到的运维策略部署在真实信息系统中,对信息系统进行运维,记录并保留所有新产生的交互数据,并记录实际服务质量与评估的服务质量相差较大的交互数据
Figure FDA0002384005320000041
其次,将每个周期产生的新的交互数据,加入到历史数据中,并维护最近一段时间的交互数据;
然后,使用每个周期新产生的交互数据,对虚拟用户生成器、用户信息行为策略、信息系统模拟器和运维策略模型,按照模拟器构建和策略搜索步骤进行一次更新,并额外使用
Figure FDA0002384005320000042
中数据进行一次更新修正;
最后,定期进行全量更新,用重新整合的交互数据,对虚拟用户生成器、用户信息行为策略、信息系统模拟器和运维策略模型,按照模拟器构建和策略搜索步骤进行更新。
CN202010092042.8A 2020-02-14 2020-02-14 一种用于信息系统自动运维策略的训练方法 Active CN111324358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010092042.8A CN111324358B (zh) 2020-02-14 2020-02-14 一种用于信息系统自动运维策略的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010092042.8A CN111324358B (zh) 2020-02-14 2020-02-14 一种用于信息系统自动运维策略的训练方法

Publications (2)

Publication Number Publication Date
CN111324358A true CN111324358A (zh) 2020-06-23
CN111324358B CN111324358B (zh) 2020-10-16

Family

ID=71172691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010092042.8A Active CN111324358B (zh) 2020-02-14 2020-02-14 一种用于信息系统自动运维策略的训练方法

Country Status (1)

Country Link
CN (1) CN111324358B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183288A (zh) * 2020-09-22 2021-01-05 上海交通大学 一种基于模型的多智能体强化学习方法
CN112700335A (zh) * 2021-03-24 2021-04-23 南栖仙策(南京)科技有限公司 一种利用模拟环境重构投融资行为的方法
CN114648178A (zh) * 2022-05-12 2022-06-21 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080262820A1 (en) * 2006-07-19 2008-10-23 Edsa Micro Corporation Real-time predictive systems for intelligent energy monitoring and management of electrical power networks
CN109688597A (zh) * 2018-12-18 2019-04-26 北京邮电大学 一种基于人工智能的雾无线接入网络组网方法及装置
CN109765820A (zh) * 2019-01-14 2019-05-17 南栖仙策(南京)科技有限公司 一种用于自动驾驶控制策略的训练系统
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110580196A (zh) * 2019-09-12 2019-12-17 北京邮电大学 一种实现并行任务调度的多任务强化学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080262820A1 (en) * 2006-07-19 2008-10-23 Edsa Micro Corporation Real-time predictive systems for intelligent energy monitoring and management of electrical power networks
CN109688597A (zh) * 2018-12-18 2019-04-26 北京邮电大学 一种基于人工智能的雾无线接入网络组网方法及装置
CN109765820A (zh) * 2019-01-14 2019-05-17 南栖仙策(南京)科技有限公司 一种用于自动驾驶控制策略的训练系统
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备
CN110580196A (zh) * 2019-09-12 2019-12-17 北京邮电大学 一种实现并行任务调度的多任务强化学习方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183288A (zh) * 2020-09-22 2021-01-05 上海交通大学 一种基于模型的多智能体强化学习方法
CN112700335A (zh) * 2021-03-24 2021-04-23 南栖仙策(南京)科技有限公司 一种利用模拟环境重构投融资行为的方法
CN114648178A (zh) * 2022-05-12 2022-06-21 武汉格蓝若智能技术有限公司 一种基于ddpg算法的电能计量装置运维策略优化方法

Also Published As

Publication number Publication date
CN111324358B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN111324358B (zh) 一种用于信息系统自动运维策略的训练方法
US20220363259A1 (en) Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device
CN111339675B (zh) 基于机器学习构建模拟环境的智能营销策略的训练方法
WO2021225879A2 (en) Graph convolutional reinforcement learning with heterogeneous agent groups
CN117933673B (zh) 线路巡视的规划方法、装置和线路巡视规划系统
CN113313265A (zh) 基于带噪声专家示范的强化学习方法
CN114567560B (zh) 基于生成对抗模仿学习的边缘节点动态资源分配方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN105955921B (zh) 基于自动发现抽象动作的机器人分层强化学习初始化方法
CN114911969A (zh) 一种基于用户行为模型的推荐策略优化方法和系统
CN114290339A (zh) 基于强化学习和残差建模的机器人现实迁移系统和方法
CN115422486B (zh) 基于人工智能的云服务在线页面优化方法及大数据系统
CN117791560A (zh) 一种考虑动态微电网的有源配电网弹性自愈方法和控制器
CN116306947A (zh) 一种基于蒙特卡洛树探索的多智能体决策方法
CN113568324B (zh) 一种基于仿真演绎的知识图谱修正方法
CN116245009A (zh) 人机策略生成方法
CN115222773A (zh) 单点运动学习方法及装置
CN115022192A (zh) 一种演化博弈网络信息体系资源选择方法及系统
CN110866607B (zh) 一种基于机器学习的渗透行为预测算法
CN112884129A (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
Fagan et al. Dynamic multi-agent reinforcement learning for control optimization
CN111582495A (zh) 基于优胜劣汰的深度强化学习策略网络存储方法及设备
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法
CN115442216B (zh) 网络切片故障自愈方法、装置、设备及计算机存储介质
CN118428827B (zh) 一种模块化教育机器人的教学质量控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Qin Rongjun

Inventor before: Yu Yang

Inventor before: Qin Rongjun

CB03 Change of inventor or designer information