CN114780441A - 一种真实用户智能感知系统中用例的智能策略抓取方法 - Google Patents
一种真实用户智能感知系统中用例的智能策略抓取方法 Download PDFInfo
- Publication number
- CN114780441A CN114780441A CN202210703780.0A CN202210703780A CN114780441A CN 114780441 A CN114780441 A CN 114780441A CN 202210703780 A CN202210703780 A CN 202210703780A CN 114780441 A CN114780441 A CN 114780441A
- Authority
- CN
- China
- Prior art keywords
- use case
- local server
- case
- cases
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3684—Test management for test design, e.g. generating new test cases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种真实用户智能感知系统中用例的智能策略抓取方法,包括:分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量,对用例的异构性进行分析;计算得到需要传输的用例类型和每个用例类型的数量;构建用例传输模型,对真实用户智能感知系统中的用例的端端传输和端云传输进行分析,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间;构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式;根据强化学习策略,确定真实用户智能感知系统中基于强化学习的智能策略抓取方法。本发明能够实现高效的用例抓取,提高用户的服务体验。
Description
技术领域
本发明属于强化学习技术领域,特别涉及真实用户智能感知系统中基于强化学习的智能策略抓取方法。
背景技术
强化学习是是机器学习的范式和方法论之一,用于解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。当前,随着互联网、大数据等信息技术的迅猛发展,人们暴露在规模日益增长的大体量数据环境中,用户在面对海量信息时难以做出合适的决策。强化学习应用于多个领域,通过试错的方式学习最优策略,自适应地解决决策问题,是目前学术界关注的热点前沿。
证券类APP是经纪业务的端口,它承载了证券交易、产品销售、投顾咨询、投资者教育等等功能,换言之,功能对应着收入,券商应用的第一思维是把这些业务搬到互联网上去。因此券商APP形成了一定的门槛,这种门槛和普通金融类APP拉开明显的差异,使用户可以很快被吸引和转化,同时转化后又对用户产生长期的应用价值,持续保持应用黏性。在易用性方面要使用户无障碍和学习成本,减少转化损耗。在长期使用的过程中,对用户所关注的数据和再次选择提供帮助,使用户对该产品形成依赖,只要有投资需求,便对该产品产生倾向性。此外,云中心负责生成用例,用户通过分析自己的需求,向云端请求相应的用例。传统的用例抓取方法大都是人工抓取,大大增加了时间耗费,降低了用户的体验。为了给用户带来长期高质量的服务,如何实现精准、高效的策略抓取是工业界和学术界关注的热点。因此,设计一种真实用户智能感知系统中基于强化学习的智能策略抓取方法,以满足高效抓取用例的需求。
强化学习已经受到广泛应用。例如文献“胡鹤轩,尹苏明,胡强,张晔,胡震云,义崇政.基于强化学习算法的水库优化调度研究[J].水电能源科学,2022,40(01):73-77.”针对复杂现实环境下的水库优化调度问题,采用强化学习的Q-leaning算法,以哈希表作为核心数据结构,在逐步生成水库可行调度方案的同时,提出一种基于Q值优化的水库优化调度方案。文献“罗飞,白梦伟.基于强化学习的交通情景问题决策优化[J/OL].计算机应用:1-8,2022-03-20.”研究了在复杂的交通情境下如何高效做出决策的问题,通过应用优化的贝尔曼公式和快速Q学习机制、引入经验池技术和直接策略,提出基于强化学习的出租车路径规划决策方法和交通信号灯控制方法。随着用户请求的用例类型和数量的增加,将会对用例抓取带来挑战。
发明内容
解决的技术问题:本发明针对端云协同环境下测试机的用例请求,提供真实用户智能感知系统中基于强化学习的智能策略抓取方法,能够实现高效的用例抓取,提高用户的服务体验。
技术方案:
一种真实用户智能感知系统中用例的智能策略抓取方法,所述智能策略抓取方法包括以下步骤:
S1,分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量,对用例的异构性进行分析;
S2,结合用例的异构性,分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制,建立测试机用例需求模型,计算得到需要传输的用例类型和每个用例类型的数量;
S3,构建用例传输模型,对真实用户智能感知系统中的用例的端端传输和端云传输进行分析,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间;
S4,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式;
S5,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配。
进一步地,步骤S1中,所述真实用户智能感知系统的所有金融用例集合为,是所有金融用例类型总数;所述本地服务器中存储有金融用例集合,,根据测试机发送的用例请求将对应的用例分配至测试机,并且在
测试机测试完毕后,回收分配的用例;用例请求包括用例类型;是本地服务器中存储的
金融用例类型总数,,所述金融用例集合中每个用例类型的数量集合为。
进一步地,步骤S2中,计算得到需要传输的用例信息的过程包括以下步骤:
进一步地,步骤S3中,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间的过程包括以下步骤:
进一步地,步骤S4中,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式的过程包括以下步骤:
S41,将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境,本地服务器根据测试机的用例需求制定分配策略,若缺少用例则向云端按需抓取,本地服务器是强化学习模型中的智能体,作为云端和测试机通信的中介;
S42,将时间T分成若干相等的时隙,在每个时隙t内使用强化学习分析用例抓取策略:
S421,定义初始状态:本地服务器已有的用例种类表示为集合,每种用例的数量
表示为,测试机为了完成业务缺少的用例种类表示为集合,缺少的每种用例的数量表
示为;定义动作:在时隙t内选择一台测试机,通过分析其缺少的用例和本地服务器空闲
的用例,决定直接分配或从云端抓取适量的用例;定义奖励:以传输用例的时间耗费作为奖
励,对于迭代过程中的某一状态中采取的某一动作,以传输的所有用例耗费的时间作为评
价本地分配用例或云端抓取用例策略的优劣;
从云端抓取剩余用例的时间耗费为:
总奖励表示为:
在每次迭代时,记录获得的奖励,在下一次迭代过程中,将下一次获得的奖励与当前记录的奖励比较,当奖励逐渐变少,即时间耗费逐渐变低时,采取相应的策略;
S43,用τ表示当前获得的奖励,定义奖励的更新方法为:
式中,为学习效率,表示从上一次迭代过程中有多少误差要被学习;R为上一次迭
代中的奖励;为未来状态的衰减值,距离当前状态越远的状态,奖励衰减的越多;为当前
状态下能采取的动作;表示下一个状态,表示在下一状态可能采取的动作,
为当前状态下,选取使时间耗费最低的测试机,采取直接分配用例或从云端抓取的方式向
其传输用例,并完成业务。
当前奖励更新后,根据更新的奖励执行相应的动作,同时环境进入下一个状态,依次迭代,直至所有的测试机完成业务。
进一步地,步骤S5中,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配的过程包括以下步骤:
当多台测试机同时向本地服务器退还分配的用例,且本地服务器的存储超过了上限时,按照先借先还的原则,按顺序退还;未退还用例的测试机等待本地服务器对用例重新分配后,再进行退还操作。
有益效果:
本发明的真实用户智能感知系统中用例的智能策略抓取方法,在用例策略抓取前,通过分析云端生成的和本地已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制,建立测试机用例需求模型;在构建用例传输模型时,重点考虑端云和端端的用例传输,是强化学习中奖励更新的基础;在使用强化学习进行云端用例的策略抓取时,充分考虑了本地服务器已有的用例类型和数量,减少了用例传输的时间耗费。
附图说明
图1为本发明实施例的真实用户智能感知系统中用例的智能策略抓取方法流程图。
具体实施方式
下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
图1为本发明实施例的真实用户智能感知系统中用例的智能策略抓取方法流程图。参见图1,该智能策略抓取方法包括以下步骤:
S1,分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量,对用例的异构性进行分析。
S2,结合用例的异构性,分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制,建立测试机用例需求模型,计算得到需要传输的用例类型和每个用例类型的数量。
S3,构建用例传输模型,对真实用户智能感知系统中的用例的端端传输和端云传输进行分析,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间。
S4,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式。
S5,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配。
本发明提出的真实用户智能感知系统中基于强化学习的智能策略抓取方法包括下述步骤,流程如图1所示:
步骤1:本地服务器存储了部分用例,用于向测试机及时分配所请求的用例。同时,
当测试机使用完毕后,本地服务器负责对用例回收,等待下一次用例分配和调度。用例可分
为多个种类,每个种类的用例分别完成测试机的部分请求。使用集合表示所
有的用例,其中M表示用例的种类数量。云端具备充足的用例种类和数量,但本地服务器由
于存储有限,只能存储部分用例。假设本地存储的用例种类数为,则本地存储的用例表
示为,,其中应满足,表示本地存储的样例种类不能超过用
例的种类总量。
值得注意的是,集合E和集合E l 的元素下标并不总是一一对应的,即对于集合E中的任一下标i和集合E l 的任一下标j,都有i≤j。这是因为对于用例e i ,其使用频率可能较低,导致本地服务器并未存储该用例,转而存储了之后的用例。
步骤2:测试机通过向本地服务器请求用例,进而完成用例使用需求。假设场景中
存在N台测试机,表示为集合。进一步,分析测试机已有的用例种类和数量。
以测试机为例,已有的用例种类表示为,已有的用例数量表示为。测试机为了完成业务,还需要从本地服务器获取必要的用例,假设其
缺少的用例种类为,缺少的用例数量为。
步骤3:由于测试机完成具体业务需要向本地服务器请求用例调度,因此,需考虑用例的端对端传输。此外,若本地服务器不具备相应的用例,则需要向云端请求,因此,还需考虑用例的端到云传输。信道传输速率可表示为
式中,B为传输信道的带宽,I为输入信号的功率,G为信道加性高斯白噪声的功率,I/G为信噪比,即信号功率与噪声功率之比。
由于云到端和端到端的传输信道带宽不同,传输速率也不同,表示为:
因此,完成一次云到端用例传输需要耗费的时间为:
同理,完成一次端到端用例传输需要耗费的时间为:
步骤4:将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境Environment。本地服务器根据测试机的用例需求制定分配策略,若缺少用例则向云端按需抓取,因此本地服务器是强化学习模型中的智能体Agent,作为云端和测试机通信的中介。环境的状态State是测试机完成各自业务的情况,以及本地服务器在向测试机分配和向云端抓取用例之后尚存的用例种类及数量,当前状态决定了下一个动作是分配或抓取。动作Action是Agent本地服务器在每次迭代过程中采取的策略,包括为若干台测试机调度现有用例、从云端进行用例的抓取。奖励Reward是本地服务器在采取动作后,环境反馈的效益,本模型中,使用用例传输的时间耗费作为奖励。
在本模型中,将时间T分成若干相等的时隙,表示为t={1,2,…,T},在每个时隙t内使用强化学习分析用例抓取策略。
定义初始状态:本地服务器已有的用例种类表示为集合E l ,每种用例的数量表示为S l ,测试机c i 为了完成业务缺少的用例种类表示为集合E pi ,缺少的每种用例的数量表示为S pi 。
定义动作:在时隙t内选择一台测试机,通过分析其缺少的用例和本地服务器空闲的用例,决定直接分配或从云端抓取适量的用例。
定义奖励:在本模型中,以传输用例的时间耗费作为奖励。对于迭代过程中的某一状态中采取的某一动作,以传输的所有用例耗费的时间作为评价本地分配用例或云端抓取用例策略的优劣。
例如在某一状态下,本地服务器决定向测试机c j 分配用例,但是由于本地存储的
用例不足,需要从云端进行抓取。在此状态下,假设本地服务器对于c j 请求的用例的每个种
类能够满足的数量为集合,则在时隙τ内本地服务器向测试机分配用
例的时间耗费为:
则剩余的用例需要在云端进行抓取,时间耗费为:
因此,总奖励可表示为:
在每次迭代时,需要记录获得的奖励,在下一次迭代过程中,将下一次获得的奖励与当前记录的奖励比较,只有当奖励逐渐变少,即时间耗费逐渐变低时,才会实际采取相应的策略。
定义奖励的更新方法:用τ表示当前获得的奖励,更新方法如下:
式中,为学习效率,表示从上一次迭代过程中有多少误差要被学习;R为上一次迭
代中的奖励;为未来状态的衰减值,距离当前状态越远的状态,奖励衰减的越多;为当前
状态下能采取的动作;表示下一个状态,表示在下一状态可能采取的动作,因此,为当前状态下,选取使时间耗费最低的测试机,采取直接分配用例或从云端
抓取的方式向其传输用例,并完成业务。
当前奖励更新后,根据更新的奖励执行相应的动作,同时环境进入下一个状态,依次迭代,直至所有的测试机完成业务。
步骤5:根据步骤4确定的强化学习策略,能使得测试机对本地服务器的用例充分利用。本地服务器通过向云端抓取测试机请求的用例并分配给测试机,在测试机通过本地服务器分配的用例完成业务后,所分配的用例需要及时退还给本地服务器,以便完成其他测试机的用例请求。若多台测试机同时向本地服务器退还分配的用例,进而导致本地服务器的存储超过了上限,需要按照先借先还的原则,按顺序退还。未退还用例的测试机需要等待本地服务器对用例重新分配后,在进行退还操作。于是,便得到真实用户智能感知系统中基于强化学习的智能策略抓取方法。
Claims (6)
1.一种真实用户智能感知系统中用例的智能策略抓取方法,其特征在于,所述智能策略抓取方法包括以下步骤:
S1,分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量,对用例的异构性进行分析;
S2,结合用例的异构性,分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制,建立测试机用例需求模型,计算得到需要传输的用例类型和每个用例类型的数量;
S3,构建用例传输模型,对真实用户智能感知系统中的用例的端端传输和端云传输进行分析,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间;
S4,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式;
S5,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配。
4.根据权利要求1所述的真实用户智能感知系统中用例的智能策略抓取方法,其特征在于,步骤S3中,计算得到云端和本地服务器之间的用例传输耗费时间,以及本地服务器和测试机之间的用例传输耗费时间的过程包括以下步骤:
5.根据权利要求4所述的真实用户智能感知系统中用例的智能策略抓取方法,其特征在于,步骤S4中,根据步骤S3的分析结果构建端云协同的用例调度模型,确定强化学习要素和奖励更新方式的过程包括以下步骤:
S41,将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境,本地服务器根据测试机的用例需求制定分配策略,若缺少用例则向云端按需抓取,本地服务器是强化学习模型中的智能体,作为云端和测试机通信的中介;
S42,将时间T分成若干相等的时隙,在每个时隙t内使用强化学习分析用例抓取策略:
S421,定义初始状态:本地服务器已有的用例种类表示为集合,每种用例的数量表示为,测试机为了完成业务缺少的用例种类表示为集合,缺少的每种用例的数量表示为;定义动作:在时隙t内选择一台测试机,通过分析其缺少的用例和本地服务器空闲的用例,决定直接分配或从云端抓取适量的用例;定义奖励:以传输用例的时间耗费作为奖励,对于迭代过程中的某一状态中采取的某一动作,以传输的所有用例耗费的时间作为评价本地分配用例或云端抓取用例策略的优劣;
从云端抓取剩余用例的时间耗费为:
总奖励表示为:
在每次迭代时,记录获得的奖励,在下一次迭代过程中,将下一次获得的奖励与当前记录的奖励比较,当奖励逐渐变少,即时间耗费逐渐变低时,采取相应的策略;
式中,为学习效率,表示从上一次迭代过程中有多少误差要被学习;R为上一次迭代中的奖励;为未来状态的衰减值,距离当前状态越远的状态,奖励衰减的越多;为当前状态下能采取的动作;表示下一个状态,表示在下一状态可能采取的动作,为当前状态下,选取使时间耗费最低的测试机,采取直接分配用例或从云端抓取的方式向其传输用例,并完成业务;
当前奖励更新后,根据更新的奖励执行相应的动作,同时环境进入下一个状态,依次迭代,直至所有的测试机完成业务。
6.根据权利要求1所述的真实用户智能感知系统中用例的智能策略抓取方法,其特征在于,步骤S5中,根据步骤S4的强化学习策略,采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配的过程包括以下步骤:
当多台测试机同时向本地服务器退还分配的用例,且本地服务器的存储超过了上限时,按照先借先还的原则,按顺序退还;未退还用例的测试机等待本地服务器对用例重新分配后,再进行退还操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210703780.0A CN114780441B (zh) | 2022-06-21 | 2022-06-21 | 一种真实用户智能感知系统中用例的智能策略抓取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210703780.0A CN114780441B (zh) | 2022-06-21 | 2022-06-21 | 一种真实用户智能感知系统中用例的智能策略抓取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114780441A true CN114780441A (zh) | 2022-07-22 |
CN114780441B CN114780441B (zh) | 2022-10-04 |
Family
ID=82421210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210703780.0A Active CN114780441B (zh) | 2022-06-21 | 2022-06-21 | 一种真实用户智能感知系统中用例的智能策略抓取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780441B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980571A (zh) * | 2016-01-15 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种测试用例集的构建方法和设备 |
CN111026549A (zh) * | 2019-11-28 | 2020-04-17 | 国网甘肃省电力公司电力科学研究院 | 一种电力信息通信设备自动化测试资源调度方法 |
US20200257968A1 (en) * | 2019-02-08 | 2020-08-13 | Adobe Inc. | Self-learning scheduler for application orchestration on shared compute cluster |
CN111538668A (zh) * | 2020-04-28 | 2020-08-14 | 济南浪潮高新科技投资发展有限公司 | 基于强化学习的移动端应用测试方法、装置、设备及介质 |
CN111756812A (zh) * | 2020-05-29 | 2020-10-09 | 华南理工大学 | 一种能耗感知的边云协同动态卸载调度方法 |
WO2020227429A1 (en) * | 2019-05-06 | 2020-11-12 | Strong Force Iot Portfolio 2016, Llc | Platform for facilitating development of intelligence in an industrial internet of things system |
CN112088070A (zh) * | 2017-07-25 | 2020-12-15 | M·奥利尼克 | 用于操作机器人系统并执行机器人交互的系统及方法 |
US20210053221A1 (en) * | 2019-08-19 | 2021-02-25 | Wipro Limited | Method and system for task execution in dynamic heterogeneous robotic environment |
US20210064515A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Deep q-network reinforcement learning for testing case selection and prioritization |
US20210089910A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Reinforcement learning using meta-learned intrinsic rewards |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
CN114117752A (zh) * | 2021-11-10 | 2022-03-01 | 杭州海康威视数字技术股份有限公司 | 一种智能体的强化学习模型训练方法及系统 |
CN114390057A (zh) * | 2022-01-13 | 2022-04-22 | 南昌工程学院 | Mec环境下基于强化学习的多接口自适应数据卸载方法 |
-
2022
- 2022-06-21 CN CN202210703780.0A patent/CN114780441B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980571A (zh) * | 2016-01-15 | 2017-07-25 | 阿里巴巴集团控股有限公司 | 一种测试用例集的构建方法和设备 |
CN112088070A (zh) * | 2017-07-25 | 2020-12-15 | M·奥利尼克 | 用于操作机器人系统并执行机器人交互的系统及方法 |
US20200257968A1 (en) * | 2019-02-08 | 2020-08-13 | Adobe Inc. | Self-learning scheduler for application orchestration on shared compute cluster |
WO2020227429A1 (en) * | 2019-05-06 | 2020-11-12 | Strong Force Iot Portfolio 2016, Llc | Platform for facilitating development of intelligence in an industrial internet of things system |
US20210053221A1 (en) * | 2019-08-19 | 2021-02-25 | Wipro Limited | Method and system for task execution in dynamic heterogeneous robotic environment |
US20210064515A1 (en) * | 2019-08-27 | 2021-03-04 | Nec Laboratories America, Inc. | Deep q-network reinforcement learning for testing case selection and prioritization |
US20210089910A1 (en) * | 2019-09-25 | 2021-03-25 | Deepmind Technologies Limited | Reinforcement learning using meta-learned intrinsic rewards |
CN111026549A (zh) * | 2019-11-28 | 2020-04-17 | 国网甘肃省电力公司电力科学研究院 | 一种电力信息通信设备自动化测试资源调度方法 |
CN111538668A (zh) * | 2020-04-28 | 2020-08-14 | 济南浪潮高新科技投资发展有限公司 | 基于强化学习的移动端应用测试方法、装置、设备及介质 |
CN111756812A (zh) * | 2020-05-29 | 2020-10-09 | 华南理工大学 | 一种能耗感知的边云协同动态卸载调度方法 |
WO2021248607A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳大学 | 一种基于深度强化学习的出租车调度方法及系统 |
CN114117752A (zh) * | 2021-11-10 | 2022-03-01 | 杭州海康威视数字技术股份有限公司 | 一种智能体的强化学习模型训练方法及系统 |
CN114390057A (zh) * | 2022-01-13 | 2022-04-22 | 南昌工程学院 | Mec环境下基于强化学习的多接口自适应数据卸载方法 |
Non-Patent Citations (5)
Title |
---|
JOAO LOUSADA: "Reinforcement Learning for Test Case Prioritization", 《HTTPS://ARXIV.ORG/ABS/2012.11364》 * |
MOJTABA BAGHERZADEH: "Reinforcement Learning for Test Case Prioritization", 《IEEE TRANSACTIONS ON SOFTWARE ENGINEERING ( EARLY ACCESS )》 * |
何柳柳: "面向持续集成测试优化的强化学习奖励机制", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
何涛: "基于分布式的共享单车定位算法的研究", 《万方》 * |
罗飞: "基于强化学习的交通情景问题决策优化", 《计算机应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114780441B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114297722B (zh) | 一种基于区块链的隐私保护异步联邦共享方法及系统 | |
CN113191484A (zh) | 基于深度强化学习的联邦学习客户端智能选取方法及系统 | |
CN111064633B (zh) | 一种云边协同电力信息通信设备自动化测试资源分配方法 | |
Johari | Efficiency loss in market mechanisms for resource allocation | |
CN114896899B (zh) | 一种基于信息交互的多智能体分散式决策方法及系统 | |
CN111309880B (zh) | 多智能体行动策略学习方法、装置、介质和计算设备 | |
CN104268817B (zh) | 一种耗能用户节能减排的多代理互动推演模拟系统 | |
Chen et al. | Cloud–edge collaboration task scheduling in cloud manufacturing: An attention-based deep reinforcement learning approach | |
CN114971819A (zh) | 基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置 | |
CN115481748A (zh) | 一种基于数字孪生辅助的联邦学习新鲜度优化方法与系统 | |
CN110909878A (zh) | 预估资源使用份额的神经网络模型的训练方法和装置 | |
CN112804103A (zh) | 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法 | |
Ren et al. | Reinforcement Learning-Based Bi-Level strategic bidding model of Gas-fired unit in integrated electricity and natural gas markets preventing market manipulation | |
Zhao et al. | An incentive mechanism for big data trading in end-edge-cloud hierarchical federated learning | |
CN114780441B (zh) | 一种真实用户智能感知系统中用例的智能策略抓取方法 | |
Kayali et al. | Predictive Analytics for Stock and Demand Balance Using Deep Q-Learning Algorithm | |
CN115439026B (zh) | 基于嵌套联邦学习的多智能体自组织需求响应方法及系统 | |
Gavanelli et al. | What-If Analysis Through Simulation-Optimization Hybrids. | |
CN116128028A (zh) | 一种连续决策空间组合优化的高效深度强化学习算法 | |
CN115866687A (zh) | 一种车载边缘计算中服务协同缓存方法 | |
Huang et al. | Online crowd learning through strategic worker reports | |
Chen | Can Business Accelerators Level the Playing Field For Female Entrepreneurs? A Two-Sided Matching Approach Suggests Yes | |
CN114003121B (zh) | 数据中心服务器能效优化方法与装置、电子设备及存储介质 | |
Waqas | The Funding of Education and The Country's Overall Economic Growth in Central Asia | |
CN117193716A (zh) | 一种基于深度强化学习的服务组合构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |