CN114780441A

CN114780441A - 一种真实用户智能感知系统中用例的智能策略抓取方法

Info

Publication number: CN114780441A
Application number: CN202210703780.0A
Authority: CN
Inventors: 阮峰; 许小龙; 薛朋
Original assignee: Nanjing Zhengfeng Information Technology Co ltd
Current assignee: Nanjing Zhengfeng Information Technology Co ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-07-22
Anticipated expiration: 2042-06-21
Also published as: CN114780441B

Abstract

本发明公开了一种真实用户智能感知系统中用例的智能策略抓取方法，包括：分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量，对用例的异构性进行分析；计算得到需要传输的用例类型和每个用例类型的数量；构建用例传输模型，对真实用户智能感知系统中的用例的端端传输和端云传输进行分析，计算得到云端和本地服务器之间的用例传输耗费时间，以及本地服务器和测试机之间的用例传输耗费时间；构建端云协同的用例调度模型，确定强化学习要素和奖励更新方式；根据强化学习策略，确定真实用户智能感知系统中基于强化学习的智能策略抓取方法。本发明能够实现高效的用例抓取，提高用户的服务体验。

Description

一种真实用户智能感知系统中用例的智能策略抓取方法

技术领域

本发明属于强化学习技术领域，特别涉及真实用户智能感知系统中基于强化学习的智能策略抓取方法。

背景技术

强化学习是是机器学习的范式和方法论之一，用于解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。当前，随着互联网、大数据等信息技术的迅猛发展，人们暴露在规模日益增长的大体量数据环境中，用户在面对海量信息时难以做出合适的决策。强化学习应用于多个领域，通过试错的方式学习最优策略，自适应地解决决策问题，是目前学术界关注的热点前沿。

证券类APP是经纪业务的端口，它承载了证券交易、产品销售、投顾咨询、投资者教育等等功能，换言之，功能对应着收入，券商应用的第一思维是把这些业务搬到互联网上去。因此券商APP形成了一定的门槛，这种门槛和普通金融类APP拉开明显的差异，使用户可以很快被吸引和转化，同时转化后又对用户产生长期的应用价值，持续保持应用黏性。在易用性方面要使用户无障碍和学习成本，减少转化损耗。在长期使用的过程中，对用户所关注的数据和再次选择提供帮助，使用户对该产品形成依赖，只要有投资需求，便对该产品产生倾向性。此外，云中心负责生成用例，用户通过分析自己的需求，向云端请求相应的用例。传统的用例抓取方法大都是人工抓取，大大增加了时间耗费，降低了用户的体验。为了给用户带来长期高质量的服务，如何实现精准、高效的策略抓取是工业界和学术界关注的热点。因此，设计一种真实用户智能感知系统中基于强化学习的智能策略抓取方法，以满足高效抓取用例的需求。

强化学习已经受到广泛应用。例如文献“胡鹤轩,尹苏明,胡强,张晔,胡震云,义崇政.基于强化学习算法的水库优化调度研究[J].水电能源科学,2022,40(01):73-77.”针对复杂现实环境下的水库优化调度问题，采用强化学习的Q-leaning算法，以哈希表作为核心数据结构，在逐步生成水库可行调度方案的同时，提出一种基于Q值优化的水库优化调度方案。文献“罗飞,白梦伟.基于强化学习的交通情景问题决策优化[J/OL].计算机应用:1-8,2022-03-20.”研究了在复杂的交通情境下如何高效做出决策的问题，通过应用优化的贝尔曼公式和快速Q学习机制、引入经验池技术和直接策略，提出基于强化学习的出租车路径规划决策方法和交通信号灯控制方法。随着用户请求的用例类型和数量的增加，将会对用例抓取带来挑战。

发明内容

解决的技术问题：本发明针对端云协同环境下测试机的用例请求，提供真实用户智能感知系统中基于强化学习的智能策略抓取方法，能够实现高效的用例抓取，提高用户的服务体验。

技术方案：

一种真实用户智能感知系统中用例的智能策略抓取方法，所述智能策略抓取方法包括以下步骤：

S1，分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量，对用例的异构性进行分析；

S2，结合用例的异构性，分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制，建立测试机用例需求模型，计算得到需要传输的用例类型和每个用例类型的数量；

S3，构建用例传输模型，对真实用户智能感知系统中的用例的端端传输和端云传输进行分析，计算得到云端和本地服务器之间的用例传输耗费时间，以及本地服务器和测试机之间的用例传输耗费时间；

S4，根据步骤S3的分析结果构建端云协同的用例调度模型，确定强化学习要素和奖励更新方式；

S5，根据步骤S4的强化学习策略，采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配。

进一步地，步骤S1中，所述真实用户智能感知系统的所有金融用例集合为

，

是所有金融用例类型总数；所述本地服务器中存储有金融用例集合

，

，根据测试机发送的用例请求将对应的用例分配至测试机，并且在测试机测试完毕后，回收分配的用例；用例请求包括用例类型；

是本地服务器中存储的金融用例类型总数，

，所述金融用例集合

中每个用例类型的数量集合为

。

进一步地，步骤S2中，计算得到需要传输的用例信息的过程包括以下步骤：

S21，设场景中存在N台测试机，表示为测试机集合

；

S22，获取每个测试机

的已有的金融用例集合

，相应的用例数量集合表示为

；

S23，对测试机

的测试业务进行分析，计算得到测试业务对应的必要用例类型和每个用例类型的数量；

S24，结合测试机

的已有的金融用例集合

和相应的用例数量集合

，计算得到该测试业务缺少的用例类型

和相应的用例数量

；

S25，生成测试机

对应的用例请求

：

，

为完成该业务的时间限制。

进一步地，步骤S3中，计算得到云端和本地服务器之间的用例传输耗费时间，以及本地服务器和测试机之间的用例传输耗费时间的过程包括以下步骤：

S31，假设用例请求

对应的待传输的用例种类数为

，对于用例

，请求的数量为

，每传输一个用例

，需要传输的数据量为

，则测试机完成具体业务需要传输的数据总量为：

；

S32，根据下述公式计算云端和本地服务器之间的信道传输速率

，以及本地服务器和测试机之间的信道传输速率

：

式中，

表示云端和本地服务器之间的传输信道带宽，

表示本地服务器和测试机之间的传输信道带宽；

S33，计算得到云端和本地服务器之间的用例传输耗费时间

，以及本地服务器和测试机之间的用例传输耗费时间

：

式中，

是本地服务器不具备相应的用例对应的传输数据总量。

进一步地，步骤S4中，根据步骤S3的分析结果构建端云协同的用例调度模型，确定强化学习要素和奖励更新方式的过程包括以下步骤：

S41，将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境，本地服务器根据测试机的用例需求制定分配策略，若缺少用例则向云端按需抓取，本地服务器是强化学习模型中的智能体，作为云端和测试机通信的中介；

S42，将时间T分成若干相等的时隙，在每个时隙t内使用强化学习分析用例抓取策略：

S421，定义初始状态：本地服务器已有的用例种类表示为集合

，每种用例的数量表示为

，测试机

为了完成业务缺少的用例种类表示为集合

，缺少的每种用例的数量表示为

；定义动作：在时隙t内选择一台测试机，通过分析其缺少的用例和本地服务器空闲的用例，决定直接分配或从云端抓取适量的用例；定义奖励：以传输用例的时间耗费作为奖励，对于迭代过程中的某一状态中采取的某一动作，以传输的所有用例耗费的时间作为评价本地分配用例或云端抓取用例策略的优劣；

S422，假设本地服务器对于测试机

请求的用例的每个种类能够满足的数量为集合

，则在时隙t内本地服务器向测试机分配用例的时间耗费为：

；

从云端抓取剩余用例的时间耗费为：

；

总奖励表示为：

；

在每次迭代时，记录获得的奖励，在下一次迭代过程中，将下一次获得的奖励与当前记录的奖励比较，当奖励逐渐变少，即时间耗费逐渐变低时，采取相应的策略；

S43，用τ表示当前获得的奖励，定义奖励的更新方法为：

；

式中，

为学习效率，表示从上一次迭代过程中有多少误差要被学习；R为上一次迭代中的奖励；

为未来状态的衰减值，距离当前状态越远的状态，奖励衰减的越多；

为当前状态下能采取的动作；

表示下一个状态，

表示在下一状态可能采取的动作，

为当前状态下，选取使时间耗费最低的测试机，采取直接分配用例或从云端抓取的方式向其传输用例，并完成业务。

当前奖励更新后，根据更新的奖励执行相应的动作，同时环境进入下一个状态，依次迭代，直至所有的测试机完成业务。

进一步地，步骤S5中，根据步骤S4的强化学习策略，采用用例调度模型对真实用户智能感知系统内的所有用例进行抓取和分配的过程包括以下步骤：

当多台测试机同时向本地服务器退还分配的用例，且本地服务器的存储超过了上限时，按照先借先还的原则，按顺序退还；未退还用例的测试机等待本地服务器对用例重新分配后，再进行退还操作。

有益效果：

本发明的真实用户智能感知系统中用例的智能策略抓取方法，在用例策略抓取前，通过分析云端生成的和本地已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制，建立测试机用例需求模型；在构建用例传输模型时，重点考虑端云和端端的用例传输，是强化学习中奖励更新的基础；在使用强化学习进行云端用例的策略抓取时，充分考虑了本地服务器已有的用例类型和数量，减少了用例传输的时间耗费。

附图说明

图1为本发明实施例的真实用户智能感知系统中用例的智能策略抓取方法流程图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

图1为本发明实施例的真实用户智能感知系统中用例的智能策略抓取方法流程图。参见图1，该智能策略抓取方法包括以下步骤：

S1，分析真实用户智能感知系统中云端生成的和本地服务器已有的金融用例类型和数量，对用例的异构性进行分析。

S2，结合用例的异构性，分析每个测试机已有的用例类型和数量、请求的用例类型和数量、所执行业务的服务时间限制、已运行时间、存储空间限制，建立测试机用例需求模型，计算得到需要传输的用例类型和每个用例类型的数量。

S3，构建用例传输模型，对真实用户智能感知系统中的用例的端端传输和端云传输进行分析，计算得到云端和本地服务器之间的用例传输耗费时间，以及本地服务器和测试机之间的用例传输耗费时间。

S4，根据步骤S3的分析结果构建端云协同的用例调度模型，确定强化学习要素和奖励更新方式。

本发明提出的真实用户智能感知系统中基于强化学习的智能策略抓取方法包括下述步骤，流程如图1所示：

步骤1：本地服务器存储了部分用例，用于向测试机及时分配所请求的用例。同时，当测试机使用完毕后，本地服务器负责对用例回收，等待下一次用例分配和调度。用例可分为多个种类，每个种类的用例分别完成测试机的部分请求。使用集合

表示所有的用例，其中M表示用例的种类数量。云端具备充足的用例种类和数量，但本地服务器由于存储有限，只能存储部分用例。假设本地存储的用例种类数为

，则本地存储的用例表示为

，

，其中应满足

，表示本地存储的样例种类不能超过用例的种类总量。

值得注意的是，集合E和集合E _l的元素下标并不总是一一对应的，即对于集合E中的任一下标i和集合E _l的任一下标j，都有i≤j。这是因为对于用例e _i，其使用频率可能较低，导致本地服务器并未存储该用例，转而存储了之后的用例。

进一步考虑本地服务器的存储有限性，对于其已存储的用例，考虑其在本地服务器存储的数量，表示为

。

步骤2：测试机通过向本地服务器请求用例，进而完成用例使用需求。假设场景中存在N台测试机，表示为集合

。进一步，分析测试机已有的用例种类和数量。以测试机

为例，已有的用例种类表示为

，已有的用例数量表示为

。测试机

为了完成业务，还需要从本地服务器获取必要的用例，假设其缺少的用例种类为

，缺少的用例数量为

。

测试机通过请求用例来完成相应的业务，以测试机

为例，将其请求的业务表示为：

:

；

式中，Ti为完成该业务的时间限制，

为该业务对用例种类的需求，

为该业务对用例数量的需求。

步骤3：由于测试机完成具体业务需要向本地服务器请求用例调度，因此，需考虑用例的端对端传输。此外，若本地服务器不具备相应的用例，则需要向云端请求，因此，还需考虑用例的端到云传输。信道传输速率可表示为

；

式中，B为传输信道的带宽，I为输入信号的功率，G为信道加性高斯白噪声的功率，I/G为信噪比，即信号功率与噪声功率之比。

假设用例请求

对应的待传输的用例种类数为

，对于用例

，请求的数量为

，每传输一个用例

，需要传输的数据量为

，则测试机完成具体业务需要传输的数据总量为：

；

由于云到端和端到端的传输信道带宽不同，传输速率也不同，表示为：

；

；

式中，

表示云到端的传输信道带宽，

表示云到端的信道传输速率；类似地，

表示云到端的传输信道带宽，

表示云到端的信道传输速率。

因此，完成一次云到端用例传输需要耗费的时间为：

；

同理，完成一次端到端用例传输需要耗费的时间为：

。

步骤4：将本地服务器、云端、测试机组成的系统模型看做是强化学习中的环境Environment。本地服务器根据测试机的用例需求制定分配策略，若缺少用例则向云端按需抓取，因此本地服务器是强化学习模型中的智能体Agent，作为云端和测试机通信的中介。环境的状态State是测试机完成各自业务的情况，以及本地服务器在向测试机分配和向云端抓取用例之后尚存的用例种类及数量，当前状态决定了下一个动作是分配或抓取。动作Action是Agent本地服务器在每次迭代过程中采取的策略，包括为若干台测试机调度现有用例、从云端进行用例的抓取。奖励Reward是本地服务器在采取动作后，环境反馈的效益，本模型中，使用用例传输的时间耗费作为奖励。

在本模型中，将时间T分成若干相等的时隙，表示为t={1,2,…,T}，在每个时隙t内使用强化学习分析用例抓取策略。

定义初始状态：本地服务器已有的用例种类表示为集合E _l，每种用例的数量表示为S _l，测试机c _i为了完成业务缺少的用例种类表示为集合E _pi，缺少的每种用例的数量表示为S _pi。

定义动作：在时隙t内选择一台测试机，通过分析其缺少的用例和本地服务器空闲的用例，决定直接分配或从云端抓取适量的用例。

定义奖励：在本模型中，以传输用例的时间耗费作为奖励。对于迭代过程中的某一状态中采取的某一动作，以传输的所有用例耗费的时间作为评价本地分配用例或云端抓取用例策略的优劣。

例如在某一状态下，本地服务器决定向测试机c _j分配用例，但是由于本地存储的用例不足，需要从云端进行抓取。在此状态下，假设本地服务器对于c _j请求的用例的每个种类能够满足的数量为集合

，则在时隙τ内本地服务器向测试机分配用例的时间耗费为：

则剩余的用例需要在云端进行抓取，时间耗费为：

；

因此，总奖励可表示为：

；

在每次迭代时，需要记录获得的奖励，在下一次迭代过程中，将下一次获得的奖励与当前记录的奖励比较，只有当奖励逐渐变少，即时间耗费逐渐变低时，才会实际采取相应的策略。

定义奖励的更新方法：用τ表示当前获得的奖励，更新方法如下：

；

式中，

为当前状态下能采取的动作；

表示下一个状态，

表示在下一状态可能采取的动作，因此，

步骤5：根据步骤4确定的强化学习策略，能使得测试机对本地服务器的用例充分利用。本地服务器通过向云端抓取测试机请求的用例并分配给测试机，在测试机通过本地服务器分配的用例完成业务后，所分配的用例需要及时退还给本地服务器，以便完成其他测试机的用例请求。若多台测试机同时向本地服务器退还分配的用例，进而导致本地服务器的存储超过了上限，需要按照先借先还的原则，按顺序退还。未退还用例的测试机需要等待本地服务器对用例重新分配后，在进行退还操作。于是，便得到真实用户智能感知系统中基于强化学习的智能策略抓取方法。