CN116911897A

CN116911897A - 一种基于强化学习的网络服务选择方法、介质及系统

Info

Publication number: CN116911897A
Application number: CN202310891539.XA
Authority: CN
Inventors: 李振宇; 田景瑞; 周书田; 洪锋; 薛雁; 王炳文; 彭晓彬
Original assignee: Qingdao Wangxin Information Technology Co ltd
Current assignee: Qingdao Wangxin Information Technology Co ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-20

Abstract

本发明提供了一种基于强化学习的网络服务选择方法、介质及系统，属于网络服务推荐技术领域，该基于强化学习的网络服务选择方法包括以下步骤：获取待选择渠道商的当前订单数据，对当前订单数据进行预处理，得到当前订单特征向量；获取各类渠道商的历史订单数据，对历史订单数据进行所述预处理，得到历史订单特征向量；建立上下文感知多臂老虎机模型，初始化上下文感知多臂老虎机模型信息；对初始化后的上下文感知多臂老虎机模型进行动作选择，得到渠道商推荐结果；依据渠道商推荐结果，更新上下文感知多臂老虎机模型的参数，直至上下文感知多臂老虎机模型对渠道商动作选择完毕。

Description

一种基于强化学习的网络服务选择方法、介质及系统

技术领域

本发明属于网络服务选择技术领域，具体而言，涉及一种基于强化学习的网络服务选择方法、介质及系统。

背景技术

网络营销服务商一般是指以互联网为平台，在深入分析企业现状、产品特点和行业特征的基础上，为企业量身定制个性化的高性价比网络营销方案，全面负责方案的有效实施。对网络营销效果进行跟踪监控，并定期为企业提供效果分析报告。对营销服务提供商来讲，渠道商的网络服务至关重要，而各渠道商在各项服务指标上均存在较为明显的差异。因此，如何在多个渠道商中选出当前综合指标最高的渠道商，是营销服务提供商提高收益的关键问题。

目前传统的解决方案之一是人工统计历史数据制定方案，现有方法存在两个主要问题：

1.渠道服务商的服务能力具有动态性，服务能力由渠道商的实时负载决定。因为渠道商同时向多家客户提供服务，网络营销服务商无法实时获取当前各个渠道商的服务水平，在动态复杂多变的服务环境下，采用固定的解决方案可能出现不与环境匹配的情况导致收益难以满足预期。

2.大规模订单有待实时处理，对处理方法的运算效率有着较高要求。

发明内容

有鉴于此，本发明提供一种基于强化学习的网络服务选择方法、介质及系统，能够解决上述背景技术中提出的技术问题。

本发明是这样实现的：

本发明的第一方面提供一种基于强化学习的网络服务选择方法，其中，包括以下步骤：

S10：获取待选择渠道商的当前订单数据；

S20：对订单数据进行所述预处理，得到订单特征向量；

S30：建立上下文感知多臂老虎机模型，根据上下文老虎机的参数是否为空值来判断是否存在冷启动问题，如果存在则转入步骤S40，否则转入步骤S70。

S40：上下文感知多臂老虎机模型从大数据平台取得历史订单数据，并使用步骤S20中一致的方法进行预处理，得到订单的特征向量。

S50：将上下文感知多臂老虎机模型的臂记为a∈A_t，初始化每个臂a的参数：A_a＝I_d、b_a＝0_d×1、x_t，a∈R^d；其中，A_t为臂的集合、I_d为d维单位向量、0_d×1为d×1维的零向量、R^d为d维实向量；A_a与b_a为通过岭回归的方式估计期望收益与上下文环境信息的系数时，方便参数的更新而简记的两个乘积，即 D_a为用户总特征矩阵，c_a为臂a前m次的收益；x_t，a为每个臂的上下文向量，定义并初始化时刻变量t＝1。

S60：使用历史订单数据离线地训练模型；逐步输入历史订单数据，模拟充值过程并更新上下文感知多臂老虎机模型每个臂的参数A_a与b_a，按照如下规则：

对t时刻的各个臂α_t∈A_t，

其中，为上下文环境信息，r_t为获取的奖励反馈值；计算每个臂a在1-δ的置信度下，期望收益的最大置信上界/> 其中δ为人工设定的显著性水平；

S70：使用ε-Greedy策略进行动作选择，即以ε的概率进行探索、(1-ε)的概率进行利用：生成0-1之间的随机小数r，当r≤ε时进行探索，上下文感知多臂老虎机模型随机选择一个渠道商作为推荐结果；当r＞ε时，选择上下文感知多臂老虎机模型中最大置信上界p_t，a最大的臂对应的渠道商作为推荐结果。

S80：通过上下文感知多臂老虎机模型对话费订单计算后，对动作a_t进行选择，获取所述话费订单在生产环境中来自用户的奖励反馈值r_t，与上下文环境信息一并发送至上下文感知多臂老虎机模型中。

S90：更新上下文感知多臂老虎机模型中每个臂的参数A_a和b_a，按如下规则：

并根据公式计算每个臂a的最大置信上界/>更新时刻数t＝t+1，若上下文感知多臂老虎机模型对渠道商动作选择未完成，则返回步骤S10重新循环。

在上述技术方案的基础上，本发明的一种网络服务选择方法还可以做如下改进：

其中，所述订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。

其中，所述预处理使用多层感知机算法对订单数据进行特征向量提取。

本发明的第二方面提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有程序指令，用于上述的一种基于强化学习的网络服务选择方法。

本发明的第三方面提供一种网络服务选择系统，其中，包含上述的计算机可读存储介质。

与现有技术相比较，本发明提供的一种基于强化学习的网络服务选择方法、介质及系统有益效果是：

1.本发明基于上下文多臂老虎机，将订单特征与上下文环境信息结合起来加以充分利用，有效避免了传统方案不与环境相匹配的问题，在最大化累计回报的同时保证了推荐渠道商的有效性与准确性。

2.上下文多臂老虎机采用LinUCB算法，该算法计算复杂度与臂的数量成线性关系，因此在实时计算方面具有优越性，显著地提高了效率；该算法还支持动态增删臂的集合，解决了现有技术中固定臂集合的不足。

3.使用历史数据进行上下文多臂老虎机参数的初始化，解决了冷启动问题，避免了盲目探索导致的经济损失；配合具有在线学习功能的LinUCB算法，可以保存并异步增量更新参数。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种网络服务选择方法的步骤流程图；

图2为一种网络服务选择系统的数据传输示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，是本发明第一方面提供一种基于强化学习的网络服务选择方法的步骤流程图，包括以下步骤：

S10：获取当前待选择充值渠道商的订单数据，订单数据包括：订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态等信息。

S20：对话费订单数据进行预处理，使用多层感知机(MLP)方法得到订单的特征向量。

S30：根据上下文感知多臂老虎机模型的参数是否为空值来判断是否存在冷启动问题，如果存在则转入步骤S40，否则转入步骤S70。

S40：上下文感知多臂老虎机模型从大数据平台取得历史话费订单数据，并使用步骤S20中一致的方法进行预处理，得到话费订单的特征向量。

S50：将上下文感知多臂老虎机模型的臂记为a∈A_t，初始化每个臂a的参数：

A_a＝I_d、b_a＝0_d×1、x_t，a∈R^d；

其中，A_t为臂的集合、I_d为d维单位向量、0_d×1为d×1维的零向量、R^d为d维实向量；A_a与b_a为通过岭回归的方式估计期望收益与上下文环境信息的系数时，方便参数的更新而简记的两个乘积，即/>D_a为用户总特征矩阵，c_a为臂a前m次的收益；x_t，a为每个臂的上下文向量，在话费充值场景中，选取当前渠道商近10分钟内订单平均时延，近10分钟内平均利润率，近10分钟订单数，时间戳作为上下文环境信息，定义并初始化时刻变量t＝1。

对t时刻的各个臂α_t∈A_t，

其中，为上下文环境信息，r_t为获取的奖励反馈值，在话费充值场景中定义r_t＝α*suc*profit+β*(t-duration)，其中，α、β为人工设定的常数系数，suc在当本订单成功充值时为1、失败则为0，profit为本订单获利，t为人工设定的时间常数，duration为本订单所花费的时延。最后根据公式计算每个臂a在1-δ的置信度下，期望收益的最大置信上界

其中，δ为人工设定的显著性水平。

S80：计算选择了动作a_t之后，该订单的奖励反馈值r_t，与上下文信息一并发送回上下文老虎机。

S90：上下文感知多臂老虎机模型根据反馈值r_t与上下文环境信息对参数进行更新：

更新上下文感知多臂老虎机模型中每个臂的参数A_a和b_a，按如下规则：

需要说明的是，订单数据可通过大数据平台进行获取，如阿里云、腾讯云、百度等。

其中，在上述技术方案中，订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。

其中，在上述技术方案中，预处理使用多层感知机算法对订单数据进行特征向量提取。

需要说明的是，多次感知机算法(Multilayer Perceptron，简称MLP)是一种基于人工神经网络的机器学习方法；它的特点是具有多层神经元，可自动从数据中提取特征并输出目标变量的预测值。具体来说，多层感知机是由许多层神经元组成的，每一层神经元可以通过前一层神经元的输出值来计算本层神经元的输出值，每一层神经元的输出值都作为下一层神经元的输入值，然后进行计算，直到输出预测结果。

多层感知机适用于众多机器学习任务，例如分类、回归和聚类等。通过选择不同的激活函数、层的数量和神经元的数量等超参数，可以调整模型的性能和复杂度。

上下文感知多臂老虎机模型由于历史数据不足或缺少初始数据会产生冷启动的问题。所以，上下文感知多臂老虎机模型需要在开始运行之前获得一定数量的历史数据来进行训练和调整，以便正确处理不同的上下文信息和提供适当的策略。

本发明第二方面提供一种计算机可读存储介质，其中，计算机可读存储介质中存储有程序指令，用于执行上述的一种基于强化学习的网络服务选择方法。

如图2所示，本发明第三方面提供一种基于强化学习的网络服务选择系统，包含上述的计算机可读存储介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于强化学习的网络服务选择方法，其特征在于，包括以下步骤：

S10：获取待选择渠道商的当前订单数据；

S20：对订单数据进行所述预处理，得到订单特征向量；

S30：建立上下文感知多臂老虎机模型，根据上下文老虎机的参数是否为空值来判断是否存在冷启动问题，如果存在则转入步骤S40，否则转入步骤S70；

S40：上下文感知多臂老虎机模型从大数据平台取得历史订单数据，并使用步骤S20中一致的方法进行预处理，得到订单的特征向量；

S50：将上下文感知多臂老虎机模型的臂记为a∈A_t，初始化每个臂a的参数：A_a＝I_d、b_a＝0_d×1、x_t，a∈R^d；其中，A_t为臂的集合、I_d为d维单位向量、0_d×1为d×1维的零向量、R^d为d维实向量；A_a与b_a为通过岭回归的方式估计期望收益与上下文环境信息的系数时，方便参数的更新而简记的两个乘积，即 D_a为用户总特征矩阵，c_a为臂a前m次的收益；x_t，a为每个臂的上下文向量，定义并初始化时刻变量t＝1；

对t时刻的各个臂α_t∈A_t，

S70：使用ε-Greedy策略进行动作选择，即以ε的概率进行探索、(1-ε)的概率进行利用：生成0-1之间的随机小数r，当r≤ε时进行探索，上下文感知多臂老虎机模型随机选择一个渠道商作为推荐结果；当r＞ε时，选择上下文感知多臂老虎机模型中最大置信上界p_t，a最大的臂对应的渠道商作为推荐结果；

S80：通过上下文感知多臂老虎机模型对话费订单计算后，对动作a_t进行选择，获取所述话费订单在生产环境中来自用户的奖励反馈值r_t，与上下文环境信息一并发送至上下文感知多臂老虎机模型中；

并根据公式计算每个臂a的最大置信上界更新时刻数t＝t+1，若上下文感知多臂老虎机模型对渠道商动作选择未完成，则返回步骤S10重新循环。

2.根据权利要求1所述的一种基于强化学习的网络服务选择方法，其特征在于，所述订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。

3.根据权利要求2所述的一种基于强化学习的网络服务选择方法，其特征在于，所述预处理使用多层感知机算法对订单数据进行特征向量提取。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，用于执行权利要求1-3任一项所述的一种基于强化学习的网络服务选择方法。

5.一种网络服务选择系统，其特征在于，包含权利要求4所述的计算机可读存储介质。