CN116911897A - 一种基于强化学习的网络服务选择方法、介质及系统 - Google Patents

一种基于强化学习的网络服务选择方法、介质及系统 Download PDF

Info

Publication number
CN116911897A
CN116911897A CN202310891539.XA CN202310891539A CN116911897A CN 116911897 A CN116911897 A CN 116911897A CN 202310891539 A CN202310891539 A CN 202310891539A CN 116911897 A CN116911897 A CN 116911897A
Authority
CN
China
Prior art keywords
context
arm
slot machine
machine model
arm slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310891539.XA
Other languages
English (en)
Inventor
李振宇
田景瑞
周书田
洪锋
薛雁
王炳文
彭晓彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Wangxin Information Technology Co ltd
Original Assignee
Qingdao Wangxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Wangxin Information Technology Co ltd filed Critical Qingdao Wangxin Information Technology Co ltd
Priority to CN202310891539.XA priority Critical patent/CN116911897A/zh
Publication of CN116911897A publication Critical patent/CN116911897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0633Lists, e.g. purchase orders, compilation or processing
    • G06Q30/0635Processing of requisition or of purchase orders

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于强化学习的网络服务选择方法、介质及系统,属于网络服务推荐技术领域,该基于强化学习的网络服务选择方法包括以下步骤:获取待选择渠道商的当前订单数据,对当前订单数据进行预处理,得到当前订单特征向量;获取各类渠道商的历史订单数据,对历史订单数据进行所述预处理,得到历史订单特征向量;建立上下文感知多臂老虎机模型,初始化上下文感知多臂老虎机模型信息;对初始化后的上下文感知多臂老虎机模型进行动作选择,得到渠道商推荐结果;依据渠道商推荐结果,更新上下文感知多臂老虎机模型的参数,直至上下文感知多臂老虎机模型对渠道商动作选择完毕。

Description

一种基于强化学习的网络服务选择方法、介质及系统
技术领域
本发明属于网络服务选择技术领域,具体而言,涉及一种基于强化学习的网络服务选择方法、介质及系统。
背景技术
网络营销服务商一般是指以互联网为平台,在深入分析企业现状、产品特点和行业特征的基础上,为企业量身定制个性化的高性价比网络营销方案,全面负责方案的有效实施。对网络营销效果进行跟踪监控,并定期为企业提供效果分析报告。对营销服务提供商来讲,渠道商的网络服务至关重要,而各渠道商在各项服务指标上均存在较为明显的差异。因此,如何在多个渠道商中选出当前综合指标最高的渠道商,是营销服务提供商提高收益的关键问题。
目前传统的解决方案之一是人工统计历史数据制定方案,现有方法存在两个主要问题:
1.渠道服务商的服务能力具有动态性,服务能力由渠道商的实时负载决定。因为渠道商同时向多家客户提供服务,网络营销服务商无法实时获取当前各个渠道商的服务水平,在动态复杂多变的服务环境下,采用固定的解决方案可能出现不与环境匹配的情况导致收益难以满足预期。
2.大规模订单有待实时处理,对处理方法的运算效率有着较高要求。
发明内容
有鉴于此,本发明提供一种基于强化学习的网络服务选择方法、介质及系统,能够解决上述背景技术中提出的技术问题。
本发明是这样实现的:
本发明的第一方面提供一种基于强化学习的网络服务选择方法,其中,包括以下步骤:
S10:获取待选择渠道商的当前订单数据;
S20:对订单数据进行所述预处理,得到订单特征向量;
S30:建立上下文感知多臂老虎机模型,根据上下文老虎机的参数是否为空值来判断是否存在冷启动问题,如果存在则转入步骤S40,否则转入步骤S70。
S40:上下文感知多臂老虎机模型从大数据平台取得历史订单数据,并使用步骤S20中一致的方法进行预处理,得到订单的特征向量。
S50:将上下文感知多臂老虎机模型的臂记为a∈At,初始化每个臂a的参数:Aa=Id、ba=0d×1、xt,a∈Rd;其中,At为臂的集合、Id为d维单位向量、0d×1为d×1维的零向量、Rd为d维实向量;Aa与ba为通过岭回归的方式估计期望收益与上下文环境信息的系数时,方便参数的更新而简记的两个乘积,即 Da为用户总特征矩阵,ca为臂a前m次的收益;xt,a为每个臂的上下文向量,定义并初始化时刻变量t=1。
S60:使用历史订单数据离线地训练模型;逐步输入历史订单数据,模拟充值过程并更新上下文感知多臂老虎机模型每个臂的参数Aa与ba,按照如下规则:
对t时刻的各个臂αt∈At
其中,为上下文环境信息,rt为获取的奖励反馈值;计算每个臂a在1-δ的置信度下,期望收益的最大置信上界/> 其中δ为人工设定的显著性水平;
S70:使用ε-Greedy策略进行动作选择,即以ε的概率进行探索、(1-ε)的概率进行利用:生成0-1之间的随机小数r,当r≤ε时进行探索,上下文感知多臂老虎机模型随机选择一个渠道商作为推荐结果;当r>ε时,选择上下文感知多臂老虎机模型中最大置信上界pt,a最大的臂对应的渠道商作为推荐结果。
S80:通过上下文感知多臂老虎机模型对话费订单计算后,对动作at进行选择,获取所述话费订单在生产环境中来自用户的奖励反馈值rt,与上下文环境信息一并发送至上下文感知多臂老虎机模型中。
S90:更新上下文感知多臂老虎机模型中每个臂的参数Aa和ba,按如下规则:
并根据公式计算每个臂a的最大置信上界/>更新时刻数t=t+1,若上下文感知多臂老虎机模型对渠道商动作选择未完成,则返回步骤S10重新循环。
在上述技术方案的基础上,本发明的一种网络服务选择方法还可以做如下改进:
其中,所述订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。
其中,所述预处理使用多层感知机算法对订单数据进行特征向量提取。
本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有程序指令,用于上述的一种基于强化学习的网络服务选择方法。
本发明的第三方面提供一种网络服务选择系统,其中,包含上述的计算机可读存储介质。
与现有技术相比较,本发明提供的一种基于强化学习的网络服务选择方法、介质及系统有益效果是:
1.本发明基于上下文多臂老虎机,将订单特征与上下文环境信息结合起来加以充分利用,有效避免了传统方案不与环境相匹配的问题,在最大化累计回报的同时保证了推荐渠道商的有效性与准确性。
2.上下文多臂老虎机采用LinUCB算法,该算法计算复杂度与臂的数量成线性关系,因此在实时计算方面具有优越性,显著地提高了效率;该算法还支持动态增删臂的集合,解决了现有技术中固定臂集合的不足。
3.使用历史数据进行上下文多臂老虎机参数的初始化,解决了冷启动问题,避免了盲目探索导致的经济损失;配合具有在线学习功能的LinUCB算法,可以保存并异步增量更新参数。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种网络服务选择方法的步骤流程图;
图2为一种网络服务选择系统的数据传输示意图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
如图1所示,是本发明第一方面提供一种基于强化学习的网络服务选择方法的步骤流程图,包括以下步骤:
S10:获取当前待选择充值渠道商的订单数据,订单数据包括:订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态等信息。
S20:对话费订单数据进行预处理,使用多层感知机(MLP)方法得到订单的特征向量。
S30:根据上下文感知多臂老虎机模型的参数是否为空值来判断是否存在冷启动问题,如果存在则转入步骤S40,否则转入步骤S70。
S40:上下文感知多臂老虎机模型从大数据平台取得历史话费订单数据,并使用步骤S20中一致的方法进行预处理,得到话费订单的特征向量。
S50:将上下文感知多臂老虎机模型的臂记为a∈At,初始化每个臂a的参数:
Aa=Id、ba=0d×1、xt,a∈Rd
其中,At为臂的集合、Id为d维单位向量、0d×1为d×1维的零向量、Rd为d维实向量;Aa与ba为通过岭回归的方式估计期望收益与上下文环境信息的系数时,方便参数的更新而简记的两个乘积,即/>Da为用户总特征矩阵,ca为臂a前m次的收益;xt,a为每个臂的上下文向量,在话费充值场景中,选取当前渠道商近10分钟内订单平均时延,近10分钟内平均利润率,近10分钟订单数,时间戳作为上下文环境信息,定义并初始化时刻变量t=1。
S60:使用历史订单数据离线地训练模型;逐步输入历史订单数据,模拟充值过程并更新上下文感知多臂老虎机模型每个臂的参数Aa与ba,按照如下规则:
对t时刻的各个臂αt∈At
其中,为上下文环境信息,rt为获取的奖励反馈值,在话费充值场景中定义rt=α*suc*profit+β*(t-duration),其中,α、β为人工设定的常数系数,suc在当本订单成功充值时为1、失败则为0,profit为本订单获利,t为人工设定的时间常数,duration为本订单所花费的时延。最后根据公式计算每个臂a在1-δ的置信度下,期望收益的最大置信上界
其中,δ为人工设定的显著性水平。
S70:使用ε-Greedy策略进行动作选择,即以ε的概率进行探索、(1-ε)的概率进行利用:生成0-1之间的随机小数r,当r≤ε时进行探索,上下文感知多臂老虎机模型随机选择一个渠道商作为推荐结果;当r>ε时,选择上下文感知多臂老虎机模型中最大置信上界pt,a最大的臂对应的渠道商作为推荐结果。
S80:计算选择了动作at之后,该订单的奖励反馈值rt,与上下文信息一并发送回上下文老虎机。
S90:上下文感知多臂老虎机模型根据反馈值rt与上下文环境信息对参数进行更新:
更新上下文感知多臂老虎机模型中每个臂的参数Aa和ba,按如下规则:
并根据公式计算每个臂a的最大置信上界/>更新时刻数t=t+1,若上下文感知多臂老虎机模型对渠道商动作选择未完成,则返回步骤S10重新循环。
需要说明的是,订单数据可通过大数据平台进行获取,如阿里云、腾讯云、百度等。
其中,在上述技术方案中,订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。
其中,在上述技术方案中,预处理使用多层感知机算法对订单数据进行特征向量提取。
需要说明的是,多次感知机算法(Multilayer Perceptron,简称MLP)是一种基于人工神经网络的机器学习方法;它的特点是具有多层神经元,可自动从数据中提取特征并输出目标变量的预测值。具体来说,多层感知机是由许多层神经元组成的,每一层神经元可以通过前一层神经元的输出值来计算本层神经元的输出值,每一层神经元的输出值都作为下一层神经元的输入值,然后进行计算,直到输出预测结果。
多层感知机适用于众多机器学习任务,例如分类、回归和聚类等。通过选择不同的激活函数、层的数量和神经元的数量等超参数,可以调整模型的性能和复杂度。
上下文感知多臂老虎机模型由于历史数据不足或缺少初始数据会产生冷启动的问题。所以,上下文感知多臂老虎机模型需要在开始运行之前获得一定数量的历史数据来进行训练和调整,以便正确处理不同的上下文信息和提供适当的策略。
本发明第二方面提供一种计算机可读存储介质,其中,计算机可读存储介质中存储有程序指令,用于执行上述的一种基于强化学习的网络服务选择方法。
如图2所示,本发明第三方面提供一种基于强化学习的网络服务选择系统,包含上述的计算机可读存储介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种基于强化学习的网络服务选择方法,其特征在于,包括以下步骤:
S10:获取待选择渠道商的当前订单数据;
S20:对订单数据进行所述预处理,得到订单特征向量;
S30:建立上下文感知多臂老虎机模型,根据上下文老虎机的参数是否为空值来判断是否存在冷启动问题,如果存在则转入步骤S40,否则转入步骤S70;
S40:上下文感知多臂老虎机模型从大数据平台取得历史订单数据,并使用步骤S20中一致的方法进行预处理,得到订单的特征向量;
S50:将上下文感知多臂老虎机模型的臂记为a∈At,初始化每个臂a的参数:Aa=Id、ba=0d×1、xt,a∈Rd;其中,At为臂的集合、Id为d维单位向量、0d×1为d×1维的零向量、Rd为d维实向量;Aa与ba为通过岭回归的方式估计期望收益与上下文环境信息的系数时,方便参数的更新而简记的两个乘积,即 Da为用户总特征矩阵,ca为臂a前m次的收益;xt,a为每个臂的上下文向量,定义并初始化时刻变量t=1;
S60:使用历史订单数据离线地训练模型;逐步输入历史订单数据,模拟充值过程并更新上下文感知多臂老虎机模型每个臂的参数Aa与ba,按照如下规则:
对t时刻的各个臂αt∈At
其中,为上下文环境信息,rt为获取的奖励反馈值;计算每个臂a在1-δ的置信度下,期望收益的最大置信上界/> 其中δ为人工设定的显著性水平;
S70:使用ε-Greedy策略进行动作选择,即以ε的概率进行探索、(1-ε)的概率进行利用:生成0-1之间的随机小数r,当r≤ε时进行探索,上下文感知多臂老虎机模型随机选择一个渠道商作为推荐结果;当r>ε时,选择上下文感知多臂老虎机模型中最大置信上界pt,a最大的臂对应的渠道商作为推荐结果;
S80:通过上下文感知多臂老虎机模型对话费订单计算后,对动作at进行选择,获取所述话费订单在生产环境中来自用户的奖励反馈值rt,与上下文环境信息一并发送至上下文感知多臂老虎机模型中;
S90:更新上下文感知多臂老虎机模型中每个臂的参数Aa和ba,按如下规则:
并根据公式计算每个臂a的最大置信上界更新时刻数t=t+1,若上下文感知多臂老虎机模型对渠道商动作选择未完成,则返回步骤S10重新循环。
2.根据权利要求1所述的一种基于强化学习的网络服务选择方法,其特征在于,所述订单数据包括订单号、充值金额、用户所在省份、用户号码所属运营商、订单创建时间、订单状态。
3.根据权利要求2所述的一种基于强化学习的网络服务选择方法,其特征在于,所述预处理使用多层感知机算法对订单数据进行特征向量提取。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,用于执行权利要求1-3任一项所述的一种基于强化学习的网络服务选择方法。
5.一种网络服务选择系统,其特征在于,包含权利要求4所述的计算机可读存储介质。
CN202310891539.XA 2023-07-19 2023-07-19 一种基于强化学习的网络服务选择方法、介质及系统 Pending CN116911897A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310891539.XA CN116911897A (zh) 2023-07-19 2023-07-19 一种基于强化学习的网络服务选择方法、介质及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310891539.XA CN116911897A (zh) 2023-07-19 2023-07-19 一种基于强化学习的网络服务选择方法、介质及系统

Publications (1)

Publication Number Publication Date
CN116911897A true CN116911897A (zh) 2023-10-20

Family

ID=88364331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310891539.XA Pending CN116911897A (zh) 2023-07-19 2023-07-19 一种基于强化学习的网络服务选择方法、介质及系统

Country Status (1)

Country Link
CN (1) CN116911897A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596428A (zh) * 2018-03-13 2018-09-28 新智数字科技有限公司 一种订单派发的方法、装置以及设备
US20210142196A1 (en) * 2019-11-07 2021-05-13 Fmr Llc Digital content classification and recommendation based upon artificial intelligence reinforcement learning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596428A (zh) * 2018-03-13 2018-09-28 新智数字科技有限公司 一种订单派发的方法、装置以及设备
US20210142196A1 (en) * 2019-11-07 2021-05-13 Fmr Llc Digital content classification and recommendation based upon artificial intelligence reinforcement learning

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈光祯著、刘绍辉译: "《智能无线机器人:人工智能算法与应用》", 31 July 2022, 北京:机械工业出版社, pages: 95 - 98 *

Similar Documents

Publication Publication Date Title
CN108133330B (zh) 一种面向社交众包任务分配方法及其系统
CN107330715B (zh) 选择图片广告素材的方法和装置
CN110781409B (zh) 一种基于协同过滤的物品推荐方法
CN111489095A (zh) 一种风险用户管理方法、装置、计算机设备和存储介质
CN112559878B (zh) 一种基于图神经网络的序列推荐系统及推荐方法
CN110310114A (zh) 对象分类方法、装置、服务器及存储介质
CN113763093A (zh) 一种基于用户画像的物品推荐方法和装置
CN111563770A (zh) 一种基于特征差异化学习的点击率预估方法
CN113283671B (zh) 一种预测补货量的方法、装置、计算机设备及存储介质
CN111581516A (zh) 投资产品的推荐方法及相关装置
CN114154646A (zh) 一种移动边缘网络中联邦学习的效率优化方法
CN109657851A (zh) 事件驱动型的股价预测方法、装置、设备及存储介质
CN114240555A (zh) 训练点击率预测模型和预测点击率的方法和装置
CN113706211B (zh) 基于神经网络的广告点击率预测方法及系统
US20200401880A1 (en) Generating a recommended target audience based on determining a predicted attendance utilizing a machine learning approach
CN112231299B (zh) 一种特征库动态调整的方法和装置
EP1107157A2 (en) System and method for performing predictive analysis
CN116911897A (zh) 一种基于强化学习的网络服务选择方法、介质及系统
CN114449536B (zh) 一种基于深度强化学习的5g超密集网络多用户接入选择方法
Gabhane et al. Churn Prediction in Telecommunication Business using CNN and ANN
CN116228368A (zh) 一种基于深度多行为网络的广告点击率预测方法
CN115185606A (zh) 业务配置参数的获得方法、装置、设备及存储介质
CN115081609A (zh) 一种智能决策中的加速方法、终端设备及存储介质
CN114611673A (zh) 神经网络压缩方法、装置、设备及可读存储介质
CN114493674A (zh) 一种广告点击率预测模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination