CN108345941A

CN108345941A - 一种参数调整方法和装置

Info

Publication number: CN108345941A
Application number: CN201710050675.0A
Authority: CN
Inventors: 冯银付
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2018-07-31
Anticipated expiration: 2037-01-23
Also published as: CN108345941B

Abstract

本申请提供一种参数调整方法和装置，该方法包括：在第一类时间周期，从动作集合中选择一个动作，并执行所述动作；根据执行结果更新所述动作对应的第一类参数；在第二类时间周期，从所述动作集合中选择一个优选动作；根据所述优选动作调整指定对象的第二类参数；其中，所述第二类时间周期大于所述第一类时间周期。通过本申请的技术方案，可以避免第二类参数的反复调整，使得第二类参数的波动保持稳定，减少对用户的影响，减轻服务端的工作量，不会增加服务端的负担。可以最优化地实现参数调整，选择出更加精确的第二类参数。可以在线实时动态调整第二类参数，不用人工配置。

Description

一种参数调整方法和装置

技术领域

本申请涉及互联网技术领域，尤其是一种参数调整方法和装置。

背景技术

在机器学习领域，MABL(Multi-Armed Bandit Learning，多臂老虎机学习)算法是一类特殊的增强学习算法，这类算法包含两个部分：探索未知(Explore)、利用已知经验(Exploit)，因此，这类算法也称为EE(Explore-Exploit)算法。在EE算法中，一个行为动作选项是一个Arm(臂)，而任意一个Arm被选择执行后带来的结果影响，称为Reward(收益)。在EE算法中，Explore阶段的核心问题是如何去选择探索一个未知或新的Arm，Exploit阶段的核心问题是如何基于历史已知信息计算评价出当前最优的Arm，作为本阶段的执行Arm。

发明内容

本申请提供一种参数调整方法，所述方法包括：

在第一类时间周期，从动作集合中选择一个动作，并执行所述动作；

根据执行结果更新所述动作对应的第一类参数；

在第二类时间周期，从所述动作集合中选择一个优选动作；

根据所述优选动作调整指定对象的第二类参数；

其中，所述第二类时间周期大于所述第一类时间周期。

本申请提供一种参数调整装置，所述装置包括：

第一选择模块，用于在第一类时间周期，从动作集合中选择一个动作；

执行模块，用于执行所述动作；

更新模块，用于根据执行结果更新所述动作对应的第一类参数；

第二选择模块，用于在第二类时间周期，从动作集合中选择一个优选动作；

调整模块，用于根据所述优选动作调整指定对象的第二类参数；

其中，所述第二类时间周期大于所述第一类时间周期。

基于上述技术方案，本申请实施例中，通过配置第一类时间周期和第二类时间周期(第二类时间周期可以大于第一类时间周期)，在第一类时间周期内，可以只更新第一类参数，而不调整指定对象的第二类参数，在第二类时间周期内，才调整指定对象的第二类参数。这样可以避免第二类参数的反复调整，使得第二类参数的波动保持稳定，减少对用户的影响，提高服务端的运营效率和整体收益，减轻服务端的工作量，不会增加服务端的负担。而且，可以提供第二类参数的动态调整方式，可以最优化地实现参数调整，选择出更加精确的第二类参数。而且，可以在线实时动态调整第二类参数，不用人工配置第二类参数，能够减少人工劳动量，而且能够快速地响应线上数据的变化。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其它的附图。

图1是本申请一种实施方式中的应用场景示意图；

图2是本申请一种实施方式中的参数调整方法的流程图；

图3A和图3B是本申请一种实施方式中的EE算法的结构示意图；

图3C是本申请一种实施方式中的双周期的价格基线的动态调整示意图；

图3D和图3E是本申请一种实施方式中的价格基线的调整对比示意图；

图4是本申请一种实施方式中的服务端的硬件结构图；

图5是本申请一种实施方式中的参数调整装置的结构图。

具体实施方式

在本申请使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”，或者“当……时”，或者“响应于确定”。

本申请实施例中提出一种参数调整方法，可以应用于包括客户端和服务端的系统中，该方法可以应用于服务端。如图1所示，为系统结构示意图。客户端可以是终端设备(如PC(Personal Computer，个人计算机)、笔记本电脑、移动终端等)的APP(应用)，也可以是终端设备的浏览器，对此客户端的类型不做限制，所有能够访问服务端的客户端均在本申请实施例保护范围内。服务端是具有参数调整功能的设备，如数据平台、电商平台等，对此服务端的类型不做限制，所有具有参数调整功能的设备均在本申请实施例的保护范围之内。参见图2所示，为本申请实施例中的参数调整方法的流程图，该方法可以包括：

步骤201，在第一类时间周期，从动作集合中选择一个动作，并执行该动作。

步骤202，根据执行结果更新该动作对应的第一类参数。

步骤203，在第二类时间周期，从该动作集合中选择一个优选动作。

步骤204，根据该优选动作调整指定对象的第二类参数。

在一个例子中，上述执行顺序只是为了方便描述所给出的一个示例，在实际应用中，还可以改变各步骤之间的执行顺序，对此执行顺序不做限制。

在一个例子中，第二类时间周期可以大于第一类时间周期，例如，第二类时间周期可以为N个第一类时间周期，N为大于等于2的正整数。第一类时间周期和第二类时间周期均可以根据实际经验进行配置，例如，第一类时间周期为1小时，第二类时间周期为24小时。基于此，假设从0点开始统计，则在0点-1点，执行一次步骤201和步骤202，在1点-2点，执行一次步骤201和步骤202，以此类推。在0点-24点，执行一次步骤203和步骤204。其中，可以在第一类时间周期的开始时间执行步骤201，并在结束时间执行步骤202，如0点-1点的时间区间，在0点执行步骤201，在1点执行步骤202；在第二类时间周期的结束时间执行步骤203和步骤204，如在24点执行步骤203和步骤204。

针对步骤201，在一个例子中，动作集合中可以配置多个动作，且动作集合中的每个动作对应有被选中概率，基于此，针对“从动作集合中选择一个动作”的过程，可以包括但不限于如下方式：确定该动作集合中的每个动作对应的被选中概率，并利用每个动作对应的被选中概率，从该动作集合中选择一个动作。

进一步的，针对“利用每个动作对应的被选中概率，从该动作集合中选择一个动作”的过程，可以包括但不限于如下方式：随机生成一个位于指定区间的数值；若该数值不大于预设阈值，则可以利用预设算法从该动作集合中选择一个动作，该预设算法用于使被选中概率越大的动作，被选择的概率越大；若该数值大于预设阈值，则可以从该动作集合中选择被选中概率最大的动作。

针对步骤201，在一个例子中，动作集合中的每个动作对应有调整偏移量，基于此，针对“执行该动作”的过程，可以包括但不限于如下方式：根据该动作对应的调整偏移量对该第一类时间周期的虚拟资源信息进行调整，该虚拟资源信息只作用在该第一类时间周期。利用调整后的虚拟资源信息对该指定对象进行业务处理，并获取该指定对象在该第一类时间周期的收益指标变化量。

针对步骤202，在一个例子中，该第一类参数可以包括被选中概率和收益指标，该执行结果可以包括收益指标变化量，而且，该动作集合中的每个动作对应有被选中概率和收益指标。基于此，针对“根据执行结果更新该动作对应的第一类参数”的过程，可以包括但不限于如下方式：利用该收益指标变化量(即执行结果)更新该动作对应的收益指标，如将动作集合中的该动作对应的收益指标修改为当前的收益指标与该收益指标变化量之和。此外，若该收益指标变化量表示正向收益，则增加该动作对应的被选中概率，如增加动作集合中的该动作对应的被选中概率；或者，若该收益指标变化量表示反向收益，则减少该动作对应的被选中概率，如减少动作集合中的该动作对应的被选中概率。

在一个例子中，在增加该动作对应的被选中概率或者减少该动作对应的被选中概率之后，还可以对动作集合中的每个动作对应的被选中概率进行归一化处理，以使动作集合中的每个动作对应的被选中概率之和为预设数值(如1)。

针对步骤203，在一个例子中，动作集合中的每个动作对应有被选中概率，且优选动作是该动作集合中的被选中概率最大的动作。基于此，针对“从该动作集合中选择一个优选动作”的过程，可以包括但不限于：从该动作集合中选择被选中概率最大的动作，该被选中概率最大的动作也就是该优选动作。

针对步骤204，在一个例子中，该优选动作对应有调整偏移量，基于此，针对“根据该优选动作调整指定对象的第二类参数”的过程，可以包括但不限于如下方式：根据该优选动作对应的调整偏移量对该指定对象的第二类参数进行调整，其中，该第二类参数可以作用在该指定对象的业务处理过程。

进一步的，动作集合中的每个动作对应有调整偏移量、收益指标和被选中概率，基于此，针对“根据该优选动作调整指定对象的第二类参数”的过程，可以包括但不限于如下方式：利用该动作集合中的每个动作对应的收益指标，统计累积收益；若该累积收益为正值，且大于正向累积阈值，则可以将指定对象的第二类参数调整为当前的第二类参数与该优选动作对应的调整偏移量之和；若该累积收益为负值，且大于负向累积阈值，则可以将指定对象的第二类参数调整为当前的第二类参数与该优选动作对应的调整偏移量之差。

在一个例子中，动作集合中的每个动作对应有收益指标和被选中概率，根据该优选动作调整指定对象的第二类参数之后，若参数调整过程结束，则可以结束流程，若参数调整过程未结束，则可以进一步的将动作集合中的每个动作对应的收益指标重置为初始值，并将动作集合中的每个动作对应的被选中概率重置为初始值，然后，继续在第一类时间周期，重新执行步骤201和步骤202，并在第二类时间周期，重新执行步骤203和步骤204，以此类推。

在一个例子中，上述指定对象可以包括但不限于商品类目(如连衣裙等)，上述第二类参数可以包括但不限于虚拟资源信息，而且，该虚拟资源信息可以包括但不限于价格信息(如价格基线)、折扣率信息(如折扣率基线)等。

以下结合具体的应用场景，对本申请实施例的上述技术方案进行详细说明。

在本应用场景下，以动态调整商品类目(即指定对象，如连衣裙等)的价格基线(即虚拟资源信息，如200元、500元等)为例进行后续说明。

随着电子商务的不断发展，越来越多的用户选择网上购物，假设连衣裙的数据集合中，实际价格范围是50-10000元，而50-500元之间的连衣裙，由于商品价格较低，卖家经常以次充好，导致商品的品质无法得到保证，容易引发买家投诉。因此，为了提高电商平台的品质，提升买家的购物满意度，就需要设置价格基线，如500元，这样，在用户搜索连衣裙时，只将价格基线之上的商品显示给用户，而价格基线之下的商品不显示给用户，即这些价格基线之下的商品被屏蔽掉，用户无法搜索到价格基线之下的商品，从而减少买家的投诉。

为了实现上述过程，在一个例子中，可以依赖人工经验，手工设置商品类目的价格基线。但是，由于商品类目很多，针对每个商品类目手工设置价格基线时，工作量很大，价格基线是否合理，会受到人工经验的影响，价格基线的时效性较差，难以实时地响应线上数据的变化。此外，由于商品生产工艺的改进、原料成本的季节性变化、卖家成本的管控水平变化、商品营销折扣活动等因素，使得卖家发布的商品价格会不断调整，因此需要价格基线也是动态调整的，但是手工设置商品类目的价格基线的方式，无法实现价格基线的动态调整。

针对上述发现，本申请实施例中提出一种价格基线的动态调整方法，可以对不同商品类目的价格基线进行自适应地动态调整，从而减少人工劳动量，提高平台运营效率。由于每个商品类目的价格基线的动态调整过程相同，为了方便描述，后续以一个商品类目的价格基线的动态调整方法为例进行说明。

本申请实施例中，可以采用EE(Explore-Exploit)算法对商品类目的价格基线进行动态调整，当然，在实际应用中，并不局限于EE算法，只要可以实现对商品类目的价格基线进行动态调整即可，本应用场景以EE算法为例进行说明。

EE算法通常包含两个部分：一个是探索未知(Explore)过程，另一个是利用已知(Exploit)过程，如图3A所示，Explore模块和Exploit模块在EE机制算法策略选中控制模块的控制下，不断进行状态变迁，并依据自身的计算逻辑，每次从Arms集合中选择一个Arm执行，并更新相应的状态参数。如图3A所示，在t时刻，EE机制算法策略选中控制模块通知Explore模块进行未知探索过程，Explore模块选择左起第4个Arm作为本次的执行Arm，执行该Arm，获得相应的Reward，并依此更新状态参数。在t+1时刻，EE机制算法策略选中控制模块通知Exploit模块进行利用已知过程，Exploit模块选择右起第3个Arm作为本次的执行Arm，执行该Arm，获得相应的Reward，依此更新状态参数。

EE算法在最初的几十次实验过程中，由于实验次数有限，参数波动比较明显，从而导致输出结果容易波动，无法满足某些追求系统平稳运行的应用。例如，针对商品类目的价格基线的调整，若价格基线波动比较明显，就容易造成用户的流失，因此，对于价格基线调整这类追求系统平稳运行的应用来说，传统EE算法存在一定风险。针对上述发现，本申请实施例中，对传统EE算法进行改进，提出一种采用双周期的动态价格调整方法，在两个不同的运行时间周期内，分别对部分参数进行更新，从而保证输出结果的平稳运行，使得整个商品类目的价格基线尽量保持稳定，减少对用户的影响，提升平台的整体收益。

本申请实施例中的参数细分为两类参数，分别为第一类参数和第二类参数，第一类参数是被选中概率和收益指标，第二类参数是商品类目的价格基线。而且，本申请实施例中引入两个不同的时间周期，分别为第一类时间周期(又称为小周期)和第二类时间周期(又称为大周期)。在第一类时间周期内，依据测试结果对第一类参数进行更新；在第二类时间周期内，依据多个第一类时间周期的累积测试结果，对第二类参数进行更新，即对价格基线进行调整，从而实现价格基线的动态调整。由于一类时间周期内采用小步随机的测试，因此输出结果的波动较小；而且，由于第二类时间周期是在具备充足的积测试结果后，对价格基线进行调整，因此第二类时间周期调整后的价格基线更加稳定可靠。

如图3B所示，为本申请实施例的EE算法的结构示意图，该结构可以包括：

1、EE机制算法策略选择控制模块，EE机制算法策略选择控制模块包含一个随机数生成器(用于生成位于指定区间的数值)，依据预先设置的参数，在每个第一类时间周期(或者每次实验)，选择Explore模块或者Exploit模块作为当前的执行模块。在每个第一类时间周期，调度周期控制模块对第一类参数进行更新；在每个第二类时间周期，调度周期控制模块对第二类参数进行更新。

2、Explore模块，Explore模块用于对可选的Arms集合(即上述实施例的动作集合，该Arms集合中的每个Arm就是一个动作)中的Arm进行一次探索。

3、Exploit模块，该Exploit模块用于基于现有历史信息，从可选的Arms集合中选择历史收益最好的一个Arm，并基于该Arm进行一次利用已知过程。

4、周期控制模块，该周期控制模块用于在每个第一类时间周期(即小周期)，对第一类参数(即被选中概率和收益指标)进行动态更新；在每个第二类时间周期(即大周期)，对第二类参数(即商品类目的价格基线)进行动态更新。

5、可选的Arms集合，该Arms集合针对不同商品类目提供多个Arm，每个Arm可以代表对价格基线的一种调整操作，例如，包含5个不同Arm的可选的Arms集合可以为S＝{(-100,p₁,r₁),(-50,p₂,r₂),(0,p₃,r₃),(50,p₄,r₄),(100,p₅,r₅)}。其中，Arm(-100,p₁,r₁)表示将当前商品类目的价格基线向左平移100，即价格基线减少100，p₁表示该Arm的被选中概率，r₁表示该Arm的收益指标。Arm(-50,p₂,r₂)表示将当前商品类目的价格基线向左平移50，P₂表示该Arm的被选中概率，r₂表示该Arm的收益指标。对于其它Arm与此类似，在此不再重复赘述。

6、EE模型的先验参数，该先验参数包含有可选的Arms集合中的每个Arm的初始被选中概率、商品类目的价格基线(本申请实施例中，需要调整的就是该价格基线)。在系统初始状态时，可以采用人工设置或者随机初始化等方式，设置每个Arm的初始被选中概率以及商品类目的价格基线。在系统线上运行后，周期控制模块在每个第二类时间周期(即大周期)，可以对商品类目的价格基线进行调整，此外，还可以调整或者不调整每个Arm的初始被选中概率。

基于图3B所示的应用场景，本申请实施例中提出的价格基线的动态调整方法，可以先初始化算法模型的各参数，如可选的Arms集合中每个Arm的参数、EE模型的先验参数、双周期参数等，当然还可以包括其它参数，在此不再赘述。

若可选的Arms集合包含K个Arm，则可选的Arms集合为x_i表示第i个Arm的调整偏移量，即对价格基线的调整偏移量，p_i表示第i个Arm的被选中概率，r_i表示第i个Arm的收益指标。例如，一个可选的Arms集合的示例可以为x_i的取值依次为(-100,-50,0,50,100)，p_i的取值依次为(0.2,0.2,0.2,0.2,0.2)，r_i的取值依次为(0,0,0,0,0)。需要说明的是，在初始状态下，所有Arm的收益指标均为0；此外，所有Arm的被选中概率之和为1，所有Arm的被选中概率也就是先验参数中的初始被选中概率。

EE模型的先验参数可以包括：可选的Arms集合中的每个Arm的初始被选中概率，如初始被选中概率依次为(0.2,0.2,0.2,0.2,0.2)，也就是可选的Arms集合中每个Arm的p_i的取值；商品类目的价格基线如价格基线可以为500。

双周期参数可以包括：第一类时间周期(如小周期T_min，例如1小时等)、第二类时间周期(如大周期T_max，例如24小时等)；基于此，每天可以进行一次第二类时间周期的调整，并且可以进行24次第一类时间周期的调整。

基于上述初始化的各参数(如每个Arm的参数、EE模型的先验参数、双周期参数等)，本申请实施例中提出的价格基线的动态调整方法，可以包括：

步骤101、EE机制算法策略选择控制模块启动计时器t，该计时器t以小时为单位，在t＝1，2，3，4...的时刻，EE机制算法策略选择控制模块执行步骤102。

步骤102、EE机制算法策略选择控制模块随机生成位于指定区间的数值。

在一个例子中，该指定区间可以根据实际需要进行配置，如区间0-1。

步骤103、EE机制算法策略选择控制模块判断该数值是否不大于预设阈值。如果不大于预设阈值，则执行步骤104；如果大于预设阈值，则执行步骤105。

在一个例子中，可以配置Explore模块的选择概率、Exploit模块的选择概率，假设Explore模块的选择概率为P_e，且选择概率P_e是0-1之间的概率值，则Exploit模块的选择概率为1-P_e，而且，上述预设阈值就是选择概率P_e。

基于此，当随机生成的位于指定区间(0-1)的数值不大于(即小于等于)该预设阈值P_e时，表示应该选中Explore模块作为当前执行模块，进行一次未知探索过程。当随机生成的位于指定区间(0-1)的数值大于该预设阈值P_e时，表示应该选中Exploit模块作为当前执行模块，进行一次利用已知过程。

步骤104、EE机制算法策略选择控制模块通知Explore模块进行处理，Explore模块利用预设算法从可选的Arms集合中选择一个Arm，并执行步骤106。

在一个例子中，该预设算法用于使被选中概率越大的Arm，被选择的概率越大，但是不一定会选择出被选中概率最大的Arm，Explore模块的选择过程是一个随机选择过程，只是被选中概率越大的Arm，被Explore模块选择的概率越大，被选中概率越小的Arm，被Explore模块选择的概率越小，但是，Explore模块选择的不一定是被选中概率最大的Arm，也可能是被选中概率最小的Arm。

例如，预设算法可以包括但不限于Softmax算法，基于Softmax算法，可以使Explore模块基于各Arm的被选中概率，从可选的Arms集合中选择一个Arm，而且，满足上述“Explore模块的选择过程是一个随机选择过程，只是被选中概率越大的Arm，被Explore模块选择的概率越大，被选中概率越小的Arm，被Explore模块选择的概率越小”的功能。针对Explore模块基于各Arm的被选中概率，从可选的Arms集合中选择一个Arm的过程，在此不再详加赘述。

步骤105、EE机制算法策略选择控制模块通知Exploit模块进行处理，Exploit模块从可选的Arms集合中选择一个被选中概率最大的Arm，之后执行步骤106。

步骤106、Explore模块/Exploit模块执行当前选择的Arm，如第j个Arm。

在一个例子中，针对“Explore模块/Exploit模块执行当前选择的Arm”的过程，Explore模块/Exploit模块可以根据该Arm对应的调整偏移量x_j对价格基线进行调整(即调整后的价格基线为价格基线)。利用调整后的价格基线对商品进行业务处理(如只将价格基线之上的商品显示给用户，而价格基线之下的商品不显示给用户)。在经过上述处理后，Explore模块/Exploit模块可以获取到该商品在当前的第一类时间周期对应的收益指标变化量。

其中，价格基线是EE模型的先验参数中包括的商品类目的价格基线如价格基线500，但是，在对价格基线进行调整之后，并不将调整后的价格基线更新到EE模型的先验参数中，只是在当前的第一类时间周期，利用调整后的价格基线进行业务处理，在该第一类时间周期之外的时间，这个调整后的价格基线将不再起作用，EE模型的先验参数中包括的商品类目的价格基线仍然为价格基线500，而不会变为调整后的价格基线

其中，x_j表示第j个Arm的调整偏移量，例如，当调整偏移量x_i的取值依次为(-100,-50,0,50,100)，且j为2时，则x_j为-50，当j为5时，则x_j为100。

其中，若第一类时间周期为1小时，则当前的第一类时间周期是指当前的1小时，如0点-1点，或者，1点-2点等。在当前的第一类时间周期，在利用调整后的价格基线进行业务处理后，则Explore模块/Exploit模块可以获取到这个第一类时间周期的收益指标变化量。例如，当收益指标变化量为投诉数量时，如果在上一个小时的投诉数量为1000，而当前一小时的投诉数量为800，则收益指标变化量为-200；当收益指标变化量为交易数量时，如果在上一个小时的交易数量为1000，而当前一小时的交易数量为1200，则收益指标变化量为200。

步骤107、Explore模块/Exploit模块利用该收益指标变化量Δr_j更新当前执行的第j个Arm对应的收益指标r_j，即将第j个Arm对应的收益指标r_j修改为Arms集合中的第j个Arm对应的收益指标与收益指标变化量Δr_j之和，并将修改后的第j个Arm对应的收益指标r_j更新到该Arms集合中的第j个Arm中。

例如，假设Arms集合中的第j个Arm对应的收益指标为1000，收益指标变化量Δr_j为200，则修改后的第j个Arm对应的收益指标r_j为1200，并使用收益指标1200替换Arms集合中的第j个Arm对应的收益指标1000。

步骤108、若收益指标变化量Δr_j表示正向收益，Explore模块/Exploit模块增加当前执行的第j个Arm对应的被选中概率p_j；若收益指标变化量Δr_j表示反向收益，则Explore模块/Exploit模块减少第j个Arm对应的被选中概率p_j。

在一个例子中，对于投诉数量来说，投诉数量越少越好，因此，当收益指标变化量Δr_j是负值时，收益指标变化量Δr_j表示正向收益，当收益指标变化量Δr_j是正值时，收益指标变化量Δr_j表示反向收益。对于交易数量来说，交易数量越多越好，因此，当收益指标变化量Δr_j是正值时，收益指标变化量Δr_j表示正向收益，当收益指标变化量Δr_j是负值时，收益指标变化量Δr_j表示反向收益。

在一个例子中，针对“Explore模块/Exploit模块增加第j个Arm对应的被选中概率p_j”的过程，增加的数值可以根据实际经验配置，如增加后的被选中概率p_j可以为增加前的被选中概率p_j*(1+α)。针对“Explore模块/Exploit模块减少第j个Arm对应的被选中概率p_j”的过程，减少的数值可以根据实际经验配置，如减少后的被选中概率p_j可以为减少前的被选中概率p_j*(1-α)。其中，α为预先设置的Arm选中概率更新比率参数，通常为大于零的一个参数，如0.2等。

步骤109、Explore模块/Exploit模块将修改后的被选中概率p_j(如增加后的被选中概率p_j/减少后的被选中概率p_j)更新到该Arms集合中的第j个Arm中。

步骤110、Explore模块/Exploit模块对Arms集合中的每个Arm对应的被选中概率进行归一化处理，以使每个Arm对应的被选中概率之和为1。

在一个例子中，在增加或者减少第j个Arm对应的被选中概率p_j之后，Arms集合中的每个Arm对应的被选中概率之和不再为1，因此，可以对Arms集合中的每个Arm对应的被选中概率进行归一化处理，以使Arms集合中的每个Arm对应的被选中概率之和为1。如下公式所示，为归一化处理的一个示例。p_k’表示归一化处理后的被选中概率，p_k表示归一化处理前的被选中概率，p_i表示Arms集合中的第i个Arm对应的被选中概率，K表示Arms集合中的Arm数量。

经过上述步骤102-步骤110，完成一个第一类时间周期的完整处理流程。

基于EE机制算法策略选择控制模块启动的计时器t，因此，在下一个时刻，如t＝1，2，3，4...的时刻，EE机制算法策略选择控制模块继续执行步骤102。此外，在t＝24，48...的时刻，EE机制算法策略选择控制模块还可以执行步骤111。

步骤111、EE机制算法策略选择控制模块利用Arms集合中的每个Arm对应的收益指标，统计累积收益，并从Arms集合中选择被选中概率最大的Arm。

在一个例子中，累积收益可以为Arms集合中的每个Arm对应的收益指标之和，即r_i表示第i个Arm的收益指标，sumR表示累积收益。

步骤112、若该累积收益sumR为正值，且大于正向累积阈值，则执行步骤113；若该累积收益sumR为负值，且大于负向累积阈值，则执行步骤114。

步骤113、周期控制模块将价格基线调整为当前的价格基线与被选中概率最大的Arm对应的调整偏移量x_b之和，即调整后的价格基线为价格基线

步骤114、周期控制模块将价格基线调整为当前的价格基线与被选中概率最大的Arm对应的调整偏移量x_b之差，即调整后的价格基线为价格基线

在一个例子中，若累积收益sumR为正值，且大于预先配置的正向累积阈值(可以根据经验进行配置)，则表明在本次第二类时间周期中，总体收益明确正向，可以对商品类目的价格基线进行一次正向调整操作，即调整后的价格基线为价格基线若累积收益sumR为负值，且大于预先配置的负向累积阈值(可以根据经验进行配置)，则表明在本次第二类时间周期中，总体收益明确负向，可以对商品类目的价格基线进行一次回调操作，即调整后的价格基线为价格基线在其它情况下，表明本次第二类时间周期中，总体收益趋势并不明显，因此保持商品类目的价格基线不变，即价格基线仍然为价格基线

其中，价格基线是EE模型的先验参数中包括的商品类目的价格基线如价格基线500，而且，在对价格基线进行调整之后，需要将调整后的价格基线(或者)更新到EE模型的先验参数中，在后续过程中，EE模型的先验参数中包括的价格基线就是调整后的价格基线(或者)，而不是调整前的价格基线而且，步骤106中使用的价格基线也为调整后的价格基线(或者)，而不是调整前的价格基线综上所述，EE模型的先验参数中只包括价格基线(或者)，而不再包括价格基线

步骤115、在步骤113或者步骤114后，EE机制算法策略选择控制模块判断价格基线的调整过程是否结束，如果是，结束流程，如果否，执行步骤116。

在一个例子中，若用户配置价格基线的调整过程已经结束，或者基于其它策略(如价格基线的调整次数已经达到预设次数，如10次，或者线上数据已经稳定等)确定价格基线的调整过程已经结束，则结束价格基线的调整过程，并利用调整后的价格基线对商品进行业务处理(如只将价格基线之上的商品显示给用户，而价格基线之下的商品不显示给用户)。否则，执行步骤116。

步骤116、周期控制模块将Arms集合中的每个Arm对应的收益指标重置为初始值，并将Arms集合中的每个Arm对应的被选中概率重置为初始值。

在一个例子中，每个Arm对应的收益指标的初始值为0，可以将每个Arm对应的收益指标重置为0。每个Arm对应的被选中概率的初始值可以为EE模型的先验参数包括的初始被选中概率，且可以对初始被选中概率进行修改。若未对初始被选中概率(0.2,0.2,0.2,0.2,0.2)进行修改，则将Arms集合中的每个Arm对应的被选中概率依次重置为(0.2,0.2,0.2,0.2,0.2)，若对初始被选中概率(0.2,0.2,0.2,0.2,0.2)进行修改，如修改为(0.1,0.3,0.2,0.2,0.2)，则将(0.1,0.3,0.2,0.2,0.2)更新为EE模型的先验参数包括的初始被选中概率，并将Arms集合中的每个Arm对应的被选中概率依次重置为(0.1,0.3,0.2,0.2,0.2)。

经过上述步骤111-步骤116，完成一个第二类时间周期的完整处理流程。

基于EE机制算法策略选择控制模块启动的计时器t，因此，在下一个时刻，如t＝1，2，3，4...的时刻，EE机制算法策略选择控制模块继续执行步骤2。

综上所述，假设第一类时间周期为一天，第二类时间周期为一周(即7天)，5个Arm的调整量分别为(-100,-50,0,50,100)，其依次表示将当前商品类目的价格基线向左平移100，向左平移50，保持不变，向右平移50，向右平移100，则双周期的价格基线的动态调整示意图参见图3C所示。而且，假设经过价格基线的动态调整后，价格基线从500元调整到1000元，则其对比示意图如图3D和图3E所示，在图3D中，用户可以搜索到500元-1000元之间的商品，而在图3E中，用户无法搜索到1000元以下的商品，只能搜索到1000元以上的商品。

基于与上述方法同样的申请构思，本申请实施例中还提供了一种参数调整装置120，可以应用在服务端10。其中，该参数调整装置120可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在的服务端10的处理器11，读取非易失性存储器12中对应的计算机程序指令形成的。从硬件层面而言，如图4所示，为该参数调整装置120所在的服务端10的一种硬件结构图，除图4所示的处理器11、非易失性存储器12外，该服务端10还可以包括其它硬件，如负责处理报文的转发芯片、网络接口、内存等；从硬件结构上来讲，该服务端10还可能是分布式设备，可能包括多个接口卡，以便在硬件层面进行报文处理的扩展。

如图5所示，为该参数调整装置的结构图，所述装置包括：第一选择模块1201，用于在第一类时间周期，从动作集合中选择一个动作；执行模块1202，用于执行所述动作；更新模块1203，用于根据执行结果更新所述动作对应的第一类参数；第二选择模块1204，用于在第二类时间周期，从所述动作集合中选择一个优选动作；调整模块1205，用于根据所述优选动作调整指定对象的第二类参数；其中，所述第二类时间周期大于所述第一类时间周期。

在一个例子中，所述动作集合中的动作对应有被选中概率；所述第一选择模块1201，具体用于在从动作集合中选择一个动作的过程中，确定所述动作集合中的每个动作对应的被选中概率，并利用每个动作对应的被选中概率，从所述动作集合中选择一个动作。

所述第一选择模块1201，具体用于在利用每个动作对应的被选中概率，从所述动作集合中选择一个动作的过程中，随机生成一个位于指定区间的数值；若所述数值不大于预设阈值，利用预设算法从所述动作集合中选择一个动作；其中，所述预设算法用于使被选中概率越大的动作，被选择的概率越大；若所述数值大于预设阈值，从所述动作集合中选择被选中概率最大的动作。

在一个例子中，所述动作集合中的动作对应有调整偏移量，所述执行模块1202，具体用于在执行所述动作的过程中，根据所述动作对应的调整偏移量对所述第一类时间周期的虚拟资源信息进行调整，所述虚拟资源信息只作用在所述第一类时间周期；利用调整后的虚拟资源信息对所述指定对象进行业务处理；获取所述指定对象在所述第一类时间周期的收益指标变化量。

所述第一类参数包括被选中概率和收益指标，所述执行结果包括收益指标变化量；所述更新模块1203，具体用于在根据执行结果更新所述动作对应的第一类参数的过程中，利用所述收益指标变化量更新所述动作对应的收益指标；若所述收益指标变化量表示正向收益，则增加所述动作对应的被选中概率；若所述收益指标变化量表示反向收益，则减少所述动作对应的被选中概率。

所述优选动作对应有调整偏移量，所述动作集合中的动作对应有收益指标和被选中概率，所述优选动作是动作集合中的被选中概率最大的动作；所述调整模块1205，具体用于在根据所述优选动作调整指定对象的第二类参数的过程中，利用所述动作集合中的每个动作对应的收益指标，统计累积收益；

若所述累积收益为正值，且大于正向累积阈值，则将所述指定对象的第二类参数调整为当前的第二类参数与所述优选动作对应的调整偏移量之和；

若所述累积收益为负值，且大于负向累积阈值，则将所述指定对象的第二类参数调整为当前的第二类参数与所述优选动作对应的调整偏移量之差。

所述动作集合中的动作对应有收益指标和被选中概率，所述调整模块1205，还用于在根据所述优选动作调整指定对象的第二类参数之后，若参数调整过程未结束，则将所述动作集合中的每个动作对应的收益指标重置为初始值；将所述动作集合中的每个动作对应的被选中概率重置为初始值。

在一个例子中，所述指定对象具体包括商品类目；所述第二类参数具体包括虚拟资源信息，所述虚拟资源信息具体包括价格信息、折扣率信息。

基于上述技术方案，本申请实施例中，通过配置第一类时间周期和第二类时间周期(第二类时间周期可以大于第一类时间周期)，在第一类时间周期内，只更新第一类参数，而不调整指定对象的第二类参数，在第二类时间周期内，才调整指定对象的第二类参数。这样可以避免第二类参数的反复调整，使得第二类参数的波动保持稳定，减少对用户的影响，提高服务端的运营效率和整体收益，减轻服务端的工作量，不会增加服务端的负担。而且，可以提供第二类参数的动态调整方式，可以最优化地实现参数调整，选择出更加精确的第二类参数。而且，可以在线实时动态调整第二类参数，不用人工配置第二类参数，能够减少人工劳动量，而且能够快速地响应线上数据的变化。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可以采用完全硬件实施例、完全软件实施例、或者结合软件和硬件方面的实施例的形式。而且，本申请可以采用在一个或者多个其中包含有计算机可用程序代码的计算机可用存储介质(可以包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种参数调整方法，其特征在于，所述方法包括：

根据执行结果更新所述动作对应的第一类参数；

在第二类时间周期，从所述动作集合中选择一个优选动作；

根据所述优选动作调整指定对象的第二类参数；

其中，所述第二类时间周期大于所述第一类时间周期。

2.根据权利要求1所述的方法，其特征在于，所述动作集合中的动作对应有被选中概率，所述从动作集合中选择一个动作的过程，具体包括：

确定所述动作集合中的每个动作对应的被选中概率；

利用每个动作对应的被选中概率，从所述动作集合中选择一个动作。

3.根据权利要求2所述的方法，其特征在于，所述利用每个动作对应的被选中概率，从所述动作集合中选择一个动作的过程，具体包括：

随机生成一个位于指定区间的数值；

若所述数值不大于预设阈值，利用预设算法从所述动作集合中选择一个动作；其中，所述预设算法用于使被选中概率越大的动作，被选择的概率越大；

若所述数值大于预设阈值，从所述动作集合中选择被选中概率最大的动作。

4.根据权利要求1所述的方法，其特征在于，所述动作集合中的动作对应有调整偏移量，所述执行所述动作的过程，具体包括：

根据所述动作对应的调整偏移量对所述第一类时间周期的虚拟资源信息进行调整，所述虚拟资源信息只作用在所述第一类时间周期；

利用调整后的虚拟资源信息对所述指定对象进行业务处理；

获取所述指定对象在所述第一类时间周期的收益指标变化量。

5.根据权利要求1所述的方法，其特征在于，所述第一类参数具体包括被选中概率和收益指标，所述执行结果具体包括收益指标变化量；

所述根据执行结果更新所述动作对应的第一类参数的过程，具体包括：

利用所述收益指标变化量更新所述动作对应的收益指标；

若所述收益指标变化量表示正向收益，则增加所述动作对应的被选中概率；

若所述收益指标变化量表示反向收益，则减少所述动作对应的被选中概率。

6.根据权利要求5所述的方法，其特征在于，所述增加所述动作对应的被选中概率或者所述减少所述动作对应的被选中概率之后，所述方法还包括：

对所述动作集合中的每个动作对应的被选中概率进行归一化处理，以使所述动作集合中的每个动作对应的被选中概率之和为预设数值。

7.根据权利要求1所述的方法，其特征在于，所述优选动作对应有调整偏移量，所述根据所述优选动作调整指定对象的第二类参数的过程，具体包括：

根据所述优选动作对应的调整偏移量对所述指定对象的第二类参数进行调整，其中，所述第二类参数作用在所述指定对象的业务处理过程。

8.根据权利要求7所述的方法，其特征在于，所述动作集合中的动作对应有收益指标和被选中概率，所述优选动作是动作集合中的被选中概率最大的动作；所述根据所述优选动作调整指定对象的第二类参数的过程，具体包括：

利用所述动作集合中的每个动作对应的收益指标，统计累积收益；

9.根据权利要求1所述的方法，其特征在于，所述动作集合中的动作对应有收益指标和被选中概率，所述根据所述优选动作调整指定对象的第二类参数之后，若参数调整过程未结束，则所述方法进一步包括：

将所述动作集合中的每个动作对应的收益指标重置为初始值；

将所述动作集合中的每个动作对应的被选中概率重置为初始值。

10.根据权利要求1-9任一项所述的方法，其特征在于，

所述指定对象具体包括商品类目；所述第二类参数具体包括虚拟资源信息，所述虚拟资源信息具体包括价格信息、折扣率信息。

11.一种参数调整装置，其特征在于，所述装置包括：

执行模块，用于执行所述动作；

其中，所述第二类时间周期大于所述第一类时间周期。

12.根据权利要求11所述的装置，其特征在于，所述动作集合中的动作对应有被选中概率；所述第一选择模块，具体用于在从动作集合中选择一个动作的过程中，确定所述动作集合中的每个动作对应的被选中概率，并利用每个动作对应的被选中概率，从所述动作集合中选择一个动作。

13.根据权利要求12所述的装置，其特征在于，

所述第一选择模块，具体用于在利用每个动作对应的被选中概率，从所述动作集合中选择一个动作的过程中，随机生成一个位于指定区间的数值；

14.根据权利要求11所述的装置，其特征在于，

所述动作集合中的动作对应有调整偏移量，所述执行模块，具体用于在执行所述动作的过程中，根据所述动作对应的调整偏移量对所述第一类时间周期的虚拟资源信息进行调整，所述虚拟资源信息只作用在所述第一类时间周期；

利用调整后的虚拟资源信息对所述指定对象进行业务处理；

15.根据权利要求11所述的装置，其特征在于，所述第一类参数具体包括被选中概率和收益指标，所述执行结果具体包括收益指标变化量；

所述更新模块，具体用于在根据执行结果更新所述动作对应的第一类参数的过程中，利用所述收益指标变化量更新所述动作对应的收益指标；

16.根据权利要求11所述的装置，其特征在于，

所述优选动作对应有调整偏移量，所述动作集合中的动作对应有收益指标和被选中概率，所述优选动作是动作集合中的被选中概率最大的动作；

所述调整模块，具体用于在根据所述优选动作调整指定对象的第二类参数的过程中，利用所述动作集合中的每个动作对应的收益指标，统计累积收益；

17.根据权利要求11所述的装置，其特征在于，

所述动作集合中的动作对应有收益指标和被选中概率，所述调整模块，还用于在根据所述优选动作调整指定对象的第二类参数之后，若参数调整过程未结束，则将所述动作集合中的每个动作对应的收益指标重置为初始值；将所述动作集合中的每个动作对应的被选中概率重置为初始值。