CN112836965B

CN112836965B - 压力调控方案的选取方法和装置

Info

Publication number: CN112836965B
Application number: CN202110146086.9A
Authority: CN
Inventors: 韦于思
Original assignee: Rajax Network Technology Co Ltd
Current assignee: Shanghai Hummingbird Instant Information Technology Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-04-25
Anticipated expiration: 2041-02-02
Also published as: CN112836965A

Abstract

本申请实施例提供了一种压力调控方案的选取方法和装置，以及一种计算机设备及计算机可读存储介质，涉及信息处理技术领域。该方法包括：预测从当前时刻到未来第一时间段内的长尾单量预测值；其中，所述长尾单量为超时完成的订单量；根据长尾单量、调控方案和收益值之间的关联关系，查找该长尾单量预测值对应执行各种备选调控方案第一时间段后所得收益值中的最大收益值；以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控；该技术方案可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。

Description

压力调控方案的选取方法和装置

技术领域

本申请涉及信息处理技术领域，具体而言，本申请涉及一种压力调控方案的选取方法和装置，以及一种计算机设备及计算机可读存储介质。

背景技术

目前，随着电子商务的快速发展，相关系统管理技术也是不断发展，以适应不同业务需求，以外卖订餐管理系统为例，如何科学地配置运力资源是尤为关键的，以外卖业务为例，外卖业务在午晚高峰单量会在短时间内产生爆发式增长，是平峰期单量的十数甚至数十倍。为了不造成平峰期运力浪费，一般不会严格按照高峰期单量配置全天骑手数，这样就会导致高峰期运力不足，而为了保证服务效率与质量，管理系统往往通过缩小商户服务半径，增加配送费，减少优惠活动等方法降低用户下单意愿，从而减少单量，以此减轻站点配送压力，从而保证剩余订单的及时履约，这种方式称为压力调控方案。

常规的压力调控方案选取主要是通过未配送单量与站点背单能力相除来判断站点压力，站点背单能力通过骑手平均背单能力与剩余骑手数相乘计算得出，管理系统内置多条规则，每条规则对应一种压力调控方案，在各时间点根据站点压力来决定是否启动何种压力调控方案。

上述压力调控方案的选取方案，由于对所有站点采用相同规则策略，所选取的压力调控方案往往无法匹配不同场景下需求，导致压力调控效果较差。

发明内容

本申请提供了一种压力调控方案的选取方法和装置，以及一种计算机设备及计算机可读存储介质，该技术方案如下所示：

第一方面，本申请提供了一种压力调控方案的选取方法，该方法包括：

预测从当前时刻到未来第一时间段内的长尾单量预测值；其中，所述长尾单量为超时完成的订单量；

根据长尾单量、调控方案和收益值之间的关联关系，查找该长尾单量预测值对应执行各种备选调控方案第一时间段后所得收益值中的最大收益值；

以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控。

在一个实施例中，所述收益值依据完成单量、长尾单量和收益函数计算得到；

其中，所述收益函数等于完成单量/长尾单量，所述完成单量为未超时完成的订单量。

在一个实施例中，所述预测从当前时刻到未来第一时间段内的长尾单量预测值，包括：

依据单量类、影响因素类和站点画像类的特征建立机器学习模型，对所述机器学习模型进行训练得到长尾单量预测模型；

利用所述长尾单量预测模型预测从当前时刻到未来第一时间段内的长尾单量预测值。

在一个实施例中，以设定的时间片统计过去的第二时间段内各个时间片的订单数量、完成单量及长尾单量；

上一个短统计周期相同时刻的第一时间段的长尾单量和完成单量；

以及上一个长统计周期同时期的第一时间段的长尾单量和完成单量；

所述影响因素类特征包括：未来第一时间段的天气数据和/或交通流量数据；

所述站点画像类特征包括：站点活跃骑手数和商圈ID。

在一个实施例中，所述方法还包括：利用所述Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系；

其中，Q(S,A)取值为执行第一时间段后的收益值，S取值为长尾单量预测值，A为执行的调控方案。

在一个实施例中，所述利用所述Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系，包括：

建立强化学习Q表格；

将长尾单量预测值以设定间隔离散化为多个区间；

以各个区间为S状态填入Q表格，以各个备选调控方案为A动作填入Q表格，以收益值Q(S,A)为收益填入Q表格。

在一个实施例中，所述将长尾单量预测值以设定间隔离散化为多个区间之前，还包括：

在发生压力调控时，记录已执行的调控方案及其收益值；

根据所述已执行的调控方案及其收益值的运算规则，将所述调控方案及其收益值填入Q表格，对Q表格进行初始化。

在一个实施例中，所述的方法还包括：

在执行所述目标调控方案第一时间段后，依据所述收益函数以及在该第一时间段内实际完成的长尾单量和完成单量计算实际收益值，并根据该实际收益值对所述Q表格进行更新。

在一个实施例中，所述根据该实际收益值对所述Q表格进行更新的步骤，包括：

其中，Q(S,A)表示返回Q表格中在长尾单量预测值为S的情况下的历史收益最高的压力调控方案A；max(Q(S',a))表示返回历史中状态S'时最高收益动作，S'表示执行Q(S,A)函数第一时间段后的新长尾单预测值，α为学习率，γ为折扣率。

在一个实施例中，所述的方法还包括：

将所述短统计周期内的收益进行累加得到累加收益值，当所述累加收益值上下浮动不超过设定比例阈值时，停止对所述Q表格进行更新。

在一个实施例中，所述设定时间片为10分钟，所述第二时间段为1个小时，所述短统计周期为1天，所述长统计周期为1个星期。

第二方面，本申请提供了一种压力调控方案的选取装置，该装置包括：

预测模块，用于预测从当前时刻到未来第一时间段内的长尾单量预测值；其中，所述长尾单量为超时完成的订单量；

查找模块，用于根据长尾单量、调控方案和收益值之间的关联关系，查找该长尾单量预测值对应执行各种备选调控方案第一时间段后所得收益值中的最大收益值；

选择模块，用于以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控。

在一个实施例中，所述预测模块包括：

模型训练单元，用于依据单量类、影响因素类和站点画像类的特征建立机器学习模型，对所述机器学习模型进行训练得到长尾单量预测模型；

长尾单量预测单元，利用所述长尾单量预测模型预测从当前时刻到未来第一时间段内的长尾单量预测值。

在一个实施例中，所述单量类特征包括：

以设定的时间片统计过去的第二时间段内各个时间片的订单数量、完成单量及长尾单量；

所述站点画像类特征包括：站点活跃骑手数和商圈ID。

在一个实施例中，所述的装置还包括：Q表格记录模块，用于利用所述Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系；

在一个实施例中，所述Q表格记录模块包括：

Q表格生成单元，用于建立强化学习Q表格；

预测值离散化单元，用于将长尾单量预测值以设定间隔离散化为多个区间；

Q表格写入单元，用于以各个区间为S状态填入Q表格，以各个备选调控方案为A动作填入Q表格，以收益值Q(S,A)为收益填入Q表格。

在一个实施例中，所述Q表格生成单元与预测值离散化单元之间还包括：

Q表格初始化单元，用于在发生压力调控时，记录已执行的调控方案及其收益值；根据所述已执行的调控方案及其收益值的运算规则，将所述调控方案及其收益值填入Q表格，对Q表格进行初始化。

在一个实施例中，所述Q表格记录模块之后，还包括：

Q表格更新模块，用于在执行所述目标调控方案第一时间段后，依据所述收益函数以及在该第一时间段内实际完成的长尾单量和完成单量计算实际收益值，并根据该实际收益值对所述Q表格进行更新。

在一个实施例中，所述Q表格更新模块，用于对所述Q表格进行更新的功能，包括：

在一个实施例中，所述Q表格更新模块之后，还包括：

Q表格维持模块，用于将所述短统计周期内的收益进行累加得到累加收益值，当所述累加收益值上下浮动不超过设定比例阈值时，停止对所述Q表格进行更新。

第三方面，本申请提供了一种计算机设备，该计算机设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行根据第一方面所示的压力调控方案的选取方法所对应的操作。

第四方面，本申请提供了一种计算机可读存储介质，存储介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的压力调控方案的选取方法。

本申请提供的技术方案带来的有益效果是：

与现有技术相比，本申请通过预测从当前时刻到未来第一时间段的长尾单量预测值，根据长尾单量、调控方案和收益值之间的关联关系，查找该长尾单量预测值对应执行各种备选调控方案第一时间段后所得收益值中的最大收益值；并以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控；该技术方案可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。

进一步的，依据单量类、影响因素类和站点画像类的特征建立机器学习模型，并以此来训练长尾单量预测模型和完成单量预测模型；机器学习模型通过引入站点画像等特征，从而可以为不同站点在多个场景下准备不同的压力调控策略；而且机器学习模型可以引入数倍于规则的特征数量，也可以摆脱人工编辑在规则变量数及条目数上的限制。

更进一步的，通过建立强化学习Q表格，结合定义的收益函数，让系统可以自动迭代优化在不同场景下的压力调控动作，解决了常规技术中的通过观测调控结果来调整规则所导致的迭代慢的缺陷。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1是一个实施例的压力调控方案的选取方法流程图；

图2是长尾单量和完成单量关系示意图；

图3是一实施例的获取长尾单量预测值和完成单量预测值流程图；

图4是一实施例的长尾单量预测模型机器学习模型训练过程示意图；

图5是一实施例的完成单量预测模型机器学习模型训练过程示意图；

图6是强化学习选取压力调控方案流程图；

图7为建立Q表格流程图；

图8是一个示例的压力调控方案选取流程图；

图9是一实施例提的压力调控方案的选取装置结构示意图；

图10是另一实施例提的压力调控方案的选取装置结构示意图；

图11为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在电商平台系统中，为了不造成平峰期运力浪费,也为了保证服务效率与质量,系统通过压力调控方案来减少订单量，以保证剩余订单的及时履约。所指的压力调控方案:即通过临时性的收缩商户服务范围，下架优惠券，提升配送费等降低用户下单意愿，并以此减轻站点配送压力。

当前系统通过人工编写规则对压力进行调控，满足不同规则时执行不同的压力调控方案，如“雨天,xx时间段，压力系数高于xxx执行提升配送费2元”，其中压力系数通过“当前未配送订单/(站点当前骑手数*骑手背单能力)”可以计算得出，由于规则中各指标区间范围及执行艳丽调控动作均由人工通过经验编写，设计指标有限，且区间范围不够细致，无法反映规则与调控动作的必然关联，经年累月形成的规则数量庞大，前后的关联性导致牵一发而动全身，改变一类规则往往涉及数十行甚至全文件数百行规则的改写；只能通过观察调控的执行效果手动优化规则，无法通过自动优化进行快速迭代；常规的压力调控方案通过未配送单量与站点背单能力相除来判断站点压力，系统对所有站点采用相同规则策略,内置多条规则,在各时间点根据站点压力来决定是否启动何种压力调控方案，无法做到定制化的调控。

基于此，本申请提供一种压力调控方案的选取方法，参考图1，图1是一个实施例的压力调控方案的选取方法流程图，该方法包括：

S10，预测从当前时刻到未来第一时间段内的长尾单量预测值；其中，所述长尾单量为超时完成的订单量。

对于长尾单量，本申请一实施例中，定义为超时完成的订单量，完成单量定义为未超时完成的订单量；假设以1个小时作为时间界限，在1个小时内完成的订单可以认为是未超时的完成单量，对于超出1小时的属于长尾单量。

本实施例中，对于站点来说，在步骤S10中通过预测站点未来在一定时间段内的长尾单量，长尾单量是指超时完成的订单量；参考图2，图2是长尾单量和完成单量关系示意图，长尾单量和完成单量是互相制约的两个订单量，长尾单量越多，收益越多，同时也会影响完成单量的数据，基于此约束下，通过预测当前时刻到未来一段时间内的长尾单量预测值。

S20，根据长尾单量、调控方案和收益值之间的关联关系，查找该长尾单量预测值对应执行各种备选调控方案第一时间段后所得收益值中的最大收益值。

具体的，长尾单量、调控方案和收益值之间存在关联关系，可以通过列表形式来记录这种关联关系，对于任意长尾单量来说，其在执行不同的调控方案下，都对应有一个收益值，而对于采用任意计算方法得到的收益值，在选择调控方案是，目标都是查找收益最大的调控方案。

在步骤S20中，可以根据长尾单量和完成单量来定义收益函数，收益函数反应了在一段统计时间内，长尾单量和完成单量预测值之间形成某种特定关系时，可以得到最高的收益值。

S30，以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控。

在步骤S30中，是针对于长尾单量预测值来进行优化调整，从而选择到一个收益最优的压力调控方案来对站点进行压力调控。

综上所述，本实施例的技术方案可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。

为了更加清晰本申请的技术方案，下面结合优选实施例进一步进行阐述。

在一个实施例中，为了更好地长尾单量预测值和完成单量，可以引入机器学习模型的方法，通过引入多种特征为不同站点在多个场景下准备不同的压力调控策略，据此，参考图3所示，图3是一实施例的获取长尾单量预测值流程图，步骤S10具体可以包括如下：

S110，依据单量类、影响因素类和站点画像类的特征建立机器学习模型，对所述机器学习模型进行训练得到长尾单量预测模型。

此步骤中，结合了单量类、影响因素类和站点画像类的特征，特别是通过引入站点画像类的特征，可以充分描述站点的个性化特性。

S120，利用所述长尾单量预测模型预测从当前时刻到未来第一时间段内的长尾单量预测值。

如果将规则中的变量视作特征,机器学习模型可以引入数倍于规则的特征数量，从而可以摆脱人工编辑在规则变量数及条目数上的限制。

对于上述实施例中所引入的单量类、影响因素类和站点画像类等特征，可以进一步将相关特征限定为如下：

A.对于单量类特征，可以包括：

以设定时间片统计第二时间段内各个所述设定时间片的订单数量、完成单量及长尾单量；上一个短统计周期相同时刻的第一时间段的长尾单量和完成单量；以及上一个长统计周期同时期的第一时间段的长尾单量和完成单量。

对于单量类，主要是考虑了总的订单数量，完成单量和长尾单量，在统计的过程当中，通过时间片能够将统计时间范围分割成小段，从而可以更加精细化的对单量进行处理，通过短统计周期和长统计周期(短统计周期可以为1天，长统计周期可以为1个星期)，也可以将实时得到的长尾单量和完成单量与历史时期进行同比，从而可以更加清晰地反应了单量情况。

B.对于影响因素类特征，可以包括：未来第一时间段的天气数据和/或交通流量数据。

对于天气数据，主要是影响了骑手背单的不良天气，对于交通流量数据，主要是早晚高峰，或者堵塞等其他交通条件因素。

C.对于站点画像类特征包括：站点活跃骑手数和商圈ID。

其中站点活跃骑手数代表了站点的背单能力，商圈ID代表了业务所能覆盖的区域。

基于上述实施例，下面阐述一个应用示例，在本示例中，建立两个机器学习模型分别预测未来m分钟内的长尾单量及完成单量，参考图4，图4是一实施例的长尾单量预测模型机器学习模型训练过程示意图。

一、长尾单模型特征及标签：

(1)单量类：

【1】以10分钟为时间片统计过去1小时内各时间片订单入单量、完成单量及长尾单量；

【2】昨日同时刻m分钟内长尾单量；

【3】上周同期m分钟内长尾单量；

(2)天气类：

【1】未来m分钟天气数据，如平均降雨量，平均温度，平均PM 2.5等；

(3)站点画像类：

【1】站点活跃骑手数；

【2】商圈ID；

标签：未来m分钟内的长尾单量。

参考图5，5是一实施例的完成单量预测模型机器学习模型训练过程示意图。

二、完成单模型特征及标签：

(1)单量类：

【2】昨日同时刻m分钟内完成单量；

【3】上周同期m分钟内长完成单量；

(2)天气类：

【1】未来m分钟天气数据,如平均降雨量,平均温度,平均PM 2.5等；

(3)站点画像类：

【1】站点活跃骑手数；

【2】商圈ID；

标签：未来m分钟内的完成单量。

通过上述技术方案，利用机器学习模型可以引入站点画像等特征，为对不同站点在多个场景下准备不同的压力调控方案提供了良好技术基础。

在一个实施例中，在利用了及其学习模型进行预测基础上，还可以通过进一步结合强化学习来对压力调控方案进行选取。

据此，本申请的技术方案中可以利用Q表格来记录长尾单量、调控方案、收益值及其相互之间的关联关系；其中，Q(S,A)取值为执行第一时间段后的收益值，S取值为长尾单量预测值，A为执行的调控方案。

对于Q表格应用过程，首先建立强化学习Q表格；然后将长尾单量预测值以设定间隔离散化为多个区间；再以各个区间为S状态填入Q表格，以各个备选调控方案为A动作填入Q表格，以收益值Q(S,A)为收益填入Q表格。

另外，在发生压力调控时，记录已执行的调控方案及其收益值；根据所述已执行的调控方案及其收益值的运算规则，将所述调控方案及其收益值填入Q表格，对Q表格进行初始化。

参考图6，图6是强化学习选取压力调控方案流程图，该方法中利用了Q表格，步骤S30包括如下：

S310，根据所述长尾单量预测值和压力调控方案建立强化学习Q表格。

作为实施例，参考图7，图7为建立Q表格流程图，可以包括如下：

1)在发生压力调控时，记录所述长尾单量预测模型实时输出的长尾单量预测值、压力调控测量及收益值。

2)将所述长尾单量预测值以若干个订单量为间隔离散化为多个长尾单预测单量区间。

3)依据每次长尾单量预测单量区间与压力调控方案建立Q表格。

上述技术方案中，是利用现有的规则和已执行的调控方案及其收益值情况来初始化Q表格。

具体的，在发生压力调控时，记录机器学习模型长尾单预测结果、压力调控方案及收益值，将长尾单量的预测结果以10单为间隔离散化为多个区间，通过每次长尾单预测单量区间与执行的压力调控方案建立Q表格；其中，Q(S,A)对应值为执行调控方案m分钟后收益函数计算结果，S为长尾单预测单量区间，A为执行的调控方案；定义收益表示R函数，则收益值＝m分钟内的完成单量/m分钟内的长尾单量。

S320，根据实时预测的未来设定时间后的长尾单量预测值对所述Q表格进行更新，在所述Q表格中查找收益最高的压力调控方案。

此步骤中，通过在预测一定时间后的长尾单量后更新Q表格，结合利用Q表格来找到最优压力调控方案。

对于更新Q表格所设计的计算公式，包括如下：

具体的，为避免陷入局部最优，在Q表格寻找最高收益中，保持p％的概率随机选择其他压力调控方案，比如，R函数设置10％概率随机返回其他非最高收益动作，R函数返回本次执行压力调控方案后的实际收益，也就是执行调整方案m分钟后“m分钟完成单量”与“m分钟长尾单量”相除的结果.

该方案中，学习率α越大，Q表格中的训练结果作用越小，折扣率γ越大，越重视眼下收益，过往经验中带来的收益越被轻视。

在一个实施例中，在执行目标调控方案第一时间段后，还可以依据收益函数以及在该第一时间段内实际完成的长尾单量和完成单量计算实际收益值，并根据该实际收益值对所述Q表格进行更新。

本实施例的技术方案，通过不断更新Q表格，使得选取的调控方案始终是最优方案，从而确保每次选择调控方案是最优的。

具体实现中，可以将短统计周期内的收益进行累加得到累加收益值，并在当累加收益值上下浮动不超过设定比例阈值时，停止对Q表格进行更新；由于一般系统都是以一天订单量来进行处理，因此将全天收益累加，当结果上下浮动小于t％时Q表格接近收敛，此时可以不再更新Q表格，采用收益最高的压力调控方案。

参考图8，图8是一个示例的压力调控方案选取流程图，该流程可以分为三个阶段：模型预测、Q表格建立和Q表格更新；结合该图流程，下面列举两个例子进行阐述。

首先，对Q表格初始化：即根据现有规则整理后填入Q表格，S表示长尾单量，A表示对应的调控动作。

示例中假设长尾单量离散为包括3个长尾单量区间S1-S3，及对应的3个调整方案的动作A1-A3，则Q表格初始化后如下：

	A1(无动作)	A2(提高2元配送费)	A3(提高5元配送费)
				S1(0～10长尾单量)	60	20	1
S2(11～20长尾单量)	30	40	10
				S3(21～30长尾单量)	10	0	0

例1：

(1)利用长尾单量预测模型预测m分钟后有8单长尾单，对应状态状态S1区间，Q表格中收益值最高的动作为A1，即目标调整方案选择无动作，不执行调控。

(2)m分钟后统计m分钟内实际的完成单量与长尾单量，利用收益函数将两者相除后得出实际收益，然后利用实际收益更新Q表格(S1，A1)对应收益值。

例2：

(1)长尾单量预测模型预测m分钟后有28单长尾单，对应状态状态S3，按照Q表格选择收益值最高，本应执行动作A1，不执行调控，为了避免局部最优，设置有p％概率随机选择一个动作执行，假设在此选择了执行动作A3，即目标调控方案为提高5元配送费。

(2)m分钟后，统计m分钟内实际的完成单量与长尾单量，根据收益函数将两者相除后得出实际收益，假设为20，说明Q表格原纪录的方案不是全局最优，因此更新Q表格(S3,A3)，将(S3,A3)修改为20。

基于上述例子可以看出，随着Q表格不断进行更新，使得调控方案的策略不断得到强化，在后续遇到类似场景时，优先选择执行A3动作，从而使得所选择的调控方案最优化。

通过图中流程，可以形成一个循环，不断选择到收益最高的压力控制方案。

本申请实施例的技术结合机器学习与强化学习对压力调控方案选取进行了优化，在实际应用中具有以下优点：

(1)相对于常规方法对所有站点采用相同规则策略，无法做到定制化的调控，本申请通过机器学习模型，可以引入站点画像等特征为不同站点在多个场景下准备不同的调控策略。

(2)通过设立收益目标，让系统可以自动迭代优化在不同场景下的调控动作，解决人工通过观测调控结果调整规则的迭代慢问题。

(3)过机器学习建模结合强化学习突破人工制定规则的瓶颈，机器学习模型可以引入数倍于规则的特征数量，摆脱了人工编辑在规则变量数及条目数上的限制，使系统可以结合多个场景为各站点定制化生成调控手段，并自动优化。

上述实施例阐述了压力调控方案的选取方法，下述阐述基于本申请提供的方法所对应的虚拟装置的实施例，具体如下：

本申请实施例的一种可能的实现方式，结合了单量类、影响因素类和站点画像类的特征，特别是通过引入站点画像类的特征，可以充分描述站点的个性化特性。将规则中的变量视作特征，机器学习模型可以引入数倍于规则的特征数量，从而可以摆脱人工编辑在规则变量数及条目数上的限制。

A.对于单量类特征，可以包括：

C.对于站点画像类特征包括：站点活跃骑手数和商圈ID。

本申请的技术方案中可以利用Q表格来记录长尾单量、调控方案、收益值及其相互之间的关联关系；其中，Q(S,A)取值为执行第一时间段后的收益值，S取值为长尾单量预测值，A为执行的调控方案。

其中，建立Q表格流程可以包括如下：

通过在预测一定时间后的长尾单量后更新Q表格，结合利用Q表格来找到最优压力调控方案。

通过上述实施例可以发现，与现有技术相比，本申请的压力调控方案的选取装置，可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。而且，依据单量类、影响因素类和站点画像类的特征建立机器学习模型，并以此来训练长尾单量预测模型和完成单量预测模型；机器学习模型通过引入站点画像等特征，从而可以为不同站点在多个场景下准备不同的压力调控策略；而且机器学习模型可以引入数倍于规则的特征数量，也可以摆脱人工编辑在规则变量数及条目数上的限制。再者，通过建立强化学习Q表格，结合定义的收益函数，让系统可以自动迭代优化在不同场景下的压力调控动作，解决了常规技术中的通过观测调控结果来调整规则所导致的迭代慢的缺陷。

本实施例的压力调控方案的选取装置可执行本公开的实施例所提供的一种压力调控方案的选取方法，其实现原理相类似，本公开各实施例中的压力调控方案的选取装置中的各模块所执行的动作是与本公开各实施例中的压力调控方案的选取方法中的步骤相对应的，对于压力调控方案的选取装置的各模块的详细功能描述具体可以参见前文中所示的对应的压力调控方案的选取方法中的描述，此处不再赘述。

参考图9，图9是一实施例提的压力调控方案的选取装置结构示意图，包括：

预测模块10，用于预测从当前时刻到未来第一时间段内的长尾单量预测值；其中，所述长尾单量为超时完成的订单量；

查找模块20，用于根据长尾单量、调控方案和收益值之间的关联关系，查找该长尾单量预测值对应执行各种备选调控方案第一时间段后所得收益值中的最大收益值；

选择模块30，用于以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控。

本申请的技术方案，可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。

下面结合附图阐述本申请的压力调控方案的更多实施例，参考图10，图10是另一实施例提的压力调控方案的选取装置结构示意图。

在一个实施例中，所述预测模块10包括：

模型训练单元110，用于依据单量类、影响因素类和站点画像类的特征建立机器学习模型，对所述机器学习模型进行训练得到长尾单量预测模型；

长尾单量预测单元120，利用所述长尾单量预测模型预测从当前时刻到未来第一时间段内的长尾单量预测值。

在一个实施例中，所述单量类特征包括：

所述站点画像类特征包括：站点活跃骑手数和商圈ID。

在一个实施例中，所述的装置还包括：Q表格记录模块40，用于利用所述Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系；

在一个实施例中，所述Q表格记录模块40包括：

Q表格生成单元410，用于建立强化学习Q表格；

预测值离散化单元420，用于将长尾单量预测值以设定间隔离散化为多个区间；

Q表格写入单元430，用于以各个区间为S状态填入Q表格，以各个备选调控方案为A动作填入Q表格，以收益值Q(S,A)为收益填入Q表格。

在一个实施例中，所述Q表格生成单元410与预测值离散化单元420之间还包括：

Q表格初始化单元440，用于在发生压力调控时，记录已执行的调控方案及其收益值；根据所述已执行的调控方案及其收益值的运算规则，将所述调控方案及其收益值填入Q表格，对Q表格进行初始化。

在一个实施例中，所述Q表格记录模块40之后，还包括：

Q表格更新模块50，用于在执行所述目标调控方案第一时间段后，依据所述收益函数以及在该第一时间段内实际完成的长尾单量和完成单量计算实际收益值，并根据该实际收益值对所述Q表格进行更新。

在一个实施例中，所述Q表格更新模块50，用于对所述Q表格进行更新的功能，包括：

在一个实施例中，所述Q表格更新模块50之后，还包括：

Q表格维持模块60，用于将所述短统计周期内的收益进行累加得到累加收益值，当所述累加收益值上下浮动不超过设定比例阈值时，停止对所述Q表格进行更新。

上面从功能模块化的角度对本申请实施例提供的压力调控方案的选取装置进行介绍，接下来，将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍，并同时对计算机设备的计算系统进行介绍。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种计算机设备，该计算机设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的压力调控方案的选取方法。与现有技术相比，本申请中的压力调控方案的选取方法可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。

在一个可选实施例中提供了一种计算机设备，如图11所示，图11所示的计算机设备1100包括：处理器1101和存储器1103。其中，处理器1101和存储器1103相连，如通过总线1102相连。可选地，计算机设备1100还可以包括收发器1104。需要说明的是，实际应用中收发器1104不限于一个，该计算机设备1100的结构并不构成对本申请实施例的限定。

处理器1101可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1101也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1102可包括一通路，在上述组件之间传送信息。总线1102可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1102可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1103可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1103用于存储执行本申请方案的应用程序代码，并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，计算机设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的计算机设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的压力调控方案的选取方法可以做到定制化的压力调控，所选取的压力调控方案能适应不同场景需求，提升了压力调控效果。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述计算机设备中所包含的；也可以是单独存在，而未装配入该计算机设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该计算机设备执行时，使得该计算机设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种压力调控方案的选取方法，其特征在于，包括：

以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控；

还包括：利用Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系；

其中，Q(S,A)取值为执行第一时间段后的收益值，S取值为长尾单量预测值，A为执行的调控方案；

还包括：

在执行所述目标调控方案第一时间段后，依据所述收益函数以及在该第一时间段内实际完成的长尾单量和完成单量计算实际收益值，并根据该实际收益值对所述Q表格进行更新；

所述根据该实际收益值对所述Q表格进行更新的步骤，包括：

2.根据权利要求1所述的方法，其特征在于，所述收益值依据完成单量、长尾单量和收益函数计算得到；

3.根据权利要求1所述的方法，其特征在于，所述预测从当前时刻到未来第一时间段内的长尾单量预测值，包括：

4.根据权利要求1所述的方法，其特征在于，所述单量类特征包括：

所述站点画像类特征包括：站点活跃骑手数和商圈ID。

5.根据权利要求1所述的方法，其特征在于，所述利用所述Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系，包括：

建立强化学习Q表格；

将长尾单量预测值以设定间隔离散化为多个区间；

6.根据权利要求5所述的方法，其特征在于，所述将长尾单量预测值以设定间隔离散化为多个区间之前，还包括：

在发生压力调控时，记录已执行的调控方案及其收益值；

7.根据权利要求1所述的方法，其特征在于，还包括：

8.根据权利要求1所述的方法，其特征在于，所述设定时间片为10分钟，所述第二时间段为1个小时，所述短统计周期为1天，所述长统计周期为1个星期。

9.一种压力调控方案的选取装置，其特征在于，包括：

选择模块，用于以所述最大收益值对应的备选调控方案为目标调控方案，依据该目标调控方案进行压力调控；

还包括：Q表格记录模块，用于利用Q表格记录所述长尾单量、调控方案、收益值及其相互之间的关联关系；

所述Q表格记录模块之后，还包括：

所述Q表格更新模块，用于对所述Q表格进行更新的功能，包括：

10.根据权利要求9所述的装置，其特征在于，所述收益值依据完成单量、长尾单量和收益函数计算得到；

11.根据权利要求9所述的装置，其特征在于，所述预测模块包括：

12.根据权利要求9所述的装置，其特征在于，所述单量类特征包括：

所述站点画像类特征包括：站点活跃骑手数和商圈ID。

13.根据权利要求9所述的装置，其特征在于，所述Q表格记录模块包括：

Q表格生成单元，用于建立强化学习Q表格；

14.根据权利要求13所述的装置，其特征在于，所述Q表格生成单元与预测值离散化单元之间还包括：

15.根据权利要求9所述的装置，其特征在于，所述Q表格更新模块之后，还包括：

16.根据权利要求15所述的装置，其特征在于，所述设定时间片为10分钟，所述第二时间段为1个小时，所述短统计周期为1天，所述长统计周期为1个星期。

17.一种计算机设备，其特征在于，其包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至8任一项所述的压力调控方案的选取方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的压力调控方案的选取方法。