CN111523802A

CN111523802A - 送达时间应答方法、装置、设备及介质

Info

Publication number: CN111523802A
Application number: CN202010323917.0A
Authority: CN
Inventors: 刘洋; 黄倩; 韩宇光
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-11
Anticipated expiration: 2040-04-22
Also published as: CN111523802B

Abstract

本发明实施例提供一种送达时间应答方法、装置、设备及介质。该方法包括：接收客户端发送的关于目标货物的送达时间查询请求；响应于该送达时间查询请求，通过强化学习模型确定目标货物的目标送达时间，其中，该强化学习模型用于确定在目标货物对应的配送条件下，采用多个送达时间中各个送达时间所取得的累积满意度，该目标送达时间为与累积满意度对应的送达时间；向客户端推送该目标送达时间，以使客户端显示该目标送达时间。根据本发明实施例中的技术方案，能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

Description

送达时间应答方法、装置、设备及介质

技术领域

本发明涉及机器学习技术领域，尤其涉及一种送达时间应答方法、装置、设备及介质。

背景技术

随着物流技术的快速发展，物流公司需要配送的货物量也越来越多。物流公司在配送货物之前，一般会给用户一个预计送达的时间，让用户有所准备，因此，如何预测货物的送达时间成为了关注的焦点。

在一种技术方案中，通过业务规则来预测货物的送达时间，例如，针对目标城市，当日上午11:00前提交的现货订单，当日送达；夜里11:00前提交的现货订单，次日15:00前送达。然而，由于送达时间往往是由很多种不同因素决定的，例如收货地点位置、天气、货量、交通等因素，因此，这种通过业务规则目标送达时间的技术方案，没有考虑到上述各种因素，导致难以得到一个合理准确的送达时间。

因此，如何合理准确地目标送达时间成为了亟待解决的技术问题。

发明内容

本发明实施例提供一种送达时间应答方法、装置、设备及介质，用以解决如何合理准确地目标送达时间成为了亟待解决的技术问题的问题。

本发明实施例的第一方面，本发明实施例提供一种送达时间应答方法，包括：

接收客户端发送的关于目标货物的送达时间查询请求；

响应于所述送达时间查询请求，通过强化学习模型确定所述目标货物的目标送达时间，其中，所述强化学习模型用于确定在所述目标货物对应的配送条件下，采用多个送达时间中各个送达时间所取得的累积满意度，所述目标送达时间为与所述累积满意度对应的送达时间；

向所述客户端推送所述目标送达时间，以使所述客户端显示所述目标送达时间。

在本发明的一些实施例中，所述响应于所述送达时间查询请求，通过强化学习模型确定所述目标货物的目标送达时间，包括：

根据所述送达时间查询请求，确定所述目标货物所属批次货物的配送条件特征；

根据所述配送条件特征，通过所述强化学习模型确定采用送达时间集合中各个送达时间所取得的多个累积满意度；

将所述多个累积满意度中最大累积满意度对应的送达时间，作为所述目标货物的所述目标送达时间。

在本发明的一些实施例中，所述方法还包括：

从历史货物配送信息中获取多个样本数据，所述样本数据包含相邻两个批次货物的配送条件信息；

从所述样本数据的配送条件信息中提取各个批次货物的配送条件特征；

确定所述样本数据中在先批次货物的送达时间，所述送达时间为送达时间集合中的一个元素；

基于各个样本数据对应的所述配送条件特征以及所述送达时间对所述强化学习模型进行训练，

其中，所述强化学习模型用于确定所述批次货物在对应的配送条件特征下，采用所述送达时间集合中各个送达时间所取得的累积满意度。

在本发明的一些实施例中，所述累积满意度包含多个满意度，每个所述满意度包含送达率对应的满意度以及送达时间对应的满意度。

在本发明的一些实施例中，所述方法还包括：

通过以所述送达率为自变量的二次函数，确定所述送达率对应的满意度；以及

通过分段函数来确定所述送达时间对应的满意度。

在本发明的一些实施例中，设p为所述送达率，a为所述送达时间，所述送达率对应的满意度为f(p)，则所述通过以所述送达率为自变量的二次函数，确定所述送达率对应的满意度，包括：

通过下式表示所述f(p)：

f(p)＝αp²+β，α＞0；

设所述送达时间对应的满意度为g(a)，则所述通过分段函数来确定所述送达时间对应的满意度，包括：通过下式来确定所述送达时间对应的满意度：

g(a)＝θ，a≤a_thre，g(a)＝w(a-a_thre)+θ，w＜0；

其中，α、β为根据送达率和送达时间确定的经验值，θ、a_thre以及w为根据送达时间确定的经验值；

设所述满意度为r(s，a)，则通过下式确定所述满意度：

r(s，a)＝f(p)+g(a)，

其中，所述r(s，a)表示在配送条件特征为s的情况下，采用送达时间a所获得的满意度。

在本发明的一些实施例中，所述强化学习模型为深度Q网络DQN模型，所述基于各个样本数据对应的所述配送条件特征以及所述送达时间对所述强化学习模型进行训练，包括：

将各个样本数据对应的所述配送条件特征以及所述送达时间输入所述强化学习模型，确定对应的损失函数；

基于所述损失函数，通过策略梯度下降的方式对所述强化学习模型进行训练。

在本发明的一些实施例中，所述确定所述样本数据中在先批次货物的送达时间，包括：

确定所述两个相邻批次货物中在先批次货物的各个货物的送达时间；

基于各个货物的送达时间，确定所述在先批次货物中预定比例的货物均成功送达的时间；

从所述送达时间集合中选取与所述时间对应的目标时间，将所述目标时间作为所述在先批次货物的送达时间。

在本发明的一些实施例中，所述从所述样本数据的配送条件信息中提取各个批次货物的配送条件特征，包括：

从所述样本数据中确定各个批次货物对应的配送条件信息；

确定所述配送条件信息中的连续取值的信息项以及非连续取值的信息项；

对所述非连续取值的信息项进行独热编码；

基于连续取值的信息项的值以及所述独热编码的值，生成所述批次货物的配送特征向量。

在本发明的一些实施例中，所述方法还包括：

获取线上使用经离线训练的强化学习模型的过程中产生的线上货物配送信息；

从所述线上货物配送信息中获取多个线上样本数据，所述线上样本数据包含相邻两个批次货物的配送条件信息；

从所述线上样本数据的配送条件信息中提取各个批次货物的线上配送条件特征；

获取所述经离线训练的强化学习模型预测的所述线上样本数据中在先批次货物的目标送达时间；

基于各个所述线上样本数据对应的线上配送条件特征以及所述目标送达时间，对所述强化学习模型进行在线训练。

本发明实施例的第二方面，提供了一种送达时间应答装置，包括：

请求接收模块，用于接收客户端发送的关于目标货物的送达时间查询请求；

送达时间预测模块，用于响应于所述送达时间查询请求，通过强化学习模型确定所述目标货物的目标送达时间，其中，所述强化学习模型用于确定在所述目标货物对应的配送条件下，采用多个送达时间中各个送达时间所取得的累积满意度，所述目标送达时间为与所述累积满意度对应的送达时间；

推送模块，用于向所述客户端推送所述目标送达时间，以使所述客户端显示所述目标送达时间。

在本发明的一些实施例中，所述送达时间预测模块包括：

配送条件特征确定单元，用于根据所述送达时间查询请求，确定所述目标货物所属批次货物的配送条件特征；

累积满意度确定单元，用于根据所述配送条件特征，通过所述强化学习模型确定采用送达时间集合中各个送达时间所取得的多个累积满意度；

时间确定单元，用于将所述多个累积满意度中最大累积满意度对应的送达时间，作为所述目标货物的所述目标送达时间。

在本发明的一些实施例中，所述装置还包括：

样本获取模块，用于从历史货物配送信息中获取多个样本数据，所述样本数据包含相邻两个批次货物的配送条件信息；

特征提取模块，用于从所述样本数据的配送条件信息中提取各个批次货物的配送条件特征；

送达时间确定模块，用于确定所述样本数据中在先批次货物的送达时间，所述送达时间为送达时间集合中的一个元素；

模型训练模块，用于基于各个样本数据对应的所述配送条件特征以及所述送达时间对强化学习模型进行训练，

在本发明的一些实施例中，所述装置还包括：

满意度确定模块，用于通过以所述送达率为自变量的二次函数，确定所述送达率对应的满意度；以及通过分段函数来确定所述送达时间对应的满意度。

在本发明的一些实施例中，设p为所述送达率，a为所述送达时间，所述送达率对应的满意度为f(p)，则所述满意度确定模块还具体用于：

通过下式表示所述f(p)：

f(p)＝αp²+β，α＞0；

设所述送达时间对应的满意度为g(a)，则所述满意度确定模块还具体用于：通过下式来确定所述送达时间对应的满意度：

g(a)＝θ，a≤a_thre，g(a)＝w(a-a_thre)+θ，w＜0；

其中，α、β为根据送达率和送达时间确定的经验值，θ、a_thre以及w为根据送达时间确定的经验值。

设所述满意度为r(s，a)，则所述满意度确定模块还具体用于：

通过下式确定所述满意度：

r(s，a)＝f(p)+g(a)，

在本发明的一些实施例中，所述强化学习模型为DQN模型，所述模型训练模块包括：

损失函数确定单元，用于将各个样本数据对应的所述配送条件特征以及所述送达时间输入所述强化学习模型，确定对应的损失函数；

训练单元，用于基于所述损失函数，通过策略梯度下降的方式对所述强化学习模型进行训练。

在本发明的一些实施例中，所述送达时间确定模块具体还用于：

在本发明的一些实施例中，所述特征提取模块具体还用于：

从所述样本数据中确定各个批次货物对应的配送条件信息；

对所述非连续取值的信息项进行独热编码；

在本发明的一些实施例中，所述装置还包括：

信息获取模块，用于获取线上使用经离线训练的强化学习模型的过程中产生的线上货物配送信息，其中，所述强化学习模型用于确定各批次货物在对应的配送条件特征下，采用送达时间集合中各个送达时间所取得的累积满意度；

线上样本获取模块，用于从所述线上货物配送信息中获取多个线上样本数据，所述线上样本数据包含相邻两个批次货物的配送条件信息；

线上配送条件特征确定模块，用于从所述线上样本数据的配送条件信息中提取各个批次货物的线上配送条件特征；

目标送达时间获取模块，用于获取所述经离线训练的强化学习模型预测的所述线上样本数据中在先批次货物的目标送达时间；

在线训练模块，用于基于各个所述线上样本数据对应的线上配送条件特征以及所述目标送达时间，对所述强化学习模型进行在线训练。

本发明实施例的第三方面，提供了一种电子设备，包括：存储器，处理器；其中，

所述存储器用于存储所述处理器可执行指令的存储器；

所述处理器被配置为实现如第一方面任一项所述的送达时间应答方法。

本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面任一项所述的送达时间应答方法。

本发明实施例提供的送达时间应答方法、装置、设备及介质，一方面，由于通过强化学习模型能够得到在目标货物对应的配送条件下，采用各个送达时间所取得的累积满意度，从而能够利用强化学习的方式得到最大累积满意度对应的送达时间；另一方面，由于累积满意度既考虑了客观的配送条件又考虑了用户反馈，从而能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本发明的一些实施例的送达时间应答方法的应用场景的示意框图；

图2为本发明的一些实施例提供的送达时间应答方法的流程示意图；

图3为本发明的一些实施例的模型训练过程的流程示意图；

图4为本发明的一些实施例提供的深度Q网络的示意图；

图5为本发明的另一些实施例提供的模型训练过程的流程示意图；

图6为本发明的一些实施例提供的送达时间应答方法的应用场景的示意框图；

图7为本发明的一些实施例提供的送达时间应答方法的流程示意图；

图8为根据本发明的一些实施例提供的送达时间应答装置的示意框图；

图9为根据本发明的一些实施例提供的送达时间预测模块的示意框图；

图10为本发明的另一些实施例提供的送达时间应答装置的示意框图；

图11为本发明的一些实施例提供的模型训练模块的示意框图；

图12为本发明的一些实施例提供的电子设备的示意结构图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先，对本发明所涉及的名词进行解释：

强化学习：强化学习中包含三种要素，状态或条件state，动作action和满意度或收益reward。state表示当前所面临的情况，以货物配送任务为例，可以表示送达时间的预测条件，例如天气、货量、交通状况、站点人力情况等因素；action表示根据当前情况所做出的决策，对应到货物配送任务中为对送达时间的预测；reward表示在当前情况下做出一个决策所获得的满意度或收益，对应到货物配送任务为在当前情况下，采用一个送达时间所取得的满意度例如用户评分的大小。

送达时间：也可以称为履约时间，是指从一个批次货物进站到正常送达或正常履约的时间间隔，也可以指从用户下单到正常送达的时间间隔；

送达率：是指在预测的送达时间以前送达的货物与该批次货物的总量的比值；

累积满意度：也称为长期满意度或长期reward，是指采用一个行为action之后的长期满意度，累积满意度包含多个满意度，每个满意度包含送达率对应的满意度以及送达时间对应的满意度。

目前，为了确定货物或商品的送达时间，在一种技术方案中，基于机器学习技术，考虑了天气，货量和地区等因素对配送时间的影响，建立机器学习模型，通过历史上的配送时间对当前批次货物的送达时间进行预测。然而，这种技术方案与直接使用业务规则相比，虽然考虑了一些配送条件，但是没有考虑用户反馈的信息。实际上，物流公司在预测货物的送达时间的时候，需要考虑到两个问题，一个是预测的送达时间应该能够让尽可能多的订单按时送达，从而让尽可能多的用户有比较好的体验；同时，又不能够把预测的送达时间订得太晚，因为这样会使用户体验变差，而且也不能对配送人员形成有效约束，造成实际的送达时间更加延后。而现有的使用机器学习技术对送达时间进行预测的方法没有考虑上述问题。

基于上述内容，本发明的基本思想在于：使用强化学习的技术，利用强化学习技术中的满意度reward来量化预测的送达时间所带来的收益或损失，即根据当前的配送条件通过强化学习模型预测与最大累积满意度对应的送达时间。根据本发明实施例的技术方案，一方面，由于通过强化学习模型能够得到各个送达时间所取得的累积满意度，从而能够利用强化学习的方式得到最大累积满意度对应的送达时间；另一方面，由于累积满意度既考虑了客观的配送条件又考虑了用户反馈，从而能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

本发明提供的送达时间应答方法，旨在解决现有技术的如上技术问题。下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图1为本发明的一些实施例的模型构建方法的应用场景的示意框图。参照图1所示，该应用场景包括：

参照图1所示，该应用场景包括至少一个客户端110以及服务器端120。客户端110与服务器端120之间通过网络130进行通信。用户在客户端110上的购物网站或应用程序上对目标货物下单之后，客户端110向服务器端120发送该目标货物的订单信息。服务器端120接收到该订单信息之后，确定与该订单信息对应的配送条件信息，基于该配送条件信息，通过强化学习模型确定采用多个送达时间中各个送达时间所取得的累积满意度，将最大累积满意度对应的送达时间作为目标送达时间。

需要说明的是，客户端110可以为手机、平板电脑、台式计算机、便携笔记本式计算机或车载计算机等。服务器120可以为包含独立主机的物理服务器，或者为主机集群承载的虚拟服务器，或者为云服务器。网络130可以为有线网络或无线网络，例如，网络130可以为公共交换电话网络(Public Switched Telephone Network，PSTN)或因特网。

下面结合图1的应用场景，参考附图来描述根据本发明的示例性实施例的送达时间应答方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施例在此方面不受任何限制。相反，本发明的实施例可以应用于适用的任何场景。

图2为本发明的一些实施例的送达时间应答方法的流程示意图。该送达时间应答方法可以应用于图1的服务器端120，下面结合图2对示例实施例中的送达时间应答方法进行详细的说明。

参照图2所示，在步骤S210中，接收客户端发送的关于目标货物的送达时间查询请求。

在示例实施例中，目标货物的送达时间查询请求可以为明示的查询请求，也可以是隐藏的查询请求。例如，在一个场景下，用户在客户端110上点击目标货物的物流查询时，客户端110向服务器端120发送明示的目标货物的送达时间查询请求。在另一个场景下，用户在客户端110上的购物应用程序上打开目标货物的购买页面时，自动向服务器端120发送隐藏的目标货物的送达时间查询请求。

在步骤S220中，响应于所述送达时间查询请求，通过强化学习模型确定目标货物的目标送达时间，其中，该强化学习模型用于确定在目标货物对应的配送条件下，采用多个送达时间中各个送达时间所取得的累积满意度，该目标送达时间为与累积满意度对应的目标送达时间。

在示例实施例中，根据目标货物的送达时间查询请求，确定目标货物对应的配送条件信息，例如，配送条件信息可以为该目标货物对应的预定批次货物的配送条件信息，预定批次货物可以为用户下订单之后，该订单所对应的配送站的目标批次货物。具体而言，配送条件信息可以包括：地域信息、天气信息、货物的类型信息等。

进一步地，在示例实施例中，根据该预定批次货物的配送条件信息的各信息项，生成配送条件特征即配送条件特征向量。具体而言，如果配送条件信息的信息项本身为一个连续取值的数，则将该信息项作为配送条件特征向量即state向量中特定位置的值；如果配送条件信息的信息项为枚举型变量，如天气，则将其进行独热one-hot编码加工以后作为向量的一段，通过上述的处理，加工出配送条件特征向量即state向量。

进一步地，基于配送条件特征，通过强化学习模型确定采用送达时间集合中各个送达时间所取得的多个累积满意度，其中，该强化学习模型用于确定该预定批次货物在该配送条件特征下，采用送达时间集合中各个送达时间所取得的累积满意度。

在示例实施例中，强化学习模型为神经网络模型例如DQN模型，将配送条件特征向量输入到强化学习模型中，得到采用送达时间集合中各个送达时间所取得的多个累积满意度。进一步地，可以将多个累积满意度中最大累积满意度对应的送达时间，作为该预定批次货物的目标送达时间。

在步骤S230中，向客户端推送该目标送达时间，以使客户端显示该目标送达时间。

在示例实施例中，在确定了目标货物的目标送达时间之后，向客户端推送该目标送达时间，以使客户端显示该目标送达时间。

根据图2的示例实施例的技术方案，一方面，由于通过强化学习模型能够得到在目标货物对应的配送条件下，采用各个送达时间所取得的累积满意度，从而能够利用强化学习的方式得到最大累积满意度对应的送达时间；另一方面，由于累积满意度既考虑了客观的配送条件又考虑了用户反馈，从而能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

图3为本发明的一些实施例的模型训练过程的流程示意图，下面结合图3对示例实施例中的模型训练过程进行详细的说明。

参照图3所示，在步骤S310中，从历史货物配送信息中获取多个样本数据，样本数据包含相邻两个批次货物的配送条件信息。

在示例实施例中，样本数据中包含相邻两个批次货物的配送条件信息，相邻两个批次货物可以包括：当前批次货物和当前批次的后一批次货物。各个批次的配送条件信息可以包括：地域信息、天气信息、货物的类型信息等。其中，地域特征主要包括配送站的省份信息以及配送站所处位置属于一线城市，二线城市，三线城市，县城还是乡村；货物的类型信息主要包括本批次的货物中大件、生鲜、中小件等不同类型货物的数量。

需要说明的是，本发明实施例的配送条件信息不限于此，例如，配送条件信息还可以包括日期信息、节假日信息、交通信息等，这同样在本发明的保护范围内。

进一步地，在示例实施例中，获取目标配送站的历史货物配送信息中抽取样本数据，每个样本数据为两个相邻批次的货物配送条件信息，将两个批次标记为t和t+1。

在步骤S320中，从样本数据的配送条件信息中提取各个批次货物的配送条件特征。

在示例实施例中，从样本数据中获取各个批次货物的配送条件信息的各信息项，生成配送条件特征即配送条件特征向量s_t，s_t+1。

进一步地，如果配送条件信息的信息项本身为一个连续取值的数，则将该信息项作为配送条件特征向量即state向量中特定位置的值；如果配送条件信息的信息项为枚举型变量，如天气，则将其进行独热one-hot编码加工以后作为向量的一段，通过上述的处理，加工出配送条件特征向量即state向量。

在步骤S330中，确定样本数据中在先批次货物的送达时间，送达时间为送达时间集合中的一个元素。

在示例实施例中，相邻两个批次货物包括：当前批次货物和当前批次的后一批次货物，则在先批次货物为当前批次货物，确定两个相邻批次货物中在先批次货物的各个货物的送达时间；基于各个货物的送达时间，确定在先批次货物中预定比例的货物均成功送达的时间；从送达时间集合中选取与所述时间对应的目标时间，将该目标时间作为在先批次货物的送达时间。

具体而言，设当前批次为t，则当前批次的后一批次为t+1。统计t批次货物中每一件货物成功送达的时间，选定一个80％的货物都送达了的时间，计算该时间与该批次货物全部进站时间的间隔，在送达时间集合A中选取一个与该间隔最接近的元素，作为在先批次货物的送达时间a_t。

需要说明的是，也可以采用其他方式确定在线批次货物的送达时间，例如可以通过贪心算法确定在线批次货物的送达时间，这同样在本发明的保护范围内。

在步骤S340中，基于各个样本数据对应的配送条件特征以及送达时间对强化学习模型进行训练，其中，强化学习模型用于确定批次货物在对应的配送条件特征下，采用送达时间集合中各个送达时间所取得的累积满意度。

在示例实施例中，强化学习模型为神经网络模型，将样本数据对应的配送条件特征向量s_t，s_t+1、以及在先批次货物的送达时间a_t输入到强化学习模型中，对强化学习模型进行训练。

进一步地，在一些示例实施例中，确定与配送条件特征向量s_t，s_t+1、以及在先批次货物的送达时间a_t对应的损失函数，根据该损失函数采用策略梯度下降的方式来训练强化学习模型。

根据图3的示例实施例中的模型构建方法，通过各个样本数据的配送条件特征以及在先批次货物的送达时间，对强化学习模型进行训练。一方面，由于通过强化学习模型能够得到在配送条件下，采用各个送达时间所取得的累积满意度，从而能够利用强化学习的方式得到最大累积满意度对应的送达时间；另一方面，由于累积满意度既考虑了客观的配送条件又考虑了用户反馈，从而能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

在本发明实施例的技术方案中，累积满意度包含多个满意度，每个满意度包含送达率对应的满意度以及送达时间对应的满意度。下面对本发明实施例中的满意度以及累积满意度的内容进行详细的描述。具体而言，可以通过如下方式设计强化学习中的state、action以及reward三个参数：

状态state：为一个向量，该state向量包含当前能够参考的各个配送条件因素，例如地域特征，天气，货物的类型、本批次新到的货量，上批次还未配送的货量等。如果配送条件本身为一个连续取值的数，将该配送条件直接作为state向量中特定位置的值；如果配送条件为枚举型变量，如天气或日期，则将该配送条件进行独热one-hot编码以后作为向量的一段。state向量可以表示为s。

行为action：为一个标量，表示预测的送达时间。例如，可以在一个批次的货物全部进入配送站的一刻目标送达时间，因此，预测的送达时间可以为从一个批次货物进站到正常送达的时间间隔。一般来说，预测的送达时间存在着一定的上限和下限，比如对于有的物流公司来说，最早为当日送达，晚一些为次日送达，送达时间的取值范围可以根据这一业务逻辑确定。另外，由于用户一般不需要过于精确的送达时间，可以以预定时间间隔例如30分钟或20分钟等为粒度对送达时间进行预测。综上所述，action可以表示为a，a∈A，其中，集合A为送达时间与入站时间的间隔的取值范围。

满意度或收益reward：为一个标量，定义为r(s，a)，表示在条件state为s的情况下采取的action为a时所获得的满意度。一般来说，reward可以在采取了行为action后直接从外界的反馈信息例如，用户评分得来。进一步地，reward的设计需要考虑时效上的影响，例如，对送达时间的预测不仅要准确，还要考虑到让用户满意。如果预测的送达时间越早，则实际的送达率有可能会越低，进而造成用户体验的下降；如果预测的送达时间越晚，送达率会变高，但用户可能会觉得需要等待的时间过长，用户评价降低。因此，在设计reward的时候需要同时考虑到这两点因素。另外，还需要注意的是，并不是预测的送达时间越早，用户就越满意，早到了一定的程度以后，用户的满意度或评分不会再增加。

综合以上几点，对满意度reward的定义如下：设预测的送达时间为a，根据本批次货物的配送情况，最终的送达率为p，则送达率对应的满意度为f(p)。由于送达率越高，用户的满意度越高，因此f(p)为一个递增函数。f(p)的构建有很多种不同选择，在示例实施例中，采用二次函数来表示f(p)。此外，随着送达时间a的增加，用户的满意度会先不变再降低，在示例实施例中，构建一个分段函数g(a)表示送达时间a对应的满意度。

具体而言，设p为送达率，a为送达时间，则所述送达率对应的满意度为f(p)，所述送达时间对应的满意度为g(a)，所述满意度为r(s，a)，通过下式表示所述f(p)、所述g(a)以及所述r(s，a)：

f(p)＝αp²+β，α＞0 (1)

g(a)＝θ，a≤a_thre，g(a)＝w(a-a_thre)+θ，w＜0； (2)

r(s，a)＝f(p)+g(a) (3)

其中，所述r(s，a)表示在配送条件特征为s的情况下，采用送达时间a所获得的满意度，α、β为根据送达率和送达时间确定的经验值，θ、a_thre以及w为根据送达时间确定的经验值。g(a)可以在确定action即送达时间时直接得到，f(p)根据本批次配送情况统计送达率之后得到。

在强化学习的状态转移中：一个行动action不仅会影响当前的满意度reward，也会对未来的状态state造成影响。例如，如果该action使用户的满意度下降，则有可能造成一些用户使用该物流的频率减少，货物量下降，反之则有可能使货物量保持稳定或上升。state的变化又会影响未来的action和reward。因此，每做一个决策即action，都会造成长期的影响，而产生长远的满意度。假设在时间点t，所获得的reward为r_t，则累积的满意度Q为

其中，0＜γ＜1是为了降低不确定性较强的累积满意度或长期满意度中的重要性。

在强化学习技术中，可以用一个函数Q(s_t，a_t)来表示在时间点t，state为s_t，采取action为a_t的累积满意度。最大化累积满意度的action即

可以由下式(4)得到：

此外，根据Bellman等式，最大的累积满意度

可以写为下式(5)：

其中，

表示在时间点t，state为s_t，采取action为

的满意度，Q(s_t+1，a_t+1)表示在时间点t+1，state为s_t+1，采取action为

的累积满意度。

图4为本发明的一些实施例提供的深度Q网络的示意图。下面结合图4对示例实施例中的模型训练过程进行详细的说明。

在强化学习技术中，有多种方式来构建累积满意度的函数Q(s_t，a_t)即强化学习模型。在示例实施例中，通过深度Q网络(Deep Q Network，DQN)技术，采用深度神经网络来拟合Q(s_t，a_t)。参照图4所示，该DQN网络模型包括输入层410、网络层420以及输出层430，其中，输入层410输入当前配送条件特征向量s；网络层420用于提取配送条件特征向量s中的配送条件特征，根据提取的特征预测对应的累积满意度Q；输出层430用于输出与送达时间集合A中的各个送达时间a对应的累积满意度Q，输出层430可以为全连接网络结构，其中，a∈A。

继续参照图4所示，Q(s，a(n))表示第n个送达时间a(n)对应的长远满意度或累积满意度。给定当前的配送条件特征向量state s，通过比较所有Q(s，a)，

找出Q最大值对应的action，即a^*＝argmax_aQ(s，a)。

进一步地，建立好强化学习模型的网络结构以后，为了对强化学习模型进行训练，需要定义损失函数，根据损失函数更新强化学习模型的参数。在示例实施例中，设给定了时间点t的配送条件特征state s_t以及采取送达时间action a_t，下一时间点的配送条件特征state s_t+1，则损失函数可以用下式(6)表示：

其中，L(s_t，s_t+1，a_t)为损失函数，r(s_t，a_t)表示在配送条件特征为s_t的情况下，采用送达时间a_t所获得的满意度，Q(s_t，a_t)为配送条件特征为s_t的情况下，采用送达时间a_t所获得的累积满意度或长期满意度，0＜γ＜1。

需要说明的是，虽然以上式(1)作为损失函数为例进行说明，但是本领域技术人员应该理解的是，也可以采用其他适当的损失函数，本发明对此不进行特殊限定。

图5为本发明的另一些实施例提供的模型训练过程的流程示意图。

参照图5所示，在步骤S510中，对离线样本数据进行特征加工。

在示例实施例中，在离线的情况下，从历史货物配送信息中获取多个样本数据，样本数据包含相邻两个批次货物的配送条件信息。相邻两个批次货物可以包括：当前批次货物和当前批次的后一批次货物。各个批次的配送条件信息可以包括：地域信息、天气信息、货物的类型信息等。其中，地域特征主要包括配送站的省份信息以及配送站所处位置属于一线城市，二线城市，三线城市，县城还是乡村；货物的类型信息主要包括本批次的货物中大件、生鲜、中小件等不同类型货物的数量。

从样本数据中获取各个批次货物的配送条件信息的各信息项，生成配送条件特征即配送条件特征向量s_t，s_t+1。进一步地，如果配送条件信息的信息项本身为一个连续取值的数，则将该信息项作为配送条件特征向量即state向量中特定位置的值；如果配送条件信息的信息项为枚举型变量，如天气，则将其进行独热one-hot编码加工以后作为向量的一段，通过上述的处理，加工出配送条件特征向量即state向量。

在步骤S520中，确定在先批次货物对应的送达时间。

在示例实施例中，相邻两个批次货物包括：当前批次货物和当前批次的后一批次货物，则在先批次货物为当前批次货物，设当前批次为t，则当前批次的后一批次为t+1。统计t批次货物中每一件货物成功送达的时间，选定一个80％的货物都送达了的时间，计算该时间与该批次货物全部进站时间的间隔，在送达时间集合A中选取一个与该间隔最接近的元素，作为在先批次货物的送达时间a_t。

在步骤S530中，对强化学习模型进行离线训练。

在示例实施例中，强化学习模型为神经网络模型例如DQN模型，将配送条件特征向量s_t，s_t+1、以及在先批次货物的送达时间a_t输入到强化学习模型中，对强化学习模型进行训练。

在步骤S540中，确定线上样本数据以及目标送达时间。

在示例实施例中，在完成离线训练以后，就可以将训练得到的强化学习模型在线使用，预测每个批次货物最大累积满意度对应的目标送达时间。同时，将使用的过程中产生的样本数据也加工特征向量，即配送条件特征向量。

在步骤S550中，对强化学习模型进行在线训练。

由于步骤S550与步骤S530的实现原理以及实现效果基本一样，在此不再赘述。

根据图5的示例实施例中的模型构建方法，一方面，通过离线对强化学习模型进行训练，能够预先训练一个较为准确的初始模型，提高上线之后预测结果的合理性和准确性；另一方面，根据上线之后的生成的数据对强化学习模型进行在线训练，能够进一步提高模型预测的合理性和准确性；再一方面，由于累积满意度既考虑了客观的配送条件又考虑了用户反馈，从而能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

图6为本发明的一些实施例提供的送达时间应答方法的应用场景的示意框图。

参照图6所示，该应用场景包括：前台系统610、后台处理装置620、离线训练装置630以及在线训练装置640。其中，前台系统610包括货物信息收集模块612以及前台展示模块614，货物信息收集模块612用于收集当前批次货物的配送条件信息，将收集到的配送条件信息发送至后台处理装置620。后台处理装置620包括：请求接收模块622以及计算模块624，请求接收模块622用于接收获取信息收集模块612发送的当前批次货物的配送条件信息，将接收到的配送条件信息发送至计算模块624。计算模块624用于根据离线训练装置630或在线训练装置640训练的强化学习模型确定当前批次货物的最大累积满意度对应的送达时间，将计算的送达时间发送至前台系统610，前台展示模块614对所计算模块624所计算的送达时间进行展示，例如在用户的应用程序中对应订单的页面进行展示。

需要说明的是，前台系统610可以终端设备，例如手机、笔记本电脑、台式机等，后台处理装置620、离线训练装置630以及在线训练装置640可以为台式计算机或膝上型计算机，也可以为其他适当的通用计算设备例如笔记本电脑或者云计算设备，本发明对此不进行特殊限定。

图7为本发明的一些实施例提供的送达时间应答方法的流程示意图。

参照图7所示，在步骤S710中，获取预定批次货物的配送条件信息。

在示例实施例中，预定批次货物为用户下订单之后，该订单所对应的配送站的目标批次货物。配送条件信息可以包括：地域信息、天气信息、货物的类型信息等。

在步骤S720中，从配送条件信息中提取预定批次货物的配送条件特征。

在示例实施例中，根据该预定批次货物的配送条件信息的各信息项，生成配送条件特征即配送条件特征向量。具体而言，如果配送条件信息的信息项本身为一个连续取值的数，则将该信息项作为配送条件特征向量即state向量中特定位置的值；如果配送条件信息的信息项为枚举型变量，如天气，则将其进行独热one-hot编码加工以后作为向量的一段，通过上述的处理，加工出配送条件特征向量即state向量。

在步骤S730中，基于配送条件特征，通过强化学习模型确定采用送达时间集合中各个送达时间所取得的多个累积满意度，其中，该强化学习模型为上述模型构建方法构建的模型，该强化学习模型用于确定该预定批次货物在该配送条件特征下，采用送达时间集合中各个送达时间所取得的累积满意度。

在示例实施例中，强化学习模型为神经网络模型例如DQN模型，将配送条件特征向量输入到强化学习模型中，得到采用送达时间集合中各个送达时间所取得的多个累积满意度。

在步骤S740中，将多个累积满意度中最大累积满意度对应的送达时间，作为该预定批次货物的目标送达时间。

在示例实施例中，确定多个累积满意度中最大累积满意度对应的送达时间，将该送达时间作为该预定批次货物的目标送达时间。

根据图7的示例实施例中的送达时间应答方法，一方面，由于通过强化学习模型能够得到在预定批次货物的配送条件下，各个送达时间所取得的累积满意度，从而能够利用强化学习的方式得到最大累积满意度对应的送达时间；另一方面，由于累积满意度既考虑了客观的配送条件又考虑了用户反馈，从而能够预测得到合理准确的送达时间，进而能够在提高配送效率的同时提高用户体验。

图8为根据本发明的一些实施例提供的送达时间应答装置的示意框图。参照图8所示，该送达时间应答装置800包括：

请求接收模块810，用于接收客户端发送的关于目标货物的送达时间查询请求；

送达时间预测模块820，用于响应于所述送达时间查询请求，通过强化学习模型确定所述目标货物的目标送达时间，其中，所述强化学习模型用于确定在所述目标货物对应的配送条件下，采用多个送达时间中各个送达时间所取得的累积满意度，所述目标送达时间为与所述累积满意度对应的送达时间；

推送模块830，用于向客户端推送所述目标送达时间，以使所述客户端显示所述目标送达时间。

图9为根据本发明的一些实施例提供的送达时间预测模块的示意框图。参照图9所示，在本发明的一些实施例中，所述送达时间预测模块820包括：

配送条件特征确定单元910，用于根据所述送达时间查询请求，确定所述目标货物所属批次货物的配送条件特征；

累积满意度确定单元920，用于根据所述配送条件特征，通过所述强化学习模型确定采用送达时间集合中各个送达时间所取得的多个累积满意度；

时间确定单元930，用于将所述多个累积满意度中最大累积满意度对应的送达时间，作为所述目标货物的所述目标送达时间。

图10为本发明的另一些实施例提供的送达时间应答装置的示意框图。参照图10所示，在本发明的一些实施例中，所述装置800还包括：

样本获取模块1010，用于从历史货物配送信息中获取多个样本数据，所述样本数据包含相邻两个批次货物的配送条件信息；

特征提取模块1020，用于从所述样本数据的配送条件信息中提取各个批次货物的配送条件特征；

送达时间确定模块1030，用于确定所述样本数据中在先批次货物的送达时间，所述送达时间为送达时间集合中的一个元素；

模型训练模块1040，用于基于各个样本数据对应的所述配送条件特征以及所述送达时间对强化学习模型进行训练，

在本发明的一些实施例中，基于上述方案，所述累积满意度包含多个满意度，每个所述满意度包含送达率对应的满意度以及送达时间对应的满意度。

在本发明的一些实施例中，所述装置800还包括：

在本发明的一些实施例中，基于上述方案，设p为所述送达率，a为所述送达时间，所述送达率对应的满意度为f(p)，则所述满意度确定模块810还具体用于：

通过下式表示所述f(p)：

f(p)＝αp²+β，α＞0；

设所述送达时间对应的满意度为g(a)，则所述满意度确定模块810还具体用于：通过下式来确定所述送达时间对应的满意度：

g(a)＝θ，a≤a_thre，g(a)＝w(a-a_thre)+θ，w＜0；

通过下式确定所述满意度：

r(s，a)＝f(p)+g(a)，

图11为本发明的一些实施例提供的模型训练模块的示意框图。参照图11所示，在本发明的一些实施例中，所述强化学习模型为DQN模型，所述模型训练模块1040包括：

损失函数确定单元1110，用于将各个样本数据对应的所述配送条件特征以及所述送达时间输入所述强化学习模型，确定对应的损失函数；

训练单元1120，用于基于所述损失函数，通过策略梯度下降的方式对所述强化学习模型进行训练。

在本发明的一些实施例中，基于上述方案，所述送达时间确定模块730具体还用于：

在本发明的一些实施例中，基于上述方案，所述特征提取模块具体还用于：

从所述样本数据中确定各个批次货物对应的配送条件信息；

对所述非连续取值的信息项进行独热编码；

在本发明的一些实施例中，所述装置还包括：

在线训练模块，用于基于各个所述线上样本数据的线上配送条件特征以及所述目标送达时间，对所述强化学习模型进行在线训练。

本发明实施例提供的模型构建装置能够实现前述方法实施例中的各个过程，并达到相同的功能和效果，这里不再重复。

图12示出了适于用来实现本发明实施例的电子设备的计算机系统1200的结构示意图。图12示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示，计算机系统1200包括中央处理单元(Central Processing Unit，CPU)1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory，RAM)1203中的程序而执行各种适当的动作和处理。在RAM 1203中，还存储有系统1200操作所需的各种程序和数据。CPU1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

以下部件连接至I/O接口1205：包括键盘、鼠标等的输入部分1206；包括诸如液晶显示器(Liquid Crystal Display，液晶显示器)、有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等以及扬声器等的输出部分1207；包括硬盘等的存储部分1208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1210上，以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1209从网络上被下载和安装，和/或从可拆卸介质1211被安装。在该计算机程序被CPU 1201执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器、光纤、便携式紧凑磁盘只读存储器、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征提取模块、训练模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，训练模块还可以被描述为“对强化学习模型进行训练的模块”。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备执行以下流程：步骤S210，接收客户端发送的关于目标货物的送达时间查询请求；步骤S220，响应于所述送达时间查询请求，通过强化学习模型确定目标货物的目标送达时间，其中，该强化学习模型用于确定在目标货物对应的配送条件下，采用多个送达时间中各个送达时间所取得的累积满意度，该目标送达时间为与累积满意度对应的目标送达时间；步骤S230，向客户端推送该目标送达时间，以使客户端显示该目标送达时间。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围。

Claims

1.一种送达时间应答方法，其特征在于，包括：

接收客户端发送的关于目标货物的送达时间查询请求；

2.根据权利要求1所述的方法，其特征在于，所述响应于所述送达时间查询请求，通过强化学习模型确定所述目标货物的目标送达时间，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述累积满意度包含多个满意度，每个所述满意度包含送达率对应的满意度以及送达时间对应的满意度。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过分段函数来确定所述送达时间对应的满意度。

6.根据权利要求5所述的方法，其特征在于，设p为所述送达率，a为所述送达时间，所述送达率对应的满意度为f(p)，则所述通过以所述送达率为自变量的二次函数，确定所述送达率对应的满意度，包括：

通过下式表示所述f(p)：

f(p)＝αp²+β，α>0；

g(a)＝θ,a≤a_thre，g(a)＝w(a-a_thre)+θ,w<0；

设所述满意度为r(s，a)，则通过下式确定所述满意度：

r(s,a)＝f(p)+g(a)，

7.根据权利要求3所述的方法，其特征在于，所述确定所述样本数据中在先批次货物的送达时间，包括：

8.根据权利要求3所述的方法，其特征在于，所述从所述样本数据的配送条件信息中提取各个批次货物的配送条件特征，包括：

从所述样本数据中确定各个批次货物对应的配送条件信息；

对所述非连续取值的信息项进行独热编码；

9.根据权利要求3至8中任一项所述的方法，其特征在于，所述方法还包括：

10.一种送达时间应答装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括：存储器，处理器；所述存储器用于存储所述处理器可执行指令的存储器；所述处理器被配置为实现如权利要求1至9中任一项所述的送达时间应答方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至9中任一项所述的送达时间应答方法。