CN110516997A

CN110516997A - 数据处理方法、系统、和装置

Info

Publication number: CN110516997A
Application number: CN201910743206.6A
Authority: CN
Inventors: 沈成光
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2019-11-29

Abstract

提供了数据处理方法、系统和装置，方法包括：提取历史订单中的与用户相关的数据、与商家相关的数据、与环境相关的数据以及对应的延误时长；根据延误时长落入的延误时长区间标识延误时长标签；对提取的数据进行特征编码得到特征向量；基于特征向量以及延误时长标签对第一预设机器学习模型进行训练；响应于延误险套餐请求，提取配送订单的多个数据；将提取到的多个数据进行特征编码得到特征向量，并将编码得到的特征向量输入到第一预设机器学习模型，获取配送订单的延误时长落入多个延误时长区间的概率；基于获取的概率和多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标，每个延误险套餐包括与多个延误时长区间对应的多个延误险档位。

Description

数据处理方法、系统、和装置

技术领域

本公开涉及数据处理领域，更具体地涉及数据处理方法、系统、和装置。

背景技术

互联网的飞速发展和保险产品的不断创新为各行业与保险业的结合提供了良好契机，例如，航空运输业与保险业的结合，医疗业与保险业的结合等。近年来，外卖模式已成为现代上班族的消费常态，外卖配送需求不断扩大，外卖市场日渐火爆，但由于配送订单激增、商家本身服务能力有限、配送人数不够、交通堵塞、天气恶劣等因素出现了许多外卖延误的问题。因此，在外卖延误问题已经对用户体验造成严重影响的情况下，作为外卖行业与保险行业的结合产物之一，外卖延误险的问世考虑到用户的实际痛点，能改善外卖场景下的用户体验。

发明内容

鉴于上述情况，本公开提供了一种数据处理系统、装置和方法。

第一方面，根据本公开的实施例，提供了一种数据处理方法，包括：提取历史订单中的与用户相关的数据、与商家相关的数据、与环境相关的数据以及对应的延误时长；根据所述延误时长落入的多个延误时长区间中的一个延误时长区间标识对应的延误时长标签；对所述与用户相关的数据、所述与商家相关的数据、所述与环境相关的数据进行特征编码得到对应的特征向量；基于所述特征向量和所述延误时长标签对第一预设机器学习模型进行训练；响应于接收到与配送订单相对应的延误险套餐请求，提取所述配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据；将从所述配送订单中提取到的所述多个数据进行特征编码得到对应的特征向量，并将编码得到的所述特征向量输入到训练好的所述第一预设机器学习模型，获取所述第一预设机器学习模型预估得到的所述配送订单的延误时长落入多个延误时长区间的概率；基于所述预估的所述配送订单的延误时长落入所述多个延误时长区间的各自的概率和与所述多个延误时长区间对应的多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标，其中，所述多个延误险套餐的每个包括与所述多个延误时长区间对应的多个延误险档位。

第二方面，根据本公开的实施例，提供了一种数据处理系统，包括：第一提取装置，被配置为提取历史订单中的与用户相关的数据、与商家相关的数据、与环境相关的数据以及对应的延误时长；标识装置，被配置为根据所述延误时长落入的多个延误时长区间中的一个延误时长区间标识对应的延误时长标签；编码装置，被配置为对所述与用户相关的数据、所述与商家相关的数据、所述与环境相关的数据进行特征编码得到对应的特征向量；训练装置，被配置为基于所述特征向量和所述延误时长标签对第一预设机器学习模型进行训练；第二提取装置，被配置为响应于接收到与配送订单相对应的延误险套餐请求，提取所述配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据；概率获取装置，被配置为将从所述配送订单中提取到的所述多个数据进行特征编码得到对应的特征向量，并将编码得到的所述特征向量输入到训练好的所述第一预设机器学习模型，获取所述第一预设机器学习模型预估得到的所述配送订单的延误时长落入多个延误时长区间的概率；确定装置，被配置为基于所述预估的所述配送订单的延误时长落入所述多个延误时长区间的各自的概率和与所述多个延误时长区间对应的多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标，其中，所述多个延误险套餐的每个包括与所述多个延误时长区间对应的多个延误险档位。

第三方面，根据本公开的实施例，提供了一种计算机存储介质，存储了计算机可执行指令，其被处理器运行时执行数据处理方法。

附图说明

图1是示出根据本公开的实施例的数据处理系统的框图。

图2是示出根据本公开的另一实施例的数据处理系统的框图。

图3是示出根据本公开的又一实施例的数据处理系统的框图。

图4是示出根据本公开的又一实施例的数据处理系统的框图。

图5是示出建立第一预设机器学习模型使用的特征向量的示意图。

图6是示出建立第二预设机器学习模型所使用的特征向量的示意图。

图7是描述根据本公开的实施例的建立第一预设机器学习模型的数据处理方法的流程图。

图8是示出根据本公开的实施例的数据处理方法的流程图。

图9是示出根据本公开的又一实施例的数据处理方法的流程图。

图10是描述了特征编码的流程图。

图11是示出根据本公开的数据处理装置的框图。

具体实施方式

现在将结合具体实施例对本公开中的技术方案进行清楚、完整地描述，附图中详细例示了本公开的示例。尽管将结合具体实施例描述本公开，但将理解，不是想要将本公开限于描述的实施例。相反，想要覆盖由所附权利要求限定的在本公开的精神和范围内包括的变更、修改和等价物。应注意，这里描述的方法步骤都可以由任何功能块或功能布置来实现，且任何功能块或功能布置可被实现为物理实体或逻辑实体、或者两者的组合。

注意，接下来要介绍的示例仅作为具体的例子，而不旨在将本公开的实施例限制为所示出和描述的具体的外形、硬件、连接关系、步骤、数值、条件、数据、顺序等等。本领域技术人员可以通过阅读本说明书来运用本公开的构思构造本说明书中未提到的更多实施例。

通常，用户在下外卖订单时可以购买外卖延误险，支付一定的保费，如果外卖配送延误，则由保险公司赔付一定的赔付金额(即保额)。针对某一外卖订单，可以存在多个候选的外卖延误险套餐，每个延误险套餐的保额和保费可能不尽相同。由于外卖配送订单的送达和延误时间存在诸多不确定性，因此，选择并向用户推荐一个或多个合适的延误险套餐对于提升用户购买意愿和平衡资金和赔付指标至关重要。

图1示出了根据本公开的实施例的数据处理系统的框图。

参考图1，根据本公开的实施例的数据处理系统10包括延误模块101和推荐模块102。

延误模块101又包括延误预估模块1011和第一预设机器学习模型1012。

延误预估模块1011响应于接收到与配送订单相对应的延误险套餐请求，向第一预设机器学习模型1012输入与配送订单相关的用户特征、商家特征、当前的环境特征，以预估配送订单落入多个延误时长区间的概率。

推荐模块102可以根据延误模块101中的第一预设机器学习模型1012预估得到的配送订单落入多个延误时长区间的概率和多个延误险套餐的信息来确定多个延误险套餐的赔付指标，和推荐某个或某些延误险套餐。

第一预设机器学习模型1012是通过与历史订单相关的用户特征、商家特征、环境特征和对应的延误时长、利用机器学习算法而建立的。

接下来，具体描述图1的数据处理系统10中的各个模块所执行的方法。

参考图7来描述根据本公开的实施例的建立第一预设机器学习模型1012的数据处理方法。

该方法包括：S701，提取历史订单中的与用户相关的数据、与商家相关的数据、与环境相关的数据以及对应的延误时长。

S702，根据延误时长落入的多个延误时长区间中的一个延误时长区间标识对应的延误时长标签。

S703，对与用户相关的数据、与商家相关的数据、与环境相关的数据进行特征编码得到对应的特征向量。

参考图10，图10描述了特征编码的流程图。

例如用户特征和商家特征可以从与用户相关的数据、与商家相关的数据通过如下步骤来得到：从历史订单或配送订单中过滤出与用户相关的数据、与商家相关的数据；对与用户相关的数据进行归一化、对数化和求平方根、和第一编码以得到用户特征；对与商家相关的数据进行归一化、对数化和求平方根、和第一编码以得到商家特征。

对所述与环境相关的数据进行归一化、对数化和求平方根、和第一编码以得到环境特征。与环境相关的数据通过如下步骤来得到：从所述与用户相关的数据、所述与商家相关的数据中提取所述用户所发起的订单的目的地的位置码和商家的位置码，基于所述用户所发起的订单的目的地的位置码和所述商家的位置码获取所述商家到所述目的地的路线，并基于所述路线获取与所述路线的环境相关的数据。

第一编码包括：确定一类特征的取值的数量；构造包括该数量个比特的该数量个编码，使得每个编码对应于该一类特征的一个取值，且每个编码中只有一个比特为1，其余比特为0，该数量个编码之间互斥。

具体地，由于从订单中收集到的各种数据是杂乱的，可能会带有各种非数字特殊符号，且格式也繁多，无法被很好地识别，因此考虑将数据进行特征编码以获得格式上较为统一的特征向量。首先，对杂乱的数据进行归一化，把数据变成(0，1)或者(1,1)之间的小数。把数据映射到0～1范围之内处理，使得能够更加便捷快速地处理数据。然后，进行自然对数化和求平方根运算。

然后，进行第一编码。使用N位状态寄存器来对N个状态进行编码，每个状态都有N个独立的寄存器位，并且在任意时候，其中只有一位有效。具体地，对于一个有P个类别(或取值)的特征(P为正整数)，总是可以构造P个比特来唯一表示。例如，对于用户的一类性别特征，确定该性别特征的取值的数量为2个：男性和女性，可以构造包含两个比特的编码，编码的取值也是2个，分别为："男性"→10，"女性"→01。即，每个编码对应于该一类特征的一个取值，且每个编码中只有一个比特为1，其余比特为0，该2个编码10和01之间互斥。对于一类特征，如果它有m个可能值(m为正整数)，构造包括m个比特的m个编码，例如6个可能取值的特征被编码为000001，000010，000100，001000，010000，100000。m个比特中只有一个比特为1，其他比特全为0。并且，这些编码之间互斥，每个编码中只有一个比特激活为1。因此，经过编码后数据会变成稀疏的、离散的，能够处理非连续型数值特征。另一方面，也扩充了特征，例如性别本身是一个特征，经过上述编码后，变成男性或女性两个特征。且将离散的特征扩展到了欧式空间，某个取值就对应欧式空间的某个点，且让特征之间的距离计算更加合理。

上述与用户相关的数据可以包括用户所发起的订单的目的地的地理位置、在地理位置处的历史延误次数、平均延误时长、用户的投保次数和用户理赔次数、用户的展示次数、订单金额、用户延误险套餐、用户发起的订单的数量等等。

上述与商家相关的数据可以包括商家的地理位置、上述商家的出餐速度、商家的配送方式、商家的订单量、商家的访问量、商家的历史延误次数、商家的平均延误时长、对商家的投保次数和对商家的理赔次数等等。

上述与路线的环境相关的数据可以包括在订单的配送期间的天气状况、交通状况、时间信息等等。在这里，时间信息可以包括日期信息、星期信息、时刻信息等等。例如日期信息可以帮助考虑是不是节日、什么季节、暑假还是寒假等等，星期信息可以帮助考虑是上班日还是周末等等，时刻信息可以帮助考虑是不是一天中的高峰期、是否是夜宵时间等等。

将用户特征、商家特征、环境特征与延误时长标签组合为特征向量。特征向量相当于将特征扩展到了欧式空间，那么某个取值就对应着空间里的某个点。这样特征编码得到的特征向量更容易应用于需要进行相似性的计算，或者距离的计算的机器学习算法。本文中提到的“特征”和“特征向量”可互换地使用。

多个延误时长标签对应于多个延误时长区间，例如，标签0表示未延误，标签1表示延误0～5分钟，标签2为延误6～10分钟，标签3为延误11分钟以上等。

例如对于一个历史订单，其延误时长为3分钟落入0～5分钟的延误时长区间，且其用户特征、商家特征、环境特征分别为用户特征1、商家特征1、环境特征1，则该历史订单的标签为标签1。

上述用户特征、商家特征、环境特征以及延误时长标签的特征向量是为了建立第一预设机器学习模型而获得的。

返回图7，S704，基于特征向量以及延误时长标签对第一预设机器学习模型进行训练。从而建立第一预设机器学习模型1012。

如此，基于许多历史订单的特征向量对第一预设机器学习模型进行训练。用于训练的机器学习算法可以采用多种分类算法，例如梯度回归树算法、深度学习算法等。该第一预设机器学习模型1012利用机器学习原理可以离线学习所涉及的数据和算法。

如此，利用历史订单的多种特征(各种用户特征、各种商家特征、各种环境特征)以及延误时长标签的第一预设机器学习模型可以更准确地反映历史订单的全面信息，更准确地模拟出历史订单的各种特征与延误时长之间的关系，以便日后更准确地预测新的配送订单的延误时长的概率。

另外，通常的机器学习的延误预测只是预测是否延误或延误多久，而本公开的实施例将延误时长划分为多个延误时长区间，并采用与各个延误时长区间对应的延误时长标签建立的第一预设机器学习模型可以预测延误时长落入各个延误区间的概率，既节省了计算成本又提高了预测的精度。

接下来，参考图8来描述根据本公开的实施例的延误预估模块1011和推荐模块102利用第一预设机器学习模型1012进行的数据处理方法。

S705，延误预估模块1011响应于接收到与配送订单相对应的延误险套餐请求，提取配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据。

例如，用户在外卖平台上发起一个配送订单，是从某个商家送到某一目的地的外卖配送。由于还没有配送，此时并不知道该配送订单是否会延误送达目的地。用户如果担心该配送会延误，或者外卖平台希望用户购买其延误险套餐，用户可以相应地发起或者由外卖平台直接发起与配送订单相对应的延误险套餐请求。然后，从该配送订单中提取多个特征。

S706，延误预估模块1011将从配送订单中提取到的多个数据进行特征编码得到对应的特征向量，并将编码得到的特征向量输入到训练好的第一预设机器学习模型，获取第一预设机器学习模型预估得到的配送订单的延误时长落入多个延误时长区间的概率。

如前，当接收到从延误预估模块1011输入的包括诸如用户特征、商家特征和当前的环境特征等的特征向量时，第一预设机器学习模型1012根据分类算法确定该配送订单落入多个延误时长区间的概率，例如，落入延误时长区间0～5分钟的概率为60％，落入延误时长区间6～10分钟的概率为30％，落入延误时长区间11分钟以上的概率为10％，并将该确定的多个延误时长区间的概率发送到推荐模块102。

S707，推荐模块102基于预估的配送订单的延误时长落入多个延误时长区间的各自的概率和与多个延误时长区间对应的多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标，其中，多个延误险套餐的每个包括与多个延误时长区间对应的多个延误险档位。

多个延误险套餐的每个包括与至少一个延误时长区间对应的至少一个延误险档位。例如，延误险套餐1包括与0～5分钟的延误时长区间对应的0～5分钟的延误险档位、与6～10分钟的延误时长区间对应的6～10分钟的延误险档位、与11分钟以上的延误时长区间对应的11分钟以上的延误险档位。同理，延误险套餐2、3、4也分别包括这些延误险档位。

对于每个延误险套餐的延误险档位和相应的保费和赔付保额可能不同。例如，延误险套餐1的保费是5元，可对延误0～5分钟的延误险档位赔付保额2元，对延误6～10分钟的延误险档位赔付保额5元，对延误11分钟以上的延误险档位赔付保额10元。延误险套餐2的保费是6元，可对延误0～5分钟的延误险档位赔付保额1元，对延误6～10分钟的延误险档位赔付保额6元，对延误11分钟以上的延误险档位赔付保额12元。延误险套餐3的保费是2元，只对延误11分钟以上的延误险档位赔付保额10元。延误险套餐4的保费为2元，对延误6～10分钟的延误险档位赔付保额1元，对延误11分钟以上的延误险档位赔付保额8元等。

例如，从延误模块101中的第一预设机器学习模型1012接收到的、预估的多个延误时长区间概率分别为：延误0～5分钟的概率为60％，延误6～10分钟的概率为30％，延误11分钟以上的概率为10％。

现有技术通常是通过落入各个分类的概率来判断概率最大的一个作为判决结果，例如此时可能判断该配送订单将延误0-5分钟。然而本发明可以利用这些预估的落入各个分类的所有概率来计算某个延误险套餐的赔付指标。

例如，对于一个延误险套餐，推荐模块102可以利用预估的配送订单的延误时长落入多个延误时长区间的各自的概率和该延误险套餐中对应的多个延误险档位的保额的加权和，以得到该延误险套餐的保额的期望，再除以该延误险套餐的保费，来计算该延误险套餐的赔付指标。

例如，确定的延误险套餐1的赔付指标结果如下：

延误险套餐1的赔付指标为：(60％×2+30％×5+10％×10)/5＝74％；

类似地，确定的延误险套餐2-4的赔付指标结果分别如下：

延误险套餐2的赔付指标为：(60％×1+30％×6+10％×12)/6＝60％；

延误险套餐3的赔付指标为：(10％×10)/2＝50％；

延误险套餐4的赔付指标为：(30％×1+10％×8)/2＝55％。

如此，根据本公开的实施例计算的延误险套餐的赔付指标可以更准确地反映落入多个延误时长区间的各自的概率对赔付指标的影响，从而使得得到的延误险套餐的赔付指标更准确。

然后，如图1所示，推荐模块102可以考虑各延误险套餐的赔付指标从套餐池中的套餐1、2、……N(N是正整数)中向用户推荐合适的延误险套餐，例如，赔付指标最高的3个延误险套餐1、2、4。应当理解的是，虽然为了方便理解，图1中示出为推荐3个延误险套餐，但在不脱离本公开精神范围的情况下，推荐其它数量的套餐也是可能的。

应当理解，在该实施例中，推荐模块102可以以多种方式基于该多个延误险套餐的赔付指标来推荐延误险套餐。例如，推荐模块102可以为了经济利益推荐较低的赔付指标较低的延误险套餐，或为了促进用户购买推荐赔付指标较高的延误险套餐。又例如，可以根据预定赔付指标，推荐高于或低于预定赔付指标的延误险套餐。再例如，还可以按照赔付指标从高到低或从低到高排序推荐前M(M为正整数)个延误险套餐等等。基于赔付指标推荐延误险套餐的方式不限于上述举例的那些，在不脱离本公开精神范围的情况下，一些本公开中未例举的方式也是可能的。

例如，推荐模块102可以基于预定赔付指标(例如51％)，从套餐池中的多个延误险套餐(例如套餐1、2、……N)中过滤出并推荐其赔付指标符合预定赔付指标的第一数量个延误险套餐(例如，赔付指标大于51％的套餐1、2、4)。

该预定赔付指标可以是预先设定的，也可以是该数据处理系统依据用户先前的多次选择通过机器学习而自动设定的。该预定赔付指标的设定可以基于商业促进而制定出较高的预定赔付指标，或为了经济效益的考虑而制定出较低的预定赔付指标。而为了商业促进，可以过滤出确定的延误险套餐的赔付指标高于预定赔付指标的一个或多个延误险套餐，或为了经济效益，可以过滤出确定的延误险套餐的赔付指标低于预定赔付指标的一个或多个延误险套餐。

当然，以上举例仅用于说明本公开的发明构思，而不是为了限制本公开。

如此，根据本公开的实施例的数据处理系统还能够基于每个延误险套餐的赔付指标向用户终端推荐适合的延误险套餐，使得用户可以享受实时地、快速地、自动地延误险套餐推荐功能，改善外卖场景下的用户体验。

图2示出了根据本公开的另一实施例的数据处理系统的框图。

参考图2，其中的延误模块101与参考图1中示出的延误模块101相同，因此将省略对其的详细描述。与图1不同的是，该另一实施例下的数据处理系统10还可以包括购买模块103。该购买模块103又可以包括购买预估模块1031和第二预设机器学习模型1032。

购买预估模块1031响应于接收到与配送订单相对应的延误险套餐请求，向第二预设机器学习模型输入与配送订单相关的用户特征、商家特征、当前的环境特征、延误险套餐特征，以确定用户购买延误险的概率。

第二预设机器学习模型1032是通过输入与历史订单相关的用户特征、商家特征、环境特征、延误险套餐特征和延误险购买标签，利用机器学习算法而建立的。

数据处理系统10中包括的推荐模块102’可以基于多个延误险套餐的赔付指标和用户购买各个延误险套餐的概率来推荐多个延误险套餐中的至少一个延误险套餐。

参考图9来描述建立第二预设机器学习模型1032的数据处理方法和购买预估模块1031的数据处理方法。

S901，根据历史订单中的用户是否购买了延误险套餐来标识延误险购买标签。

延误险购买标签表示用户是否购买了延误险套餐，例如，标签0表示该历史订单中用户未购买该延误险套餐，标签1表示该历史订单中用户购买了该延误险套餐。

S902，对历史订单中提取的与用户相关的数据、与商家相关的数据、与环境相关的数据、与延误险套餐有关的数据进行特征编码得到对应的特征向量。

延误险套餐特征通过如下步骤来得到：对与延误险套餐有关的数据进行归一化、对数化和求平方根、和第一编码以得到延误险套餐特征向量。

而用户特征、商家特征、环境特征从与用户相关的数据、与商家相关的数据、与环境相关的数据中以上述相同的方式得到。

参考图6，建立第二预设机器学习模型103所使用的特征向量来自于历史外卖订单，其结构分为标签部分和特征部分。其中，对于延误险套餐1特征的特征向量，其标签部分只包含0或1，标签0表示对于某一历史订单的延误险套餐1，用户未购买延误险套餐1，标签1表示对于该历史订单的延误险套餐1，用户购买了延误险套餐1。同样，对于延误险套餐2特征的特征向量，其标签部分只包含0或1，标签0表示对于某一历史订单的延误险套餐2，用户未购买延误险套餐2，标签1表示对于该历史订单的延误险套餐2，用户购买了延误险套餐2。其中，特征部分包括用户特征、商家特征和环境特征、延误险套餐2特征。

用户特征、商家特征、环境特征与上述相同，在此不赘述。

该延误险套餐特征包括但不限于延误险套餐的延误险档位、保费、保额等。当然，用户特征、商家特征、环境特征、延误险套餐特征不限于在此举例的那些，其他可以表示这些特征的例子也可以被包括在本公开中。

例如对于一个历史订单的延误险套餐1特征，用户购买了延误险套餐1，其用户特征、商家特征、环境特征分别为用户特征1、商家特征1、环境特征1，该历史订单的标签是标签1。例如对于同一个历史订单的延误险套餐2特征，由于用户未购买延误险套餐2，其用户特征、商家特征、环境特征分别为用户特征1、商家特征1、环境特征1，该历史订单的标签是标签0。对于其他延误险套餐，以此类推。

上述用户特征、商家特征、环境特征、延误险套餐特征的特征向量以及延误险购买标签是为了建立第二预设机器学习模型而获得的。

返回图9，S903，基于特征向量以及延误险购买标签对第二预设机器学习模型1032进行训练。从而建立第二预设机器学习模型1032。

用于训练的机器学习算法可以包括多种分类算法，例如梯度回归树算法、深度学习算法等。该第二预设机器学习模型1032利用机器学习原理可以离线学习所涉及的数据和算法。

本公开的实施例的第二预设机器学习模型1032还考虑了用户购买各个延误险套餐的购买行为，因此更准确地反映历史订单的全面信息，反映出包括了延误险套餐特征各种特征与用户对延误险套餐的购买行为之间的关系，以便日后更准确地预测新的配送订单的用户对延误险套餐的购买概率。

S904，购买预估模块1031响应于接收到与配送订单相对应的延误险套餐请求，提取配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据、与当前的延误险套餐有关的数据。

在此，与当前的延误险套餐有关的数据可以包括当前可推荐的延误险套餐。例如，如图2所示的套餐池中的延误险套餐1、……N。当前可推荐的延误险套餐可以是预定的，也可以是根据赔付指标或者用户购买行为而实时变化的。

S905，购买预估模块1031将从配送订单中提取到的多个数据进行特征编码得到对应的特征向量，并将编码得到的特征向量输入到训练好的第二预设机器学习模型，获取第二预设机器学习模型预估得到的配送订单的用户购买各个延误险套餐的概率。

对与当前的延误险套餐有关的数据进行归一化、对数化和求平方根、和第一编码以得到延误险套餐特征。

从与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据获得用户特征、商家特征、环境特征的方式与上述相同，在此不赘述。

如图2所示，当接收到从购买预估模块1031输入的用户特征、商家特征、环境特征、延误险套餐特征的特征向量时，第二预设机器学习模型1032根据分类算法确定用户对各延误险套餐的购买概率。

例如，第二预设机器学习模型1032根据分类算法确定用户对各延误险套餐的购买概率分别为：对于延误险套餐1的购买概率为30％，对于延误险套餐2的购买概率为10％，对于延误险套餐3的购买概率为45％，对于延误险套餐4的购买概率为15％。

本公开的实施例可以准确地计算用户对各个延误险套餐的各自的购买概率，更准确地反映用户的购买习惯。

推荐模块102’被配置为：基于多个延误险套餐的赔付指标和用户购买各个延误险套餐的概率来推荐多个延误险套餐中的至少一个延误险套餐。

具体地，如图2所示，推荐模块102’已经从延误模块101接收到多个延误时长区间的概率，以基于这些概率确定该多个延误险套餐的赔付指标(如参考图1描述的)，并且从购买模块103接收到用户对各延误险套餐的购买概率。推荐模块102’基于多个延误险套餐的赔付指标和用户对各延误险套餐的购买概率，选择套餐池中的一个或多个套餐(例如，符合某一个预定赔付指标的且用户的购买概率大于某一个预定阈值的套餐1和2)推荐给用户。

由此，推荐模块102’通过考虑各套餐的赔付指标和购买概率两者向用户推荐合适的套餐。应当理解的是，虽然为了方便理解，图2中示出为推荐2个套餐，但在不脱离本公开精神范围的情况下，推荐其它数量的套餐也是可能的。

应当理解，在该实施例中，推荐模块102’可以以多种方式基于该多个延误险套餐的赔付指标和用户对该多个延误险套餐的购买概率来推荐延误险套餐。例如，推荐模块102’可以为了经济利益推荐较低的赔付指标较低的延误险套餐，或为了促进用户购买推荐购买概率较高的延误险套餐。又例如，可以根据预定赔付指标，推荐高于或低于预定赔付指标的延误险套餐，或者可以根据预定购买概率，推荐高于或低于预定购买概率的延误险套餐，或者可以结合预定赔付指标和预定购买概率两者进行推荐。再例如，还可以按照赔付指标或购买概率从高到低或从低到高排序推荐前M(M为正整数)个延误险套餐等等。基于确定赔付指标和确定购买概率推荐延误险套餐的方式不限于上述举例的那些，在不脱离本公开精神范围的情况下，一些本公开中未例举的方式也是可能的。

以上举例仅用于说明本公开的发明构思，而不是为了限制本公开。

如此，本公开的另一实施例的数据处理系统在向用户终端推荐适合的延误险套餐时，不仅考虑了延误险套餐的赔付指标还考虑了用户对各延误险套餐的购买概率，使得改善外卖场景下的用户体验且使得所推荐的延误险套餐更符合用户意愿。

图3示出了根据本公开的又一实施例的数据处理系统的框图。

参考图3，图3中的包括延误预估模块1011和第一延误机器学习模型1012的延误模块101与图1和图2中的延误模块101相同，图3中的包括购买预估模块1031和第二预设机器学习模型的1032的购买模块103与图2中的购买模块103相同，因此将省略对其的详细描述。

与图1和图2不同的是，该又一实施例下的数据处理系统10中的推荐模块102”被配置为基于预定赔付指标，从多个延误险套餐中过滤出其赔付指标符合预定赔付指标的第一数量个延误险套餐；基于用户购买各个延误险套餐的概率，对过滤出的第一数量个延误险套餐进行降序排序，以推荐排名靠前的第二数量个延误险套餐，其中，第二数量小于第一数量。

如图3所示，当推荐模块102”从延误模块101接收到确定的多个延误险套餐的赔付指标时，比较预定赔付指标和确定的多个延误险套餐的赔付指标，从包含套餐1、套餐2……、套餐N的套餐池中过滤出确定的延误险套餐的赔付指标高于或低于预定赔付指标的一个或多个延误险套餐，例如套餐2、3、4。

该预定赔付指标可以是系统预先设定的，也可以是该数据处理系统依据用户先前的多次选择通过机器学习而自动设定的。该预定赔付指标的设定可以基于商业促进而制定出较高的预定赔付指标，或为了经济效益的考虑而制定出较低的预定赔付指标。而为了商业促进，可以过滤出确定的延误险套餐的赔付指标高于预定赔付指标的一个或多个延误险套餐，或为了经济效益，可以过滤出确定的延误险套餐的赔付指标低于预定赔付指标的一个或多个延误险套餐。

例如为了经济效益，需要过滤出确定的延误险套餐的赔付指标低于预定的延误险套餐的赔付指标的延误险套餐。例如当预定的延误险套餐赔付指标是60％时，推荐模块102”将过滤出确定的延误险套餐的赔付指标低于60％的延误险套餐2、3、4。

然后，推荐模块102”基于从购买模块接收到的用户对各延误险套餐的购买概率，从过滤出的一个或多个延误险套餐中选择一个或多个套餐推荐给用户。

例如，推荐模块102”基于购买模块确定的用户对过滤出的延误险套餐2、3、4的购买概率向用户推荐延误险套餐(例如，推荐购买概率最高的或购买概率大于40％的套餐3)。应当理解的是，虽然为了方便理解，图3中示出为仅推荐1个套餐，但在不脱离本公开精神范围的情况下，推荐其它数量的套餐也是可能的。

如此，根据本公开的又一实施例的数据处理系统根据预定赔付指标对延误险套餐池做初步过滤、再依据用户对各套餐的购买概率来推荐延误险套餐，使得改善外卖场景下的用户体验且使得所推荐的延误险套餐更符合用户意愿和期望的赔付指标。

应当理解，在该实施例中，购买模块103还可以只对推荐模块102”过滤出的延误险套餐作为上述的当前可推荐的延误险套餐来确定其每个套餐的购买概率，可以进一步节约计算资源。

如图4所示，图4是示出根据本公开的又一实施例的数据处理系统的框图。推荐模块102”可以以多种方式基于用户对过滤出的延误险套餐的购买概率来推荐延误险套餐。例如，推荐模块102”可以根据预定购买概率，推荐高于或低于预定购买概率的延误险套餐。又例如，还可以按照购买概率从高到低或从低到高排序推荐前M(M为正整数)个延误险套餐等等。基于预定赔付指标、确定赔付指标和购买概率推荐延误险套餐的方式不限于上述举例的那些，在不脱离本公开精神范围的情况下，一些本公开中未例举的方式也是可能的。

在另一实施例中，推荐模块102”还可以被配置为基于确定的用户对过滤出的至少一个延误险套餐的购买概率，对过滤出的延误险套餐进行降序排序，以推荐排名靠前的预定数量个延误险套餐。推荐模块102”从包含套餐1、套餐2……、套餐N的套餐池中过滤出确定的延误险套餐的赔付指标高于或低于预定的延误险套餐的赔付指标的一个或多个延误险套餐之后，基于购买模块确定的用户对过滤出的套餐池中的各延误险套餐的购买概率来对过滤出的套餐池中的各延误险套餐进行降序排序，并向用户推荐排名靠前的预定数量(例如，2)个延误险套餐，该预定数量可以是用户预先设定的，也可以是数据处理系统依据用户先前的多次预定通过机器学习而自动设定的。

例如，推荐模块102”已经过滤出确定的延误险套餐的赔付指标低于预定的延误险套餐的赔付指标60％的一个或多个延误险套餐(例如，过滤出套餐2、3、4)。然后，推荐模块102”基于购买模块确定的用户对该过滤出的各延误险套餐的购买概率，对过滤出的各延误险套餐进行降序排序。在该示例中，因为套餐2、3、4的购买概率分别为10％、45％、15％，所以过滤出的延误险套餐将被按购买概率降序排列为套餐2、套餐4、和套餐3。

由此，例如当推荐的延误险套餐的预定数量为2(即，M＝2)时，推荐模块102”将向用户推荐排名靠前2个套餐，即套餐2和4。

如此，根据本公开的再一实施例的数据处理系统根据预定的延误险套餐的赔付指标对延误险套餐池做初步过滤、依据用户对过滤出的各套餐的购买概率从高到低对套餐排序，并推荐前预定数量个延误险套餐，在提升用户购买意愿的同时平衡了资金赔付指标。

应当理解，在该实施例中，购买模块103还可以不事先确定所有延误险套餐的购买概率，而只确定推荐模块102”过滤出的延误险套餐的购买概率，以节约计算资源。推荐模块102”可以以除了本公开描述的方式以外的多种方式基于用户对过滤出的延误险套餐的购买概率来推荐延误险套餐。例如，推荐模块102”可以按预定购买概率，推荐过滤的延误险套餐中的高于或低于预定购买概率的延误险套餐。又例如，推荐模块102”可以按购买模块确定的用户对过滤出的套餐池中的各延误险套餐的购买概率来对过滤出的套餐池中的各延误险套餐进行升序排序，并向用户推荐排名靠前的预定数量(例如，M)个延误险套餐。基于预定赔付指标、确定赔付指标和确定购买概率来排序并推荐延误险套餐的方式不限于上述举例的那些，在不脱离本公开精神范围的情况下，一些本公开中未例举的方式也是可能的。

图11是示出根据本公开的数据处理装置的框图。

参考图11，根据本公开的数据处理装置30包括处理器301和存储器302。存储器302例如是计算机存储介质。该存储器302存储有计算机可执行指令，该指令被处理器运行时执行根据本公开的数据处理方法。

当然，上述的具体实施例仅是例子而非限制，且本领域技术人员可以根据本公开的构思从上述分开描述的各个实施例中合并和组合一些步骤和装置来实现本公开的效果，这种合并和组合而成的实施例也被包括在本公开中，在此不一一描述这种合并和组合。

注意，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的系统、方法、装置的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些系统、方法、装置。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤。如本领域技术人员将认识到的，可以按任意顺序进行以上实施例中的步骤的顺序。诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序；这些词语仅用于引导读者通读这些方法的描述。此外，例如使用冠词“一个”、“一”或者“该”对于单数的要素的任何引用不被解释为将该要素限制为单数。

另外，本文中的各个实施例中的步骤和装置并非仅限定于某个实施例中实行，事实上，可以根据本公开的概念来结合本文中的各个实施例中相关的部分步骤和部分装置以构思新的实施例，而这些新的实施例也包括在本公开的范围内。

以上描述的方法的各个操作可以通过能够进行相应的功能的任何适当的手段而进行。该手段可以包括各种硬件和/或软件组件和/或模块，包括但不限于硬件的电路、专用集成电路(ASIC)或处理器。

可以利用被设计用于进行在此描述的功能的通用处理器、数字信号处理器(DSP)、ASIC、场可编程门阵列信号(FPGA)或其它可编程逻辑器件(PLD)、离散门或晶体管逻辑、离散的硬件组件或者其任意组合而实现或进行描述的各个例示的逻辑块、模块和电路。通用处理器可以是微处理器，但是作为替换，该处理器可以是任何商业上可获得的处理器、控制器、微控制器或状态机。处理器还可以实现为计算设备的组合，例如DSP和微处理器的组合，多个微处理器、与DSP核协作的一个或多个微处理器或任何其它这样的配置。

结合本公开描述的方法或算法的步骤可以直接嵌入在硬件中、处理器执行的软件模块中或者这两种的组合中。软件模块可以存在于任何形式的有形存储介质中。可以使用的存储介质的一些例子包括随机存取存储器(RAM)、只读存储器(ROM)、快闪存储器、EPROM存储器、EEPROM存储器、寄存器、硬碟、可移动碟、CD-ROM等。存储介质可以耦接到处理器以便该处理器可以从该存储介质读取信息以及向该存储介质写信息。在替换方式中，存储介质可以与处理器是整体的。软件模块可以是单个指令或者许多指令，并且可以分布在几个不同的代码段上、不同的程序之间以及跨过多个存储介质。

在此公开的方法包括用于实现描述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

上述功能可以按硬件、软件、固件或其任意组合而实现。如果以软件实现，功能可以作为一个或多个指令存储在切实的计算机可读介质上。存储介质可以是可以由计算机访问的任何可用的切实介质。通过例子而不是限制，这样的计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光碟存储、磁碟存储或其它磁存储器件或者可以用于携带或存储指令或数据结构形式的期望的程序代码并且可以由计算机访问的任何其它切实介质。如在此使用的，碟(disk)和盘(disc)包括紧凑盘(CD)、激光盘、光盘、数字通用盘(DVD)、软碟和蓝光盘，其中碟通常磁地再现数据，而盘利用激光光学地再现数据。

因此，计算机程序产品可以进行在此给出的操作。例如，这样的计算机程序产品可以是具有有形存储(和/或编码)在其上的指令的计算机可读的有形介质，该指令可由一个或多个处理器执行以进行在此描述的操作。计算机程序产品可以包括包装的材料。

软件或指令也可以通过传输介质而传输。例如，可以使用诸如同轴电缆、光纤光缆、双绞线、数字订户线(DSL)或诸如红外、无线电或微波的无线技术的传输介质从网站、服务器或者其它远程源传输软件。

此外，用于进行在此描述的方法和技术的模块和/或其它适当的手段可以在适当时由用户终端和/或基站下载和/或其它方式获得。例如，这样的设备可以耦接到服务器以促进用于进行在此描述的方法的手段的传送。或者，在此描述的各种方法可以经由存储部件(例如RAM、ROM、诸如CD或软碟等的物理存储介质)提供，以便用户终端和/或基站可以在耦接到该设备或者向该设备提供存储部件时获得各种方法。此外，可以利用用于将在此描述的方法和技术提供给设备的任何其它适当的技术。

其它例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上描述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其它例子更好。

可以不脱离由所附权利要求定义的教导的技术而进行对在此描述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上描述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此描述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其它方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种数据处理方法，包括：

提取历史订单中的与用户相关的数据、与商家相关的数据、与环境相关的数据以及对应的延误时长；

根据所述延误时长落入的多个延误时长区间中的一个延误时长区间标识对应的延误时长标签；

对所述与用户相关的数据、所述与商家相关的数据、所述与环境相关的数据进行特征编码得到对应的特征向量；

基于所述特征向量和所述延误时长标签对第一预设机器学习模型进行训练；

响应于接收到与配送订单相对应的延误险套餐请求，提取所述配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据；

将从所述配送订单中提取到的所述多个数据进行特征编码得到对应的特征向量，并将编码得到的所述特征向量输入到训练好的所述第一预设机器学习模型，获取所述第一预设机器学习模型预估得到的所述配送订单的延误时长落入多个延误时长区间的概率；

基于所述预估的所述配送订单的延误时长落入所述多个延误时长区间的各自的概率和与所述多个延误时长区间对应的多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标，其中，所述多个延误险套餐的每个包括与所述多个延误时长区间对应的多个延误险档位。

2.根据权利要求1所述的方法，其中，所述基于所述预估的所述配送订单的延误时长落入所述多个延误时长区间的各自的概率和与所述多个延误时长区间对应的多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标包括：

对于每个延误险套餐，利用所述多个延误时长区间的各自的概率作为权重、对所述每个延误险套餐的与所述多个延误时长区间对应的多个延误险档位的各自的保额计算加权和得到所述每个延误险套餐的期望的保额，再除以所述每个延误险套餐的保费来计算所述每个延误险套餐的赔付指标。

3.根据权利要求1所述的方法，还包括：

基于预定赔付指标，从所述多个延误险套餐中过滤出并推荐其赔付指标符合所述预定赔付指标的第一数量个延误险套餐。

4.根据权利要求1所述的方法，还包括：

根据历史订单中的用户是否购买了延误险套餐来标识延误险购买标签；

对历史订单中提取的所述与用户相关的数据、所述与商家相关的数据、所述与环境相关的数据、与所述延误险套餐有关的数据进行特征编码得到对应的特征向量；

基于所述特征向量以及所述延误险购买标签对第二预设机器学习模型进行训练；

响应于接收到与配送订单相对应的延误险套餐请求，提取所述配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据、与当前的延误险套餐有关的数据；

将从所述配送订单中提取到的多个数据进行特征编码得到对应的特征向量，并将编码得到的所述特征向量输入到训练好的所述第二预设机器学习模型，获取所述第二预设机器学习模型预估得到的所述配送订单的用户购买各个延误险套餐的概率。

5.根据权利要求4所述的方法，还包括：

基于所述多个延误险套餐的赔付指标和所述用户购买各个延误险套餐的概率来推荐所述多个延误险套餐中的至少一个延误险套餐。

6.根据权利要求5所述的方法，其中，所述基于所述多个延误险套餐的赔付指标和所述用户购买各个延误险套餐的概率来推荐所述多个延误险套餐中的至少一个延误险套餐包括：

基于预定赔付指标，从所述多个延误险套餐中过滤出其赔付指标符合所述预定赔付指标的第一数量个延误险套餐；

基于所述用户购买各个延误险套餐的概率，对过滤出的所述第一数量个延误险套餐进行降序排序，以推荐排名靠前的第二数量个延误险套餐，其中，所述第二数量小于所述第一数量。

7.根据权利要求1所述的方法，其中所述特征编码的步骤包括：

对所述与用户相关的数据进行归一化、对数化和求平方根、和第一编码以得到用户特征；

对所述与商家相关的数据进行归一化、对数化和求平方根、和第一编码以得到商家特征；

对所述与环境相关的数据进行归一化、对数化和求平方根、和第一编码以得到环境特征，其中所述与环境相关的数据通过如下步骤来得到：从所述与用户相关的数据、所述与商家相关的数据中提取所述用户所发起的订单的目的地的位置码和商家的位置码，基于所述用户所发起的订单的目的地的位置码和所述商家的位置码获取所述商家到所述目的地的路线，并基于所述路线获取与所述路线的环境相关的数据；

对所述与延误险套餐有关的数据进行归一化、对数化和求平方根、和第一编码以得到延误险套餐特征，

其中，所述第一编码包括：

确定一类特征的取值的数量；

构造包括所述数量个比特的所述数量个编码，使得每个编码对应于所述一类特征的一个取值，且每个编码中只有一个比特为1，其余比特为0，所述数量个编码之间互斥。

8.根据权利要求1所述的方法，其中，

与用户相关的数据包括所述用户所发起的订单的目的地的地理位置、在所述地理位置处的历史延误次数、平均延误时长、用户的投保次数和用户理赔次数、所述用户的展示次数、订单金额、所述用户延误险套餐、所述用户发起的订单的数量中的至少一个；

所述与商家相关的数据包括所述商家的地理位置、上述商家的出餐速度、所述商家的配送方式、所述商家的订单量、所述商家的访问量、所述商家的历史延误次数、所述商家的平均延误时长、对所述商家的投保次数和对商家的理赔次数中的至少一个；

所述与所述路线的环境相关的数据包括在所述订单的配送期间的天气状况、交通状况、时间信息中的至少一个。

9.一种数据处理系统，包括：

第一提取装置，被配置为提取历史订单中的与用户相关的数据、与商家相关的数据、与环境相关的数据以及对应的延误时长；

标识装置，被配置为根据所述延误时长落入的多个延误时长区间中的一个延误时长区间标识对应的延误时长标签；

编码装置，被配置为对所述与用户相关的数据、所述与商家相关的数据、所述与环境相关的数据进行特征编码得到对应的特征向量；

训练装置，被配置为基于所述对应的特征向量和所述对应的延误时长标签对第一预设机器学习模型进行训练；

第二提取装置，被配置为响应于接收到与配送订单相对应的延误险套餐请求，提取所述配送订单的多个数据，包括与当前的用户相关的数据、与当前的商家相关的数据、与当前的环境相关的数据；

概率获取装置，被配置为将从所述配送订单中提取到的所述多个数据进行特征编码得到对应的特征向量，并将编码得到的所述特征向量输入到训练好的所述第一预设机器学习模型，获取所述第一预设机器学习模型预估得到的所述配送订单的延误时长落入多个延误时长区间的概率；

确定装置，被配置为基于所述预估的所述配送订单的延误时长落入所述多个延误时长区间的各自的概率和与所述多个延误时长区间对应的多个延误险档位的保额和保费，确定多个延误险套餐的赔付指标，其中，所述多个延误险套餐的每个包括与所述多个延误时长区间对应的多个延误险档位。

10.一种计算机存储介质，存储了计算机可执行指令，其被处理器运行时执行如权利要求1-8中的任一所述的方法。