CN107844862A

CN107844862A - 订单失效预测方法、装置、介质及电子设备

Info

Publication number: CN107844862A
Application number: CN201711121047.3A
Authority: CN
Inventors: 刘世强
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-03-27

Abstract

本发明实施例提供了一种订单失效预测方法、装置、介质及电子设备，该订单失效预测方法包括：获取订单失效预测模型对测试样本的预测结果；根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；基于所述订单失效预测模型预测各个待预测订单的失效概率；根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。本发明实施例的技术方案可以在预测结果准确率和预测的失效订单数量之间寻求平衡点，以在减少订单流失的前提下，降低相关人员维护订单的工作量，提高整体的工作效率。

Description

订单失效预测方法、装置、介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种订单失效预测方法、装置、介质及电子设备。

背景技术

期缴保单是一种分期缴费的保单，以年缴保费为主，如果到了缴费日期但是客户没有缴费，保单就会失效。为了避免客户不缴续期保费造成保单失效，保险代理人通常会提前采取一些措施挽留客户，由于保单量很大，如果不加区分地对每一张保单都进行沟通挽留，则代理人需要投入较大的精力，而且收益可能并不高。

因此，若能够提前预测哪些保单将要失效，则可以让保险代理人把精力集中在这些高失效风险的保单上，进而能够在减少客户流失的前提下，降低保险代理人的工作量。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明实施例的目的在于提供一种订单失效预测方法、装置、介质及电子设备，可以对将要失效的订单进行预测，以便于相关人员及时采取措施。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明实施例的第一方面，提供了一种订单失效预测方法，包括：获取订单失效预测模型对测试样本的预测结果；根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；基于所述订单失效预测模型预测各个待预测订单的失效概率；根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

在本发明的一些实施例中，基于前述方案，根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测，包括：根据所述对应关系和所述实际的订单预测需求，确定所述待预测订单中需要预测为失效订单的目标占比；按照失效概率从大到小的顺序，从所述待预测订单中选取所述目标占比的订单作为预测到的失效订单。

在本发明的一些实施例中，基于前述方案，根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系，包括：根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比在取各个值时，对应的预测结果准确率，以得到所述对应关系。

在本发明的一些实施例中，基于前述方案，确定所述测试样本中预测为失效样本的占比在取各个值时，对应的预测结果准确率，包括：在所述测试样本中预测为失效样本的占比取任一值时，根据所述订单失效预测模型对所述测试样本预测的失效概率，确定预测为失效的目标测试样本；根据所述测试样本的实际失效情况，确定所述测试样本中实际失效的第一样本个数和所述目标测试样本中实际失效的第二样本个数；计算所述第二样本个数和所述第一样本个数的比值，并将所述比值作为所述任一值对应的预测结果准确率。

在本发明的一些实施例中，基于前述方案，在所述测试样本中预测为失效样本的占比取任一值时，根据所述订单失效预测模型对所述测试样本预测的失效概率，确定预测为失效的目标测试样本，包括：在所述测试样本中预测为失效样本的占比取任一值时，按照预测的失效概率从大到小的顺序，从所述测试样本中选取占比为所述任一值的测试样本作为所述目标测试样本。

在本发明的一些实施例中，基于前述方案，所述的订单失效预测方法还包括：生成初始化预测模型；获取用于对所述初始化预测模型进行训练的训练样本；基于所述训练样本对所述初始化预测模型进行训练，以得到所述订单失效预测模型。

在本发明的一些实施例中，基于前述方案，获取用于对所述初始化预测模型进行训练的训练样本，包括：获取多个历史订单的信息；根据所述多个历史订单的信息，提取各个历史订单的特征，并确定所述各个历史订单的失效情况；根据所述各个历史订单的特征和所述各个历史订单的失效情况，生成所述训练样本。

在本发明的一些实施例中，基于前述方案，所述初始化预测模型包括决策树模型；所述订单失效预测方法还包括：计算所述训练样本包含的各个特征的判别力；根据所述各个特征的判别力，确定所述各个特征在决策树模型中对应的节点位置。

在本发明的一些实施例中，基于前述方案，所述的订单失效预测方法还包括：每隔预定时间通过最新的历史订单数据更新所述测试样本，并重新获取所述预测结果和所述对应关系。

根据本发明实施例的第二方面，提供了一种订单失效预测装置，包括：获取单元，用于获取订单失效预测模型对测试样本的预测结果；处理单元，用于根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；第一预测单元，用于基于所述订单失效预测模型预测各个待预测订单的失效概率；第二预测单元，用于根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

根据本发明实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的订单失效预测方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的订单失效预测方法。

在本发明的一些实施例所提供的技术方案中，通过确定测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系，以根据该对应关系、各个待预测订单的失效概率和实际的订单预测需求对待预测订单是否失效进行预测，使得运营人员能够对预测结果准确率和预测为失效订单的数量进行综合考虑来确定实际的订单预测需求，进而在预测结果准确率和预测的失效订单数量之间寻求平衡点，以在减少订单流失的前提下，降低相关人员维护订单的工作量，提高整体的工作效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本发明的实施例的订单失效预测方法的流程图；

图2示意性示出了根据本发明的实施例的在测试样本中预测为失效样本的占比取各个值时，确定对应的预测结果准确率的流程图；

图3示意性示出了图1中所示的步骤S16的一种处理过程的流程图；

图4示意性示出了根据本发明的实施例的保单失效预测方法的流程图；

图5示意性示出了基于决策树确定是否打球的示意图；

图6示意性示出了根据本发明的实施例的对模型进行训练的流程图；

图7示意性示出了根据本发明的实施例的订单失效预测装置的框图；

图8示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示意性示出了根据本发明的实施例的订单失效预测方法的流程图。

参照图1所示，根据本发明的实施例的订单失效预测方法，包括：

步骤S10，获取订单失效预测模型对测试样本的预测结果；

步骤S12，根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；

步骤S14，基于所述订单失效预测模型预测各个待预测订单的失效概率；

步骤S16，根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

图1所示的订单失效预测方法使得运营人员能够对预测结果准确率和预测为失效订单的数量进行综合考虑来确定实际的订单预测需求，进而在预测结果准确率和预测的失效订单数量之间寻求平衡点，以在减少订单流失的前提下，降低相关人员维护订单的工作量，提高了整体的工作效率。

以下对图1中的各个步骤的可选实施方式进行详细说明：

对于步骤S10：订单失效预测模型是用于对订单失效概率进行预测的，在实际应用时，订单失效预测模型可以选择线性回归模型、树类算法(如决策树、随机森林、梯度提升决策树等)模型、支持向量机模型和神经网络模型等。在本发明的实施例中，由于订单数据的数据量较大，因此可以采用树类算法模型，如可以采用梯度提升决策树算法模型。

需要说明的是，本发明实施例中的订单失效预测模型需要通过训练样本进行训练得到，具体地，可以生成初始化预测模型，然后获取用于对初始化预测模型进行训练的训练样本，通过获取的训练样本对初始化预测模型进行训练，以得到所述订单失效预测模型。

在本发明的实施例中，训练样本是基于多个历史订单确定的，可选地，可以获取到多个历史订单的信息，然后根据多个历史订单的信息提取各个历史订单的特征，并确定各个历史订单的失效情况，然后根据各个历史订单的特征和失效情况，生成上述的训练样本。

在本发明的实施例中，当初始化预测模型为决策树模型时，可以计算训练样本中包含的各个特征的判别力；根据所述各个特征的判别力，确定所述各个特征在决策树模型中对应的节点位置。可选地，可以通过计算各个特征的熵增益来确定各个特征的判别力。

此外，需要说明的是，训练样本也是基于历史订单数据生成的，训练样本的作用会在以下进行阐述。

对于步骤S12：在本发明的示例性实施例中，测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系可以是线性关系，也可以离散的对应关系。

可选地，当测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系为离散的对应关系时，步骤S12中确定该离散的对应关系的方式可以包括：根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比在取各个值时，对应的预测结果准确率，以得到所述对应关系。

需要说明的是，由于订单失效预测模型对测试样本的预测结果是针对每个测试样本给出了预测的失效概率，因此可以按照失效概率从大到小的顺序，从测试样本中选择一定占比的测试样本作为预测的失效样本，并根据测试样本的实际失效情况来确定对应的预测结果准确率。基于此，当从测试样本中选择多个占比(如选择10％、20％、30％等)的测试样本作为预测的失效样本时，相应的也会得到多个预测结果准确率，进而能够得到上述的对应关系。

在本发明的实施例中，可选地，参照图2所示，在测试样本中预测为失效样本的占比取各个值时，确定对应的预测结果准确率的步骤可以包括：

步骤S201，在所述测试样本中预测为失效样本的占比取任一值时，根据所述订单失效预测模型对所述测试样本预测的失效概率，确定预测为失效的目标测试样本。

在本发明的实施例中，如上述的说明，当测试样本中预测为失效样本的占比取任一值时，可以按照预测的失效概率从大到小的顺序，从测试样本中选取占比为所述任一值的测试样本作为所述目标测试样本。

步骤S202，根据所述测试样本的实际失效情况，确定所述测试样本中实际失效的第一样本个数和所述目标测试样本中实际失效的第二样本个数。

步骤S203，计算所述第二样本个数和所述第一样本个数的比值，并将所述比值作为所述任一值对应的预测结果准确率。

在本发明的实施例中，比如测试样本的总个数为1000个，预测为失效的目标测试样本个数为300个，测试样本中实际失效的第一样本个数为400个，目标测试样本中实际失效的第二样本个数为240个，那么可以将240/400＝60％作为预测结果准确率，该预测结果准确率表示预测为失效的样本涵盖了实际失效样本的60％。需要说明的是，在本发明的其它实施例中，也可以通过其它的指标来表示预测结果准确率。

对于步骤S14：可以将各个待预测订单的特征输入至订单失效预测模型中，以确定各个待预测订单的失效概率。

对于步骤S16：在本发明的示例性实施例中，参照图3所示，可以包括如下步骤：

步骤S301，根据所述对应关系和实际的订单预测需求，确定所述待预测订单中需要预测为失效订单的目标占比。

在本发明的实施例中，对于预测为失效的订单，需要运营维护人员进行维护，那么必然需要投入一定的人力成本，而预测结果准确率决定了维护工作是否更有针对性、效率是否更高，通常运营维护人员希望能够投入较少的人力成本就能获取较大的收益。比如，如果把待预测订单中的30％预测为失效订单，而最终这30％的订单中涵盖了实际失效订单的73％；如果把待预测订单中的50％预测为失效订单，而最终这50％的订单中涵盖了实际失效订单的87％。对于上述两个示例，如果选择将待预测订单中的30％预测为失效订单，那么只需重点处理这30％的订单，就能够挽留73％的失效保单，其针对性更强，效率更高。因此在得到上述的对应关系之后，可以根据实际的订单预测需求，确定需要预测为失效订单的目标占比。

步骤S302，按照失效概率从大到小的顺序，从所述待预测订单中选取所述目标占比的订单作为预测到的失效订单。

在本发明的实施例中，由于是基于测试样本的实际失效情况和预测结果来确定上述的对应关系，而该对应关系用于后续对待预测订单进行预测，因此为了保证该对应关系更适合用于对待预测订单进行预测，可以每隔预定时间通过最新的历史订单数据更新所述测试样本，并重新获取所述预测结果和所述对应关系，以确保得到最为准确的预测结果。

需要说明的是：上述的待预测订单可以是电商平台的商品订单、也可以是保险行业的保单，还可以是外卖行业的外卖订单等。以下以保单为例对本发明实施例的技术方案进行详细说明：

本发明实施例的基本思想是通过历史保单对预测模型进行训练，然后采用训练后的模型对待预测保单未来失效的可能性进行预测。其中，参照图4所示，主要包含以下几个步骤：

步骤S401，算法模型的选择。

对于预测场景，常用的算法有线性回归、树类算法(决策树、随机森林、梯度提升决策树等)、支持向量机和神经网络等。对于数据量较大的情景，树类算法常常取得较好的效果，因此本发明的实施例采用树类算法中的梯度提升决策树算法。

决策树的核心思想是：首先找出最有判别力的属性(属性即为特征、也可以称之为因子)，把样例分成多个子集，每个子集又选择最有判别力的属性进行划分，一直进行到所有子集仅包含同一类型的数据为止，最后得到一棵决策树。如图5中所示的示例为决定是否打球的决策树，在图5所示的示例中，各个因子与取值的关系如表1所示：

因子	取值
		天气	晴、多云和下雨
湿度	高和正常
		风力	有风和无风

表1

对于上述的示例，训练样本的格式如表2所示：

天气	湿度	风力	结果
				晴	高	无风	不打球
下雨	低	有风	不打球
				多云	低	无风	打球
…	…	…	…

表2

其中，天气、湿度和风力是特征，结果是标签，我们通过对训练样本的训练，得到一个模型，使得这个模型对数据进行判断的结果误差尽量低。模型训练就是通过特征判别标签，通常最有判别力的因子会放在树的根部位置，各个因子的判别力可通过熵增益来排序，公式如下：

在上述公式中，A表示属性，Value(A)表示属性A取值的集合，v表示A的某一属性值，S表示总样本，|S|表示S中所含样例数，S_v表示S中A的值为v的样本集合，|S_v|表示S_v中所含样例数。

梯度提升决策树的原理是，在决策树的基础上，利用多棵决策树提高决策能力和泛化能力，核心思想是对预测误差进行迭代训练。

步骤S402，训练样本的选择。

在本发明的实施例中，可以使用过去一年的保单失效和续费交易作为训练样本。由于本发明实施例中使用的算法是决策树类算法，因此要求训练样本是标注好的，也就是说每条训练样本有一个标签，标注这个训练样本是续费成功的还是失效的，除了标签信息外，最重要的是要选取哪些因子作为特征，因此需要对训练样本进行特征工程。

步骤S403，对训练样本进行特征工程。

预测的本质是根据输入的因子判断某个事件发生的概率，除了算法选择，最重要的就是选取合适的因子作为特征来训练模型。在本发明的实施例中，这些因子就是保单的属性。选取哪些属性作为因子是一个经验和试验相结合的过程，通过业务分析和多次试验，可以选择以下因子作为特征：缴费金额、第几次续期、年龄、产品、公司、中支、性别、职业、婚姻状况和渠道，这些因子能够明显地影响提高预测精度。

除了特征选择以外，还需要对训练样本进行清洗，因为系统中可能由于各种原因产生一些异常数据，例如年龄为负值等，这些异常数据通过清洗会被删除。

另外，保费金额是一个连续值，而决策树要求特征应该为离散值，因此为了适应树模型的要求，需要对缴费金额进行离散表示，例如保费1～100标记为1，100～1000标记为2，1000～5000标记为3，通过离散化表示，可以满足决策树算法的要求。

如上所述，对于决策树算法，需要确定各个因子的判别力，然后根据各个因子的判别力来确定各个因子在决策树种的位置。

通过上述处理，可以得到如表3所示的训练样本：

表3

在表3中，每条记录即为一个训练样本，其中“标签”列为0，说明该训练样本对应的保单失效；“标签”列为1，说明该训练样本对应的保单续费。通过把训练样本输入到模型中不断训练，得到一个训练好的模型，在使用过程中，输入一个测试样本(主要是特征数据)，就会得到标签0和标签1分别对应的概率，例如预测出某一测试样本标签为0的概率为98％，标签为1的概率为2％。

步骤S404，进行模型训练。

可选地，模型训练的过程如图6所示，主要包含以下步骤：

步骤S601，建立一个初始化的模型。比如，可以通过Scikit开源软件包来建议一个初始化的模型。

步骤S602，将训练样本输入至初始化模型中进行训练，得到最后的模型。

步骤S603，将测试样本输入至最终的模型。

步骤S604，得到模型对测试样本的预测结果。

继续参照图4所示，还包括：

步骤S405，模型评估。

假设某保险公司有1000张保单面临续期(续期不交费保单就会失效)，那么可以将这1000张保单信息输入到已经训练好的模型中，得到各个保单的失效概率。但是如果简单的把失效概率为50％作为分界点(即概率大于50％的认为将失效)并不合适，这是由于保单的失效概率是动态的，并非是一成不变的。

基于上述问题，可以有如下考虑：假设该保险公司的策略是对30％的最可能失效的保单安排专人进行沟通，也就是300张保单，那么可以将这1000张保单按照预测出的失效概率由大到小进行排列，然后将最前面的300张保单预测为失效，剩下的700张保单预测为不失效。假如预测为失效的300张保单中有240张后来的确失效了，而所有1000保单中总共实际失效了400张，那么得到一个比率：240/400＝60％。这个比率就是真阳性率(TruePositive Rate，简称TPR)，也叫召回率(Recall Rate，可以理解为残次品有多少比例被召回)，在本例中，当预测30％保单失效时，TPR＝60％。

假如将所有保单都预测是失效，那么TPR为100％，但是这样的预测没有任何意义。最完美的结果是预测失效比例尽量低，同时对应的TPR尽量高，但是这两者是矛盾的，需要根据实际情况从中找一个平衡点。

当根据实际需求找到一个平衡点之后，可以确定需要将多少比例的保单预测为失效，进而可以根据这个比例来对一批待预测保单进行预测，得到这一批保单中预测为失效的保单。

在本发明的一个具体实施例中，比如使用的训练样本(用于对模型进行训练)为2015.11～2016.8之间的数据，使用的测试样本(用于测试模型的预测情况)为2016.8～2016.12之间的数据。表4示出了在将预测失效概率前30％和50％的保单预测为失效保单时，对应的TPR值：

表4

对于表4中的数据，以2016.11月份的预测为例：

如果将预测失效概率前30％的保单预测为失效保单，那么这部分保单涵盖了实际失效保单的73.6566％。如果将预测失效概率前50％的保单预测为失效保单，那么这部分保单涵盖了实际失效保单的87.7416％。

以将预测失效概率前30％的保单预测为失效保单为例，只要重点处理这30％的保单，就能挽留大部分(73.7％)的失效保单，工作效率更高，针对性更强。

需要说明的是：表4所示的数据即可以理解为一种对应关系，在实际应用时，可以根据该对应关系和实际需求确定需要将多少比例的保单预测为失效，进而可以应用在对一批待预测保单的预测上。

同时，为了保证该对应关系更适合用于对待预测保单进行预测，可以每隔预定时间通过最新的历史保单数据对测试样本进行更新，并重新获取上述的对应关系，以确保得到最为准确的预测结果。比如在对2017.1的保单进行预测时，测试样本可以选择2016.8～2016.12之间的数据；在对2017.2的保单进行预测时，测试样本可以选择2016.9～2017.1之间的数据。

本发明上述实施例的技术方案使得能够在TPR与预测的失效订单数量之间寻求平衡点，进而可以在减少订单流失的前提下，降低相关人员维护订单的工作量，提高整体的工作效率。

图7示意性示出了根据本发明的实施例的订单失效预测装置的框图。

参照图7所示，根据本发明的实施例的订单失效预测装置700，包括：第一获取单元702、处理单元704、第一预测单元706和第二预测单元708。

具体地，第一获取单元702用于获取订单失效预测模型对测试样本的预测结果；处理单元704用于根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；第一预测单元706用于基于所述订单失效预测模型预测各个待预测订单的失效概率；第二预测单元708用于根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

在本发明的一些实施例中，基于前述方案，第二预测单元708配置为：根据所述对应关系和所述实际的订单预测需求，确定所述待预测订单中需要预测为失效订单的目标占比；按照失效概率从大到小的顺序，从所述待预测订单中选取所述目标占比的订单作为预测到的失效订单。

在本发明的一些实施例中，基于前述方案，处理单元704配置为：根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比在取各个值时，对应的预测结果准确率，以得到所述对应关系。

在本发明的一些实施例中，基于前述方案，处理单元704包括：第一确定单元，用于在所述测试样本中预测为失效样本的占比取任一值时，根据所述订单失效预测模型对所述测试样本预测的失效概率，确定预测为失效的目标测试样本；第二确定单元，用于根据所述测试样本的实际失效情况，确定所述测试样本中实际失效的第一样本个数和所述目标测试样本中实际失效的第二样本个数；第一计算单元，用于计算所述第二样本个数和所述第一样本个数的比值，并将所述比值作为所述任一值对应的预测结果准确率。

在本发明的一些实施例中，基于前述方案，第一确定单元配置为：在所述测试样本中预测为失效样本的占比取任一值时，按照预测的失效概率从大到小的顺序，从所述测试样本中选取占比为所述任一值的测试样本作为所述目标测试样本。

在本发明的一些实施例中，基于前述方案，所述的订单失效预测装置700还包括：生成单元，用于生成初始化预测模型；第二获取单元，用于获取用于对所述初始化预测模型进行训练的训练样本；训练单元，用于基于所述训练样本对所述初始化预测模型进行训练，以得到所述订单失效预测模型。

在本发明的一些实施例中，基于前述方案，第二获取单元配置为：获取多个历史订单的信息；根据所述多个历史订单的信息，提取各个历史订单的特征，并确定所述各个历史订单的失效情况；根据所述各个历史订单的特征和所述各个历史订单的失效情况，生成所述训练样本。

在本发明的一些实施例中，基于前述方案，初始化预测模型包括决策树模型；所述订单失效预测装置还包括：第二计算单元，用于计算所述训练样本包含的各个特征的判别力；第三确定单元，用于根据所述各个特征的判别力，确定所述各个特征在决策树模型中对应的节点位置。

在本发明的一些实施例中，基于前述方案，所述的订单失效预测装置700还包括：更新单元，用于每隔预定时间通过最新的历史订单数据更新所述测试样本，并重新获取所述预测结果和所述对应关系。

下面参考图8，其示出了适于用来实现本发明实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备的计算机系统800仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的订单失效预测方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S10，获取订单失效预测模型对测试样本的预测结果；步骤S12，根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；步骤S14，基于所述订单失效预测模型预测各个待预测订单的失效概率；步骤S16，根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

又如，所述的电子设备可以实现如图2至图4、图6中所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种订单失效预测方法，其特征在于，包括：

获取订单失效预测模型对测试样本的预测结果；

根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；

基于所述订单失效预测模型预测各个待预测订单的失效概率；

根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

2.根据权利要求1所述的订单失效预测方法，其特征在于，根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测，包括：

根据所述对应关系和所述实际的订单预测需求，确定所述待预测订单中需要预测为失效订单的目标占比；

按照失效概率从大到小的顺序，从所述待预测订单中选取所述目标占比的订单作为预测到的失效订单。

3.根据权利要求1所述的订单失效预测方法，其特征在于，根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系，包括：

根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比在取各个值时，对应的预测结果准确率，以得到所述对应关系。

4.根据权利要求3所述的订单失效预测方法，其特征在于，确定所述测试样本中预测为失效样本的占比在取各个值时，对应的预测结果准确率，包括：

在所述测试样本中预测为失效样本的占比取任一值时，根据所述订单失效预测模型对所述测试样本预测的失效概率，确定预测为失效的目标测试样本；

根据所述测试样本的实际失效情况，确定所述测试样本中实际失效的第一样本个数和所述目标测试样本中实际失效的第二样本个数；

计算所述第二样本个数和所述第一样本个数的比值，并将所述比值作为所述任一值对应的预测结果准确率。

5.根据权利要求4所述的订单失效预测方法，其特征在于，在所述测试样本中预测为失效样本的占比取任一值时，根据所述订单失效预测模型对所述测试样本预测的失效概率，确定预测为失效的目标测试样本，包括：

在所述测试样本中预测为失效样本的占比取任一值时，按照预测的失效概率从大到小的顺序，从所述测试样本中选取占比为所述任一值的测试样本作为所述目标测试样本。

6.根据权利要求1所述的订单失效预测方法，其特征在于，还包括：

生成初始化预测模型；

获取用于对所述初始化预测模型进行训练的训练样本；

基于所述训练样本对所述初始化预测模型进行训练，以得到所述订单失效预测模型。

7.根据权利要求6所述的订单失效预测方法，其特征在于，获取用于对所述初始化预测模型进行训练的训练样本，包括：

获取多个历史订单的信息；

根据所述多个历史订单的信息，提取各个历史订单的特征，并确定所述各个历史订单的失效情况；

根据所述各个历史订单的特征和所述各个历史订单的失效情况，生成所述训练样本。

8.根据权利要求6所述的订单失效预测方法，其特征在于，所述初始化预测模型包括决策树模型；

所述订单失效预测方法还包括：

计算所述训练样本包含的各个特征的判别力；

根据所述各个特征的判别力，确定所述各个特征在决策树模型中对应的节点位置。

9.根据权利要求1至8中任一项所述的订单失效预测方法，其特征在于，还包括：

每隔预定时间通过最新的历史订单数据更新所述测试样本，并重新获取所述预测结果和所述对应关系。

10.一种订单失效预测装置，其特征在于，包括：

获取单元，用于获取订单失效预测模型对测试样本的预测结果；

处理单元，用于根据所述预测结果和所述测试样本的实际失效情况，确定所述测试样本中预测为失效样本的占比与预测结果准确率之间的对应关系；

第一预测单元，用于基于所述订单失效预测模型预测各个待预测订单的失效概率；

第二预测单元，用于根据所述对应关系、所述各个待预测订单的失效概率和实际的订单预测需求，对所述各个待预测订单是否失效进行预测。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至9中任一项所述的订单失效预测方法。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的订单失效预测方法。