CN110084455B

CN110084455B - 一种数据处理方法、装置及系统

Info

Publication number: CN110084455B
Application number: CN201810079093.XA
Authority: CN
Inventors: 黄俨; 杨旭
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2023-08-29
Anticipated expiration: 2038-01-26
Also published as: CN110084455A

Abstract

本申请公开了一种数据处理方法、装置及系统；上述数据处理方法，包括：基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对生存函数曲线；通过调整目标客户的客户特征，使得目标客户的绝对生存函数曲线匹配目标客户的目标生存曲线；根据目标客户的客户特征的调整结果，确定目标客户的目标生存曲线对应的一个或多个特征方案。本申请实现自动有效管理客户生命周期。

Description

一种数据处理方法、装置及系统

技术领域

本申请涉及但不限于数据处理领域，尤其涉及一种数据处理方法、装置及系统。

背景技术

生存分析是指根据试验或调查得到的数据，对观察对象的生存时间或者某一事件的持续时间进行分析和推断，研究生存时间和状态与众多影响因素间关系及其程度大小的方法。生存分析在工业、商业、社会学中得到了广泛应用。比如，在商业中，可以利用生存分析理解以下问题：客户多长时间会流失或新增、客户在合约到期之后是否会续约、客户保持金卡会员级别的时间将持续多久、客户在一年之后是否还在使用某产品等；其中，生存周期的意义就随着具体的应用场景而有不同的含义；例如，在客户流失场景中，一旦客户流失则该客户的生存周期结束；在客户为金卡会员的场景中，客户的降级或升级都代表该事件(即该客户为金卡会员)的生存周期结束。

目前的生存分析所采用的方法难以对大规模数据进行快速分析。而且，用户往往无法深入理解目前的生存分析方法得到的分析结果，导致难以将分析结果快速投入到实际应用中，需要用户对分析结果自行研究得到结论，无法实现对生命周期的有效管理。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例提供一种数据处理方法、装置及系统，实现自动有效管理客户生命周期。

第一方面，本申请实施例提供一种数据处理方法，包括：

基于目标客户的客户特征、所述客户特征的特征系数以及基准风险率，确定所述目标客户的绝对生存函数曲线；

通过调整所述目标客户的客户特征，使得所述目标客户的绝对生存函数曲线匹配所述目标客户的目标生存曲线；

根据所述目标客户的客户特征的调整结果，确定所述目标客户的目标生存曲线对应的一个或多个特征方案。

在示例性实施方式中，上述方法还可以包括：对多个客户的时序特征数据进行分布式处理，得到所述客户特征的特征系数。

在示例性实施方式中，所述对多个客户的时序特征数据进行分布式处理，得到所述客户特征的特征系数，可以包括：

对所述多个客户的时序特征数据按照时间倒序，采用并行排序(PSRS)算法进行分布式排序；

基于分布式排序结果，计算风险集合；

基于所述风险集合，通过局部动态规划和目标函数迭代优化处理，得到所述客户特征的特征系数。

在示例性实施方式中，所述得到所述客户特征的特征系数之后，上述方法还包括：根据所述多个客户的时序特征数据以及所述客户特征的特征系数，确定所述基准风险率。

在示例性实施方式中，上述方法还可以包括：基于所述目标客户的客户特征以及所述客户特征的特征系数，确定所述目标客户的相对风险率。

在示例性实施方式中，上述方法还可以包括：基于所述目标客户的客户特征、所述客户特征的特征系数以及所述基准风险率，确定所述目标客户的绝对风险率曲线。

在示例性实施方式中，所述确定所述目标客户的绝对风险率曲线之后，上述方法还可以包括：对所述目标客户的绝对风险率曲线进行插值处理，确定所述目标客户在任一时间点的绝对风险率。

在示例性实施方式中，所述确定所述目标客户的绝对生存函数曲线之后，上述方法还可以包括：对所述目标客户的绝对生存函数曲线进行插值处理，确定所述目标客户在任一时间点的绝对生存函数。

第二方面，本申请实施例提供一种数据处理装置，包括：

曲线计算单元，适于基于目标客户的客户特征、所述客户特征的特征系数以及基准风险率，确定所述目标客户的绝对生存函数曲线；

特征计算单元，适于通过调整所述目标客户的客户特征，使得所述目标客户的绝对生存函数曲线匹配所述目标客户的目标生存曲线；

处理单元，适于根据所述目标客户的客户特征的调整结果，确定所述目标客户的目标生存曲线对应的一个或多个特征方案。

在示例性实施方式中，上述装置还可以包括：特征系数计算单元，适于对多个客户的时序特征数据进行分布式处理，得到所述客户特征的特征系数。

在示例性实施方式中，上述装置还可以包括：基准风险率计算单元，适于根据所述多个客户的时序特征数据以及所述客户特征的特征系数，确定所述基准风险率。

第三方面，本申请实施例提供一种数据处理系统，包括：

第一分析模块、第二分析模块以及第一管理模块；所述第二分析模块连接所述第一分析模块和所述第一管理模块；

其中，所述第一分析模块，适于对多个客户的时序特征数据进行分布式处理，得到客户特征的特征系数；

所述第二分析模块，适于根据所述多个客户的时序特征数据以及所述客户特征的特征系数，确定基准风险率；

所述第一管理模块，适于基于目标客户的客户特征、所述客户特征的特征系数以及所述基准风险率，确定所述目标客户的绝对生存函数曲线；通过调整所述目标客户的客户特征，使得所述目标客户的绝对生存函数曲线匹配所述目标客户的目标生存曲线；根据所述目标客户的客户特征的调整结果，确定所述目标客户的目标生存曲线对应的一个或多个特征方案。

在示例性实施方式中，上述系统还可以包括：第二管理模块，连接所述第一分析模块，所述第二管理模块适于基于所述目标客户的客户特征以及所述客户特征的特征系数，确定所述目标客户的相对风险率。

在示例性实施方式中，第一管理模块，还可以适于执行以下至少之一：

基于所述目标客户的客户特征、所述客户特征的特征系数以及所述基准风险率，确定所述目标客户的绝对风险率曲线；

对所述目标客户的绝对风险率曲线进行插值处理，确定所述目标客户在任一时间点的绝对风险率；

对所述目标客户的绝对生存函数曲线进行插值处理，确定所述目标客户在任一时间点的绝对生存函数。

此外，本申请实施例还提供一种计算设备，包括：存储器和处理器；所述存储器用于存储数据处理程序，所述数据处理程序被所述处理器执行时实现上述第一方面提供的数据处理方法的步骤。

此外，本申请实施例还提供一种计算机可读介质，存储有数据处理程序，所述数据处理程序被处理器执行时实现上述第一方面提供的数据处理方法的步骤。

在本申请实施例中，基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对生存函数曲线；通过调整目标客户的客户特征，使得目标客户的绝对生存函数曲线匹配目标客户的目标生存曲线；根据目标客户的客户特征的调整结果，确定目标客户的目标生存曲线对应的一个或多个特征方案。本申请实施例根据目标客户的目标生存曲线，逆向自动计算对应的特征方案，从而使得用户可以迅速找到改变客户生命周期的关键因素及变化大小，以便对市场策略进行有效投放，或者针对性修改策略，有效设计或改变客户生命周期。

在示例性实现方式中，客户特征的特征系数以及基准风险率的计算过程设计为分布式处理，而且通过分布式集群的并行计算能力，不仅能分析大规模数据，更能快速获得结果。

在示例性实施方式中，通过对绝对生存函数曲线和绝对风险率曲线进行插值处理，可以确定客户在任一时间点的绝对生存函数和绝对风险率，从而得到一个完整时间段内的生命周期，而且可以预测未来某个时间点的绝对生存函数和绝对风险率。

当然，实施本申请的任一产品并不一定需要同时达到以上所有优点。

附图说明

图1为本申请实施例提供的数据处理系统的示意图；

图2为本申请实施例提供的数据处理系统的示例图；

图3为本申请实施例提供的时序特征分析模块的实现示例图；

图4为本申请实施例提供的生存曲线分析模块的实现示例图；

图5为本申请实施例提供的生存曲线和周期管理模块的实现示例图；

图6为本申请实施例提供的数据处理方法的流程图；

图7为本申请实施例提供的数据处理方法的示例流程图；

图8为本申请实施例提供的数据处理装置的示意图；

图9为本申请实施例提供的计算设备的示意图。

具体实施方式

以下结合附图对本申请实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本申请，并不用于限定本申请。

需要说明的是，如果不冲突，本申请实施例以及实施例中的各个特征可以相互结合，均在本申请的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

一些实施方式中，执行数据处理方法的计算设备可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存(memory)。

内存可能包括计算机可读介质中的非永久性存储器、随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。内存可能包括模块1，模块2，……，模块N(N为大于2的整数)。

计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)，快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

下面先对本申请涉及的概念进行说明。

风险率：指在时间点t存活的条件下，t之后的单位时间内的死亡概率。

生存函数：指超过时间点t之后的存活概率。

风险率曲线：指风险率随着时间变化的曲线图。

生存曲线：指生存函数随着时间变化的曲线图。

生命周期：指事件从上一次发生或从未发生到下一次发生的时间，比如，生存曲线上存活概率从1到0的时间，或者，生存曲线上存活概率从0到1的时间。其中，事件可以定义状态，已发生则事件状态为1，未发生或数据缺失未知则事件状态为0，常见的事件可以包括客户流失、客户新增、信用违约等。

基准风险率：指当协变量(特征)为平均水平时的风险率。

基准生存函数：指当协变量(特征)为平均水平时的生存函数。

绝对风险率：指在当前的协变量(特征)下实际的风险率。

绝对生存函数：指在当前的协变量(特征)下实际的生存函数。

绝对风险率曲线：指绝对风险率随着时间变化的曲线图。

绝对生存函数曲线：指绝对生存函数随着时间变化的曲线图。

本申请实施例提供一种数据处理方法、装置及系统，能够实现自动有效管理客户生命周期。本申请实施例可以基于分布式的Cox回归模型(又称为风险比例模型)进行生存分析。其中，Cox回归模型中可包含协变量(特征)，当众多的特征对生命周期有影响时，应关心这其中哪些特征对生命周期有重要的影响，其影响有多大，通过建立生命周期随特征变化的回归模型，来确定这些对生命周期有影响的特征，并根据特征在模型中的影响对风险率、生存函数进行预测。在Cox回归模型中，假定了一个基准风险率，特征的变化会使绝对风险率在基准风险率基础上增加某一个倍数，因此在分析完特征对风险率的影响大小，再计算出基准风险率后即可计算某一事件的绝对风险率。然而，本申请对此并不限定。在其他实现方式中，本申请可以基于其他生存分析方法进行实施。

图1为本申请实施例提供的数据处理系统的示意图。如图1所示，本实施例提供的数据处理系统，包括：第一分析模块101、第二分析模块102以及第一管理模块103；其中，第二分析模块102分别连接第一分析模块101和第一管理模块103。

其中，第一分析模块101，适于对多个客户的时序特征数据进行分布式处理，得到客户特征的特征系数；第二分析模块102，适于根据多个客户的时序特征数据以及客户特征的特征系数，确定基准风险率；第一管理模块103，适于基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对生存函数曲线；通过调整目标客户的客户特征，使得目标客户的绝对生存函数曲线匹配目标客户的目标生存曲线；根据目标客户的客户特征的调整结果，确定目标客户的目标生存曲线对应的一个或多个特征方案。

本实施例中，第一管理模块103可以从目标客户的目标生存曲线，逆向计算出与目标生存曲线对应的特征方案，提供给决策者进行挑选，使得决策者能够迅速找到改变目标客户的生命周期的关键因素及变化大小，从而实现有效管理和改变客户生命周期。

本实施例中，数据处理系统可以部署在分布式集群(比如，多个服务器)上，通过分布式集群的并行计算能力，提高数据处理能力。然而，本申请对此并不限定。

本实施例中，任一客户的时序特征数据可以包括多组客户特征数据、任一组客户特征数据对应的时序信息以及事件状态。比如，以客户为商业保险客户为例，客户特征数据可以包括：客户年龄、职业、收入等信息；事件状态为1表示事件发生，事件状态为0表示事件未发生，若不确定或数据缺失则可以用0标明。

本实施例中，第一分析模块101可以处理全量客户的时序特征数据。其中，第一分析模块101以分布式生存分析为基础，可以处理上千万到上亿条的时序特征数据，从而提高数据处理速度以及结果精度。示例性地，第一分析模块101可以结合PSRS(ParallelSorting by Regular Sampling，并行排序)算法和动态规划实现分布式处理。

在示例性实施方式中，第一分析模块101可以通过以下方式对多个客户的时序特征数据进行分布式处理，得到客户特征的特征系数：

对多个客户的时序特征数据按照时间倒序，采用PSRS算法进行分布式排序；基于分布式排序结果，计算风险集合；基于风险集合，通过局部动态规划和目标函数迭代优化处理，得到客户特征的特征系数。

本实施例中，时序特征数据可以来源于数据处理系统外部的数据处理平台，比如，开放数据处理服务平台。

本实施例中，客户特征的特征系数用于说明客户特征对客户生命周期的影响；比如，对于归一化后的特征系数，特征系数越大说明对应的客户特征对客户生命周期的影响越大。

在示例性实施方式中，本实施例的数据处理系统还可以包括：第二管理模块，连接第一分析模块，第二管理模块适于基于目标客户的客户特征以及客户特征的特征系数，确定目标客户的相对风险率。

在示例性实施方式中，第一管理模块103，还可以适于执行以下至少之一：

基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对风险率曲线；

对目标客户的绝对风险率曲线进行插值处理，确定目标客户在任一时间点的绝对风险率；

对目标客户的绝对生存函数曲线进行插值处理，确定目标客户在任一时间点的绝对生存函数。

在本示例性实施方式中，第一管理模块103通过自动对绝对生存函数曲线和绝对风险率曲线进行插值计算，对于任何一个时间点，都可以计算出相应的绝对生存函数或绝对风险率，从而实现任一时间点或未来某一时刻的数据预测，使策略制定人员可以全面管理完整的生命周期，而不是局限于输入数据所涵盖的时间范围。

下面参照图2对本实施例提供的数据处理系统进行举例说明。

如图2所示，本示例提供的数据处理系统包括：时序特征分析模块201(对应于上述的第一分析模块)、生存风险比例管理模块202(对应于上述的第二管理模块)、生存曲线分析模块203(对应于上述的第二分析模块)、生存曲线和周期管理模块204(对应于上述的第一管理模块)。

如图2所示，生存风险比例管理模块202连接时序特征分析模块201，生存曲线分析模块203连接时序特征分析模块201、生存风险比例管理模块202以及生存曲线和周期管理模块204。

如图2所示，本示例提供的数据处理系统可以从外部的数据处理平台获取大量客户的时序特征数据，以及目标客户的客户特征等数据。

在本示例中，时序特征分析模块201可以从外部的数据处理平台获得原始全量客户的时序特征数据，这些数据是时序的并有事件状态的，但允许事件状态未定或缺失。其中，事件状态采用1或0标明，1表示事件发生，0表示事件未发生，若不确定或缺失状态信息则可以用0标明。时序特征分析模块201可以对大规模的时序特征数据进行分布式处理，并将处理结果(比如，包括客户特征的特征系数以及任一客户的相对风险率)输出到生存风险比例管理模块202中。

本示例中，在大规模数据的应用场景中，时序特征分析模块201可以通过分布式处理大量的时序特征数据(比如，亿条量级的时序特征数据)，迅速得到客户特征对生命周期的影响(采用客户特征的特征系数来指示)及每个客户的相对风险率，从而为后续管理客户完整的生存曲线和产生商业策略打下基础。

如图3所示，时序特征分析模块201可以包括：排序单元2011、风险集合计算单元2012、局部动态规划单元2013以及迭代优化目标函数单元2014。

比如，对于一个p维的时序特征数据(其中，第i个观察值有p个客户特征x_i1到x_ip，每个观察值均有时间t_i和事件是否发生的状态s_i)输入时序特征分析模块201之后，首先排序单元2011按照PSRS算法进行分布式排序处理，即时序特征数据被分成M个节点，每个节点中按照时间对p维的观察值进行降序排列，每个节点取M个采样时间，在M个节点的集群中全局通信后对采样时间降序排列，再取M-1个采样时间发布到每个节点中，各个节点的观察值按照采样时间分区编号，将各自编号数据传送到对应编号的集群节点中，再在各个节点中局部按时间降序排列，最后完成全局排序。然后，基于分布式排序结果，针对任一观察值，风险集合计算单元2012，将所有比该观察值时间滞后的特征向量与当前迭代步骤的系数线性叠加即得到该观察值的风险集合。由于局部的时间降序已经排好，局部动态规划单元2013可以通过局部动态规划计算出每个节点下一时间的一阶和二阶导数迭代。由于全局时间降序也排好，时间随着节点编号增加而减小，各节点的一阶和二阶导数通过集群通信可以得到最终的导数，迭代优化目标函数单元2014可以完成目标函数的一轮迭代优化。本示例中，时序特征分析模块201的输出可以包括p维的特征系数和每个客户的相对风险率；其中，对于归一化的特征系数来说，特征系数越大说明对应的客户特征对客户生命周期的影响越大，管理者可以通过调整影响大的客户特征来改变客户的生命周期。

本示例中，生存风险比例管理模块202会管理客户的相对风险率，以及客户特征对于生命周期的影响大小，而且可以根据从外部的数据处理平台输入的管理数据(比如，包括客户的客户特征)来确定对应的相对风险率。

其中，由于生存风险比例管理模块202中存储有时序特征分析模块201计算得到的多个客户的相对风险率，则可以根据客户ID在生存风险比例管理模块202中查询已记录客户ID对应的相对风险率。另外，针对生存风险比例管理模块202中未记录的客户ID，则可以根据该客户ID对应的客户特征的取值以及由时序特征分析模块201计算出的客户特征的特征系数，计算该客户ID对应的相对风险率。同样地，生存风险比例管理模块202还可以根据输入的一个或多个客户特征的取值以及由时序特征分析模块201计算出的客户特征的特征系数，计算该客户特征影响下的相对风险率，以此作为后续制定商业策略的数值逻辑。

示例性地，一个客户ID对应的相对风险率可以根据以下式子得到：

其中，h(t)表示风险函数，h₀(t)表示基准风险函数；x_i表示客户ID对应的客户特征的取值，β_i表示客户特征的特征系数。

其中，生存风险比例管理模块202还可以根据客户特征的特征系数的大小，确定重要的客户特征以及不重要的客户特征，以此作为市场营销时分配预算的重要依据。比如，针对归一化后的特征系数，将大于或等于阈值的特征系数对应的客户特征确定为重要的客户特征，将小于该阈值的特征系数对应的客户特征确定为不重要的客户特征。然而，本申请对此并不限定。

本示例中，生存曲线分析模块203可以完成基准风险率的计算，以及绝对生存函数曲线的分析计算。如图4所示，生存曲线分析模块203可以包括：风险基准计算单元2031以及风险计算单元2032。

其中，风险基准计算单元2031的输入数据可以包括：输入时序特征分析模块201的时序特征数据以及由生存风险比例管理模块202存储的客户特征的特征系数。

例如，对于p维的时序特征数据，风险基准计算单元2031负责计算基准风险率；其中，处理过程可以参照时序特征分析模块201中的分布式计算过程，只是数据、动态规划的状态转移方程和目标函数不同；其中，可以采用时序特征分析模块201中已经计算出的特征系数和观察值做线性叠加，计算出每个节点中各个时间点的风险率，再在集群中进行全局通信得到最终的基准风险率(即客户特征平均影响力下的风险率)。基准风险率对于全量客户而言都是相同的。

其中，风险计算单元2032的输入数据可以包括：风险基准计算单元2031的计算结果、由生存风险比例管理模块202存储的客户特征的特征系数、来自外部的数据处理平台的客户特征数据。其中，来自外部的数据处理平台的客户特征数据可以不携带时序和状态信息。

例如，在风险计算单元2032输入已经算出的特征系数和基准风险率，针对任一客户，将特征系数与来自外部的数据处理平台的观察值线性叠加取自然指数后，与基准风险率的乘积即为绝对风险率，相应地，绝对生存函数也可以算出。风险计算单元2032可以得到每个客户的绝对生存函数曲线和绝对风险率曲线。示例性地，风险计算单元2032还可以基于任一客户的绝对生存函数曲线进行插值处理，从而得到该客户在任一时间点上的绝对生存函数；风险计算单元2032还可以基于任一客户的绝对风险率曲线进行插值处理，从而得到该客户在任一时间点上的绝对风险率。如此，管理者可以知道客户在某个时间点上对事件状态为0或1的概率有多大，以决定在何时对客户进行市场策略的调整、调整方案以及是否继续定位目标客户群等决策。

本示例中，生存曲线和周期管理模块204可以存储生存曲线分析模块203计算得到的基准风险率，以及多个客户的完整的绝对生存函数曲线和绝对风险率曲线；而且可以根据从外部的数据处理平台输入的管理数据(比如，包括客户的客户特征、目标生存曲线等)来提供对应的查询结果。

其中，由于生存曲线和周期管理模块204中可以存储时序特征分析模块201计算得到的客户特征的特征系数、生存曲线分析模块203计算得到的多个客户的完整的绝对生存函数曲线和绝对风险率曲线；则可以根据客户ID查询以下至少之一：已记录客户ID的绝对生存函数曲线、绝对风险率曲线、生命周期、已记录客户ID在任一时间点的绝对生存函数、绝对风险率。

如图5所示，生存曲线和周期管理模块204可以包括：曲线计算单元2041、特征计算单元2042以及处理单元2043。

其中，针对生存曲线和周期管理模块204中未记录的客户ID，曲线计算单元2041可以基于目标客户的客户特征、客户特征的特征系数以及基准风险率，计算目标客户的绝对生存函数曲线、绝对风险率曲线以及生命周期；其中，绝对生存函数曲线、绝对风险率曲线的生成过程可以参照风险计算单元2032的处理过程，故于此不再赘述。根据计算得到的绝对生存函数曲线可以确定生命周期。示例性地，生存曲线和周期管理模块204还可以基于任一目标客户的绝对生存函数曲线进行插值处理，从而可以查询得到该目标客户在任一时间点上的绝对生存函数；还可以基于任一目标客户的绝对风险率曲线进行插值处理，从而可以查询得到该目标客户在任一时间点上的绝对风险率。

同样地，生存曲线和周期管理模块204还可以根据输入的一个或多个客户特征的取值、客户特征的特征系数以及基准风险率，计算上述客户特征影响下的绝对生存函数曲线、绝对风险率曲线以及生命周期。

本示例中，在曲线计算单元2041计算出目标客户的绝对生存函数曲线之后，特征计算单元2042可以通过调整该目标客户的客户特征，使得该目标客户的绝对生存函数曲线匹配该目标客户的目标生存曲线，比如，可以从影响最大的客户特征开始依次进行调整，或者，通过逐渐增加调整的客户特征的数目，来判断客户特征调整后产生的绝对生存函数曲线是否可以匹配目标生存曲线。然后，处理单元2043可以根据目标客户的客户特征的调整结果，确定目标客户的目标生存曲线对应的一个或多个特征方案。其中，特征方案的数目可以由用户设定，或者，设置为默认值。本申请对此并不限定。示例性地，针对一个目标客户的目标生存曲线，处理单元2043最终确定二个特征方案；其中，特征方案一中，针对该目标客户，将对应的特征系数最大的客户特征从第一取值调整为第二取值，其余客户特征的取值保持不变；特征方案二中，将对应的特征系数与最大特征系数之间的差最小的客户特征从第三取值调整为第四取值，其余客户特征的取值保持不变。

本示例中，生存曲线和周期管理模块204可以掌握客户在任一时间点下完整的绝对生存函数曲线和绝对风险率曲线，从而把控市场营销策略的投放时间和节奏，更可以通过输入期望的目标生存曲线而逆向计算特征方案，智能地改变商业策略达到改变或管理客户生命周期的目的。

综上所述，本实施例提供的数据处理系统可以有效管理客户生命周期；其中，对于输入的时序特征数据没有涉及的时间点，能通过插值处理自动计算完整的绝对生存函数及绝对风险率；而且，通过输入目标生存曲线，逆向自动计算对应的特征方案，让用户迅速找到改变客户生命周期的关键因素及变化大小，针对性修改策略，有效设计或改变客户的生命周期。而且，将分析过程设计为并行化算法，并结合分布式集群的并行计算能力，不仅能分析大规模输入数据，更能快速获得分析结果。

图6为本申请实施例提供的数据处理方法的流程图。如图6所示，本实施例提供的数据处理方法，包括：

S601、基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对生存函数曲线；

S602、通过调整目标客户的客户特征，使得目标客户的绝对生存函数曲线匹配目标客户的目标生存曲线；

S603、根据目标客户的客户特征的调整结果，确定目标客户的目标生存曲线对应的一个或多个特征方案。

本实施例提供的数据处理方法可以由上述实施例提供的数据处理系统执行。然而，本申请对此并不限定。

在示例性实施方式中，本实施例的数据处理方法还可以包括：

对多个客户的时序特征数据进行分布式处理，得到客户特征的特征系数。

在示例性实施方式中，对多个客户的时序特征数据进行分布式处理，得到客户特征的特征系数，可以包括：

在示例性实施方式中，得到客户特征的特征系数之后，本实施例的数据处理方法还可以包括：根据多个客户的时序特征数据以及客户特征的特征系数，确定基准风险率。

在示例性实施方式中，本实施例的数据处理方法还可以包括：基于目标客户的客户特征以及客户特征的特征系数，确定目标客户的相对风险率。

在示例性实施方式中，本实施例的数据处理方法还可以包括：基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对风险率曲线。

在示例性实施方式中，确定目标客户的绝对风险率曲线之后，本实施例的数据处理方法还可以包括：对目标客户的绝对风险率曲线进行插值处理，确定目标客户在任一时间点的绝对风险率。

在示例性实施方式中，确定目标客户的绝对生存函数曲线之后，本实施例的数据处理方法还可以包括：对目标客户的绝对生存函数曲线进行插值处理，确定目标客户在任一时间点的绝对生存函数。

下面参照图7对本实施例提供的数据处理方法进行举例说明。本示例的数据处理方法以基于图2所示的数据处理系统执行为例进行说明。

如图7所示，本示例提供的数据处理方法，包括：

S701、输入时序特征数据；本步骤中，数据处理系统的时序特征分析模块可以从外部的数据处理平台接收全量客户的时序特征数据。

S702、计算客户特征的特征系数、每个客户的相对风险率和相对生存函数；

本步骤中，数据处理系统的时序特征分析模块可以对时序特征数据进行分布式处理，得到客户特征的特征系数、每个客户的相对风险率和相对生存函数，并输出到生存风险比例管理模块中。

S703、判断是否存在查询动作；

本步骤中，生存风险比例管理模块判断是否接收到查询请求，若接收到查询请求，则执行S713和S714，否则执行S704。

S713、根据查询请求携带的信息，确定输入的客户ID或客户特征；

S714、确定相对风险率、相对生存函数；

本步骤中，生存风险比例管理模块根据查询请求携带的信息(比如，客户ID或者客户特征)，在本地查询客户ID对应的相对风险率和相对生存函数，或者，根据查询请求携带的信息确定客户特征，并基于客户特征和特征系数，计算相对风险率和相对生存函数。

S704、计算基准风险率；

在本步骤中，生存曲线分析模块可以根据全量客户的时序特征数据以及客户特征的特征系数，计算基准风险率。

S705、输入客户特征数据；

本步骤中，生存曲线分析模块可以从外部的数据处理平台接收客户特征数据。

S706、计算绝对风险率和绝对生存函数；

本步骤中，生存曲线分析模块可以根据S705输入的客户特征数据、客户特征的特征系数，计算任一客户的绝对风险率和绝对生存函数；示例性地，可以通过插值处理，得到客户的完整的绝对风险率曲线和绝对生存函数曲线；生存曲线分析模块可以将计算结果输出到生存曲线和周期管理模块。

S707、判断是否存在查询；

本步骤中，生存曲线和周期管理模块判断是否接收到查询请求，若接收到查询请求，则执行S708，否则，结束处理。

S708、判断是否需要获取特征方案；

本步骤中，生存曲线和周期管理模块判断是否需要进行逆向计算以获取特征方案；若是，则执行S711，否则，执行S709。

S709、确定输入的客户ID或特征、时间等；

S710、确定绝对风险率曲线、绝对生存函数曲线以及生命周期；

本步骤中，生存曲线和周期管理模块可以根据查询请求携带的信息(比如，客户ID或客户特征、时间点)，在本地查询客户ID对应的绝对风险率曲线、绝对生存函数曲线以及生命周期；或者，可以根据查询请求携带的信息确定客户特征，并基于客户特征、特征系数以及基准风险率，计算绝对风险率曲线、绝对生存函数曲线以及生命周期。

S711、确定目标生存曲线，以及获取的特征方案的数目N；其中，N可以为正整数。

S712、逆向计算N个特征方案并输出；

本步骤中，生存曲线和周期管理模块可以根据输入的客户ID确定客户特征的取值，然后按照S710的步骤计算绝对生存函数曲线，通过调整客户特征的取值，使得绝对生存函数曲线最大限度匹配目标生存曲线，分析客户特征的调整结果，计算出使得绝对生存函数曲线最大限度匹配目标生存曲线的N个特征方案。

以数据处理平台提供商业保险客户特征数据为例，通过本实施例提供的数据处理系统，可以获知对某一保险产品进行投保影响最大的客户特征，以及每个客户在任一时间点下的绝对生存函数和绝对风险率；而且，可以针对目标客户的目标生存曲线，逆向计算得到一个或多个特征方案，如此，便于管理者改变投保策略，以延长客户生命周期(比如，投保时长)。

关于本实施例提供的数据处理方法的相关说明可以参照上述系统实施例的描述，故于此不再赘述。

图8为本申请实施例提供的数据处理装置800的示意图。如图8所示，本实施例提供的数据处理装置，包括：

曲线计算单元801，适于基于目标客户的客户特征、客户特征的特征系数以及基准风险率，确定目标客户的绝对生存函数曲线；

特征计算单元802，适于通过调整目标客户的客户特征，使得目标客户的绝对生存函数曲线匹配目标客户的目标生存曲线；

处理单元803，适于根据目标客户的客户特征的调整结果，确定目标客户的目标生存曲线对应的一个或多个特征方案。

在示例性实施方式中，本实施例的数据处理装置还可以包括：

特征系数计算单元，适于对多个客户的时序特征数据进行分布式处理，得到客户特征的特征系数。

基准风险率计算单元，适于根据多个客户的时序特征数据以及客户特征的特征系数，确定基准风险率。

关于本实施例提供的数据处理装置的相关说明可以参照上述方法实施例和系统实施例的描述，故于此不再赘述。

图9为本申请实施例提供的计算设备的示意图。如图9所示，本实施例提供的计算设备900，包括：存储器901和处理器902，其中，存储器901适于存储输出处理程序，该数据处理程序被处理器902执行时实现上述实施例提供的数据处理方法的步骤。

其中，处理器902可以包括但不限于微处理器(MCU，Microcontroller Unit)或可编程逻辑器件(FPGA，Field Programmable Gate Array)等的处理装置。存储器901可用于存储应用软件的软件程序以及模块，如本实施例中的数据处理方法对应的程序指令或模块，处理器902通过运行存储在存储器901内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器901可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器901可包括相对于处理器902远程设置的存储器，这些远程存储器可以通过网络连接至上述计算设备900。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

示例性地，计算设备900还可以包括通信单元903；通信单元903可以经由一个网络接收或者发送数据。在一个实例中，通信单元903可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网络进行通信。

此外，本申请实施例还提供一种计算机可读介质，存储有数据处理程序，该数据处理程序被处理器执行时实现上述数据处理方法的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上显示和描述了本申请的基本原理和主要特征和本申请的优点。本申请不受上述实施例的限制，上述实施例和说明书中描述的只是说明本申请的原理，在不脱离本申请精神和范围的前提下，本申请还会有各种变化和改进，这些变化和改进都落入要求保护的本申请范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

对所述目标客户的绝对生存函数曲线进行插值处理，确定所述目标客户在任一时间点的绝对生存函数，以完善所述绝对生存函数曲线；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对多个客户的时序特征数据进行分布式处理，得到所述客户特征的特征系数。

3.根据权利要求2所述的方法，其特征在于，所述对多个客户的时序特征数据进行分布式处理，得到所述客户特征的特征系数，包括：

对所述多个客户的时序特征数据按照时间倒序，采用并行排序PSRS算法进行分布式排序；

基于分布式排序结果，计算风险集合；

4.根据权利要求2或3所述的方法，其特征在于，所述得到所述客户特征的特征系数之后，所述方法还包括：

根据所述多个客户的时序特征数据以及所述客户特征的特征系数，确定所述基准风险率。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标客户的客户特征以及所述客户特征的特征系数，确定所述目标客户的相对风险率。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述目标客户的客户特征、所述客户特征的特征系数以及所述基准风险率，确定所述目标客户的绝对风险率曲线。

7.根据权利要求6所述的方法，其特征在于，所述确定所述目标客户的绝对风险率曲线之后，所述方法还包括：

对所述目标客户的绝对风险率曲线进行插值处理，确定所述目标客户在任一时间点的绝对风险率。

8.一种数据处理装置，其特征在于，包括：

曲线计算单元，适于基于目标客户的客户特征、所述客户特征的特征系数以及基准风险率，确定所述目标客户的绝对生存函数曲线；对所述目标客户的绝对生存函数曲线进行插值处理，确定所述目标客户在任一时间点的绝对生存函数，以完善所述绝对生存函数曲线；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

特征系数计算单元，适于对多个客户的时序特征数据进行分布式处理，得到所述客户特征的特征系数。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

基准风险率计算单元，适于根据所述多个客户的时序特征数据以及所述客户特征的特征系数，确定所述基准风险率。

11.一种数据处理系统，其特征在于，包括：

所述第一管理模块，适于基于目标客户的客户特征、所述客户特征的特征系数以及所述基准风险率，确定所述目标客户的绝对生存函数曲线；对所述目标客户的绝对生存函数曲线进行插值处理，确定所述目标客户在任一时间点的绝对生存函数，以完善所述绝对生存函数曲线；通过调整所述目标客户的客户特征，使得所述目标客户的绝对生存函数曲线匹配所述目标客户的目标生存曲线；根据所述目标客户的客户特征的调整结果，确定所述目标客户的目标生存曲线对应的一个或多个特征方案。

12.根据权利要求11所述的系统，其特征在于，所述系统还包括：第二管理模块，连接所述第一分析模块，所述第二管理模块适于基于所述目标客户的客户特征以及所述客户特征的特征系数，确定所述目标客户的相对风险率。

13.根据权利要求11所述的系统，其特征在于，所述第一管理模块，还适于执行以下至少之一：

14.一种计算设备，其特征在于，包括：存储器和处理器；所述存储器用于存储数据处理程序，所述数据处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。

15.一种计算机可读介质，其特征在于，存储有数据处理程序，所述数据处理程序被处理器执行时实现如权利要求1至7中任一项所述的数据处理方法的步骤。