CN112257890A

CN112257890A - 数据处理方法、装置和退费预测模型的训练方法、装置

Info

Publication number: CN112257890A
Application number: CN201910660752.3A
Authority: CN
Inventors: 李航; 丁文彪; 刘子韬
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-01-22

Abstract

本申请实施例提供一种数据处理方法、装置和退费预测模型的训练方法、装置，通过获取用户的行为数据，并对所述行为数据进行处理，得到行为数据序列；对所述行为数据序列进行处理，得到课内特征数据和课外特征数据，并将所述课内特征数据和课外特征数据整合为特征数据；根据所述用户的状态确定所述特征数据的标签，以使退费预测模型基于所述特征数据的标签和所述特征数据进行训练；或以使所述退费预测模型基于所述特征数据进行退费预测。退费预测模型通过本申请实施例提供的数据处理方法进行退费预测使得退费预测结果更加准确，制定的退费用户挽回策略能够更加有针对性，从而增强退费用户的挽回效果，降低用户流失率。

Description

数据处理方法、装置和退费预测模型的训练方法、装置

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种数据处理方法、装置和退费预测模型的训练方法、装置。

背景技术

目前，课外辅导培训市场用户规模增长日趋缓慢，市场竞争也亦趋于饱和状态，市场发展呈先出新用户增长的同时，退费流失的用户也在不断的增长，净增用户数的规模日趋于较低的水平，这不仅直接影响到企业利润增长，同时也对运营支撑系统带来了较大的额外性能负荷。

为降低用户营销成本及运营支撑系统负荷压力，在面对老用户退费的情况下，如果能够对新用户进行退费预测，就能够针对即将退费的新用户提前制定挽回策略，以减少用户退费带来的业务成本。

但现有技术中，仍然没有较为可靠的方法对用户的退费进行预测，故而制定的退费用户挽回策略便没有较强的针对性，也无法保证退费用户的挽回效果。因此，如何准确对用户的退费进行预测，使得制定的退费用户挽回策略能够更加有针对性，从而增强退费用户的挽回效果，降低用户流失率，成为亟待解决的技术难题。

发明内容

有鉴于此，本申请实施例所解决的技术问题之一在于提供一种数据处理方法、装置和退费预测模型的训练方法、装置，用以克服现有技术中的技术问题。

一方面，本申请实施例提供一种数据处理方法，包括：

获取用户的行为数据，并对所述行为数据进行处理，得到行为数据序列；

对所述行为数据序列进行处理，得到课内特征数据和课外特征数据，并将所述课内特征数据和课外特征数据整合为特征数据；

根据所述用户的状态确定所述特征数据的标签，以使退费预测模型基于所述特征数据的标签和所述特征数据进行训练；或以使所述退费预测模型基于所述特征数据进行退费预测。

可选地，在本申请一具体实施例中，对所述行为数据进行处理，得到行为数据序列包括：

对所述行为数据按照其生成时间进行排序，得到所述行为数据序列。

可选地，在本申请一具体实施例中，对所述行为数据进行处理之前包括：

根据数据清洗规则对所述行为数据进行数据清洗，所述数据清洗包括过滤所述行为数据中的错误行为数据。

可选地，在本申请一具体实施例中，所述行为数据序列包括课内行为数据和课外行为数据；

对应的，对所述行为数据序列进行处理，得到课内特征数据和课外特征数据包括：

分别对所述课内行为数据和所述课外行为数据进行统计分析得到所述课内特征数据和所述课外特征数据。

可选地，在本申请一具体实施例中，所述课内行为数据包括课内视频数据；

对应的，对所述课内行为数据进行统计分析得到所述课内特征数据包括：

将所述课内视频数据转化为课内文字数据和课内时间段数据，并对所述课内文字数据和所述课内时间段数据进行统计分析得到基础课内特征数据，并采取非线性函数变换算法和/或特征交叉变换算法对所述基础课内特征数据进行变换得到非线性课内特征数据和/或交叉课内特征数据，并将所述非线性变换特征数据和/或所述交叉变换特征数据以及所述基础课内特征数据进行整合得到所述课内特征数据。

可选地，在本申请一具体实施例中，将所述课内特征数据和课外特征数据整合为特征数据包括：

对所述课内特征数据中每堂课的课内特征值与其之前每堂课的课内特征值进行加权平均处理，得到有效课内特征值，将所述有效课内特征值融合，得到有效课内特征数据，并将所述有效课内特征数据与所述课外特征数据整合为所述特征数据。

可选地，在本申请一具体实施例中，根据所述用户的状态确定所述特征数据的标签包括：

确定所述用户是否为退费状态，若所述用户为退费状态，则确定所述特征数据中第一设定时间范围内的特征数据的标签为退费，若所述用户为非退费状态，则确定所述特征数据的标签为非退费。

可选地，在本申请一具体实施例中，还包括：若所述用户为退费状态，则根据预设的标签变换方式对所述第一设定时间范围内的特征数据的标签进行标签变换处理。

可选地，在本申请一具体实施例中，所述根据预设的标签变换方式对所述第一设定时间范围内的特征数据的标签进行标签变换处理包括：确定所述第一设定时间范围内的特征数据的标签变换概率，根据所述标签变换概率将所述第一设定时间范围内的特征数据的标签由退费变换为非退费。

另一方面，本申请实施例提供一种退费预测模型的训练方法，包括：

获取样本用户的样本行为数据；

根据上述实施例中所述的数据处理方法对所述样本行为数据进行处理，得到样本特征数据和样本特征数据的标签；

将所述样本特征数据作为所述退费预测模型的输入，所述样本特征数据的标签作为所述退费预测模型的输出，对所述退费预测模型进行训练。

又一方面，本申请实施例提供一种退费预测方法，包括：

获取目标用户的目标行为数据；

根据上述实施例中所述的数据处理方法对所述目标行为数据进行处理，得到目标特征数据；

根据退费预测模型和所述目标特征数据，确定所述目标用户的退费预测结果；其中，所述退费预测模型是根据上述实施例中所述的训练方法进行训练得到的。

可选地，在本申请一具体实施例中，所述退费模型是根据与当前执行退费预测操作的时间点距离第二设定时间范围内的样本特征数据及所述样本特征数据的标签对所述退费预测模型进行训练更新后获取的；

所述根据退费预测模型和所述目标特征数据，确定所述目标用户的退费预测结果包括：基于所述目标特征数据和更新后的退费预测模型，确定当前时间点的目标用户的退费预测结果。

可选地，在本申请一具体实施例中，还包括：

若所述目标用户的退费预测结果超过设定的退费预警阈值，则将所述目标用户推送给目标用户维护人员。

又一方面，本申请实施例提供一种数据处理装置，包括：

数据处理单元，用于获取用户的行为数据，并对所述行为数据进行处理，得到行为数据序列；

特征提取单元，用于对所述行为数据序列进行处理，得到课内特征数据和课外特征数据，并将所述课内特征数据和课外特征数据整合为特征数据；

标签确定单元，用于根据所述用户的状态确定所述特征数据的标签，以使退费预测模型基于所述特征数据的标签和所述特征数据对退费预测模型进行训练；或以使所述退费预测模型基于所述特征数据进行退费预测。

又一方面，本申请实施例提供一种退费预测模型的训练装置，包括：

样本数据获取单元，用于获取样本用户的样本行为数据，并根据上述实施例所述的数据处理方法对所述样本行为数据进行处理，得到样本特征数据和样本特征数据的标签；

模型训练单元，用于将所述样本特征数据作为所述退费预测模型的输入，所述样本特征数据的标签作为所述退费预测模型的输出，对退费预测模型进行训练。

又一方面，本申请实施例提供一种退费预测装置，包括：

目标数据获取单元，用于获取目标用户的目标行为数据，并根据上述实施例所述的数据处理方法对所述目标行为数据进行处理，得到目标特征数据；

目标预测单元，用于根据退费预测模型和所述目标特征数据，确定所述目标用户的退费预测结果；其中，所述退费预测模型是根据上述实施例所述的训练方法进行训练得到的。

由以上技术方案可见，本申请实施例通过获取用户的行为数据，并对所述行为数据进行处理，得到行为数据序列；对所述行为数据序列进行处理，得到课内特征数据和课外特征数据，并将所述课内特征数据和课外特征数据整合为特征数据；根据所述用户的状态确定所述特征数据的标签，以使退费预测模型基于所述特征数据的标签和所述特征数据进行训练；或以使所述退费预测模型基于所述特征数据进行退费预测。本申请实施例在模型训练过程中提供的数据处理方法是通过对用户的样本行为数据进行处理得到课内特征数据和课外特征数据等能够多个维度对用户行为进行展现的特征数据，使用多个维度对用户行为进行展现的特征数据对所述退费预测模型进行训练，或者使用所述退费预测模型和多个维度对用户行为进行展现的特征数据对用户的退费行为进行预测，使得退费预测结果更加准确，制定的退费用户挽回策略能够更加有针对性，从而增强退费用户的挽回效果，降低用户流失率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例一的数据处理方法流程示意图。

图2为本申请实施例二的数据处理方法流程示意图。

图3为本申请实施例三的数据处理方法流程示意图。

图4为本申请实施例四的退费预测模型的训练方法流程示意图。

图5为本申请实施例五的退费预测方法流程示意图。

图6为本申请实施例六的数据处理装置结构示意图。

图7为本申请实施例七的数据处理装置结构示意图。

图8为本申请实施例八的数据处理装置结构示意图。

图9为本申请实施例九的退费预测模型的训练装置结构示意图。

图10为本申请实施例十的退费预测装置结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

本申请实施例提供的退费预测模型可以有多种应用场景，例如根据网络游戏用户的行为数据对该退费预测模型进行训练，或者根据快视频用户的行为数据对该退费预测模型进行训练，对此不作限定，只需将方法中对应的特征数据进行替换即可。以下实施例将根据在线教育平台用户的行为数据对退费预测模型进行训练为例进行说明。下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1为本申请实施例一的数据处理方法流程示意图。如图1所示，包括：

步骤S101、获取用户的行为数据，并对行为数据进行处理，得到行为数据序列。

本实施例中，行为数据包括用户的各类行为数据，包括咨询数据，下单数据，课程安排数据，回访数据和上课数据中的至少一种。其中咨询数据包括在用户咨询了解课程的过程中生成的数据，例如用户的姓名，性别，年龄等等基本数据、用户购买课程前与销售人员的沟通次数、沟通时间长度、售前人员接触该用户的接触频率、接触该用户的销售人员数量等；下单数据包括在用户下单购买课程时生成的数据，例如购买课程的科目，数量，总课时数量等；课程安排数据包括在给用户安排上课时间时生成的数据，例如周三两次课，周六五次课等；回访数据包括在对用户进行回访时生成的数据，例如回访时间间隔，回访次数；上课数据包括在用户上课过程中生成的数据，例如课堂视频数据等。

可选地，可将用户的行为数据按照行为数据的类型分类存储在数据库中。例如咨询数据存储在“咨询”类数据中。通过将行为数据进行分类存储，使得从数据库中获取行为数据时，可按照行为数据的类型获取行为数据，便于对行为数据进行处理，提高了数据处理效率。

步骤S102、对行为数据序列进行处理，得到课内特征数据和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。

本实施例中，课内特征数据包括能够表征用户在上课过程中行为特征的数据，例如学生说话总字数，学生的老师说话总字数，学生的课内语速，老师的课内语速等；课外特征数据包括能够表征用户除上课时间外的行为特征的数据，包括回访类特征数据，售前类特征数据，排课类特征数据，教师类特征数据，订单类特征数据，课时类特征数据等。其中回访类特征数据包括用户被回访总次数，回访内容关键词识别等；售前类特征数据包括售前沟通总次数，售前人员数量等；排课类特征数据包括排课总次数，排课频率等；教师类特征数据包括用户的教师总人数，换老师频率等；订单类特征数据包括用户下单总次数，下单课时总数等；课时类特征数据包括上课课时总数，上课频率等。

本实施例中，在线教育平台中一般以天为单位对用户的行为数据进行记录，所以优选地对数据序列中每天的数据进行处理，得到课内特征数据，和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。当然也可以选取天的整数倍的行为数据序列进行处理，例如可以选取一周的数据或者一个月的数据等等，此处不做限定。通过对行为数据序列中每天的数据进行统计分析，得到能够表示出用户每天的行为特征的课内特征数据和课外特征数据，使得特征数据能够充分反映用户的行为特征变化，使得通过特征数据训练得到的退费预测模型的预测结果更加准确。

另外，在使用退费预测模型对用户进行退费预测时，基于特征数据进行预测，能够根据用户的多个行为特征进行退费预测，使得退费预测结果更加准确。

可选地，课内特征数据包括课内特征向量，课外特征数据包括课外特征向量，特征数据包括特征向量，因此，还可包括生成课内特征向量和课外特征向量，其具体过程为：对行为数据序列进行处理得到用户每天的各类行为特征对应的课内特征值和课外特征值，将课内特征值组合为课内特征向量，将课外特征值组合为课外特征向量。

对应的，将课内特征数据和课外特征数据整合为特征数据可以为将课内特征向量和课外特征向量进行简单的拼接，得到特征向量。当然还可以有其他的整合方法，此处不做限定。

步骤S103、根据用户的状态确定特征数据的标签，根据特征数据的标签和特征数据对退费预测模型进行训练；或以使退费预测模型基于特征数据进行退费预测。

本实施例中，由于行为数据包括用户的各类行为数据，所以对行为数据处理得到的行为数据序列中也包括用户的各类行为数据，在对行为数据序列进行统计分析得到的特征数据就能够表征用户各类行为特征。

本实施例中，在对退费预测模型进行训练时，需获取到作为训练样本的用户的状态，用户的状态可以根据用户的行为数据来提取。用户的状态包括退费状态，因此，根据用户的退费状态确定特征数据的标签为退费。根据退费状态的用户的特征数据对退费预测模型进行训练，使得退费预测模型的预测结果更加准确。

本实施例中，当退费预测模型基于能够充分表征用户行为特征的特征数据和特征数据的标签进行训练后，使得退费预测模型在进行退费预测时能够根据用户的行为特征进行退费预测，预测得到结果也就更加准确。

本申请实施例提供的数据处理装置是通过对用户的行为数据进行处理得到课内特征数据和课外特征数据等能够多个维度对用户行为进行展现的特征数据，使用多个维度对用户行为进行展现的特征数据对退费预测模型进行训练，或者使用退费预测模型和多个维度对用户行为进行展现的特征数据对用户的退费行为进行预测，使得退费预测结果更加准确，降低用户流失率。

图2为本申请实施例二的数据处理方法流程示意图。如图2所示，包括：

步骤S201、获取用户的行为数据，并对行为数据进行处理，得到行为数据序列。

本实施例中，行为数据包括课外行为数据和课内行为数据，课内行为数据为在用户上课过程中生成的数据，包括上课数据，课外行为数据包括除了用户上课过程之外生成的数据，包括咨询数据、下单数据、排课数据以及回访数据中的至少一种等。

本实施例中，对行为数据进行处理包括：对行为数据按照其生成时间进行排序，得到行为数据序列。具体地，将行为数据中的课外行为数据和课内行为数据在数据库中存储时，同时对其生成的时间进行存储，将课外行为数据和课内行为数据按照其生成时间的先后顺序进行排序，得到行为数据序列；其中，行为数据序列包括课内行为数据和课外行为数据，便于对行为数据序列进行统计分析，提高统计分析的效率。

由于行为数据在数据库中的存储时间可能会产生延时，因此，本申请实施例按照行为数据的生成时间进行排序，保证数据时序的准确性，提高退费预测的准确性。

步骤S202、对行为数据序列进行处理，得到课内特征数据和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。

本实施例中，对行为数据序列进行处理包括：分别对课内行为数据和课外行为数据进行统计分析得到课内特征数据和课外特征数据。其中，对课外行为数据进行统计分析得到课外特征数据包括：根据课外行为数据的种类及其对应的课外统计算法对课外行为进行统计分析，得到课外特征数据。例如，遍历课外行为数据中的回访数据，统计用户被回访的次数，得到回访类特征数据中的用户被回访的总次数；或者遍历课外数据中的订单数据，统计每次下单的课时数，得到订单类特征数据中的用户下单总课时数等，当然还可以通过其他方式对课外行为数据进行处理得到课外特征数据，此处不做限制。

可选地，课内行为数据中包括课内视频数据，则对课内行为数据进行统计分析得到课内特征数据包括：

将课内视频数据转化为课内文字数据和课内时间段数据，并对课内文字数据和课内时间段数据进行统计分析得到基础课内特征数据，并采取非线性函数变换算法和/或特征交叉变换算法对基础课内特征数据进行变换得到非线性课内特征数据和/或交叉课内特征数据，并将非线性变换特征数据和/或交叉变换特征数据以及基础课内特征数据进行整合得到课内特征数据。

本实施例中，将课内视频数据转化为课内文字数据和课内时间段数据时，可以通过语音识别技术，对教师的课内视频和学生的课内视频进行识别，将说话内容转变为文字，得到课内文字数据，并将说话内容对应的时间段进行提取得到课内时间段数据，其中，语音识别技术此处不做限定，只要能够对课内视频数据进行识别即可，例如自动语音识别技术(Automat i c Speech Recogn i t i on，简称ASR)等。

可选地，若课内视频数据是用户在上网课时录制的视频数据，则可能会出现网络卡顿等情况，导致视频数据中部分视频片段在进行语音识别时出现问题，影响退费预测的准确性。因此为了避免此种情况的发生，可提前对课内视频数据进行处理，将其中出现网络卡顿时的视频片段剪辑并删除，保证了课内视频数据的准确性。

本实施例中，对课内文字数据和课内时间段数据进行统计分析得到基础课内特征数据包括：根据课内统计算法对课内文字数据和课内时间段数据进行统计分析得到基础课内特征数据。例如，设定鼓励词表，然后根据鼓励词表，遍历课内文字数据，统计课内文字数据中的词语命中鼓励词表的次数，得到基础课内特征数据中的老师命中鼓励词的次数，或者根据课内文字数据中的老师的文字数量和老师说话的课内时间段，统计得到基础课内特征数据中的老师课内语速等。

本实施例中，考虑到有一些基础课内特征数据不能够较为明确地反映用户退费可能性，所以采取非线性函数变换算法和/或特征交叉变换算法对基础课内特征数据进行变换得到非线性课内特征数据和/或交叉课内特征数据。具体地，将基础课内特征数据放入设定的非线性函数中进行变换得到非线性课内特征数据，和/或随机基础课内特征数据选取两个数据放入设定的交叉函数中进行变换得到交叉课内特征数据，交叉函数可以为X*Y或者X/Y等，其中，非线性函数和交叉函数可根据需求自行设定，以使得使用退费预测模型得到的预测结构更加准确。通过对基础课内特征数据进行变换后，非线性课内特征数据和/或交叉课内特征数据的变化能够明确的反映用户退费可能性，使得根据课内特征数据训练得到的退费预测模型的预测结果更加准确或者使得在退费预测模型根据课内特征数据进行退费预测时，得到的退费预测结果更加准确。

本实施例中，将课内特征数据和课外特征数据整合为特征数据包括：对课内特征数据中每堂课的课内特征值与其之前每堂课的课内特征值进行加权平均处理，得到有效课内特征值，将有效课内特征值融合，得到有效课内特征数据，并将有效课内特征数据与课外特征数据整合为特征数据，增强了特征数据的可靠性，以使通过特征数据训练得到的退费预测模型的预测结果更加准确或者使得在退费预测模型根据课内特征数据进行退费预测时，得到的退费预测结果更加准确。

步骤S203、根据用户的状态确定特征数据的标签，以使退费预测模型基于特征数据的标签和特征数据进行训练；或以使退费预测模型基于特征数据进行退费预测。

本实施例中，用户的状态包括退费状态和非退费状态，其中非退费状态包括课程完结状态和课程进行状态。具体地，确定用户是否为退费状态，若用户为退费状态，则确定特征数据中第一设定时间范围内的特征数据的标签为退费。

本实施例中，考虑到用户在最开始下单购买课程的时候，并没有任何退费的想法，若将用户每天的特征数据的标签全部确定为退费，则通过标签和特征数据训练得到的退费预测模型的预测结果的准确度则大大降低。所以考虑到距离用户退费的时间越长，用户退费意愿越小。所以将第一设定时间范围设定为7天或者14天或者30天等，可根据需求自行设定，即将用户的所有特征数据中距离用户退费的时间之前0天到7/14/30天的特征数据的标签确定为退费，其余特征数据的标签标记为不确定。通过将用户的特征数据中一部分标签确定为退费，使得特征数据及其对应的标签更加接近实际情况，增强了退费预测模型的鲁棒性，使得根据特征数据训练得到的退费预测模型的预测结果更加准确或者使得退费预测模型基于样本特征数据进行退费预测时，得到的预测结果更加准确。

可选地，若第一设定时间范围为14天，则将用户的所有特征数据中距离用户退费的时间之前0天到14天的特征数据的标签确定为退费，但是若距离退费时间之前第10天的时候用户下单购买了课程，则表明用户在距离退费时间之前第10天到14天的时候没有退费意愿，若此时将距离用户退费的时间之前0天到14天的特征数据的标签确定为退费则会对模型训练时造成错误判断，所以为了避免此种情况的发生，本申请另一实施例中，在确定用户为退费状态时，先判断用户在第一设定时间范围内是否有续费行为，若有，则将用户发生续费行为时间点到用户发生退费行为时间点之间的特征数据的标签确定为退费，将用户发生续费行为时间点之前的特征数据的标签标记为不确定标签；若用户在第一设定时间范围内不存在续费行为，则将特征数据中第一设定时间范围内的所有特征数据的标签均标记为退费。

本实施例中，若用户为非退费状态，则确定特征数据的标签为非退费。考虑到非退费状态包括课程完结状态和课程进行状态，优选的，若用户为课程完结状态，则表明用户从下单购买课程到课程结束都没有退费，所以将用户的每天的特征数据的标签确定为非退费。若用户为课程进行状态，则表明用户的课程还没有结束，会不会退费还不清楚，最后一次下单数据之后的每天的特征数据的标签确定为不确定，但是用户在两次下单数据之间的肯定是没有退费意愿，所以将用户两次下单数据之间的每天的特征数据的标签确定为非退费。

本实施例中，用户的状态包括退费状态和非退费状态，在对退费预测模型进行训练时，不但使用了退费的用户，还使用了非退费的用户，增加了排除条件对退费预测模型进行训练，使得退费预测模型的预测结果更加准确。

图3为本申请实施例三的数据处理方法的流程示意图。如图3所示，包括：

步骤S301、获取用户的行为数据，根据数据清洗规则对行为数据进行数据清洗。

本实施例中，数据清洗包括：过滤行为数据中的错误行为数据。在对行为数据进行记录时，可能会对数据记录错误或者遗漏某些数据，行为数据中存在错误行为数据，就会导致退费预测模型的预测结果不够精确，为了使得退费预测模型的预测结果更加准确，对行为数据中的错误行为数据进行过滤，增强了数据的鲁棒性，消除了错误行为数据对退费预测模型的影响。

本实施例中，根据数据清洗规则对行为数据进行数据清洗包括对行为数据中不符合行为数据记录规则的数据进行清洗。还包括判断行为数据中缺失数据的百分比是否达到设定的阈值，若否，则对行为数据进行补充。例如行为数据中年龄数据缺失为5％，没有达到设定的阈值10％，则可以根据行为数据的年龄数据的平均值进行补充，其中阈值可以自行设定。对行为数据进行数据清洗后，行为数据更加接近正常的用户行为数据，对用户行为数据得到的特征数据也就更加准确。

步骤S302、对行为数据进行处理，得到行为数据序列。

步骤S303、对行为数据序列进行处理，得到课内特征数据和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。

步骤S302、S303与上述实施例一致，此处不再赘述。

步骤S304、根据用户的状态确定特征数据的标签，以使退费预测模型基于标签和样本特征数据进行训练；或以使退费预测模型基于特征数据进行退费预测。

本实施例中，考虑到退费的用户距离退费时间越长，则用户的退费意愿的不确定性越强，所以将用户的特征数据中距离用户退费的时间7天或者14天或者30天的全部特征数据的标签确定为退费，就可能会导致确定的标签不够准确，从而导致退费预测模型的预测结果不准确。为了避免此类情况的发生，若用户为退费状态，则根据预设的标签变换方式对第一设定时间范围内的特征数据的标签进行标签变换处理。

本实施例中，根据预设的标签变换方式对第一设定时间范围内的特征数据的标签进行标签变换处理包括：确定第一设定时间范围内的特征数据的标签变换概率，根据标签变换概率将第一设定时间范围内的特征数据的标签由退费变换为非退费。具体地，确定第一设定时间范围内，距离退费时间n个周期时间(nT)范围内的特征数据的标签变换概率Pn，n≥0，且n与周期的乘积≤第一设定时间；建立标签变换概率与n个周期时间的线性关系；针对每个周期时间内的特征数据，将对应周期时间内的特征数据的标签按照对应的标签变换概率进行标签变换处理，由退费变换为非退费。例如，第一设定时间范围为14天，周期时间为一天为1个周期，当距离退费时间为0个周期(即0天)时，即退费当天，用户的退费意愿最大，所以标签变换概率为0，即不变换距离退费时间为0天的特征数据的标签；当距离退费时间为4个周期(即4天)时，标签变换概率为14.3％，即随机将距离退费时间为4天的特征数据中14.3％的特征数据的标签由退费变换为非退费；当距离退费时间为7个周期(即7天)时，标签变换概率为25％，即随机将距离退费时间为7天的特征数据中25％的特征数据的标签由退费变换为非退费；当距离退费时间14天为退费意愿的不确定性较强，标签变换概率为50％，即随机将距离退费时间14天的特征数据中的50％的特征数据的标签由退费变换为非退费。通过对特征数据的标签进行标签变换处理，使得特征数据及其对应的标签更加接近实际情况，增强了特征数据和样本数据的标签的准确性。

需要说明的是，标签变换概率是基于第一设定时间、周期T以及标签变换概率的最小值和最大值来确定的，例如，第一设定时间为14天，设定1天为一个周期，标签变换概率的最小值为0(即退费当天的标签变换概率为0)，标签变换概率的最大值为50％(即距离退费时间14天的标签变换概率为50％)，则结合限定条件：标签变换概率与周期时间之间存在线性关系，可得到Pn＝(5/140)*T，当距离退费时间为7个周期(即7天)时，可计算到对应的标签变换概率P7＝25％。类似的，根据线性关系，便可计算出每个周期的标签变换概率。

需要说明的是非退费用户没有产生退费行为，也就认为没有产生退费意愿，所以非退费用户的特征数据的非退费标签就不用进行变换。

图4为本申请实施例四的退费预测模型的训练方法流程示意图。如图4所示，包括：

步骤S401、获取样本用户的样本行为数据，并根据上述实施例的数据处理方法对样本行为数据进行处理，得到样本特征数据和样本特征数据的标签。

本实施例中，为了使样本行为数据具有代表性，可从数据库中选取适当数量的用户作为样本用户，并从数据库中获取样本用户的行为数据即样本行为数据，样本用户的数量可根据需求自行设定，此处不做限制。

本实施例中样本行为数据与上述实施例中的行为数据一致，此处不再赘述。

本实施例中对样本行为数据的数据处理方法与上述实施例中的数据处理方法一致，此处不再赘述。

步骤S402、将样本特征数据作为退费预测模型的输入，样本特征数据的标签作为退费预测模型的输出，对退费预测模型进行训练。

本实施例中，退费预测模型可以为利用决策树算法根据标签和样本特征数据进行训练得到的。决策树算法可以为梯度提升决策树算法，即构造一棵决策树，并利用构建的决策树将样本特征数据和标签作为变量区分出来，决策树的内部节点一般表示一个逻辑判断，叶子节点标识类别标记，在本实施中可以指用户各类行为特征。需要说明的是决策树算法还可以是随机森林算法，此处不做限定。

图5为本申请实施例五的退费预测方法流程示意图。如图5所示，包括：

步骤S501、获取目标用户的目标行为数据，并根据上述实施例的数据处理方法对目标行为数据进行处理，得到目标特征数据。

本实施例中，目标行为数据与上述实施例中行为数据一致，此处不再赘述。

本实施例中，数据处理方法与上述实施例中的数据处理方法一致，此处不再赘述。

需要说明的是，目标用户是指待预测其退费概率的用户。另外，目标特征数据中同样包括目标特征值，在组合目标特征值得到目标特征数据时的组合顺序此处不做限制，但是其组合顺序应该与组合样本特征值得到样本特征数据时的组合顺序应当一致，以使得通过样本特征数据训练得到的退费预测模型能够根据目标特征数据对目标用户的退费进行准确的预测。例如，组合顺序是特征值对应的特征名称的字母先后顺序。

步骤S502、根据退费预测模型和目标特征数据，确定目标用户的退费预测结果。

本实施例中，退费预测模型是根据上述实施例的训练方法进行训练得到的。

本实施例中，将目标特征数据输入到退费预测模型中，退费预测模型输出退费预测结果，根据退费预测结果判断目标用户是否会进行退费。其中，退费预测结果可以是退费概率的形式或者退费等级的形式，此处不做限制。

可选地，为了保证退费预测模型随着时间变化的有效性，退费预测模型是根据与当前执行退费预测操作的时间点距离第二设定时间范围内的样本特征数据及样本特征数据的标签对退费预测模型进行训练更新后获取的。对应的，根据退费预测模型和目标特征数据，确定目标用户的退费预测结果包括：基于目标特征数据和更新后的退费预测模型，确定当前时间点的目标用户的退费预测结果。

本实施例中，第二设定时间范围可以自行设定，例如1个月或者6个月或者12个月等等可自行设定，为了使得退费预测模型的退费预测结果更加准确，优选地选用与当前执行退费预测操作的时间点距离6个月内的样本特征数据及样本特征数据的标签对退费预测模型进行训练更新。

通过对退费预测模型进行更新，以基于更新后的退费预测模型对目标用户进行退费预测，使得退费模型能够及时根据目标用户的变化情况更加有针对性的进行退费预测，退费预测的结果更加准确。

步骤S503、若目标用户的退费预测结果超过设定的退费预警阈值，则将目标用户推送给目标用户维护人员。

本实施例中，各个业务方可根据自身的需求设定退费预警阈值，若目标用户的退费预测结果超过退费预警阈值，则将目标用户推送给目标用户维护人员，由目标维护人员进行维护，如进一步确认到目标用户存在退费意愿时，及时采取相关措施挽回目标用户。若目标用户的退费预测结果没有超过退费预警阈值，则持续记录目标用户的行为数据，以用于在下一次对目标用户的进行退费预测。

图6为本申请实施例六的数据处理装置结构示意图。如图6所示，包括：

第一数据处理单元601，用于获取用户的行为数据，并对行为数据进行处理，得到行为数据序列和目标数据序列。

本实施例中，行为数据与上述实施例中的行为数据一致，此处不在赘述。

可选地，第一数据处理单元601还用于将用户的行为数据按照行为数据的类型分类存储在数据库中。

第一特征提取单元602，用于对行为数据序列进行处理，得到课内特征数据和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。

本实施例中，课内特征数据与上述实施例中的课内特征数据一致，此处不在赘述。

第一标签确定单元603，用于根据用户的状态确定特征数据的标签，以使退费预测模型基于特征数据的标签和特征数据进行训练；或以使退费预测模型基于特征数据进行退费预测。

本申请实施例提供的数据处理方法是通过对用户的行为数据进行处理得到用户的课内特征数据和课外特征数据等能够多个维度对用户行为进行展现的特征数据，使用多个维度对用户行为进行展现的特征数据对退费预测模型进行训练，或者使用退费预测模型和多个维度对用户行为进行展现的特征数据对用户的退费行为进行预测，使得退费预测结果更加准确，制定的退费用户挽回策略能够更加有针对性，从而增强退费用户的挽回效果，降低用户流失率。

图7为本申请实施例七的数据处理装置结构示意图。如图7所示，包括：

第二数据处理单元701，用于获取用户的行为数据，并对行为数据进行处理，得到行为数据序列。

本实施例中，第二数据处理单元701还用于对样本行为数据按照其生成时间进行排序，得到样本行为数据序列。

第二特征提取单元702，用于对行为数据序列进行处理，得到课内特征数据和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。

本实施例中，第二特征提取单元702还用于分别对课内行为数据和课外行为数据进行统计分析得到课内特征数据和课外特征数据。

可选地，课内行为数据中包括课内视频数据，则第二特征提取单元702还用于：

本实施例中，第二特征提取单元702还用于根据课内统计算法对课内文字数据和课内时间段数据进行统计分析得到基础课内特征数据。

本实施例中，第二特征提取单元702还用于对课内特征数据中每堂课的课内特征值与其之前每堂课的课内特征值进行加权平均处理，得到有效课内特征值，将有效课内特征值融合，得到有效课内特征数据，并将有效课内特征数据与课外特征数据整合为特征数据，增强了特征数据的可靠性，以使通过特征数据训练得到的退费预测模型的预测结果更加准确或者使得在退费预测模型根据课内特征数据进行退费预测时，得到的退费预测结果更加准确。

第二标签确定单元703，用于根据用户的状态确定特征数据的标签，以使退费预测模型基于特征数据的标签和特征数据进行训练；或以使退费预测模型基于特征数据进行退费预测。

图8为本申请实施例八的数据处理装置结构示意图。如图8所示，包括：

第三数据过滤单元801，用于获取用户的行为数据，根据数据清洗规则对行为数据进行数据清洗。

本实施例中，第三数据过滤单元801进一步用于过滤行为数据中的错误行为数据。

本实施例中，第三数据过滤单元801还用于对行为数据中不符合行为数据记录规则的数据进行清洗。

第三数据处理单元802，用于对行为数据进行处理，得到行为数据序列。

第三特征提取单元803，用于对行为数据序列进行处理，得到课内特征数据和课外特征数据，并将课内特征数据和课外特征数据整合为特征数据。

第三标签确定单元804，用于根据用户的状态确定特征数据的标签，以使退费预测模型基于标签和特征数据进行训练；或以使退费预测模型基于特征数据进行退费预测。

本实施例中，第三标签确定单元804还用于确定第一设定时间范围内的特征数据的标签变换概率，根据标签变换概率将第一设定时间范围内的特征数据的标签由退费变换为非退费。

图9为本申请实施例九的退费预测模型的训练装置结构示意图。如图9所示，包括：

样本数据获取单元901，用于获取样本用户的样本行为数据，并根据上述实施例的数据处理方法对样本行为数据进行处理，得到样本特征数据和样本特征数据的标签。

模型训练单元902，用于将样本特征数据作为退费预测模型的输入，样本特征数据的标签作为退费预测模型的输出，对退费预测模型进行训练。

图10为本申请实施例十的退费预测装置结构示意图。如图10所示，包括：

目标数据获取单元1001、用于获取目标用户的目标行为数据，并根据上述实施例的数据处理方法对目标行为数据进行处理，得到目标特征数据。

目标预测单元1002、用于根据退费预测模型和目标特征数据，确定目标用户的退费预测结果。

目标预警单元1003、若目标用户的退费预测结果超过设定的退费预警阈值，则将目标用户推送给目标用户维护人员。

本实施例中，各个业务方可根据自身的需求设定退费预警阈值，若目标用户的退费预测结果超过退费预警阈值，则将目标用户推送给目标用户维护人员，通过目标用户维护人员进行人工判定，确认目标用户是有存在退费意愿，若存在，则可以针对目标用户专门制定挽回策略，尽可能挽回目标用户。若目标用户的退费预测结果没有超过退费预警阈值，则持续记录目标用户的行为数据，以用于在下一次对目标用户的进行退费预测。

当然，实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

本领域的技术人员应明白，本申请实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和方框图来描述的。应理解可由计算机程序指令实现流程图和方框图中的每一流程和方框、以及流程图和方框图中的流程和方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请实施例权利要求及其等同技术的范围之内，则本申请实施例也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述行为数据进行处理，得到行为数据序列包括：

3.根据权利要求1所述的方法，其特征在于，对所述行为数据进行处理之前包括：

4.根据权利要求1所述的方法，其特征在于，所述行为数据序列包括课内行为数据和课外行为数据；

5.根据权利要求4所述的方法，其特征在于，所述课内行为数据包括课内视频数据；

对应的，对课内行为数据进行统计分析得到所述课内特征数据包括：

6.根据权利要求1所述的方法，其特征在于，将所述课内特征数据和课外特征数据整合为特征数据包括：

7.根据权利要求1所述的方法，其特征在于，根据所述用户的确定所述特征数据的标签包括：

8.根据权利要求7所述的方法，其特征在于，还包括：若所述用户为退费状态，则根据预设的标签变换方式对所述第一设定时间范围内的特征数据的标签进行标签变换处理。

9.根据权利要求8所述的方法，其特征在于，所述根据预设的标签变换方式对所述第一设定时间范围内的特征数据的标签进行标签变换处理包括：

确定所述第一设定时间范围内的特征数据的标签变换概率，根据所述标签变换概率将所述第一设定时间范围内的特征数据的标签由退费变换为非退费。

10.一种退费预测模型的训练方法，其特征在于，包括：

获取样本用户的样本行为数据；

根据权利要求1-9任一所述的数据处理方法对所述样本行为数据进行处理，得到样本特征数据和样本特征数据的标签；

11.一种退费预测方法，其特征在于，包括：

获取目标用户的目标行为数据；

根据权利要求1-9任一所述的数据处理方法对所述目标行为数据进行处理，得到目标特征数据；；

根据退费预测模型和所述目标特征数据，确定所述目标用户的退费预测结果；其中，所述退费预测模型是根据权利要求10所述的训练方法进行训练得到的。

12.根据权利要求11所述的方法，其特征在于，所述退费预测模型是根据与当前执行退费预测操作的时间点距离第二设定时间范围内的样本特征数据及所述样本特征数据的标签对退费预测模型进行训练更新后获取的；

13.根据权利要求11所述的方法，其特征在于，还包括：

14.一种数据处理装置，其特征在于，包括：

15.一种退费预测模型的训练装置，其特征在于，包括：

样本数据获取单元，用于获取样本用户的样本行为数据，并根据权利要求1-9任一所述的数据处理方法对所述样本行为数据进行处理，得到样本特征数据和样本特征数据的标签；

模型训练单元，用于将所述样本特征数据作为所述退费预测模型的输入，所述样本特征数据的标签作为所述退费预测模型的输出，对所述退费预测模型进行训练。

16.一种退费预测装置，其特征在于，包括：

目标数据获取单元，用于获取目标用户的目标行为数据，并根据权利要求1-9任一所述的数据处理方法对所述目标行为数据进行处理，得到目标特征数据；

目标预测单元，用于根据退费预测模型和所述目标特征数据，确定所述目标用户的退费预测结果；其中，所述退费预测模型是根据权利要求10所述的训练方法进行训练得到的。