CN113128739B

CN113128739B - 用户触达时间的预测方法、预测模型训练方法及相关装置

Info

Publication number: CN113128739B
Application number: CN201911408697.5A
Authority: CN
Inventors: 许东; 张红旭; 王俊; 罗宁
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-05-12
Anticipated expiration: 2039-12-31
Also published as: CN113128739A

Abstract

一种用户触达时间的预测方法、预测模型训练方法及装置，该方法包括：获取多个用户的用户属性数据和历史交互数据；根据所述多个用户的用户属性数据和历史交互数据，生成特征变量和标签，得到模型训练的训练集；建立分类模型，并利用所述训练集对分类模型进行训练，获得用户触达时间的预测模型。本发明实施例提供的用户触达时间的预测方法、预测模型训练方法及装置，基于现有特征变量创造了新的特征变量(营销时间段)，打破了数据库现有变量建模的固化思维，通过创造的新变量，提高了最终模型的泛化性和模型的预测准确性。

Description

用户触达时间的预测方法、预测模型训练方法及相关装置

技术领域

本发明涉及信息处理技术领域，具体涉及一种用户触达时间的预测方法、预测模型训练方法及相关装置。

背景技术

对用户触达时间的预测，是指对于一个潜在客户或者疑为流失用户，可以通过多种线上和/或线下渠道对其进行触达，但对于潜在客户或者疑为流失的用户触达的时间来说，可能具有一定的周期性和临时突发性等特点。对此则需要预先对其进行时间触达的预测，才能达到最好效果。

对用户触达时间的预测在很多传统行业中，大多是盲目地通过各种触达方式对客户进行营销，这种方式不仅浪费人力成本，也不符合未来发展趋势。在对用户时间触达的预测上，通常需要借助相关模型或者算法来帮助找到解决问题的方法。

随着消费金融的迅猛发展，消费金融公司在普惠金融领域中扮演着越来越重要的角色，也是拉动内需的重要支撑。因此在庞大的内需市场中，如何及时找到有意向用户，首先也是需要在用户触达时间的预测上能有所突破。

目前一些传统的金融行业，当前普遍停留在通过一些规则或者统计分析的方法来处理对用户时间触达的预测，其实际效果往往不佳，也浪费了很多人力物力成本，甚至有些还在采用一对一营销模式，关系营销模式以及“撒网”式营销模型。

可以看出，现有技术的用户触达时间的预测方法，存在以下问题：盲目“撒网”式营销模式，浪费了很多人力物力成本，不是可持续发展的方法。通过一些规则或者只是通过一些统计分析的方法来做预测策略，这种预测方法通常只注重于局部的、个别的特征所反映的表面现象，难以观察到全局特征或本质特征，预测结果的准确性低。另外，现有技术还存在预测结果滞后，难以及时的做到精准营销。

发明内容

本发明的至少一个实施例提供了一种用户触达时间的预测方法、预测模型训练方法及相关装置，可以提高预测结果的准确性。

根据本发明的另一方面，至少一个实施例提供了一种用户触达时间的预测模型的训练方法，包括：

获取多个用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集；

利用所述样本集对分类模型进行训练，以获得用于预测用户触达时间的预测模型。

根据本发明的至少一个实施例，根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集的步骤，包括：

通过特征工程，计算特征变量之间的相关性，以及特征变量对标签的影响权重，并根据特征变量之间的相关性和特征变量对标签的影响权重，从所述多个用户的用户属性数据和历史交互数据中提取特征变量；

将提取的特征变量及其标签中的全部或部分数据，作为用于模型训练的样本集。

根据本发明的至少一个实施例，在提取特征变量之后，所述方法还包括：还包括：对提取的特征变量进行以下至少一种处理：

对提取的特征变量进行缺失值填补；

对提取的特征变量中的离散型特征变量进行哑变量编码；

对提取的特征变量中的连续型特征变量进行标准化和无量纲化处理。

根据本发明的至少一个实施例，在利用所述样本集对分类模型进行训练之前，所述方法还包括：

对所述样本集进行上采样处理，增加负样本数据，以得到更新后的样本集。

根据本发明的至少一个实施例，所述历史交互数据还包括交互行为、目标应用的使用数据以及用户消费数据；

所述提取的特征变量包括：用户的性别、年龄、所处的地理位置、第三方对所述用户的信用评分、目标应用的登录时长和所述交互时间段。

根据本发明的另一方面，还提供了一种用户触达时间的预测方法，包括：

获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

根据所述目标用户的用户属性数据和历史交互数据，生成所述目标用户的特征变量；

将所述目标用户的特征变量作为预测模型的输入，运行所述预测模型，得到所述目标用户的触达时间；

其中，所述预测模型是利用如上所述的训练方法训练得到的。

根据本发明的另一方面，还提供了一种用户触达时间的预测模型的训练装置，包括：

数据获取模块，用于获取多个用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

特征生成模块，用于根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集；

模型训练模块，用于利用所述样本集对分类模型进行训练，以获得用于预测用户触达时间的预测模型。

根据本发明的另一方面，还提供了一种用户触达时间的预测装置，包括：

目标用户数据获得模块，用于获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

目标用户特征获得模块，用于根据所述目标用户的用户属性数据和历史交互数据，生成所述目标用户的特征变量；

预测模块，用于将所述目标用户的特征变量作为预设的预测模型的输入，运行所述预测模型，得到所述目标用户的触达时间；

其中，所述预测模型是利用如上所述的训练装置训练得到的。

根据本发明的另一方面，还提供了一种处理设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的方法的步骤。

根据本发明的另一方面，至少一个实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行时，实现如上所述的方法的步骤。

与现有技术相比，本发明实施例提供的用户触达时间的预测方法、预测模型训练方法及装置，基于现有特征变量创造了新的特征变量(交互时间段)，打破了数据库现有变量建模的固化思维，通过创造的新变量提高了最终模型的泛化性，提高了模型的预测准确性。另外，本发明实施例解决的问题是对用户触达时间的预测，现有技术通常是对标签为连续型的因变量进行预测，本发明实施例则是通过特征工程将连续的时间序列通过分段进行了离散化，作为新特征自变量来影响因变量，从而将预测问题转变为了分类问题，并且还可以得到相关特征变量对因变量影响权重的值，作为对用户触达时间的预测效果。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的用户触达时间的预测模型的训练方法的一种流程图；

图2为本发明实施例的用户触达时间的预测方法的一种流程图；

图3为本发明实施例的用户触达时间的预测方法的一种流程示例图；

图4为本发明实施例的用户触达时间的预测模型的训练装置的一种结构示意图；

图5为本发明实施例的用户触达时间的预测模型的训练装置的另一结构示意图；

图6为本发明实施例的用户触达时间的预测装置的一种结构示意图；

图7为本发明实施例的用户触达时间的预测装置的另一结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。说明书以及权利要求中“和/或”表示所连接对象的至少其中之一。

以下描述提供示例而并非限定权利要求中阐述的范围、适用性或者配置。可以对所讨论的要素的功能和布置作出改变而不会脱离本公开的精神和范围。各种示例可恰适地省略、替代、或添加各种规程或组件。例如，可以按不同于所描述的次序来执行所描述的方法，并且可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

请参照图1，本发明实施例提供的一种用户触达时间的预测模型的训练方法，包括：

步骤11，获取多个用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的。

这里，本发明实施例收集多个用户的用户属性数据和历史交互数据，以用于后续的模型训练。具体的，所述用户属性数据可以包括用户的性别、年龄、工作年限、婚姻状态、第三方对所述用户的信用评分(如芝麻信用分)和所处的地理位置(如用户手机的GPS定位区域)等，这些数据反映了用户的属性特征。

本发明实施例的历史交互数据包括交互时间段，即交互行为所属的时间段。需要说明的是，本发明实施例可以预先设置一个交互周期，然后将该交互周期划分成若干交互时间段。这里，所述交互周期通常为周期性重复的时间周期。

举例来说，所述交互周期可以是自然日。营销人员对用户的营销行为通常发生在每日的营销时间内，在上述营销时间内营销人员会通过各种线上或线下方式对用户进行交互营销，为了便于确定营销行为发生的时间对最终营销结果的影响权重，本发明实施例预先将每日营销时间(假设从早9点到晚9点一共12个小时)划分成多个连续且互不重叠的时间段，例如，划分成6个时间段，分别为[9,11)、[11,13)、[13,15)、[15,17)、[17,19)和[19,21]，当然，不同时间段的长度可以相同也可以不同，本发明实施例对此不做具体限定。又例如，所述交互周期可以是每个星期。可以将每个星期划分为周一、周二、…、周日一共7个交互时间段，或者，进一步结合每日营销时间，划分为周一到周日的[9,11)、[11,13)、[13,15)、[15,17)、[17,19)和[19,21]一共7*6＝42个交互时间段。所述交互周期还可以是自然月。可以将自然月划分为上旬、中旬和下旬一共3个交互时间段，或者，结合星期和/或自然日，得到更为精细的交互时间段，本发明实施例不再一一举例说明。

另外，根据本发明的至少一个实施例，所述历史交互数据还可以包括历史上对用户进行的交互行为，用户对目标应用的使用数据(如在特定的目标APP或目标网站的登录时间和退出时间等)以及用户消费数据，还可以包括其他线上交互记录。用户消费数据又可以包括消费行为发生的时间、地点以及消费行为所针对的客体(如购买商品或服务等)以及消费金额等。

步骤12，根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集。

由于在模型训练中，通常不一定需要将数仓中获取的所有特征变量都作为模型输入，这里需考虑某些特征变量本身可能会给模型带来噪声和异常，因此通过特征工程选择合适的特征变量是建模前的重要环节。

这里，在建模前，本发明实施例可以通过特征工程，计算特征变量之间的相关性，以及特征变量对标签的影响权重，并根据特征变量之间的相关性和特征变量对标签的影响权重，从所述多个用户的用户属性数据和历史交互数据中提取特征变量；然后，将提取的特征变量及其标签中的全部或部分数据，作为模型训练的样本集。其中，标签可以是通过人工方式标注的。

具体的，可以通过对离散型变量和连续型变量的相关性检验，找到特征变量与特征变量之间的相关性，以及特征变量与因变量之间的影响权重，通过此方式，提取出需要代入模型的特征变量，作为一个示例，提取出的特征变量可以包括：用户的性别、年龄、所处的地理位置、第三方对所述用户的信用评分、目标应用的登录时长和所述交互时间段。这些特征变量作为模型的输入，因变量(是否转化)作为模型输出的标签。本发明实施例中，模型的因变量为“是否转化”作为有监督学习的标签，该标签可以通过人工方式进行标注。模型所需的训练样本可以是从全量用户数据中随机抽取一定比例(如70％)的样本，测试集则可以是剩余(如30％)的样本，从而将包含特征变量(特征矩阵)以及因变量(标签)的样本集分成训练集和测试集，在一种实施例中，所述训练样本抽取的比例也可以是80％的样本，测试集则可以是剩余20％的样本。

另外，在提取特征变量之后，本发明实施例还可以对提取的特征变量进行缺失值填补；对提取的特征变量中的离散型特征变量进行哑变量编码；以及，对提取的特征变量中的连续型特征变量进行标准化和无量纲化处理。

根据本发明的至少一个实施例，为了保证训练样本的均衡性，本发明实施例在进行模型训练前，还可以对所述样本集进行上采样处理，增加负样本数据，以得到更新后的样本集。通过以上处理，可以扩大了样本容量，增加了误差自由度，从而降低了误差方差，提高了模型的精度。

步骤13，利用所述样本集对分类模型进行训练，以获得用于预测用户触达时间的预测模型。

这里，考虑到最佳触达时间的预测模型并不是单纯的预测模型，通常预测相关模型是采用回归算法以及其他既可以做回归又可以做分类的模型来建模，比如支持向量机(SVM,Support Vector Machine)，逻辑回归，和一些其他树的集成算法。本发明实施例所要解决的问题是对用户触达时间的预测，表面上看该问题更倾向于回归模型，实际上该问题是基于变量特点建分类模型，以捕捉有意向用户，并且通过其他线上渠道交互后该用户是被成功转化了。这里，成功转化是指通过预设条件判定与该用户的交互是否成功(是否被成功营销)，例如，购买了目标商品或服务等。因此，在步骤13中，本发明实施例建立分类模型来捕捉少数类用户，少数类用户就是有意向用户。

在模型训练(即模型优化时)，本发明实施例基于特征变量和标签，以决策树作为基分类器的梯度提升方式进行迭代处理，每轮迭代产生一个弱分类器，并通过在上一轮弱分类器的残差基础上对训练集进行训练。在训练结束时，将每轮训练得到的弱分类器加权求和得到的总分类器，作为用户触达时间的预测模型。

通过以上步骤，本发明实施例通过基于树模型的集成算法进行建模，并通过特征工程，基于现有特征变量创造了新的特征变量(交互时间段)，打破了数据库现有变量建模的固化思维，通过创造的新变量提高了最终模型的泛化性，提高了模型的预测准确性。另外，本发明实施例解决的问题是对用户触达时间的预测，现有技术通常是对标签为连续型的因变量进行预测，本发明实施例则是通过特征工程将连续的时间序列通过分段进行了离散化。从而作为新特征自变量来影响因变量，从而将预测问题转变为了分类问题，并且还可以得到相关特征变量对因变量影响权重的值，作为对用户触达时间的预测效果。

请参照图2，本发明实施例提供了一种用户触达时间的预测方法，包括：

步骤21，获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的。

根据本发明的至少一个实施例，所述历史交互数据还可以包括交互行为、目标应用的使用数据以及用户消费数据。

步骤22，根据所述目标用户的用户属性数据和历史交互数据，生成所述目标用户的特征变量。

步骤23，将所述目标用户的特征变量作为预设的预测模型的输入，运行所述预测模型，得到所述目标用户的触达时间。

这里，所述预测模型可以是利用上述的训练方法训练得到的。

这里，本发明实施例可以利用步骤13中获得的预测模型，对目标用户进行分析，从而识别出潜在的目标用户以及该目标用户的各个交互时间段对于交互结果的影响权重，将影响权重最大的影响时间段作为目标交互时间段，即作为所述目标用户的触达时间。

本发明实施例中在根据所述多个用户的用户属性数据和历史交互数据，生成特征变量和标签，得到模型训练的训练集时，还可以将提取的特征变量及其标签中除所述训练集外的剩余数据，作为模型测试的测试集。这样，在上述步骤13中进行模型训练的训练时，本发明实施例可以利用所述测试集，对当前得到的分类模型进行测试，并判断测试结果是否满足预设要求；在测试结果满足预设要求时，结束训练过程，并输出训练后的分类模型；在测试结果未满足预设要求时，继续执行训练过程，直至所述测试结果满足所述预设条件的要求或训练迭代次数达到预定次数门限。

请参照图3，给出了本发明实施例的用户触达时间的预测方法的一个具体示例，该示例包括：

步骤301，获取用户数据。

该示例中，数据源300来自于存量用户的静态数据以及动态数据，静态数据大多为用户的属性特征(性别、年龄、工作年限、婚姻、芝麻信用分、手机GPS定位区域)，动态数据大多为用户跟特定的手机APP以及其他线上途径的交互数据(客服通话记录、APP登录时间、APP退出登录时间、消费记录、其他线上交互记录等)，模型的因变量为“是否转化”作为有监督学习的标签，模型所需的训练样本为全量用户中随机抽取70％的样本量，测试集为剩余30％的样本量。

步骤302，对用户数据进行清洗。

该示例利用存量用户过往的(比如可以为T+1)以上相关数据作为模型前期探索的基础，需要考虑各个特征(特征变量)的缺失值占比。因为数据来源于数仓，难免会有缺失值出现，因此通过数据探索，可以了解缺失值的情况，这也是数据清洗环节比较重要的一部分，另外，还可以了解数据特征的离散型变量和连续型变量的占比。

对于业务需求以及数据特征探索，由于将采用有监督学习，因此接下来是数据清洗环节中的另一个步骤，即数据预处理以及数据聚合变形创造新变量，对存量用户过往通过线上平台的交互特征变量进行预处理，由于过往线上平台的交互数据是以时间序列的方式呈现，基于对用户触达时间的预测为需求，该示例将时间序列离散化，得到一个区间值，然后预测各个区间对因变量(标签)的影响权重。为了更好的提高模型的泛化性，该示例的建模训练数据是来自于全量数据，但是模型训练调优完成后上线应用时，模型主要是用于T+1的数据的预测，因此在特征选择上，通过对特征变量的相关性检验，时间段对于影响有效转化的权重较高，该示例提取时间序列的重点时分秒(如每日交互时间的12个小时范围)作为创造新特征的基础数据，回到时间段对标签是否转化的影响权重，则将上述重点时分秒进行分箱。另外，考虑到模型上线的可操作性，该示例采用12小时制分6箱的方式，即可由时分秒得到离散性变量。另外，对于其他特征变量的处理，该示例将特定手机应用的登录时间以及退出登陆时间作为基础数据，创造登录时长的新变量。另外为了提高模型的泛化性和精确性，将缺失值超过某个门限(如30％)的特征变量进行删除，低于上述门限的特征变量后续进行缺失值填补。

步骤303，通过特征工程，筛选特征变量。

特征工程是建模前的重要环节，不一定在数仓取的所有特征变量都作为模型输入，首先还需考虑某些特征变量本身就会给模型带来噪声和异常，这是我们此项技术的关键，通过对离散型变量和连续型变量的相关性检验，找到特征变量与特征变量之间的相关性，以及特征变量与因变量之间的影响权重，通过此方法，我们筛选出了需要带入模型的特征变量(性别、年龄、芝麻信用分、手机GPS定位区域、登陆时长、在线交互时间段[9,11)、[11,13)、[13,15)、[15,17)和[17,19]作为模型输入，因变量(是否转化)作为模型标签。然后对特征变量(特征矩阵)以及因变量(标签)分训练集和测试集，训练集和测试集随机抽取样本的比例为70％和30％。接着分别对训练集和测试集中的缺失值填补和离散型特征变量进行哑变量编码，其次是对连续型变量标准化(如压缩至0～1之间的一个数值)及无量纲化，从另一个角度是为了提高模型的精度，扩大了样本容量，增加了误差自由度，从而降低了误差方差。

步骤304，模型开发，基于数学相关基础，运用集成算法思维，将离散化的数据进行有监督学习(分类)。

在数学建模过程中，虽然该示例的业务需求是对用户触达时间的预测，表面上看更倾向于回归模型，实际上是基于变量特点建分类模型，捕捉有意向用户，并且通过其他线上渠道交互后成功转化。因此，该示例通过建立分类模型捕捉少数类用户，少数类用户即为有意向用户。另外，特征变量会存在样本不均衡的问题，因此建模之前通过上采样方法，均衡正负样本。这样，后续通过优化模型，可以计算出“时间段”特征变量对因变量的影响权重，这样就能在时间段捕捉到有意向用户，同样的，在对用户触达时间的预测上也有较好的效果。

步骤305，执行模型优化，即模型训练过程。

开始建模，基于特征变量和因变量(标签)，采用以决策树为基分类器的梯度提升方法，通过每轮迭代产生一个弱分类器，然后再通过上一轮分类器的残差基础上并对训练集进行训练。弱分类器通常精度不高，另外要呈现出低方差和高偏差特性。因此，该示例对特征变量中的训练集进行训练，是通过降低偏差不断提高最终分类器的精度，即最终的总分类器是将每轮训练得到的弱分类器加权求和得到的，因此该示例是通过一种集成算法得到的模型。

具体的，确定目标函数如式1：

其中：

l为可导的凸函数并且也作为此模型的损失函数，用来衡量真实因变量y和预测值

的偏离程度，即该示例的优化方向就是求损失函数的最小值。

作为惩罚项，也称为正则项，其中，

T作为叶子节点的数量，γ作为超参数。

作为L2正则项，其中，λ为超参数，ω为叶子节点的权重。通过叶子节点权重进行惩罚，使得不会出现权重过大的叶子节点，防止过拟合。

为了更容易优化目标函数，则将上述目标函数式1变型为如式2：

通过每一步增加一个基分类器f_t，从而就对这个目标函数式2进行优化。

当f_t＝0时，根据泰勒公式

并且令f_t(x_i)为Δx，通过泰勒公式展开目标函数式2得到如式3：

其中，g_i表示预测误差对当前模型的一阶偏导数

二阶偏导数为

这样t-1棵树组成的模型的预测误差为

并且，通过泰勒公式展开得到常数，因此当前模型优化是往梯度减小的相反方向也就是误差减小的方向迭代。由上述将所有训练样本进行累加，并且得到所有样本都是映射为树的叶子节点，也就是从叶子节点出发，将所有叶子节点进行累加。所以将每个f_t(x_i)替换成ω_i，整理式3得到目标函数如式4：

进一步整理式4得到如下：

令

分别表示映射为叶子节点j的所有输入样本的一阶导数之和和二阶导数之和，可以进一步整理式4得到如下：

由此得到关于叶子节点ω_j的一元二次函数，可得

再通过

和

可以得到目标函数表达式式5如下：

通过训练集的数据进行训练，可以得到训练后的模型。

步骤306，模型校验与评估，利用测试集对模型进行验证。

完成建模和目标函数参数优化后，即可以将测试集中的样本代入优化后的模型进行测试。并且检验模型的泛化性。后续可以将模型上线测试，并对模型上线后预测结果进行监测和报告(步骤307～308)。

以上介绍了本发明实施例的各种方法。下面将进一步提供实施上述方法的装置。

请参照图4，本发明实施例提供了一种用户触达时间的预测模型的训练装置40，包括：

数据获取模块41，用于获取多个用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

特征生成模块42，用于根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集；

模型训练模块43，用于利用所述样本集对分类模型进行训练，以获得用于预测用户触达时间的预测模型。

可选的，所述历史交互数据还包括交互行为、目标应用的使用数据以及用户消费数据。

可选的，所述特征生成模块42，还用于通过特征工程，计算特征变量之间的相关性，以及特征变量对标签的影响权重，并根据特征变量之间的相关性和特征变量对标签的影响权重，从所述多个用户的用户属性数据和历史交互数据中提取特征变量；将提取的特征变量及其标签中的部分或全部数据，作为用于模型训练的样本集。

可选的，所述特征生成模块42，还用于对提取的特征变量进行缺失值填补；对提取的特征变量中的离散型特征变量进行哑变量编码；以及，对提取的特征变量中的连续型特征变量进行标准化和无量纲化处理。

可选的，所述特征生成模块42，还用于对所述训练集进行上采样处理，增加负样本数据，以得到更新后的训练集。

可选的，所述提取的特征变量包括：用户的性别、年龄、所处的地理位置、第三方对所述用户的信用评分、目标应用的登录时长和所述交互时间段。

可选的，所述模型训练模块43，还用于基于特征变量和标签，以决策树作为基分类器的梯度提升方式进行迭代处理，每轮迭代产生一个弱分类器，并通过在上一轮若分类器的残差基础上对训练集进行训练；在训练结束时，将每轮训练得到的弱分类器加权求和得到的总分类器，作为用户触达时间的预测模型。

可选的，所述特征生成模块42，还用于将提取的特征变量及其标签中除所述训练集外的剩余数据，作为模型测试的测试集。

可选的，所述模型训练模块43，还用于利用所述测试集，对当前得到的分类模型进行测试，并判断测试结果是否满足预设要求；在测试结果满足预设要求时，结束训练过程，并输出训练后的分类模型，作为用户触达时间的预测模型；在测试结果未满足预设要求时，继续执行训练过程，直至所述测试结果满足所述预设条件的要求或训练迭代次数达到预定次数门限。

请参照图5，本发明实施例提供的用户触达时间的预测模型的训练装置的一种结构示意图，该训练装置500包括：处理器501、收发机502、存储器503、用户接口504和总线接口。

在本发明实施例中，训练装置500还包括：存储在存储器上503并可在处理器501上运行的程序。

所述处理器501执行所述程序时实现以下步骤：

可理解的，本发明实施例中，所述计算机程序被处理器501执行时可实现上述图1所示的用户触达时间的预测模型的训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图5中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器501代表的一个或多个处理器和存储器503代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机502可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口504还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器501负责管理总线架构和通常的处理，存储器503可以存储处理器501在执行操作时所使用的数据。

在本发明的一些实施例中，还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现以下步骤：

获取多个用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是预先对交互时间划分得到的；

该程序被处理器执行时能实现上述用户触达时间的预测模型的训练方法中的所有实现方式，且能达到相同的技术效果，为避免重复，此处不再赘述。

请参照图6，本发明实施例提供了一种用户触达时间的预测装置60，包括：

目标用户数据获得模块61，用于获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

目标用户特征获得模块62，用于根据所述目标用户的用户属性数据和历史交互数据，生成所述目标用户的特征变量；

预测模块63，用于将所述目标用户的特征变量作为预设的预测模型的输入，运行所述预测模型，得到所述目标用户的触达时间；

请参照图7，本发明实施例提供的用户触达时间的预测装置的一种结构示意图，该预测装置700包括：处理器701、收发机702、存储器703、用户接口704和总线接口。

在本发明实施例中，预测装置700还包括：存储在存储器上703并可在处理器701上运行的程序。

所述处理器701执行所述程序时实现以下步骤：

获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是所述交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的；

将所述目标用户的特征变量作为预设的预测模型的输入，运行所述预测模型，得到所述目标用户的触达时间；

可理解的，本发明实施例中，所述计算机程序被处理器701执行时可实现上述图2所示的用户触达时间的预测方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

在图7中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器701代表的一个或多个处理器和存储器703代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机702可以是多个元件，即包括发送机和接收机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口704还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器701负责管理总线架构和通常的处理，存储器703可以存储处理器701在执行操作时所使用的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用户触达时间的预测模型的训练方法，其特征在于，包括：

获取多个用户的用户属性数据和历史交互数据，所述交互数据包括交互时间段；其中，所述交互时间段是交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的，所述交互周期为周期性重复的时间周期；

根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集，所述标签用于标注与所述用户的交互行为是否成功；

利用所述样本集对分类模型进行训练，以获得用于预测用户触达时间的预测模型，其中，所述用户触达时间为所述多个预设时间段中的一个预设时间段。

2.如权利要求1所述的方法，其特征在于，所述根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集的步骤，包括：

通过特征工程，计算特征变量之间的相关性，以及计算特征变量对标签的影响权重，并根据特征变量之间的相关性和特征变量对标签的影响权重，从所述多个用户的用户属性数据和历史交互数据中提取特征变量；

将提取的特征变量及其标签中的部分或全部数据，作为用于模型训练的样本集。

3.如权利要求2所述的方法，其特征在于，在提取特征变量之后，所述方法还包括：对提取的特征变量进行以下至少一种处理：

对提取的特征变量进行缺失值填补；

对提取的特征变量中的离散型特征变量进行哑变量编码；

4.如权利要求2所述的方法，其特征在于，在利用所述样本集对分类模型进行训练之前，所述方法还包括：

5.如权利要求1-4任一项所述的方法，其特征在于，所述历史交互数据还包括交互行为、目标应用的使用数据以及用户消费数据；

所述特征变量包括：用户的性别、年龄、所处的地理位置、第三方对所述用户的信用评分、目标应用的登录时长和所述交互时间段。

6.一种用户触达时间的预测方法，其特征在于，包括：

获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的，所述交互周期为周期性重复的时间周期；

其中，所述触达时间为所述多个预设时间段中的一个预设时间段，所述预测模型是利用权利要求1至5任一项所述的方法训练得到。

7.一种用户触达时间的预测模型的训练装置，其特征在于，包括：

数据获取模块，用于获取多个用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的，所述交互周期为周期性重复的时间周期；

特征生成模块，用于根据所述多个用户的用户属性数据和历史交互数据，生成包含特征变量和标签的样本集，所述标签用于标注与所述用户的交互行为是否成功；

模型训练模块，用于利用所述样本集对分类模型进行训练，以获得用于预测用户触达时间的预测模型，其中，所述用户触达时间为所述多个预设时间段中的一个预设时间段。

8.一种用户触达时间的预测装置，其特征在于，包括：

目标用户数据获得模块，用于获取待预测的目标用户的用户属性数据和历史交互数据，所述历史交互数据包括交互时间段；其中，所述交互时间段是交互行为在多个预设时间段中所属的时间段，所述多个预设时间段是对预设的交互周期划分得到的，所述交互周期为周期性重复的时间周期；

其中，所述触达时间为所述多个预设时间段中的一个预设时间段，所述预测模型是利用权利要求7所述的训练装置训练得到。

9.一种处理设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现包括如权利要求1至5任一项所述的方法的步骤，或者实现包括如权利要求6所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现包括如权利要求1至5任一项所述的方法的步骤，或者实现包括如权利要求6所述的方法的步骤。