CN112036960B

CN112036960B - 数据获取方法、装置、设备及介质

Info

Publication number: CN112036960B
Application number: CN202010956645.8A
Authority: CN
Inventors: 吴方涛; 王雪; 徐勐
Original assignee: Hangzhou Miya Information Technology Co ltd
Current assignee: Hangzhou Miya Information Technology Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-08-02
Anticipated expiration: 2040-09-11
Also published as: CN112036960A

Abstract

本发明公开了一种数据获取方法、装置、设备及介质。其中，该数据获取方法包括：通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据；其中，潜在客群价值数据应用于精细化营销。通过本发明的数据获取方法，实现了对无监督学习算法和有监督学习算法的结合，突破了无监督学习建立客户细分模型的传统限制，起到了进一步提升客户细分模型以进行精细化智能营销的目的。

Description

数据获取方法、装置、设备及介质

技术领域

本发明涉及计算技术领域，尤其涉及一种数据获取方法、数据处理装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能技术的快速发展，利用机器学习技术解决商业问题的方式越来越普遍。其中，在智能营销技术领域中，考虑精细化管理以提升运营效益的目的，基于机器学习技术的客户细分模型在许多行业都有广泛应用，例如零售、金融、电商等领域。

但是，客户细分模型通常采用的是无监督学习算法，这就造成各类别客户群体(即客群)的数据之间差别不大，使得针对各个客群的营销效果不具有显著区别，因而无法区分客群之间的潜在营销效果的优劣，造成智能营销活动缺乏针对性，无法更好地实现精细化营销。

发明内容

(一)要解决的技术问题

为解决现有技术中应用于智能营销的无监督学习算法针对性不强，无法更好地实现精细化营销的技术问题，本发明公开了一种数据获取方法、数据处理装置、电子设备及计算机可读存储介质。

(二)技术方案

本发明的一个方面公开了一种数据获取方法，其中，包括：通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据；其中，潜在客群价值数据应用于精细化营销。

根本发明的实施例，在通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据之前，还包括：根据预设价值分层规则，通过聚类算法对固定客群数据进行聚类预测处理，生成价值分层模型；其中，聚类算法为Kmeans算法或kmeans++算法。

根据本发明的实施例，在根据预设价值分层规则，对固定客群数据进行聚类预测处理，生成价值分层模型之后，还包括：基于固定客群数据，确定于第一时间点的第一固定数据和于第二时间点的第二固定数据；根据第一固定数据和第二固定数据，确定训练样本数据，用于生成分类模型；其中，第一时间点和第二时间点之间具有时间间隔。

根据本发明的实施例，根据第一固定数据和第二固定数据，确定训练样本数据，包括：通过价值分层模型对第一固定数据进行价值分层预测，获取第一分层数据；通过价值分层模型对第二固定数据进行价值分层预测，获取第二分层数据；对第一分层数据和第二分层数据进行价值层级比较处理，获取具有价值迁移标签的训练样本数据。

根据本发明的实施例，生成分类模型，包括：通过多分类算法对训练样本数据进行学习建模，生成分类模型；其中，多分类算法为Xgboost算法、Logistic Regression算法或Svm算法。

根据本发明的实施例，客群价值迁移数据中对应于每个客户具有三个维度，每个维度具有一个预测标签分值，其中，每个客户的三个维度的预测标签分值的和为1；预设阈值关系为：对应每个客户的一个维度的预测标签分值与第一预设阈值和/或第二预设阈值之间的大小关系。

根据本发明的实施例，根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据，包括：当客群价值迁移数据中对应一个客户的一个维度的预测标签分值大于等于第一预设阈值，则对应一个客户进行潜在价值上行标签的标记；和/或当客群价值迁移数据中对应一个客户的一个维度的预测标签分值小于第二预设阈值，则对应一个客户进行潜在价值保持标签的标记；当客群价值迁移数据中对应一个客户的一个维度的预测标签分值小于第一预设阈值且大于等于第二预设阈值，则对应一个客户进行潜在价值下行标签的标记；其中，潜在客群价值数据为对应客群价值迁移数据中具有潜在价值上行标签、潜在价值保持标签和潜在价值下行标签的客户数据。

本发明的另一方面公开了一种数据获取装置，其中，包括：价值预测模块和价值分类模块。价值预测模块用于通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；价值分类模块用于根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据；其中，潜在客群价值数据应用于精细化营销。

本发明的另一方面公开了一种电子设备，其中，包括：一个或多个处理器和存储装置。存储装置用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

本发明的另一方面公开了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现上述的方法。

(三)有益效果

附图说明

图1示意性示出了根据本发明实施例的数据获取方法的流程图；

图2示意性示出了根据本发明实施例的客户价值分层和销售贡献度的关系图；

图3示意性示出了根据本发明实施例的对应第一时间点和第二时间点的客群价值变化图；

图4示意性示出了根据本发明实施例的数据获取方法对应的分层营销效果的对比图；

图5示意性示出了根据本发明实施例的数据获取装置的架构图；

图6示意性示出了根据本发明实施例的适于实现上述数据获取方法的电子设备的方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在大数据行业背景下，样本数据量非常大，经常出现不具有标签的数据，而对数据进行人工标记的成本极高，也无法保证准确性，所以这些数据一般无法通过有监督学习的模型训练。因此，需要使用聚类算法对数据的类型和类型数量进行区分，以获得具体数据类型、各个数据的性质以及各数据之间的关系。

以Kmeans聚类算法为例，机器学习技术领域中，Kmeans算法也称为k均值算法，是聚类算法中一种较为简单有效的无监督学习算法，用于学习不带样本标签的各个数据的内在特征关系。Kmeans算法的主要是将离散的许多数据点利用k个质心进行聚类，分成k簇来区分相似性较小的数据点并归为一类，相似性较大的数据点归为另一类。具体地，Kmeans算法有四个主要步骤：(1)在n个数据中随机选取k个数据点作为初始的质心；(2)把所有数据点都归属到离它最近的质心，并且标为相应的类别号，从而把所有数据点分成k个簇。此处的距离通常选择欧式距离；(3)在各个簇内部求均值确定新的质心；(4)重复第(2)、(3)步骤直到各个数据点的归属不变或者达到提前设定迭代次数。因此，Kmeans算法利用不断更新数据点的质心归属和质心的位置进行最终收敛以到最优解。

基于上述情况，如何建设一个提升客户细分营销效果的模型是客户细分营销领域待解决的关键技术问题。

为解决现有技术中应用于智能营销的无监督学习算法针对性不强，无法更好地实现精细化营销的技术问题，本发明公开了一种数据获取方法、数据处理装置、电子设备及计算机可读存储介质。通过采用本发明提供的数据获取方法，可以将机器学习中的无监督学习算法和有监督学习算法进行融合，来进一步提升客户细分模型在营销数据获取过程中的针对性，以实现精细化营销。

如图1所示，本发明的一个实施例公开了一种数据获取方法，该方法包括以下步骤：

步骤S101：通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；

步骤S102：根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据；其中，潜在客群价值数据应用于精细化营销。

在本发明的实施例中，原始客群数据为对应特定时间段中包括所有客户的不带有任何数据标签(如后文所述的价值迁移标签)的原始数据，该原始客群数据主要基于销售方(也可以称之为营销施策方)根据特定时间段内的所有客户中每个客户的价值特征流水数据获取的，该价值特征流水数据可以是电商领域的成交总额、金融领域的存款和贷款指标等至少一种的至少一个数据值。举例而言，原始客群数据集可以为具有所有客户的所有属性的数据，各个客户之间的ID代码或名称具有一定差异，每个客户都对应有包括年龄、性别、消费时间、消费频次以及消费金额和/或贷款额、存款等特征属性，对应每一种特征属性均具有相应的具体数值或代码作为原始数据，并且对应于某特定时间窗口(即时间段)。例如，原始客群数据可以是2017年1月1日至2019年6月30这一时间段内，对应所有客户的消费额、贷款额和存款额三种特征属性的所有数据，其中包括时间段、特征属性及其各自对应的数据值。

分类模型通过有监督学习的分类算法对某时间段内的数据进行训练来获得的。而用于建立分类模型的某时间段内的数据可以通过无监督学习的聚类算法进行聚类预测得到。也即，本发明的数据获取方法，能够将无监督学习的聚类算法和有监督学习的分类算法进行有效结合，以进一步提升分类预测处理结果(即客群价值迁移数据)的准确性。

通过有监督学习的分类算法的分类模型对原始客群数据进行分类预测，可以将不具有数据标签的原始客群数据中的不同客户进行价值迁移标签的标记。价值迁移标签在训练样本中可以是分类模型对通过无监督学习的聚类算法在不同时间获得的聚类结果进行定义的数据标记，在预测时通过一标签分值(如概率值)体现。

在本发明的实施例中，价值迁移标签可以具有多个维度，每个维度对应不同标签分值，例如，3个维度的3个不同标签分值，分别对应相应客户的价值迁移标签为价值上行、价值保持和价值下行。因此，客群价值迁移数据为对应于原始客群数据的、具有上述价值迁移标签及其相应标签分值的分类样本数据。

进一步地，根据该客群价值迁移数据中对应某客户的标签分值与预设阈值之间的关系(即本发明实施例的预设阈值关系，可以理解为判断规则)，对上述的该客户进行分类，以预测该客户为潜在价值上行、潜在价值保持或潜在价值下行。据此，可以获得潜在价值上行客群、潜在价值保持客群和潜在价值下行客群，其为对应原始客群数据中的潜在客群价值数据。

本领域技术人员应当理解，通过有监督学习算法和无监督学习算法的融合可以得到客户有潜在价值上行，潜在价值保持，潜在价值下行三类标签，对应该三类标签的客户的营销效果依次递减。因此，为确保精细化营销，需要剔除潜在价值下行的客户，对潜在价值上行升和潜在价值保持的客户进行营销(具体优先营销潜在价值上行的客户，其次营销潜在价值保持的客户)，从而显著提升营销效果和提高营销效果的稳定性。因此，本发明的目的即是获取原始客群数据中的潜在客群价值数据，并针对该潜在客群价值数据中对应的潜在价值上行的客户和潜在价值保持的客户进行针对性营销。

因此，本发明的数据获取方法通过无监督学习算法部分建设聚类模型，然后通过有监督学习算法部分基于前后时间客群价值迁移，建立以价值迁移标签为分类模型的多分类模型。即本发明通过结合无监督学习算法和有监督学习算法，突破了以无监督学习建立客户细分模型的传统做法，可以获取原始客群数据中的潜在客群价值数据，进一步提升了客户细分模型营销效果，以确保精细化营销的实现。

根据本发明的实施例，在步骤S101中所述的通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据之前，还包括：根据预设价值分层规则，通过聚类算法对固定客群数据进行聚类预测处理，生成价值分层模型；其中，聚类算法为Kmeans算法或kmeans++算法。

固定客群数据可以是原始客群数据中对应某固定时段的数据，例如当原始客群数据所对应的时间段为20170101-20190630，则固定客群数据对应的时间段可以为20180101-20181231的数据，该数据属于原始客群数据的一部分，对应所有客户的所有特征属性。具体地固定客群数据的时间段选择可以依据所有客户的价值特征等特征属性(如电商领域的成交总额、金融领域的存款和贷款指标等)进行确定。

预设价值分层规则为营销施策方根据客户的价值特征和有序价值层级所设定的客户价值分层基准，具体可以用于定义根据有序价值层级对固定客群数据中所有客户的价值进行分层，可以分为M个有序价值层级，具体可以满足：M≥5。

以固定客群数据作为无监督学习算法的训练样本，通过预设价值分层规则和聚类算法对训练样本进行聚类预测(即无监督学习算法学习)建立对应所有客户的价值分层模型model1。如图2所示，当M＝5时，客户价值分层模型model1对应的客户价值分层具有5层V∶1-V∶5，如图2所示左侧的层级，即对应固定客群数据的客户的分层结果。其中，每个层级对应一个客群，各个层级的面积越大，代表该客群的客户越多，也即层级V∶1的客户数量最少，层级V∶5的客户数量最大。另外，以客户的销售额的特征属性为例，如图2所示右侧相对应的倒三角，为对应左侧相应层级的客户销售贡献的占比，即层级V∶1的销售贡献占比为60％，层级V∶2的销售贡献占比为22％，层级V∶3的销售贡献占比为10％，层级V∶4的销售贡献占比为5％，层级V∶5的销售贡献占比为3％。可见，通过上述价值分层模型model1将固定客群数据中所有客户的销售贡献占比进行了直观的体现，实现了对所有客户的销售贡献的分层。需要说明的是，上述的销售贡献占比只是为体现上述价值分层模型model1可以用于根据销售额这一特征属性进行分层的一实例，并非是用于限制本发明的价值分层模型model1。

进一步地，作为聚类算法，Kmeans算法属于无监督学习聚类算法之一，是一种迭代求解的聚类分析方法，具体步骤是随机选取k个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给他们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算，上述的过程会不断重复直到满足某个终止条件，最终得到紧凑且独立的簇。Kmeans++算法属于Kmeans算法的改进算法，具体涉及：假设已经选取了n个初始聚类中心(0＜n＜k)，则在选取第n+1个聚类中心时，距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。在选取第一个聚类中心(n＝1)时同样通过随机的方法。也即，Kmeans++算法实质上是在Kmeans的基础上优化了初始质心的生成方式。通过上述的聚类算法，可以直接用于生成上述的价值分层模型model1，使得价值分层模型model1对固定客群数据的分层效果更加精准。

需要说明的是，本发明实施例的聚类算法实际上也可以为非Kmeans算法或kmeans++算法的算法，在此不作限制。

第一时间点和第二时间点可以依据原始客群数据和固定客群数据对应的时间段的某前后两个时间点来确定，该时间段的时间间隔长度为本发明实施例中分类模型的预测长度，其具体间隔区间长度值即该分类模型需要预测的未来时间点。在本发明的实施例中，第一时间点和第二时间点需满足属于原始客群数据对应的时间段，但并不属于固定客群数据对应的时间段。例如，当原始客群数据对应时间段为20170101-20190630，固定客群数据对应的时间段可以为20180101-20181231，则第一时间点和第二时间点应均位于20190101-20190630的时间段，即第一时间点和第二时间点一般不位于固定客群数据对应的时间段以前，例如，第一时间点可以是20190131，第二时间点可以是20190220。

为确保分类预测过程中的客户数据具有对应性，数据结果更加精准，在本发明的实施例中，第一固定数据、第二固定数据与固定客群数据所对应的时间段大小均一致。其中，时间段大小可以理解为该时间段的起止时间点之间的时间间距，例如固定客群数据对应的时间段为20180101-20181231时，其时间段大小为12个月，即一年。据此，基于第一时间点的第一固定数据的时间段为20180201-20190131，基于第二时间点的第二固定数据的时间段为20180221-20190220，即第一时间点和第二时间点为分别对应第一固定数据和第二固定数据的对应时间段的截止时间点。需要说明的是，第一时间点和第二时间点不能相同，即二者之间需要具有时间间隔(例如预测天数)，如上述第一时间点20190131与第二时间点20190220之间的时间间隔为20天。

关于根据第一固定数据和第二固定数据，确定训练样本数据，具体可以参照如下内容：

通过价值分层模型model1对第一固定数据和第二固定数据的分层预测，可以分别获得对应第一时间点和第二时间点的相同时间段的所有客户的价值层级。也即，通过价值分层模型model1所定义的价值分层规则对第一固定数据和第二固定数据中的所有客户进行了价值分层。如图3所示，第一固定数据进行价值分层可以获得第一分层数据，该第一分层数据中对应的层级T0∶1-T0∶5，每个层级对应一个客群，各个层级之间的价值关系满足：T0∶1＞T0∶2＞T0∶3＞T0∶4＞T0∶5，该第一分层数据中对应的层级T1∶1-T1∶5，每个层级对应一个客群，各个层级之间的价值关系满足：T1∶1＞T1∶2＞T1∶3＞T1∶4＞T1∶5。其中，T0为第一时间点，T1为第二时间点。

如图3所示，将对应一客户的第二时间点T1时刻的价值层级和第一时间点T0时刻的价值层级进行比较，则该客户的价值状态变化可以价值上行、价值保持和价值下行中的一种。例如，一客户的价值层级从T0∶2变为T1∶1时，则该客户的价值层级实现了提升，则相应地将该客户标记为价值上行，则该客户及其对应数据具有价值上行的价值迁移标签。同理，对所有客户的价值变化进行相应的价值迁移标签的标记，即可以得到本发明实施例的训练样本数据，该训练样本数据用于建立生成分类模型。

因此，通过客户前后两个时间点的特征数据，应用价值分层模型model1对该特征数据分别进行分层预测，可以获得对应的两个价值层级，比较两个不同时间点的价值层级中相应客户的价值变化并对客户的价值变化进行价值迁移标签的标记，可以得到带有客户价值迁移标签的训练样本数据。其中，该价值迁移标签包括价值上行、价值保持和价值下行。

通过Xgboost算法、Logistic Regression算法、Svm算法等多分类算法之一，可以实现对上述的训练样本数据进行模型学习，获得具有价值迁移预测能力的多分类模型model2，即上述的分类模型，该分类模型model2用于定义对应某客户的特征属性的原始数据的数据价值迁移趋势，即该客户未来的价值迁移是潜在价值上行、潜在价值保持或潜在价值下行。其中，Xgboost算法是一种梯度提升的扩展算法，基于思想是：一棵树一棵树逐渐地往模型里面加，每加一棵CRAT决策树时，要使得整体的目标函数有所提升。使得多棵决策树构成组合分类器，并给每个叶子节点赋予一定的权值。其中，CRAT决策树为二叉树，内部结点特征的取值为“是”或“否”。此外，Logistic Regression算法是逻辑回归算法，为一种广义线性回归模型；Svm算法是支持向量机算法。以上三种分类算法，都属于有监督学习算法，具有良好的分类效果，在此不作赘述。

因此，将上述生成的分类模型model2对原始客群数据进行价值迁移预测，可以对原始客群数据中不具有价值迁移标签的客户进行价值迁移趋势进行预测，该价值迁移趋势预测是根据该客户对应的特征属性的原始数据，通过分类模型model2所定义的数据价值迁移趋势对该客户的进行价值迁移预测，得到客群价值迁移数据，该客群价值迁移数据用于反映其中各个客户未来的价值迁移方向是潜在价值上行、潜在价值保持或潜在价值下行，即该客户为潜在价值上行客户、潜在价值保持客户或潜在价值下行客户。其中，“潜在”一词是体现该客户的价值迁移方向属于预测数据。据此，通过分类模型model2还对相应客户进行了价值迁移标签的标记，具体参照下述内容。

具体地，对于与不具有价值迁移标签的原始客群数据相对应的客群价值迁移数据，其中每个客户都具有价值迁移标签，价值迁移标签对应三个维度，各个维度并不相同，分别对应潜在价值上行、潜在价值保持和潜在价值下行，而且对应某客户的3个维度具有的不同价值迁移标签用预测标签分值来体现，每个价值迁移标签的预测标签分值并不一定相同。预测标签分值为一概率值，对于同一客户而言，三个维度的不同价值迁移标签对应三种预测标签分值：P1、P2和P3，P1对应该客户被预测为潜在价值上行的概率值，P2对应该客户被预测为潜在价值保持的概率值，P3对应该客户被预测为潜在价值下行的概率值。其中，三种预测标签分值：P1、P2和P3满足：P1+P2+P3＝1。如下表1所示，对于客群价值迁移数据中的4个不同客户A、B、C和D，其各自对应的预测标签分值P1、P2和P3。

客户	P1	P2	P3
				A	0.7	0.2	0.1
B	0.3	0.5	0.2
				C	0.4	0.1	0.5
D	0.1	0.3	0.6

表1

由于客群价值迁移数据中每个客户的数据对应的时段不同、数值不同等因素，造成该客户的预测价值迁移数据对应的预测标签分值P1、P2和P3并不一定相同或一致。为此，在本发明的实施例中，预先设定一预设阈值关系，对应每个客户的每个维度的预测标签分值与第一预设阈值β1和/或第二预设阈值β2之间的大小关系，以进一步确定该客户的价值迁移趋势方向。

根据本发明的实施例，步骤S102中所述的根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据，包括：当客群价值迁移数据中对应一个客户的一个维度的预测标签分值大于等于第一预设阈值，则对应一个客户进行潜在价值上行标签的标记；和/或当客群价值迁移数据中对应一个客户的一个维度的预测标签分值小于第二预设阈值，则对应一个客户进行潜在价值保持标签的标记；当客群价值迁移数据中对应一个客户的一个维度的预测标签分值小于第一预设阈值且大于等于第二预设阈值，则对应一个客户进行潜在价值下行标签的标记；其中，潜在客群价值数据为对应客群价值迁移数据中具有潜在价值上行标签、潜在价值保持标签和潜在价值下行标签的客户数据。

在本发明的实施例中，第一预设阈值β1表示价值迁移预测为潜在价值上行对应的预测标签分值P1的阈值；第一预设阈值β2表示价值迁移预测为潜在价值下行对应的预测标签分值P3的阈值。其中，β1和β2的取值范围为[0，1]。其中，当对应一客户的一维度的预测标签分值P1大于等于第一预设阈值β1，则该客户属于潜在价值上行的类别，被标记为潜在价值上行客户，具有潜在价值上行的预测价值迁移标签；同理，当对应一客户的一维度的预测标签分值P3小于第二预设阈值β2，则该客户属于潜在价值保持的类别，被标记为潜在价值保持客户，具有潜在价值保持的预测价值迁移标签；此外，上述两种条件均不满足的客户属于潜在价值下行的类别，被标记为潜在价值下行客户，具有潜在价值下行的预测价值迁移标签。

具体地，以上述表1所示的客群价值迁移数据为例，设定第一预设阈值β1＝0.7，第二预设阈值β2＝0.4，则相应客户的潜在价值迁移标签可以根据下述内容确定。在潜在客群价值数据中，对于客户A，其对应潜在价值迁移趋势的维度的预测标签分值P1＝0.7、P2＝0.2和P3＝0.1，其中P1＝0.7≥β1＝0.7，因此，该客户A属于潜在价值上行的类别，被标记为潜在价值上行客户，具有潜在价值上行的预测价值迁移标签。对于客户B，其对应潜在价值迁移趋势的维度的预测标签分值P1＝0.3、P2＝0.5和P3＝0.2，其中P1＝0.3＜β1＝0，7，因此，排除该客户B属于潜在价值上行的类别，另外，客户B的P3＝0.2＜β2＝0.4，因此，该客户B属于潜在价值保持的类别，被标记为潜在价值保持客户，具有潜在价值保持的预测价值迁移标签。对于客户C，其对应潜在价值迁移趋势的维度的预测标签分值P1＝0.4、P2＝0.1和P3＝0.5，其中P1＝0.4＜β1＝0.7，因此，排除该客户C属于潜在价值上行的类别，另外，客户C的P3＝0.5＞β2＝0.4，该客户C也不属于潜在价值保持的类别，因此，客户C应属于潜在价值下行的类别，被标记为潜在价值下行客户，具有潜在价值下行的预测价值迁移标签。同理，客户D也属于潜在价值下行客户，具有潜在价值下行的预测价值迁移标签。

因此，上述具有潜在价值上行标签、潜在价值保持标签和潜在价值下行标签的客户数据即对应原始客群数据的潜在客群价值数据。据此，可以确定每个客户的潜在价值迁移趋势。通过该潜在客群价值数据中每个客户的潜在价值迁移趋势，可以确定三种不同的客群，分别对应潜在价值上行、潜在价值保持和潜在价值下行，即实现了对原始客群数据的客群细分。

因此，将该数据应用于营销活动之中，就可以实现对潜在价值上行和潜在价值保持的客群进行特定营销，而排除潜在价值下行的客群的影响，进一步实现了精细化营销。另外，据此也可以针对上述三种客群进行区分化的营销，营销效果更好。

如图4所示，反应了本发明实施例中上述三种不同客群在不同分层下的营销效果的柱状对比图，可见潜在价值上行、潜在价值保持、潜在价值下行三个客群的营销活动效果依次递减，也即通过本发明的数据处理方法所获得的潜在客群价值数据有效地将活动效果在三类细分客户群中进行了区分，实现了进一步地精细化营销。

如图5所示，本发明的另一方面公开了一种数据获取装置500，其中，该装置包括：价值预测模块510和价值分类模块520。价值预测模块510用于通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；价值分类模块520用于根据预设阈值关系对客群价值迁移数据进行分类，获取原始客群数据中的潜在客群价值数据；其中，潜在客群价值数据应用于精细化营销。

具体地，上述的数据获取装置500可以用于实现上述的数据获取方法，此处不再赘述。

如图6所示，本发明的另一方面公开了一种电子设备，其中，包括：一个或多个处理器和存储装置。存储装置用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现上述的方法。

根据本发明实施例的电子设备600包括处理器601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM603中，存储有设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例，设备600还可以包括输入/输出(I/O)接口605，输入/输出(I/O)接口605也连接至总线604。设备600还可以包括连接至I/O接口605的以下部件中的一项或多项：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

根据本发明的实施例，根据本发明实施例的方法流程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时，执行本发明实施例的系统中限定的上述功能。根据本发明的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

图6示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明的计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

根据本发明的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本发明的实施例，计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。

本发明实施例的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本发明中。特别地，在不脱离本发明精神和教导的情况下，本发明的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种数据获取方法，其中，包括：

通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；

根据预设阈值关系对所述客群价值迁移数据进行分类，获取所述原始客群数据中的潜在客群价值数据；

其中，所述潜在客群价值数据应用于精细化营销；

其中，所述客群价值迁移数据中对应于每个客户具有三个维度，每个维度具有一个预测标签分值，其中，所述每个客户的三个维度的预测标签分值的和为1；

所述预设阈值关系为：对应所述每个客户的一个维度的预测标签分值与第一预设阈值和/或第二预设阈值之间的大小关系；

所述根据预设阈值关系对所述客群价值迁移数据进行分类，获取所述原始客群数据中的潜在客群价值数据，包括：

当所述客群价值迁移数据中对应一个客户的一个维度的预测标签分值大于等于所述第一预设阈值，则对应所述一个客户进行潜在价值上行标签的标记；和/或

当所述客群价值迁移数据中对应一个客户的一个维度的预测标签分值小于所述第二预设阈值，则对应所述一个客户进行潜在价值保持标签的标记；

当所述客群价值迁移数据中对应一个客户的一个维度的预测标签分值小于所述第一预设阈值且大于等于所述第二预设阈值，则对应所述一个客户进行潜在价值下行标签的标记；

其中，所述潜在客群价值数据为对应所述客群价值迁移数据中具有潜在价值上行标签、潜在价值保持标签和潜在价值下行标签的客户数据。

2.根据权利要求1所述的方法，其中，在所述通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据之前，还包括：

根据预设价值分层规则，通过聚类算法对固定客群数据进行聚类预测处理，生成价值分层模型；

其中，所述聚类算法为Kmeans算法或kmeans++算法。

3.根据权利要求2所述的方法，其中，在所述根据预设价值分层规则，对固定客群数据进行聚类预测处理，生成价值分层模型之后，还包括：

基于所述固定客群数据，确定于第一时间点的第一固定数据和于第二时间点的第二固定数据；

根据所述第一固定数据和所述第二固定数据，确定训练样本数据，用于生成所述分类模型；

其中，所述第一时间点和所述第二时间点之间具有时间间隔。

4.根据权利要求3所述的方法，其中，所述根据所述第一固定数据和所述第二固定数据，确定训练样本数据，包括：

通过所述价值分层模型对所述第一固定数据进行价值分层预测，获取第一分层数据；

通过所述价值分层模型对所述第二固定数据进行价值分层预测，获取第二分层数据；

对所述第一分层数据和所述第二分层数据进行价值层级比较处理，获取具有价值迁移标签的训练样本数据。

5.根据权利要求3所述的方法，其中，所述生成所述分类模型，包括：

通过多分类算法对所述训练样本数据进行学习建模，生成所述分类模型；

其中，所述多分类算法为Xgboost算法、Logistic Regression算法或Svm算法。

6.一种数据获取装置，其中，包括：

价值预测模块，用于通过分类模型对原始客群数据进行价值迁移预测处理，生成客群价值迁移数据；

价值分类模块，用于根据预设阈值关系对所述客群价值迁移数据进行分类，获取所述原始客群数据中的潜在客群价值数据；

其中，所述潜在客群价值数据应用于精细化营销；

7.一种电子设备，其中，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现所述权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现所述权利要求1-5中任一项所述的方法。