CN111401671A

CN111401671A - 一种精准营销中衍生特征计算方法、装置和可读存储介质

Info

Publication number: CN111401671A
Application number: CN201910000521.XA
Authority: CN
Inventors: 陈洪岭
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Ltd Research Institute
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2020-07-10
Anticipated expiration: 2039-01-02
Also published as: CN111401671B

Abstract

本发明实施例提供了一种精准营销中衍生特征计算方法、装置和可读存储介质，所述方法包括：基于样本数据确定衍生特征为可迭代的衍生特征；所述样本数据为从基站和/或业务平台获取的用户信息；确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系；判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征。

Description

一种精准营销中衍生特征计算方法、装置和可读存储介质

技术领域

本发明涉及移动通信技术领域，尤其涉及一种精准营销中衍生特征计算方法、装置和可读存储介质。

背景技术

信息技术的发展促进了各行业营销手段的升级，通过人工智能技术可对高价值用户、存量客户、预期离网用户等进行智慧营销。智慧营销一般是通过对生产数据进行采集、数据清洗、通过一定的规则生成衍生特征，然后将衍生特征数据输入到机器学习算法(例如决策树)，最终生成目标营销数据。

衍生特征是指用生产数据进行特征学习得到新的特征。大数据时代，生产数据越来越多，生产数据(本文后续统称为数据)进行衍生特征计算时，对计算机资源的需要也就越来越多，然而现实情况是计算资源是有限的，成本要控制在一定的范围内，传统的全量计算衍生特征方式已经无法满足现有的需求；而且，衍生特征计算的耗时越来越长，一次业务建模时间长达数天，无法满足业务需求；此外，即使目前有部分技术可以增量计算衍生特征，但其智能化、自动化程度也很低，对人力的消耗也很大，人的参与成本太高。

发明内容

有鉴于此，本发明实施例期望提供一种精准营销中衍生特征计算方法、装置和可读存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种精准营销中衍生特征计算方法，该方法包括：

基于样本数据确定衍生特征为可迭代的衍生特征；所述样本数据为从基站和/或业务平台获取的用户信息；

确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系；

判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征。

可选的，该方法还包括：

确定所述衍生特征为不可迭代的衍生特征时，后续数据采用全量计算方式确定所述衍生特征。

可选的，该方法还包括：

判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时，后续数据采用全量计算方式确定所述衍生特征。

其中，所述基于样本数据确定衍生特征为可迭代的衍生特征，包括：

将所述样本数据进行全量衍生特征计算，生成第一衍生特征集合；

将所述样本数据进行迭代衍生特征计算，生成第二衍生特征集合；

如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致，则确定所述衍生特征为可迭代的衍生特征。

其中，所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系，包括：

确定所述样本数据对应的衍生特征总个数M，以及可迭代的衍生特征个数L；

确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1；以及确定全量计算M个衍生特征的计算总量m2；

比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1，与全量计算M个衍生特征的计算总量m2之间的大小关系。

其中，所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征，包括：

确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2；

依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。

可选的，该方法还包括：

将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并，用于后续机器学习。

本发明实施例还提供了一种精准营销中衍生特征计算装置，该装置包括：

迭代评估模块，用于基于样本数据确定衍生特征为可迭代的衍生特征；所述样本数据为从基站和/或业务平台获取的用户信息；

资源确定模块，用于确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系；

迭代计算模块，用于判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征。

本发明实施例还提供了一种精准营销中衍生特征计算装置，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行上述方法的步骤。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例提供的精准营销中衍生特征计算方法、装置和可读存储介质，基于样本数据确定衍生特征为可迭代的衍生特征；所述样本数据为从基站和/或业务平台获取的用户信息；确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系；判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征。本发明实施例对可迭代的衍生特征进行迭代计算确定衍生特征，且保证迭代计算时所需的资源小于全量计算所需的资源，可见，本发明实施例的衍生特征计算方法需要的资源相对减少，降低运维成本；而且自动化评估是否进行迭代计算，也可降低人力成本。

附图说明

图1为本发明实施例所述精准营销中衍生特征计算方法流程示意图一；

图2为本发明实施例所述精准营销中衍生特征计算装置结构示意图一；

图3为本发明实施例所述精准营销中衍生特征计算装置结构示意图二；

图4为相关技术中所述精准营销中衍生特征计算方法示意图；

图5为本发明实施例所述精准营销中衍生特征计算方法流程示意图二；

图6为本发明实施例中所述精准营销中衍生特征计算方法示意图。

具体实施方式

下面结合附图和实施例对本发明进行描述。

本发明实施例提供了一种精准营销中衍生特征计算方法，如图1所示，该方法包括：

步骤101：基于样本数据确定衍生特征为可迭代的衍生特征；所述样本数据为从基站和/或业务平台获取的用户信息；

步骤102：确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系；

步骤103：判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征。

其中，所述样本数据可为所有数据中的前几个周期的数据。

这里，所述用户信息可为：用户的性别、年龄、身高、体重、学历、爱好、消费习惯、职业等等。

本发明实施例对可迭代的衍生特征进行迭代计算确定衍生特征，且保证迭代计算时所需的资源小于全量计算所需的资源，可见，本发明实施例的衍生特征计算方法需要的资源相对减少，降低运维成本；而且自动化评估是否进行迭代计算，也可降低人力成本。

一个实施例中，该方法还包括：

本发明实施例中，所述基于样本数据确定衍生特征为可迭代的衍生特征，包括：

本发明实施例中，所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系，包括：

本发明实施例中，所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征，包括：

一个实施例中，该方法还包括：

为了实现上述实施例，本发明实施例还提供了一种精准营销中衍生特征计算装置，如图2所示，该装置包括：

迭代评估模块201，用于基于样本数据确定衍生特征为可迭代的衍生特征；所述样本数据为从基站和/或业务平台获取的用户信息；

资源确定模块202，用于确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系；

迭代计算模块203，用于判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征。

一个实施例中，所述迭代评估模块201，还用于确定所述衍生特征为不可迭代的衍生特征时，确定后续数据采用全量计算方式确定所述衍生特征。

一个实施例中，所述迭代计算模块203，还用于判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时，确定后续数据采用全量计算方式确定所述衍生特征。

本发明实施例中，所述迭代评估模块201基于样本数据确定衍生特征为可迭代的衍生特征，包括：

本发明实施例中，所述资源确定模块202确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系，包括：

本发明实施例中，所述迭代计算模块203判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征，包括：

一个实施例中，如图3所示，该装置还包括：合并模块204，用于将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并，用于后续机器学习。

其中，所述处理器用于运行所述计算机程序时，执行：

所述处理器还用于运行所述计算机程序时，执行：

所述基于样本数据确定衍生特征为可迭代的衍生特征时，所述处理器还用于运行所述计算机程序时，执行：

所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系时，所述处理器还用于运行所述计算机程序时，执行：

所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征时，所述处理器还用于运行所述计算机程序时，执行：

所述处理器还用于运行所述计算机程序时，执行：

需要说明的是：上述实施例提供的装置在进行精准营销中衍生特征计算时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，执行：

所述计算机程序被处理器运行时，还执行：

所述基于样本数据确定衍生特征为可迭代的衍生特征时，所述计算机程序被处理器运行时，还执行：

所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系时，所述计算机程序被处理器运行时，还执行：

所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征时，所述计算机程序被处理器运行时，还执行：

所述计算机程序被处理器运行时，还执行：

下面结合场景实施例进行描述。

假设目前有N个月的生产数据，通过对这些数据进行衍生特征计算、机器学习来进行某种业务营销，传统的衍生特征计算方式是：对N个月的数据进行全量的某种函数运算，例如计算某列的均值，均方差，均方误差等，过程如图4所示，不再详述。

在本实施例中，对N个月的数据进行衍生特征计算不再需要全量，而是通过如下过程进行增量迭代方式计算。其计算流程如图5所示，包括：

步骤501：产生营销任务；

步骤502：系统采集数据；

步骤503：系统清洗数据；

步骤504：判断衍生特征是否为可迭代衍生特征；如果是，执行步骤505；否则，执行步骤507；

步骤505：判断迭代计算对资源的使用量是否小于通过全量计算对资源的使用量；如果是，则执行步骤506；否则，执行步骤507；

步骤506：后续数据采用迭代的方式确定所述衍生特征；

步骤507：后续数据采用全量计算方式确定所述衍生特征；

步骤508：将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并；

步骤509：基于所述衍生特征进行机器学习，完成智慧营销任务。

为了实现上述方法实施例，下面给出几个主要模块，包括:用于执行步骤504的衍生特征评估模块、用于执行步骤505的资源评估模块以及用于执行步骤506的迭代计算模块；下面给出各模块的功能：

一、衍生特征评估模块执行如下操作：

步骤一：准备样本数据；

步骤二：将所述样本数据进行全量衍生特征计算，生成第一衍生特征集合；

步骤三：将所述样本数据进行迭代衍生特征计算，生成第二衍生特征集合；

步骤四：如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致，则确定所述衍生特征为可迭代的衍生特征。

这里，样本数据可以以一个月内的体重数据为例进行说明，衍生特征为体重均值为例，经过上述计算可以确定衍生特征(体重均值)为可迭代衍生特征。

二、资源评估模块执行如下操作：

迭代计算是为了减少服务器计算资源、存储资源的使用，减少建模所用时间，而迭代计算是否真正能起到作用则需要一个评估算法来测量，如下所示：

当建模任务重，衍生特征量大的情况下，可以通过公式确定资源使用量：

假设数据总量为N，衍生特征总个数为M，若可迭代衍生特征L，则需全量计算的衍生特征为M-L,可迭代衍生特征计算总量为(L/M)*2，全量数据的衍生特征计算总量为((M-L)/M)*N,总计算量为(L/M)*2+((M-L)/M)*N；若所有数据都进行全量的衍生特征计算，则需要的计算量为N*M；

所以，当(L/M)*2+((M-L)/M)*N<M*N时采用迭代计算；否则采用全量计算。

这里，实际应用时，还可对公式进行修正，增加常数项，使公式能更加准确的进行预测。

三、迭代计算模块执行如下操作，如图6所示：

步骤一：全量计算前2个月(可依据需要设置时间段)的衍生特征，生成衍生基础特征数据D2。

步骤二：当第M个月的数据进入系统时，将衍生特征数据D2与第M个月的数据进行新的衍生特征计算：可迭代计算部分(对应图6中中间部分的左侧框)仅计算D2以及第M个月两部分数据；对于不可迭代计算的数据(对应图6中中间部分的右侧框)计算全量计算。

上述几个模块执行相应操作之后，后续操作可合并以上两种操作产生的数据形成新的衍生特征Dm，以进行后续机器学习。

同理，基于上述相同的实现方法，当新增第N个月的数据时，将前N-1个月的衍生特征数据D(n-1)与第N个月的数据进行相同的衍生特征计算，生成Dn。

可见，本发明实施例的迭代计算方法相对传统的全量计算方法占用计算资源少，评估衍生特征是否可进行迭代计算，降低运维成本；而且自动化评估是否进行迭代计算，也可降低人力成本。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种精准营销中衍生特征计算方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，该方法还包括：

3.根据权利要求2所述的方法，其特征在于，该方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于样本数据确定衍生特征为可迭代的衍生特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系，包括：

6.根据权利要求5所述的方法，其特征在于，所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时，后续数据采用迭代的方式确定所述衍生特征，包括：

7.根据权利要求3所述的方法，其特征在于，该方法还包括：

8.一种精准营销中衍生特征计算装置，其特征在于，该装置包括：

9.一种精准营销中衍生特征计算装置，其特征在于，该装置包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1-7中任一项所述方法的步骤。

10.一种可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。