CN111401671A - 一种精准营销中衍生特征计算方法、装置和可读存储介质 - Google Patents

一种精准营销中衍生特征计算方法、装置和可读存储介质 Download PDF

Info

Publication number
CN111401671A
CN111401671A CN201910000521.XA CN201910000521A CN111401671A CN 111401671 A CN111401671 A CN 111401671A CN 201910000521 A CN201910000521 A CN 201910000521A CN 111401671 A CN111401671 A CN 111401671A
Authority
CN
China
Prior art keywords
derived
full
features
determining
derived features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910000521.XA
Other languages
English (en)
Other versions
CN111401671B (zh
Inventor
陈洪岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201910000521.XA priority Critical patent/CN111401671B/zh
Publication of CN111401671A publication Critical patent/CN111401671A/zh
Application granted granted Critical
Publication of CN111401671B publication Critical patent/CN111401671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种精准营销中衍生特征计算方法、装置和可读存储介质,所述方法包括:基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。

Description

一种精准营销中衍生特征计算方法、装置和可读存储介质
技术领域
本发明涉及移动通信技术领域,尤其涉及一种精准营销中衍生特征计算方法、装置和可读存储介质。
背景技术
信息技术的发展促进了各行业营销手段的升级,通过人工智能技术可对高价值用户、存量客户、预期离网用户等进行智慧营销。智慧营销一般是通过对生产数据进行采集、数据清洗、通过一定的规则生成衍生特征,然后将衍生特征数据输入到机器学习算法(例如决策树),最终生成目标营销数据。
衍生特征是指用生产数据进行特征学习得到新的特征。大数据时代,生产数据越来越多,生产数据(本文后续统称为数据)进行衍生特征计算时,对计算机资源的需要也就越来越多,然而现实情况是计算资源是有限的,成本要控制在一定的范围内,传统的全量计算衍生特征方式已经无法满足现有的需求;而且,衍生特征计算的耗时越来越长,一次业务建模时间长达数天,无法满足业务需求;此外,即使目前有部分技术可以增量计算衍生特征,但其智能化、自动化程度也很低,对人力的消耗也很大,人的参与成本太高。
发明内容
有鉴于此,本发明实施例期望提供一种精准营销中衍生特征计算方法、装置和可读存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种精准营销中衍生特征计算方法,该方法包括:
基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
可选的,该方法还包括:
确定所述衍生特征为不可迭代的衍生特征时,后续数据采用全量计算方式确定所述衍生特征。
可选的,该方法还包括:
判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时,后续数据采用全量计算方式确定所述衍生特征。
其中,所述基于样本数据确定衍生特征为可迭代的衍生特征,包括:
将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
其中,所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系,包括:
确定所述样本数据对应的衍生特征总个数M,以及可迭代的衍生特征个数L;
确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1;以及确定全量计算M个衍生特征的计算总量m2;
比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1,与全量计算M个衍生特征的计算总量m2之间的大小关系。
其中,所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征,包括:
确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2;
依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。
可选的,该方法还包括:
将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并,用于后续机器学习。
本发明实施例还提供了一种精准营销中衍生特征计算装置,该装置包括:
迭代评估模块,用于基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
资源确定模块,用于确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
迭代计算模块,用于判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
本发明实施例还提供了一种精准营销中衍生特征计算装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述方法的步骤。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本发明实施例提供的精准营销中衍生特征计算方法、装置和可读存储介质,基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。本发明实施例对可迭代的衍生特征进行迭代计算确定衍生特征,且保证迭代计算时所需的资源小于全量计算所需的资源,可见,本发明实施例的衍生特征计算方法需要的资源相对减少,降低运维成本;而且自动化评估是否进行迭代计算,也可降低人力成本。
附图说明
图1为本发明实施例所述精准营销中衍生特征计算方法流程示意图一;
图2为本发明实施例所述精准营销中衍生特征计算装置结构示意图一;
图3为本发明实施例所述精准营销中衍生特征计算装置结构示意图二;
图4为相关技术中所述精准营销中衍生特征计算方法示意图;
图5为本发明实施例所述精准营销中衍生特征计算方法流程示意图二;
图6为本发明实施例中所述精准营销中衍生特征计算方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行描述。
本发明实施例提供了一种精准营销中衍生特征计算方法,如图1所示,该方法包括:
步骤101:基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
步骤102:确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
步骤103:判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
其中,所述样本数据可为所有数据中的前几个周期的数据。
这里,所述用户信息可为:用户的性别、年龄、身高、体重、学历、爱好、消费习惯、职业等等。
本发明实施例对可迭代的衍生特征进行迭代计算确定衍生特征,且保证迭代计算时所需的资源小于全量计算所需的资源,可见,本发明实施例的衍生特征计算方法需要的资源相对减少,降低运维成本;而且自动化评估是否进行迭代计算,也可降低人力成本。
一个实施例中,该方法还包括:
确定所述衍生特征为不可迭代的衍生特征时,后续数据采用全量计算方式确定所述衍生特征。
一个实施例中,该方法还包括:
判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时,后续数据采用全量计算方式确定所述衍生特征。
本发明实施例中,所述基于样本数据确定衍生特征为可迭代的衍生特征,包括:
将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
本发明实施例中,所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系,包括:
确定所述样本数据对应的衍生特征总个数M,以及可迭代的衍生特征个数L;
确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1;以及确定全量计算M个衍生特征的计算总量m2;
比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1,与全量计算M个衍生特征的计算总量m2之间的大小关系。
本发明实施例中,所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征,包括:
确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2;
依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。
一个实施例中,该方法还包括:
将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并,用于后续机器学习。
为了实现上述实施例,本发明实施例还提供了一种精准营销中衍生特征计算装置,如图2所示,该装置包括:
迭代评估模块201,用于基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
资源确定模块202,用于确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
迭代计算模块203,用于判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
一个实施例中,所述迭代评估模块201,还用于确定所述衍生特征为不可迭代的衍生特征时,确定后续数据采用全量计算方式确定所述衍生特征。
一个实施例中,所述迭代计算模块203,还用于判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时,确定后续数据采用全量计算方式确定所述衍生特征。
本发明实施例中,所述迭代评估模块201基于样本数据确定衍生特征为可迭代的衍生特征,包括:
将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
本发明实施例中,所述资源确定模块202确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系,包括:
确定所述样本数据对应的衍生特征总个数M,以及可迭代的衍生特征个数L;
确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1;以及确定全量计算M个衍生特征的计算总量m2;
比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1,与全量计算M个衍生特征的计算总量m2之间的大小关系。
本发明实施例中,所述迭代计算模块203判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征,包括:
确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2;
依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。
一个实施例中,如图3所示,该装置还包括:合并模块204,用于将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并,用于后续机器学习。
本发明实施例还提供了一种精准营销中衍生特征计算装置,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行:
基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
所述处理器还用于运行所述计算机程序时,执行:
确定所述衍生特征为不可迭代的衍生特征时,后续数据采用全量计算方式确定所述衍生特征。
所述处理器还用于运行所述计算机程序时,执行:
判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时,后续数据采用全量计算方式确定所述衍生特征。
所述基于样本数据确定衍生特征为可迭代的衍生特征时,所述处理器还用于运行所述计算机程序时,执行:
将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系时,所述处理器还用于运行所述计算机程序时,执行:
确定所述样本数据对应的衍生特征总个数M,以及可迭代的衍生特征个数L;
确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1;以及确定全量计算M个衍生特征的计算总量m2;
比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1,与全量计算M个衍生特征的计算总量m2之间的大小关系。
所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征时,所述处理器还用于运行所述计算机程序时,执行:
确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2;
依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。
所述处理器还用于运行所述计算机程序时,执行:
将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并,用于后续机器学习。
需要说明的是:上述实施例提供的装置在进行精准营销中衍生特征计算时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将设备的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的装置与相应方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备,如移动电话、计算机、平板设备、个人数字助理等。
本发明实施例还提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,执行:
基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
所述计算机程序被处理器运行时,还执行:
确定所述衍生特征为不可迭代的衍生特征时,后续数据采用全量计算方式确定所述衍生特征。
所述计算机程序被处理器运行时,还执行:
判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时,后续数据采用全量计算方式确定所述衍生特征。
所述基于样本数据确定衍生特征为可迭代的衍生特征时,所述计算机程序被处理器运行时,还执行:
将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系时,所述计算机程序被处理器运行时,还执行:
确定所述样本数据对应的衍生特征总个数M,以及可迭代的衍生特征个数L;
确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1;以及确定全量计算M个衍生特征的计算总量m2;
比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1,与全量计算M个衍生特征的计算总量m2之间的大小关系。
所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征时,所述计算机程序被处理器运行时,还执行:
确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2;
依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。
所述计算机程序被处理器运行时,还执行:
将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并,用于后续机器学习。
下面结合场景实施例进行描述。
假设目前有N个月的生产数据,通过对这些数据进行衍生特征计算、机器学习来进行某种业务营销,传统的衍生特征计算方式是:对N个月的数据进行全量的某种函数运算,例如计算某列的均值,均方差,均方误差等,过程如图4所示,不再详述。
在本实施例中,对N个月的数据进行衍生特征计算不再需要全量,而是通过如下过程进行增量迭代方式计算。其计算流程如图5所示,包括:
步骤501:产生营销任务;
步骤502:系统采集数据;
步骤503:系统清洗数据;
步骤504:判断衍生特征是否为可迭代衍生特征;如果是,执行步骤505;否则,执行步骤507;
步骤505:判断迭代计算对资源的使用量是否小于通过全量计算对资源的使用量;如果是,则执行步骤506;否则,执行步骤507;
步骤506:后续数据采用迭代的方式确定所述衍生特征;
步骤507:后续数据采用全量计算方式确定所述衍生特征;
步骤508:将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并;
步骤509:基于所述衍生特征进行机器学习,完成智慧营销任务。
为了实现上述方法实施例,下面给出几个主要模块,包括:用于执行步骤504的衍生特征评估模块、用于执行步骤505的资源评估模块以及用于执行步骤506的迭代计算模块;下面给出各模块的功能:
一、衍生特征评估模块执行如下操作:
步骤一:准备样本数据;
步骤二:将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
步骤三:将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
步骤四:如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
这里,样本数据可以以一个月内的体重数据为例进行说明,衍生特征为体重均值为例,经过上述计算可以确定衍生特征(体重均值)为可迭代衍生特征。
二、资源评估模块执行如下操作:
迭代计算是为了减少服务器计算资源、存储资源的使用,减少建模所用时间,而迭代计算是否真正能起到作用则需要一个评估算法来测量,如下所示:
当建模任务重,衍生特征量大的情况下,可以通过公式确定资源使用量:
假设数据总量为N,衍生特征总个数为M,若可迭代衍生特征L,则需全量计算的衍生特征为M-L,可迭代衍生特征计算总量为(L/M)*2,全量数据的衍生特征计算总量为((M-L)/M)*N,总计算量为(L/M)*2+((M-L)/M)*N;若所有数据都进行全量的衍生特征计算,则需要的计算量为N*M;
所以,当(L/M)*2+((M-L)/M)*N<M*N时采用迭代计算;否则采用全量计算。
这里,实际应用时,还可对公式进行修正,增加常数项,使公式能更加准确的进行预测。
三、迭代计算模块执行如下操作,如图6所示:
步骤一:全量计算前2个月(可依据需要设置时间段)的衍生特征,生成衍生基础特征数据D2。
步骤二:当第M个月的数据进入系统时,将衍生特征数据D2与第M个月的数据进行新的衍生特征计算:可迭代计算部分(对应图6中中间部分的左侧框)仅计算D2以及第M个月两部分数据;对于不可迭代计算的数据(对应图6中中间部分的右侧框)计算全量计算。
上述几个模块执行相应操作之后,后续操作可合并以上两种操作产生的数据形成新的衍生特征Dm,以进行后续机器学习。
同理,基于上述相同的实现方法,当新增第N个月的数据时,将前N-1个月的衍生特征数据D(n-1)与第N个月的数据进行相同的衍生特征计算,生成Dn。
可见,本发明实施例的迭代计算方法相对传统的全量计算方法占用计算资源少,评估衍生特征是否可进行迭代计算,降低运维成本;而且自动化评估是否进行迭代计算,也可降低人力成本。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种精准营销中衍生特征计算方法,其特征在于,该方法包括:
基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
确定所述衍生特征为不可迭代的衍生特征时,后续数据采用全量计算方式确定所述衍生特征。
3.根据权利要求2所述的方法,其特征在于,该方法还包括:
判定通过迭代计算对资源的使用量大于等于通过全量计算对资源的使用量时,后续数据采用全量计算方式确定所述衍生特征。
4.根据权利要求1所述的方法,其特征在于,所述基于样本数据确定衍生特征为可迭代的衍生特征,包括:
将所述样本数据进行全量衍生特征计算,生成第一衍生特征集合;
将所述样本数据进行迭代衍生特征计算,生成第二衍生特征集合;
如果所述第一衍生特征集合与所述第二衍生特征集合的结果一致,则确定所述衍生特征为可迭代的衍生特征。
5.根据权利要求1所述的方法,其特征在于,所述确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系,包括:
确定所述样本数据对应的衍生特征总个数M,以及可迭代的衍生特征个数L;
确定迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1;以及确定全量计算M个衍生特征的计算总量m2;
比较迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1,与全量计算M个衍生特征的计算总量m2之间的大小关系。
6.根据权利要求5所述的方法,其特征在于,所述判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征,包括:
确定所述迭代计算L个衍生特征的计算总量与全量计算M-L个衍生特征的计算总量之和m1小于所述全量计算M个衍生特征的计算总量m2;
依据所述基于样本数据生成的衍生特征和后续数据迭代进行新的衍生特征计算。
7.根据权利要求3所述的方法,其特征在于,该方法还包括:
将所述采用迭代的方式确定的衍生特征与所述采用全量计算方式确定的衍生特征进行合并,用于后续机器学习。
8.一种精准营销中衍生特征计算装置,其特征在于,该装置包括:
迭代评估模块,用于基于样本数据确定衍生特征为可迭代的衍生特征;所述样本数据为从基站和/或业务平台获取的用户信息;
资源确定模块,用于确定所述衍生特征通过迭代计算对资源的使用量以及通过全量计算对资源的使用量之间的大小关系;
迭代计算模块,用于判定通过迭代计算对资源的使用量小于通过全量计算对资源的使用量时,后续数据采用迭代的方式确定所述衍生特征。
9.一种精准营销中衍生特征计算装置,其特征在于,该装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1-7中任一项所述方法的步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN201910000521.XA 2019-01-02 2019-01-02 一种精准营销中衍生特征计算方法、装置和可读存储介质 Active CN111401671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910000521.XA CN111401671B (zh) 2019-01-02 2019-01-02 一种精准营销中衍生特征计算方法、装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910000521.XA CN111401671B (zh) 2019-01-02 2019-01-02 一种精准营销中衍生特征计算方法、装置和可读存储介质

Publications (2)

Publication Number Publication Date
CN111401671A true CN111401671A (zh) 2020-07-10
CN111401671B CN111401671B (zh) 2023-11-21

Family

ID=71430169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910000521.XA Active CN111401671B (zh) 2019-01-02 2019-01-02 一种精准营销中衍生特征计算方法、装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN111401671B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064976A (zh) * 2021-10-20 2022-02-18 同盾科技有限公司 一种数据特征计算的方法、系统、电子装置和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US20070094168A1 (en) * 2005-07-29 2007-04-26 The Florida International University Board Of Trustees Artificial neural network design and evaluation tool
CN103077404A (zh) * 2012-12-31 2013-05-01 中国科学院自动化研究所 基于马尔科夫随机场的局部增量式可视化聚类方法
CN103218611A (zh) * 2013-05-07 2013-07-24 西安电子科技大学 基于分布式协同学习的人体运动跟踪方法
CN103455638A (zh) * 2013-09-26 2013-12-18 中国科学院自动化研究所 一种结合推理和半自动学习的行为知识提取方法和装置
CN104199929A (zh) * 2014-09-04 2014-12-10 浪潮通用软件有限公司 一种元数据之间相互关系描述的方法
EP2930617A1 (en) * 2014-04-10 2015-10-14 Alcatel Lucent Resource management method and device
CN106980623A (zh) * 2016-01-18 2017-07-25 华为技术有限公司 一种数据模型的确定方法及装置
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN107680586A (zh) * 2017-08-01 2018-02-09 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
US20180300176A1 (en) * 2017-04-17 2018-10-18 Red Hat, Inc. Self-programmable and self-tunable resource scheduler for jobs in cloud computing
CN108875530A (zh) * 2018-01-12 2018-11-23 北京旷视科技有限公司 活体识别方法、活体识别设备、电子设备以及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
US20070094168A1 (en) * 2005-07-29 2007-04-26 The Florida International University Board Of Trustees Artificial neural network design and evaluation tool
CN103077404A (zh) * 2012-12-31 2013-05-01 中国科学院自动化研究所 基于马尔科夫随机场的局部增量式可视化聚类方法
CN103218611A (zh) * 2013-05-07 2013-07-24 西安电子科技大学 基于分布式协同学习的人体运动跟踪方法
CN103455638A (zh) * 2013-09-26 2013-12-18 中国科学院自动化研究所 一种结合推理和半自动学习的行为知识提取方法和装置
EP2930617A1 (en) * 2014-04-10 2015-10-14 Alcatel Lucent Resource management method and device
CN104199929A (zh) * 2014-09-04 2014-12-10 浪潮通用软件有限公司 一种元数据之间相互关系描述的方法
CN106980623A (zh) * 2016-01-18 2017-07-25 华为技术有限公司 一种数据模型的确定方法及装置
WO2017124713A1 (zh) * 2016-01-18 2017-07-27 华为技术有限公司 一种数据模型的确定方法及装置
US20180300176A1 (en) * 2017-04-17 2018-10-18 Red Hat, Inc. Self-programmable and self-tunable resource scheduler for jobs in cloud computing
CN107680586A (zh) * 2017-08-01 2018-02-09 百度在线网络技术(北京)有限公司 远场语音声学模型训练方法及系统
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN108875530A (zh) * 2018-01-12 2018-11-23 北京旷视科技有限公司 活体识别方法、活体识别设备、电子设备以及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
EVAN BOLLIG等: "Acceleration of derivative calculations with application to radial basis function: finite-differences on the intel mic architecture", 《 PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON SUPERCOMPUTING》, pages 263 *
张子超: "基于动漫大数据的用户画像建模与营销策略管理平台的实现", pages 2 - 67 *
张雷: "基于LAN的备份恢复系统的设计和实现", 《中国优秀硕士论文全文库》 *
杨红卫;慕振峰;姜舒宁;: "精细积分法在一维光子晶体数值模拟中的应用", 光子学报, no. 10 *
谢新忠: "基于大数据的全业务积分系统 及精准营销技术研发", pages 6 - 78 *
高昊阳: "基于大数据的P2P金融风险控制系统的设计与实现", pages 14 - 95 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064976A (zh) * 2021-10-20 2022-02-18 同盾科技有限公司 一种数据特征计算的方法、系统、电子装置和存储介质

Also Published As

Publication number Publication date
CN111401671B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN106919957B (zh) 处理数据的方法及装置
CN111242165B (zh) 商户聚类方法、装置、计算机设备和存储介质
CN110807547A (zh) 家庭人口结构的预测方法及系统
CN111915657A (zh) 一种点云配准方法、装置、电子设备及存储介质
CN112365070A (zh) 一种电力负荷预测方法、装置、设备及可读存储介质
CN111401671B (zh) 一种精准营销中衍生特征计算方法、装置和可读存储介质
CN111353797B (zh) 资源分配方法、装置以及电子设备
CN115759742A (zh) 企业风险评估方法、装置、计算机设备和存储介质
CN115345551A (zh) 货量预测方法、装置、设备及存储介质
CN114841664A (zh) 一种多任务处理顺序确定方法及装置
CN114399173A (zh) 一种5g基站站址的评估方法、装置及电子设备
CN111080393A (zh) 一种交易撮合方法及装置
CN113868939A (zh) 一种风功率的概率密度评估方法、装置、设备及介质
CN111401383A (zh) 基于图像检测的目标框预估方法、系统、设备及介质
CN113391850B (zh) 基于边云协同的任务调度方法、装置、设备及存储介质
CN112764923A (zh) 计算资源分配方法、装置、计算机设备及存储介质
CN113822455A (zh) 一种时间预测方法、装置、服务器及存储介质
CN111931994A (zh) 一种短期负荷及光伏功率预测方法及其系统、设备、介质
CN115660691B (zh) 一种设备筛选方法、装置、终端及存储介质
CN111291019A (zh) 数据模型的相似判别方法及装置
CN111126465B (zh) 节点分类方法、装置、终端设备及计算机可读存储介质
CN112749821B (zh) 快递派件量预测方法、装置、计算机设备和存储介质
CN113516404A (zh) 一种绩效数据处理方法、装置及电子设备
CN118657821A (zh) 栅格地图的栅格尺寸计算方法、装置、设备及介质
CN112184301A (zh) 一种数据预测方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant