CN112308584A - 一种营销模型训练方法和电子设备 - Google Patents
一种营销模型训练方法和电子设备 Download PDFInfo
- Publication number
- CN112308584A CN112308584A CN201910682144.2A CN201910682144A CN112308584A CN 112308584 A CN112308584 A CN 112308584A CN 201910682144 A CN201910682144 A CN 201910682144A CN 112308584 A CN112308584 A CN 112308584A
- Authority
- CN
- China
- Prior art keywords
- user
- sample information
- marketing target
- marketing
- user sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000000513 principal component analysis Methods 0.000 claims abstract description 23
- 238000013136 deep learning model Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000007477 logistic regression Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000000638 stimulation Effects 0.000 description 4
- 230000010365 information processing Effects 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000012847 principal component analysis method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005111 flow chemistry technique Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种营销模型训练方法和电子设备,用以解决确定的营销目标用户不准确的问题。本申请提供的方案包括:获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。本方案训练得到的营销模型能确定营销目标用户,准确性高,效率高,受人为影响小,准确率稳定。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种营销模型训练方法和电子设备。
背景技术
在市场营销中,由于每个客户的习惯与喜好不同,所以每个客户购买的产品也有所不同。对于一个目标产品,在现有技术中往往需要技术人员根据经验从大量的客户中筛选出适应于目标产品的目标客户,进而实现有针对性的精准营销。
现有的技术方案不仅需要耗费大量的人力,而且筛选结果受人为因素影响,筛选结果质量往往较差。如何提高确定目标用户的准确性,是本申请要解决的技术问题。
发明内容
本申请实施例的目的是提供一种营销模型训练方法和电子设备,用以解决确定的营销目标用户不准确的问题。
第一方面,提供了一种营销模型训练方法,包括:
获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;
根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;
根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;
将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。
第二方面,提供了一种电子设备,包括:
获取模块,获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;
确定模块,根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;
聚类模块,根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;
训练模块,将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。
第三方面,提供了一种移动终端,该移动终端包括处理器、存储器及存储在该存储器上并可在该处理器上运行的计算机程序,该计算机程序被该处理器执行时实现如第一方面该的方法的步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储计算机程序,该计算机程序被处理器执行时实现如第一方面该的方法的步骤。
在本申请实施例中,通过获取多个用户样本信息,并根据多个用户样本信息中的多个参数通过主成分分析确定多个主成分,然后基于营销目标和主成分对用户样本信息进行聚类,利用得到的营销目标用户集合对深度学习模型进行训练。训练得到的营销目标模型能识别出符合营销目标特征的用户,提高确定营销目标用户的准确性,效率高,受人为影响小,准确率稳定。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本申请提供的一种营销模型训练方法的流程示意图之一;
图2是本申请提供的一种营销模型训练方法的流程示意图之二;
图3是本申请提供的一种营销模型训练方法的流程示意图之三;
图4是本申请提供的一种营销模型训练方法的流程示意图之四;
图5是本申请提供的一种营销模型训练方法的流程示意图之五;
图6是本申请提供的一种营销模型训练方法的流程示意图之六;
图7是本申请提供的一种营销模型训练方法的流程示意图之七;
图8是本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请中附图编号仅用于区分方案中的各个步骤,不用于限定各个步骤的执行顺序,具体执行顺序以说明书中描述为准。
在景区或商圈等区域,手机用户往往处于较高的手机上网流量平均消费状态。虽然平均流量的消费比较高,但不可忽视的是,依然存在某些个体的流量消费还是偏低的。为了进一步拉高流量消费平均值,改善低流量消费人群的流量消费状态,在部分情况下可以通过向低流量消费人投放短时流量包来实现消费刺激。这些低流量消费人群得到了短时流量包之后,就会立即开始使用,从而使这些低流量消费群体进入一种高流量消费状态。这种短时的消费刺激就会使低流量消费用户能够感受到使用这种短时流量包的便利,进而在未来恰当的时候,类似的场景会唤起他们历史上使用过的消费体验,这种回忆会进一步激发他们主动订购类似的短时流量包。
这种向低消费人群派发短时流量包的方案也存在一些问题,比如,如果向所有低流量消费用户都投放短时流量包,将会为运营成本带来极大的压力,也会造成极大的浪费。
具体来说,可以基于专业人员的经验从低流量消费群体中选择一个合适的子集进行消费刺激,这种方案比较依赖于专业人员的经验,往往具有一定主观性,刺激效果不稳定且需要耗费较大的人力。
另外,也可以完全或者部分随机地选择一个子集进行消费刺激,这就使得消费刺激的效果具有很大的不确定性。
由此可见,非常需要有一套基于大数据的数学模型来帮助人们进行判断,提高确定的营销目标的准确性,从而获得持续稳定的效果。
在一些情况下,可以使用终端流量消耗法选择营销目标用户。但是,这种终端流量消耗法对历史数据的完备性要求较高。使用起来不但要有用户当前的数据,还要有用户的历史数据,而且要求数据具有很好的一致性,这就大大地局限了此种方法的使用。
在一些情况下,可以使用套餐档次时长法选择营销目标用户。但是,套餐档次时长法只能完成粗粒度识别。在使用套餐档次时长法时,只能完成粗粒度的类别划分,套餐档次能够提供的信息过于单一,不能够完整全面地反映出用户的实际状态。
在一些情况下,可以使用深度包检测法选择营销目标用户。但是,深度包检测法的实时性往往相对较差。在使用深度包检测法时,往往需要对用户的流量信息进行深度的跟踪与排查,检测出用户所使用流量的特点,这个过程往往需要较多的计算量。
为了解决现有技术中存在的问题,本申请提供一种营销模型训练方法,如图1所示,包括以下步骤:
S11:获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;
S12:根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;
S13:根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;
S14:将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。
在上述步骤S11中,获取的多个用户样本信息可以来源于多种渠道,例如,可以从用户上报的测量报告(Measurement Report,MR)中获取用户样本信息。或者,也可以通过用户上报的其他信息中获取用户样本信息,另外,也可以根据用户的上传下载操作、用户的位置、用户的消费记录等获取用户样本信息。、在本申请实施例中,以用户流量消费为例进行说明,实际上,本方案也可以应用于其它的消费,如短信消费、通话消费、彩信消费等。上述用户样本信息包括用于表征用户的特征的多个参数,例如,用户样本信息包括用于表征用户流量使用量的日级流量、秒级流量,日级流量可以表征用户在当天或历史中某一天使用的流量,秒级流量可以表征用户在当前秒或历史某一秒使用的流量等。除此之外,用户样本信息还可以包括用于标记这些参数的标签,例如,可以包括与秒级流量对应的时间戳,用以表明该秒级流量可以表征哪一秒用户使用的流量。由于用户样本信息的获取与收集往往需要一定的时间,这些用于标记参数的标签能使用户样本信息的参数表征的用户的特征更加准确,避免延时等问题对训练模型的效果造成影响,优化训练得到的模型的质量。
基于上述实施例提供的方案,较优的,如图2所示,上述步骤S11,包括以下步骤:
S111:获取符合预设标准的用户的原始数据;
S112:对所述原始数据进行数据清洗,得到所述用户样本信息。
用户样本信息可以从各处进行采集,采集得到的原始数据往往存在字段缺失,奇异值等问题。本申请提供的方案通过数据清洗的方式对原始数据进行优化,提高用户样本信息的质量。
在上述步骤S12中,根据用户样本信息中的多个参数,对用户样本信息进行主成分分析,以确定这些用户样本信息的多个主成分。在进行主成分之前,可以先基于现有数据和专家的经验预先选取一系列的用户样本信息中参数的维度。较优的,这些维度具有可获取性和业务意义上的相关性。其中,可获取性可以指能通过可行的手段获取到,例如通过用户上报或主动采集等方式进行获取。上述相关性可以指该维度的数据在业务背景上是与营销目的相关的。
在确定了用于描述用户的维度之后,可能会发现这样的变量有很多,在实际中,如果将这些维度都用于魔性训练的话,就会出现抓不住重点的现象,使得不是很重要的维度的参数成为噪声,干扰那些对营销目的起重要作用的维度参数。同时还会增加训练过程中的计算量,降低了训练系统的响应性能。为了实现从这些维度中,提取与营销目的密切相关的维度的参数,可以通过二次人工筛选法或主成分分析法进行维度参数的提取。
其中,二次人工筛选法可以是由专家在已有的变量维度中进行筛选。例如可以根据变量的业务背景进行筛选,逐个进行分析研究,按照与营销目的相关联的重要程度进行量化标注,通常取变量维度个数高一个数量级的情况作为标注的值域,比如变量有几个,那么可以选取十作为评分的上限。如果变量有几十个,那么可以选取一百作为评分的上限。
具体的,按照与营销目的相关联的重要程度,对每个维度进行打分,全部打分之后,就可以按照以上评分对多个变量维度以从高到低的顺序降序排序,然后排序结果选取所需的变量维度。例如,可以按照如下两种方式进行截取:
(1)按照个数选择变量维度。根据排序结果,选取前目标个数个变量维度作为主成分,比如:前20个变量维度,或者总变量维度中前10%的变量维度。对于未选为主成分的变量维度,可以作为候选变量,放入候选集。
(2)按照分数选择变量维度。预先设定一个目标维度分数,在进行评分后,将评分大于该目标维度分数的变量维度确定为主成分。另外,可以将其他变量维度作为候选变量,放入候选集。
上述二次人工筛选法由于主观性较强,受到专家经验与能力的限制。因此在实际操作中,可以采用主成分分析法确定主成分。本方案中的主成分分析法可以针获取到的用户样本信息的特点进行相对精确而客观的研究。主成分分析(principal componentsanalysis,PCA)是一种简化数据集的技术。它是一个线性变换,能将获取的用户样本信息变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析能有效减少数据集的维数,同时保持数据集的对方差贡献最大的特征。具体是通过保留低阶主成分,忽略高阶主成分实现的,其中,低阶主成分往往能够保留住数据的最重要方面。
基于上述实施例所述的方法,较优的,如图3所示,上述步骤S12,包括以下步骤:
S121:根据所述参数生成参数样本阵;
S122:对所述参数样本阵中的每个元素进行标准化变换,得到标准化阵;
S123:根据所述标准化阵确定相关系数矩阵;
S124:根据所述相关系数矩阵和与所述多个用户样本信息相对应的门限值确定所述多个用户样本信息的多个主成分。
在上述步骤S121中,先对用户样本信息标准化采集p维随机向量。这个p维的向量,包含了用户样本信息中所有待处理的信息。对于一个用户样本信息,这个p维的向量可以通过下式(1-1)表示:
x=(x1,x2,…,xp)T (1-1)
当用户样本信息的数量有n个时(n为大于1的整数),可以得到如下n行p列的参数样本阵(1-2):
该参数样本阵中,每一个单行可以单独表示为下式(1-3):
xi=(xi1,xi2,…,xip)T (1-3)
对参数样本阵中每个元素以下式(1-4)进行标准化变换:
其中,i=1,2,3...n;j=1,2,3...p;
得到以下标准化阵Z(1-5):
然后,在步骤S123中,对标准化阵Z以下式求相关系数矩阵R(1-6):
然后,按下式(1-7)解相关系数矩阵R的特征方程:
|R-βIp|=0 (1-7)
得p个特征根,主成分将根据这些特征根确定。
在上述步骤S124中,可以按照一个预先设置的门限值从这些特征根中确定主成分。该门限值可以指含有的主成分占总体用户样本信息的百分比为多少。例如,与多个用户样本信息相对应的门限值可以为85%。在确定了门限值之后,可以按照下式(1-8)确定m值,进而解得单位特征向量:
最后,将标准化后的维度变量按下式(1-9)转换为主成分:
其中,j=1,2,3...m;
在确定主成分之后,还可以对m个主成分进行综合评价。具体的,对m个主成分进行加权求和,得最终评价值,其中的权数可以为每个主成分的方差贡献率。综合评价得分可以表征该主成分分析的质量。
另外,由于获取的用户样本信息具有多样性,在上述步骤S124中以85%作为门限值往往不能贴合于用户样本信息的实际情况。
基于上述实施例所述的方法,较优的,如图4所示,在上述步骤S124之前,还包括以下步骤:
S125:通过假设检验确定与所述多个用户样本信息相对应的门限值。
在本方案中,可以通过假设检验的方式确定门限值具体为多少。得到的门限值符合用户样本信息的实际特点,能够尽可能的回避偶然因素对模型训练造成的影响,从而优化训练效果。
在上述步骤S13中,根据营销目标和多个主成分对多个用户样本信息进行聚类。以流量消费为例,营销目标可以是当前处于低流量消费状态的但具有高流量消费特征的用户。对于这种用户,通过派发短时流量包等消费刺激,往往能将用户转化成高流量消费的用户。在本方案中,获取的多个用户样本信息可以是具有高流量消费特征的用户的用户样本信息。而这些高流量消费用户具有这种高流量消费状态的原因往往是不同的。一部分用户是具有必然性的处于高流量消费状态,而另一部分用户是具有偶然性的处于高流量消费的状态。在本申请提供的方案中,根据主成分和营销目标对这些高流量消费用户进行聚类,以得到具有营销目标特征的营销目标用户集合。
其中,聚类是将数据进行进一步分析的利器,能够指导人们发现事物内在隐含的信息,帮助人们分门别类地认清事物的本质。由于分成了一类一类的,所以更加容易有针对性地进行分析。流量消费状态在聚类分析之下会更容易看出形成高流量消费状态的原因。
基于上述实施例提供的方案,较优的,如图5所示,上述步骤S13,包括以下步骤:
S131:通过K均值聚类算法根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到多个特征类别;
S132:根据预设规则对所述多个特征类别进行分类,得到营销目标用户集合。
在通过主成分分析确定了用户样本信息的主成分之后,本步骤中,基于确定的主成分进行聚类。具体的,通过聚类可以将高流量消费用户汇聚成多种类型。例如,可以选择K-均值方法进行聚类,一方面,这种算法运算快速高效,具有成熟的开源库作为支撑,提供表现力强的编程语言版本可供选择,另一方面,这种算法能够通过K值的选取来控制聚类的结果向预期的方向发展,优化聚类效果。
经过聚类可以得到多个高流量用户类别,然后可以对这些类别进行分析,得到这些类别的用户理论上的具有高流量特征的原因,而另外的类别的用户是相对不具有高流量的状态根据的。也就是说,有些类别的用户是具有必然性的高流量状态,而另外一些类别的用户则不具有这样的必然性,是偶然性的处于这种高流量状态。随后,可以通过人为的方式或者根据预设的规则将这些类别中的用户进行重组,得到具有必然性的高流量状态的类别,这种具有必然性的高流量状态的类别中的用户所具有的特征正是营销目标用户所需要具有的特征。
基于上述实施例提供的方案,较优的,如图6所示,还包括以下步骤:
S15:根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到非营销目标用户集合,所述非营销目标用户集合中的多个用户样本信息具有非营销目标特征;
其中,上述步骤S14,包括以下步骤:
S141:将所述营销目标用户集合和所述非营销目标用户集合作为训练集,训练逻辑回归模型,得到营销目标模型,其中,所述营销目标用户集合的训练标签为营销目标特征,所述非营销目标用户集合的训练标签为非营销目标特征。
在本方案中,将营销目标用户集合以外的高流量消费用户组合成偶然性的高流量状态集合。
在有了必然性高流量状态集合和偶然性的高流量状态集合之后,就可以根据这两个集合作为训练集,来训练用于在低流量用户中找到具有高流量潜质的是哪些用户,这里我们使用逻辑(Logistic)回归作为数学工具。实际上,深度学习模型的种类有很多,也可以采用其他的深度学习模型以营销目标用户集合作为训练集进行训练,训练得到的模型可以识别出具有营销目标特征的用户。
Logistic回归为概率型非线性回归模型,是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常用于研究某些因素条件下某个结果是否发生。通过Logistic回归可以对低流量消费用户的主要因素进行分析,以确定这些低流量消费用户是否具有高流量消费的特征,如果具有,则说明该低流量消费用户,具有相对更高的变为高流量消费用户的潜质的,可以通过适当的手段进行有针对性的消费刺激,从而使他们能够成为具有高流量消费状态的用户。
Logistic回归是基于Sigmoid函数进行的。Sigmoid函数具体的计算公式(2-1)如下:
Sigmoid函数的输入记为z,由下面的公式(2-2)得出:
z=w0x0+w1x1+…+wnxn (2-2)
如果采用向量的写法,可以按以下形式(2-3)表示:
z=wTx (2-3)
它表示将两个数值向量对应元素相乘后相加得到z值。其中的向量x是分类器的输入数据,向量w也就是我们要找到的最佳参数(系数),从而使分类器尽可能的精确。为了寻找最佳系数,需要用到最优化理论的梯度上升法。要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。函数f(x,y)的梯度由下式(2-4)表示:
用向量来表示的话,梯度上升算法的迭代公式(2-5)如下:
该公式将一直被迭代执行,直到达到某个停止条件为止,比如迭代次数达到某个指定值,或算法达到某个误差范围。
在Logistic回归之后,还可以将输出的结果带入到基于主成分的聚类,从而根据假设检验的结果,判断出这里的输出是否最大概率地回避了偶然性因素的影响,从而帮助获得具有最大确定性的结果。
基于上述实施例提供的方案,较优的,如图7所示,上述步骤S11,包括:
S113:获取信息采集设备采集的多个用户样本信息,并将所述多个用户样本信息写入分布式消息队列中;
上述步骤S12,包括:
S126:通过分布式文件系统处理所述分布式消息队列输出的用户样本信息,确定所述多个主成分。
具体的,在步骤S113中,信息采集设备采集的多个用户样本信息的原始数据例如可以包括时间戳、日级流量、秒级流量。这里只象征性的列出一些属性,实际使用中,可以根据实际情况根据调整。原始数据所含有的字段会不仅仅限于这里列出的这些字段。
在装置化的实现中,往往会由信息采集设备将用户样本信息实时的写入kafka等消息队列的设备。
kafka中的用户样本信息经过分析汇总后,进入分布式文件系统HDFS。可以采用storm作为核心的流处理平台,提供核心的运算能力,同时配合python编写的服务端程序,以REST的方式将storm的科学计算请求发送到服务端去处理,这样做的主要目的是要借助python成熟的第三方科学计算框架Scipy(包括了NumPy,Matplotlib等)完成整个主成分分析的处理流程,这样既保证了不过多的消耗storm集群的计算资源。因为主成分分析这部分科学计算交给python的服务端来运行了,这样就保证整个集群具有良好的处理性能。
更重要的是,充分地利用了python这门科学计算语言在主成分分析领域强大的优势。在利用python的计算框架时,可以对智能算法进行适应性改造,而不是原封不动的套用。
例如,框架中的算法是将主成分分析的分界条件按照经验值85%来进行运算的,这就不一定能够很好地适应实际数据的特点。为了优化主成分分析的效果,可以根据实际情况进行适应性的改造。比如可以引入假设检验作为分界条件筛选的有力工具。假设检验能帮助我们尽可能的回避偶然因素的影响,使结果具有更好的确定性的分界值,作为主成分提取的分界条件,从而为取得更优的结果打下了基础。
随后,可以根据营销目标和多个主成分对多个用户样本信息进行聚类。具体的,可以采用storm作为核心的流处理平台,完成主要的流式数据运算,同时配合python编写的服务端程序,在storm和python服务端之间,以REST的方式来传递聚类请求。由于借助了python成熟的第三方科学计算框架完成整个聚类的处理流程,所以保证了不过多的消耗storm集群的计算资源,从而使得整个集群具有良好的处理性能,同时又充分地利用了python这门科学计算语言在聚类领域具有强大优势的特点。
在装置化的实现中,分布式的实时位置信息处理平台会将需要进行深度挖掘的数据传递给分布式的信息挖掘中心,在这里进行聚类的运算,并将聚类的结果通过REST接口返回给分布式的实时位置信息处理平台。
最后,将营销目标用户集合作为训练集,将营销目标特征作为训练标签训练深度学习模型。在本实施例中,深度学习模型可以是逻辑回归模型,具体的,可以采用storm集群作为核心的流处理平台,数据进入storm平台后,以REST的方式将storm的Logistic回归请求发送到服务端,服务端是由python编写的分布式程序,作为独立的信息处理平台,借助python成熟的第三方科学计算框架完成整个Logistic回归的处理流程。
通过本申请提供的方案训练得到的营销目标模型能够用于确定营销目标用户,可以应用于碎片化流量营销场景中,在进行聚类运算之前,采用了主成分分析方法的模块,作为前期的数据处理方式。另外,本申请方案引入聚类的方法进行用户状态的鉴别与区分,为发现具有高流量潜质的客户提供了支撑。而且,在进行投放短时流量包目标客户群的选择时,使用了Logistic回归作为是否进行短时流量包投放的分析判断方法。本方案将主成分分析的步骤放在逻辑回归步骤之前,可以使逻辑回归尽量回避次要因素的影响,从而取得更好的模型训练效果。
为了解决现有技术中存在的问题,如图8所示,本申请提供一种电子设备80,包括:
获取模块81,获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;
确定模块82,根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;
聚类模块83,根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;
训练模块84,将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。
在本申请实施例中,通过获取多个用户样本信息,并根据多个用户样本信息中的多个参数通过主成分分析确定多个主成分,然后基于营销目标和主成分对用户样本信息进行聚类,利用得到的营销目标用户集合对深度学习模型进行训练。训练得到的营销目标模型能识别出符合营销目标特征的用户,提高确定营销目标用户的准确性,效率高,受人为影响小,准确率稳定。
较优的,所述根据所述多个参数,所述确定模块用于:
根据所述参数生成参数样本阵;
对所述参数样本阵中的每个元素进行标准化变换,得到标准化阵;
根据所述标准化阵确定相关系数矩阵;
根据所述相关系数矩阵和与所述多个用户样本信息相对应的门限值确定所述多个用户样本信息的多个主成分。
较优的,本申请提供的电子设备,还包括假设检验模块:
用于在根据所述相关系数矩阵和预设分界值确定所述多个用户样本信息的多个主成分之前,通过假设检验确定与所述多个用户样本信息相对应的门限值。
较优的,所述获取模块用于:
获取符合预设标准的用户的原始数据;
对所述原始数据进行数据清洗,得到所述用户样本信息。
较优的,所述聚类模块用于:
通过K均值聚类算法根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到多个特征类别;
根据预设规则对所述多个特征类别进行分类,得到营销目标用户集合。
较优的,所述聚类模块还用于:
根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到非营销目标用户集合,所述非营销目标用户集合中的多个用户样本信息具有非营销目标特征;
其中,所述训练模块还用于:
将所述营销目标用户集合和所述非营销目标用户集合作为训练集,训练逻辑回归模型,得到营销目标模型,其中,所述营销目标用户集合的训练标签为营销目标特征,所述非营销目标用户集合的训练标签为非营销目标特征。
较优的,所述获取模块还用于:
获取信息采集设备采集的多个用户样本信息,并将所述多个用户样本信息写入分布式消息队列中;
所述确定模块用于:
通过分布式文件系统处理所述分布式消息队列输出的用户样本信息,确定所述多个主成分。
优选的,本发明实施例还提供一种移动终端,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述一种营销模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述一种营销模型训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random AccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (10)
1.一种营销模型训练方法,其特征在于,包括:
获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;
根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;
根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;
将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。
2.如权利要求1所述的方法,其特征在于,所述根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分,包括:
根据所述参数生成参数样本阵;
对所述参数样本阵中的每个元素进行标准化变换,得到标准化阵;
根据所述标准化阵确定相关系数矩阵;
根据所述相关系数矩阵和与所述多个用户样本信息相对应的门限值确定所述多个用户样本信息的多个主成分。
3.如权利要求2所述的方法,其特征在于,在根据所述相关系数矩阵和预设分界值确定所述多个用户样本信息的多个主成分之前,还包括:
通过假设检验确定与所述多个用户样本信息相对应的门限值。
4.如权利要求1~3任一项所述的方法,其特征在于,所述获取多个用户样本信息,包括:
获取符合预设标准的用户的原始数据;
对所述原始数据进行数据清洗,得到所述用户样本信息。
5.如权利要求1~3任一项所述的方法,其特征在于,所述根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,包括:
通过K均值聚类算法根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到多个特征类别;
根据预设规则对所述多个特征类别进行分类,得到营销目标用户集合。
6.如权利要求1~3任一项所述的方法,其特征在于,还包括:
根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到非营销目标用户集合,所述非营销目标用户集合中的多个用户样本信息具有非营销目标特征;
其中,所述将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型,包括:
将所述营销目标用户集合和所述非营销目标用户集合作为训练集,训练逻辑回归模型,得到营销目标模型,其中,所述营销目标用户集合的训练标签为营销目标特征,所述非营销目标用户集合的训练标签为非营销目标特征。
7.如权利要求1~3任一项所述的方法,其特征在于,
所述获取多个用户样本信息,包括:
获取信息采集设备采集的多个用户样本信息,并将所述多个用户样本信息写入分布式消息队列中;
所述根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分,包括:
通过分布式文件系统处理所述分布式消息队列输出的用户样本信息,确定所述多个主成分。
8.一种电子设备,其特征在于,包括:
获取模块,获取多个用户样本信息,所述用户样本信息包括用于表征用户的特征的多个参数;
确定模块,根据所述多个参数,通过主成分分析确定所述多个用户样本信息的多个主成分;
聚类模块,根据营销目标和所述多个主成分对所述多个用户样本信息进行聚类,得到营销目标用户集合,所述营销目标用户集合中的多个用户样本信息具有营销目标特征;
训练模块,将所述营销目标用户集合作为训练集,将所述营销目标特征作为训练标签,训练深度学习模型,得到营销目标模型。
9.一种服务器,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682144.2A CN112308584A (zh) | 2019-07-26 | 2019-07-26 | 一种营销模型训练方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682144.2A CN112308584A (zh) | 2019-07-26 | 2019-07-26 | 一种营销模型训练方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308584A true CN112308584A (zh) | 2021-02-02 |
Family
ID=74328847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910682144.2A Pending CN112308584A (zh) | 2019-07-26 | 2019-07-26 | 一种营销模型训练方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308584A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372959A (zh) * | 2016-08-22 | 2017-02-01 | 广州图灵科技有限公司 | 一种基于互联网的用户访问行为数字营销系统及方法 |
CN107038190A (zh) * | 2016-10-28 | 2017-08-11 | 厦门大学 | 一种应用于淘宝网的智能促销方案建模方法 |
CN108334887A (zh) * | 2017-01-19 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种用户选取方法和装置 |
CN109299265A (zh) * | 2018-10-15 | 2019-02-01 | 广州虎牙信息科技有限公司 | 潜在回流用户筛选方法、装置以及电子设备 |
CN109461025A (zh) * | 2018-10-23 | 2019-03-12 | 国网湖南省电力公司节能管理分公司 | 一种基于机器学习的电能替代潜在客户预测方法 |
CN109934615A (zh) * | 2019-01-22 | 2019-06-25 | 中信银行股份有限公司 | 基于深度稀疏网络的产品营销方法 |
-
2019
- 2019-07-26 CN CN201910682144.2A patent/CN112308584A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372959A (zh) * | 2016-08-22 | 2017-02-01 | 广州图灵科技有限公司 | 一种基于互联网的用户访问行为数字营销系统及方法 |
CN107038190A (zh) * | 2016-10-28 | 2017-08-11 | 厦门大学 | 一种应用于淘宝网的智能促销方案建模方法 |
CN108334887A (zh) * | 2017-01-19 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 一种用户选取方法和装置 |
CN109299265A (zh) * | 2018-10-15 | 2019-02-01 | 广州虎牙信息科技有限公司 | 潜在回流用户筛选方法、装置以及电子设备 |
CN109461025A (zh) * | 2018-10-23 | 2019-03-12 | 国网湖南省电力公司节能管理分公司 | 一种基于机器学习的电能替代潜在客户预测方法 |
CN109934615A (zh) * | 2019-01-22 | 2019-06-25 | 中信银行股份有限公司 | 基于深度稀疏网络的产品营销方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163647B (zh) | 一种数据处理方法及装置 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN109299265B (zh) | 潜在回流用户筛选方法、装置以及电子设备 | |
CN108427708A (zh) | 数据处理方法、装置、存储介质和电子装置 | |
CN111368024A (zh) | 文本语义相似度的分析方法、装置及计算机设备 | |
CN106960248B (zh) | 一种基于数据驱动预测用户问题的方法及装置 | |
KR101827345B1 (ko) | 다중 알고리즘 및 자기학습기능을 적용한 개인화 추천 시스템 및 추천 방법 | |
CN110119477B (zh) | 一种信息推送方法、装置和存储介质 | |
CN110147389B (zh) | 帐号处理方法和装置、存储介质及电子装置 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN110363427A (zh) | 模型质量评估方法和装置 | |
US11809505B2 (en) | Method for pushing information, electronic device | |
US20180336459A1 (en) | Unstructured key definitions for optimal performance | |
CN101447995A (zh) | 一种识别p2p数据流的方法、装置和系统 | |
CN112651790B (zh) | 基于快消行业用户触达的ocpx自适应学习方法和系统 | |
CN114219562A (zh) | 模型的训练方法、企业信用评估方法和装置、设备、介质 | |
CN113392920A (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN113723774A (zh) | 答题评分方法、装置、计算机设备和存储介质 | |
CN113590771A (zh) | 一种数据挖掘方法、装置、设备及存储介质 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN112308584A (zh) | 一种营销模型训练方法和电子设备 | |
JP2023516035A (ja) | ランダムフォレスト分類器を用いて、さまざまな時間特性を有するデータを処理してマネジメントアレンジメントに関する予測を生成する方法およびシステム | |
CN115423600A (zh) | 数据筛选方法、装置、介质及电子设备 | |
US11290384B2 (en) | Access origin classification apparatus, access origin classification method and program | |
KR101918359B1 (ko) | 인공지능 기반의 데이터 처리 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |