CN112633937B - 基于深度自动编码器降维结合gbdt的营销预测方法 - Google Patents
基于深度自动编码器降维结合gbdt的营销预测方法 Download PDFInfo
- Publication number
- CN112633937B CN112633937B CN202011606919.7A CN202011606919A CN112633937B CN 112633937 B CN112633937 B CN 112633937B CN 202011606919 A CN202011606919 A CN 202011606919A CN 112633937 B CN112633937 B CN 112633937B
- Authority
- CN
- China
- Prior art keywords
- user
- dpi
- gbdt
- data
- dimension reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 2
- 238000003066 decision tree Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于深度自动编码器降维结合梯度提升决策树的营销预测方法,包括数据预处理步骤、数据集划分步骤、特征降维步骤、模型建立步骤、对营销活动点击的预测步骤;其通过使用深度自动编码器对从运营商处获得的用户访问DPI这一稀疏特征进行自监督非线性降维,再使用降维后的原始特征结合用户的其他特征如用户访问DPI频次和归属地等一起投入GBDT中进行建模,以期解决特征维度过高和过于稀疏对GBDT模型泛化能力及建模的内存需求的影响。因此,本发明在减少特征维度的同时,尽量减少原始特征所包含信息的损失,达到了可以对所收集的数据进行全面分析的目的。
Description
技术领域
本发明涉及人工智能在互联网营销的技术领域,更具体地,涉及一种基于深度自动编码器降维结合GBDT的营销预测方法。
背景技术
随着经济全球化和市场经济的迅速发展,在企业营销战略中广告营销活动发挥着越来越重要的作用,是企业营销组合中的一个重要组成部分。网络广告营销是借助网络营销能最大化的传播给受众人群,而且也更为精准,网络广告营销需要广告主借助网络平台投入广告给目标性客户。
梯度提升决策树是一种利用用户画像和用户行为特征来进行对广告营销行为预测的常用建模方法,但是在使用运营商数据的实际建模过程中,有如下几个问题经常会对模型的预测能力以及处理能力带来挑战:
①、从运营商初获取的用户画像和用户行为数据往往都是十分稀疏的0/1二值特征,以GBDT为代表的决策树模型在既有类别特征又有连续特征的时候,会倾向于选择连续特征作为分裂点,这将导致原有的类别特征的信息并不能被有效利用,从而造成特征浪费且影响模型的泛化能力;
②、用户的行为数据如dpi的访问作为特征时,其特征维度往往非常高,再加上庞大的用户数量,这给模型训练需要的内存空间提出了很大的要求;
③、用户画像数据和行为数据并不总是和广告点击相关,特征中存在部分冗余。因此,原始特征维度应该存在一个合理的低维特征表示。
以上几点表明,一个合理的特征处理方式是将高维的稀疏特征降维为低维的稠密特征之后,再使用GBDT进行建模。因此,降维方式是提高预测能力以及处理能力的关键。然而,传统的降维方式主要为主成分分析(PCA),本领域技术人员清楚,PCA的降维是线性的且利用方差信息进行降维,对高维的稀疏特征并不是很适用。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于深度自动编码器降维结合GBDT的营销预测方法,其使用深度自动编码器对从运营商处获得的DPI访问这一稀疏特征进行自监督非线性降维,再使用降维后的特征结合用户的其他特征如用户访问DPI频次和归属地等一起投入GBDT中进行建模,以期解决特征维度过高和过于稀疏对GBDT模型泛化能力及建模的内存需求的影响。
为实现上述目的,本发明的技术方案如下:
一种基于深度自动编码器降维结合GBDT的营销预测方法,其特征在于,包括数据预处理步骤S1、数据集划分步骤S2、特征降维步骤S3和模型建立步骤S4;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI、用户访问DPI频次;其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI、用户访问DPI频次为每一个任务批次号为计量单位,所述用户访问DPI和用户的手机号码归属地特征为类别特征;
步骤S12:对类别特征进行处理;即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理;其中,所述One-hot编码处理包括:
依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
所述数据集划分步骤S2包括如下步骤:
步骤S21:预处理之后,以用户ID为样本单位,将用户访问DPI是否点击的特征看作稀疏特征,将所述归属地特征和所述用户访问DPI频次定义为连续特征;
步骤S22:选择所述任务批次号的数据作为样本集;
所述特征降维步骤S3包括如下步骤:
步骤S31:提供深度自动编码器,所述深度自动编码器包括编码器部分、解码器部分和第二隐藏层;其中,所述编码器部分包括一个输入层和第一隐藏层,所述解码器部分包括一个输出层和第三隐藏层;
步骤S32:将所述编码器部分输入层的输入数据为将所述样本集中的每一个样本的用户访问DPI的数据,所述样本集中的相应样本的用户访问DPI的数据为所述解码器部分的参考输出,得到参数优化后的所述编码器部分;
步骤S33:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
所述模型建立步骤S4,包括:
步骤S41:提供所需建立的GBDT预测模型;
步骤S42:提取步骤S33得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征;
步骤S42:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,将样本集中的相应样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出;对所述GBDT预测模型进行训练和验证,得到训练好的所述GBDT预测模型。
进一步地,所述的基于深度自动编码器降维结合GBDT的营销预测方法还包括对营销活动点击的预测步骤S5,所述步骤S5具体包括:
步骤S51:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位;
步骤S52:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述当前任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
步骤S53:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
步骤S54:提取步骤S53得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征数据;
步骤S55:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的输出,即得到需要预测的时间点所筛选出的用户对营销活动点击的预测结果。。
进一步地,所述解码器部分的输出层使用sigmoid函数作为激活函数,所述解码器部分的输出层的输出值为0和1之间的值;其余其它层的激活函数均使用ReLU激活函数。
进一步地,所述深度自动编码器使用Adam优化器,学习率设定为1e-3。
进一步地,在步骤S11后,还包括对所述用户的原始信息进行异常检测与处理步骤。
从上述技术方案可以看出,本发明的基于深度自动编码器降维结合GBDT的营销预测方法,其能够将原始的上百甚至上千维特征降至几十维,大大节省了建模所需的内存大小。同时,原本稀疏的特征被少量低维且稠密的特征所取代,也提升了GBDT模型的泛化能力。
附图说明
图1所示为本发明实施例中基于深度自动编码器降维结合GBDT的营销预测方法的流程示意图
图2所示为本发明实施例中构建的深度自动编码器结构的示意图
图3所示为本发明实施例中用户预测模型的建立过程示意图
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步的详细说明。
在下述的具体实施方式中,在详述本发明的实施方式时,为了清楚地表示本发明的结构以便于说明,特对附图中的结构不依照一般比例绘图,并进行了局部放大、变形及简化处理,因此,应避免以此作为对本发明的限定来加以理解。
需要说明的是,在以下本发明的具体实施方式中,该基于深度自动编码器降维结合GBDT的营销预测方法,其通过使用深度自动编码器对从运营商处获得的用户访问DPI这一稀疏特征进行自监督非线性降维,再使用降维后的原始特征结合用户的其他特征如用户访问DPI频次和归属地等一起投入GBDT中进行建模,以期解决特征维度过高和过于稀疏对GBDT模型泛化能力及建模的内存需求的影响。因此,本发明在减少特征维度的同时,尽量减少原始特征包含信息的损失,以达到可以对所收集的数据进行全面分析的目的。
与传统的利用运营商数据的数据营销领域所采用的技术相比,本发明能够将原始的上百甚至上千维特征降至几十维,大大节省了建模所需的内存大小。同时原本稀疏的特征被少量低维且稠密的特征所取代,也提升了GBDT模型的泛化能力。
请参阅图1,图1所示为本发明实施例中基于深度自动编码器降维结合GBDT的营销预测方法的流程示意图。如图1所示,基于深度自动编码器降维结合GBDT的营销预测方法,其包括数据预处理步骤S1、数据集划分步骤S2、模型建立步骤S3、模型预测步骤S4和对营销活动点击的预测步骤S5。
在本发明的实施例中,数据预处理步骤非常重要,所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长;其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI、用户访问DPI频次、用户访问时间和/或用户访问时长为每一个任务批次号为计量单位,所述用户访问DPI和用户的手机号码归属地特征为类别特征。较佳地,在步骤S11后,还包括对所述用户的原始信息进行异常检测与处理步骤。
请参阅下表1,表1为预处理之前的原始数据的表格描述,以同一批次的数据为例,预处理之前的原始数据形式如下表1所示:
在本发明的实施例中,上述的原始数据还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。
异常检测与处理:在结合业务要求的过程中,对于原始数据中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中,由于一般用户量为百万级别,因此,采集过程中可能出现缺失情况;若缺失量较小,一般可直接进行剔除;若无法判断缺失数据是否会影响最终的模型训练效果,则一般可根据取平均数、众数、中位数等方法来填补缺失值。
另外,在数据采集中,可能还会遇到过大值的问题,比如某用户在一天之内访问了DPI上万次,这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助,因此,也可以采用剔除的处理,或者采用填补的方法进行相应的处理。
步骤S12:对类别特征进行处理;即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理;其中,所述One-hot编码处理包括依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征。
具体地,首先,可以对用户访问DPI、用户的手机号码归属地特征进行One-hot独热编码,将其展开。以用户访问DPI为例,若某个用户访问了某DPI,则记录该DPI为1,其余DPI为0;因此,若总共有10个不同的DPI,则最后会形成10列特征,并且,每一列特征中只有一个对应用户为1,其余都为0。
经过预处理后,数据形式为下表2:
用户id | 批次号 | dpi 1 | dpi 2 | dpi 3 | ... | dpi 1频次 | dpi 2频次 | dpi 3频次 | ... | HN | SH | ... | 标签 |
用户A | #1 | 1 | 0 | 1 | ... | 5 | 0 | 1 | ... | 1 | 0 | ... | 1 |
用户B | #1 | 0 | 1 | 0 | ... | 0 | 10 | 0 | ... | 0 | 1 | ... | 0 |
用户C | #1 | 0 | 0 | 1 | ... | 0 | 0 | 3 | ... | 0 | 0 | ... | 1 |
经过上述数据处理步骤后,就可以执行所述数据集划分步骤S2,其具体包括如下步骤:
步骤S21:预处理之后,以用户ID为样本单位,将用户访问DPI是否点击的特征看作稀疏特征,将所述归属地特征和所述用户访问DPI频次定义为连续特征;
步骤S22:选择至少一个所述任务批次号的数据作为样本集。
在本发明的实施例中,可以将用户访问DPI特征是否点击的特征看作稀疏特征,将归属地特征和用户访问DPI频数定义为连续特征。
接下来,执行模型建立步骤S3,请参阅图3,图3所示为本发明实施例中用户预测模型的建立过程示意图。
所述特征降维步骤S3包括如下步骤:
步骤S31:提供深度自动编码器,所述深度自动编码器包括编码器部分、解码器部分和第二隐藏层(图中所示为隐藏层2);其中,所述编码器部分包括一个输入层和第一隐藏层(图中所示为隐藏层1),所述解码器部分包括一个输出层和第三隐藏层(图中所示为隐藏层3);
步骤S32:将所述编码器部分输入层的输入数据为将所述样本集中的每一个样本的用户访问DPI的数据,所述样本集中的相应样本的用户访问DPI的数据为所述解码器部分的参考输出,得到参数优化后的所述编码器部分。也就是说,该深度自动编码器的输入和参考输出应该是一样的,其训练目标是使解码器的输出和编码器的输入尽可能一致,通过训练,所述样本集中的每一个样本的用户访问DPI的数据可用于优化该深度自动编码器模型各层的参数。
步骤S33:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据。
在所述特征降维步骤S31和S32中,所述解码器部分的输出层使用sigmoid函数作为激活函数,所述解码器部分的输出层的输出值为0和1之间的值;其余其它层的激活函数均使用ReLU激活函数。
具体地,请参阅图2,图2所示为本发明实施例中构建的深度自动编码器结构的示意图。如图所示,深度自动编码器的输入数据为用户的dpi访问数据(设有m和用户和n个dpi),所述深度自动编码器使用Adam优化器,学习率设定为1e-3,训练的批次和轮次分别可以为128和25,模型的损失定义为输出数据和对应输入数据的交叉熵损失函数。训练结束后,深度自动编码器的隐藏层2的输出(m×32)即输入数据降维后的稠密特征数据(由n维降为32维)。也就是说,通过深度自动编码器训练后,该稠密特征数据取出供后续建模使用。
接下来,就看可以执行所述的基于深度自动编码器降维结合GBDT的营销预测方法的步骤S4。
所述模型建立步骤S4,包括:
步骤S41:提供所需建立的GBDT预测模型;
步骤S42:提取步骤S33得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征;
步骤S42:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,将样本集中的相应样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出;对所述GBDT预测模型进行训练和验证,得到训练好的所述GBDT预测模型。
上述所有处理步骤完成后,就可以通过将上述特征带入用户预测模型,能够提前在广告投放之前就筛选出意愿较高的部分用户,并对这些用户进行营销广告的精准投放。即本发明还可以包括对营销活动点击的预测步骤S5,所述步骤S5具体包括:
步骤S51:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位;
步骤S52:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述当前任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
步骤S53:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
步骤S54:提取步骤S53得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征数据;
步骤S55:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的输出,即得到需要预测的时间点所筛选出的用户对营销活动点击的预测结果。
结果表明,本用户预测模型算法选出的高意愿用户的点击率是低意愿用户点击率的10倍左右。通过该用户预测模型,可以将大量的低意愿用户直接从投放目标中筛出,从而节省大量的营销成本,实现利润率的增加。
以上所述的仅为本发明的优选实施例,所述实施例并非用以限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (5)
1.一种基于深度自动编码器降维结合GBDT的营销预测方法,其特征在于,包括数据预处理步骤S1、数据集划分步骤S2、特征降维步骤S3和模型建立步骤S4;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、任务批次号、用户访问DPI、用户访问DPI频次;其中,所述任务批次号表示一个日期时间段中用户的原始信息,所述用户访问DPI、用户访问DPI频次为每一个任务批次号为计量单位,所述用户访问DPI和用户的手机号码归属地特征为类别特征;
步骤S12:对类别特征进行处理;即对所述用户手机号码归属地特征和用户访问DPI进行One-hot编码处理;其中,所述One-hot编码处理包括:
依次按所述任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
所述数据集划分步骤S2包括如下步骤:
步骤S21:预处理之后,以用户ID为样本单位,将用户访问DPI是否点击的特征看作稀疏特征,将所述归属地特征和所述用户访问DPI频次定义为连续特征;
步骤S22:选择至少一个所述任务批次号的数据作为样本集;
所述特征降维步骤S3包括如下步骤:
步骤S31:提供深度自动编码器,所述深度自动编码器包括编码器部分、解码器部分和第二隐藏层;其中,所述编码器部分包括一个输入层和第一隐藏层,所述解码器部分包括一个输出层和第三隐藏层;
步骤S32:将所述编码器部分输入层的输入数据为将所述样本集中的每一个样本的用户访问DPI的数据,所述样本集中的相应样本的用户访问DPI的数据为所述解码器部分的参考输出,得到参数优化后的所述编码器部分;
步骤S33:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
所述模型建立步骤S4,包括:
步骤S41:提供所需建立的GBDT预测模型;
步骤S42:提取步骤S33得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征;
步骤S42:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,将样本集中的相应样本的所述用户访问DPI与DPI的频次的关系特征作为所述GBDT预测模型的输出;对所述GBDT预测模型进行训练和验证,得到训练好的所述GBDT预测模型。
2.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法,还包括对营销活动点击的预测步骤S5,所述步骤S5具体包括:
步骤S51:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、当前任务批次号、用户访问DPI和用户访问DPI频次;其中,所述用户访问DPI和用户访问DPI频次以本次任务批次号为计量单位;
步骤S52:对所述当前任务批次号的所述原始特征信息,按所述用户手机号码归属地特征进行One-hot编码处理;其中,所述One-hot编码处理包括:
按所述当前任务批次号将所有不同的用户访问DPI作为单独的特征展开,以及在所述当前任务批次号中将用户访问DPI频次也按照所有不同的用户访问DPI展开为DPI与用户访问DPI的频次的关系特征;
步骤S53:将所述样本集中的每一个样本的用户访问DPI的稀疏特征数据作为参数优化后的所述编码器部分的输入,得到所述第二隐藏层的输出,所述第二隐藏层的输出为降维后所述样本的用户访问DPI所对应的稠密特征数据;
步骤S54:提取步骤S53得到的稠密特征数据,与连续特征数据用户访问DPI频次和用户的归属地特征按列合并,得到合并特征数据;
步骤S55:将所述样本集中的每一个所述合并特征作为所述GBDT预测模型的输入,得到所述GBDT预测模型的输出,即得到需要预测的时间点所筛选出的用户对营销活动点击的预测结果。
3.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法,其特征在于,所述解码器部分的输出层使用sigmoid函数作为激活函数,所述解码器部分的输出层的输出值为0和1之间的值;其余其它层的激活函数均使用ReLU激活函数。
4.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法,其特征在于,所述深度自动编码器使用Adam优化器,学习率设定为1e-3。
5.根据权利要求1所述的基于深度自动编码器降维结合GBDT的营销预测方法,其特征在于,在步骤S11后,还包括对所述用户的原始信息进行异常检测与处理步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011606919.7A CN112633937B (zh) | 2020-12-30 | 2020-12-30 | 基于深度自动编码器降维结合gbdt的营销预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011606919.7A CN112633937B (zh) | 2020-12-30 | 2020-12-30 | 基于深度自动编码器降维结合gbdt的营销预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633937A CN112633937A (zh) | 2021-04-09 |
CN112633937B true CN112633937B (zh) | 2023-10-20 |
Family
ID=75286560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011606919.7A Active CN112633937B (zh) | 2020-12-30 | 2020-12-30 | 基于深度自动编码器降维结合gbdt的营销预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633937B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115048449A (zh) * | 2022-06-13 | 2022-09-13 | 南京星邺汇捷网络科技有限公司 | 一种基于网络dpi数据的可视化精细运营数据分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830416A (zh) * | 2018-06-13 | 2018-11-16 | 四川大学 | 基于用户行为的广告点击率预测框架及算法 |
CN109670277A (zh) * | 2019-02-19 | 2019-04-23 | 南京邮电大学 | 一种基于多模态数据融合与多模型集成的旅行时间预测方法 |
CN109919436A (zh) * | 2019-01-29 | 2019-06-21 | 华融融通(北京)科技有限公司 | 一种基于稀疏特征嵌入的违约用户概率预测方法 |
CN109960759A (zh) * | 2019-03-22 | 2019-07-02 | 中山大学 | 基于深度神经网络的推荐系统点击率预测方法 |
CN111538761A (zh) * | 2020-04-21 | 2020-08-14 | 中南大学 | 基于注意力机制的点击率预测方法 |
CN112149352A (zh) * | 2020-09-23 | 2020-12-29 | 上海数鸣人工智能科技有限公司 | 一种结合gbdt自动特征工程对营销活动点击的预测方法 |
-
2020
- 2020-12-30 CN CN202011606919.7A patent/CN112633937B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830416A (zh) * | 2018-06-13 | 2018-11-16 | 四川大学 | 基于用户行为的广告点击率预测框架及算法 |
CN109919436A (zh) * | 2019-01-29 | 2019-06-21 | 华融融通(北京)科技有限公司 | 一种基于稀疏特征嵌入的违约用户概率预测方法 |
CN109670277A (zh) * | 2019-02-19 | 2019-04-23 | 南京邮电大学 | 一种基于多模态数据融合与多模型集成的旅行时间预测方法 |
CN109960759A (zh) * | 2019-03-22 | 2019-07-02 | 中山大学 | 基于深度神经网络的推荐系统点击率预测方法 |
CN111538761A (zh) * | 2020-04-21 | 2020-08-14 | 中南大学 | 基于注意力机制的点击率预测方法 |
CN112149352A (zh) * | 2020-09-23 | 2020-12-29 | 上海数鸣人工智能科技有限公司 | 一种结合gbdt自动特征工程对营销活动点击的预测方法 |
Non-Patent Citations (1)
Title |
---|
"广告点击率预估的算法研究";赵进声;《中国优秀硕士学位论文全文数据库 信息科技辑》;I140-51 * |
Also Published As
Publication number | Publication date |
---|---|
CN112633937A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200334320A1 (en) | Using visitor context and web page features to select web pages for display | |
Martensen et al. | Spatio‐temporal connectivity: assessing the amount of reachable habitat in dynamic landscapes | |
CN108629630B (zh) | 一种基于特征交叉联合深度神经网络的广告推荐方法 | |
CN109544197B (zh) | 一种用户流失预测方法和装置 | |
CN107330731B (zh) | 一种识别广告位点击异常的方法和装置 | |
CN112149352B (zh) | 一种结合gbdt自动特征工程对营销活动点击的预测方法 | |
CN105224623A (zh) | 数据模型的训练方法及装置 | |
CN103020289B (zh) | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 | |
CN112819523B (zh) | 结合内/外积特征交互和贝叶斯神经网络的营销预测方法 | |
CN112258223A (zh) | 一种基于决策树的营销广告点击的预测方法 | |
CN111950806A (zh) | 一种基于因子分解机的营销活动预测模型结构和预测方法 | |
CN112633937B (zh) | 基于深度自动编码器降维结合gbdt的营销预测方法 | |
US20240104159A1 (en) | Creating an effective product using an attribute solver | |
Zou et al. | The Chord‐Normalized Expected Species Shared (CNESS)‐distance represents a superior measure of species turnover patterns | |
CN112884513A (zh) | 基于深度因子分解机的营销活动预测模型结构和预测方法 | |
CN113591971B (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
Nguyen Chau et al. | Productivity impacts of hybrid rice seeds in Vietnam | |
CN114331495A (zh) | 多媒体数据处理方法、装置、设备及存储介质 | |
CN117172996B (zh) | 一种用于生态环境修复的微生物活性识别监测方法及系统 | |
CN111815066B (zh) | 一种基于梯度提升决策树的用户点击预测方法 | |
CN113034193A (zh) | 一种app2vec在风控系统中建模的工作方法 | |
CN117278615A (zh) | 一种消息推送方法及装置 | |
CN112581177B (zh) | 结合自动特征工程及残差神经网络的营销预测方法 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
Vieira et al. | segRDA: an R package for performing piecewise redundancy analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 200436 room 406, 1256 and 1258 Wanrong Road, Jing'an District, Shanghai Applicant after: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd. Address before: Room 1601-026, 238 JIANGCHANG Third Road, Jing'an District, Shanghai, 200436 Applicant before: Shanghai Shuming Artificial Intelligence Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |