CN114493657A - 一种基于深度游走词向量图嵌入技术的预测方法 - Google Patents
一种基于深度游走词向量图嵌入技术的预测方法 Download PDFInfo
- Publication number
- CN114493657A CN114493657A CN202111597115.XA CN202111597115A CN114493657A CN 114493657 A CN114493657 A CN 114493657A CN 202111597115 A CN202111597115 A CN 202111597115A CN 114493657 A CN114493657 A CN 114493657A
- Authority
- CN
- China
- Prior art keywords
- user
- dpi
- sequence
- user access
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000010586 diagram Methods 0.000 title claims abstract description 41
- 239000013598 vector Substances 0.000 title claims abstract description 36
- 238000005516 engineering process Methods 0.000 title claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 40
- 238000012549 training Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 23
- 238000005295 random walk Methods 0.000 claims description 19
- 230000006399 behavior Effects 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- YGWYOVIFRLGRKC-MNDPQUGUSA-N DPI2 Chemical compound C1=CC(CC)=CC=C1\C=C/1C(=O)N(CCC(=O)NCCCN2CCOCC2)C(=S)S\1 YGWYOVIFRLGRKC-MNDPQUGUSA-N 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种基于深度游走词向量图嵌入技术预测方法,包括数据预处理步骤、基于深度游走对用户访问DPI序列图嵌入模型步骤、预测模型建立步骤和营销活动预测步骤等步骤;即本发明受自然语言处理中词向量技术的启发,通过词向量技术对于用户访问DPI序列进行学习,通过基于深度游走的词向量图嵌入技术学习用户访问DPI之间的内在关联,并进行数据增强,得到最终的预测用户点击的二分类学习器。结果显示,该方法显著提升对用户点击行为预测的准确性。
Description
技术领域
本发明涉及人工智能在互联网营销的技术领域,更具体地,涉及一种基于深度游走词向量图嵌入技术的预测方法。
背景技术
点击率(Click-Through Rate,简称CTR)预估问题是互联网计算广告中的关键环节;对用户预估的准确性直接影响公司营销广告的收入。点击率预估问题是互联网计算广告中的关键环节,对用户预估的准确性直接影响公司营销广告的收入。
在广告投放过程中,一般会经历广告曝光、用户点击和用户注册(或称转化)这三个过程,CTR预估的一大目的是提高从广告曝光到用户点击的效率,即提高点击率。由于用户点击或不点击一般定义为用户行为的标签。
本领域技术人员清楚,传统的CTR预估可看做是一个有监督学习问题:即已知了用户点击行为等一系列特征后,将用户点击记为1,用户不点击记为0,从而进行二分类学习。
然而,在数据收集过程中,用户访问DPI一般是用户最后点击记录的DPI,然后在最后一次点击之前,用户一般还会有一系列点击行为。例如,在网购过程中,用户一般会从遵循从大类到小类的顺序进行浏览,或者在点击的某一步中,跳转到相似的物品进行浏览。
也就是说,在互联网场景下,对于某一给定的预估目标,例如某用户购买的某件物品,其生成的点击途径往往可以有多种组合。例如,对于某一刚发布的智能手表,既可以在“电子产品”这一大类中搜寻得到,也可以在“个人健康管理”等类别中找到。这就是某一用户点击行为的DPI序列。
因此,在给定的某一用户行为的DPI序列之间搜寻其彼此之间的关联,为用户提供更全面、更精准的广告推荐,这是目前业界最关心的问题。
发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于深度游走词向量图嵌入技术的预测方法,其通过基于深度游走的词向量图嵌入技术学习用户访问DPI之间的内在关联,并进行数据增强,得到最终的预测用户点击的二分类学习器。
为实现上述目的,本发明的技术方案如下:
一种基于深度游走词向量图嵌入技术的预测方法,基于深度游走词向量图嵌入技术的预测方法,其特征在于,包括据预处理步骤S1、基于深度游走对用户访问DPI序列图嵌入模型建立步骤S2和预测模型生成步骤S3;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取N个用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI序列、用户访问时间和/或用户是否点击特征;其中,所述用户号码归属地为类别特征,所述用户访问时间为连续特征,所述N大于等于2;
步骤S12:对所述用户的原始信息进行异常检测与处理步骤;
步骤S13:对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的第一用户访问DPI序列;
步骤S14:通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理;
所述步骤S2包括:
S21:获取/生成用户点击行为第一用户访问DPI序列;
S22:根据所有用户点击行为的第一用户访问DPI序列,生成每一条由用户先点击或访问的DPI指向后点击或访问的DPI2的有向边,并根据每一条有向边所产生的数量加权,形成DPI关系图;
S23:使用随机游走的方式随机选择初始点,对生成的DPI关系图中的DPI节点进行采样并生成对应的第二用户访问DPI序列;
所述预测模型产生步骤S3用于基于深度游走词向量图嵌入技术的活动预测模型,所述预测模型包括输入层、嵌入层、合并层、全连接层和输出层;使用所述训练集对所述预测模型进行训练,并使用验证集进行验证,得到最终的预测模型,包括如下步骤:
步骤S31:提供初始化的基于深度游走对用户访问DPI序列图嵌入模型;将N个用户的原始的N个用户的第一用户访问DPI序列以及N个所述用户的第二用户访问DPI序列,按用户ID划分成训练集和验证集;其中,第二用户访问DPI序列是根据第一用户访问DPI序列相应用户ID通过DeepWalk生成算法输出的新DPI访问序列;
步骤S32:依次将所述训练集中每一个用户ID名下的第一用户访问DPI序列和第二用户访问DPI序列拼接输入到输入层;
步骤S33:所述嵌入层采用Skip-Gram方法产生对应DPI节点的第一用户访问DPI序列和第二用户访问DPI序列图嵌入表示;
步骤S34:所述合并层接收所述嵌入层的输出,将所述第一用户访问DPI序列和第二用户访问DPI序列图嵌入表示特征拼接起来;
步骤S35:所述全连接层接收所述合并层的输出,进行全连接的网络训练;
步骤S36:所述输出层通过添加sigmoid函数即可输出预测的概率,通过划定阈值即可表示为0/1二分类,并通过划定阈值形成为点击或不点击的二分类问题,即划分为正标签或负标签的输出结果;
步骤S37:通过所述的预测值,计算所述预测网络模型的预测值和真实值之间的损失值大小,根据损失值按照深度学习的梯度回传自动更新所述预测网络模型中所有涉及到的网络参数,并使用验证集进行验证,得到最终的预测网络模型。
进一步地,所述步骤S22包括如下步骤:
步骤S221:根据用户点击行为的第一用户访问DPI序列,各个DPI的关系图可按照如下方式生成:
用户U1先后点击或访问了DPI1和DPI2,则产生一条由DPI1指向DPI2的有向边,即;如果有其他用户也产生了该访问行为,则由DPI1指向DPI2的权重被加强,最终将产生所有DPI的关系图。
进一步地,所述S23中的使用随机游走的方式为DPI关系图中的深度优先搜索和广度优先搜索。
进一步地,所述的预测方法,其还包括营销活动预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI序列、用户访问时间和/或用户是否点击特征;其中,所述用户号码归属地为类别特征,所述用户访问时间为连续特征,所述N大于等于2;
步骤S42:对每一个所述用户的原始信息进行异常检测与处理步骤;对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的第一用户访问DPI序列;通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理;
步骤S43:提供建立训练好的营销活动预测模型,使用所述第一用户访问DPI序列,得到拟对营销活动点击预测的用户群体中所有所述用户的预测值;其中,所述用户的模型预测值为所述用户的点击意愿度。
进一步地,所述模型预测步骤S4还包括:
步骤S44:根据实际投放需求,选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。
进一步地,所述步骤S3中还包括步骤S37,对所述基于深度游走词向量图嵌入技术预测模型进行模型评价指标处理和调优处理;所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。
进一步地,所述模型调优处理包括如下一种或几种:
增加批归一化,解决数据的内部协变量偏移问题;
在网络中增加让部分神经元在训练过程中处于休眠状态的功能;
调整学习率,一般会通过指数式衰减等策略调整训练过程中的学习率;
设置多种子训练取平均,以提高由于数据方差较大引起的泛化能力不足的问题;
增加L1或者L2正则化,对损失函数施加惩罚,以降低过拟合风险;
对超参数的优化方法。
从上述技术方案可以看出,本发明的基于深度游走词向量图嵌入技术的预测方法,其通过基于深度游走的词向量图嵌入技术学习用户访问DPI之间的内在关联,并进行数据增强,得到最终的预测用户点击的二分类学习器。
附图说明
图1所示为本发明实施例中基于深度游走词向量图嵌入技术的预测方法的流程示意图
图2所示为本发明实施例中的DeepWalk算法的示意图
图3所示为本发明实施例中的基于Skip-Gram算法产生DPI节点的图嵌入表示示意图
图4所示为本发明实施例中DPI关系图中的深度优先搜索和广度优先搜索示意图
图5所示为本发明实施例中通过控制参数q的不同随机游走策略示意
图6所示为本发明实施例中基于深度游走对用户访问DPI序列图嵌入模型的网络整体架构示意图
图7所示为本发明实施例中对用户访问DPI序列经过词向量嵌入后,最后转化为数值型特征的示意图
图8所示为本发明实施例中用户点击率训练中损失函数-训练轮次关系曲线示意图
具体实施方式
下面结合附图1-8,对本发明的具体实施方式作进一步的详细说明。
需要说明的是,本发明通过在给定的某一用户行为的DPI序列之间搜寻其彼此之间的关联,为用户提供更全面、更精准的广告推荐。
DPI序列一般由一系列字符串组成,如何挖掘其内在关联并转化为模型可以学习的数据输入是关键。可以将DPI序列理解为一系列语句(sentence),于是挖掘DPI序列之间的内在关联即可转化为挖掘语句之间,或上下文之间的关系,于是可以采用自然语言处理中词向量模型对其处理。词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。典型的词向量技术包括了word2vec、glove、ELMo、BERT等。
本发明的技术方案,其受自然语言处理中词向量技术的启发,通过词向量技术对于用户访问DPI序列进行学习,挖掘其中的关联,对于提高用户点击率预测的准确性具有重要的理论和应用价值。
请参阅图1,图1所示为本发明实施例中基于深度游走词向量图嵌入技术的预测方法的流程示意图。如图1所示,该营销活动预测方法,其包括数据预处理步骤S1、基于深度游走对用户访问DPI序列图嵌入模型步骤S2、预测模型建立步骤S3和营销活动预测步骤S4。
在本发明的实施例中,数据预处理步骤非常重要,所述数据预处理步骤S1包括如下步骤:
步骤S11:获取N个用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI序列、用户访问时间和/或用户是否点击特征;其中,所述用户号码归属地为类别特征,所述用户访问时间为连续特征,所述N大于等于2。
请参阅下表1,表1为预处理之前的原始数据的表格描述,预处理之前的原始数据形式如下表1所示:
表1
用户id | 访问DPI | 归属地 | 访问时间 | 是否点击 |
199990 | dpi 1 | HN | 150702957019 | 1 |
199990 | dpi 3 | HN | 150702957147 | 1 |
199990 | dpi 2 | HN | 150702960147 | 1 |
… | … | … | … | … |
199990 | dpi 4 | HN | 150702953220 | 1 |
199991 | dpi 3 | LN | 150702158424 | 0 |
199991 | dpi 5 | LN | 150702983485 | 0 |
199991 | dpi 1 | LN | 150712478952 | 0 |
… | … | … | … | … |
199991 | dpi 6 | LN | 150702957147 | 0 |
199992 | dpi 8 | SH | 150702158424 | 1 |
199992 | dpi 9 | SH | 150702983485 | 1 |
199992 | dpi 2 | SH | 150712478952 | 1 |
… | … | … | … | … |
199992 | dpi 5 | SH | 150702957147 | 1 |
请注意此时,对于数据的标签,即用户是否点击,只区分为正样本(1)和未标记样本(0)。
在本发明的实施例中,上述的原始数据还需要经过异常检测与处理、类别特征处理、连续特征处理和降维处理等步骤。
步骤S12:对所述用户的原始信息进行异常检测与处理步骤。
异常检测与处理:在结合业务要求的过程中,对于原始数据中的缺失值、过大值等需要进行删除、填充等处理。在数据的采集过程中,由于一般用户量为百万级别,因此,采集过程中可能出现缺失情况;若缺失量较小,一般可直接进行剔除;若无法判断缺失数据是否会影响最终的模型训练效果,则一般可根据取平均数、众数、中位数等方法来填补缺失值。
并且在数据采集中,可能还会遇到过大值的问题,比如某用户在一天之内访问了DPI上万次,这种情况一般在实际建模过程中对于提升模型的泛化能力并无特别帮助,因此,也可以采用剔除的处理,或者采用填补的方法进行相应的处理。
从上表中可以看出,相比于传统的用户访问数据,每一个用户ID对应多个DPI访问记录,同时还给出了访问的时间。
步骤S13:对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的用户访问DPI序列;完成后如下表所示:
用户id | 访问DPI序列 | 归属地 | 是否点击 |
199990 | 1,3,2,…,4 | HN | 1 |
199991 | 3,5,1,…,6 | LN | 0 |
199992 | 8,9,2,…,5 | SH | 1 |
… | … | … | … |
步骤S14:在处理完DPI序列后,再对其他连续型或类别型特征进行处理;通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理。
类别特征处理:对于用户号码归属地等类别型特征,可以通过独热编码(one-hotenconding)进行展开。例如,归属地有(HN,LN,SH),通过独热编码后,某个用户所在的归属地则为1,其他归属地则为0。以用户ID为199990为例,其归属地为HN,于是经过独热编码后,其归属地向量为(1,0,0);对应的,用户199991和199992的归属地向量则为(0,1,0)和(0,0,1)。
连续特征处理:对于用户访问时间等连续特征,可利用RankGauss方法,调整数据分布。利用RankGauss方法对于连续特征调整数据分布处理和/或降维步骤;采用主成分分析法对经过类别特征处理后的髙维特征进行降维处理。
在本发明的实施例中,采用主成分分析(PCA)对髙维特征进行降维处理。由上述对于类别特征的处理可知,一般经过独热编码后,会形成高维稀疏矩阵,对于神经网络的训练而言,这意味着在误差反向传播时,很多地方没有办法求导,这显然是不利于网络训练的。同时,高维度特征,也增加了计算开销。因此有必要对于高维特征先进行降维处理。PCA通过求解原始数据在某投影方向的方差最大,实现降维目的;在减少特征维度的同时,尽量减少原始特征包含信息的损失,以达到对所收集数据进行全面分析的目的。
经过上述数据处理步骤后,就可以执行通过深度游走技术构建用户访问DPI序列的图嵌入生成步骤的步骤S2。
为了学习到用户访问DPI序列中的内在关联,并将其转化为其它学习器的输入,本发明通过深度游走(DeepWalk)构建DPI序列的图嵌入模型。
请参阅图2,图2所示为本发明实施例中的DeepWalk算法的示意图。
如图2所示,该DeepWalk算法的主要步骤包括以下4个环节:
步骤S2可以包括:
S21:获取/生成用户点击行为第一用户访问DPI序列;
S22:根据所有用户点击行为的第一用户访问DPI序列,生成每一条由用户先点击或访问的DPI指向后点击或访问的DPI2的有向边,并根据每一条有向边所产生的数量加权,形成DPI关系图;
S23:使用随机游走的方式随机选择初始点,对生成的DPI关系图中的DPI节点进行采样并生成对应的第二用户访问DPI序列。
其中,随机游走的次数和窗口长度是可调节的超参数。对于有向有权图,随机采样的跳转概率为跳转边的权重占所有相关出边权重的中和的比例。
S24:采用Skip-Gram方法产生第一用户访问DPI序列和第二用户访问DPI序列的图嵌入表示。
请参阅图3,图3所示为本发明实施例中的基于Skip-Gram算法产生DPI节点的图嵌入表示示意图。如图3所示,通过随机游走算法,建立起了用户访问行为产生的DPI序列的图嵌入(Graph Embedding)和词嵌入(Word Embedding)的联系;同时,随机游走算法还存在以下优势:
①.并行性:
用户DPI关系图的随机游走可以并行实现,大大减少了采样时间。
②.适应性:
随机游走可以动态适应网络的局部变化,网络的局部变化只会影响部分采样路径,因此,网络的变化过程中不需要整体重新计算。
当然,一般的随机游走存在以下两个问题:
①.如果是带权图,没考虑边权值的影响;
②.太过于随机,不能由模型自行学习以何种方式游走更好。
为了解决上述这两个问题,首先要明确,在随机游走过程中,从某一DPI出发到下一个DPI的搜索方式可以分为深度优先搜索(Depth First Search,DFS)和广度优先搜索(Breadth First Search,DFS)这两种方式。深度优先搜索是一个针对图和树的遍历算法。广度优先搜索算法又叫宽度优先搜索,或横向优先搜索。广度优先搜索算法是从根节点开始,沿着树的宽度遍历树的节点。如果所有节点均被访问,则算法中止。
请参阅图4,图4所示为本发明实施例中DPI关系图中的深度优先搜索和广度优先搜索示意图。如图4所示,为了引入边的权重,以及依概率选择DFS或BFS,可以首先要将一般的随机游走公式进行修改:
其中,πvx即为从DPIv到DPIx的转移概率,Z为归一化因子。假设当前随机游走中经过边(t,v)到达DPI节点v,且节点v和节点x之间的边权重为wvx,则可以将πvx改写为α(t,v)·wvx。其中,α(t,v)的表达式如下:
其中:dtx表示当前DPI节点v的一节邻居节点到节点t的最短距离。而p控制随机游走以多大的概率“回头”,q控制随机游走偏向DFS还是BFS。于是有,当q>1时,倾向于BFS;当q<1时,倾向于DFS。请参阅图5,图5所示为本发明实施例中通过控制参数q的不同随机游走策略示意。
通过随机游走得到一组新第二用户访问DPI序列产生的词向量表达特征后,与第一用户访问DPI序列特征一起分为作为两个不同的输入域,通过神经网络训练一个二分类的分类器。
请参阅图6,图6所示为本发明实施例中基于深度游走对用户访问DPI序列图嵌入模型的网络整体架构示意图。如图6所示,该神经网络深度学习的网络框架包括输入层(Input layer)、嵌入层(Embedding layer)、合并层(Concatenate layer)、全连接层(fully-connected layer)和输出层(Output layer)。
在本发明的实施例中,输入层(Input layer),用分为两个部分:一部分为原始的N个用户的第一用户访问DPI序列;另外一部分为上述通过DeepWalk生成的第二用户访问DPI序列。
嵌入层(Embedding layer),位置嵌入是指将单词的位置信息编码成特征向量,位置嵌入是向模型中引入单词位置关系的至关重要的一环。即采用Skip-Gram方法产生第一用户访问DPI序列和第二用户访问DPI序列的图嵌入表示。
请参阅图7,图7所示为本发明实施例中对第一用户访问DPI序列和第二用户访问DPI序列经过词向量嵌入后,最后转化为数值型特征的示意图。
合并层(Concatenate layer)将原始DPI序列经过嵌入以及新DPI序列经过嵌入形成的特征(第一用户访问DPI序列和第二用户访问DPI序列的图嵌入表示特征)拼接起来。
全连接层(fully-connected layer)在上述步骤完成后增加全连接的神经网络层。
输出层(Output layer):对于点击的二分类问题,通过添加softmax函数即可输出预测的概率,通过划定阈值即可表示为0/1二分类,并通过划定阈值形成为点击或不点击的二分类问题,即划分为正标签或负标签的输出结果。因此网络结构最后添加一个输出层神经元。
上述基于深度游走对用户访问DPI序列图嵌入生成步骤完成后,就可以执行所述预测模型建立步骤S3。在本发明的实施例中,所述预测模型是基于深度游走对用户访问DPI序列图嵌入模型的整体框架的。请再参阅图1,所述预测模型建立步骤S3包括如下步骤:
步骤S31:提供初始化的基于深度游走对用户访问DPI序列图嵌入模型;将N个用户的原始的N个用户的DPI访问序列(第一用户访问DPI序列)以及所述步骤S1预处理完成的N个用户新的DPI访问序列数据(第二用户访问DPI序列)按用户ID划分成训练集和验证集;其中,第二用户访问DPI序列是相应用户ID通过DeepWalk生成算法输出的新DPI访问序列。
所述基于深度游走对用户访问DPI序列图嵌入的网络框架(神经网络深度学习)的网络框架包括输入层(Input layer)、嵌入层(Embedding layer)、合并层(Concatenatelayer)、全连接层(fully-connected layer)和输出层(Output layer)。
步骤S32:依次将所述训练集中每一个用户ID名下的第一用户访问DPI序列和第二用户访问DPI序列拼接输入到输入层;
步骤S33:所述嵌入层采用Skip-Gram方法产生对应DPI节点的第一用户访问DPI序列和第二用户访问DPI序列图嵌入表示;
步骤S34:所述合并层接收所述嵌入层的输出,将所述第一用户访问DPI序列和第二用户访问DPI序列图嵌入表示特征拼接起来;
步骤S35:所述全连接层接收所述合并层的输出,进行全连接的网络训练;
步骤S36:所述输出层通过添加sigmoid函数即可输出预测的概率,通过划定阈值即可表示为0/1二分类,并通过划定阈值形成为点击或不点击的二分类问题,即划分为正标签或负标签的输出结果。
步骤S37:通过所述的预测值,计算所述预测网络模型的预测值和真实值之间的损失值大小,根据损失值按照深度学习的梯度回传自动更新所述预测网络模型中所有涉及到的网络参数,并使用验证集进行验证,得到最终的预测网络模型。
上述模型训练完成后,还包括步骤S37,对所述基于深度游走词向量图嵌入技术的活动预测模型进行模型评价指标处理和调优处理。请参阅图8,图8所示为本发明实施例中用户点击率训练中损失函数-训练轮次关系曲线示意图。
所述模型评价指标包括AUC(Area Under Curve)值、Log loss值和相对信息增益RIG(Relative Information Gain)值。一般来说,AUC值越接近1,则模型分类效果越好。Logloss值越小,说明点击率预估的准确度越高;相对信息增益值越大模型效果越好。
例如,在对数据按照上述步骤处理并通过模型训练后,通过本地验证的AUC值,可以判断该模型的训练效果;若效果较差,一般需要对模型进行调优,对于深度学习算法,一般可从如下几方面进行优化:
①、增加批归一化(Batch Normalization),解决数据的内部协变量偏移问题(Internal Covariate Shift)。
②、在网络中增加Dropout,即让部分神经元在训练过程中处于休眠状态。
③、调整学习率,一般会通过指数式衰减等策略调整训练过程中的学习率。
④、设置多种子训练取平均,降低训练过程中的过拟合风险。
⑤、增加L1或者L2正则化,对损失函数施加惩罚,以降低过拟合风险。
⑥、超参数的优化。
在对超参数的优化方法上,一般可以采用网格搜索(Grid Search)或者随机搜索(Random Search);但上述两种方法对于计算资源的消耗较大,且效率不高。在本发明的实施例中,采用贝叶斯优化(Bayesian Optimization)策略。贝叶斯优化通过高斯过程回归计算前面n个数据点的后验概率分布,得到每一个超参数在每一个取值点的均值和方差;贝叶斯优化通过均衡均值和方差,根据超参数间的联合概率分布,最终选择一组较好的超参数。
上述所有处理步骤完成后,就可以通过将上述特征带入训练好的用户预测模型,能够提前在广告投放之前就筛选出意愿较高的部分用户,并对这些用户进行营销广告的精准投放。
即本发明还可以还包括营销活动预测步骤S4,所述步骤S4具体包括:
步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI序列、用户访问时间和/或用户是否点击特征;其中,所述用户号码归属地为类别特征,所述用户访问时间为连续特征,所述N大于等于2;
步骤S42:对每一个所述用户的原始信息进行异常检测与处理步骤;对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的第一用户访问DPI序列;通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理;
步骤S43:对每一个所述用户的原始信息进行异常检测与处理步骤;对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的第一用户访问DPI序列;通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理;
步骤S44:根据实际投放需求,选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。
结果表明,通过本发明的方法,可以有效利用梯度提升决策树在特征构造方面的优势,并兼具了深度学习在对于高维稀疏矩阵中高阶特征的学习能力。该融合模型可以有效扩展深度学习对于计算广告和推荐系统算法问题的应用,并显著提升对用户点击行为预测的准确性,从而节省大量的营销成本,实现利润率的增加。
以上所述的仅为本发明的优选实施例,所述实施例并非用以限制本发明的专利保护范围,因此凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (7)
1.一种基于深度游走词向量图嵌入技术的预测方法,其特征在于,包括据预处理步骤S1、基于深度游走对用户访问DPI序列图嵌入生成步骤S2和预测模型建立步骤S3;
所述数据预处理步骤S1包括如下步骤:
步骤S11:获取N个用户的原始信息,并从所述用户的原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI序列、用户访问时间和/或用户是否点击特征;其中,所述用户号码归属地为类别特征,所述用户访问时间为连续特征,所述N大于等于2;
步骤S12:对所述用户的原始信息进行异常检测与处理步骤;
步骤S13:对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的第一用户访问DPI序列;
步骤S14:通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理;
所述步骤S2包括:
S21:获取/生成用户点击行为第一用户访问DPI序列;
S22:根据所有用户点击行为的第一用户访问DPI序列,生成每一条由用户先点击或访问的DPI指向后点击或访问的DPI2的有向边,并根据每一条有向边所产生的数量加权,形成DPI关系图;
S23:使用随机游走的方式随机选择初始点,对生成的DPI关系图中的DPI节点进行采样并生成对应的第二用户访问DPI序列;
S24:采用Skip-Gram方法产生第一用户访问DPI序列和第二用户访问DPI序列的图嵌入表示;
所述预测模型产生步骤S3用于基于深度游走词向量图嵌入技术的活动预测模型,所述预测模型包括输入层、嵌入层、合并层、全连接层和输出层;使用所述训练集对所述预测模型进行训练,并使用验证集进行验证,得到最终的预测模型,包括如下步骤:
步骤S31:提供初始化的基于深度游走对用户访问DPI序列图嵌入模型;将N个用户的原始的N个用户的第一用户访问DPI序列以及N个所述用户的第二用户访问DPI序列,按用户ID划分成训练集和验证集;其中,第二用户访问DPI序列是根据第一用户访问DPI序列相应用户ID通过DeepWalk生成算法输出的新DPI访问序列;
步骤S32:依次将所述训练集中每一个用户ID名下的第一用户访问DPI序列和第二用户访问DPI序列拼接输入到输入层;
步骤S33:所述嵌入层采用Skip-Gram方法产生对应DPI节点的第一用户访问DPI序列和第二用户访问DPI序列图嵌入表示;
步骤S34:所述合并层接收所述嵌入层的输出,将所述第一用户访问DPI序列和第二用户访问DPI序列图嵌入表示特征拼接起来;
步骤S35:所述全连接层接收所述合并层的输出,进行全连接的网络训练;
步骤S36:所述输出层通过添加sigmoid函数即可输出二分类用户点击预测的概率,通过划定阈值即可表示为0/1二分类,并通过划定阈值形成为点击或不点击的二分类问题,即划分为正标签或负标签的输出结果;
步骤S37:通过所述的预测值,计算所述预测网络模型的预测值和真实值之间的损失值大小,根据损失值按照深度学习的梯度回传自动更新所述预测网络模型中所有涉及到的网络参数,并使用验证集进行验证,得到最终的预测网络模型。
2.根据权利要求1所述的预测方法,其特征在于,所述步骤S22包括如下步骤:
步骤S221:根据用户点击行为的第一用户访问DPI序列,各个DPI的关系图可按照如下方式生成:
用户U1先后点击或访问了DPI1和DPI2,则产生一条由DPI1指向DPI2的有向边,即DPI1→DPI2;如果有其他用户也产生了相同的访问行为,则由DPI1指向DPI2的权重被加强,最终将产生所有DPI的关系图。
3.根据权利要求1所述的预测方法,其特征在于,所述S23中的使用随机游走的方式为DPI关系图中的深度优先搜索和广度优先搜索。
4.根据权利要求1所述的预测方法,其特征在于,还包括营销活动预测步骤S4,其具体包括:
步骤S41:获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始信息,并从所述用户原始信息提取原始特征信息;其中,所述原始特征信息包括用户ID、用户手机号码归属地、用户访问DPI序列、用户访问时间和/或用户是否点击特征;其中,所述用户号码归属地为类别特征,所述用户访问时间为连续特征,所述N大于等于2;
步骤S42:对每一个所述用户的原始信息进行异常检测与处理步骤;对用户ID进行分组后,再对所述用户访问时间排序,给出按照所述用户访问时间先后的第一用户访问DPI序列;通过独热编码对类别特征进行处理,利用RankGauss方法对连续特征进行处理;
步骤S43:提供建立训练好的营销活动预测模型,使用所述第一用户访问DPI序列,得到拟对营销活动点击预测的用户群体中所有所述用户的预测值;其中,所述用户的模型预测值为所述用户的点击意愿度。
5.根据权利要求4所述的营销活动预测方法,其特征在于,所述模型预测步骤S4还包括:
步骤S44:根据实际投放需求,选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。
6.根据权利要求1所述的预测方法,其特征在于,所述步骤S3中还包括步骤S37,对所述基于深度游走词向量图嵌入技术预测模型进行模型评价指标处理和调优处理;所述模型评价指标包括AUC值、Log loss值和相对信息增益RIG值。
7.根据权利要求6所述的预测方法,其特征在于,所述模型调优处理包括如下一种或几种:
增加批归一化,解决数据的内部协变量偏移问题;
在网络中增加让部分神经元在训练过程中处于休眠状态的功能;
调整学习率,一般会通过指数式衰减等策略调整训练过程中的学习率;
设置多种子训练取平均,以提高由于数据方差较大引起的泛化能力不足的问题;
增加L1或者L2正则化,对损失函数施加惩罚,以降低过拟合风险;
对超参数的优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111597115.XA CN114493657A (zh) | 2021-12-24 | 2021-12-24 | 一种基于深度游走词向量图嵌入技术的预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111597115.XA CN114493657A (zh) | 2021-12-24 | 2021-12-24 | 一种基于深度游走词向量图嵌入技术的预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114493657A true CN114493657A (zh) | 2022-05-13 |
Family
ID=81496589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111597115.XA Pending CN114493657A (zh) | 2021-12-24 | 2021-12-24 | 一种基于深度游走词向量图嵌入技术的预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114493657A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200076842A1 (en) * | 2018-09-05 | 2020-03-05 | Oracle International Corporation | Malicious activity detection by cross-trace analysis and deep learning |
CN111291243A (zh) * | 2019-12-30 | 2020-06-16 | 浙江大学 | 一种人物事件的时空信息不确定性的可视化推理方法 |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN112288471A (zh) * | 2020-10-26 | 2021-01-29 | 杭州电子科技大学 | 一种基于用户历史行为序列的广告点击率预测方法 |
CN113591971A (zh) * | 2021-07-28 | 2021-11-02 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
-
2021
- 2021-12-24 CN CN202111597115.XA patent/CN114493657A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200076842A1 (en) * | 2018-09-05 | 2020-03-05 | Oracle International Corporation | Malicious activity detection by cross-trace analysis and deep learning |
US20210012199A1 (en) * | 2019-07-04 | 2021-01-14 | Zhejiang University | Address information feature extraction method based on deep neural network model |
CN111291243A (zh) * | 2019-12-30 | 2020-06-16 | 浙江大学 | 一种人物事件的时空信息不确定性的可视化推理方法 |
CN112288471A (zh) * | 2020-10-26 | 2021-01-29 | 杭州电子科技大学 | 一种基于用户历史行为序列的广告点击率预测方法 |
CN113591971A (zh) * | 2021-07-28 | 2021-11-02 | 上海数鸣人工智能科技有限公司 | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 |
Non-Patent Citations (2)
Title |
---|
吴晨程;周银座;: "基于图嵌入法的时序网络链路预测研究", 杭州师范大学学报(自然科学版), no. 05, 16 September 2020 (2020-09-16) * |
赵超;朱福喜;刘世超;: "基于SkipGram模型的链路预测方法", 计算机应用与软件, no. 10, 15 October 2017 (2017-10-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113344615B (zh) | 一种基于gbdt和dl融合模型的营销活动预测方法 | |
Kuo et al. | Integration of ART2 neural network and genetic K-means algorithm for analyzing Web browsing paths in electronic commerce | |
CN113779264B (zh) | 基于专利供需知识图谱的交易推荐方法 | |
US20060112146A1 (en) | Systems and methods for data analysis and/or knowledge management | |
CN106408343A (zh) | 一种基于bp神经网络的用户行为分析与预测的建模方法及其装置 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN112967088A (zh) | 基于知识蒸馏的营销活动预测模型结构和预测方法 | |
CN113591971B (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
CN112199608A (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Seret et al. | A new SOM-based method for profile generation: Theory and an application in direct marketing | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
Mansouri et al. | A semi-supervised learning method for fake news detection in social media | |
CN112819523A (zh) | 结合内/外积特征交互和贝叶斯神经网络的营销预测方法 | |
Zhang et al. | An intrusion detection method based on stacked sparse autoencoder and improved gaussian mixture model | |
Arous et al. | Peer grading the peer reviews: A dual-role approach for lightening the scholarly paper review process | |
Mittal et al. | A COMPARATIVE STUDY OF ASSOCIATION RULE MINING TECHNIQUES AND PREDICTIVE MINING APPROACHES FOR ASSOCIATION CLASSIFICATION. | |
CN114493657A (zh) | 一种基于深度游走词向量图嵌入技术的预测方法 | |
Xu et al. | Novel Early-Warning Model for Customer Churn of Credit Card Based on GSAIBAS-CatBoost. | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
Wang et al. | A new interactive model for improving the learning performance of back propagation neural network | |
CN115063251A (zh) | 基于关系强度与反馈机制的社交传播动态网络表示方法 | |
Khomonenko et al. | Approach to processing of data from social networks for detecting public opinion on quality of educational services | |
Jing et al. | Publication classification prediction via citation attention fusion based on dynamic relations | |
CN115935178A (zh) | 基于无标签样本学习的预测集成建模方法 | |
CN115880003A (zh) | 基于自步学习对无标签样本用户行为的预测建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |