CN111340537B - 一种广告点击率预估模型的建立方法 - Google Patents

一种广告点击率预估模型的建立方法 Download PDF

Info

Publication number
CN111340537B
CN111340537B CN202010106887.8A CN202010106887A CN111340537B CN 111340537 B CN111340537 B CN 111340537B CN 202010106887 A CN202010106887 A CN 202010106887A CN 111340537 B CN111340537 B CN 111340537B
Authority
CN
China
Prior art keywords
data
model
training
current
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010106887.8A
Other languages
English (en)
Other versions
CN111340537A (zh
Inventor
吴迪
李佩颖
王欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010106887.8A priority Critical patent/CN111340537B/zh
Publication of CN111340537A publication Critical patent/CN111340537A/zh
Application granted granted Critical
Publication of CN111340537B publication Critical patent/CN111340537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种广告点击率预估模型的建立方法,属于计算机技术领域,包括四个阶段:数据预处理、中间结果保存、历史数据处理、当前时刻数据训练或测试。其中在数据处理阶段将数据按照时间排序按照用户标签分组,并按照一定的时间间隔分段。在模型训练阶段,将数据按照时间顺序依次输入到所选模型进行训练,并保存训练后的中间结果。在模型测试阶段,对于当前测试数据,按照用户标签和时间间隔向前检索所保留的中间结果,将这些中间结果取出,并加入注意力机制,得到一个新的向量,作为当前训练数据的输入中的一部分输入到模型中进行训练,最终的输出作为预测值。本发明适用于解决考虑特征组合的同时,兼顾用户的行为序列信息的点击率预估问题。

Description

一种广告点击率预估模型的建立方法
技术领域
本发明属于计算机技术领域,涉及一种广告点击率预估的模型建立方法。
背景技术
在互联网平台展示广告的过程中,平台需要根据广告的竞价和点击率选择如何将广告呈现给用户,广告收入占据互联网公司收入的很大一部分。
特征组合在广告点击率预估技术中占据重要地位,线性模型LR需要大量的特征工程,造成人力和时间的消耗,深宽度模型融合的方式一定程度上解决了高阶特征的组合问题。
用户行为序列作为一项重要的信息被越来越多的研究人员重视。如果能在考虑到特征组合的同时兼顾用户的行为序列信息,将会给点击率的预估准确度带来一定的提升。
本发明得到国家自然科学基金(NO.61370201)的赞助。
发明内容
针对现有技术存在的问题,本发明提供一种广告点击率模型的建立方法,目的是在考虑特征组合方法的同时,能够将用户的行为序列信息加入到广告点击率预估的任务中,还能考虑到用户的各个历史行为对当前行为影响程度。该方法通过保存训练模型的中间输出(本发明使用DeepFM模型的最后一层输出),再根据当前训练数据的用户识别号按照一定的时间间隔检索,得到当前训练数据前的历史数据对应的模型的输出,之后将检索到的历史数据加入一层attention进行训练,将训练的最终结果作为当前训练数据的一部分输入到所使用的模型中进行训练,将训练的结果作为预测的最终结果。与直接使用历史数据dense编码后的特征作为用户行为序列信息作为当前数据输入的方法不同,本发明使用历史数据经过模型训练后的中间结果作为当前数据输入的一部分来学习用户行为序列信息。
为了达到上述目的,本发明采用的技术方案为:
一种广告点击率预估模型的建立方法,能够兼顾特征组合和用户行为序列在广告点击率预估中的应用,包括数据预处理、中间结果保存、历史数据处理、当前数据训练或测试。首先,将数据处理成按照用户标签分组,时间顺序排列,时间间隔分段的格式。其次,将数据按照时间先后模型依次输入到所用模型中,保存该模型最后一层的输出,并将此输出与对应训练数据的标签拼接得到中间结果。再次,根据当前训练数据的用户标签,向前检索一定时间段的历史训练数据,将历史数据训练过后的中间结果使用attention机制进行处理,得到一个新的向量,若历史数据为空,则将向量初始化为0。最后,将上述得到的向量作为当前时刻数据输入的一部分,输入到模型中,获得最终的训练或预测结果。具体包括以下步骤:
步骤一:数据预处理:对全部训练数据按照用户识别号分组并按照用户浏览数据的时间先后顺序排列,得到最终的训练数据,其中训练数据由多个特征组成,其中每个特征具有多个类别。
步骤二:中间结果保存:将训练数据按照时间顺序依次输入到训练所使用的广告点击率预估模型中,并保留每条训练数据对应模型最后一层的输出,作为训练数据经过模型训练后的中间结果,如图2所示。
步骤三:历史数据处理:根据当前训练数据的用户识别号和时间戳,向前检索一定时间间隔的历史训练数据对应的训练后的中间结果,所述时间间隔由模型参数指定。并将按照时间顺序排列的这些中间结果加入Attention机制(注意力机制),对历史数据训练后的中间结果进行加权处理得到新向量,新向量为处理后的历史数据。若根据当前训练数据用户识别号和时间戳向前检索历史数据结果为空,则将的新的向量初始化为0向量,向量的长度与历史结果不为空的情况下向量长度相同。
步骤四:当前数据训练或测试:对当前训练数据进行独热编码,对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入,并将当前训练数据的输入与步骤三处理完成的历史数据进行拼接,再输入到所用广告点击率预估模型中,训练得到最终的预测结果。然后根据一系列的评价指标来评价模型的好坏。
进一步,所述步骤一中,数据预处理方法包括python中的pandas库。
进一步,所述步骤二中,广告点击率预估模型为DeepFM模型,DeepFM模型最后一层的输出由宽度模型部分FM的输出与深度模型部分DNN的输出拼接,拼接后得到新向量,新向量长度为DNN部分最后一层神经元个数加上FM部分输出结果之和。
进一步,所述步骤三中,所述的Attention机制为:加入attention机制的模型能够学习用户历史行为序列中的行为对用户当前行为的影响程度。例如用户在前一时间段内浏览过家具和衣服,现在给用户呈现的桌子广告将受用户之前浏览的家具行为影响较大,受用户浏览的衣服行为影响较小。具体为:由于步骤二中训练数据是按照时间顺序输入到模型中的,所以将所述训练数据中第i时刻的中间结果表示为hi,假设当前时刻为j,则将当前训练数据的输入表示为sj,其中sj为由当前训练数据进行独热编码和稠密嵌入处理后的向量。attention机制计算方法如下:
Figure BDA0002388288250000021
Figure BDA0002388288250000022
Figure BDA0002388288250000031
其中,Wa为注意力机制的权重计算矩阵,通过模型的训练得到;Tx为历史数据的条数;aji为最后的权重;a'ji为hi经过注意力机制处理过后的隐层表示;cj为通过加权平均得到的最终的历史数据,将作为下一步骤模型的输入的一部分。
进一步,所述步骤四中采用的评价指标分别为AUC、准确率(Accuracy)和对数损失函数(Logloss)。
本发明的有益效果为:与普通的特征组合模型相比,本方法加入了用户行为序列信息的学习,能够显著提高点击率预估的准确度。
附图说明
图1为本发明的模型建立整体步骤示意图。
图2为本发明中间结果表示方式说明图。
图3为本发明中步骤三和步骤四的综合说明。
具体实施方式
本发明提供一种新型的广告点击率预估模型的建立方法,具体步骤如图1所示,包括:
步骤一:数据预处理步骤:将实验数据处理为符合模型输入格式的数据,包括:
将训练数据先按照用户识别号分组;
将训练数据按照时间顺序排序;
步骤二:中间结果保存步骤:将数据输入到所述模型中并保留最后一层的输出;
所述模型包括DeepFM模型。DeepFM模型是由华为诺亚方舟实验室提出的一种深宽度预测模型,模型分为两个部分,包括宽度模型部分FM的深度模型DNN,其中FM的全称是Factorization machines,是一种因子分解机算法,它在传统的LR算法的基础上加入了特征之间的交互信息,公式为:
Figure BDA0002388288250000032
式中,xi为训练数据第i个特征值,w0为偏置项,wi为一次项权重矩阵,vi为特征的隐向量表示,其长度由模型参数指定,n为每条训练数据特征的数量,y为FM的输出。
FM模型的输出为长度为数据特征数量加上特征的隐向量长度再加1的和的向量。
DNN部分:DNN为一深度神经网络,我们选择网络的深度为两层,每层的神经元个数分别为128和64,在每层全连接层我们选用relu激活函数。DNN的输出向量长度为其最后一层神经元的个数,本发明中为64。
本发明将DeepFM模型中FM部分的输出最后一层的输出与DNN部分最后一层的输出拼接为一个新的向量。新向量的长度为FM模型的输出向量长度与DNN模型的输出向量长度之和,将上述生成的新向量作为中间结果保存,由图2可知,其中间结果实为DeepFM模型的最后一层输出。
步骤三:历史数据处理步骤:现根据用户识别号和时间戳检索历史数据,取得其所保存的中间结果,将中间结果使用attention机制进行处理。attention机制可以计算出不同历史数据对当前用户行为的影响程度,得到历史数据对当前时刻数据的输入向量。若对于当前时刻的用户,其之前没有历史数据,则将向量初始化为0,其长度与历史数据不为空时,经过attention机制处理的向量长度一致。
所述attention机制具体为:由于步骤二中训练数据是按照时间顺序输入到模型中的,所以将训练数据中第i时刻的中间结果表示为hi,假设当前时刻为j,则将当前训练数据的输入表示为sj,其中sj为由当前训练数据进行独热编码和稠密嵌入处理后的向量,则:
Figure BDA0002388288250000041
式中Wa为注意力机制的权重计算矩阵,是通过模型的训练得到的,Tx为历史数据的条数,aji为最后的权重,通过加权平均得到的cj为得到的最终的历史数据,将作为下一步骤模型的输入的一部分。
步骤四:当前数据训练或测试:当前训练数据由多个特征组成,其中每个特征具有多个类别。对当前训练数据首先进行独热编码,对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入,再将步骤三处理完成的历史数据与当前训练数据的输入进行拼接,再输入到DeepFM模型中去,训练得到最终的预测结果。再根据一系列的评价指标来评价模型的好坏,其中采用的评价指标分别为AUC、准确率(Accuracy)和对数损失函数(Logloss)。
与当前流行的几个点击率预估模型进行了比较:
所述AUC为广告点击率预估模型常用评价指标,其实际为ROC曲线下面的面积,ROC曲线的横坐标为False Positive Rate(FPR),纵坐标为True Positive Rate(TPR);其中FPR的计算方式为:
Figure BDA0002388288250000042
TPR的计算方式为:
Figure BDA0002388288250000043
式中FP代表将正样本判定为负样本的样本数量,TN代表将负样本判定为负样本的样本数量,TP代表将正样本判定为正样本的样本数量。
所述Accuracy的计算方式为:
Figure BDA0002388288250000044
式中,P为实际正样本总量,N为实际负样本总量。
所述Logloss的计算方式为:
Figure BDA0002388288250000051
式中,M为训练数据总量,yi代表真实的标签值取值为0和1,pi代表预测值,取值为0到1。
最终的结果如表1所示:
表1:本发明建立的模型与其他模型实验结果对比表
Model AUC Accuracy Logloss
FM 0.7429 0.7014 0.5698
Wide&Deep 0.7436 0.7011 0.5681
DeepFM 0.7439 0.7017 0.5680
本发明 0.7444 0.7019 0.5677
从表1可知:本发明的模型在AUC、准确率(accuracy)和对数损失函数(Logloss)三个评价指标上的表现均优于其他模型。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (4)

1.一种广告点击率预估模型的建立方法,其特征在于,包括数据预处理、中间结果保存、历史数据处理、当前数据训练或测试,具体步骤如下:
步骤一:数据预处理:对全部训练数据按照用户识别号分组并按照用户浏览数据的时间先后顺序排列,得到最终的训练数据,其中训练数据由多个特征组成,其中每个特征具有多个类别;
步骤二:中间结果保存:将训练数据按照时间顺序依次输入到训练所使用的广告点击率预估模型中,并保留每条训练数据对应模型最后一层的输出,作为训练数据经过模型训练后的中间结果;
步骤三:历史数据处理:根据当前训练数据的用户识别号和时间戳,向前检索一定时间间隔的历史训练数据对应的训练后的中间结果,所述时间间隔由模型参数指定;并将按照时间顺序排列的这些中间结果加入注意力机制,对历史数据训练后的中间结果进行加权处理得到新向量,新向量为处理后的历史数据;若根据当前训练数据用户识别号和时间戳向前检索历史数据结果为空,则将新向量初始化为0向量,向量的长度与历史结果不为空的情况下向量长度相同;
加入注意力机制的模型能够学习用户历史行为序列中的行为对用户当前行为的影响程度;由于训练数据是按照时间顺序广告点击率预估模型中的,所以将训练数据中第i时刻的中间结果表示为hi,假设当前时刻为j,则将当前训练数据的输入表示为sj,其中sj为由当前训练数据进行独热编码和稠密嵌入处理后的向量;所述的注意力机制计算方法如下:
Figure FDA0002388288240000011
Figure FDA0002388288240000012
Figure FDA0002388288240000013
其中,Wa为注意力机制的权重计算矩阵,通过模型的训练得到;Tx为历史数据的条数;aji为最后的权重;a'ji为hi经过注意力机制处理过后的隐层表示;cj为通过加权平均得到的最终的历史数据,将作为下一步骤模型的输入的一部分;
Figure FDA0002388288240000014
为sj的转置;
步骤四:当前数据训练或测试:对当前训练数据进行独热编码,对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入,并将当前训练数据的输入与步骤三处理完成的历史数据进行拼接,再输入到所用广告点击率预估模型中,训练得到最终的预测结果;最后根据评价指标评价模型的好坏。
2.根据权利要求1所述的一种广告点击率预估模型的建立方法,其特征在于,所述步骤二中,广告点击率预估模型为DeepFM模型,DeepFM模型最后一层的输出由宽度模型部分FM的输出与深度模型部分DNN的输出拼接,拼接后得到新向量,新向量长度为DNN部分最后一层神经元个数加上FM部分输出结果之和。
3.根据权利要求1所述的一种广告点击率预估模型的建立方法,其特征在于,所述步骤一中,数据预处理方法包括python中的pandas库。
4.根据权利要求1所述的一种广告点击率预估模型的建立方法,其特征在于,所述步骤三中,所述步骤四中采用的评价指标包括AUC、准确率和对数损失函数。
CN202010106887.8A 2020-02-20 2020-02-20 一种广告点击率预估模型的建立方法 Active CN111340537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010106887.8A CN111340537B (zh) 2020-02-20 2020-02-20 一种广告点击率预估模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010106887.8A CN111340537B (zh) 2020-02-20 2020-02-20 一种广告点击率预估模型的建立方法

Publications (2)

Publication Number Publication Date
CN111340537A CN111340537A (zh) 2020-06-26
CN111340537B true CN111340537B (zh) 2022-10-04

Family

ID=71187157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010106887.8A Active CN111340537B (zh) 2020-02-20 2020-02-20 一种广告点击率预估模型的建立方法

Country Status (1)

Country Link
CN (1) CN111340537B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381581B (zh) * 2020-11-17 2022-07-08 东华理工大学 一种基于改进Transformer的广告点击率预估方法
CN112365297B (zh) * 2020-12-04 2022-06-28 东华理工大学 一种广告点击率预估方法
CN113689234B (zh) * 2021-08-04 2024-03-15 华东师范大学 一种基于深度学习的平台相关的广告点击率预测方法
CN117422508A (zh) * 2023-10-24 2024-01-19 上海网萌网络科技有限公司 一种基于大数据的智能化投放分析系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875916A (zh) * 2018-06-27 2018-11-23 北京工业大学 一种基于gru神经网络的广告点击率预测方法
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐系统点击率预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921604A (zh) * 2018-06-22 2018-11-30 华南理工大学 一种基于代价敏感分类器集成的广告点击率预测方法
CN108875916A (zh) * 2018-06-27 2018-11-23 北京工业大学 一种基于gru神经网络的广告点击率预测方法
CN109960759A (zh) * 2019-03-22 2019-07-02 中山大学 基于深度神经网络的推荐系统点击率预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于K均值的三阶段集成在线广告点击率预测模型;邓路佳等;《桂林电子科技大学学报》;20180720(第03期);全文 *

Also Published As

Publication number Publication date
CN111340537A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111340537B (zh) 一种广告点击率预估模型的建立方法
CN108875916B (zh) 一种基于gru神经网络的广告点击率预测方法
CN112381581B (zh) 一种基于改进Transformer的广告点击率预估方法
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
CN112288471B (zh) 一种基于用户历史行为序列的广告点击率预测方法
CN111797321A (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN110619540A (zh) 一种神经网络的点击流预估方法
CN112700274A (zh) 一种基于用户偏好的广告点击率预估方法
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN111753209A (zh) 一种基于改进时序卷积网络的序列推荐列表生成方法
CN111177579A (zh) 一种集成多样性增强的极深因子分解机模型及其构建方法和应用
CN113505225B (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN116541607B (zh) 基于商品检索数据分析的智能推荐方法
CN112131453A (zh) 一种基于bert的网络不良短文本检测方法、装置及存储介质
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN115495654A (zh) 基于子空间投影神经网络的点击率预估方法和装置
CN114781503A (zh) 一种基于深度特征融合的点击率预估方法
CN112819024A (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN114840745A (zh) 一种基于图表征学习和深度语义匹配模型的个性化推荐方法及系统
CN114529077A (zh) 一种基于会话内异构行为的点击率预测方法
CN113449103A (zh) 融入标签与文本交互机制的银行交易流水分类方法及系统
CN112148994A (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN114780862A (zh) 一种用户兴趣向量提取方法、提取模型及计算机系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant