CN112529621A - 一种基于异构图嵌入技术的广告受众基础属性预估方法 - Google Patents

一种基于异构图嵌入技术的广告受众基础属性预估方法 Download PDF

Info

Publication number
CN112529621A
CN112529621A CN202011439950.6A CN202011439950A CN112529621A CN 112529621 A CN112529621 A CN 112529621A CN 202011439950 A CN202011439950 A CN 202011439950A CN 112529621 A CN112529621 A CN 112529621A
Authority
CN
China
Prior art keywords
advertisement
audience
node
training
basic attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011439950.6A
Other languages
English (en)
Inventor
印鉴
蒙权
曹志平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tongda Auto Electric Co Ltd
Sun Yat Sen University
Original Assignee
Guangzhou Tongda Auto Electric Co Ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tongda Auto Electric Co Ltd, Sun Yat Sen University filed Critical Guangzhou Tongda Auto Electric Co Ltd
Priority to CN202011439950.6A priority Critical patent/CN112529621A/zh
Publication of CN112529621A publication Critical patent/CN112529621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于异构图嵌入技术的广告受众基础属性预估方法,该方法根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息(素材id、广告id、广告主id)生成各自的向量表示,以此来保留广告信息之间的相互联系;搭建一个LSTM的神经网络,来自动根据已知基础属性(年龄和性别)的广告受众的历史点击行为训练一个可以根据广告受众的历史点击行为预测其基础属性的网络模型。针对未知基础属性的广告受众,只需要将其历史点击行为输入该训练好的网络模型,就可以根据其历史点击行为从该模型得到这些受众的基础属性。

Description

一种基于异构图嵌入技术的广告受众基础属性预估方法
技术领域
本发明涉及人工智能技术领域,更具体地,涉及一种基于异构图嵌入技术的广告受众基础属性预估方法。
背景技术
众所周知,用户对广告的偏好会随着其年龄和性别的不同而有所区别。因此,像用户年龄和性别这样的人口统计学特征是各类推荐系统的重要输入特征,其中也包括了广告平台。然而,大多数广告平台都无法准确获取所有用户的年龄和性别等基础属性,这就导致广告平台无法给缺失了年龄和性别等基础属性的用户准确地推送对应的广告。此种情况下,需要广告平台尽可能地预测、补全缺失的用户基础属性,以及纠正可能错误的广告受众的基础属性(年龄和性别),这样有助于提高广告平台的推送效果。
早期,广告平台只能依靠调查的方式,人工录入用户的年龄和性别等基础属性,或者通知用户让用户自行填写,效率及其低下。随着现代信息技术的不断发展,这种信息补全的方式已经被各种人工智能技术所代替。主流的人工智能预测用户年龄和性别属性的任务都是直接使用广告受众的点击广告信息(素材id、广告id、广告主id)作为互相独立的特征,通过一个训练好的树模型分类器(例如LightGBM)或者神经网络(例如LSTM)来预估未知基础属性的广告受众的基础属性(年龄和性别)。
然而,在实际情况中,广告受众的点击广告信息(素材id、广告id、广告主id)往往不是互相独立,而是相互有联系的,例如一个素材是明确属于某一个广告的,一个广告是明确某一个广告主发出的。这类场景下,保留广告信息(素材id、广告id、广告主id)之间的相互关系,会使得预估广告受众的基础属性的准确性更高。
发明内容
本发明提供一种预测效果较好的基于异构图嵌入技术的广告受众基础属性预估方法。
为了达到上述技术效果,本发明的技术方案如下:
一种基于异构图嵌入技术的广告受众基础属性预估方法,包括以下步骤:
S1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;
S2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;
S3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。
S4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。
进一步地,所述步骤S1中,构建广告受众的点击行为记录的异构图的过程是:
S11:生成异构图的节点:每个类型的每一个不同的id编号都作为异构图的一个节点;
S12:用边连接异构图的节点:四类节点类型之间存在3种边的关系:用户与广告素材的点击关系、广告素材与广告的从属关系、广告与广告主的发布关系;如果节点之间存在上述的三种关系中的任意一种,则将该两个节点用一条边连接起来。
进一步地,所述步骤S1中,于异构图嵌入表示技术为这些广告信息生成各自的向量表示的过程包括异构图采样和SkipGram神经网络训练。
进一步地,所述异构图采样的具体过程是:
每个广告受众id均作为开头节点按照设定好的元路径进行游走W次,每次游走L步;将每个游走到的节点依次登记下来,即是包含各类节点类型的节点序列语料库。
进一步地,所述SkipGram神经网络训练的过程是:
将节点序列语料库输入SkipGram神经网络,训练得到语料库中的每个节点的n维向量表示;训练的目标是使得各个节点的向量表示能够保持节点在语料库中的近邻信息,训练模型优化的公式为:
Figure BDA0002830062090000031
其中ct为v的上下文节点,分母ut∈Vt,即负采样时考虑了节点的类型;训练好之后,得到每个节点的n维向量表示。
进一步地,步骤S2中,数据集划分的过程是:
按照广告受众的基础属性是否已知将原始数据集分为两类;其中已知基础属性的这类数据称为训练集,训练集的广告受众点击行为作为训练模型的特征,特征对应的基础属性作为训练的标签,将特征与对应的标签用于训练LSTM神经网络得到预测模型;另一类数据称为测试集,用于训练好的预测模型预测其未知的基础属性。
进一步地,步骤S3中,将训练集的数据处理为后续的LSTM可以识别的特征向量及其标签,具体步骤为:
1)对每一个广告受众,分别把该用户的三个特征均按时间先后顺序排列起来,三个特征的长度均为p个时间步;若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个;
2)将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征的历史时间序列中的每个节点替换为其n维向量来表示。每位广告受众的3个特征向量将作为训练模型的输入特征;
3)将每位广告受众的基础属性作为该用户的3个特征所对应的标签,用于LSTM神经网络的监督训练。
8.根据权利要求6所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,LSTM网络的输入input为p个时间步的3个特征序列,每个特征向量都是n维,输出output为一个序列的结构;当需要预测年龄的模型时,用年龄作为标签训练LSTM神经网络;当需要预测性别的模型时,用性别作为标签训练LSTM神经网络。
进一步地,步骤S4中,对测试集的每一个广告受众,分别把该用户的三个特征均按时间先后顺序排列起来,三个特征的长度均为p个时间步;若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个;
将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征的历史时间序列中的每个节点替换为其n维向量来表示;每位广告受众的3个特征向量将作为预测模型的输入特征。
进一步地,步骤S3中的LSTM神经网络经过训练之后得到的预测模型;如果步骤S3中是用年龄作为标签进行训练,则得到广告受众的年龄预估模型;如果步骤S3中是用性别作为标签进行训练,则得到广告受众的性别预估模型;将广告受众的历史点击行为的3个特征向量输入年龄预估模型,则可以预估得到其年龄;将广告受众的历史点击行为的3个特征向量输入性别预估模型,则可以预估得到其性别。
与现有技术相比,本发明技术方案的有益效果是:
本发明方法本方法首次以异构图嵌入技术将广告受众的历史点击记录表示为向量的形式,保留了广告信息(广告素材id、广告id、广告主id)之间的相互联系,预测的效果更好;本方法使用了LSTM神经网络,保留了广告受众点击行为的时间顺行上的逻辑性,预测的效果更好;本方法在线下根据已知基础属性(年龄和性别)用户的点击行为完成了广告信息(广告素材id、广告id、广告主id)的向量化表示,当需要预测未知基础属性(年龄和性别)用户的基础属性时,就不需要再次进行向量化表示了,这种设计不仅提高了准确性,也提高了响应速度。
附图说明
图1为本发明方法总流程图;
图2为广告受众历史点击行为的异构图简图;
图3为以u1开头进行游走得到的节点序列;
图4本专利的LSTM神经网络的输入输出结构。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种基于异构图嵌入技术的广告受众基础属性预估方法,包括以下步骤:
S1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括广告素材id、广告id、广告主id;
S2:划分数据集,按照广告受众的基础属性(年龄和性别)是否已知将原始数据集分为两类。其中已知基础属性的这类数据称为训练集,用于训练本专利的预测模型,另一类数据称为测试集,用于预测其未知的基础属性。
S3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个可以根据广告受众的点击行为预测其基础属性的预测模型。
S4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性(年龄和性别)。
(1)任务的形式化定义
基于异构图嵌入技术的广告受众基础属性预估任务根据广告受众的历史点击记录数据集Data构建用户历史点击记录的异构图G,将数据转化为异构图的形式。然后通过异构图嵌入表示技术将异构图中的每个节点(即每个广告信息:素材id、广告id、广告主id)表示成n维向量,n的大小根据图的规模决定,为方便起见,这里统一取128。
有了每个广告信息的向量之后,就用已知基础属性(年龄和性别)的广告受众的历史点击行为作为训练模型的特征,其基础属性(年龄和性别)作为训练的标签,共同输入LSTM神经网络进行训练,得到一个有预估广告受众基础属性能力的LSTM神经网络。
得到训练好的LSTM神经网络之后,将要预测基础属性的广告受众的历史点击行为向量输入该LSTM神经网络,最终预估得到这些广告受众的基础属性(年龄和性别)
(2)单元S11:构建异构图
广告受众的历史点击记录中,包含了用户、广告素材、广告、广告主四类节点类型,每一个类型都有不同的id编号。通过以下方式来构建异构图:
1)生成异构图的节点:每个类型的每一个不同的id编号都作为异构图的一个节点,例如用户类型有1000个不同的id,则在异构图上就会有1000个用户节点。
2)用边连接异构图的节点:四类节点类型之间存在3种边的关系:用户与广告素材的点击关系、广告素材与广告的从属关系、广告与广告主的发布关系。如果节点之间存在上述的三种关系中的任意一种,则将该两个节点用一条边连接起来。
经过以上两个步骤,可以得到类似于图2这样的异构图。图中u表示广告受众类型的节点,c表示广告素材类型的节点,a表示广告类型的节点,r表示广告主类型的节点。
异构图嵌入表示技术提供了一种有效的方法来解决异构图的分析问题。具体而言,异构图嵌入将异构图转换为保存图信息的低维空间向量。异构图嵌入的输入是一张异构图,输出是表示图中各个节点的低维向量。本专利的异构图嵌入技术由以下两个部分组成:1)单元S12:异构图采样;2)单元S13:SkipGram神经网络。
(3)单元S12:异构图采样
异构图采样基于元路径对异构图进行随机游走,得到节点序列的语料库。
设计一条元路径:UCARACU(U表示广告受众类型的节点,C表示广告素材类型的节点,A表示广告类型的节点,R表示广告主类型的节点),这条元路径的含义是两个广告受众点击了同一家广告主的广告素材。按照这个元路径,节点的随机游走就能均匀的在异构图上进行采样。
具体地,每个广告受众id均作为开头节点按照设定好的元路径进行游走W次,每次游走L步。将每个游走到的节点依次登记下来,即是包含各类节点类型的节点序列语料库。(W和L视异构图的复杂程度设置,一般可以设置W=1000,L=100)
接下来以图2的异构图为例子进行的随机游走,展示以U1节点开始,如何在本专利设计的元路径(UCARACU)指导下进行随机游走,并得到以U1节点开头的节点序列。如下图3所示,元路径UCARACU规定了节点序列每一步的节点类型,比如规定第一步是U,第二步是C.....,一直走至100步。与u1相连的C类型节点有3个,会在该3个C类型节点中随机选择其中一个节点。当u1开头的节点序列走完100步之后,又会重复从u1开始游走,重复1000次。
其他所有u类型的节点,都会像u1这样作为开头游走1000次,每次游走100步。所有u类型的节点都游走完成之后,就可以得到节点序列的语料库,这个语料库保留了图中各节点之间的相互关系。
(4)单元S13:Skip-Gram神经网络
将节点序列语料库输入SkipGram神经网络,训练得到语料库中的每个节点的n维向量表示;训练的目标是使得各个节点的向量表示能够保持节点在语料库中的近邻信息,训练模型优化的公式为:
Figure BDA0002830062090000071
其中ct为v的上下文节点,分母ut∈Vt,即负采样时考虑了节点的类型;训练好之后,得到每个节点的n维向量表示。
(5)单元S2:数据集划分
按照广告受众的基础属性(年龄和性别)是否已知将原始数据集分为两类。其中已知基础属性的这类数据称为训练集,训练集的广告受众点击行为作为训练模型的特征,特征对应的基础属性作为训练的标签,将特征与对应的标签用于训练LSTM神经网络得到预测模型。另一类数据称为测试集,用于训练好的预测模型预测其未知的基础属性。
(6)单元S31:数据处理:特征、标签
将广告素材id、广告id、广告主id称为广告受众的三个特征,将广告受众的年龄和性别属性称为标签。本单元旨在将训练集的数据处理为后续的LSTM可以识别的特征向量及其标签,具体步骤为:
1)对每一个广告受众,分别把该用户的三个特征(广告素材id,广告id,广告主id)均按时间先后顺序排列起来,三个特征的长度均为p个时间步(视数据大小设置p值,一般地p=100)。若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个。
比如对广告受众u1:其点击的广告素材id先后顺序是{c5,c10,…,c30},对应的广告id的先后顺序是{a8,a9,…,a20},对应的广告主id的先后顺序是{r60,r20,…,r50},均取100个,不足100的用最近的补足,有多余的则保留最近的100个。
2)将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征(广告素材id、广告id、广告主id)的历史时间序列中的每个节点替换为其n维向量来表示。每位广告受众的3个特征向量将作为训练模型的输入特征。
3)将每位广告受众的基础属性作为该用户的3个特征所对应的标签,用于LSTM神经网络的监督训练。
(7)单元S32:LSTM神经网络
LSTM(Long Short-Term Memory),即长短期记忆网络,是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,是一种改进之后的循环神经网络,可以解决RNN无法处理长距离的依赖的问题,在时间序列预测问题上面也有广泛的应用。
本专利设计的LSTM网络的输入input为p个时间步(与单元S31的p值保持一致)的3个特征序列(广告素材id、广告id、广告主id),每个特征向量都是n维(与单元S13的n值保持一致),输出output为一个序列(年龄或者性别)的结构。当需要预测年龄的模型时,用年龄作为标签训练LSTM神经网络;当需要预测性别的模型时,用性别作为标签训练LSTM神经网络。其结构简图见图4所示;
最终,如果用年龄作为标签训练,则得到一个训练好的根据广告受众历史点击行为预测其年龄的模型;如果用性别作为标签训练,则得到一个训练好的根据广告受众历史点击行为预测其性别的模型。
(8)单元S41:数据处理:特征
该单元的操作与单元S31对特征的处理方法一致,具体步骤为:
1)对测试集的每一个广告受众,分别把该用户的三个特征(广告素材id,广告id,广告主id)均按时间先后顺序排列起来,三个特征的长度均为p个时间步(与单元S31的p值保持一致)。若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个。
2)将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征(广告素材id、广告id、广告主id)的历史时间序列中的每个节点替换为其n维向量来表示(与单元S13的n值保持一致)。每位广告受众的3个特征向量将作为预测模型的输入特征。
(9)单元S42:训练好的预测模型
即单元S32的LSTM神经网络经过训练之后得到的预测模型。如果单元S32是用年龄作为标签进行训练,则得到广告受众的年龄预估模型;如果单元S32是用性别作为标签进行训练,则得到广告受众的性别预估模型。
将广告受众的历史点击行为的3个特征向量(广告素材id、广告id、广告主id)输入年龄预估模型,则可以预估得到其年龄;
将广告受众的历史点击行为的3个特征向量(广告素材id、广告id、广告主id)输入性别预估模型,则可以预估得到其性别。
至此,基于异构图嵌入技术的广告受众基础属性预估过程结束。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,包括以下步骤:
S1:根据所有广告受众的历史点击行为,构建一张广告受众的点击行为记录的异构图,并基于异构图嵌入表示技术为这些广告信息生成各自的向量表示,其中广告信息包括素材id、广告id、广告主id;
S2:划分数据集,按照广告受众的基础属性是否已知将原始数据集分为两类,其中已知基础属性的这类数据称为训练集,用于训练预测模型,另一类数据称为测试集,用于预测其未知的基础属性,其中,广告受众的基础属性是年龄和性别;
S3:将训练集当中广告受众的历史点击行为作为LSTM预测模型的输入特征,年龄和性别作为对应特征的预测结果标签,对LSTM神经网络进行训练,得到一个根据广告受众的点击行为预测其基础属性的预测模型。
S4:将测试集当中广告受众的历史点击行为输入训练好的预测模型,预估得到这些用户的基础属性。
2.根据权利要求1所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述步骤S1中,构建广告受众的点击行为记录的异构图的过程是:
S11:生成异构图的节点:每个类型的每一个不同的id编号都作为异构图的一个节点;
S12:用边连接异构图的节点:四类节点类型之间存在3种边的关系:用户与广告素材的点击关系、广告素材与广告的从属关系、广告与广告主的发布关系;如果节点之间存在上述的三种关系中的任意一种,则将该两个节点用一条边连接起来。
3.根据权利要求2所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述步骤S1中,于异构图嵌入表示技术为这些广告信息生成各自的向量表示的过程包括异构图采样和SkipGram神经网络训练。
4.根据权利要求3所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述异构图采样的具体过程是:
每个广告受众id均作为开头节点按照设定好的元路径进行游走W次,每次游走L步;将每个游走到的节点依次登记下来,即是包含各类节点类型的节点序列语料库。
5.根据权利要求4所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,所述SkipGram神经网络训练的过程是:
将节点序列语料库输入SkipGram神经网络,训练得到语料库中的每个节点的n维向量表示;训练的目标是使得各个节点的向量表示能够保持节点在语料库中的近邻信息,训练模型优化的公式为:
Figure FDA0002830062080000021
其中ct为v的上下文节点,分母ut∈Vt,即负采样时考虑了节点的类型;训练好之后,得到每个节点的n维向量表示。
6.根据权利要求5所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,步骤S2中,数据集划分的过程是:
按照广告受众的基础属性是否已知将原始数据集分为两类;其中已知基础属性的这类数据称为训练集,训练集的广告受众点击行为作为训练模型的特征,特征对应的基础属性作为训练的标签,将特征与对应的标签用于训练LSTM神经网络得到预测模型;另一类数据称为测试集,用于训练好的预测模型预测其未知的基础属性。
7.根据权利要求6所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,步骤S3中,将训练集的数据处理为后续的LSTM可以识别的特征向量及其标签,具体步骤为:
1)对每一个广告受众,分别把该用户的三个特征均按时间先后顺序排列起来,三个特征的长度均为p个时间步;若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个;
2)将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征的历史时间序列中的每个节点替换为其n维向量来表示。每位广告受众的3个特征向量将作为训练模型的输入特征;
3)将每位广告受众的基础属性作为该用户的3个特征所对应的标签,用于LSTM神经网络的监督训练。
8.根据权利要求6所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,LSTM网络的输入input为p个时间步的3个特征序列,每个特征向量都是n维,输出output为一个序列的结构;当需要预测年龄的模型时,用年龄作为标签训练LSTM神经网络;当需要预测性别的模型时,用性别作为标签训练LSTM神经网络。
9.根据权利要求8所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,步骤S4中,对测试集的每一个广告受众,分别把该用户的三个特征均按时间先后顺序排列起来,三个特征的长度均为p个时间步;若有用户的特征超过p个,则保留最近的p个,若不足p个,则取最近的补足p个;
将每位广告受众的3个特征转为特征向量,即将每个广告受众的三个特征的历史时间序列中的每个节点替换为其n维向量来表示;每位广告受众的3个特征向量将作为预测模型的输入特征。
10.根据权利要求9所述的基于异构图嵌入技术的广告受众基础属性预估方法,其特征在于,步骤S3中的LSTM神经网络经过训练之后得到的预测模型;如果步骤S3中是用年龄作为标签进行训练,则得到广告受众的年龄预估模型;如果步骤S3中是用性别作为标签进行训练,则得到广告受众的性别预估模型;将广告受众的历史点击行为的3个特征向量输入年龄预估模型,则可以预估得到其年龄;将广告受众的历史点击行为的3个特征向量输入性别预估模型,则可以预估得到其性别。
CN202011439950.6A 2020-12-10 2020-12-10 一种基于异构图嵌入技术的广告受众基础属性预估方法 Pending CN112529621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011439950.6A CN112529621A (zh) 2020-12-10 2020-12-10 一种基于异构图嵌入技术的广告受众基础属性预估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011439950.6A CN112529621A (zh) 2020-12-10 2020-12-10 一种基于异构图嵌入技术的广告受众基础属性预估方法

Publications (1)

Publication Number Publication Date
CN112529621A true CN112529621A (zh) 2021-03-19

Family

ID=74999659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011439950.6A Pending CN112529621A (zh) 2020-12-10 2020-12-10 一种基于异构图嵌入技术的广告受众基础属性预估方法

Country Status (1)

Country Link
CN (1) CN112529621A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631711A (zh) * 2015-12-30 2016-06-01 合一网络技术(北京)有限公司 一种广告投放方法及装置
CN107871244A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 一种广告效果的检测方法和装置
CN109189936A (zh) * 2018-08-13 2019-01-11 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN109472626A (zh) * 2018-11-26 2019-03-15 浙江大学 一种面向手机租赁业务的智能金融风险控制方法及系统
CN111460085A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 基于图结构的知识点推荐方法及装置
CN111708922A (zh) * 2020-06-19 2020-09-25 北京百度网讯科技有限公司 用于表示异构图节点的模型生成方法及装置
CN112053188A (zh) * 2020-08-25 2020-12-08 杭州电子科技大学 一种基于混合深度神经网络模型的互联网广告推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631711A (zh) * 2015-12-30 2016-06-01 合一网络技术(北京)有限公司 一种广告投放方法及装置
CN107871244A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 一种广告效果的检测方法和装置
CN109189936A (zh) * 2018-08-13 2019-01-11 天津科技大学 一种基于网络结构和语义相关性度量的标签语义学习方法
CN109472626A (zh) * 2018-11-26 2019-03-15 浙江大学 一种面向手机租赁业务的智能金融风险控制方法及系统
CN111460085A (zh) * 2020-04-17 2020-07-28 支付宝(杭州)信息技术有限公司 基于图结构的知识点推荐方法及装置
CN111708922A (zh) * 2020-06-19 2020-09-25 北京百度网讯科技有限公司 用于表示异构图节点的模型生成方法及装置
CN112053188A (zh) * 2020-08-25 2020-12-08 杭州电子科技大学 一种基于混合深度神经网络模型的互联网广告推荐方法

Similar Documents

Publication Publication Date Title
CN109345302B (zh) 机器学习模型训练方法、装置、存储介质和计算机设备
CN109902849B (zh) 用户行为预测方法及装置、行为预测模型训练方法及装置
CN108804633B (zh) 基于行为语义知识网络的内容推荐方法
US10719521B2 (en) Evaluating models that rely on aggregate historical data
US20190272553A1 (en) Predictive Modeling with Entity Representations Computed from Neural Network Models Simultaneously Trained on Multiple Tasks
US10580035B2 (en) Promotion selection for online customers using Bayesian bandits
Liu et al. A semi-supervised and inductive embedding model for churn prediction of large-scale mobile games
CN109816101A (zh) 一种基于图卷积神经网络的会话序列推荐方法及系统
CN110263235A (zh) 信息推送对象更新方法、装置和计算机设备
US20140244345A1 (en) Measuring Effectiveness Of Marketing Campaigns Across Multiple Channels
CN110796313B (zh) 一种基于带权图卷积和项目吸引力模型的会话推荐方法
CN112053188B (zh) 一种基于混合深度神经网络模型的互联网广告推荐方法
US20220150123A1 (en) Temporal-Based Network Embedding and Prediction
US20220067816A1 (en) Method and system to detect abandonment behavior
CN108885628A (zh) 数据分析方法候选决定装置
US20230139824A1 (en) Media content enhancement based on user feedback of multiple variations
US20220114499A1 (en) System and method for efficiently training intelligible models
CN114169418B (zh) 标签推荐模型训练方法及装置、标签获取方法及装置
CN113032676B (zh) 基于微反馈的推荐方法和系统
CN114595323A (zh) 画像构建、推荐、模型训练方法、装置、设备及存储介质
US20190034961A1 (en) Method for targeting electronic advertising by data encoding and prediction for sequential data machine learning models
US20170330221A1 (en) Systems and methods for integration of universal marketing activities
CN112529621A (zh) 一种基于异构图嵌入技术的广告受众基础属性预估方法
US20200125578A1 (en) A system for extracting and analyzing data and a method thereof
Suhermi et al. Forecasting the Search Trend of Muslim Clothing in Indonesia on Google Trends Data Using ARIMAX and Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination