CN112270570B - 一种基于特征组合与表示学习的点击转化率预测方法 - Google Patents

一种基于特征组合与表示学习的点击转化率预测方法 Download PDF

Info

Publication number
CN112270570B
CN112270570B CN202011207345.6A CN202011207345A CN112270570B CN 112270570 B CN112270570 B CN 112270570B CN 202011207345 A CN202011207345 A CN 202011207345A CN 112270570 B CN112270570 B CN 112270570B
Authority
CN
China
Prior art keywords
book
user
data
activity
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011207345.6A
Other languages
English (en)
Other versions
CN112270570A (zh
Inventor
曾杨
肖云鹏
李暾
刘红
桑春艳
周由胜
刘宴兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011207345.6A priority Critical patent/CN112270570B/zh
Publication of CN112270570A publication Critical patent/CN112270570A/zh
Application granted granted Critical
Publication of CN112270570B publication Critical patent/CN112270570B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于电商大数据推荐领域,特别涉及一种基于特征组合与表示学习的点击转化率预测方法,包括;获取书城电商平台销售数据和基础数据,包括用户数据和书籍数据;通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征;通过与特征组合与表示学习的联合训练建立预测模型,将获得的隐藏的属性特征作为输入,通过该模型得到点击转化率预测结果本发明针对文本等特征进行深度挖掘得到完整特征空间,通过分析图书营销活动的动态性来预测点击购买的转化率,本发明能够针对书城电商平台提升精准营销的效果。

Description

一种基于特征组合与表示学习的点击转化率预测方法
技术领域
本发明属于电商大数据推荐领域,特别涉及一种基于特征组合与表示学习的点击转化率预测方法。
背景技术
随着网购平台的发展,各大互联网电商平台的竞争日益激烈,阿里、Amazon、Criteo等厂商团队都在针对电商平台打造一个点击率预测模型或点击转化率模型来提高广告相关性的用户体验从而提高收入。近两年,各大著名电商平台将预测模型应用于自己的线上系统对实现了一定程度上的精准营销。可见,一个有效的点击率预测方法或者点击转化率模型,对电商平台的利益以及对用户的购物体验都有很大的提升。
在当前的电商平台中,尽管营销人员想知道网络访问者的反应,但是使用当前技术几乎不可能量化对网站的情感反应以及该网站对公司品牌的影响。不过,点击率和点击后的购买转化率很容易获得。点击率衡量的是页面访问者数量与该页面商品广告点击后并将其重定向到另一个页面的访问者的比例,在该页面中,他们可以购买商品或了解有关产品或服务的更多信息。而点击转化率则是点击后购买的次数与点击次数的比率。
通常,点击率越高,则表明该广告商品更有商业价值或是该营销活动更吸引人。而点击后的购买转化率则更能够反映一个书籍的商业价值。大多数电商网站旨在通过点击率和点击后的购买转化率预测来调整主页商品广告的展示,做个性化推荐,或者调整新商品的进货量。
各大互联网研究团队以及学者在近几年对于点击率,点击转化率模型相关的研究突破主要在以下两方面:一方面是通过深度学习模型代替传统的机器学习方法,代替了初期工业界广泛应用的逻辑回归模型。另一方面是研究者们针对电商平台大量高维稀疏特征间的特征组合问题做出了一定的研究。但是现阶段针对书城电商平台仍存在以下不足:
1.在图书电商平台中,交互特征信息以及大量文本信息中所包含的丰富隐藏信息往往是关键信息,挖掘这些隐藏信息比较困难,单纯地采用自动特征组合模型难以在特定商品电商平台中取得好的效果。
2.图书电商平台中文本类特征复杂多样,基于文档建模的方法通过额外使用文本数据(如摘要或概要)能有效提高预测准确性,但如何在不损失文本核心信息下减少特征词,提取有效特征从而简化计算显然是一个问题。
3.用户连续购买多本图书间随时间变化的关联程度以及营销活动热度随时间变化的程度,这一系列变化对整个模型的预测准确性带来了挑战。
发明内容
针对上述不足,本发明提出一种基于特征组合与表示学习的点击转化率预测方法,具体包括以下步骤:
S1、获取书城电商平台销售数据和基础数据,包括用户数据和书籍数据;
S2、通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征;
S3、通过与特征组合与表示学习的联合训练建立预测模型,将获得的隐藏的属性特征作为输入,通过该模型得到点击转化率预测结果。
进一步的,通过表示学习与特征组合的方法获取隐藏的属性特征具体包括:
S21、构建图书-用户-活动特征矩阵Triad=[boi,bui,ai];
S22、根据用户行为计算用户对图书的关注度,表示为Attentionub=tstay(boi)*Num(click(boi))*fav;
S23、根据营销活动内用户的参与行为构建营销活动影响因子,表示为
Figure BDA0002757517930000021
S24、根据书籍数据构建图书长文本内容集合,表示为TL={(bi,co,ti)|bi∈(Pb∪Lb)};
其中,boi为用户浏览的记录,bui表示参与活动的所有用户,ai表示一次营销活动;tstay(bo)表示用户在该图书间停留时间,Num(click(bo))表示用户对该图书的点击次数,fav表示用户对该图书的收藏标志,且当用户收藏该图书时,该标志值为1,否则值为0.1;ci为营销活动序号,Num(history(ai))表示活动时间内参与该活动人数,T表示活动持续时间,Discount表示活动具体内容;boi表示图书节点;co表示图书简介内容;ti表示图书标题内容;Pb为浏览且购买图书,Lb为浏览未购买图书。
进一步的,通过与特征组合与表示学习的联合训练建立预测模型包括:
S30、构建用户-图书-营销活动三部图网络,该三部图表示为:GBBA={Bu∪Bk∪A,MBB∪MBA},其中Bu,Bk,A分别表示购书用户,图书,营销活动;MBB为用户、图书之间的邻接矩阵,aij为矩阵MBB中的元素;如果用户Bui购买了图书Bki,aij=1则,否则,aij=0;MBA为图书、活动之间的邻接矩阵,bjk为矩阵MBA中的元素,如果活动Ai包含图书Boi,则bjk=1,否则bjk=0;
S31、用户-图书-营销活动特征组合进行特征组合以及特征分解后的再组合,获取图书的文本tag特征;
S32、基于文本tag特征,将三部图用户-图书-营销活动TriadBBA的嵌入向量矩阵W0扩充为嵌入向量矩阵W'0,获取构建完整特征组合空间;
S33、基于BBA2vec算法将用户与图书通过时间与购买记录构造的特征空间进行向量表示;
S34、将S32构建的完整特征组合空间特征表示作为DNN神经网络的输入,并改进DNN神经网络的损失函数,同时与BBA2vec算法的损失函数联合训练得到预测模型。
进一步的,步骤S31具体包括以下步骤:
S311、针对图书的标题文本以及简介文本TL进行jieba分词、词性标注和过滤停用词,得到标题的候选关键词Ttitle
S312、针对图书的简介文本,构建词图G=(V,E),计算每个分词的权重并进行排序,选择权重最大K个词作为候选关键词Tcontext,V表示词语节点,E表示词语间的边;
S313、以Tcand=Ttitle+Tcontext作为一本书籍的候选词组;
S314、将所有用户书评进行jieba分词得到书评词组词典,将每一个候选关键词在词典内进行词频计算,排序筛选出词频最高的m个词;
S315、计算候选关键词在书评文本中的出现词频进行排序获得图书的文本tag特征,该tag特征即为完整特征组合空间。
进一步的,步骤S33具体包括以下步骤:
S331、将三部图用户-图书-营销活动转化为图GBBA=(BΔt,E),计算边权重w(ai,boi,bui),表示为
Figure BDA0002757517930000041
S332、利用边权重与两个图书节点之间的搜索偏差的乘积作为转移概率;
S333、利用图书的转移概率决定搜索行走路径,并利用该路径作为用户-图书-活动的特征表示。
本发明利用书城电商平台的已有商品以及用户行为数据,针对文本等特征进行深度挖掘得到完整特征空间;同时应用表示学习的方法对“图书-用户-营销活动”特征组进行表示;并基于图书的营销特性进行建模,通过分析图书营销活动的动态性来预测点击购买的转化率,本发明能够针对书城电商平台提升精准营销的效果。
附图说明
图1为本发明一种基于特征组合与表示学习的点击转化率预测方法框架图;
图2为本发明购书用户-图书-营销活动三部图网络示图;
图3为本发明将用户与图书通过时间与购买记录构造的特征空间进行向量表示的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于特征组合与表示学习的点击转化率预测方法,其特征在于,具体包括以下步骤:
S1、获取书城电商平台销售数据和基础数据,包括用户数据和书籍数据;
S2、通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征;
S3、通过与特征组合与表示学习的联合训练建立预测模型,将获得的隐藏的属性特征作为输入,通过该模型得到点击转化率预测结果。
如图1所示为本发明整体框架图,表明本发明的输入是书城电商的基础数据与,经过预测模型后的输出是用户是否购买一本图书的预测结果。
本实施例中,获取书城电商平台销售数据和基础数据,包括用户数据和书籍数据;获取数据的方法,包括从书城提供的数据源或直接下载现有公开数据源都可以得到原始数据等。
通常获取的原始数据都是非结构化的,不能直接用于数据分析。通过简单的数据清洗可以使大部分非结构化数据结构化。例如,删除重复数据、清理无效节点如部分游客数据等。
通过表示学习与特征组合的方法挖掘隐藏属性特征,进一步提取书城数据特征属性,包括以下步骤:
S21:提取构建特征
S211:图书-用户-活动特征矩阵Triad=[boi,bui,ai]
其中bi为用户浏览的记录,bui表示参与活动的所有用户,ai表示一次营销活动。每一个三元组可以表示为一个用户在一个活动下的购书记录。其中书籍为boi∈Pb∪Lb。Pb为浏览且购买书籍,Lb为浏览未购买书籍。
S212:用户图书关注度Attentionub=tstay(bo)*Num(click(bo))*fav
用户对图书的关注度可以定义为图书间停留时间tstay(bo),点击次数Num(click(bo))以及收藏标志fav三个条件所决定,其中,收藏标志取已收藏值为1,未收藏值为0.1
S213:营销活动影响因子
Figure BDA0002757517930000061
其中ci为营销活动序号;图书电商平台营销活动的影响因素可以有以下几个组成,第一是活动时间内参与该活动人数Num(history(bu0)),第二是活动持续时间T,第三是活动具体内容,活动具体内容可以具体以折扣表示为Discount。
S214:图书长文本内容集合TL={(bi,co,ti)|bi∈(Pb∪Lb)}
其中co,ti表示每个样本空间中被浏览书籍的长文本信息,其中co表示简介内容,ti表示标题内容。
针对热门书籍商品热度随时间变化的这一图书营销特性,使用时间衰减函数量化购买行为的动态性以及考虑图书电商平台营销活动设置影响激励因子。通过与特征组合与表示学习的联合训练建立预测模型。
建立模型预测模型主要分为以下阶段:
从书城电商平台的用户基本信息数据、历史行为数据,以及商品的基本属性数据整合出“用户-图书-营销活动”特征三部图;
通过因子分解机对“用户-图书-营销活动”进行特征组合以及特征分解后的再组合,更准确的挖掘出特征间的潜在信息;
利用表示学习方法提出使用BBA2vec方法对“用户-图书-营销活动”三部图进行表示;
结合书城营销特性引入时间衰减函数以及营销活动影响因子,综合考虑“图书-营销活动”关系的内部和外部因素;
结合深度神经网络的预测算法提出一种是基于特征组合与表示学习的书城平台购买率预测模型。
在本实施例中,构建三部图图书-用户-营销活动,该三部图表示为图书-用户-营销活动特征矩阵Triad=[boi,bui,ai];
其中bi为用户浏览的记录,bui表示参与活动的所有用户,ai表示一次营销活动。每一个三元组可以表示为一个用户在一个活动下的购书记录。其中书籍为boi∈Pb∪Lb。Pb为浏览且购买书籍,Lb为浏览未购买书籍。
特征组合部分可以分为以下步骤:
对于图书电商平台的三个要素用户图书营销活动构建三部图;
文本特征再分解与组合;
三部图三部分两两特征组合。
S311:三部图构建
三部图是一种特殊的图结构,可以把所有节点划分为三个互不相交的子集,并且相关联的两个节点属于不同子集,两组节点之间的连边关系看作是一组邻接矩阵。更为具体的来说,购书用户-图书-营销活动三部图网络BBA如图2所示。BBA三部图表示为GBBA={Bu∪Bk∪A,MBB∪MBA},其中Bu,Bk,A分别表示购书用户,图书,营销活动。MBB为用户、图书之间的邻接矩阵,aij为矩阵MBB中的元素,如果用户Bui购买了图书Bki,aij=1则,否则,aij=0;MBA为图书、活动之间的邻接矩阵,bjk为矩阵MBA中的元素,如果活动Ai包含图书Boi,则bjk=1,否则bjk=0。
S312:文本特征再分解与组合
在图书特征中,客户的关注点不在书的尺寸封面等特征,而在于书的文本信息内容。而书城电商平台的文本信息内容往往包括简介内容与用户书评。因此本发明设计了一种通过基于书评词频的book2tag方法对图书简介文本特征再分解后进行特征组合。
图书的文本信息由书的标题与简介内容组成,对标题文本以及简介文本进行jieba分词、词性标注和过滤停用词,得到标题的候选关键词Ttitle
由于文本简介内容量远大于标题文本,因此根据TextRank的排名机制得到文本中的关键词。同样首先对每个段落进行jieba分词得到候选关键词,然后构建词图G=(V,E),根据TextRank算法得到各分词的权重并进行排序,选TR值最高的Top-k个单词,作为候选关键词Tcontext,其中k为预设阈值。因此我们最终得到一个候选词组Tcand=Ttitle+Tcontext
虽然候选关键词在一定程度上能表示这本书的关键信息,但为了能更精准的提出这本书的有用信息,本发明通过计算候选关键词在书评文本中的出现词频进行排序来决定书籍tag。这个过程首先是将所有用户书评进行jieba分词得到书评词组词典,将每一个候选关键词在词典内进行词频计算,最后排序筛选出词频最高的m个词,如果词频有一样或相等的情况则再按TR值进行排序。因此最后作为tag的候选关键词的计算公式可以表示为:
tags=Maxcount=m(freq(Tcond)br) (1)
S313:构建完整特征组合空间
加入文本tags特征后,将TriadBBA的嵌入向量矩阵W0扩充为嵌入向量矩阵W'0;W0为高维稀疏输入特征向量即BBA(one-hot编码)转换为低维密集的嵌入向量的embedding矩阵。W'0为特征向量BBA特征组合分解后(加入图书tag后)的嵌入向量矩阵;此时特征组合二分类损失函数设置为:
Figure BDA0002757517930000081
其中,σ为sigmoid分类激活函数,
Figure BDA0002757517930000082
为预测值,y(i)为实际标签值。之后加入优化模型算法SGD,训练时各个参数的梯度设置为:
Figure BDA0002757517930000083
其中,
Figure BDA0002757517930000084
表示对预测值每一项求偏导,xi为输入的特征,w0为一次项权重参数,wi为交叉项权重系数,vi,n为交叉项隐藏量,n为输入的特征总数量。
S32:“用户-图书-活动”特征表示
由于本文是对单个书籍的购买率预测,因此本实施例将从“图书-用户”构建出的结构特征来对其使用向量表示。通常,一本图书的购买在一个营销活动期间某时刻内与特定用户有关,本实施例提出BBA2vec算法,将用户与图书通过时间与购买记录构造的特征空间进行向量表示,如图3所示。本实施例包括以下步骤:
S321:BBA2vec
在每一个营销活动期间的任意Δt时间段内,整个网络可以通过用户浏览书籍的时间先后所表示,营销活动则作为图节点走向的重要指标。将三部图BBA转化为图GBBA=(BΔt,E),由用户购买行为的图书商品序列所组成,其中
Figure BDA0002757517930000094
为任一图书节点,并且定义Nr(bo)∈BΔt为任一图书节点的邻域,该邻域是以r为随机游走路径长度的节点组成,邻域Nr(bo)内越近的图书节点间往往关系密切且拥有共同特征,因此它们可以互相提供上下文信息。
网络节点的边
Figure BDA0002757517930000093
不仅表示了图书间的关系,由于图是由用户购买序列所组成,因此用户间的关系以及营销活动活动也可以通过图书节点的边所联系。边的权值是根据用户节点与图书间停留时间tstay(b),点击次数Num(click(b))以及当前两个相邻节点是否处于同一个营销活动三个条件所决定。为了简化计算,预先定义一个步长为rstep的窗口,由定义3和定义4可将tstay(b),Num(click(b))边权值定义
Figure BDA0002757517930000091
为如下:
Figure BDA0002757517930000092
其中权值公式中分母为该步长窗口内用户图书关注度总和,s为当前步数,step为总的步数。
BBA2vec的游走方式不同于DeepWalk的随机游走,将设计一种用于GBBA网络的搜索偏置应用于随机游走中,最后通过skip-gram的学习方法得到购书用户目标向量。
S322:基于用户-图书的采样策略
在此步骤中本实施例设计一个应用于用户图书活动网络中随机游走的搜索偏置。书城平台的图书热度受用户关注度与活跃度和营销活动的激励影响,因此本文用书籍的活跃度决定搜索行走路径。转移概率为上节中的边权值与搜索偏差的乘积如下,其中o(boi-1,boi)见公式(7):
tr(bui,boi)=w(ai,boi,bui)*o(boi-1,boi) (5)
将转移概率归一化可以得到一个图书节点间的归一化转移概率:
Figure BDA0002757517930000101
其中o(bi-1,bi)为两个图书节点间的搜索偏差,受node2vec启发,结合定义5,两个节点间的时间相差越久则两个节点的关联性越小,因此定义图书动态衰减函数
Figure BDA0002757517930000102
其中
Figure BDA0002757517930000103
Figure BDA0002757517930000104
分别为购书用户对上一个图书节点的浏览时间、对当前图书节点的浏览时间,w为边权重w(ai,boi,bui)的简写;利用两个参数来引导控制搜索游走路径:
Figure BDA0002757517930000105
其中pop为图书热度,
Figure BDA0002757517930000106
为两节点间距离。整个学习过程可以看作是skip-gram方法,训练损失函数设置为:
Figure BDA0002757517930000107
其中,N(boi)为图书节点的领域F(boi)为图书节点的嵌入向量表示。
S33:模型算法设计
研究书城平台的点击转化率需要从大量的书城数据中尽可能的挖掘潜在信息。而DNN神经网络具有从交互特征挖掘隐藏信息的特性,将分解机训练得到的参数作为DNN神经网络的输入。因此模型的输入分为以下两部分:
1.权值参数矩阵Wt。权值参数将作为DNN的初始参数值进行分配。
2.用户图书活动完整特征空间作为DNN的输入得到交互项的输出,获取特征间的非线性组合关系。
DNN部分由于电商平台的数据样本不均衡,点击后未购买的数据量远大于点击后购买的数据量,这将会导致训练时损失函数会偏向样本多的一方,从而使模型造成过拟合,而将预测偏向样本数量多的一侧。因此为了防止这一问题,在DNN损失函数设置为带权重的均方误差Weighted MSE,并根据现有数据将正负样本设置比例为19:1,即负样本占总数据的19/20,正样本占总数据的1/20。因此损失函数可以重新定义为:
Figure BDA0002757517930000111
训练模型时采用联合训练的方式,分别对特征组合与表示学习部分的损失函数共同联合训练模型。最后,模型的整体损失函数可以定义为:
L=αLFM+βLvec+(1-α-β)LDNN (10)
其中α,β为平衡系数,系数通过实验确定α+β<0.5时,效果最好。同时通过在训练深度神经网络的同时使用dropout的方式,在每个训练批次epoch中,通过忽略一半的特征检测器来减少过拟合现象从而增强模型泛化能力。最后使用sigmoid激活函数对多层神经网络后的输出表示为二分类的概率值,因此结合特征组合与特征表示部分整个模型最后DNN部分可以表示为:
y=sigmoid(WL(...α(Wt(TraidBBA)+b1)...)+bL) (11)
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于特征组合与表示学习的点击转化率预测方法,其特征在于,具体包括以下步骤:
S1、获取书城电商平台销售数据和基础数据,包括用户数据和书籍数据;
S2、通过表示学习与特征组合的方法获取用户数据和书籍数据中的隐藏的属性特征;具体包括以下步骤:
S21、构建图书-用户-活动特征矩阵Triad=[boi,bui,ai];
S22、根据用户行为计算用户对图书的关注度,表示为Attentionub=tstay(boi)*Num(click(boi))*fav;
S23、根据营销活动内用户的参与行为构建营销活动影响因子,表示为
Figure FDA0003474861840000011
S24、根据书籍数据构建图书长文本内容集合,表示为TL={(bi,co,ti)|bi∈(Pb∪Lb)};
其中,boi为用户浏览的记录,bui表示参与活动的所有用户,ai表示一次营销活动;tstay(bo)表示用户在该图书间停留时间,Num(click(bo))表示用户对该图书的点击次数,fav表示用户对该图书的收藏标志,且当用户收藏该图书时,标志值为1,否则值为0.1;ci为营销活动序号,Num(history(ai))表示活动时间内参与活动的人数,T表示活动持续时间,Discount表示活动具体内容;boi表示图书节点;co表示图书简介内容;ti表示图书标题内容;Pb为浏览且购买图书,Lb为浏览未购买图书;
S3、通过与特征组合与表示学习的联合训练建立预测模型,即包括以下步骤:
S30、构建用户-图书-营销活动三部图网络,该三部图表示为:GBBA={Bu∪Bk∪A,MBB∪MBA},其中Bu,Bk,A分别表示购书用户,图书,营销活动;MBB为用户、图书之间的邻接矩阵,aij为矩阵MBB中的元素;如果用户Bui购买了图书Bki,aij=1则,否则,aij=0;MBA为图书、活动之间的邻接矩阵,bjk为矩阵MBA中的元素,如果活动Ai包含图书Boi,则bjk=1,否则bjk=0;
S31、用户-图书-营销活动特征组合进行特征组合以及特征分解后的再组合,获取图书的文本tag特征;即包括以下步骤:
S311、针对图书的标题文本以及简介文本TL进行jieba分词、词性标注和过滤停用词,得到标题的候选关键词Ttitle
S312、针对图书的简介文本,构建词图G=(V,E),计算每个分词的权重并进行排序,选择权重最大K个词作为候选关键词Tcontext,V表示词语节点,E表示词语间的边;
S313、以Tcand=Ttitle+Tcontext作为一本书籍的候选词组;
S314、将所有用户书评进行jieba分词得到书评词组词典,将每一个候选关键词在词典内进行词频计算,排序筛选出词频最高的m个词;
S315、计算候选关键词在书评文本中的出现词频进行排序获得图书的文本tag特征,该tag特征即为完整特征组合空间;图书的文本tag特征表示为:
tags=Maxcount=m(freq(Tcand)br);
其中,freq(Tcond)br为词频从高到低的词组列表;
S32、基于文本tag特征,将三部图用户-图书-营销活动TriadBBA的嵌入向量矩阵W0扩充为嵌入向量矩阵W′0,获取构建完整特征组合空间;
S33、基于BBA2vec算法将用户与图书通过时间与购买记录构造的特征空间进行向量表示;具体包括:
S331、将三部图用户-图书-营销活动转化为图GBBA=(BΔt,E),计算边权重w(ai,boi,bui),表示为
Figure FDA0003474861840000021
S332、利用边权重与两个图书节点之间的搜索偏差的乘积作为图书的活跃度转移概率,即图书的转移概率表示为:
Figure FDA0003474861840000031
其中,o(bx,bi)为游走搜索偏差,即图书的活跃度;p为返回概率;q为出入参数;pop(boi)为图书节点boi热度值;pop(box)为图书节点box热度值;decay(boi-1,boi)为图书热度动态衰减函数,表示为
Figure FDA0003474861840000032
Figure FDA0003474861840000033
Figure FDA0003474861840000034
分别为购书用户对上一个图书节点的浏览时间和对当前图书节点的浏览时间,w为边权重w(ai,boi,bui)的简写;
Figure FDA0003474861840000035
表示图书节点boi到图书节点box的距离;
S332、利用图书的转移概率决定搜索行走路径,并利用该路径作为用户-图书-活动的特征表示;
S34、将S32构建的完整特征组合空间特征表示作为DNN神经网络的输入,并改进DNN神经网络的损失函数,同时与BBA2vec算法的损失函数联合训练得到预测模型;预测模型的损失函数表示为:
L=αLFM+βLvec+(1-α-β)LDNN
其中,α、β为平衡系数;LFM为特征组合的损失函数;Lvec为表示学习的损失函数;LDNN为改进后的DNN神经网络的损失函数;
将获得的隐藏的属性特征作为输入,通过该模型得到点击转化率预测结果。
2.根据权利要求1所述的一种基于特征组合与表示学习的点击转化率预测方法,其特征在于,改进DNN神经网络的损失函数时,将DNN损失函数设置为带权重的均方误差,并根据现有数据将正负样本设置比例为20:1,改进后的DNN神经网络的损失函数表示为:
Figure FDA0003474861840000036
其中,LDNN为改进后的DNN神经网络的损失函数;y是指示变量,如果该类别和样本的类别相同就是1,否则是0;p(Y=0|X)为,p(Y=1|X)是网络输出属于标签的预测概率。
3.根据权利要求1所述的一种基于特征组合与表示学习的点击转化率预测方法,其特征在于,在训练预测模型过程中使用dropout的方式,在每个训练批次epoch中,通过忽略一半的特征检测器来减少过拟合现象,使用sigmoid激活函数对多层神经网络后的输出表示为二分类的概率值,因此结合结合特征组合与特征表示的预测模型表示为:
y=sigmoid(WL(...α(Wt(TraidBBA)+b1)...)+bL);
其中,Wt、WL为权值参数矩阵;b1、bL为训练偏置。
CN202011207345.6A 2020-11-03 2020-11-03 一种基于特征组合与表示学习的点击转化率预测方法 Active CN112270570B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011207345.6A CN112270570B (zh) 2020-11-03 2020-11-03 一种基于特征组合与表示学习的点击转化率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011207345.6A CN112270570B (zh) 2020-11-03 2020-11-03 一种基于特征组合与表示学习的点击转化率预测方法

Publications (2)

Publication Number Publication Date
CN112270570A CN112270570A (zh) 2021-01-26
CN112270570B true CN112270570B (zh) 2022-03-11

Family

ID=74345971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011207345.6A Active CN112270570B (zh) 2020-11-03 2020-11-03 一种基于特征组合与表示学习的点击转化率预测方法

Country Status (1)

Country Link
CN (1) CN112270570B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989196B (zh) * 2021-03-30 2024-04-19 北京工业大学 基于个性化召回算法lfm的图书推荐方法
CN115034803A (zh) * 2022-04-13 2022-09-09 北京京东尚科信息技术有限公司 新物品挖掘方法和装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034960A (zh) * 2018-07-12 2018-12-18 电子科技大学 一种基于用户节点嵌入的多属性推断的方法
US10482334B1 (en) * 2018-09-17 2019-11-19 Honda Motor Co., Ltd. Driver behavior recognition
CN110956497A (zh) * 2019-11-27 2020-04-03 桂林电子科技大学 一种电子商务平台用户重复购买行为预测方法
CN111222332A (zh) * 2020-01-06 2020-06-02 华南理工大学 一种结合注意力网络和用户情感的商品推荐方法
CN111382803A (zh) * 2020-03-18 2020-07-07 电子科技大学 一种基于深度学习的特征融合方法
CN111709518A (zh) * 2020-06-16 2020-09-25 重庆大学 一种基于社区感知和关系注意力的增强网络表示学习的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034960A (zh) * 2018-07-12 2018-12-18 电子科技大学 一种基于用户节点嵌入的多属性推断的方法
US10482334B1 (en) * 2018-09-17 2019-11-19 Honda Motor Co., Ltd. Driver behavior recognition
CN110956497A (zh) * 2019-11-27 2020-04-03 桂林电子科技大学 一种电子商务平台用户重复购买行为预测方法
CN111222332A (zh) * 2020-01-06 2020-06-02 华南理工大学 一种结合注意力网络和用户情感的商品推荐方法
CN111382803A (zh) * 2020-03-18 2020-07-07 电子科技大学 一种基于深度学习的特征融合方法
CN111709518A (zh) * 2020-06-16 2020-09-25 重庆大学 一种基于社区感知和关系注意力的增强网络表示学习的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Deep Fusion Feature Representation Learning With Hard Mining Center-Triplet Loss for Person Re-Identification;Cairong Zhao等;《IEEE TRANSACTIONS ON MULTIMEDIA》;20200206;第22卷(第12期);第3180-3195页 *
Rumor Diffusion Model Based on Representation Learning and Anti-Rumor;Yunpeng Xiao等;《IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》;20200512;第17卷(第3期);第1910-1923页 *
User Behavior Prediction of Social Hotspots Based on Multimessage Interaction and Neural Network;Yunpeng Xiao等;《IEEE TRANSACTIONS ON COMPUTATIONAL SOCIAL SYSTEMS》;20200217;第7卷(第2期);第536-545页 *
基于表示学习的领域实体消歧与链接预测;马晓军;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115(第01期);I138-5363 *

Also Published As

Publication number Publication date
CN112270570A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
Ray et al. An ensemble-based hotel recommender system using sentiment analysis and aspect categorization of hotel reviews
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
Pan et al. Study on convolutional neural network and its application in data mining and sales forecasting for E-commerce
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
US20220301024A1 (en) Sequential recommendation method based on long-term and short-term interests
Luo Analyzing the impact of social networks and social behavior on electronic business during COVID-19 pandemic
Ghasemi et al. Neural text similarity of user reviews for improving collaborative filtering recommender systems
Mitra et al. Helpfulness of online consumer reviews: A multi-perspective approach
CN107944913A (zh) 基于大数据用户行为分析的高潜在用户购买意向预测方法
Zhang et al. Forecasting sales using online review and search engine data: A method based on PCA–DSFOA–BPNN
CN106296312A (zh) 基于社交媒体的在线教育资源推荐系统
Islek et al. A hierarchical recommendation system for E-commerce using online user reviews
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
CN111309936A (zh) 一种电影用户画像的构建方法
CN104268292A (zh) 画像系统的标签词库更新方法
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
CN112270570B (zh) 一种基于特征组合与表示学习的点击转化率预测方法
CN109272390A (zh) 融合评分和标签信息的个性化推荐方法
Wang et al. Multitask feature learning approach for knowledge graph enhanced recommendations with RippleNet
Choudhary et al. SARWAS: Deep ensemble learning techniques for sentiment based recommendation system
Cai et al. Neighborhood-enhanced transfer learning for one-class collaborative filtering
Wang et al. Webpage depth viewability prediction using deep sequential neural networks
Lai et al. Rating prediction based on combination of review mining and user preference analysis
CN113222711A (zh) 一种商品信息推荐方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant