CN112612920A - 基于领域交互信息强度因子分解机的电影点击率预估方法 - Google Patents

基于领域交互信息强度因子分解机的电影点击率预估方法 Download PDF

Info

Publication number
CN112612920A
CN112612920A CN202011594092.2A CN202011594092A CN112612920A CN 112612920 A CN112612920 A CN 112612920A CN 202011594092 A CN202011594092 A CN 202011594092A CN 112612920 A CN112612920 A CN 112612920A
Authority
CN
China
Prior art keywords
data
domain
model
rate estimation
click rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011594092.2A
Other languages
English (en)
Inventor
梁子安
高俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011594092.2A priority Critical patent/CN112612920A/zh
Publication of CN112612920A publication Critical patent/CN112612920A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于领域交互信息强度因子分解机的电影点击率预估方法,包含:S1、选定数据集作为数据样本,对其进行预处理操作,将预处理后的数据样本划分为训练集和测试集;S2、对训练集的数据进行数据集成,得到低维稠密向量;S3、采用低维稠密向量训练基于领域交互信息强度因子分解机的电影点击率预估模型;S4、采用测试集和评价指标对步骤S3所得的电影点击率预估模型测试进行验证。其优点是:该方法考虑电影相关特征领域作为加权特征,以此综合考量不同域的特征之间的交互强度关系,以便于建模用户兴趣与电影特性间关联性;进一步的,该方法考虑领域之间的交互强度,并对领域间交互强度训练不同权重,以提升电影点击率预估模型的精确度。

Description

基于领域交互信息强度因子分解机的电影点击率预估方法
技术领域
本发明涉及推荐系统领域,具体涉及一种基于领域交互信息强度因子分解机的电影点击率预估方法,该方法基于领域信息解决输入数据稀疏问题以及特征交互问题。
背景技术
随着互联网的飞速发展,网络信息浩如烟海,对于用户而言,如何在以指数级增长的资源中快速、准确地定位到自己需要的内容是一件极具挑战性的事情。同时对于商家而言,如何在正确的时间点将恰当的信息呈现给用户对商家的经济发展起到了关键导向。针对信息过载问题,推荐系统应运而生,通过利用用户画像、物品信息以及用户的搜索、点击、收藏等行为数据,对不同用户进行个性化推荐。用户点击率预测研究是推荐系统中十分重要的组成模块,也是程序化广告交易框架中智慧核心组件,学习和预测用户的行为模式对个性化推荐系统、智能信息检索等领域都有着极其重要的意义。
点击率(Click through rate,简称CTR)预估是大数据技术应用的经典问题之一。点击率预估的一个重要应该就是把最合适的广告或推荐产品找出来呈现给用户。目前,在广告、金融等推荐领域中,通常用逻辑回归(Logistic regression,简称LR)模型对待推荐产品的点击率进行预估,将到用户输入的查询语句及获取的推荐实体的特征值,进行线性加权和非线性运算,即可确定待推荐实体的点击率。
但是点击率预估有三大痛点问题:一是离散特征的处理,二是包含大量高纬度稀疏特征,三是特征组合问题,但是传统线性模型难以处理以上问题。
发明内容
本发明的目的在于提供一种基于领域交互信息强度因子分解机的电影点击率预估方法,该方法考虑到现有模型参数量过多,综合考量领域信息的不均匀性,建立电影点击率预估模型捕获不同域的不同交互强度,并赋予相应权重,不仅能够解决特征组合问题,还能够处理高纬度稀疏特征问题,将会给点击率预估精度带来一定提升。
为了达到上述目的,本发明通过以下技术方案实现:
一种基于领域交互信息强度因子分解机的电影点击率预估方法,包含:
S1、选定数据集作为数据样本,对数据样本进行预处理操作,将预处理后的数据样本划分为训练集和测试集;
S2、对所述训练集的数据进行数据集成,得到低维稠密向量;
S3、采用所述低维稠密向量训练基于领域交互信息强度因子分解机的电影点击率预估模型;
S4、采用测试集和评价指标对步骤S3所得的电影点击率预估模型测试进行验证。
可选的,所述步骤S2具体为:
将训练集的数据通过模型嵌入层完成输入向量压缩至低维稠密向量;
所述模型嵌入层为全连接的神经网络,所述模型嵌入层用于将编码后的稀疏数据转并为指定低维度的稠密向量。
可选的,所述电影点击率预估模型包含FwFM模块和DNN模块,所述步骤S3具体包含:
将所述步骤S2所得的低维稠密向量输入到基于领域交互强度信息的因子分解机模型FwFM中进行低阶特征交互,并将其输出数据输入到Attention机制层进行加权处理,以获得FwFM模块的预测结果;
将所述步骤S2所得的低维稠密向量输入到深度神经网络DNN中进行高阶特征交互,得到DNN模块的预测结果;
将FwFM模块的预测结果和DNN模块的预测结果通过sigmoid函数激活得出电影点击率预估模型的预测结果,所述电影点击率预估模型的预测结果为:
Figure BDA0002869852940000021
其中,
Figure BDA0002869852940000022
表示电影点击率预估模型的预测结果,yFwFM表示FwFM模块的预测结果,yDNN表示DNN模块的预测结果。
可选的,所述Attention机制层的Attention机制计算方法为:
Figure BDA0002869852940000031
Figure BDA0002869852940000032
其中,aij为注意力值,hT为权重矩阵;W为Attention机制层初始权重;xi,xj分别表示第i列与第j列输入数据即特征分量;vi,vj分别表示xi,xj对应的隐向量,<vi,vj>表示隐向量的内积;F(i),F(j)分别表示特征分量i,特征分量j所属的领域,rF(i),F(j)为权重,其用于建模域F(i)与域F(j)之间的交互强度;b∈Rt,b为模型参数,R为实数集,t为模型隐含层数。
可选的,所述基于领域交互强度信息的因子分解机模型FwFM具体包含:
在FM算法的基础上加入领域信息的交互强度为参数,所述基于领域交互强度信息的因子分解机模型FwFM的公式为:
Figure BDA0002869852940000033
其中,w0为偏置项权重,w0∈R,
Figure BDA0002869852940000034
为线性组合部分,用于提取一阶特征以及领域信息的单独权重;
Figure BDA0002869852940000035
为交互部分,用于考量领域信息和特征信息之间的交互关系,w∈Rn为一次项系数,m为总特征维数。
可选的,所述评价指标包含:准确度、均方根误差以及Log-cosh损失函数;
和/或,所述准确度的计算方式为:
Figure BDA0002869852940000036
其中,accuracy为计算的准确度,P表示为实际正样本总量,正样本指用户点击并评级的数据样本,N表示为实际负样本总量,负样本指用户未点击数据样本,TP表示预测正确且预测值为正样本,TN表示预测正确且预测值为负样本;
和/或,所述均方根误差为预测数据和原始数据对应点误差的平方和的均值,所述均方根误差的计算公式为:
Figure BDA0002869852940000041
其中,MSE为计算的均方根误差,yi表示数据集的真实值:yi={y1,y2,…yn},
Figure BDA0002869852940000042
表示模型得到的预测结果:
Figure BDA0002869852940000043
和/或,所述Log-cosh损失函数为应用于回归任务中的损失函数,其符合下式:
Figure BDA0002869852940000044
其中,Log-cosh()为预测误差的双曲余弦的对数。
可选的,对数据样本进行预处理操作之前,对选定数据集中的数据进行整合,并进行缺省值查看,并将缺失值过多的数据样本整条删除。
可选的,采用isnull()函数进行缺省值查看。
可选的,对数据样本进行预处理操作具体包含:
将离散型数据转换为独热向量,所述独热向量中的独热编码采用0和1表示参数,使用N位状态寄存器对N个状态进行编码;
将连续型数据转化为序列长度一致的序列。
可选的,采用python中的sklearn库以及deepctr库中的feature_column方法对数据样本进行预处理。
本发明与现有技术相比具有以下优点:
本发明的基于领域交互信息强度因子分解机的电影点击率预估方法,以基于领域交互信息强度因子分解机的电影点击率预估模型为基础,考虑到不同领域的交互强度在电影点击率中的应用,该方法首先在数据预处理部分,将数据分成离散型与连续型,进而将离散型数据转换为数值型,再将连续型数据转化为序列长度一致的序列输入,将预处理后的数据通过模型嵌入层完成输入向量压缩至低维稠密向量,该低维稠密向量经电影点击率预估模型获得一个新向量。最后采用测试集和评价指标对训练所得的电影点击率预估模型测试进行验证,从而获得最终的训练或预测结果。该方法考虑电影相关特征领域作为加权特征,以此综合考量不同域的特征之间的交互强度关系,以便于建模用户兴趣与电影特性间关联性。
进一步的,该方法考虑并建模特征分量之间普遍存在的交互关系,综合考量特征之间的相互关系,以便于建模用户兴趣与电影特性间关联性。
进一步的,该方法考虑到不同领域之间的交互强度往往不同,因此根据不同领域下特征间的交互强度处理数据,以提升点击率预估模型精确度。
进一步的,该方法考虑到现有模型参数量过多,综合考量领域信息的不均匀性,建立电影点击率预估模型捕获不同域的不同交互强度,并赋予相应权重,不仅能够解决特征组合问题,还能够处理高纬度稀疏特征问题,将会给点击率预估精度带来一定提升。
附图说明
图1为本发明的一种基于领域交互信息强度因子分解机的电影点击率预估方法示意图;
图2为本发明的模型嵌入层表示方式说明图;
图3为本发明中采用低维稠密向量训练电影点击率预估模型示意图;
图4为本发明中FwFM模块训练示意图。
具体实施方式
以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
如图1所示,为本发明的一种基于领域交互信息强度因子分解机的电影点击率预估方法,其可处理Movielens公开数据集数据,根据本发明建模用户特征信息、电影类别特征等信息,并基于领域交互信息考虑特征与特征之间的交互,进而进行点击率的预估。
具体的,该模型的建立方法包含:S1、选定数据集作为数据样本,对数据样本进行预处理操作,将预处理后的数据样本划分为训练集和测试集。
具体地,在本实施例中,选择Movielens-1M数据集作为数据样本。对数据样本进行预处理操作之前,对选定数据集中的数据进行整合,并利用isnull()函数查看是否存在缺失值,并将缺失值过多的数据样本整条删除,以免造成预测偏差。再将上述数据处理为符合模型输入格式的数据,在此过程中完成数据样本的预处理。
示例地,对选定数据集中的数据进行整合可具体为:原数据文件目录如表1所示,具体实施时包括:
表1
文件名 数据类别
user.data user_id,gender,age,occuptation
ratings.dat user_id,name_id,rating,timestamp
movies.dat movie_id,title,genres
将多个数据文件整合到一起,格式如表2下:
表2
Figure BDA0002869852940000061
进一步的,预处理操作具体包含:将数据样本中的离散型数据转换为独热向量,将数据样本中的连续型数据转化为序列长度一致的序列,以此得到整体预处理后的数据集,该数据集符合电影点击率预估模型的输入格式。其中,所述独热向量中的独热编码采用0和1表示参数,使用N位状态寄存器对N个状态进行编码。
在本实施例中,采用python中的sklearn库以及deepctr库中的feature_column方法对数据样本进行预处理。当然预处理所采用的方法不仅限于上述,其还可以为其他可实现预处理目的的方法。
在本实施例中,将预处理过的数据样本中80%的数据作为训练集进行模型参数的训练,20%的数据作为测试集,对模型的预测结果进行评估。
S2、对所述训练集的数据进行数据集成,得到低维稠密向量。
进一步的,所述步骤S2具体为:将训练集的数据通过模型嵌入层完成输入向量压缩至低维稠密向量。其中,如图2所示,所述模型嵌入层为全连接的神经网络,所述模型嵌入层用于将编码后的稀疏数据转并为指定低维度的稠密向量。所述低维稠密向量可表示为:a(0)=[e1,e2...,em-1,em]。在本实施例中,所述低维稠密向量的维度为4维,即m=4。
S3、采用所述低维稠密向量训练基于领域交互信息强度因子分解机的电影点击率预估模型。
本发明的电影点击率预估模型(DeepFwFM),是一种深宽度预测模型,该模型有两部分并行处理,其包含FwFM模块和DNN模块,两部分共享同样的输入数据。
如图3所示,具体地,所述步骤S3具体包含:
在FwFM模块中,将所述步骤S2所得的低维稠密向量输入到基于领域交互强度信息的因子分解机模型FwFM中(即模型特征交互层)进行低阶特征交互,并将其输出数据输入到Attention机制(注意力机制)层进行加权处理,以获得FwFM模块的预测结果。(请详见图4)
与普通的特征组合模型相比,本发明的电影点击率预估模型加入了自注意力机制以及领域信息间交互强度的学习,能够显著提高点击率预估的准确度。
其中,所述Attention机制层的机制为:加入Attention机制层的模型能够学习用户历史倾向偏好对用户当前行为的影响程度。例如用户在前一时间段内浏览过家具和衣服,现在给用户呈现的桌子广告将受用户之前浏览的家具行为影响较大,受用户浏览的衣服行为影响较小。
注意力部分的实现,利用乘性注意力机制,通过学习用户历史偏好情况学习得到权重矩阵hT,W表示注意力机制模型初始权重,aij表示注意力值,可解释为后面所乘项对目标预测值的影响程度,并利用Relu函数进行激活,再对所得注意力值使用softmax函数进行归一化。
对于预测目标的重要程度,所述Attention机制层的Attention机制计算方法为:
Figure BDA0002869852940000071
Figure BDA0002869852940000072
其中,aij表示最终的注意力值,可以解释为特征分量i和特征分量j之间交互权重Wij;a′ij表示特征分量经过注意力网络激活函数(Relu函数)后的激活值;hT为权重矩阵;W为Attention机制层初始权重;xi,xj分别表示第i列与第j列输入数据即特征分量;vi,vj分别表示xi,xj对应的隐向量,<vi,vj>表示隐向量的内积;F(i),F(j)分别表示特征分量i,特征分量j所属的领域,rF(i),F(j)为权重,其用于建模域F(i)与域F(j)之间的交互强度;b∈Rt,b为模型参数,b为t维实数集,R为实数集,t为模型隐含层数。
进一步的,所述基于领域交互强度信息的因子分解机模型FwFM具体为:在传统的FM算法的基础上考虑不同域之间的交互强度关系,对不同域之间的交互强度赋予一个统一的权重,以减少参数量。所述基于领域交互强度信息的因子分解机模型FwFM在传统的FM算法的基础上加入领域信息的交互强度为参数,所述基于领域交互强度信息的因子分解机模型FwFM的公式为:
Figure BDA0002869852940000081
其中,w0为偏置项权重,w0∈R,
Figure BDA0002869852940000082
为线性组合部分,用于提取一阶特征以及领域信息的单独权重;
Figure BDA0002869852940000083
为交互部分,用于考量领域信息和特征信息之间的交互关系,w∈Rn为一次项系数,m为总特征维数。
同时,在DNN模块中,将所述步骤S2所得的低维稠密向量输入到深度神经网络DNN中,利用前馈神经网络即深度神经网络DNN进行高阶特征交互,得到DNN模块的预测结果。
在本实施例中,所述深度神经网络DNN的深度为两层,每层的神经元个数分别为128和128,在每层全连接层我们选用Relu激活函数。深度神经网络DNN的输出向量长度为其最后一层神经元的个数,在本实施例中,所最后一层神经元的个数为128。
将FwFM模块的预测结果和DNN模块的预测结果通过sigmoid函数激活得出电影点击率预估模型的预测结果,具体地,将FwFM模块的预测结果和DNN模块的预测结果拼接形成新的向量,再经由激活函数sigmoid进行处理作为该模型最终的预测结果。所述电影点击率预估模型的预测结果为:
Figure BDA0002869852940000084
其中,
Figure BDA0002869852940000085
表示电影点击率预估模型的预测结果,yFwFM表示FwFM模块的预测结果,yDNN表示DNN模块的预测结果,sigmoid函数为现有函数。
S4、采用测试集和评价指标对步骤S3训练所得的电影点击率预估模型测试进行验证。
所述评价指标包含:准确度(Accuracy)、均方根误差(MSE)以及Log-cosh损失函数,采用上述指标来衡量模型的优劣。
其中,所述准确度的计算方式为:
Figure BDA0002869852940000091
其中,accuracy为计算的准确度,P表示为实际正样本总量,正样本指用户点击并评级的数据样本,N表示为实际负样本总量,负样本指用户未点击数据样本,TP表示预测正确且预测值为正样本,TN表示预测正确且预测值为负样本。
所述均方根误差为预测数据和原始数据对应点误差的平方和的均值,所述均方根误差的计算公式为:
Figure BDA0002869852940000092
其中,MSE为计算的均方根误差,yi表示数据集的真实值:yi={y1,y2,…yn},
Figure BDA0002869852940000093
表示该模型得到的预测结果:
Figure BDA0002869852940000094
所述Log-cosh损失函数为应用于回归任务中的损失函数,它比现有的L2回归损失函数更平滑,其符合下式:
Figure BDA0002869852940000095
其中,Log-cosh()为预测误差的双曲余弦的对数。
综上所述,本发明的一种基于领域交互信息强度因子分解机的电影点击率预估方法,以基于领域交互信息强度因子分解机的电影点击率预估模型为基础,考虑到不同领域的交互强度在电影点击率中的应用,该方法首先在数据预处理部分,将数据分成离散型与连续型,进而将离散型数据转换为数值型,再将连续型数据转化为序列长度一致的序列输入,将预处理后的数据通过模型嵌入层完成输入向量压缩至低维稠密向量,该低维稠密向量经电影点击率预估模型获得一个新向量。最后采用测试集和评价指标对训练所得的电影点击率预估模型测试进行验证,从而获得最终的训练或预测结果。该方法考虑电影相关特征领域作为加权特征,以此综合考量不同域的特征之间的交互强度关系,以便于建模用户兴趣与电影特性间关联性。
进一步的,该方法考虑领域之间的交互强度,并对领域间交互强度训练不同权重,表示领域间交互的强弱,以提升电影点击率预估模型的精确度。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (10)

1.一种基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,包含:
S1、选定数据集作为数据样本,对数据样本进行预处理操作,将预处理后的数据样本划分为训练集和测试集;
S2、对所述训练集的数据进行数据集成,得到低维稠密向量;
S3、采用所述低维稠密向量训练基于领域交互信息强度因子分解机的电影点击率预估模型;
S4、采用测试集和评价指标对步骤S3所得的电影点击率预估模型测试进行验证。
2.如权利要求1所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,所述步骤S2具体为:
将训练集的数据通过模型嵌入层完成输入向量压缩至低维稠密向量;
所述模型嵌入层为全连接的神经网络,所述模型嵌入层用于将编码后的稀疏数据转并为指定低维度的稠密向量。
3.如权利要求1所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,所述电影点击率预估模型包含FwFM模块和DNN模块,所述步骤S3具体包含:
将所述步骤S2所得的低维稠密向量输入到基于领域交互强度信息的因子分解机模型FwFM中进行低阶特征交互,并将其输出数据输入到Attention机制层进行加权处理,以获得FwFM模块的预测结果;
将所述步骤S2所得的低维稠密向量输入到深度神经网络DNN中进行高阶特征交互,得到DNN模块的预测结果;
将FwFM模块的预测结果和DNN模块的预测结果通过sigmoid函数激活得出电影点击率预估模型的预测结果,所述电影点击率预估模型的预测结果为:
Figure FDA0002869852930000011
其中,
Figure FDA0002869852930000012
表示电影点击率预估模型的预测结果,yFwFM表示FwFM模块的预测结果,yDNN表示DNN模块的预测结果。
4.如权利要求3所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,所述Attention机制层的Attention机制计算方法为:
Figure FDA0002869852930000021
Figure FDA0002869852930000022
其中,aij为注意力值,hT为权重矩阵;W为Attention机制层初始权重;xi,xj分别表示第i列与第j列输入数据即特征分量;vi,vj分别表示xi,xj对应的隐向量,<vi,vj>表示隐向量的内积;F(i),F(j)分别表示特征分量i,特征分量j所属的领域,rF(i),F(j)为权重,其用于建模域F(i)与域F(j)之间的交互强度;b∈Rt,b为模型参数,R为实数集,t为模型隐含层数。
5.如权利要求3或4所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,所述基于领域交互强度信息的因子分解机模型FwFM具体包含:
在FM算法的基础上加入领域信息的交互强度为参数,所述基于领域交互强度信息的因子分解机模型FwFM的公式为:
Figure FDA0002869852930000023
其中,w0为偏置项权重,w0∈R,
Figure FDA0002869852930000024
为线性组合部分,用于提取一阶特征以及领域信息的单独权重;
Figure FDA0002869852930000025
为交互部分,用于考量领域信息和特征信息之间的交互关系,w∈Rn为一次项系数,m为总特征维数。
6.如权利要求1所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,所述评价指标包含:准确度、均方根误差以及Log-cosh损失函数;
和/或,所述准确度的计算方式为:
Figure FDA0002869852930000026
其中,accuracy为计算的准确度,P表示为实际正样本总量,正样本指用户点击并评级的数据样本,N表示为实际负样本总量,负样本指用户未点击数据样本,TP表示预测正确且预测值为正样本,TN表示预测正确且预测值为负样本;
和/或,所述均方根误差为预测数据和原始数据对应点误差的平方和的均值,所述均方根误差的计算公式为:
Figure FDA0002869852930000031
其中,MSE为计算的均方根误差,yi表示数据集的真实值:yi={y1,y2,…yn},
Figure FDA0002869852930000032
表示模型得到的预测结果:
Figure FDA0002869852930000033
和/或,所述Log-cosh损失函数为应用于回归任务中的损失函数,其符合下式:
Figure FDA0002869852930000034
其中,Log-cosh()为预测误差的双曲余弦的对数。
7.如权利要求1所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,
对数据样本进行预处理操作之前,对选定数据集中的数据进行整合,并进行缺省值查看,并将缺失值过多的数据样本整条删除。
8.如权利要求7所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,
采用isnull()函数进行缺省值查看。
9.如权利要求1所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,对数据样本进行预处理操作具体包含:
将离散型数据转换为独热向量,所述独热向量中的独热编码采用0和1表示参数,使用N位状态寄存器对N个状态进行编码;
将连续型数据转化为序列长度一致的序列。
10.如权利要求1或9所述的基于领域交互信息强度因子分解机的电影点击率预估方法,其特征在于,
采用python中的sklearn库以及deepctr库中的feature_column方法对数据样本进行预处理。
CN202011594092.2A 2020-12-29 2020-12-29 基于领域交互信息强度因子分解机的电影点击率预估方法 Withdrawn CN112612920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011594092.2A CN112612920A (zh) 2020-12-29 2020-12-29 基于领域交互信息强度因子分解机的电影点击率预估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011594092.2A CN112612920A (zh) 2020-12-29 2020-12-29 基于领域交互信息强度因子分解机的电影点击率预估方法

Publications (1)

Publication Number Publication Date
CN112612920A true CN112612920A (zh) 2021-04-06

Family

ID=75248891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011594092.2A Withdrawn CN112612920A (zh) 2020-12-29 2020-12-29 基于领域交互信息强度因子分解机的电影点击率预估方法

Country Status (1)

Country Link
CN (1) CN112612920A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358813A (zh) * 2021-11-29 2022-04-15 重庆邮电大学 一种基于场矩阵因子分解机改进的广告投放方法及系统
CN114707488A (zh) * 2022-02-25 2022-07-05 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
US11651380B1 (en) * 2022-03-30 2023-05-16 Intuit Inc. Real-time propensity prediction using an ensemble of long-term and short-term user behavior models

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358813A (zh) * 2021-11-29 2022-04-15 重庆邮电大学 一种基于场矩阵因子分解机改进的广告投放方法及系统
CN114358813B (zh) * 2021-11-29 2024-05-28 重庆邮电大学 一种基于场矩阵因子分解机改进的广告投放方法及系统
CN114707488A (zh) * 2022-02-25 2022-07-05 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN114707488B (zh) * 2022-02-25 2024-02-09 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质
US11651380B1 (en) * 2022-03-30 2023-05-16 Intuit Inc. Real-time propensity prediction using an ensemble of long-term and short-term user behavior models

Similar Documents

Publication Publication Date Title
CN113626719B (zh) 信息推荐方法、装置、设备、存储介质及计算机程序产品
CN112612920A (zh) 基于领域交互信息强度因子分解机的电影点击率预估方法
CN111209386B (zh) 一种基于深度学习的个性化文本推荐方法
CN111061962B (zh) 一种基于用户评分分析的推荐方法
CN110781409B (zh) 一种基于协同过滤的物品推荐方法
CN110232480A (zh) 利用变分的正则化流实现的项目推荐方法及模型训练方法
CN113590970B (zh) 一种基于读者偏好的个性化数字图书推荐系统、方法、计算机及存储介质
Sun et al. Self-attention network for session-based recommendation with streaming data input
CN116541607B (zh) 基于商品检索数据分析的智能推荐方法
CN112258262A (zh) 一种基于卷积自注意力网络的会话推荐方法
CN111695024A (zh) 对象评估值的预测方法及系统、推荐方法及系统
CN114861050A (zh) 一种基于神经网络的特征融合推荐方法及系统
Pujahari et al. Model-based collaborative filtering for recommender systems: An empirical survey
CN115048855A (zh) 点击率预测模型及其训练方法与应用装置
CN113190751A (zh) 一种融合关键词生成的推荐算法
CN116680363A (zh) 一种基于多模态评论数据的情感分析方法
CN116228368A (zh) 一种基于深度多行为网络的广告点击率预测方法
Yengikand et al. DHSIRS: a novel deep hybrid side information-based recommender system
Sumathi et al. Automatic Recommendation of Web Pages in Web Usage Mining C
CN114780862B (zh) 一种用户兴趣向量提取方法、提取模型及计算机系统
Rawat et al. Advancement of recommender system based on clickstream data using gradient boosting and random forest classifiers
Liu et al. Sequential behavior modeling for next micro-video recommendation with collaborative transformer
CN115687757A (zh) 融合层次注意与特征交互的推荐方法及其应用系统
CN116257798A (zh) 点击率预测模型的训练、点击率预测方法、系统与设备
CN115310004A (zh) 融合项目时序关系的图神经协同过滤推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210406

WW01 Invention patent application withdrawn after publication