CN110309195B - 一种基于fwdl模型的内容推荐方法 - Google Patents
一种基于fwdl模型的内容推荐方法 Download PDFInfo
- Publication number
- CN110309195B CN110309195B CN201910387491.2A CN201910387491A CN110309195B CN 110309195 B CN110309195 B CN 110309195B CN 201910387491 A CN201910387491 A CN 201910387491A CN 110309195 B CN110309195 B CN 110309195B
- Authority
- CN
- China
- Prior art keywords
- model
- frequent item
- layer
- submodel
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 48
- 238000007477 logistic regression Methods 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000000280 densification Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007087 memory ability Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于FWDL模型的内容推荐方法,综合了WDL模型的“记忆与泛化”优势,及增量式频繁模式挖掘算法EFUFP的特征挖掘能力,在优化推荐系统性能的同时,极大地减少了特征工程的工作,可自动、高效地提取频繁项及关系特征,进行关系挖掘,提供更精确的内容推荐结果。
Description
技术领域
本发明属于数据信息推荐方法技术领域,具体涉及一种基于FWDL模型的内容推荐方法。
背景技术
随着大数据时代信息技术的迅猛发展,信息过载问题比较严重,用户获取所需信息的难度及耗费的时间增加。因此,如何从海量数据中快速准确地准确寻找满足用户需求的信息便是一件极富挑战性的任务。
为了解决信息爆炸引起的诸多问题,推荐系统应运而生。推荐系统利用用户的历史行为数据,建立人与人、人与动物的连接,生成用户个人画像及模型,从而为用户提供个性化信息。个性化推荐系统不仅能根据不同用户的行为及兴趣提供对应的商品或信息,还可以挖掘用户的潜在兴趣,更富新颖性。推荐算法常借鉴机器学习、深度学习领域的方法,获得快速发展,同时也促进了其他领域的发展。目前推荐算法有如下几个方向:基于协同过滤的方式、基于内容的方式以及混合方式。基于内容的推荐充分利用用户本身的信息或项目本身信息来进行推荐。协同过滤的方法则是利用用户的行为信息或偏好信息产生推荐结果,而不是用户或项目的本身内容信息,混合推荐的方法综合了局域内容的推荐意见协同过滤各自的优点,给出了更精确的推荐结果。
推荐系统存在几个待解决的问题,目前并没有很理想的通用解决方案,现有的几个问题分别是:冷启动问题、探索与利用问题和安全问题。其中,探索与利用问题直接关乎推荐结果的好坏,已成为提高推荐系统性能的关键;而深度学习技术在特征学习方面表现出强大的能力,可以帮助推荐系统提高性能,满足用户的需求。故对基于深度学习技术的推荐算法的研究,具有重要的意义。
一个典型的推荐系统包含召回和排序两个模块,其中召回阶段通常是利用机器学习及人工规则从数据库中获取最可能的候选集,排序阶段利用机器学习或深度学习技术将候选集按照匹配度从高到底进行排序;WDL算法常被用于排序阶段,推荐系统需要具备两项基本能力:记忆能力和泛化能力。记忆能力是指从已有的历史数据中学习到频繁共现的特征,以此保证推荐结果的相关性,在线性模型中,通常采用特征交叉等方式,来获取对这类特征的记忆;泛化能力是指通过相似度的传递,挖掘出新的未出现过的特征联系,从而让推荐具备泛化性和新颖性。通常运用嵌入技术模型来挖掘特征间潜在的关联,如FM和DNN。
原WDL算法中有如下缺点:
(1)需要大量人工参与的特征工程工作;
(2)可能出现过拟合的问题。因为特征交叉几乎记住每个训练样本,极端情况下出现最细粒度的交叉。
发明内容
针对现有技术中的上述不足,本发明提供的基于FWDL模型的内容推荐方法解决了现有的推荐方法对低阶或高阶特征交互的处理效果不好,严重依赖于专业知识,需要大量人工参与特征工程工作的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于FWDL模型的内容推荐方法,包括以下步骤:
S1、收集用户信息及其历史操作数据,将其作为原始数据;
S2、将原始数据进行预处理后,得到训练数据并将其输入到FWDL模型中,并对其进行训练;
S3、根据推荐系统中数据库内存储的实时用户操作数据,通过训练好的FWDL模型对其进行处理,得到内容推荐结果。
进一步地,所述步骤S2中FWDL模型包括依次连接的输入层、WDL模型层和输出层;
所述输入层用于对输入的训练数据进行处理,得到输入到WDL模型层的数据;
所述WDL模型层包括Wide侧的LR子模型和Deep侧的DNN子模型,用于对输入的训练数据处理得到两个候选内容推荐结果;
所述输出层包括一个逻辑回归函数,用于对WDL模型层输出的两个候选内容推荐结果进行处理,得到最终的内容推荐结果。
进一步地,所述输入层对训练数据进行处理的方法具体为:
A1、将训练数据分为连续特征和离散特征;
A2、对连续特征采用极差标准化的方式进行归一化处理,得到对应的频繁项数据;
A3、通过Embedding操作将稀疏高维的离散特征转换为稠密低维的嵌入向量;
同时,将离散特征经过EFUFP算法处理后挖掘出对应的频繁项数据;
A4、将连续特征对应的频繁项数据和离散特征对应的频繁项数据合并为频繁项集;
A5、对频繁项集做one-hot处理,得到频繁项关系特征;
A6、将频繁项关系特征作为Wide侧的LR子模型的输入数据;
将频繁项关系特征和嵌入向量作为Deep侧的DNN子模型的输入数据,完成对训练数据的处理。
进一步地,所述步骤A6中频繁项关系特征包括稀疏特征、频繁项特征、取值范围大于设定阈值或未知取值范围的特征列和数值型特征;
根据频繁项关系特征的特征类型,对其进行处理后再输入到Wide侧的LR子模型中:
所述处理方法具体为:
对稀疏特征及频繁项特征进行稠密化处理;
对取值范围大于设定阈值或未知取值范围的特征列进行哈希处理;
对数值型特征指明其类型。
进一步地,所述Wide侧的LR子模型为:
式中,p(y|x)为输出的预测值为y对输入特征x的条件概率;
y为LR子模型输出的预测值;
x为LR子模型的输入特征;
w为LR子模型的权重;
b为LR子模型的偏置;
所述Deep侧的DNN子模型采用嵌入层和全连接层的方式构建,所述全连接层中的激活函数为ReLU函数;
所述Deep侧的DNN子模型为:
Sl+1=f(wlsl+bl)
式中,Sl+1为DNN中,第l+1层的输出结果;
wl为DNN子模型中第l隐层的权重;
sl为DNN子模型中第l隐层的变量;
bl为DNN子模型中第l隐层的偏置;
f(·)为激活函数σ。
进一步地,所述步骤S2中对FWDL模型的训练包括对WDL模型层中的Wide侧的LR子模型及Deep侧的DNN子模型同时单独训练和对逻辑回归函数联合训练。
进一步地,所述Wide侧的LR子模型通过FTRL算法和L1正则化进行单独训练;
所述Deep层的DNN子模型通过AdaGrad优化器进行单独训练;
所述逻辑回归函数通过Adam优化器进行联合训练,并采用交叉熵作为损失函数。
进一步地,所述逻辑回归函数为:
式中,P(y=1|x)为FWDL模型的最终预测结果;
b为逻辑回归函数的偏置;
σ(·)为激活函数;
[x,φ(x)]为联结的特征集合,x为输入特征,φ(x)为转换后的特征。
本发明的有益效果为:
(1)通过EFUFP算法进行自动化频繁项集挖掘,获取结构特征,极大地减少了人工特征工程;
(2)将频繁交叉特征同时作为Wide侧和Deep侧模型的输入特征,在保证准确性的同时提高了泛化的能力;
(3)在进行嵌入操作时,多个相关联的field共享同一个Embedding矩阵,不仅减少了参数个数,提高计算速度,同时防止过拟合,使得每个field能够获得更多的训练机会,有利于参数调优。
附图说明
图1为本发明提供的基于FWDL模型的内容推荐方法流程图。
图2为本发明中的输入层对训练数据进行处理时的方法流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于FWDL模型的内容推荐方法,包括以下步骤:
S1、收集用户信息及其历史操作数据,将其作为原始数据;
S2、将原始数据进行预处理后,得到训练数据并将其输入到FWDL模型中,并对其进行训练;
其中,预处理包括缺失值处理和过滤异常样本;
S3、根据推荐系统中数据库内存储的实时用户操作数据,通过训练好的FWDL模型对其进行处理,得到内容推荐结果。
上述步骤S2中FWDL模型包括依次连接的输入层、WDL模型层和输出层;
所述输入层用于对输入的训练数据进行处理,得到输入到WDL模型层的数据;
所述WDL模型层包括Wide侧的LR子模型和Deep侧的DNN子模型,用于对输入的训练数据处理得到两个候选内容推荐结果;
所述输出层包括一个逻辑回归函数,用于对WDL模型层输出的两个候选内容推荐结果进行处理,得到最终的内容推荐结果。
其中,如图2所示,输入层对训练数据进行处理的方法具体为:
A1、将训练数据分为连续特征和离散特征;
A2、对连续特征采用极差标准化的方式进行归一化处理,得到对应的频繁项数据;其中有些特征需要进行分箱操作将其转化为离散特征,年龄特征数据,可以对其进行分段处理;
A3、通过Embedding操作将稀疏高维的离散特征转换为稠密低维的嵌入向量;与原始连续特征、频繁项特征融合,作为DNN的输入特征,对其进行训练;
同时,将离散特征经过EFUFP算法处理后挖掘出对应的频繁项数据;
A4、将连续特征对应的频繁项数据和离散特征对应的频繁项数据合并为频繁项集;
A5、对频繁项集做one-hot处理,得到频繁项关系特征;
A6、将频繁项关系特征作为Wide侧的LR子模型的输入数据;
将频繁项关系特征和嵌入向量作为Deep侧的DNN子模型的输入数据,完成对训练数据的处理。
在步骤A3中,嵌入向量的值随机初始化,并且与其他模型参数一起进行训练,以此来尽可能地减少损失。针对只有少数取值的类别特征,通过“多重表示”来处理,如会员级别,“非会员”可以表示为[0,0,1],“普通会员”可以被表示为[0,1,0],“高级会员”可以被表示为[1,0,0];诸如此类作为一个固定的组合特征表示,使得嵌入更加灵活,并且可以在训练时计算。本发明中通过Tensorflow实现该过程,通过indicator_column()来创建部分类别特征列的多重表示,通过embedding_column(categorical_feature,dimension)配置分类特征列的嵌入,同时将它们与连续列特征连接。其中dimension嵌入地越高,该模型被允许学习到的特征表示就具有越高的自由度。基于三个数据集上的实验,认为维数的值在log2(n)或k/sqrt(4n)时效果较好,其中n是类别特征列中特征值的种类数,通常为一个小于10的常数;通过Embedding,Deep侧深层模型能够进行有效地泛化,学习到未出现过的特征组合。
另外,在本发明中的,对部分Embedding Columns做了共享,如描述用户“近10天点击查看文章”、“近10天对文章点赞”、“近10天对文章表示不满意”的三个field,其中物品来自同一个物品字典,若每个field单独训练一个Embedding,会出现两个问题:一是每个Embedding矩阵都是一个稠密矩阵,这样需要学习的参数会增加到原来的3倍,占据大量内存空间,并且过多的参数容易导致过拟合;二是三个field的稀疏程度一般不同,通常“点击”操作比“点赞”、“踩”操作出现的次数多很多,于是同一个物品,其“点击”相关的向量会得到比较多的训练机会,而“点赞”、“踩”相关的向量的训练机会可能很少,从而导致结果与最初随机初始化的结果差异不大。因此,多个相关联的field共享同一个Embedding矩阵,不仅减少了需要优化的参数个数,提高计算速度,同时也防止过拟合,使得每个field能够获得更多的训练机会,有利于参数的调优。
将离散特征经过EFUFP算法处理过程为:
生成初始EFUFP-TREE、HeaderTable以及频繁度F;根据新增数据(进行模型训练时输入的新的训练数据)进行对应的更新,计算新增数据集中每个元素的频繁度、并对EFUFP-TREE、HeaderTable以及频繁度F进行更新;根据更新的EFUFP-TREE进行频繁项挖掘,获得频繁项数据。如若得到{r,s,t}是一个频繁项,则将其作为一列,当用户的历史记录中满足此频繁项时值为1,否则为0。
在上述步骤A6频繁项关系特征包括稀疏特征、频繁项特征、取值范围大于设定阈值或未知取值范围的特征列和数值型特征;
根据频繁项关系特征的特征类型,对其进行处理后再输入到Wide侧的LR子模型中:
所述处理方法具体为:
对稀疏特征及频繁项特征进行稠密化处理;
对取值范围大于设定阈值或未知取值范围的特征列进行哈希处理;
对数值型特征指明其类型。
在本发明中的特征工程方面,对于离散特征,针对具体情况使用不同编码方式,有归一化编码、哈希编码及嵌入操作,根据所期望的特征空间的大小进行选择;归一化编码处理后的特征空间较大,哈希编码的方式占据特征空间较小。嵌入操作的关键是把原始的类别数值映射到一个权值矩阵,若是可以训练的,将这个权值矩阵作为网络权值矩阵进行训练,运用时将其作为一个嵌入特征表,按照id取每个特征被嵌入处理后的数值。针对连续特征,首先对其缺失值和离群值进行处理,若缺失值攫夺,可以考虑放弃其作为可用特征,若放弃则要对缺失值进行填充或当作零值。对于离群值,根据数值范围作相应处理,若数值范围偏大则对其取对数操作进行缩放,若数值范围偏小则对其取平方操作进行拉伸,或者进行分箱操作转化为类别特征,如将年龄做分段处理等。对于矩阵中存在大量空值元素的类别特征,采用spare Tensor数据类型来进行处理,针对矩阵中存在大量空值的类别特征做sparse Tensor的处理,这样可以大大减少矩阵所占用的空间。
本发明中,WDL模型层中的Wide侧采用LR子模型,获取经过one-hot编码处理的离散型变量、进过映射到实数值后分段离散化的连续型变量、以及频繁项处理后的组合编码,将这些作为LR子模型的输入,通过_linear_logit_fn_builder()来构建LR子模型,LR子模型为:
式中,p(y|x)为输出的预测值为y对输入特征x的条件概率,即基于输入x的预测结果;
y为LR子模型输出的预测值;
x为LR子模型的输入特征;
w为LR子模型的权重;
b为LR子模型的偏置;
Deep侧采用嵌入层和全连接层的方式构建DNN子,在嵌入层得到低维稠密的特征向量,神经元的激活函数是恒等函数,即只进行线性变换,在全连接层,将ReLU作为激活函数,构建前馈神经网络,该DNN子模型通过_dnn_logit_fn_builder()来构建为:
Sl+1=f(wlsl+bl)
式中,Sl+1为DNN中,第l+1层的输出结果;
wl为DNN子模型中第l隐层的权重;
sl为DNN子模型中第l隐层的变量;
bl为DNN子模型中第l隐层的偏置;
f(·)为激活函数σ。
上述步骤S2中对FWDL模型的训练包括对WDL模型层中的Wide侧的LR子模型及Deep侧的DNN子模型同时单独训练和对逻辑回归函数联合训练。
其中,Wide侧的LR子模型通过FTRL算法和L1正则化进行训练,能够很快收敛到有效的特征组合中;Deep层的DNN子模型通过AdaGrad优化器进行训练,通过反向传播调整隐藏层的权重,同时更新Embedding向量;在训练过程中同时优化Wide层模型和Deep侧模型的参数,从而使整体模型的推荐效果最优;
逻辑回归函数通过Adam优化器进行联合训练,并采用交叉熵作为损失函数。采用联合训练时,在训练的同时优化各个模型的参数,因此单个模型的规模可以相对较小,而集成学习的方式中,各个模型独立进行训练,当单个模型的规模足够大时,才能保证准确性。
上述逻辑回归函数为:
式中,P(y=1|x)为FWDL模型的最终预测结果;
b为逻辑回归函数的偏置;
σ(·)为激活函数;
[x,φ(x)]为联结的特征集合,x为输入特征,φ(x)为转换后的特征。
本发明中的FWDL模型算法与现有WDL模型算法相比主要有以下改进:
1、特征预处理:对原始输入特征进行进一步处理,不再依靠人工进行特征工程的工作,而是通过EFUFP算产生频繁项集,并将其转化为类别特征,这部分特征向量作为原WDL模型中的Wide侧的交叉特征,极大地减少了人工特征处理;将其与气体特征结合之后再输入到Wide侧模型中;对进行Wide侧和Dee侧进行联合训练,优化参数;
2、挖掘关系:对输入特征的频繁项挖掘不仅仅能够获取频繁项,还能通过特征交互进行关系学习,相比元素间关系,特征间的交互关系具有更大的价值;
3、共享嵌入向量:在Deep侧对输入特征的嵌入操作中,对部分Embedding Column做了共享,减少要优化的参数个数,提高计算速度,同时也处理了过拟合的问题;
4.泛化处理:与原WDL模型算法不同,将用EFUFP算法产生的组合特征作为输入层数据,分别输入到Wide侧模型和Deep侧模型,而不仅仅是输入到Wide侧模型。
因此,本发明的有益效果为:
(1)通过EFUFP算法进行自动化频繁项集挖掘,获取结构特征,极大地减少了人工特征工程;
(2)将频繁交叉特征同时作为Wide侧和Deep侧模型的输入特征,在保证准确性的同时提高了泛化的能力;
(3)在进行嵌入操作时,多个相关联的field共享同一个Embedding矩阵,不仅减少了参数个数,提高计算速度,同时防止过拟合,使得每个field能够获得更多的训练机会,有利于参数调优。
Claims (5)
1.一种基于FWDL模型的内容推荐方法,其特征在于,包括以下步骤:
S1、收集用户信息及其历史操作数据,将其作为原始数据;
S2、将原始数据进行预处理后,得到训练数据并将其输入到FWDL模型中,并对其进行训练;
S3、根据推荐系统中数据库内存储的实时用户操作数据,通过训练好的FWDL模型对其进行处理,得到内容推荐结果;
所述步骤S2中FWDL模型包括依次连接的输入层、WDL模型层和输出层;
所述输入层用于对输入的训练数据进行处理,得到输入到WDL模型层的数据;
所述WDL模型层包括Wide侧的LR子模型和Deep侧的DNN子模型,用于对输入的训练数据处理得到两个候选内容推荐结果;
所述输出层包括一个逻辑回归函数,用于对WDL模型层输出的两个候选内容推荐结果进行处理,得到最终的内容推荐结果;
所述Wide侧的LR子模型为:
式中,p(y|x)为输出的预测值为y对输入特征x的条件概率;
y为LR子模型输出的预测值;
x为LR子模型的输入特征;
w为LR子模型的权重;
b为LR子模型的偏置;
所述Deep侧的DNN子模型采用嵌入层和全连接层的方式构建,所述全连接层中的激活函数为ReLU函数;
所述Deep侧的DNN子模型为:
Sl+1=f(wlsl+bl)
式中,Sl+1为DNN中,第l+1层的输出结果;
wl为DNN子模型中第l隐层的权重;
sl为DNN子模型中第l隐层的变量;
bl为DNN子模型中第l隐层的偏置;
f(·)为激活函数σ;
所述输入层对训练数据进行处理的方法具体为:
A1、将训练数据分为连续特征和离散特征;
A2、对连续特征采用极差标准化的方式进行归一化处理,得到对应的频繁项数据;
A3、通过Embedding操作将稀疏高维的离散特征转换为稠密低维的嵌入向量;
同时,将离散特征经过EFUFP算法处理后挖掘出对应的频繁项数据;
A4、将连续特征对应的频繁项数据和离散特征对应的频繁项数据合并为频繁项集;
A5、对频繁项集做one-hot处理,得到频繁项关系特征;
A6、将频繁项关系特征作为Wide侧的LR子模型的输入数据;
将频繁项关系特征和嵌入向量作为Deep侧的DNN子模型的输入数据,完成对训练数据的处理。
2.根据权利要求1所述的基于FWDL模型的内容推荐方法,其特征在于,所述频繁项关系特征包括稀疏特征、频繁项特征、取值范围大于设定阈值或未知取值范围的特征列和数值型特征;
将频繁项关系特征输入至Wide侧的LR子模型的方法为:根据频繁项关系特征的特征类型,对其进行处理后再输入到Wide侧的LR子模型中:
其中,处理方法具体为:
对稀疏特征及频繁项特征进行稠密化处理;
对取值范围大于设定阈值或未知取值范围的特征列进行哈希处理;
对数值型特征指明其类型。
3.根据权利要求1所述的基于FWDL模型的内容推荐方法,其特征在于,所述步骤S2中对FWDL模型的训练包括对WDL模型层中的Wide侧的LR子模型及Deep侧的DNN子模型同时单独训练和对逻辑回归函数联合训练。
4.根据权利要求3所述的基于FWDL模型的内容推荐方法,其特征在于,所述步骤S2中,所述Wide侧的LR子模型通过FTRL算法和L1正则化进行单独训练;
所述Deep侧的DNN子模型通过AdaGrad优化器进行单独训练;
所述逻辑回归函数通过Adam优化器进行联合训练,并采用交叉熵作为损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387491.2A CN110309195B (zh) | 2019-05-10 | 2019-05-10 | 一种基于fwdl模型的内容推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387491.2A CN110309195B (zh) | 2019-05-10 | 2019-05-10 | 一种基于fwdl模型的内容推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309195A CN110309195A (zh) | 2019-10-08 |
CN110309195B true CN110309195B (zh) | 2022-07-12 |
Family
ID=68074644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910387491.2A Expired - Fee Related CN110309195B (zh) | 2019-05-10 | 2019-05-10 | 一种基于fwdl模型的内容推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309195B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008321B (zh) * | 2019-11-18 | 2023-08-29 | 广东技术师范大学 | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 |
CN111143684B (zh) * | 2019-12-30 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的泛化模型的训练方法及装置 |
CN111291860A (zh) * | 2020-01-13 | 2020-06-16 | 哈尔滨工程大学 | 一种基于卷积神经网络特征压缩的异常检测方法 |
CN112804080B (zh) * | 2020-12-24 | 2022-09-30 | 中国科学院信息工程研究所 | 一种访问控制初始化智能推荐方法 |
CN113111253A (zh) * | 2020-12-31 | 2021-07-13 | 绍兴亿都信息技术股份有限公司 | 基于中医药知识的个性化推荐方法、系统、设备及介质 |
CN112987940B (zh) * | 2021-04-27 | 2021-08-27 | 广州智品网络科技有限公司 | 一种基于样本概率量化的输入方法、装置和电子设备 |
CN116011351B (zh) * | 2023-03-28 | 2023-06-13 | 中国石油大学(华东) | 一种基于聚类算法和WideDeep网络的油井合理沉没度确定方法 |
CN116488934A (zh) * | 2023-05-29 | 2023-07-25 | 无锡车联天下信息技术有限公司 | 一种基于域控制器的网络安全管理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183841A (zh) * | 2015-09-06 | 2015-12-23 | 南京游族信息技术有限公司 | 大数据环境下结合频繁项集和深度学习的推荐方法 |
CN108647251A (zh) * | 2018-04-20 | 2018-10-12 | 昆明理工大学 | 基于宽深度门循环联合模型的推荐排序方法 |
-
2019
- 2019-05-10 CN CN201910387491.2A patent/CN110309195B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183841A (zh) * | 2015-09-06 | 2015-12-23 | 南京游族信息技术有限公司 | 大数据环境下结合频繁项集和深度学习的推荐方法 |
CN108647251A (zh) * | 2018-04-20 | 2018-10-12 | 昆明理工大学 | 基于宽深度门循环联合模型的推荐排序方法 |
Non-Patent Citations (4)
Title |
---|
Efficient Fast Updated Frequent Pattern Tree Aigorithm and Its Parallel;Detao Lv, Bo Fu, Xiao Sun, Hang Qiu;《2017 2nd International Conference on Image, Vision and Computing》;20170720;全文 * |
基于MapReduce的并行关联规则增量更新算法;程广等;《计算机工程》;20160215;第42卷(第2期);第21-25页 * |
基于改进的宽深度模型的推荐方法研究;王艺平等;《计算机应用与软件》;20181112;第35卷(第11期);第49-54页 * |
基于深度学习的推荐系统研究综述;黄立威等;《计算机学报》;20180305;第41卷(第7期);第1619-1647页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110309195A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309195B (zh) | 一种基于fwdl模型的内容推荐方法 | |
Salehi et al. | Hybrid attribute-based recommender system for learning material using genetic algorithm and a multidimensional information model | |
Che et al. | A novel approach for learning label correlation with application to feature selection of multi-label data | |
CN111782961B (zh) | 一种面向机器阅读理解的答案推荐方法 | |
CN113343125B (zh) | 一种面向学术精准推荐的异质科研信息集成方法及系统 | |
Zhang et al. | A novel sequential three-way decision model with autonomous error correction | |
CN112989215B (zh) | 一种基于稀疏用户行为数据的知识图谱增强的推荐系统 | |
CN115270988A (zh) | 知识表征解耦的分类模型的微调方法、装置和应用 | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
Zeng et al. | Hard decorrelated centralized loss for fine-grained image retrieval | |
CN114662652A (zh) | 一种基于多模态信息学习的专家推荐方法 | |
CN116578729B (zh) | 内容搜索方法、装置、电子设备、存储介质和程序产品 | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 | |
Lin et al. | Lifelong Text-Audio Sentiment Analysis learning | |
CN116450938A (zh) | 一种基于图谱的工单推荐实现方法及系统 | |
Jiang et al. | An Application of SVD++ Method in Collaborative Filtering | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
Kumar et al. | A Recommendation System & Their Performance Metrics using several ML Algorithms | |
Yasin et al. | Enhanced CRNN-Based Optimal Web Page Classification and Improved Tunicate Swarm Algorithm-Based Re-Ranking | |
CN112925983A (zh) | 一种电网资讯信息的推荐方法及系统 | |
Li et al. | Matrix factorization for video recommendation based on instantaneous user interest | |
CN114298020B (zh) | 一种基于主题语义信息的关键词向量化方法及其应用 | |
CN117556118B (zh) | 基于科研大数据预测的可视化推荐系统及方法 | |
Yang et al. | A novel soft set approach for feature selection | |
Sihag et al. | Improved System for Performance Evolution in Recommendation Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220712 |
|
CF01 | Termination of patent right due to non-payment of annual fee |