CN114969511A - 基于分片的内容推荐方法、设备及介质 - Google Patents

基于分片的内容推荐方法、设备及介质 Download PDF

Info

Publication number
CN114969511A
CN114969511A CN202210480880.1A CN202210480880A CN114969511A CN 114969511 A CN114969511 A CN 114969511A CN 202210480880 A CN202210480880 A CN 202210480880A CN 114969511 A CN114969511 A CN 114969511A
Authority
CN
China
Prior art keywords
features
data
model
network
content recommendation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210480880.1A
Other languages
English (en)
Inventor
王超贺
耿彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 10 Research Institute
Original Assignee
CETC 10 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 10 Research Institute filed Critical CETC 10 Research Institute
Priority to CN202210480880.1A priority Critical patent/CN114969511A/zh
Publication of CN114969511A publication Critical patent/CN114969511A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于分片的内容推荐方法、设备及介质,属于推荐方法领域,包括步骤:首先,对样本数据预处理后,搭建基于传统单一模型的浅层学习集成算法,将决策树叶子节点的输出和原始特征输入到浅层学习网络,在浅层学习网络中连续值数据输入到决策树模型中做特征编码,输出交叉特征,然后把经过预处理后的类别特征拼接到交叉特征上,作为岭回归的输入,输出低阶交叉特征。其次,通过深度学习对素材数据中的连续特征做归一化,离散特征转化为嵌入向量,将两者拼接后输入到隐藏层,输出得到高阶交叉特征。最后,将反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输出内容推荐结果。本发明提升了内容推荐的准确率。

Description

基于分片的内容推荐方法、设备及介质
技术领域
本发明涉及推荐方法领域,更为具体的,涉及一种基于分片的内容推荐方法、设备及介质。
背景技术
内容推荐问题可看作分类问题来处理,在样本的精准化投放中起到非常重要的作用,样本支持报文素材、在线广告、大型商超优势位置等各种形式的数据。以写报为例,随着互联网时代的到来,每天网络上都会产生海量新闻素材,这些新闻素材内容参差不起,侧重点也多有不同,这就导致用户很难通过简单的检索找到自己想要的内容。
为了解决以上问题,内容投放模式要转变为精准化投放,当前互联网投放系统的主流策略精准化内容投放,而精准投放的核心就是内容推荐算法。根据历史数据对用户偏好预测有利于精准定位对应用户集合,匹配最佳的内容投放组合。随着信息技术的飞速发展,各行业对样本投放的准确度要求不断提升,众多公司为进一步推广产品,向精准定位用户开始努力。而互联网时代海量的素材数据也为精准投放提供了场景,各种机器学习以及深度学习算法的出现为其提供了技术手段。
内容推荐模型预测是以海量的样本数据为基础的,但是系统直接收集的原始数据或经过人工简单处理得到的数据往往还存在噪声,数据质量比较差。因此,需要通过数据清洗等各种数据预处理手段来清理数据集中的脏数据。另外还可以使用一定的特征提取方法来帮助我们提取出隐藏在数据中、人工不易发现的非线性特征,挖掘出对内容推荐有帮助的信息。所以采用适合的数据集的预处理技术,并做初步的特征提取与选择,可以为内容推荐打下一个比较好的基础。
在历史数据中存在数据量大、正负类别不平衡等问题,用户关心的往往是小部分素材记录,大部分样本很少被打开,不平衡的样本数据和海量冗余的数据已经严重影响了模型的推荐效果。另外,目前在工业界用得较多的是基于单一模型的内容推荐预测算法,单一模型虽然简单、运行时间短,但推荐效果较差,需要耗费大量人工工作来提取有效特征,对技术人员业务要求较高。目前有各种各样的推荐算法,它们都有各自的优点和不足之处,因此需要研究一种利用模型的融合来更好的发挥各个算法的优点使其互补,进一步提高算法准确率的内容推荐方法。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于分片的内容推荐方法、设备及介质,通过对样本数据划片分别训练和提取特征,解决历史记录中类别不平衡以及单模型预测效果差的问题,实现对历史素材中不平衡数据的处理,提升了内容推荐的准确率。
本发明的目的是通过以下方案实现的:
一种基于分片的内容推荐方法,包括以下步骤:
在对样本数据预处理时利用分片将样本数据划分为两个互斥的数据集,再利用分片将数据集划分为连续特征和类别特征,然后分别训练和提取特征,然后将训练和提取后的特征拼接,输出内容推荐的结果。
进一步地,在数据预处理操作后,包括如下子步骤:
S1,对原始数据集进行特征学习:搭建基于单一模型的浅层学习集成算法模型,将决策树叶子节点的输出和原始特征输入到浅层学习集成算法模型的浅层学习网络,在浅层学习网络中连续值数据输入到决策树模型中做特征编码,输出交叉特征;然后把经过预处理的类别特征拼接到所述交叉特征上,作为岭回归的输入,然后输出低阶交叉特征;
S2,通过深度学习网络对素材数据中的连续特征做归一化,连续特征转化为嵌入向量,将两者拼接后输入到深度学习网络的隐藏层,输出得到高阶交叉特征;
S3,将反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输出内容推荐结果。
进一步地,在步骤S1中,包括子步骤:利用分片搭建浅层学习集成XGB-FM模型,XGB-FM有两个子网络:FM子网络和TREE子网络,FM子网络中输入数据包括经XGBOOST模型转换后叶子节点的输出和原始数据特征,TREE子网络中将连续特征输入到XGBOOST中做特征编码,输出用来表示数据非线性关系的交叉特征,然后把经过One-Hot处理的类别特征拼接到交叉特征上,作为岭回归的输入,最后岭回归输出的即为低阶交叉特征。
进一步地,在步骤S2中,包括子步骤:
利用深度学习网络对素材数据中的连续特征做归一化后输入到DNN隐藏层中,对离散特征做Embedding处理,把离散特征转成对应的与该向量的取值空间成正比的N维向量,将两者拼接后输入到多个激活函数为ReLU的隐藏层,输出得到高阶交叉特征。
进一步地,在步骤S3中,包括子步骤:
将XGB-FM网络输出的反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输入到最后一层全连接层,输出最终的内容推荐结果。
进一步地,在所述浅层学习集成XGB-FM模型特征学习过程中,采用随机梯度下降SGD算法更新模型的参数。
进一步地,在拼接后,采用softmax函数将拼接后输出的特征向量进行归一化处理,得到概率分布特征向量。
进一步地,包括将两个互斥数据集的预测值结果合并的步骤:
设在数据预处理阶段将样本数据划分为两个互斥的数据集traina和trainb,分别输入到浅层学习网络和深度学习网络,经过迭代训练得到训练模型1,以及对应的预测值结果prediction1;
然后交换traina和trainb输入到浅层学习网络和深度学习网络,得到另一组训练模型2,以及对应的预测值结果prediction2;
最后将prediction1与prediction2通过如下公式得到最终的预测结果prediction:
prediction=prediction1*α+prediction2*(1-α)
其中,参数α可根据训练数据量大小和预测效果进行调整。
一种计算机设备,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,处理器执行所述程序时实现如上任一所述的方法。
一种可读存储介质,存储有计算机程序,该程序被处理器执行时实现如上任一所述的方法。
本发明的有益效果包括:
本发明在数据处理上采用分片思想,第一层分片是将原始数据划分为两个互斥的数据集,分别输入到浅层学习网络和深度学习网络,第二层分片是把每个数据集划分为连续特征片和类别特征片。在浅层学习网络中,连续特征片使用XGBoost训练得到交叉特征,类别特征片使用ONE-HOT编码得到高维稀疏特征,两部分特征经过Concat后输入到FM模型;在深度学习网络,类别特征经过Embedding后转化为嵌入向量再和连续特征一起输入到DNN隐藏层。训练及预测完成后,在将互斥数据集互换输入到浅层学习网络和深度学习网络,重复上述过程,这样能更充分的挖掘不同类型数据中的有效特征。
本发明搭建XGB-FM浅层学习网络来提取低阶交叉特征,采用XGBOOT发现有效的特征组合,并将模型训练过程中样本的划分路径加入特征学习过程,增加了特征的丰富性,初步生成了低阶交叉特征。决策树结构的叶子结点输出特征组合到FM模型,再利用FM模型简单、耗时少的优点快速进行大量特征的二次加工,从而更有效的提取低阶特征,减少人工寻找交叉特征的时间,大大改进内容推荐方法的性能。
本发明将内容的特征学习分为低阶交叉特征学习和高阶交叉特征学习,采用FMNN模型作为内容推荐特征提取及训练模型,FMNN算法创新性的集成传统的机器学习模型和深度学习模型,采用XGB-FM提取浅层特征,由决策树结构的叶子结点输出特征组合,再输入到FM模型进行特征的二次加工得到有效的低阶交叉特征。在深度学习网络使用DNN模型对数据中连续的数值特征和稀疏、高维的类别特征分别处理,转换为实数向量,最后使用低阶交叉和高阶交叉拼接后得到的特征向量能更充分的表示数据,提高了推荐准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的XGBOOST连续特征转化模型的结构示意图;
图2为本发明实施例的浅层学习集成XGB-FM模型的结构示意图;
图3为本发明实施例的深度学习模型的结构示意图;
图4为本发明实施例基于浅层学习和深度学习集成的内容推荐方法的流程图。
具体实施方式
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
术语解释
XGB-FM:是搭建的以XGBoost和FastFM模型为核心的浅层集成学习网络,由该网络输出最终的低阶交叉特征。
FMNN:本发明的核心算法。由浅层学习网络(XGB-FM)和深度学习网络(DNN)组成。
Embedding:向量化。对于文本数据来说,就是将词语映射为向量空间中的向量。
RELU:神经网络的一种激活函数。
ONE-HOT:独热编码技术。利用ONE-HOT技术将类别特征转化为0、1序列。
常见的预处理技术有数据描述性统计、缺失值和异常值处理、数据标准化、归一化、不平衡数据处理等。在原始数据分析阶段,描述性统计用来描述数据基本情况、查看数据质量等,来决定后续如何处理数据,通过描述性统计来展示原始数据数据的分析结果,为下一步异常值和缺失值处理、特征提取等做准备。对原始数据分析过程中,可从样本数据的中心位置、发散程度、相关程度等多个方面来描述,具体选择要根据数据实际情况而定。在异常值方面,本发明实施例使用箱型线处理剔除样本数据中的异常值,箱线图包括最大值、中位数、最小值、下四分位数和上四分位数等五部分。在解决数据不平衡问题方面,采用对数据过采样的方法,以此增加少数类别的分类正确率。样本内容推荐预测是一个二分类问题,二分类问题的常用评价指标有准确率(precision),召回率(recall),f1分数,AUC等,在本发明的预测中,采用的主要评测指标是AUC值,并把准确率、召回率F1分数作为参考。这样做是由于数据集中非用户偏好记录占大多数,若使用准确率等指标,即使把测试集都预测为用户偏好,也会有非常高的准确率,会严重减弱对算法模型的测评准确度。
对原始数据做完预处理工作后,就要选择一个合适的内容推荐模型,一个好的模型应该既可以节约计算成本,又能提高推荐的准确率。在内容推荐浅层预测算法研究方面已经提出了很多的算法,包括逻辑回归、Factorization Machines算法等传统的单一模型算法;还有基于分片思想的LS-PLM算法、XGBOOST-LR等基于各种单一模型集成的经典学习网络。本发明实施例对以上算法改进优化提出了一种新的学习算法XGB-FM,改善内容推荐预测效果。
原始样本数据中各个特征之间是有关联的,但以往的内容推荐模型很难完全提取出单一特征之间的非线性关系,或只能提取出简单的线性关系,导致模型推荐内容难以令用户满意低。深度学习(Deep Learning)与传统的机器学习算法不同,其在多个行业均有良好的表现。尤其重要的一点是,拥有多层隐藏层网络结构深度学习算法理论上可以拟合出所有函数。与传统的线性模型和决策树模型相比较,它更容易学习到数据中隐藏的高阶交叉特征,因此在本发明实施例的内容推荐算法中引入了DNN变形的深度学习模型。
根据本发明实施例,首先,在做完数据预处理操作后,对原始数据集进行特征学习,由于单一模型各自有自己的优缺点,无法全面的提取出可以代表数据集的特征,所以本发明实施例采用集成的方式分别通过两个网络提取低阶交叉特征和高阶交叉特征,先搭建基于传统单模型的浅层学习集成算法XGB-FM,在FM网络中输入数据包括XGBOOST叶子节点的输出和原始特征,TREE网络中,把连续值数据输入到XGBOOST中做特征编码,输出树模型训练出的交叉特征,然后把经过ONE-HOT的类别特征拼接到交叉特征上,作为岭回归(RidgeRegression)的输入,最后岭回归输出的即为低阶交叉特征。其次,将深度学习引入素材推荐,对素材数据中的连续特征做归一化后输入到DNN隐藏层中,对离散特征做Embedding,把离散特征转成对应的与该向量的取值空间成正比的N维向量,将两者拼接后输入到4个激活函数为RELU的隐藏层,输出得到高阶交叉特征。最后,将XGB-FM网络输出的可以反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输入到最后一层全连接层,输出最终的内容推荐结果。
如图1所示,实施例中,XGBOOST转化连续特征为特征编码过程如下:
首先将连续特征I=[i1,i2,i3,…,ip]输入到XGBOOST,使用XGBOOST算法转换输入数据中的连续特征I。XGBOOST是一种采用boosting思想的决策树集成算法,是在GBDT算法基础上改进而来,与GBDT相比XGBOOST能更发现的更有效的交叉特征,并且迭代速度更快。XGBOOST转化连续特征为特征编码过程如图1所示,在图左侧是一颗有3个叶子节点的决策树,右侧是有2个叶子节点的决策树,连续特征转化生成的01序列,即为图中所有叶子结点输出构成的5维向量。假设输入一个样本x,则左侧决策树输出特征编码为[1,0,0],右侧决策树输出的特征编码为[0,1],所以经过XGBOOST转化连续特征后生成的特征编码为[1,0,0,0,1],输出的编码可以再作为特征输入到FM等线性分类模型训练帮助分类。模型的目标函数如下:
Figure BDA0003627788670000091
通过该函数把每个决策树的叶子结点输出反馈不断迭代学习,将连续特征I转化为J维的01序列,记作IJ=[i1*J,i2*J,i3*J,…,ip*J]。l表示模型的损失函数,yi表示第i个输入样本训练后对应的输出,
Figure BDA0003627788670000092
表示t-1轮迭代模型的输出,ft表示输入样本映射叶子节点后一颗决策树的输出,
Figure BDA0003627788670000093
表示树的复杂度,constant表示常数。
如图2所示,浅层学习集成XGB-FM模型特征学习过程如下:
内容推荐浅层特征学习提取采用XGB-FM模型,模型通过对输入的连续特征和类别特征训练提取出低阶交叉特征,实现对原始数据的有效表达。首先对类别特征进行One-Hot编码,得到类别特征的One-Hot特征向量,记作CK=[c1,c2,c3…,cq],其中cq的维度为1*K。然后与连续特征转化生成的IJ=[i1*J,i2*J,i3*J,…,ip*J]做Concat输入到FM模型,二元交叉FM的(2-way FM)目标函数如下:
Figure BDA0003627788670000094
其中,w是输入特征的参数,<vi,vj>是输入特征i,j间的交叉参数,v是k维向量。二元交叉FM模型与传统的线性模型相比不同点在于其前面是线性模型,后面是交叉组合特征,整体由这两部分组成。将Concat生成的特征向量XN=(CK,IJ)输入到二元交叉FM模型后,模型的参数w和v的更新是通过随机梯度下降SGD算法实现,具体梯度计算公式为:
Figure BDA0003627788670000101
若给定素材样本集XN=(CK,IJ)={x1,x2,x3,…,xn},则经过最终XGB-FM模型的内容推荐结果可表示为:
Figure BDA0003627788670000102
Figure BDA0003627788670000103
Figure BDA0003627788670000104
其中,p表示深度学习网络和XGB-FM网络加权平均的输出,σ1表示深度学习网络输出所占的比重,σ2表示XGB-FM网络占的比重,
Figure BDA0003627788670000105
表示模型经过岭回归后的输出,
Figure BDA0003627788670000106
表示XGB-FM网络的输出结果,X表示输入样本,b表示线性模型的常量部分。
浅层学习网络XGB-FM充分利用了基于决策树的XGBoost模型、逻辑回归模型、FastFM等多种算法优点,使用简单的算法结构就充分挖掘出了原始特征中可以表示浅层非线性关系的低阶交叉特征。经测试改进的浅层学习网络XGB-FM有运行时间短,准确率高等优点,预测效果好于组成它的单模型。在网络结构中所有组成部分都是多项式阶O(nk)的算法,没有指数阶的算法,所以该算法时间耗费并不大。TREE子网络的时间复杂度为:O(n·logn·k·m),其中n是样本数量,d是特征个数,m是树的深度。FM网络的时间复杂度为O(n),所以XGB-FM的时间复杂度为:
T(n)=O(nlogn·k·m)+O(n)=O(nlogn)
如图3所示,实施例中,深度学习模型特征学习过程如下:
本发明深度学习模型采用常见的DNN。假设所有训练数据的原始特征为RF,RF为连续特征I=[i1,i2,i3,…,ip]和类别特征C=[c1,c2,c3…,cq]的合集。原始特征RF做Embedding,把转成对应的W维向量,向量的长度与该向量的取值空间成正比,记作RFp+q=[i1,i2,i3,…,ip,c1,c2,c3…,cq],其中ip,和cq都为W维。将RFp+q和原始特征中的连续特征I拼接一起输入到神经网络顶层节点,即输入层。另外定义输入层和隐藏层之间的权重矩阵为V∈Rk×m,偏置向量μ∈Rk;隐藏层和输出层之间的权重矩阵为W∈Rn×k,偏置向量b∈Rn;g(.)和f(.)为激活函数,本发明使用ReLU函数,输入向量为x∈Rm,输出向量为y,则每个隐藏层的输出如下式所示:
y=f(WTg(Vx+μ)+b)
经过三层隐藏层节点的提取,最后输出ynn即为本模型的高阶交叉特征。
如图4所示,实施例中,基于XGB-FM网络和深度学习模型的改进集成算法FMNN训练过程如下:
FMNN算法包括浅层学习网络(即XGB-FM网络)和深度学习网络(即DNN网络)。在XGB-FM网络模型中将连续特征I=[i1,i2,i3,…,ip]输入到XGBOOST,设定模型中XGBOOST单个决策树的深度参数max_depth为4,最大叶子结点数参数num_leaf为10,决策树的数量参数num_boost_round为55,最后生成870维特征编码。使用该XGBOOST模型对输入的连续特征I进行转换,将连续特征I转化为J维的序列IJ=[i1*J,i2*J,i3*J,…,ip*J]。对类别特征进行One-Hot编码,得到类别特征的One-Hot特征向量CK=[c1,c2,c3…,cq]。将特征IJ和CK拼接后输入到向量维度设置为20的FM模型得到浅层学习网络的最终输出yfm。最后采用简单的线性回归,使用进行交叉变换得到。如下所示:
Figure BDA0003627788670000121
DNN网络会将样本数据转变为64维的嵌入向量。在本发明的DNN网络中采用的激活函数是ReLU函数,它的好处是可以在训练过程中防止梯度消失。设置DNN隐藏层的层数为4层,另外根据实际的数据情况调整每个隐藏层的实验节点数。深度学习网络运行的过程具体如下:把样本数据中的类别特征CK=[c1,c2,c3…,cq]输入到Embedding层转化为实数向量,转化为32维的实数向量,如此一来用向量表示的训练数据共有32*q维特征。连续特征I=[i1,i2,i3,…,ip]与实数向量Concat后得到32*q+p维特征,然后把生成的特征输入到4层隐藏层的神经网络,其中激活函数选择ReLU函数,最终深度学习网络(DNN网络)共输出64维高阶交叉特征。在迭代优化方法中,XGB-FM采用的是L1范数和FTRL,而深度学习网络则使用ADAGRAD的方法。在ADAGRAD算法中每个参数的学习率η随着迭代次数的增加不断减小。使用ADAGRAD的好处是,为不同变量提供适合各个参数本身的学习率,使得每个参数适应当前数据集下的模型,一般来说偏导数较大的参数相应会有更大的学习率η,最开始迭代时模型会使用比较大的η来训练,然后慢慢减小学习率,防止学到的参数震荡和越过理想值。将t-1次DNN迭代的输出ynn输入到ADAGRAD来对η调整,找到第t此迭代各个参数的理想值,如下所示。
Figure BDA0003627788670000131
Figure BDA0003627788670000132
最后拼接XGB-FM部分的输出yfm和DNN网络部分的输出ynn,采用函数softmax将输出的特征向量y=yfm+ynn=[y1,y2,y3,…,y20+64]进行归一化处理,得到概率分布特征向量。
Figure BDA0003627788670000133
在实施例中,两个互斥数据集结果合并过程如下:
由于本发明实施例在数据处理上采用了分片思想,在数据预处理阶段将训练数据划分为两个互斥的数据集traina和trainb,分别输入到浅层学习网络和深度学习网络,经过迭代训练得到训练模型1,以及对应的预测值结果prediction1。然后交换traina和trainb输入到浅层学习网络和深度学习网络,得到另一组训练模型2,以及对应的预测值结果prediction2。最后将prediction1与prediction2通过如下公式得到最终的预测结果prediction。参数α可根据训练数据量大小和预测效果进行调整。
prediction=prediction1*α+prediction2*(1-α)
实施例1
一种基于分片的内容推荐方法,包括以下步骤:
在对样本数据预处理时利用分片将样本数据划分为两个互斥的数据集,再利用分片将数据集划分为连续特征和类别特征,然后分别训练和提取特征,然后将训练和提取后的特征拼接,输出内容推荐的结果。
实施例2
在实施例1的基础上,在数据预处理操作后,包括如下子步骤:
S1,对原始数据集进行特征学习:搭建基于单一模型的浅层学习集成算法模型,将决策树叶子节点的输出和原始特征输入到浅层学习集成算法模型的浅层学习网络,在浅层学习网络中连续值数据输入到决策树模型中做特征编码,输出交叉特征;然后把经过预处理的类别特征拼接到所述交叉特征上,作为岭回归的输入,然后输出低阶交叉特征;
S2,通过深度学习网络对素材数据中的连续特征做归一化,连续特征转化为嵌入向量,将两者拼接后输入到深度学习网络的隐藏层,输出得到高阶交叉特征;
S3,将反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输出内容推荐结果。
实施例3
在实施例2的基础上,在步骤S1中,包括子步骤:利用分片搭建浅层学习集成XGB-FM模型,XGB-FM有两个子网络:FM子网络和TREE子网络,FM子网络中输入数据包括经XGBOOST模型转换后叶子节点的输出和原始数据特征,TREE子网络中将连续特征输入到XGBOOST中做特征编码,输出用来表示数据非线性关系的交叉特征,然后把经过One-Hot处理的类别特征拼接到交叉特征上,作为岭回归的输入,最后岭回归输出的即为低阶交叉特征。
实施例4
在实施例2的基础上,在步骤S2中,包括子步骤:
利用深度学习网络对素材数据中的连续特征做归一化后输入到DNN隐藏层中,对离散特征做Embedding处理,把离散特征转成对应的与该向量的取值空间成正比的N维向量,将两者拼接后输入到多个激活函数为ReLU的隐藏层,输出得到高阶交叉特征。
实施5
在实施例3的基础上,在步骤S3中,包括子步骤:
将XGB-FM网络输出的反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输入到最后一层全连接层,输出最终的内容推荐结果。
实施例6
在实施例3的基础上,在所述浅层学习集成XGB-FM模型特征学习过程中,采用随机梯度下降SGD算法更新模型的参数。
实施例7
在实施例3的基础上,在拼接后,采用softmax函数将拼接后输出的特征向量进行归一化处理,得到概率分布特征向量。
实施8
在实施例2的基础上,包括将两个互斥数据集的预测值结果合并的步骤:
设在数据预处理阶段将样本数据划分为两个互斥的数据集traina和trainb,分别输入到浅层学习网络和深度学习网络,经过迭代训练得到训练模型1,以及对应的预测值结果prediction1;
然后交换traina和trainb输入到浅层学习网络和深度学习网络,得到另一组训练模型2,以及对应的预测值结果prediction2;
最后将prediction1与prediction2通过如下公式得到最终的预测结果prediction:
prediction=prediction1*α+prediction2*(1-α)
其中,参数α可根据训练数据量大小和预测效果进行调整。
实施例9
一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,处理器执行所述程序时实现如实施例1~实施例8任一所述的方法。
实施例10
一种可读存储介质,存储有计算机程序,该程序被处理器执行时实现如实施例1~实施例8任一所述的方法。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于分片的内容推荐方法,其特征在于,包括以下步骤:
在对样本数据预处理时利用分片将样本数据划分为两个互斥的数据集,再利用分片将数据集划分为连续特征和类别特征,然后分别训练和提取特征,然后将训练和提取后的特征拼接,输出内容推荐的结果。
2.根据权利要求1所述的基于分片的内容推荐方法,其特征在于,在数据预处理操作后,包括如下子步骤:
S1,对原始数据集进行特征学习:搭建基于单一模型的浅层学习集成算法模型,将决策树叶子节点的输出和原始特征输入到浅层学习集成算法模型的浅层学习网络,在浅层学习网络中连续值数据输入到决策树模型中做特征编码,输出交叉特征;然后把经过预处理的类别特征拼接到所述交叉特征上,作为岭回归的输入,然后输出低阶交叉特征;
S2,通过深度学习网络对素材数据中的连续特征做归一化,连续特征转化为嵌入向量,将两者拼接后输入到深度学习网络的隐藏层,输出得到高阶交叉特征;
S3,将反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输出内容推荐结果。
3.根据权利要求2所述的基于分片的内容推荐方法,其特征在于,在步骤S1中,包括子步骤:利用分片搭建浅层学习集成XGB-FM模型,XGB-FM有两个子网络:FM子网络和TREE子网络,FM子网络中输入数据包括经XGBOOST模型转换后叶子节点的输出和原始数据特征,TREE子网络中将连续特征输入到XGBOOST中做特征编码,输出用来表示数据非线性关系的交叉特征,然后把经过One-Hot处理的类别特征拼接到交叉特征上,作为岭回归的输入,最后岭回归输出的即为低阶交叉特征。
4.根据权利要求2所述的基于分片的内容推荐方法,其特征在于,在步骤S2中,包括子步骤:
利用深度学习网络对素材数据中的连续特征做归一化后输入到DNN隐藏层中,对离散特征做Embedding处理,把离散特征转成对应的与该向量的取值空间成正比的N维向量,将两者拼接后输入到多个激活函数为ReLU的隐藏层,输出得到高阶交叉特征。
5.根据权利要求3所述的基于分片的内容推荐方法,其特征在于,在步骤S3中,包括子步骤:
将XGB-FM网络输出的反映二阶非线性关系的低阶交叉特征与深度学习网络输出的高阶交叉特征拼接,输入到最后一层全连接层,输出最终的内容推荐结果。
6.根据权利要求3所述的基于分片的内容推荐方法,其特征在于,在所述浅层学习集成XGB-FM模型特征学习过程中,采用随机梯度下降SGD算法更新模型的参数。
7.根据权利要求3所述的基于分片的内容推荐方法,其特征在于,在拼接后,采用softmax函数将拼接后输出的特征向量进行归一化处理,得到概率分布特征向量。
8.根据权利要求2所述的基于分片的内容推荐方法,其特征在于,包括将两个互斥数据集的预测值结果合并的步骤:
设在数据预处理阶段将样本数据划分为两个互斥的数据集traina和trainb,分别输入到浅层学习网络和深度学习网络,经过迭代训练得到训练模型1,以及对应的预测值结果prediction1;
然后交换traina和trainb输入到浅层学习网络和深度学习网络,得到另一组训练模型2,以及对应的预测值结果prediction2;
最后将prediction1与prediction2通过如下公式得到最终的预测结果prediction:
prediction=prediction1*α+prediction2*(1-α)
其中,参数α可根据训练数据量大小和预测效果进行调整。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并能在处理器上运行的计算机程序,处理器执行所述程序时实现如权利要求1~8任一所述的方法。
10.一种可读存储介质,其特征在于,存储有计算机程序,该程序被处理器执行时实现如权利要求1~8任一所述的方法。
CN202210480880.1A 2022-05-05 2022-05-05 基于分片的内容推荐方法、设备及介质 Pending CN114969511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210480880.1A CN114969511A (zh) 2022-05-05 2022-05-05 基于分片的内容推荐方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210480880.1A CN114969511A (zh) 2022-05-05 2022-05-05 基于分片的内容推荐方法、设备及介质

Publications (1)

Publication Number Publication Date
CN114969511A true CN114969511A (zh) 2022-08-30

Family

ID=82980802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210480880.1A Pending CN114969511A (zh) 2022-05-05 2022-05-05 基于分片的内容推荐方法、设备及介质

Country Status (1)

Country Link
CN (1) CN114969511A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115844696A (zh) * 2023-02-24 2023-03-28 广州视景医疗软件有限公司 一种视觉训练方案的生成方法、装置、终端设备和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115844696A (zh) * 2023-02-24 2023-03-28 广州视景医疗软件有限公司 一种视觉训练方案的生成方法、装置、终端设备和介质

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN111563164B (zh) 一种基于图神经网络的特定目标情感分类方法
CN111914185B (zh) 一种基于图注意力网络的社交网络中文本情感分析方法
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN112819604A (zh) 基于融合神经网络特征挖掘的个人信用评估方法与系统
CN107688576B (zh) 一种cnn-svm模型的构建及倾向性分类方法
CN116541911B (zh) 一种基于人工智能的包装设计系统
CN112115265A (zh) 文本分类中的小样本学习方法
CN111914166B (zh) 应用于社区矫正人员的矫正策略个性化推荐系统
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN109543038B (zh) 一种应用于文本数据的情感分析方法
CN111177010A (zh) 一种软件缺陷严重程度识别方法
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN114896392A (zh) 工单数据的聚类方法、装置、电子设备及存储介质
CN113378563B (zh) 一种基于遗传变异和半监督的案件特征提取方法及装置
CN112241785B (zh) 一种基于深度强化学习的图书采访方法
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN115033762A (zh) 一种可编程控制器功能块智能聚类方法
CN116341990B (zh) 一种基础设施工程的知识管理评价方法及系统
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN116468037A (zh) 一种基于nlp的数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination