CN111078834B - 基于深度森林的文本对象推荐方法 - Google Patents
基于深度森林的文本对象推荐方法 Download PDFInfo
- Publication number
- CN111078834B CN111078834B CN201911231215.3A CN201911231215A CN111078834B CN 111078834 B CN111078834 B CN 111078834B CN 201911231215 A CN201911231215 A CN 201911231215A CN 111078834 B CN111078834 B CN 111078834B
- Authority
- CN
- China
- Prior art keywords
- user
- text object
- text
- forest
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度森林的文本对象推荐方法,属于推荐技术领域。本发明针对现有的基于深度学习的推荐方法的推荐方案的不足,通过将梯度提升与深度森林结合,提出一种结合了梯度提升和深度森林的推荐模型,并将其用于推荐文本对象。即本发明将用户和文本对象的特征信息输入到所设置的推荐模型中,则会输出一个0‑1的值,其代表了预测该用户会与该文本对象发生交互的可能性,即用户与文本对象的交互概率预测值。对每个用户,为其将未接触过的文本对象进行以交互概率预测值从大到小的排序,其中排名前K的文本对象将作为推荐列表推荐给该用户。
Description
技术领域
本发明属于推荐技术领域,具体涉及一种基于深度森林的文本对象推荐方法。
背景技术
在现有的推荐方法当中,基于协同过滤的推荐模型一直是推荐技术领域的研究热点之一,而矩阵分解则一直是协同过滤推荐方法之中的一种经典的推荐模型,在推荐精度上也一直有很好的表现。
矩阵分解的思路,是从用户对物品的评分矩阵之中,学习到两个规模较小的矩阵,这两个矩阵分别代表用户和物品。对每个用户而言,他们在用户矩阵之中都有一个向量对其建模,物品在物品矩阵之中也是一样。用户向量和物品向量都可以在一定程度上被解释为一些语义,比如用户向量上某个对应位置的值代表其对某些因素的喜爱程度,而物品向量在该位置上的值就可以代表其与该因素的匹配程度,则该因素上两者的乘积就可以代表用户和物品在该因素上对最后评分的影响。
矩阵分解在处理物品和用户的信息交互的时候,采取的措施是对物品隐向量和用户隐向量进行内积操作。内积是一种较为简单的线性交互,而且没能考虑到不同的隐因子之间的交互,只有用户和物品的相同的隐因子之间的乘积作为交互。因而出现了基于深度学习的推荐方法,如在NCF(Neural Collaborative Filtering)方法中,其将深度学习的整体框架带到协同过滤当中,并且实现了较好的性能。在NCF中,采用神经网络来代替内积对用户和物品之间的交互进行建模,用用户和物品的one-hot编码向量作为输入,嵌入向量经过一个专门为推荐问题设置的神经网络得到预测值,通过反向传播进行优化。虽然,NCF中也用到了矩阵分解,用一定长度的向量来代表用户和物品的特征。与矩阵分解不同的是,NCF不是用内积,而是利用多层感知机这一典型的深度学习结构,对用户特征和物品特征之间的深层关系进行建模,可以学习到更复杂的用户和物品之间的关系,也取得了更好的推荐效果。
虽然基于深度学习的推荐方法是推荐精度最高的。但是深度学习技术本身存在着需要大量参数来进行训练、超参数过多等缺点,从而会导致基于深度神经网络的推荐方法也会出现类似的问题。
深度森林是近年来提出的一种新的深度模型,不同于以往的深度学习以人工神经网络作为基础结构,深度森林以决策树作为基本组成部分。深度森林相比深度神经网络有着训练时间较短、能适应不同规模数据、超参数较少且稳定的特点。梯度提升是集成学习中的一种思路,可以按照一定的策略训练出一些弱学习器并最后获得一个强学习器。
因此,有必要设置一种结合梯度提升和深度森立的推荐技术,从而解决基于深度学习的推荐技术导致的训练过程复杂且超参数过多的问题。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种采用梯度提升深度森林进行文本对象推荐的方案,从而在保证与基于深度学习的推荐方案相当的推荐精度的同时,有效降低训练过程的复杂度,以及减少超参数数量。
步骤1:对文本对象进行预处理:
从用户与文本交互的平台的后台数据库中提取所有文本对象;
去除文本对象中的停用词,并统计在所有文本对象当中出现次数最多的D个词;其中D为预设值;
并基于所述D个词构造词典,基于所构造的词典为每个文本对象构建TF-IDF向量,作为文本对象的特征向量;
步骤2:构建用户和文本对象的交互矩阵Y:
所述交互矩阵Y的每一行表示一个用户,每一列表示一个文本对象,交互矩阵的元素的值为0或1,其中1表示当前用户与文本对象之间有交互历史;0表示当前用户与文本对象之间无交互历史;
步骤3:对已有数据进行负采样,并构建训练集:
将用户-文本对象对作为一个样本,并将用于与文本对象之间有交互历史的用户-文本对象对作为正样本并加入训练集中;
对于每一个正样本中的用户,随机从该用户未接触过的文本对象当中抽取num_negtive个文本对象,构成num_negtive个负样本并加入训练集中;
其中,正样本的真实标签为1,负样本的真实标签为0;
提取训练集中每个样本的特征向量,记为xi,其中,下标i表示训练集的样本区分符;
其中,样本的特征向量的提取方式为:
将样本对应的用户记为u,文本对象记为t;
从交互矩阵中提取用户u所在的行,记为Yu·,提取文本对象t所在的列,记为Y·t;
将Yu·、Y·t、文本对象t的TF-IDF向量Tt、用户u的辅助信息Su和文本对象t的辅助信息St进行拼接得到样本的特征向量xi;
步骤4:构建并训练梯度提升深度森林:
设置梯度提升深度森林的深度上限M;
所述梯度提升深度森林的每一层包括一定数量的决策树,所述决策树为分类与回归树;
对梯度提升深度森林的训练处理为:
每一层随机森林输入的样本的特征向量相同,输入的样本标签不同;
其中,第1层随机森林的输入的样本标签为真实样本标签yi;
α表示预置的学习率,hm-1(xi)表示特征向量xi在第m-1层的随机森林的输出结果(随机森林学习器);f0(xi)的取值为常数c;
步骤5:文本对象的推荐:
对每个用户,将未与当前用户存在交互历史的文本对象作为推荐备选对象;
基于交互矩阵Y,获取当前用户所在的行,以及每个推荐备选对象所在的列,基于当前用户的辅助信息,每个推荐备选对象的辅助信息及TF-IDF向量,得到当前用户与每个推荐备选对象的用户-文本对象对的特征向量;并输入到步骤4得到的文本对象推荐模型中,基于输出得到当前用户与每个推荐备选对象的交互概率预测值;
并对同一用户的所有交互概率预测值排序,选出交互概率预测值最大的K条文本对象构成推荐给当前用户的推荐列表。
综上所述,由于采用了上述技术方案,本发明的有益效果是:在与现有的深度学习推荐方法达到相当的推荐精度的同时,能够有效的降低模型超参数的数量,使得模型更加容易训练。另外,通过采用基于深度森林的推荐方法,本发明可以解决推荐方法的冷启动问题,在平台前期数据量不够充足的情况下也能取得不错的推荐效果。
附图说明
图1为本发明的梯度提升深度森林的处理过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
本发明针对现有的基于深度学习的推荐方法的推荐方案的不足,通过将梯度提升与深度森林结合,提出一种结合了梯度提升和深度森林的推荐模型,并将其用于推荐文本对象。即本发明将用户和文本对象的特征输入到所设置的推荐模型中,则会输出一个0-1的值,其代表了预测该用户会与该文本对象发生交互的可能性,即用户与文本对象的交互概率预测值。对每个用户,为其将未接触过的文本对象进行以交互概率预测值值从大到小的排序,其中排名前K的文本对象将作为推荐列表推荐给该用户。其具体实现步骤如下:
步骤1:对文本对象进行预处理。
去除文本对象中不包含有用信息的停用词,然后统计在所有文本当中出现次数最多的D个词,并将这N个词构造词典,基于所构造的词典为每个文本对象构建TF-IDF(TermFrequency-Inverse Document Frequency)向量,作为文本对象的表示,即文本对象的特征向量。
TF-IDF向量是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库(词典)中的重要程度。
步骤2:构建用户和文本对象的交互矩阵。
步骤3:对已有数据进行负采样,并构建训练集。
对于每个已在推荐系统中存在的用户和文本对象的交互记录,都作为正例加入训练集,即标签为1。对于训练集中的每个用户-文本对象对,都随机从该用户未接触过的文本对象当中抽取num_negtive(超参数)个加入训练集作为负例,即标签为0。本具体实施方式中,可以将训练集中的负采样比例设置为1:4或1:2,即num_negtive的取值为2或4。
对于训练集中的每个样本(用户-文本对象对),其标签为0或1。若一个样本中,用户为u,文本对象为t,则样本特征xut为用户交互行Yu·,文本对象交互列Y·t,文本对象的TF-IDF向量Tt,用户辅助信息(如年龄、地区、职业等)Su与文本对象辅助信息St(如所属类型、发文单位等)拼接而成。可以表示为:
xut=concat(Yu·,Y·t,Tt,Su,St)
步骤4:构建并训练梯度提升深度森林。
本发明中用到的随机森林中的决策树均为CART(Classification AndRegression Trees)回归树,即分类与回归树。采用的损失函数为误差平方和,若将预测函数表示为f(x),则误差平方和的公式可以表示为:
其中,y表示真实标签向量,x表示样本的特征向量,yi表示第i个训练样本的真实标签,f(xi)表示第i个训练样本的特征信息xi的预测结果。
在模型的开始,使用一个常数函数f0(x)=c来初始化模型,常数c的选择如下所示:
在训练第m层时,对该层的随机森林进行训练时,训练集中样本的特征保持不变,样本i的标签rmi变为已经有的弱学习器的预测结果与真实标签的伪残差,计算方式如下:
rmi=yi-fm-1(xi)
在第m层,以rm为标签进行训练,得到第m层训练出的随机森林学习器hm(x)。则由第1到第m-1层森林得到的函数fm-1(x)和第m层得到的随机森林学习器hm(x)组合可以得到一个强学习器fm(x),其公式如下:
fm(x)=fm-1(x)+αhm(x)
且第1层随机森林的输入的样本标签为真实样本标签yi;
然后判断当前深度数是否达到预设的上限M或者第层的损失函数是否满足预置的收敛条件;若是,则训练结束,得到训练好的梯度提升深度森林,对应的深度数为否则增加梯度提升深度森林的深度数即继续增加一层随机森林,并继续训练。
参见图1,经过训练后得到的梯度提升深度森林的深度为M,共包括M层随机森林,每一层包括一定数量的决策树(CART回归树),第1层随机森林的输入为样本的真实标签向量Y和特征向量X,在训练时,第2~M层的样本标签都在变化,即将已经有的弱学习器的预测结果与真实标签的伪残差作为下一层的样本标签;结合所有层的预测结果,得到最终的预测结果。对于文本对象推荐而言,其最后输出的结果是一个0~1的值,代表了用户与当前文本对象的交互概率预测值。
步骤5:文本对象的推荐。
基于训练好的梯度提升深度森林,对每个用户,预测其与未接触过的文本对象的交互概率。即将未与当前用户接触过的文本对象对应的特征信息(与样本特征相同)输入训练好的梯度提升深度森林,基于输出得到当前用户与当前文本对象的交互概率预测值,然后对所有未接触过的文本对象的交互概率预测值排序,选出交互概率预测值最大的K条文本对象构成推荐给该用户的推荐列表。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (4)
1.基于深度森林的文本对象推荐方法,其特征在于,包括下列步骤:
步骤1:对文本对象进行预处理:
从用户与文本交互的平台的后台数据库中提取所有文本对象;
去除文本对象中的停用词,并统计在所有文本对象当中出现次数最多的D个词;其中D为预设值;
并基于所述D个词构造词典,基于所构造的词典为每个文本对象构建TF-IDF向量,作为文本对象的特征向量;
步骤2:构建用户和文本对象的交互矩阵Y:
所述交互矩阵Y的每一行表示一个用户,每一列表示一个文本对象,交互矩阵的元素的值为0或1,其中1表示当前用户与文本对象之间有交互历史;0表示当前用户与文本对象之间无交互历史;
步骤3:对已有数据进行负采样,并构建训练集:
将用户-文本对象对作为一个样本,并将用于与文本对象之间有交互历史的用户-文本对象对作为正样本并加入训练集中;
对于每一个正样本中的用户,随机从该用户未接触过的文本对象当中抽取num_negtive个文本对象,构成num_negtive个负样本并加入训练集中;
其中,正样本的真实标签为1,负样本的真实标签为0;
提取训练集中每个样本的特征向量,记为xi,其中,下标i表示训练集的样本区分符;
其中,样本的特征向量的提取方式为:
将样本对应的用户记为u,文本对象记为t;
从交互矩阵中提取用户u所在的行,记为Yu.,提取文本对象t所在的列,记为Y.t;
将Yu.、Y.t、文本对象t的TF-IDF向量Tt、用户u的辅助信息Su和文本对象t的辅助信息St进行拼接得到样本的特征向量xi;
步骤4:构建并训练梯度提升深度森林:
设置梯度提升深度森林的深度上限M;
所述梯度提升深度森林的每一层包括一定数量的决策树,所述决策树为分类与回归树;
对梯度提升深度森林的训练处理为:
每一层随机森林输入的样本的特征向量相同,输入的样本标签不同;
其中,第1层随机森林的输入的样本标签为真实样本标签yi;
α表示预置的学习率,取值范围为0-1,hm-1(xi)表示特征向量xi在第m-1层的随机森林的输出结果,f0(xi)的取值为常数c;
步骤5:文本对象的推荐:
对每个用户,将未与当前用户存在交互历史的文本对象作为推荐备选对象;
基于交互矩阵Y,获取当前用户所在的行,以及每个推荐备选对象所在的列,基于当前用户的辅助信息,每个推荐备选对象的辅助信息及TF-IDF向量,得到当前用户与每个推荐备选对象的用户-文本对象对的特征向量;并输入到步骤4得到的文本对象推荐模型中,基于输出得到当前用户与每个推荐备选对象的交互概率预测值;
并对同一用户的所有交互概率预测值排序,选出交互概率预测值最大的K条文本对象构成推荐给当前用户的推荐列表。
2.如权利要求1所述的方法,采用的损失函数为误差平方和。
3.如权利要求1所述的方法,其特征在于,num_negtive的取值为2或4。
4.如权利要求1所述的方法,其特征在于,学习率α的取值范围设置为:0.1-0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911231215.3A CN111078834B (zh) | 2019-12-05 | 2019-12-05 | 基于深度森林的文本对象推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911231215.3A CN111078834B (zh) | 2019-12-05 | 2019-12-05 | 基于深度森林的文本对象推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078834A CN111078834A (zh) | 2020-04-28 |
CN111078834B true CN111078834B (zh) | 2021-10-26 |
Family
ID=70312909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911231215.3A Active CN111078834B (zh) | 2019-12-05 | 2019-12-05 | 基于深度森林的文本对象推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078834B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11392769B2 (en) * | 2020-07-15 | 2022-07-19 | Fmr Llc | Systems and methods for expert driven document identification |
CN112052386B (zh) * | 2020-08-10 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 信息推荐方法、装置和存储介质 |
CN114896436B (zh) * | 2022-06-14 | 2024-04-30 | 厦门大学 | 一种基于表征互信息的网络结构搜索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241427A (zh) * | 2018-09-04 | 2019-01-18 | 中国平安人寿保险股份有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN109948726A (zh) * | 2019-03-28 | 2019-06-28 | 湘潭大学 | 一种基于深度森林的电能质量扰动分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10929383B2 (en) * | 2017-08-11 | 2021-02-23 | International Business Machines Corporation | Method and system for improving training data understanding in natural language processing |
-
2019
- 2019-12-05 CN CN201911231215.3A patent/CN111078834B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241427A (zh) * | 2018-09-04 | 2019-01-18 | 中国平安人寿保险股份有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN109948726A (zh) * | 2019-03-28 | 2019-06-28 | 湘潭大学 | 一种基于深度森林的电能质量扰动分类方法 |
Non-Patent Citations (2)
Title |
---|
BCDForest: a boosting cascade deep forest model towards the classification of cancer subtypes based on gene expression data;Yang Guo等;《BMC Bioinformatics》;20181231;全文 * |
卷积神经网络结合深度森林的无参考图像质量评价;陈寅栋等;《激光与光电子学进展》;20190630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111078834A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN111078834B (zh) | 基于深度森林的文本对象推荐方法 | |
CN113609859A (zh) | 一种基于预训练模型的特种设备中文命名实体识别方法 | |
CN110427461A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN112241626B (zh) | 一种语义匹配、语义相似度模型训练方法及装置 | |
CN109145292B (zh) | 释义文本深度匹配模型构建方法与释义文本深度匹配方法 | |
CN111950283B (zh) | 面向大规模医疗文本挖掘的中文分词和命名实体识别系统 | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
Vimali et al. | A text based sentiment analysis model using bi-directional lstm networks | |
CN109271636B (zh) | 词嵌入模型的训练方法及装置 | |
Zhao et al. | Sentimental prediction model of personality based on CNN-LSTM in a social media environment | |
CN116245110A (zh) | 基于图注意力网络的多维度信息融合用户立场检测方法 | |
CN112632377B (zh) | 一种基于用户评论情感分析与矩阵分解的推荐方法 | |
Mechti et al. | A decision system for computational authors profiling: From machine learning to deep learning | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Wang et al. | Design of Deep Learning Mixed Language Short Text Sentiment Classification System Based on CNN Algorithm | |
Saha et al. | The Corporeality of Infotainment on Fans Feedback Towards Sports Comment Employing Convolutional Long-Short Term Neural Network | |
CN111914084A (zh) | 一种基于深度学习的带有情感标签文本生成及评估系统 | |
CN116186562A (zh) | 基于编码器的长文本匹配方法 | |
CN109190703A (zh) | 基于dnn的多态蠕虫特征码自动提取方法 | |
CN112329449B (zh) | 基于情感词典和Transformer的情感分析方法 | |
CN114781356A (zh) | 一种基于输入共享的文本摘要生成方法 | |
CN114298011A (zh) | 神经网络、训练方法、方面级情感分析方法、装置及存储介质 | |
CN113111257A (zh) | 一种基于协同过滤的融合多源异构信息的推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |