CN110209933A - 一种基于回归树上下文特征自动编码的偏置张量分解方法 - Google Patents
一种基于回归树上下文特征自动编码的偏置张量分解方法 Download PDFInfo
- Publication number
- CN110209933A CN110209933A CN201910416222.4A CN201910416222A CN110209933A CN 110209933 A CN110209933 A CN 110209933A CN 201910416222 A CN201910416222 A CN 201910416222A CN 110209933 A CN110209933 A CN 110209933A
- Authority
- CN
- China
- Prior art keywords
- mik
- biasing
- indicate
- user
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于回归树上下文特征自动编码的偏置张量分解方法,属于个性化推荐领域,本申请首先提出了用于上下文感知推荐的偏置张量分解模型,然后针对张量分解模型的模型参数随上下文类别呈指数增长的问题,提出了基于回归树上下文自动编码的偏置张量分解算法,提高了推荐系统的推荐精度,解决了上下文维数过多的问题。
Description
技术领域
本发明属于个性化推荐领域,具体涉及一种基于回归树上下文特征自动编码的偏置张量分解方法。
背景技术
互联网和移动通讯设备的发展使得信息的产生和获取变得越来越容易,为了帮助用户解决信息过载问题,诞生了两种互联网技术,分别是搜索引擎和推荐系统。
其中推荐系统的主要任务是综合用户的历史行为等信息,向用户提供个性化的信息服务。其原理是分析和挖掘用户和物品间的二元关系,进而帮助用户从海量的信息中找到他们最有可能感兴趣的信息,从而大大减少用户找到有用信息的时间,改善用户体验。
传统的推荐算法仅利用用户的行为数据来挖掘用户兴趣。这类算法是基于用户的兴趣不会在短期内发生变化这一假设,因而可以通过历史数据训练出模型来对用户将来的兴趣进行预测。事实上,这一假设只适用于部分场景。虽然用户的一般兴趣可能相对稳定,但是用户的兴趣还受很多额外因素的影响。例如,在电影推荐系统中,用户对电影的需求与观影时间(如春节、圣诞节、情人节等),以及观影时的同伴(如情侣、父母、同学、同事等)有关。在推荐过程中使用上下文信息,有助于向用户提供更加个性化的推荐。
张量分解是较常用的上下文推荐算法,通过把数据建模成用户-物品-上下文N维张量的形式,张量分解可以灵活地整合上下文信息。然后通过基于已知数据对张量进行分解可以求得模型参数并依据该模型对新的数据进行预测。但是现有的张量分解算法存在以下问题:
1、未考虑用户偏置、物品偏置、上下文偏置及全局平均分等因素对评分的影响;
2、张量分解模型的模型参数随上下文类别呈指数增长,计算成本高。
发明内容
针对现有技术中存在的上述技术问题,本发明提出了一种基于回归树上下文特征自动编码的偏置张量分解方法,设计合理,克服了现有技术的不足,具有良好的效果。
为了实现上述目的,本发明采用如下技术方案:
一种基于回归树上下文特征自动编码的偏置张量分解方法,包括如下步骤:
步骤1:输入:b,U,V,C,λ,α;
其中,b表示偏置信息,U表示用户特征矩阵,V表示物品特征矩阵,C表示上下文特征矩阵,λ表示正则化参数,α表示学习率;
步骤2:计算μ,bm,bi并构造{(feature1,target1),...,(featuren,targetn)};
其中,μ表示全局平均分,bm表示用户偏置,bi表示物品偏置,featuren表示训练样本n中的上下文特征,targetn为用户打分去掉全局平均分、用户偏置、物品偏置后剩余的部分;
步骤3:训练回归树T,构造新上下文特征;
步骤4:随机初始化bm,bi,bk,Um,Vi,Ck;
步骤5:当ymik∈Y′时,计算目标函数
其中,Y′表示原评分张量Y中非空的部分,ymik和fmik分别代表用户m在上下文k下对物品i的实际评分和预测评分,bk表示上下文偏置,Umd表示用户m的D维隐语义向量的第d个元素,Vid表示物品i的D维隐语义向量的第d个元素,Ckd表示上下文k的D维隐语义向量的第d个元素;
步骤6:按如下公式迭代目标函数中各个因子;
bm←bm+α·(ymik-fmik-λ·bm);
bi←bi+α·(ymik-fmik-λ·bi);
bk←bk+α·(ymik-fmik-λ·bk);
Um←Um+α·(Vi⊙Ck·(ymik-fmik)-λ·Um);
Vi←Vi+α·(Um⊙Ck·(ymik-fmik)-λ·Vi);
Ck←Ck+α·(Um⊙Vi·(ymik-fmik)-λ·Ck);
其中,⊙表示向量对应元素相乘的运算;
步骤7:使用SGD(Stochastic gradient descent,随机梯度下降)方法对目标函数进行优化,通过SGD方法遍历训练集中的每一个评分,对步骤6中的目标函数中的参数进行更新,然后通过计算RMSE(Root Mean Squared Error,均方根误差),判断训练模型是否收敛;
若:前后两次优化得到的均方根误差的差值小于设定的极小值,则判断为已收敛,然后执行步骤8;
或前后两次优化得到的均方根误差的差值大于或者等于设定的极小值,则判断为未收敛,然后执行步骤5;
步骤8:输出:b,U,V,C及回归树T;
步骤9:结束。
本发明所带来的有益技术效果:
1、针对当前基于张量分解的上下文感知推荐算法未考虑用户偏置、物品偏置、上下文偏置及全局平均分等因素对评分的影响的问题,本申请首先提出了用于上下文感知推荐的偏置张量分解模型。
2、针对张量分解模型的模型参数随上下文类别呈指数增长的问题,本申请提出了基于回归树的上下文特征自动编码算法,并将该算法与偏置张量分解算法相结合,提出了基于回归树上下文自动编码的偏置张量分解算法。
3、与当前已有的张量分解算法对比,本申请提高了推荐系统的推荐精度,解决了上下文维数过多的问题。
附图说明
图1为基于回归树的自动上下文特征编码示意图。
图2为本发明方法的流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
1、问题形式化定义
本申请将来自M个用户在K种上下文条件下对N个物品的打分记作张量Y。Y包含M×N×K个记录,每个记录表示用户m在上下文k下对物品i的打分,记作ymik,|Y|表示Y中非零元素的数量,Ymk表示用户m在上下文k下对所有物品的评分向量。
矩阵分解模型的思想是使用低维矩阵来近似原始的交互矩阵。本申请使用张量分解对用户-物品-上下文交互信息进行建模,该方法将隐语义特征存储在和个矩阵中,本申请用Um表示用户m的D维隐语义向量,相应的分别用Vi和Ck表示物品i和上下文k的D维隐语义向量。
使用CP分解算法对张量进行分解,将用户m在上下文k下对物品i的评分建模如下:
其中,fmik代表用户m在上下文k下对物品i的预测评分,Umd表示用户m的D维隐语义向量的第d个元素,Vid表示物品i的D维隐语义向量的第d个元素,Ckd表示上下文k的D维隐语义向量的第d个元素;
2、偏置张量分解模型
本申请在模型(1)的基础上进行改进,增加了全局平均分、用户偏置、物品偏置和上下文偏置,改进后的模型如下:
其中,μ代表全局平均分,bm、bi、bk分别代表用户偏置、物品偏置与上下文偏置。
在这个模型中,观测评分被分解成5个部分:全局平均分、用户偏置、物品偏置、上下文偏置以及用户-物品-上下文的交互作用,这使得每个分量只解释评分中与其相关的部分。为了防止过拟合,加入L2范数得到优化目标为:
其中,ymik代表用户m在上下文k下对物品i的实际评分,fmik代表用户m在上下文k下对物品i的预测评分,Um表示用户m的D维隐语义向量,相应的Vi和Ck分别表示物品i和上下文k的D维隐语义向量,bm、bi、bk分别代表用户偏置、物品偏置与上下文偏置,λ为正则化参数。
本申请使用SGD(Stochastic gradient descent,随机梯度下降)方法对目标函数进行优化,SGD方法遍历训练集中的每一个评分,对模型中的参数进行更新。
训练过程详见图2。
3、基于回归树的上下文特征自动编码
本申请针对传统张量模型参数随上下文维度呈指数增长的问题,提出一种基于回归树的上下文特征编码机制,通过控制回归树的深度,不仅可以有效地控制上下文维度,同时提高了算法的精度。
自动上下文特征编码如图1所示,其中featurei表示训练样本i中的上下文特征。考虑到全局平均分,用户偏置等因素的影响,回归树训练样本的目标值targeti为用户打分去掉全局平均分、用户偏置、物品偏置剩余的部分,即:
ymik←ymik-μ-bm-bi (4);
其中,ymik为用户m在上下文k下对物品i的实际评分,μ为全局平均分,bm、bi分别为用户偏置和物品偏置。
最后,将偏置张量分解与上下文特征自动编码相结合,提出基于回归树上下文特征自动编码的偏置张量分解方法,其流程如图2所示,其中α表示学习率,λ表示正则化参数,超参数α,λ的值可以通过交叉验证得到,具体包括如下:
(1)建立起多组超参数α,λ的组合;
(2)将数据集等分为10份,取其中一份为测试集,其余九份为训练集,循环十次;
(3)依次采用不同的超参数组合进行10次交叉验证,将每种超参数组合下的推荐结果取平均值进行比较,选择推荐精度最高的一组超参数组合。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (1)
1.一种基于回归树上下文特征自动编码的偏置张量分解方法,其特征在于:包括如下步骤:
步骤1:输入:b,U,V,C,λ,α;
其中,b表示偏置信息,U表示用户特征矩阵,V表示物品特征矩阵,C表示上下文特征矩阵,λ表示正则化参数,α表示学习率;
步骤2:计算μ,bm,bi并构造{(feature1,target1),…,featuren,targetn)};
其中,μ表示全局平均分,bm表示用户偏置,bi表示物品偏置,featuren表示训练样本n中的上下文特征,targetn为用户打分去掉全局平均分、用户偏置、物品偏置后剩余的部分;
步骤3:训练回归树T,构造新上下文特征;
步骤4:随机初始化bm,bi,bk,Um,Vi,Ck;
步骤5:当ymik∈Y′时,计算目标函数
其中,Y′表示原评分张量Y中非空的部分,ymik和fmik分别代表用户m在上下文k下对物品i的实际评分和预测评分,bk表示上下文偏置,Umd表示用户m的D维隐语义向量的第d个元素,Vid表示物品i的D维隐语义向量的第d个元素,Ckd表示上下文k的D维隐语义向量的第d个元素;
步骤6:按如下公式迭代目标函数中各个因子;
bm←bm+α·(ymik-fmik-λ·bm);
bi←bi+α·(ymik-fmik-λ·bi);
bk←bk+α·(ymik-fmik-λ·bk);
Um←Um+α·(Vi⊙Ck·(ymik-fmik)-λ·Um);
Vi←Vi+α·(Um⊙Ck·(ymik-fmik)-λ·Vi);
Ck←Ck+α·(Um⊙Vi·(ymik-fmik)-λ·Ck);
其中,⊙表示向量对应元素相乘的运算;
步骤7:使用随机梯度下降方法对目标函数进行优化,通过随机梯度下降方法遍历训练集中的每一个评分,对步骤6中的目标函数中的参数进行更新,然后通过计算均方根误差,判断训练模型是否收敛;
若:前后两次优化得到的均方根误差的差值小于设定的极小值,则判断为已收敛,然后执行步骤8;
或前后两次优化得到的均方根误差的差值大于或者等于设定的极小值,则判断为未收敛,然后执行步骤5;
步骤8:输出:b,U,V,C及回归树T;
步骤9:结束。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416222.4A CN110209933A (zh) | 2019-05-20 | 2019-05-20 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
PCT/CN2020/082641 WO2020233245A1 (zh) | 2019-05-20 | 2020-04-01 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910416222.4A CN110209933A (zh) | 2019-05-20 | 2019-05-20 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110209933A true CN110209933A (zh) | 2019-09-06 |
Family
ID=67787737
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910416222.4A Pending CN110209933A (zh) | 2019-05-20 | 2019-05-20 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110209933A (zh) |
WO (1) | WO2020233245A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020233245A1 (zh) * | 2019-05-20 | 2020-11-26 | 山东科技大学 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
CN113393303A (zh) * | 2021-06-30 | 2021-09-14 | 青岛海尔工业智能研究院有限公司 | 物品推荐方法、装置、设备及存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326433B (zh) * | 2021-03-26 | 2023-10-10 | 沈阳工业大学 | 一种基于集成学习的个性化推荐方法 |
CN115019933B (zh) * | 2022-06-16 | 2024-06-21 | 浙江工业大学 | 一种融合gmf及cdae的弱视训练方案推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103208041A (zh) * | 2012-01-12 | 2013-07-17 | 国际商业机器公司 | 使用上下文信息进行蒙特卡罗规划的方法和系统 |
CN105975496A (zh) * | 2016-04-26 | 2016-09-28 | 清华大学 | 一种基于上下文感知的音乐推荐方法及装置 |
CN106383865A (zh) * | 2016-09-05 | 2017-02-08 | 北京百度网讯科技有限公司 | 基于人工智能的推荐数据的获取方法及装置 |
CN106462626A (zh) * | 2014-06-13 | 2017-02-22 | 微软技术许可有限责任公司 | 利用深度神经网络对兴趣度建模 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982107B (zh) * | 2012-11-08 | 2015-09-16 | 北京航空航天大学 | 一种融合用户、项目和上下文属性信息的推荐系统优化方法 |
CN103136694A (zh) * | 2013-03-20 | 2013-06-05 | 焦点科技股份有限公司 | 基于搜索行为感知的协同过滤推荐方法 |
CN106649657B (zh) * | 2016-12-13 | 2020-11-17 | 重庆邮电大学 | 面向社交网络基于张量分解的上下文感知推荐系统及方法 |
CN108521586B (zh) * | 2018-03-20 | 2020-01-14 | 西北大学 | 兼顾时间上下文与隐式反馈的iptv电视节目个性化推荐方法 |
CN110209933A (zh) * | 2019-05-20 | 2019-09-06 | 山东科技大学 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
-
2019
- 2019-05-20 CN CN201910416222.4A patent/CN110209933A/zh active Pending
-
2020
- 2020-04-01 WO PCT/CN2020/082641 patent/WO2020233245A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103208041A (zh) * | 2012-01-12 | 2013-07-17 | 国际商业机器公司 | 使用上下文信息进行蒙特卡罗规划的方法和系统 |
CN106462626A (zh) * | 2014-06-13 | 2017-02-22 | 微软技术许可有限责任公司 | 利用深度神经网络对兴趣度建模 |
CN105975496A (zh) * | 2016-04-26 | 2016-09-28 | 清华大学 | 一种基于上下文感知的音乐推荐方法及装置 |
CN106383865A (zh) * | 2016-09-05 | 2017-02-08 | 北京百度网讯科技有限公司 | 基于人工智能的推荐数据的获取方法及装置 |
Non-Patent Citations (1)
Title |
---|
WENMIN WU.EG: "Improving performance of tensor-based context-aware recommenders using Bias Tensor Factorization with context feature auto-encoding", 《KNOWLEDGE-BASED SYSTEMS》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020233245A1 (zh) * | 2019-05-20 | 2020-11-26 | 山东科技大学 | 一种基于回归树上下文特征自动编码的偏置张量分解方法 |
CN113393303A (zh) * | 2021-06-30 | 2021-09-14 | 青岛海尔工业智能研究院有限公司 | 物品推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020233245A1 (zh) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209933A (zh) | 一种基于回归树上下文特征自动编码的偏置张量分解方法 | |
Chen et al. | Curriculum meta-learning for next POI recommendation | |
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN108875916B (zh) | 一种基于gru神经网络的广告点击率预测方法 | |
CN109460479A (zh) | 一种基于事理图谱的预测方法、装置和系统 | |
CN105912633A (zh) | 面向稀疏样本的聚焦式Web信息抽取系统及方法 | |
CN104166668A (zh) | 基于folfm模型的新闻推荐系统及方法 | |
CN105393263A (zh) | 计算机-人交互式学习中的特征完成 | |
CN102708130A (zh) | 计算用户微细分以用于要约匹配的可扩展引擎 | |
CN110910218A (zh) | 一种基于深度学习的多行为迁移推荐方法 | |
CN105760443A (zh) | 项目推荐系统、项目推荐装置以及项目推荐方法 | |
CN110175235A (zh) | 基于神经网络的智能商品税分类编码方法及系统 | |
US20240211496A1 (en) | Systems and Methods for Determining Entity Attribute Representations | |
CN112967112A (zh) | 一种自注意力机制和图神经网络的电商推荐方法 | |
CN112115264B (zh) | 面向数据分布变化的文本分类模型调整方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN110597956A (zh) | 一种搜索方法、装置及存储介质 | |
CN112464984A (zh) | 一种基于注意力机制和强化学习的自动特征构造方法 | |
CN115391553A (zh) | 一种自动搜索时序知识图谱补全模型的方法 | |
Yu et al. | “An image is worth a thousand features”: scalable product representations for in-session type-ahead personalization | |
Li et al. | Session Recommendation Model Based on Context‐Aware and Gated Graph Neural Networks | |
CN116703523A (zh) | 基于大数据的电子商务系统及其方法 | |
CN116974554A (zh) | 代码数据处理方法、装置、计算机设备和存储介质 | |
Wang et al. | Multi‐feedback Pairwise Ranking via Adversarial Training for Recommender | |
KR20240034804A (ko) | 자동 회귀 언어 모델 신경망을 사용하여 출력 시퀀스 평가 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190906 |