CN110968675B

CN110968675B - 一种基于多领域语义融合的推荐方法及系统

Info

Publication number: CN110968675B
Application number: CN201911232045.0A
Authority: CN
Inventors: 何泾沙; 李想; 朱娜斐; 侯自强; 张琨; 杨玥
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2023-03-31
Anticipated expiration: 2039-12-05
Also published as: CN110968675A

Abstract

本发明公开了一种基于多领域语义融合的推荐方法与系统，通过构建语义本体，利用skip‑gram模型实现不同领域中本体类型的融合，从而实现项目的跨领域融合，得到跨领域项目相似度，再根据领域相关度排序迭代多个领域的数据，生成最终的用户‑项目评分矩阵，最后结合协同过滤方法实现跨领域推荐，为用户推荐跨领域项目。本发明可以有效缓解单一领域推荐中存在的数据稀疏和冷启动问题，同时优化了基于语义的跨域推荐方法，避免了人工标签等形式的大量人力工作。

Description

一种基于多领域语义融合的推荐方法及系统

技术领域

本发明涉及跨领域推荐技术领域，具体涉及一种基于多领域语义融合的推荐方法及系统。

背景技术

如今，互联网和信息技术飞速发展，海量的数据呈指数日益增多，信息过载问题日趋严重。用户想从海量的文本、商品、图片、视频等资源中找到符合自己要求的信息变得十分困难。搜索引擎作为传统的信息检索方法难以满足用户个性化的需求，而个性化的推荐系统则成为解决上述问题的关键技术之一。这一技术已被广泛的应用于电子商务，社交网络以及新闻资讯等领域中。该技术通过对用户的历史行为信息进行分析整合，统计出不同用户的兴趣偏好，利用相关项目及相关用户信息，实现有效的个性化推荐方法。

协同过滤技术利用用户的历史行为数据，分析用户偏好情况，通过与目标用户相似的辅助用户或与目标项目相似的辅助项目，预测目标用户对目标项目的评分，从而实现对目标用户的推荐。协同过滤技术不需要用户或项目的具体内容属性信息作为推荐依据，实现过程简单，推荐效果显著，是当今推荐系统中最为有效且应用最为广泛的一项技术。

但协同过滤技术应用于单一领域中仍存在着冷启动和数据稀疏的问题，绝大多数用户的历史行为数据仅针对于极少的项目，形成的用户-项目评分矩阵极为稀疏，单一领域中的数据无法应用于其他领域。而研究表明，来自于不同领域的用户兴趣偏好之间存在很强的关联性和依赖性。例如，一般情况下，喜欢阅读儿童小说的用户更倾向于观看动画片，喜欢观看历史记录影片的用户更倾向于购买历史类书籍。

基于上述现象，研究人员提出了一种跨领域推荐技术，即利用辅助领域中用户-项目信息，预测目标用户的兴趣偏好，为目标用户推荐目标领域中的相关项目，达到更为精准的推荐结果。该项技术可以有效的缓解传统推荐系统中的冷启动问题和数据稀疏问题，满足用户的个性化需求，增强推荐项目的多样性，提高用户的满意度。

现有的跨领域推荐技术大致分为以下三种：基于协同过滤的跨域推荐、基于迁移学习的跨域推荐、基于语义的跨域推荐。其中，基于语义的跨域推荐方法应用场景最为广泛，尤其是在弱相关领域中的推荐效果明显优于前两种方式；但基于语义的跨域推荐方法也存在着很多缺点，比如通过打情感标签的方式进行跨领域推荐，则需要大量人力为各领域物品打标签，实现起来太过复杂，工作量过大，计算复杂度高。

发明内容

针对上述问题中存在的不足之处，本发明提供一种基于多领域语义融合的推荐方法与系统。

本发明公开了一种基于多领域语义融合的推荐方法，包括：

S1、计算目标领域A中的项目p所属类别与辅助领域B中项目q所属类别的语义相似度；

S2、根据项目p与项目q之间所属类别的语义相似度，计算出项目p与项目q之间基于项目的语义相似度；

S3、根据项目p与项目q之间基于项目的语义相似度，找到与目标领域中目标项目p相似度大且目标用户U评分过的项目q，组成项目p的最近邻；

S4、预测用户对项目p的评分值；

S5、重复上述步骤，为目标领域每个符合上述条件的项目p计算预测评分值；

S6、根据领域相关度从低到高的顺序，利用N个源领域中已评分项目数据依次计算，得到目标用户对目标领域中未评分项目的预测评分，填入用户-项目评分矩阵；

S7、将得到的用户评分数据合并至目标领域，利用用户相似度度量方法，为用户U找到与其最相似的用户N的集合；

S8、根据计算得到用户U对目标领域A中所有未评分项目p的预测评分值且与用户U最相似的K个用户的集合；

S9、得到用户U对目标领域A中未评分项目的最终预测评分，根据实际需求可以将预测评分值最高的n个项目推荐给用户U。

作为本发明的进一步改进，所述S1，包括：

S11、分别确定目标领域A与辅助领域B的类别的总数，创建目标领域A与辅助领域B的项目类别并将目标领域A与辅助领域B中的每个项目分配到对应的类别中；

S12、在目标领域A与辅助领域B构建好的分类语义网络中，利用skip-gram模型训练所需的语料库，得到目标领域A中各分类与辅助领域B中各分类之间的语义相似度；

S13、利用项目q在辅助领域B中的本体分类情况，将其表示为二进制向量；

S14、结合目标领域A和辅助领域B的相似度系数矩阵，计算项目q与目标领域A中各分类的相关情况，当项目q在目标领域A中某一分类的相关度大于预设阈值时，则判断为项目q属于目标领域A中的对应分类。

作为本发明的进一步改进，所述S13，包括：

V_qB＝(V_q,1,V_q,2,…,V_q,f)

式中，V_qB为项目q在辅助领域B中的二进制向量，f表示辅助领域B中的各个分类。

作为本发明的进一步改进，所述S14，包括：

V_qA＝(V_q,1,V_q,2,…,V_q,g)

式中，V_qA为项目q属于目标领域A中的对应分类，η为阈值，SemSim_i,g为辅助领域B中的类别i为目标领域A中的类别g的相似度。

作为本发明的进一步改进，所述S2，包括：

S21、将项目p表示为一个同样关于目标领域A中各类别的二进制向量；

S22、结合Jaccard相似系数可以得到项目p与项目q的相似度。

作为本发明的进一步改进，所述S21，包括：

V_pA＝(V_p,1,V_p,2,…,V_p,g)

式中，V_pA为项目p在目标领域A中的二进制向量，g表示目标领域A中的各个分类。

作为本发明的进一步改进，所述S22，包括：

式中，SemSimp_p,q为项目p与项目q的相似度，C11表示V_p,g为1且V_q,g为1的类别总数，C01表示V_p,g为0且V_q,g为1的类别总数，C10表示V_p,g为1且V_q,g为0的类别总数。

作为本发明的进一步改进，所述S4，包括：

式中，r_Up为用户U对项目p的评分值，r_Uq为用户U对项目q的评分值。

作为本发明的进一步改进，在所述S4中，

迭代过程中，若无预测评分，则直接填入预测评分

若已有预测评分，则取原有预测评分与当前预测评分的均值作为新的预测评分。

本发明还公开了一种基于多领域语义融合的推荐系统，所述推荐系统用于实现如上述推荐方法所述的S1～S9。

与现有技术相比，本发明的有益效果为：

本发明利用语义分析方法与协同过滤算法克服传统推荐算法存在的不足，同时满足了用户的个性化需求。该算法得到目标领域A及领域B的本体信息作为输入，生成用户-项目预测矩阵作为输出。通过语义分析实现目标用户在某一领域中已评分项目的跨领域分类；然后利用跨领域分类项目与目标领域原有项目之间的项目相似度实现项目的领域迁移；再判断是否还有其他领域数据，若有，则从算法开始处循环计算直至所有领域的项目数据完成该步骤的计算；最后根据目标用户-项目评分矩阵，利用协同过滤方法计算得出目标用户对目标领域中各项目的预测评分，从而实现为目标用户的跨领域推荐；

本发明可以有效缓解单一领域推荐中存在的数据稀疏和冷启动问题，同时优化了基于语义的跨域推荐方法，避免了人工标签等形式的大量人力工作。

附图说明

图1是本发明的一个实施例的基于多领域语义融合的推荐方法的流程图；

图2是本发明的一个实施例的跨领域分类融合的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供一种基于多领域语义融合的推荐方法与系统，包括：

S1、构建领域本体，将其表示为具有两个层次节点的树层次结构，第一级包含每个项都可能属于的主要项类别，第二级包含作为叶节点的项；

S2、得到目标领域A及辅助领域B的本体信息作为输入，其中p项目属于目标领域A，q项目属于辅助领域B；

S3、在已为目标领域A和辅助领域B构建好的分类语义网络中，利用skip-gram模型训练适当的语料库；

S4、计算目标领域本体中各分类与其他领域本体中各分类之间的语义相似度；

S5、根据领域间的分类相似度，可以利用项目q在辅助领域B中的本体分类情况，如式(1)所示，将其表示为二进制向量V_qB，其中f表示领域B中的各个分类；

V_qB＝(V_q,1,V_q,2,…,V_q,f) (1)

S6、如式(2)所示，计算项目q与目标领域A中各分类g的相关情况，η∈[0,1]，其中η取值越大，表示项目q越符合目标领域A中的g类型特征，假设取阈值为η＝0.4；

S7、如式(3)所示，利用预测值生成二进制向量V_qA表示项目q在目标领域A的分类情况，得出辅助领域B中各项目在目标领域A中的分类；

V_qA＝(V_q,1,V_q,2,…,V_q,g),分类g属于A领域 (3)

例如，为电影q(假设电影领域仅包括动作，冒险，动画，喜剧四种类型，q在电影领域中的原始类型为动作和动画)分类为图书领域(假设图书领域仅分为传记，儿童，小说，健康，惊悚，幽默，魔幻七种类型)中对应的类型。则电影q的二进制向量表示为V_qB＝(1,0,1,0)，根据得到的类别相似度系数矩阵及公式(2)得出V_qA＝(0,0,0,0,1,1,0)(假设得到电影领域中动作和动画类型与图书领域中惊悚，幽默的相似度大于阈值)，即可以将电影q分类为图书领域中的惊悚和幽默类型，表示喜欢电影q的用户有可能喜欢惊悚和幽默类型的图书。

S8、将项目p表示为一个同样关于目标领域A中各类别的二进制向量，如式(4)(5)所示，其中V_pA为项目p的向量值，g为主要项目类别的总数；

V_pA＝(V_p,1,V_p,2,…,V_p,g) (4)

S9、结合Jaccard相似系数可以得到项目p与项目q的相似度SemSimp_p,q，即为式(6)所示，C11表示V_p,g为1且V_q,g为1的类别总数；C01表示V_p,g为0且V_q,g为1的类别总数；C10表示V_p,g为1且V_q,g为0的类别总数。

例如，如图2所示，图书p₁＝(1,0,1,0,0,1,0)和p₂＝(0,1,0,1,1,0,0)分别为图书领域中各分类的二进制向量表示，电影q＝(0,0,0,0,1,1,0)也为图书领域中各分类的二进制向量表示。计算基于图书p₁和电影q之间的语义相似度，首先获得C₁₁、C₀₁和C₁₀。C11＝1(幽默类别中两向量的值均为1)，C₀₁＝1(惊悚类别中两向量的值分别为0和1)，C₁₀＝2(传记和小说类别中两向量的值分别为1和0)。然后根据(6)，基于图书p₁和电影q之间的语义相似度即为0.25(1/(1+1+2)＝0.25)。同样，图书p₂和电影q之间的语义相似度即为0.67(2/(0+2+1)＝0.67)。

S10、找到与目标领域中目标项目p相似度较大(本文确定相似度阈值为ζ)且用户U评分过的项目q，即满足SemSim_p,q>ζ且r_Uq≠0的所有项目组成项目p的最近邻记为itemNeighbor(U,p)；

S11、采用式(7)(r_Up＝0)预测用户U对项目p的评分值；

S12、按此方法，为目标领域每个符合上述条件的项目p计算预测评分值；

S13、根据领域相关度从低到高的顺序，按上述方法利用N个源领域中已评分项目数据依次计算，得到目标用户对目标领域中未评分项目的预测评分，填入用户-项目评分矩阵，迭代过程中，若无预测评分，则直接填入预测评分，若已有预测评分，则取原有预测评分与当前预测评分的均值作为新的预测评分，如式(7)所示。

S14、将得到的用户评分数据合并至目标领域，利用用户相似度度量方法，为用户U找到与其最相似的用户N的集合；

假设采用Pearson相似度系数作为用户相似度的度量标准，则如式(8)所示，CR(U,N)表示用户U和用户N共同评价过的项目集合，

分别表示用户U和用户N对所有项目的平均评分值。

S15、得到用户U对目标领域A中所有未评分项目p的预测评分值如式(9)所示，其中，neighbors(U)即为评价过项目p，且与用户U最相似的K个用户的集合。

S16、得到用户U对目标领域A中未评分项目的最终预测评分，根据实际需求可以将预测评分值最高的n个项目(top-N)推荐给用户U。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。