CN110968675B - 一种基于多领域语义融合的推荐方法及系统 - Google Patents
一种基于多领域语义融合的推荐方法及系统 Download PDFInfo
- Publication number
- CN110968675B CN110968675B CN201911232045.0A CN201911232045A CN110968675B CN 110968675 B CN110968675 B CN 110968675B CN 201911232045 A CN201911232045 A CN 201911232045A CN 110968675 B CN110968675 B CN 110968675B
- Authority
- CN
- China
- Prior art keywords
- item
- field
- user
- target
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多领域语义融合的推荐方法与系统,通过构建语义本体,利用skip‑gram模型实现不同领域中本体类型的融合,从而实现项目的跨领域融合,得到跨领域项目相似度,再根据领域相关度排序迭代多个领域的数据,生成最终的用户‑项目评分矩阵,最后结合协同过滤方法实现跨领域推荐,为用户推荐跨领域项目。本发明可以有效缓解单一领域推荐中存在的数据稀疏和冷启动问题,同时优化了基于语义的跨域推荐方法,避免了人工标签等形式的大量人力工作。
Description
技术领域
本发明涉及跨领域推荐技术领域,具体涉及一种基于多领域语义融合的推荐方法及系统。
背景技术
如今,互联网和信息技术飞速发展,海量的数据呈指数日益增多,信息过载问题日趋严重。用户想从海量的文本、商品、图片、视频等资源中找到符合自己要求的信息变得十分困难。搜索引擎作为传统的信息检索方法难以满足用户个性化的需求,而个性化的推荐系统则成为解决上述问题的关键技术之一。这一技术已被广泛的应用于电子商务,社交网络以及新闻资讯等领域中。该技术通过对用户的历史行为信息进行分析整合,统计出不同用户的兴趣偏好,利用相关项目及相关用户信息,实现有效的个性化推荐方法。
协同过滤技术利用用户的历史行为数据,分析用户偏好情况,通过与目标用户相似的辅助用户或与目标项目相似的辅助项目,预测目标用户对目标项目的评分,从而实现对目标用户的推荐。协同过滤技术不需要用户或项目的具体内容属性信息作为推荐依据,实现过程简单,推荐效果显著,是当今推荐系统中最为有效且应用最为广泛的一项技术。
但协同过滤技术应用于单一领域中仍存在着冷启动和数据稀疏的问题,绝大多数用户的历史行为数据仅针对于极少的项目,形成的用户-项目评分矩阵极为稀疏,单一领域中的数据无法应用于其他领域。而研究表明,来自于不同领域的用户兴趣偏好之间存在很强的关联性和依赖性。例如,一般情况下,喜欢阅读儿童小说的用户更倾向于观看动画片,喜欢观看历史记录影片的用户更倾向于购买历史类书籍。
基于上述现象,研究人员提出了一种跨领域推荐技术,即利用辅助领域中用户-项目信息,预测目标用户的兴趣偏好,为目标用户推荐目标领域中的相关项目,达到更为精准的推荐结果。该项技术可以有效的缓解传统推荐系统中的冷启动问题和数据稀疏问题,满足用户的个性化需求,增强推荐项目的多样性,提高用户的满意度。
现有的跨领域推荐技术大致分为以下三种:基于协同过滤的跨域推荐、基于迁移学习的跨域推荐、基于语义的跨域推荐。其中,基于语义的跨域推荐方法应用场景最为广泛,尤其是在弱相关领域中的推荐效果明显优于前两种方式;但基于语义的跨域推荐方法也存在着很多缺点,比如通过打情感标签的方式进行跨领域推荐,则需要大量人力为各领域物品打标签,实现起来太过复杂,工作量过大,计算复杂度高。
发明内容
针对上述问题中存在的不足之处,本发明提供一种基于多领域语义融合的推荐方法与系统。
本发明公开了一种基于多领域语义融合的推荐方法,包括:
S1、计算目标领域A中的项目p所属类别与辅助领域B中项目q所属类别的语义相似度;
S2、根据项目p与项目q之间所属类别的语义相似度,计算出项目p与项目q之间基于项目的语义相似度;
S3、根据项目p与项目q之间基于项目的语义相似度,找到与目标领域中目标项目p相似度大且目标用户U评分过的项目q,组成项目p的最近邻;
S4、预测用户对项目p的评分值;
S5、重复上述步骤,为目标领域每个符合上述条件的项目p计算预测评分值;
S6、根据领域相关度从低到高的顺序,利用N个源领域中已评分项目数据依次计算,得到目标用户对目标领域中未评分项目的预测评分,填入用户-项目评分矩阵;
S7、将得到的用户评分数据合并至目标领域,利用用户相似度度量方法,为用户U找到与其最相似的用户N的集合;
S8、根据计算得到用户U对目标领域A中所有未评分项目p的预测评分值且与用户U最相似的K个用户的集合;
S9、得到用户U对目标领域A中未评分项目的最终预测评分,根据实际需求可以将预测评分值最高的n个项目推荐给用户U。
作为本发明的进一步改进,所述S1,包括:
S11、分别确定目标领域A与辅助领域B的类别的总数,创建目标领域A与辅助领域B的项目类别并将目标领域A与辅助领域B中的每个项目分配到对应的类别中;
S12、在目标领域A与辅助领域B构建好的分类语义网络中,利用skip-gram模型训练所需的语料库,得到目标领域A中各分类与辅助领域B中各分类之间的语义相似度;
S13、利用项目q在辅助领域B中的本体分类情况,将其表示为二进制向量;
S14、结合目标领域A和辅助领域B的相似度系数矩阵,计算项目q与目标领域A中各分类的相关情况,当项目q在目标领域A中某一分类的相关度大于预设阈值时,则判断为项目q属于目标领域A中的对应分类。
作为本发明的进一步改进,所述S13,包括:
VqB=(Vq,1,Vq,2,…,Vq,f)
式中,VqB为项目q在辅助领域B中的二进制向量,f表示辅助领域B中的各个分类。
作为本发明的进一步改进,所述S14,包括:
VqA=(Vq,1,Vq,2,…,Vq,g)
式中,VqA为项目q属于目标领域A中的对应分类,η为阈值,SemSimi,g为辅助领域B中的类别i为目标领域A中的类别g的相似度。
作为本发明的进一步改进,所述S2,包括:
S21、将项目p表示为一个同样关于目标领域A中各类别的二进制向量;
S22、结合Jaccard相似系数可以得到项目p与项目q的相似度。
作为本发明的进一步改进,所述S21,包括:
VpA=(Vp,1,Vp,2,…,Vp,g)
式中,VpA为项目p在目标领域A中的二进制向量,g表示目标领域A中的各个分类。
作为本发明的进一步改进,所述S22,包括:
式中,SemSimpp,q为项目p与项目q的相似度,C11表示Vp,g为1且Vq,g为1的类别总数,C01表示Vp,g为0且Vq,g为1的类别总数,C10表示Vp,g为1且Vq,g为0的类别总数。
作为本发明的进一步改进,所述S4,包括:
式中,rUp为用户U对项目p的评分值,rUq为用户U对项目q的评分值。
作为本发明的进一步改进,在所述S4中,
迭代过程中,若无预测评分,则直接填入预测评分
若已有预测评分,则取原有预测评分与当前预测评分的均值作为新的预测评分。
本发明还公开了一种基于多领域语义融合的推荐系统,所述推荐系统用于实现如上述推荐方法所述的S1~S9。
与现有技术相比,本发明的有益效果为:
本发明利用语义分析方法与协同过滤算法克服传统推荐算法存在的不足,同时满足了用户的个性化需求。该算法得到目标领域A及领域B的本体信息作为输入,生成用户-项目预测矩阵作为输出。通过语义分析实现目标用户在某一领域中已评分项目的跨领域分类;然后利用跨领域分类项目与目标领域原有项目之间的项目相似度实现项目的领域迁移;再判断是否还有其他领域数据,若有,则从算法开始处循环计算直至所有领域的项目数据完成该步骤的计算;最后根据目标用户-项目评分矩阵,利用协同过滤方法计算得出目标用户对目标领域中各项目的预测评分,从而实现为目标用户的跨领域推荐;
本发明可以有效缓解单一领域推荐中存在的数据稀疏和冷启动问题,同时优化了基于语义的跨域推荐方法,避免了人工标签等形式的大量人力工作。
附图说明
图1是本发明的一个实施例的基于多领域语义融合的推荐方法的流程图;
图2是本发明的一个实施例的跨领域分类融合的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种基于多领域语义融合的推荐方法与系统,包括:
S1、构建领域本体,将其表示为具有两个层次节点的树层次结构,第一级包含每个项都可能属于的主要项类别,第二级包含作为叶节点的项;
S2、得到目标领域A及辅助领域B的本体信息作为输入,其中p项目属于目标领域A,q项目属于辅助领域B;
S3、在已为目标领域A和辅助领域B构建好的分类语义网络中,利用skip-gram模型训练适当的语料库;
S4、计算目标领域本体中各分类与其他领域本体中各分类之间的语义相似度;
S5、根据领域间的分类相似度,可以利用项目q在辅助领域B中的本体分类情况,如式(1)所示,将其表示为二进制向量VqB,其中f表示领域B中的各个分类;
VqB=(Vq,1,Vq,2,…,Vq,f) (1)
S6、如式(2)所示,计算项目q与目标领域A中各分类g的相关情况,η∈[0,1],其中η取值越大,表示项目q越符合目标领域A中的g类型特征,假设取阈值为η=0.4;
S7、如式(3)所示,利用预测值生成二进制向量VqA表示项目q在目标领域A的分类情况,得出辅助领域B中各项目在目标领域A中的分类;
VqA=(Vq,1,Vq,2,…,Vq,g),分类g属于A领域 (3)
例如,为电影q(假设电影领域仅包括动作,冒险,动画,喜剧四种类型,q在电影领域中的原始类型为动作和动画)分类为图书领域(假设图书领域仅分为传记,儿童,小说,健康,惊悚,幽默,魔幻七种类型)中对应的类型。则电影q的二进制向量表示为VqB=(1,0,1,0),根据得到的类别相似度系数矩阵及公式(2)得出VqA=(0,0,0,0,1,1,0)(假设得到电影领域中动作和动画类型与图书领域中惊悚,幽默的相似度大于阈值),即可以将电影q分类为图书领域中的惊悚和幽默类型,表示喜欢电影q的用户有可能喜欢惊悚和幽默类型的图书。
S8、将项目p表示为一个同样关于目标领域A中各类别的二进制向量,如式(4)(5)所示,其中VpA为项目p的向量值,g为主要项目类别的总数;
VpA=(Vp,1,Vp,2,…,Vp,g) (4)
S9、结合Jaccard相似系数可以得到项目p与项目q的相似度SemSimpp,q,即为式(6)所示,C11表示Vp,g为1且Vq,g为1的类别总数;C01表示Vp,g为0且Vq,g为1的类别总数;C10表示Vp,g为1且Vq,g为0的类别总数。
例如,如图2所示,图书p1=(1,0,1,0,0,1,0)和p2=(0,1,0,1,1,0,0)分别为图书领域中各分类的二进制向量表示,电影q=(0,0,0,0,1,1,0)也为图书领域中各分类的二进制向量表示。计算基于图书p1和电影q之间的语义相似度,首先获得C11、C01和C10。C11=1(幽默类别中两向量的值均为1),C01=1(惊悚类别中两向量的值分别为0和1),C10=2(传记和小说类别中两向量的值分别为1和0)。然后根据(6),基于图书p1和电影q之间的语义相似度即为0.25(1/(1+1+2)=0.25)。同样,图书p2和电影q之间的语义相似度即为0.67(2/(0+2+1)=0.67)。
S10、找到与目标领域中目标项目p相似度较大(本文确定相似度阈值为ζ)且用户U评分过的项目q,即满足SemSimp,q>ζ且rUq≠0的所有项目组成项目p的最近邻记为itemNeighbor(U,p);
S11、采用式(7)(rUp=0)预测用户U对项目p的评分值;
S12、按此方法,为目标领域每个符合上述条件的项目p计算预测评分值;
S13、根据领域相关度从低到高的顺序,按上述方法利用N个源领域中已评分项目数据依次计算,得到目标用户对目标领域中未评分项目的预测评分,填入用户-项目评分矩阵,迭代过程中,若无预测评分,则直接填入预测评分,若已有预测评分,则取原有预测评分与当前预测评分的均值作为新的预测评分,如式(7)所示。
S14、将得到的用户评分数据合并至目标领域,利用用户相似度度量方法,为用户U找到与其最相似的用户N的集合;
S15、得到用户U对目标领域A中所有未评分项目p的预测评分值如式(9)所示,其中,neighbors(U)即为评价过项目p,且与用户U最相似的K个用户的集合。
S16、得到用户U对目标领域A中未评分项目的最终预测评分,根据实际需求可以将预测评分值最高的n个项目(top-N)推荐给用户U。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于多领域语义融合的推荐方法,其特征在于,包括:
S1、计算目标领域A中的项目p所属类别与辅助领域B中项目q所属类别的语义相似度;其中,具体包括:
S11、分别确定目标领域A与辅助领域B的类别的总数,创建目标领域A与辅助领域B的项目类别并将目标领域A与辅助领域B中的每个项目分配到对应的类别中;
S12、在目标领域A与辅助领域B构建好的分类语义网络中,利用skip-gram模型训练所需的语料库,得到目标领域A中各分类与辅助领域B中各分类之间的语义相似度;
S13、利用项目q在辅助领域B中的本体分类情况,将其表示为二进制向量;
S14、结合目标领域A和辅助领域B的相似度系数矩阵,计算项目q与目标领域A中各分类的相关情况,当项目q在目标领域A中某一分类的相关度大于预设阈值时,则判断为项目q属于目标领域A中的对应分类;
S2、根据项目p与项目q之间所属类别的语义相似度,将项目p表示为一个同样关于目标领域A中各类别的二进制向量,结合Jaccard相似系数得到项目p与项目q的相似度;
S3、根据项目p与项目q之间基于项目的语义相似度,找到与目标领域中目标项目p相似度大且目标用户U评分过的项目q,组成项目p的最近邻;
S4、预测用户U对项目p的评分值;其中,
S5、重复上述步骤,为目标领域每个符合上述条件的项目p计算预测评分值;
S6、根据领域相关度从低到高的顺序,利用N个源领域中已评分项目数据依次计算,得到目标用户对目标领域中未评分项目的预测评分,填入用户-项目评分矩阵;
S7、将得到的用户评分数据合并至目标领域,利用用户相似度度量方法,为用户U找到与其最相似的用户N的集合;
S8、根据计算得到用户U对目标领域A中所有未评分项目p的预测评分值且与用户U最相似的K个用户的集合;
S9、得到用户U对目标领域A中未评分项目的最终预测评分,将预测评分值最高的n个项目推荐给用户U。
6.如权利要求1所述的推荐方法,其特征在于,在所述S4中,
迭代过程中,若无预测评分,则直接填入预测评分;
若已有预测评分,则取原有预测评分与当前预测评分的均值作为新的预测评分。
7.一种基于多领域语义融合的推荐系统,其特征在于,所述推荐系统用于实现如权利要求1-6中任一项所述的推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232045.0A CN110968675B (zh) | 2019-12-05 | 2019-12-05 | 一种基于多领域语义融合的推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911232045.0A CN110968675B (zh) | 2019-12-05 | 2019-12-05 | 一种基于多领域语义融合的推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110968675A CN110968675A (zh) | 2020-04-07 |
CN110968675B true CN110968675B (zh) | 2023-03-31 |
Family
ID=70033065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911232045.0A Active CN110968675B (zh) | 2019-12-05 | 2019-12-05 | 一种基于多领域语义融合的推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110968675B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417298B (zh) * | 2020-12-07 | 2021-06-29 | 中山大学 | 一种基于少量重叠用户的跨域推荐方法及系统 |
CN113342963B (zh) * | 2021-04-29 | 2022-03-04 | 山东大学 | 一种基于迁移学习的服务推荐方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447145A (zh) * | 2015-11-25 | 2016-03-30 | 天津大学 | 一种基于项目的迁移学习推荐方法及其推荐装置 |
CN108269172A (zh) * | 2018-01-18 | 2018-07-10 | 四川大学 | 基于综合相似度迁移的协同过滤算法 |
CN108596412A (zh) * | 2017-03-14 | 2018-09-28 | 华为软件技术有限公司 | 基于用户相似度的跨领域评分方法以及评分设备 |
CN109711925A (zh) * | 2018-11-23 | 2019-05-03 | 西安电子科技大学 | 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323725A1 (en) * | 2010-12-15 | 2012-12-20 | Fourthwall Media | Systems and methods for supplementing content-based attributes with collaborative rating attributes for recommending or filtering items |
-
2019
- 2019-12-05 CN CN201911232045.0A patent/CN110968675B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447145A (zh) * | 2015-11-25 | 2016-03-30 | 天津大学 | 一种基于项目的迁移学习推荐方法及其推荐装置 |
CN108596412A (zh) * | 2017-03-14 | 2018-09-28 | 华为软件技术有限公司 | 基于用户相似度的跨领域评分方法以及评分设备 |
CN108269172A (zh) * | 2018-01-18 | 2018-07-10 | 四川大学 | 基于综合相似度迁移的协同过滤算法 |
CN109711925A (zh) * | 2018-11-23 | 2019-05-03 | 西安电子科技大学 | 具有多个辅助域的跨域推荐数据处理方法、跨域推荐系统 |
Non-Patent Citations (2)
Title |
---|
cross domain recommender systems:a systematic literature review;MM Khan等;《ACM computing surveys》;20170629;第50卷(第3期);1-34 * |
基于协同过滤的推荐系统相关算法研究;徐绍勇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170315(第3期);I138-6141 * |
Also Published As
Publication number | Publication date |
---|---|
CN110968675A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220188369A1 (en) | High-speed delay scanning and deep learning techniques for spectroscopic srs imaging | |
Lu et al. | a web‐based personalized business partner recommendation system using fuzzy semantic techniques | |
US8825853B1 (en) | Automatic, personalized online information and product services | |
Sharma et al. | A survey of recommender systems: approaches and limitations | |
US20140143250A1 (en) | Centralized Tracking of User Interest Information from Distributed Information Sources | |
Tewari et al. | Sequencing of items in personalized recommendations using multiple recommendation techniques | |
US9317584B2 (en) | Keyword index pruning | |
CN110968675B (zh) | 一种基于多领域语义融合的推荐方法及系统 | |
CN112149734B (zh) | 一种基于堆叠自编码器的跨域推荐方法 | |
Luo et al. | Sentiment analysis | |
CN115329215A (zh) | 异构网络中基于自适应动态知识图谱的推荐方法及系统 | |
Hoang et al. | Academic event recommendation based on research similarity and exploring interaction between authors | |
CN109299368B (zh) | 一种用于环境信息资源ai智能个性化推荐的方法及系统 | |
Abbas et al. | A deep learning approach for context-aware citation recommendation using rhetorical zone classification and similarity to overcome cold-start problem | |
Sobecki | Ant colony metaphor applied in user interface recommendation | |
Al Ghifari et al. | Addressing cold start new user in recommender system based on hybrid approach: A review and bibliometric analysis | |
Ye et al. | A collaborative neural model for rating prediction by leveraging user reviews and product images | |
Fakhfakh et al. | Fuzzy User Profile Modeling for Information Retrieval. | |
Tselenti et al. | A review of trust-aware recommender systems based on graph theory | |
CN117851688B (zh) | 基于深度学习及用户评论内容的个性化推荐方法 | |
Liu | Personalized Recommendation Algorithm for Movie Data Combining Rating Matrix and User Subjective Preference | |
Nazari et al. | MoGaL: Novel Movie Graph Construction by Applying LDA on Subtitle | |
Li et al. | A hybrid recommendation algorithm combing naive bayes classifier and the users’ trust relationship | |
Sobecki | Consensus-Based Hybrid Adaptation of Web Systems User Interfaces. | |
Aggarwal et al. | Temporal effects in collaborative filtering for recommendation systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |