CN110377845A - 基于区间半监督lda的协同过滤推荐方法 - Google Patents

基于区间半监督lda的协同过滤推荐方法 Download PDF

Info

Publication number
CN110377845A
CN110377845A CN201910674286.4A CN201910674286A CN110377845A CN 110377845 A CN110377845 A CN 110377845A CN 201910674286 A CN201910674286 A CN 201910674286A CN 110377845 A CN110377845 A CN 110377845A
Authority
CN
China
Prior art keywords
document
document set
user
topic
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910674286.4A
Other languages
English (en)
Other versions
CN110377845B (zh
Inventor
程戈
钟杰
张冬良
谢辉
李龙键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201910674286.4A priority Critical patent/CN110377845B/zh
Publication of CN110377845A publication Critical patent/CN110377845A/zh
Application granted granted Critical
Publication of CN110377845B publication Critical patent/CN110377845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及个性化推荐领域,具体涉及一种基于区间半监督LDA的协同过滤推荐方法。步骤如下:S1处理原始文档集,获取由单个词组成的文档集D;S2根据用户相关的子主题,构建关键词集Ws;S3将每组关键词分别固定到一个主题区间并改进吉布斯采样过程;S4对文档集中所有的词汇W随机给出主题编号zi;S5利用改进后的吉布斯采样方法再一次对文档集中所有的词汇进行采样,并更新所有数据;S6重复步骤S5,直到改进后的吉布斯采样收敛。S7统计每篇文档中的主题分布构建文档集的主题分布矩阵Hq,l;S8使用KL散度计算文档之间的相似度矩阵Wm,n;S9利用相似度矩阵获取推荐文档集。本发明提出的方法明显提高了对预定的主题领域感兴趣的用户的推荐准确率。

Description

基于区间半监督LDA的协同过滤推荐方法
技术领域
本发明涉及智能管理的学习处理领域,具体涉及一种基于区间半监督LDA的协同过滤推荐方法。
背景技术
随着互联网技术的迅速发展,大量的信息呈现在人们面前,满足了人们在信息时代对信息的需求,同时也带来了信息量的大幅增长。用户在面对大量信息时很难从中获得对自己真正有价值的那部分信息,因此信息时代下的信息使用率反而降低了。个性化推荐技术从20世纪90年代中期开始出现,亚马逊的基于项目的协同过滤方法是个性化推荐发展的一个重要阶段。由于给亚马逊增加了将近25%的访问量,由此也掀起了个性化推荐的研究热潮。
协同过滤推荐方法是最常用的个性化推荐方法之一,其利用大量相关数据对用户行为相似性进行分析并为用户提供个性化推荐。在大数据时代,大量的数据呈现在人们面前,而个性化推荐的实现需要挖掘数据中的隐含信息。LDA主题模型通常用于获取文档的主题分布信息,因此,许多学者尝试将LDA主题模型应用于协同过滤推荐方法之中,并且不断地进行探索优化。
传统的LDA主题模型是无监督主题模型,在实际的文本挖掘应用中,整个数据集经常需要处理大量的主题,而用户实际上只对其中一小部分主题感兴趣。在这种情况下,直接应用LDA模型存在明显的缺点。即LDA模型在处理大量主题的过程中,往往会生成很多的局部极大值;这使得模型可能会给出许多“垃圾”主题,最终生成不稳定的结果。但是,在多数情况下数据集中相关主题存在的数量太少,所以需要使用大量的主题以无监督的方式来捕获它们。
发明内容
本发明在LDA主题模型的基础上,固定相关主题关键词对应的主题区间,提出了区间半监督LDA主题模型。区间半监督LDA主题模型根据用户关注的子主题,确定关键词集,将每一组关键词映射到多个主题区间。并且,本发明将区间半监督LDA主题模型应用于协同过滤推荐方法之中,用以计算文档主题分布矩阵。
基于区间半监督LDA的协同过滤推荐方法,所述方法包括一下步骤:
S1处理原始文档集,获取由单个词组成的文档集D;
S2根据用户相关的子主题,构建关键词集Ws
S3将每组关键词分别固定到一个主题区间并改进吉布斯采样过程;
S4对文档集中所有的词汇w随机给出主题编号zi
S5利用改进后的吉布斯采样方法再一次对文档集中所有的词汇进行采样,并且更新所有数据;
S6重复步骤S5,直到改进后的吉布斯采样收敛。
S7统计每篇文档中的主题分布构建文档集的主题分布矩阵Hq,1
S8使用KL散度计算文档之间的相似度矩阵Wm,n
S9利用相似度矩阵获取推荐文档集。
其中,在所述步骤S1中,原始文档集包括用户文档集和备选推荐文档集;用户文档集包括用户阅读、发布或转发的文档等,备选推荐文档集指根据具体情况获取的可从中选取推荐文档的文档集。
在所述步骤S1中,对原始文档集中的文档进行的处理是指分词处理,并且去除其中的语气助词等停用词。
在步骤S2中,提到的用户相关的子主题是指根据用户阅读、发表或转发的文档总结得出的用户感兴趣的子主题。
在步骤S2中提到的关键词集指能代表子主题的某些词的组合。
在步骤S3中将每一组关键词映射到多个主题,并且选择相邻的主题区间
在步骤S3中改进吉布斯抽样过程,其计算公式如下:
其中,表示预定义关键词w对应的主题区间;为确定位置的指示函数:如果主题q(zi,t,z-i,i,α,β)表示传统的吉布斯采样过程。
在步骤S7中,在吉布斯采样收敛之后,已知每篇文档主题-词的频率矩阵,根据频率矩阵计算每篇文档的主题分布。
在步骤S8中利用KL散度分别计算用户文档集中每篇文档的主题分布与备选推荐文档集中每篇文档的主题分布之间的相似度,构建相似度矩阵。
在步骤S9中,据文档相似矩阵选取相似度最大的前N篇文档形成初始的推荐列表,对比推荐文档与用户阅读过的文档,删除重复文档并且过滤低质量文档,得到最终的推荐文档。
本发明技术效果或优点:
相比于现有的技术方案,本发明提出的基于区间半监督LDA的协同过滤推荐方法将关键词映射到一个主题区间而不是单独的一个主题,这样可以有效避免忽略其他有效主题,提高了现有推荐方法的推荐准确率并且通过简化吉布斯采样的过程,提高了模型的计算效率。
附图说明
图1是基于区间半监督LDA的协同过滤推荐方法流程图。
图2是LDA主题模型、半监督LDA主题模型和区间半监督LDA主题模型的图模型。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式做进一步的描述。
基于区间半监督LDA的协同过滤推荐方法,如图1所示,所述方法包括以下步骤:
S1处理原始文档集,获取由单个词组成的文档集D;
S2根据用户相关的子主题,构建关键词集Ws
S3将每组关键词分别固定到一个主题区间并在此基础上改进吉布斯采样过程;
S4对文档集中所有的词汇w随机给出主题编号zi
S5利用改进后的吉布斯采样方法再一次对文档集中所有的词汇进行采样,并且更新所有数据;
S6重复步骤S5,直到改进后的吉布斯采样收敛。
S7统计每篇文档中的主题分布构建文档集的主题分布矩阵Hq,1
S8使用KL散度计算文档之间的相似度矩阵Wm,n
S9利用相似度矩阵获取推荐文档集。
在步骤S1中,数据预处理数据预处理的步骤主要包括:
1)数据筛选:由于所有数据均由万维网直接获取,因此需要对其进行筛选。过滤掉一些质量不过关的文档,例如文字数量不超过50的文档等。
2)分词:需要对文本数据进行分词处理,将单篇文档分解为一个个独立的词。本发明使用python语言的jieba程序包对文本数据进行分词处理。同时本发明在分词处理中加入了一部分自定义词,如倪大红等知名人物名称等。
3)去除停用词:为了节省空间和提高搜索效率,本发明在处理文本之前会对分词结果进行去除标点符号以及一些与表征语意无关的停用词的处理。停用词是指中文中的一些特殊的词,这些词主要包括:语气助词、副词、介词、连接词等,本文根据实际情况创建了自己的停用词表。
在步骤S3中,本发明建议将每一组关键词映射到多个主题,而选择相邻的区间比较方便,所以使用区间半监督LDA。每个关键词w∈Ws都被映射到一个区间并且概率分布仅限于该区间;生成的图模型如图2c所示,其中为确定位置的指示函数:如果在吉布斯抽样中,需将所有之外的主题概率设置为零并重整分布(w=wi是实例j中的词),最终改进后的吉布斯采样过程表示为:
区间半监督LDA能够使得几个关键词集代表不同的兴趣主题:一个简单的原则是分配不相交的主题区间。由公式可以看出当词包含在关键词集中时,区间半监督LDA主题模型会排除主题不属于预定义主题区间的情况,只计算包含于预定义主题区间的主题分布。由此,区间半监督LDA主题模型会具备半监督LDA的所有优点,包括解决由处理大量无关主题而产生局部极大值的问题和提高模型的计算效率。同时,由于区间半监督LDA主题模型将关键词映射到一个主题区间而不是单独的一个主题,这样也可以有效避免忽略其他有效主题。
在步骤S8中,使用KL散度计算文档相似度矩阵。KL散度是一种量化两种概率分布P和Q之间差异的方式,又叫相对熵。KL散度的计算公式为:
从KL散度的计算公式可以看出其结果并对称,也就是说DK,L(p||q)≠DK,L(q||p),本发明采用平均数将其转化为对称的。即:
wp,q=[DK,L(p||q)+DK,L(q||p)]/2
在已知主题分布矩阵的条件下,利用KL散度即可计算文档相似度矩阵。
在步骤S9中,已知初始推荐文档之后,不能把文档直接推荐给用户,需要首先删除重复文档并且对文档进行过滤操作。
1)对比推荐文档与用户阅读过的文档,删除重复文档。在用户已经阅读过该文档的前提下,没有必要再推荐此文档,这样可以有效提高推荐文档的新颖性。
2)过滤低质量文档。在向用户推荐文档之前,需要对文档质量进行检测,推荐高质量文档,提高用户的体验。
本发明提供了一种基于区间半监督LDA的协同过滤推荐方法实施方式,并不构成对本发明的保护权限,任何在本发明上的改进,只要原理相同,都包含在本发明的权利要求之内。

Claims (10)

1.基于区间半监督LDA的协同过滤推荐方法,所述方法包括一下步骤:
S1处理原始文档集,获取由词组成的文档集D;
S2根据用户相关的子主题,构建关键词集Ws
S3将每组关键词分别固定到一个主题区间并在此基础上改进吉布斯采样过程;
S4对文档集中所有的词汇w随机给出主题编号zi
S5利用改进后的吉布斯采样方法再一次对文档集中所有的词汇进行采样,并且更新所有数据;
S6重复步骤S5,直到改进后的吉布斯采样收敛;
S7统计每篇文档中的主题分布构建文档集的主题分布矩阵Hq,l
S8使用KL散度计算文档之间的相似度矩阵Wm,n
S9利用相似度矩阵获取推荐文档集。
2.根据权利要求1的方法,其中在所述步骤S1中,原始文档集包括用户文档集和备选推荐文档集;用户文档集包括用户阅读、发布或转发的文档等,备选推荐文档集指根据具体情况获取的可从中选取推荐文档的文档集。
3.根据权利要求1或2,其中在所述步骤S1中,对原始文档集中的文档进行的处理是指分词处理,并且去除其中的语气助词等停用词。
4.根据权利1-3中的任何一项方法,在步骤S2中提到的用户相关的子主题是指根据用户阅读、发表或转发的文档总结得出的用户感兴趣的子主题。
5.根据权利1-4中的任何一项方法,在步骤S2中提到的关键词集指能代表子主题的某些词的组合。
6.根据权利要求1-5中的任何一项方法,在步骤S3中将每一组关键词映射到多个主题,并且选择相邻的主题区间
7.根据权利要求1-6中的任何一项方法,在步骤S3中改进吉布斯抽样过程,其计算公式如下:
其中,表示预定义关键词w对应的主题区间;为确定位置的指示函数:如果主题q(zi,t,z-i,i,α,β)表示传统的吉布斯采样过程。
8.根据权利要求1-7中的任何一项方法,在步骤S7中,在吉布斯采样收敛之后,已知每篇文档主题-词的频率矩阵,根据频率矩阵计算每篇文档的主题分布。
9.根据权利要求1-8中的任何一项方法,在步骤S8中利用KL散度分别计算用户文档集中每篇文档的主题分布与备选推荐文档集中每篇文档的主题分布之间的相似度,构建相似度矩阵。
10.根据权利要求1-9中的任何一项方法,在步骤S9中,据文档相似矩阵选取相似度最大的前N篇文档形成初始的推荐列表,对比推荐文档与用户阅读过的文档,删除重复文档并且过滤低质量文档,得到最终的推荐文档。
CN201910674286.4A 2019-07-24 2019-07-24 基于区间半监督lda的协同过滤推荐方法 Active CN110377845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910674286.4A CN110377845B (zh) 2019-07-24 2019-07-24 基于区间半监督lda的协同过滤推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910674286.4A CN110377845B (zh) 2019-07-24 2019-07-24 基于区间半监督lda的协同过滤推荐方法

Publications (2)

Publication Number Publication Date
CN110377845A true CN110377845A (zh) 2019-10-25
CN110377845B CN110377845B (zh) 2022-07-22

Family

ID=68255748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910674286.4A Active CN110377845B (zh) 2019-07-24 2019-07-24 基于区间半监督lda的协同过滤推荐方法

Country Status (1)

Country Link
CN (1) CN110377845B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538846A (zh) * 2020-04-16 2020-08-14 武汉大学 基于混合协同过滤的第三方库推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法
CN103886067A (zh) * 2014-03-20 2014-06-25 浙江大学 使用标签隐含主题进行图书推荐的方法
US20160210718A1 (en) * 2015-01-16 2016-07-21 Oracle International Corporation Data-parallel parameter estimation of the latent dirichlet allocation model by greedy gibbs sampling
CN106897363A (zh) * 2017-01-11 2017-06-27 同济大学 基于眼动追踪的文本推荐方法
CN109885675A (zh) * 2019-02-25 2019-06-14 合肥工业大学 基于改进lda的文本子话题发现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823848A (zh) * 2014-02-11 2014-05-28 浙江大学 一种基于lda和vsm的中草药相似文献的推荐方法
CN103886067A (zh) * 2014-03-20 2014-06-25 浙江大学 使用标签隐含主题进行图书推荐的方法
US20160210718A1 (en) * 2015-01-16 2016-07-21 Oracle International Corporation Data-parallel parameter estimation of the latent dirichlet allocation model by greedy gibbs sampling
CN106897363A (zh) * 2017-01-11 2017-06-27 同济大学 基于眼动追踪的文本推荐方法
CN109885675A (zh) * 2019-02-25 2019-06-14 合肥工业大学 基于改进lda的文本子话题发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIUZE ZHOU等: ""Rating LDA model for collaborative filtering"", 《KNOWLEDGE-BASED SYSTEMS》 *
毛玲: ""基于LDA的文本主题挖掘研究"", 《中国优秀博硕士学位论文全文数据库(硕士) 社会科学Ⅱ辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538846A (zh) * 2020-04-16 2020-08-14 武汉大学 基于混合协同过滤的第三方库推荐方法

Also Published As

Publication number Publication date
CN110377845B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN107451126B (zh) 一种近义词筛选方法及系统
CN111950273B (zh) 基于情感信息抽取分析的网络舆情突发事件自动识别方法
CN108268600B (zh) 基于ai的非结构化数据管理方法及装置
US20150310862A1 (en) Deep learning for semantic parsing including semantic utterance classification
CN109815336B (zh) 一种文本聚合方法及系统
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN105138864B (zh) 基于生物医学文献的蛋白质交互关系数据库构建方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN109299266B (zh) 一种用于中文新闻突发事件的文本分类与抽取方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN114997288A (zh) 一种设计资源关联方法
CN115017903A (zh) 文档层次结构联合全局局部信息抽取关键短语方法及系统
CN103218368A (zh) 一种挖掘热词的方法与装置
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN110377845B (zh) 基于区间半监督lda的协同过滤推荐方法
CN107908749A (zh) 一种基于搜索引擎的人物检索系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20191025

Assignee: Xiangtan Productivity Promotion Center Co.,Ltd.

Assignor: XIANGTAN University

Contract record no.: X2022980029966

Denomination of invention: A collaborative filtering recommendation method based on interval semi-supervised LDA

Granted publication date: 20220722

License type: Common License

Record date: 20230103