CN110377845A

CN110377845A - 基于区间半监督lda的协同过滤推荐方法

Info

Publication number: CN110377845A
Application number: CN201910674286.4A
Authority: CN
Inventors: 程戈; 钟杰; 张冬良; 谢辉; 李龙键
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-10-25
Anticipated expiration: 2039-07-24
Also published as: CN110377845B

Abstract

本发明涉及个性化推荐领域，具体涉及一种基于区间半监督LDA的协同过滤推荐方法。步骤如下：S1处理原始文档集，获取由单个词组成的文档集D；S2根据用户相关的子主题，构建关键词集W_s；S3将每组关键词分别固定到一个主题区间并改进吉布斯采样过程；S4对文档集中所有的词汇W随机给出主题编号z_i；S5利用改进后的吉布斯采样方法再一次对文档集中所有的词汇进行采样，并更新所有数据；S6重复步骤S5，直到改进后的吉布斯采样收敛。S7统计每篇文档中的主题分布构建文档集的主题分布矩阵H_q,l；S8使用KL散度计算文档之间的相似度矩阵W_m,n；S9利用相似度矩阵获取推荐文档集。本发明提出的方法明显提高了对预定的主题领域感兴趣的用户的推荐准确率。

Description

基于区间半监督LDA的协同过滤推荐方法

技术领域

本发明涉及智能管理的学习处理领域，具体涉及一种基于区间半监督LDA的协同过滤推荐方法。

背景技术

随着互联网技术的迅速发展，大量的信息呈现在人们面前，满足了人们在信息时代对信息的需求，同时也带来了信息量的大幅增长。用户在面对大量信息时很难从中获得对自己真正有价值的那部分信息，因此信息时代下的信息使用率反而降低了。个性化推荐技术从20世纪90年代中期开始出现，亚马逊的基于项目的协同过滤方法是个性化推荐发展的一个重要阶段。由于给亚马逊增加了将近25％的访问量，由此也掀起了个性化推荐的研究热潮。

协同过滤推荐方法是最常用的个性化推荐方法之一，其利用大量相关数据对用户行为相似性进行分析并为用户提供个性化推荐。在大数据时代，大量的数据呈现在人们面前，而个性化推荐的实现需要挖掘数据中的隐含信息。LDA主题模型通常用于获取文档的主题分布信息，因此，许多学者尝试将LDA主题模型应用于协同过滤推荐方法之中，并且不断地进行探索优化。

传统的LDA主题模型是无监督主题模型，在实际的文本挖掘应用中，整个数据集经常需要处理大量的主题，而用户实际上只对其中一小部分主题感兴趣。在这种情况下，直接应用LDA模型存在明显的缺点。即LDA模型在处理大量主题的过程中，往往会生成很多的局部极大值；这使得模型可能会给出许多“垃圾”主题，最终生成不稳定的结果。但是，在多数情况下数据集中相关主题存在的数量太少，所以需要使用大量的主题以无监督的方式来捕获它们。

发明内容

本发明在LDA主题模型的基础上，固定相关主题关键词对应的主题区间，提出了区间半监督LDA主题模型。区间半监督LDA主题模型根据用户关注的子主题，确定关键词集，将每一组关键词映射到多个主题区间。并且，本发明将区间半监督LDA主题模型应用于协同过滤推荐方法之中，用以计算文档主题分布矩阵。

基于区间半监督LDA的协同过滤推荐方法，所述方法包括一下步骤：

S1处理原始文档集，获取由单个词组成的文档集D；

S2根据用户相关的子主题，构建关键词集W_s；

S3将每组关键词分别固定到一个主题区间并改进吉布斯采样过程；

S4对文档集中所有的词汇w随机给出主题编号z_i；

S5利用改进后的吉布斯采样方法再一次对文档集中所有的词汇进行采样，并且更新所有数据；

S6重复步骤S5，直到改进后的吉布斯采样收敛。

S7统计每篇文档中的主题分布构建文档集的主题分布矩阵H_q，1；

S8使用KL散度计算文档之间的相似度矩阵W_m，n；

S9利用相似度矩阵获取推荐文档集。

其中，在所述步骤S1中，原始文档集包括用户文档集和备选推荐文档集；用户文档集包括用户阅读、发布或转发的文档等，备选推荐文档集指根据具体情况获取的可从中选取推荐文档的文档集。

在所述步骤S1中，对原始文档集中的文档进行的处理是指分词处理，并且去除其中的语气助词等停用词。

在步骤S2中，提到的用户相关的子主题是指根据用户阅读、发表或转发的文档总结得出的用户感兴趣的子主题。

在步骤S2中提到的关键词集指能代表子主题的某些词的组合。

在步骤S3中将每一组关键词映射到多个主题，并且选择相邻的主题区间

在步骤S3中改进吉布斯抽样过程，其计算公式如下：

其中，表示预定义关键词w对应的主题区间；为确定位置的指示函数：如果主题则q(z_i，t，z_-i，i，α，β)表示传统的吉布斯采样过程。

在步骤S7中，在吉布斯采样收敛之后，已知每篇文档主题-词的频率矩阵，根据频率矩阵计算每篇文档的主题分布。

在步骤S8中利用KL散度分别计算用户文档集中每篇文档的主题分布与备选推荐文档集中每篇文档的主题分布之间的相似度，构建相似度矩阵。

在步骤S9中，据文档相似矩阵选取相似度最大的前N篇文档形成初始的推荐列表，对比推荐文档与用户阅读过的文档，删除重复文档并且过滤低质量文档，得到最终的推荐文档。

本发明技术效果或优点：

相比于现有的技术方案，本发明提出的基于区间半监督LDA的协同过滤推荐方法将关键词映射到一个主题区间而不是单独的一个主题，这样可以有效避免忽略其他有效主题，提高了现有推荐方法的推荐准确率并且通过简化吉布斯采样的过程，提高了模型的计算效率。

附图说明

图1是基于区间半监督LDA的协同过滤推荐方法流程图。

图2是LDA主题模型、半监督LDA主题模型和区间半监督LDA主题模型的图模型。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式做进一步的描述。

基于区间半监督LDA的协同过滤推荐方法，如图1所示，所述方法包括以下步骤：

S1处理原始文档集，获取由单个词组成的文档集D；

S2根据用户相关的子主题，构建关键词集W_s；

S3将每组关键词分别固定到一个主题区间并在此基础上改进吉布斯采样过程；

S4对文档集中所有的词汇w随机给出主题编号z_i；

S6重复步骤S5，直到改进后的吉布斯采样收敛。

S8使用KL散度计算文档之间的相似度矩阵W_m，n；

S9利用相似度矩阵获取推荐文档集。

在步骤S1中，数据预处理数据预处理的步骤主要包括：

1)数据筛选：由于所有数据均由万维网直接获取，因此需要对其进行筛选。过滤掉一些质量不过关的文档，例如文字数量不超过50的文档等。

2)分词：需要对文本数据进行分词处理，将单篇文档分解为一个个独立的词。本发明使用python语言的jieba程序包对文本数据进行分词处理。同时本发明在分词处理中加入了一部分自定义词，如倪大红等知名人物名称等。

3)去除停用词：为了节省空间和提高搜索效率，本发明在处理文本之前会对分词结果进行去除标点符号以及一些与表征语意无关的停用词的处理。停用词是指中文中的一些特殊的词，这些词主要包括：语气助词、副词、介词、连接词等，本文根据实际情况创建了自己的停用词表。

在步骤S3中，本发明建议将每一组关键词映射到多个主题，而选择相邻的区间比较方便，所以使用区间半监督LDA。每个关键词w∈W_s都被映射到一个区间并且概率分布仅限于该区间；生成的图模型如图2c所示，其中为确定位置的指示函数：如果则在吉布斯抽样中，需将所有之外的主题概率设置为零并重整分布(w＝w_i是实例j中的词)，最终改进后的吉布斯采样过程表示为：

区间半监督LDA能够使得几个关键词集代表不同的兴趣主题：一个简单的原则是分配不相交的主题区间。由公式可以看出当词包含在关键词集中时，区间半监督LDA主题模型会排除主题不属于预定义主题区间的情况，只计算包含于预定义主题区间的主题分布。由此，区间半监督LDA主题模型会具备半监督LDA的所有优点，包括解决由处理大量无关主题而产生局部极大值的问题和提高模型的计算效率。同时，由于区间半监督LDA主题模型将关键词映射到一个主题区间而不是单独的一个主题，这样也可以有效避免忽略其他有效主题。

在步骤S8中，使用KL散度计算文档相似度矩阵。KL散度是一种量化两种概率分布P和Q之间差异的方式，又叫相对熵。KL散度的计算公式为：

从KL散度的计算公式可以看出其结果并对称，也就是说D_K,L(p||q)≠D_K,L(q||p)，本发明采用平均数将其转化为对称的。即：

w_p,q＝[D_K，L(p||q)+D_K,L(q||p)]/2

在已知主题分布矩阵的条件下，利用KL散度即可计算文档相似度矩阵。

在步骤S9中，已知初始推荐文档之后，不能把文档直接推荐给用户，需要首先删除重复文档并且对文档进行过滤操作。

1)对比推荐文档与用户阅读过的文档，删除重复文档。在用户已经阅读过该文档的前提下，没有必要再推荐此文档，这样可以有效提高推荐文档的新颖性。

2)过滤低质量文档。在向用户推荐文档之前，需要对文档质量进行检测，推荐高质量文档，提高用户的体验。

本发明提供了一种基于区间半监督LDA的协同过滤推荐方法实施方式，并不构成对本发明的保护权限，任何在本发明上的改进，只要原理相同，都包含在本发明的权利要求之内。

Claims

1.基于区间半监督LDA的协同过滤推荐方法，所述方法包括一下步骤：

S1处理原始文档集，获取由词组成的文档集D；

S2根据用户相关的子主题，构建关键词集W_s；

S4对文档集中所有的词汇w随机给出主题编号z_i；

S6重复步骤S5，直到改进后的吉布斯采样收敛；

S7统计每篇文档中的主题分布构建文档集的主题分布矩阵H_q,l；

S8使用KL散度计算文档之间的相似度矩阵W_m,n；

S9利用相似度矩阵获取推荐文档集。

2.根据权利要求1的方法，其中在所述步骤S1中，原始文档集包括用户文档集和备选推荐文档集；用户文档集包括用户阅读、发布或转发的文档等，备选推荐文档集指根据具体情况获取的可从中选取推荐文档的文档集。

3.根据权利要求1或2，其中在所述步骤S1中，对原始文档集中的文档进行的处理是指分词处理，并且去除其中的语气助词等停用词。

4.根据权利1-3中的任何一项方法，在步骤S2中提到的用户相关的子主题是指根据用户阅读、发表或转发的文档总结得出的用户感兴趣的子主题。

5.根据权利1-4中的任何一项方法，在步骤S2中提到的关键词集指能代表子主题的某些词的组合。

6.根据权利要求1-5中的任何一项方法，在步骤S3中将每一组关键词映射到多个主题，并且选择相邻的主题区间

7.根据权利要求1-6中的任何一项方法，在步骤S3中改进吉布斯抽样过程，其计算公式如下：

其中，表示预定义关键词w对应的主题区间；为确定位置的指示函数：如果主题则q(z_i,t,z_-i,i,α,β)表示传统的吉布斯采样过程。

8.根据权利要求1-7中的任何一项方法，在步骤S7中，在吉布斯采样收敛之后，已知每篇文档主题-词的频率矩阵，根据频率矩阵计算每篇文档的主题分布。

9.根据权利要求1-8中的任何一项方法，在步骤S8中利用KL散度分别计算用户文档集中每篇文档的主题分布与备选推荐文档集中每篇文档的主题分布之间的相似度，构建相似度矩阵。

10.根据权利要求1-9中的任何一项方法，在步骤S9中，据文档相似矩阵选取相似度最大的前N篇文档形成初始的推荐列表，对比推荐文档与用户阅读过的文档，删除重复文档并且过滤低质量文档，得到最终的推荐文档。